INTRODUC˘AO~ A ANALISE DE DADOS CATEGORICOS Suely Ruiz …niveam/micro da sala/bom/Dados_Categoricos.… · INTRODUC˘AO~ A ANALISE DE DADOS CATEGORICOS Suely Ruiz Giolo Departamento

INTRODUCAO A

ANALISE DE DADOS

CATEGORICOS

Suely Ruiz Giolo

Departamento de Estatıstica - UFPR

2006

Conteudo

Prefacio v

1 Conceitos Introdutorios 1

1.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Escalas de Mensuracao . . . . . . . . . . . . . . . . . . . . . 2

1.3 Esquemas ou Delineamentos Amostrais . . . . . . . . . . . . 5

1.3.1 Modelo Produto de Binomiais independentes . . . . 5

1.3.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . 7

1.3.3 Modelo Produto de Poisson . . . . . . . . . . . . . . 7

1.3.4 Modelo Hipergeometrico . . . . . . . . . . . . . . . . 9

1.3.5 Consideracoes sobre os delineamentos amostrais . . . 9

1.4 Estudos clınicos e modelos associados . . . . . . . . . . . . 10

1.4.1 Estudos Descritivos . . . . . . . . . . . . . . . . . . 11

1.4.2 Estudos de Coorte . . . . . . . . . . . . . . . . . . . 11

1.4.3 Estudos Caso-Controle . . . . . . . . . . . . . . . . . 14

1.4.4 Ensaios clınicos aleatorizados . . . . . . . . . . . . . 16

1.4.5 Estudos tranversais ou cross-sectional . . . . . . . . 18

1.5 Incidencia e prevalencia . . . . . . . . . . . . . . . . . . . . 20

1.6 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

i

ii CONTEUDO

2 Estrategias de Analise 25

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2 Analise de Tabelas de Contingencia 2 × 2 . . . . . . . . . . 25

2.2.1 Estatısticas de Teste . . . . . . . . . . . . . . . . . . 26

2.2.2 Medidas de Associacao . . . . . . . . . . . . . . . . . 28

2.2.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.4 Sensibilidade e Especificidade . . . . . . . . . . . . . 35

2.2.5 Teste de McNemar . . . . . . . . . . . . . . . . . . . 37

2.3 Analise de Tabelas de Contingencia 2 × r . . . . . . . . . . 38

2.3.1 Escolha dos Escores . . . . . . . . . . . . . . . . . . 40

2.4 Analise de Tabelas de Contingencia s × 2 . . . . . . . . . . 41

2.5 Analise de Tabelas de Contingencia s × r . . . . . . . . . . 43

2.5.1 Associacao geral em tabelas s × r . . . . . . . . . . . 43

2.5.2 Teste exato para associacao geral em tabelas s × r . 45

2.5.3 Medidas de associacao em tabelas s × r . . . . . . . 46

2.5.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 47

2.6 Analise Estratificada . . . . . . . . . . . . . . . . . . . . . . 51

2.6.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . 53

2.6.2 Medidas de associacao . . . . . . . . . . . . . . . . . 54

2.6.3 Analise estratificada em tabelas s × r (s, r > 2) . . . 59

2.7 Concordancia entre observadores . . . . . . . . . . . . . . . 59

2.7.1 Estatıstica Kappa . . . . . . . . . . . . . . . . . . . 59

2.7.2 Estatıstica Kappa ponderada . . . . . . . . . . . . . 61

2.7.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3 Regressao Logıstica 71

3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.2 Regressao Logıstica Dicotomica . . . . . . . . . . . . . . . . 71

CONTEUDO iii

3.2.1 Estimacao dos parametros . . . . . . . . . . . . . . . 76

3.2.2 Significancia das variaveis no modelo . . . . . . . . . 78

3.2.3 Analise de deviance e selecao de modelos . . . . . . 80

3.2.4 Qualidade do modelo ajustado . . . . . . . . . . . . 82

3.2.5 Diagnostico da regressao logıstica . . . . . . . . . . . 83

3.2.6 O modelo ajustado e interpretacoes . . . . . . . . . . 85

3.2.7 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 86

3.2.8 Metodos auxiliares no diagnotico do modelo ajustado 100

3.2.9 Outros modelos com resposta dicotomica . . . . . . 102

3.3 Regressao Logıstica Politomica . . . . . . . . . . . . . . . . 103

3.3.1 Resposta ordinal: modelo de odds proporcionais . . . 103

3.3.2 Resposta nominal: modelo de logitos generalizados . 110

3.4 Regressao Logıstica Condicional . . . . . . . . . . . . . . . . 117

3.4.1 Estudos prospectivos: contagem pequena nos estratos 118

3.4.2 Estudos crossover . . . . . . . . . . . . . . . . . . . . 122

3.4.3 Estudos retrospectivos com observacoes pareadas . . 126

3.5 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

Apendice 133

Bibliografia 153

Prefacio

Este material apresenta um texto introdutorio sobre analise de dados ca-

tegoricos em que o principal objetivo e oferecer um texto, em portugues,

que possa servir de apoio em cursos de graduacao em Estatıstica. De modo

geral, a apresentacao de conceitos, metodologias e modelos estatısticos e

feita sob um enfoque mais aplicado do que essencialmente teorico. Varios

livros que apresentam este assunto, e o fazem em diferentes nıveis, enfases e

abordagens, foram utilizados na composicao do texto. Para as analises es-

tatısticas foi adotado o software R. Em alguns casos, contudo, foi necessario

utilizar o software SAS. Nocoes basicas de probabilidade, inferencia, re-

gressao e alguns testes nao-parametricos, sao conhecimentos uteis para com-

preensao do conteudo apresentado.

Varios alunos de graduacao em Estatıstica da Universidade Federal

do Parana tiveram acesso a este material, ou parte dele. Agradecimen-

tos aqueles que, direta ou indiretamente, contribuıram para a versao atual

do texto, que foi editado no LATEX. Visto que o mesmo nao se encontra livre

de erros e imperfeicoes, comentarios, crıticas e sugestoes sao bem-vindos.

Suely Ruiz Giolo

junho de 2006.

v

Capıtulo 1

Conceitos Introdutorios

1.1 Introducao

Muitos analistas frequentemente se deparam com experimentos em que as

respostas de interesse sao categoricas, refletindo, assim, categorias de in-

formacao em vez da usual escala intervalar. Exemplos de variaveis resposta

categoricas sao, dentre outros, melhora do paciente (sim ou nao), sintomas

de uma doenca (sim ou nao), desempenho do candidato (bom, regular ou

pessimo) e horas de alıvio de dor de cabeca (0, 1, 2, 3 ou 4).

A analise de experimentos em que a variavel resposta e por natureza

categorica e denominada analise de dados categoricos ou, tambem, analise

de dados discretos, isto porque distribuicoes discretas de probabilidade

encontram-se associadas as variaveis resposta. As demais variaveis envolvi-

das nestes experimentos, as quais, em geral, se tem interesse em verificar se

estariam associadas com a variavel resposta, podem ser tanto categoricas

quanto contınuas. Em alguns casos, variaveis contınuas sao categorizadas

por interesse do pesquisador. A idade, por exemplo, pode ser categorizada

em faixas etarias, bem como o resultado de um exame medico, catego-

rizado em normal ou anormal. O peso, por sua vez, pode ser categorizado

1

2 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.

em obeso e nao-obeso ou, ainda, em intervalos tais como < 60, [60, 100),

[100, 150) e ≥ 150kg. As variaveis, que nao a resposta, sao denominadas,

entre outros, de fatores, variaveis explanatorias ou covariaveis.

Dados em que a variavel resposta e as covariaveis sao categoricas, ou

foram categorizadas, sao, em geral, apresentados nas, assim denominadas,

tabelas de contingencia. Essas tabelas sao apresentadas no decorrer deste

e dos demais capıtulos.

Note, dos exemplos de variaveis resposta e covariaveis citados, que ha

algumas diferenciacoes entre elas. Por exemplo, algumas apresentam so-

mente duas categorias, outras tres ou mais, bem como algumas apresentam

uma ordenacao natural das categorias e outras nao. Formalmente, essas

covariaveis podem ser classificadas de acordo com sua respectiva escala de

mensuracao. Por exemplo, as com somente duas categorias sao denomi-

nadas dicotomicas, as com mais de duas categorias que apresentam uma

ordenacao natural sao ditas ordinais e, assim por diante. Na Secao 1.2, sao

descritas e ilustradas as escalas de mensuracao de variaveis categoricas.

1.2 Escalas de Mensuracao

A escala de mensuracao de uma variavel resposta categorica e um elemento

importante para a escolha de uma estrategia de analise. Nao considera-

la pode, portanto, implicar na escolha inapropriada de uma estrategia

que pode levar a conclusoes erroneas. De modo geral, variaveis resposta

categoricas podem ser classificadas em: dicotomicas, ordinais, nominais ou

contagens discretas.

As dicotomicas sao aquelas que apresentam duas possibilidades de

resposta. O objetivo, por exemplo, de um ensaio clınico realizado para se

testar um novo medicamento e saber se o paciente obteve, ou nao, uma

melhora. Nesses casos, e comum a representacao dos dados em uma tabela

1.2. Escalas de Mensuracao 3

de contingencia 2 × 2, como mostrado na Tabela 1.1. A resposta, nesse

exemplo, e dicotomica e a analise investiga a relacao entre a resposta e o

medicamento.

Tabela 1.1: Resposta ao novo medicamento.

Melhora

Medicamento Sim Nao Total

Novo 40 20 60

Placebo 16 48 64

Variaveis categoricas com mais do que duas possibilidades de resposta, e

que apresentam uma certa ordenacao natural, sao tambem frequentes. Tais

variaveis, ditas apresentarem uma escala de mensuracao ordinal, podem,

por exemplo, resultar de questoes tais como: i) a nova grade curricular

produziu pequeno, algum ou grande entusiasmo entre os estudantes? ou,

ainda, ii) a agua exibe baixo, medio ou alto grau de pureza? Observe,

nesses exemplos, que ha uma ordem clara das categorias de resposta, mas

nao existe, contudo, indıcios quanto as distancias relativas entre os nıveis.

Em ii) pode-se ate pensar em uma possıvel distancia entre os nıveis. Por

exemplo, medio pode significar 2 vezes mais puro do que baixo e alto 3 vezes

mais puro do que baixo. Essas distancias nao estao, contudo, explıcitas. Em

algumas situacoes tais distancias encontram-se mais claras. Um exemplo de

experimento com resposta categorica ordinal e apresentado na Tabela 1.2.

Observe que variaveis resposta categoricas podem ser tratadas de dife-

rentes modos. Pode-se, por exemplo, combinar as categorias de resposta

acentuada e alguma, apresentadas na Tabela 1.2, para produzir uma res-

posta dicotomica: melhora versus nao melhora. Grupar categorias e usual

durante uma analise se, e claro, a resposta dicotomica resultante for de

interesse.


Tabela 1.2: Resultados de um ensaio clınico realizado com pacientes de

ambos os sexos para investigar um tratamento para artrite reumatoide.

Melhora

Sexo Tratamento Acentuada Alguma Nenhuma Total

Feminino Ativo 16 5 6 27

Feminino Placebo 6 7 19 32

Masculino Ativo 5 2 7 14

Masculino Placebo 1 0 10 11

Se, no entanto, existirem mais do que duas categorias de resposta e ne-

nhuma ordenacao para estas categorias, tem-se uma escala de mensuracao

nominal. Por exemplo, i) preferencia de local para passar as ferias: praia,

montanha ou fazenda; ii) candidato de sua preferencia: A, X, Y ou Z.

Observe, em ambos os exemplos, que nao existe nenhuma aparente maneira

de ordenar as categorias de resposta.

Variaveis resposta categoricas podem, tambem, apresentar contagens

discretas. Em vez de categorias, tais como sim e nao ou baixo, medio e

alto, as respostas sao numeros. Alguns exemplos sao: i) tamanho da ninha-

da: 1, 2, 3, 4 ou 5; ii) numero de televisores em casa: 1, 2, 3 ou 4. Em

tais situacoes poder-se-ia pensar na usual estrategia de analisar a contagem

media. No entanto, as suposicoes exigidas para o modelo linear usual, uti-

lizado para dados contınuos, nao sao, em geral, atendidas com contagens

discretas que tem: uma amplitude pequena, contagens que nao sao normal-

mente distribuıdas e podem, ainda, nao apresentar variancia homogenea.

Alem de observar a escala de mensuracao das variaveis, em particular da

variavel resposta, e tambem importante identificar o delineamento amostral

que produziu os dados, isto para que se possa determinar uma analise

apropriada e, consequentemente, se fazer as inferencias de interesse. Na

1.3. Esquemas ou Delineamentos Amostrais 5

Secao 1.3, sao tratados, brevemente, alguns dos delineamentos amostrais

mais frequentes, bem como as respectivas distribuicoes de probabilidade

associadas aos mesmos.

1.3 Esquemas ou Delineamentos Amostrais

Considere, inicialmente, experimentos em que foram coletadas informacoes

de somente duas variaveis dicotomicas. Utilizar uma tabela de contingencia

2 × 2, como a Tabela 1.3, e uma maneira comum de resumir e representar

os valores observados desses experimentos.

Tabela 1.3: Tabela de contingencia s = 2 × r = 2.

Categorias de resposta

Categorias da covariavel C1 C2 Totais

A1 n11 n12 n1+

A2 n21 n22 n2+

Totais n+1 n+2 n

A partir da Tabela 1.3, pode-se observar frequencias, representadas por

n11, · · · , n22, n1+, · · · , n+2 e n, associadas as diversas caselas. Os totais

n1+, n2+, n+1 e n+2 sao denominados totais marginais e n total geral ou

tamanho amostral. Esses totais, ao serem considerados no delineamento

amostral como conhecidos ou nao (fixos ou aleatorios), indicam o mo-

delo probabilıstico a ser considerado. Tais modelos sao apresentados na

Secao 1.3.1.

1.3.1 Modelo Produto de Binomiais independentes

Suponha que um experimento seja planejado de modo que, de duas popu-

lacoes independentes, obtenham-se duas amostras aleatorias (A1 e A2), uma


de cada populacao, de tamanhos fixos n1+ e n2+. Uma vez estabelecidas

as amostras, o experimento e entao conduzido observando-se, para os in-

divıduos em A1 e em A2, quantos classificam-se na categoria C1 e quantos

na categoria C2. Para experimentos conduzidos desse modo, em que seus

resultados sao usualmente apresentados em uma tabela de contingencia

2 × 2, tal qual a apresentada na Tabela 1.3, tem-se:

i) uma variavel aleatoria N11 com distribuicao Bin(n1+, p11) associada

a 1a linha da tabela e,

ii) outra variavel aleatoria N21, independente da primeira, com distribui-

cao Bin(n2+, p21) associada a 2a linha desta mesma tabela,

em que p11 e a probabilidade de qualquer indivıduo pertencente a 1a linha

ser classificado na 1a coluna e, analogamente, p21 e a probabilidade de

qualquer indivıduo pertencente a 2a linha ser classificado na 1a coluna.

Observe que2∑

j=1

p1j = 1 e2∑

j=1

p2j = 1. Nesses casos, tem-se, portanto, que

a distribuicao conjunta associada a Tabela 1.3 e o produto de duas binomias

independentes descrita pela funcao de probabilidade expressa por:

P (N11 = n11, N21 = n21) =

2∏

i=1

{ni+!

2∏

j=1

pnij

ij

nij !

}. (1.1)

Nos casos em que a variavel resposta apresentar mais do que duas ca-

tegorias (r > 2), a distribuicao associada sera o produto de multinomias

independentes, uma multinomial associada a cada linha da tabela.

Note, que este esquema amostral corresponde a um processo de amos-

tragem estratificada, em que para cada estrato (nesse caso A1 e A2) e

selecionada uma amostra aleatoria simples.


1.3.2 Modelo Multinomial

Suponha, no entanto, que o experimento seja planejado de modo que, de

uma populacao, se obtenha uma amostra aleatoria de tamanho n fixo.

Obtida esta amostra, o experimento e conduzido observando-se quantos

indivıduos dessa amostra classificam-se em uma das quatro seguintes pos-

sibilidades: (A1, C1), (A1, C2), (A2, C1) ou (A2, C2). Para experimentos

conduzidos desse modo, associam-se as tabelas de contingencia 2 × 2 resul-

tantes, a distribuicao multinomial, cuja respectiva funcao de probabilidade

e expressa por:

P (N11 = n11, N12 = n12, N21 = n21, N22 = n22) =

= P (Nij = nij) = n!2∏

i,j=1

pnij

ij

nij!(1.2)

sendo nij ≥ 0,2∑

i,j=1

nij = n e2∑

i,j=1

pij = 1.

De acordo com este delineamento amostral, ambas variaveis sao consi-

deradas respostas. Dependendo, contudo, dos objetivos do estudo pode-se

classificar uma delas como covariavel.

Note, que o delineamento amostral apresentado e equivalente a um pro-

cesso de amostragem aleatoria simples, em que de uma populacao suficien-

temente grande seleciona-se uma amostra aleatoria de tamanho n.

1.3.3 Modelo Produto de Poisson

Em alguns situacoes, pode ser estabelecido tao somente a duracao do experi-

mento. Como consequencia, tem-se tamanhos amostrais aleatorios, uma vez

que os mesmos somente serao conhecidos no termino do experimento. Um

exemplo e o da coleta de insetos em armadilhas adesivas de duas cores,

descrito em Silveira Neto et al. (1976) e Demetrio (2001), e apresentado na


Tabela 1.4. Nesse experimento, insetos de uma determinada especie foram

coletados em um certo perıodo de tempo e, entao, sexados com a finalidade

de se verificar a influencia da cor da armadilha sobre a atracao de machos

e femeas dessa especie.

Tabela 1.4: Insetos coletados em armadilhas e sexados.

SexoArmadilha Machos Femeas Total

Alaranjada 246 17 263

Amarela 458 32 490

Total 704 49 753

Note, nesse experimento, que o numero de insetos que chegam as ar-

madilhas, sejam estes machos ou femeas, e um numero (contagem) aleatorio,

caracterizando, assim, a distribuicao Poisson. Assumindo Nij (i, j = 1, 2)

independentes (o que pode gerar alguma controversia) com distribuicao

Poisson de media µij = t λij , sendo λij a taxa media por unidade de tempo

e t a duracao do experimento, tem-se associado a Tabela 1.4 a distribuicao

produto de Poisson com funcao de probabilidade:

P (N11 = n11, N12 = n12, N21 = n21, N22 = n22) =

= P (Nij = nij) =2∏

i=1

2∏

j=1

e−µijµnij

ij

nij !, µij > 0. (1.3)

Resultados importantes sobre variaveis aleatorias Poisson independentes

sao: se N11, · · · , N22 sao independentes com Nij ∼ Pois(µij), entao:

i) (N11 + · · · + N22) ∼ Pois(∑

i,j µij) e

ii) (N11, · · · , N22 | N) ∼ Mult(N, p11, · · · , p22), em que N = N11 + · · ·+N22 e pij =

µij∑i,j µij

=nij

n .


O resultado sobre a distribuicao condicional e importante, pois para

uma tabela com variaveis aleatorias independentes Poisson, pode-se sempre

calcular o total geral n para esta tabela. Considerando-se a distribuicao

condicional descrita em ii), pode-se pensar em realizar a analise assumindo-

se a distribuicao multinomial.

1.3.4 Modelo Hipergeometrico

O modelo hipergeometrico nao surge propriamento de um esquema amostral.

Este modelo e considerado, por exemplo, em experimentos em que os pa-

cientes sao, inicialmente, alocados aleatoriamente a dois tratamentos con-

siderados equivalentes, observando-se, entao, para cada um deles, uma res-

posta binaria (dicotomica). Sob a hipotese nula de que os efeitos dos dois

tratamentos nao diferem, n+1 e considerado fixo.

Situacoes como esta, consideram, portanto, que n1+, n2+ e n+1 sao fixos.

Tendo-se ambas as margens da tabela fixas, provocada pelo condiciona-

mento em n1+, n2+ e n+1, segue que o conhecimento de qualquer uma das

4 frequencias, por exemplo n11, determina as restantes. Assim, e sob H0,

N11 tem distribuicao hipergeometrica com funcao de probabilidade expressa

por:

P (N11 = n11) =C

n1+n11

Cn2+n21

Cnn+1

=

2∏

i=1

ni+!

2∏

j=1

n+j !

n!

2∏

i=1

2∏

j=1

nij !

.

1.3.5 Consideracoes sobre os delineamentos amostrais

Os tres tipos de delineamentos amostrais apresentados sao, na pratica,

os mais usuais. Seus respectivos modelos probabilısticos sao, como visto,

derivados com base nas caracterısticas dos esquemas de amostragem ado-


tados. Naturalmente, nem todas as tabelas de contingencia sao neces-

sariamente geradas por um desses modelos, o que implica obviamente na

necessidade de se considerar outros modelos probabilısticos. Nesta direcao,

pode-se citar os estudos em que, por exemplo, as amostras nao podem

ser consideradas independentes ou, entao, estudos em que delineamentos

amostrais mais complexos sao utilizados. Ha, tambem, os estudos em que

nenhum tipo de amostragem aleatoria e usado no processo de selecao das

unidades amostrais, bem como aqueles em que a populacao nem sempre e

claramente especificada. De modo geral, as conclusoes, em qualquer estudo,

estao claramente condicionadas a validade das suposicoes distribucionais.

Alem da escala de mensuracao e do delineamento amostral, deve-se

tambem considerar se o tamanho amostral e suficientemente grande para

assegurar a teoria assintotica exigida por muitos testes. Muitas vezes, pode-

se ter um total amostral muito pequeno ou, entao, um numero grande de

caselas com contagens zeros, ou muito pequenas, que tornam as suposicoes

assintoticas questionaveis.

1.4 Estudos clınicos e modelos associados

Em medicina, os delineamentos amostrais mais frequentes resultam de es-

tudos que podem ser observacionais ou experimentais, assim como podem

ser prospectivos ou retrospectivos. Dentre esses estudos, pode-se citar os:

descritivos, caso-controle, coorte, transversal e clınico aleatorizado. Os

quatro primeiros sao observacionais e, o ultimo, e experimental, pois ha a

intervencao do pesquisador ao alocar, de forma aleatoria, tratamento ao

paciente. Neste ultimo, alguns cuidados devem ser tomados quando todas

as pessoas envolvidas no estudo conhecem o tratamento que o paciente esta

recebendo. Avaliacoes cega ou duplo-cega, bem como o uso de placebos,

sao, desse modo, utilizados com frequencia nos estudos clınicos aleatoriza-

1.4. Estudos clınicos e modelos associados 11

dos. Os estudos citados sao apresentados em mais detalhes a seguir.

1.4.1 Estudos Descritivos

Estudos envolvendo somente uma amostra, usualmente de doentes, sao de-

nominados descritivos. Nesses estudos, nao existe um grupo de comparacao

e o objetivo e, frequentemente, a identificacao de fatores de prognostico para

a doenca em estudo. Estes diferem, por exemplo, dos estudos de coorte,

caso-controle e clınico aleatorizado, que sao comparativos, uma vez que o

objetivo e a comparacao de dois ou mais grupos.

Um exemplo de estudo descritivo, refere-se a associacao entre rubeola e

catarata congenita em que o oftalmologista N. Gregg observou, no primeiro

semestre de 1941, varios recem-nascidos com catarata congenita. As carac-

terısticas pouco usuais dos casos, o levaram a procurar uma explicacao

que envolvesse as maes. Verificou que todas haviam sido acometidas de

rubeola em uma grande epidemia que havia atingido a Australia no ano

anterior, exatamente durante o primeiro trimestre de gestacoes que resul-

taram no nascimento das criancas com catarata congenita. Tais observacoes

clınicas criaram condicoes para que varias pesquisas posteriores concluıssem

haver associacao entre rubeola no primeiro trimestre de gravidez e defeitos

congenitos. Esta constatacao e o desenvolvimento de vacinas determinaram

a introducao do procedimento de vacinacao das mulheres em idade fertil.

1.4.2 Estudos de Coorte

De modo geral, ao conduzir um estudo de coorte, o interesse do pesquisador

e verificar se indivıduos expostos a um determinado fator apresentam, em

relacao aos indivıduos nao expostos, uma maior propensao de desenvolver

uma determinada doenca. Um estudo de coorte e constituıdo, em seu

inıcio, de um grupo de indivıduos, denominada coorte, em que todos estao


livres da doenca sob investigacao. Os indivıduos dessa coorte sao, entao,

classificados em expostos e nao-expostos ao fator de interesse, obtendo-se,

assim, dois grupos (ou duas coortes de comparacao). Essas coortes serao,

entao, observadas por um perıodo de tempo, verificando-se quais indivıduos

desenvolvem a doenca em questao. Os indivıduos expostos e nao-expostos

devem ser comparaveis, ou seja, semelhantes quanto aos demais fatores,

que nao o de interesse, para que os resultados e conclusoes obtidas sejam

confiaveis.

O termo coorte e portanto usado para descrever um grupo de indivıduos

que tem algo em comum ao serem reunidos e que sao observados por um

determinado perıodo para que se possa avaliar o que ocorre com eles. E

importante que todos os indivıduos sejam observados por todo o perıodo de

seguimento, ja que informacoes de uma coorte incompleta podem distorcer

o verdadeiro estado das coisas. Por outro lado, o perıodo de tempo em

que os indivıduos serao observados deve ser significativo na historia natural

da doenca em questao, para que haja tempo suficiente do risco se mani-

festar. Doencas com perıodo de latencia longa exigirao perıodos longos de

observacao. Entenda-se por historia natural da doenca, sua evolucao sem

intervencao medica e, por perıodo de latencia, o tempo entre a exposicao

ao fator e as primeiras manifestacoes da doenca. Outras denominacoes

geralmente usadas para os estudos de coorte sao, dentre elas:

• estudos longitudinais: enfatizando que os indivıduos sao acompa-

nhados ao longo do tempo;

• estudos prospectivos: subentendendo a direcao em que os indivıduos

sao acompanhados;

• estudos de incidencia: chamando a atencao para a medida basica de

novos eventos de doenca no tempo de seguimento.


Quanto a forma de coleta das informacoes dos indivıduos pertencentes

a coorte sob investigacao, pode-se, ainda, classificar os estudos de coorte

em: estudos de coorte contemporanea e estudos de coorte historica. Em um

estudo de coorte contemporanea, os indivıduos sao escolhidos no presente

e acompanhados no futuro. Em uma coorte historica, os indivıduos sao

escolhidos em registros do passado e acompanhados daquele perıodo ate

o presente. Informacoes provenientes de coortes historicas sao frequente-

mente coletadas com outros objetivos que nao especificamente o de interesse

e podem, portanto, nao ter a qualidade suficiente para uma pesquisa rigo-

rosa. O mesmo nao ocorre com um estudo de coorte contemporanea, uma

vez que os dados sao coletados para atender aos objetivos do estudo.

Os estudos de coorte sao menos propensos aos vıcios que podem ocorrer

nos estudos caso-controle e sao os mais indicados para o estudo de riscos,

quando a experimentacao nao e possıvel. As principais dificuldades para

a realizacao de um estudo de coorte sao: (a) e um estudo mais demorado

e que envolve custos elevados pelos recursos necessarios para acompanhar

muitos indivıduos ao longo do tempo estabelecido; (b) nao disponibiliza

resultados a curto prazo; (c) os indivıduos sob estudo vivem livremente e

nao sob controle do pesquisador e (d) nao e viavel para doencas raras.

Na Tabela 1.5 encontram-se os resultados de um estudo de coorte rea-

lizado para pesquisar a associacao entre cancer de pulmao e tabagismo.

Tabela 1.5: Resultados de um estudo de coorte.

Cancer de Pulmao

Fumante Sim Nao Totais

Sim 75 45 120

Nao 21 56 77

Totais 197


Os totais marginais n1+ e n2+ sao fixos e, portanto, tem-se associado

a Tabela 1.5 o modelo produto de binomiais independentes, uma binomial

para cada linha da tabela.

1.4.3 Estudos Caso-Controle

Embora o objetivo de um estudo caso-controle seja o mesmo de um estudo

de coorte, ou seja, descobrir se a exposicao a um determinado fator esta

associada ao desenvolvimento da doenca sob estudo, os mesmos diferem

essencialmente quanto a forma de selecao e coleta de informacoes dos in-

divıduos.

Nos estudos caso-controle, o pesquisador seleciona um grupo de in-

divıduos com uma determinada doenca de interesse, denominados casos,

e um outro grupo de indivıduos livres da doenca, os controles. Fatores

associados a um risco aumentado de adoecer sao denominados fatores de

risco; exposicao a um fator de risco significa que uma pessoa, antes de adoe-

cer, esteve em contato com o fator em questao ou o manifestou. A validade

dos resultados desses estudos esta condicionada principalmente a forma de

selecao dos indivıduos. Os casos devem ser preferencialmente novos e nao

os ja existentes e os controles devem ser comparaveis aos casos, isto e, todas

as diferencas importantes, que nao o fator de interesse, devem ser contro-

ladas quando da escolha desses indivıduos. Em outras palavras, casos e

controles devem parecer ter tido chances iguais de terem sido expostos ao

fator em questao.

Os controles sao, em geral, escolhidos segundo alguma estrategia que

possa minimizar os vıcios de selecao. Uma dessas estrategias e a dos casos

emparelhados aos controles, isto e, para cada caso, um ou mais controles

com caracterısticas comuns aos casos sao selecionados. E comum empare-

lhar por caracterısticas demograficas (idade, sexo, raca), porem deve-se


tambem emparelhar por outras reconhecidamente importantes. O empare-

lhamento apresenta contudo um risco, a de o pesquisador emparelhar por

um fator que esteja relacionado a exposicao. Outra estrategia possıvel e

escolher mais de um grupo controle. A comparacao dos resultados dos

casos com cada um dos grupos controle selecionados pode trazer a tona

potenciais vıcios pois, se resultados diferentes forem observados na com-

paracao dos casos com os diferentes grupos controle, ha evidencias de que

os grupos nao sao comparaveis. Muita atencao e cuidado sao necessarios

quando da selecao dos casos e controles, para que a comparabilidade entre

os grupos possa ser assegurada. Atencao tambem deve ser dada ao numero

de indivıduos sob estudo. Este deve ser suficientemente grande para que

o acaso nao interfira em demasia nos resultados. Uma vez selecionados os

casos e controles verifica-se, para cada indivıduo, sua exposicao ou nao ao

fator sob investigacao. O pesquisador, geralmente, se utiliza para este fim

de informacoes passadas, dependendo assim da disponibilidade e qualidade

dos registros (protocolos) ou da memoria dos pacientes. Evidentemente,

isso pode ocasionar vıcios no estudo. Por utilizar-se de informacoes pas-

sadas, os estudos caso-controle sao tambem denominados retrospectivos. As

principais vantagens desses estudos sao: o custo e o tempo envolvidos para

a obtencao da resposta. Estes sao relativamente pequenos quando com-

parados aos de outros estudos, como, por exemplo, o estudo de coorte. Por

outro lado, tais estudos apresentam um particular problema, o de resul-

tados propensos a vıcios devido, principalmente, a possıveis manipulacoes

dos grupos de comparacao, bem como pela exposicao ao fator de interesse

ser medida utilizando-se de informacoes passadas. Se atencao apropriada

for dada as possıveis fontes de vıcios, os estudos caso-controle podem ser

validos e eficientes para responder a muitas questoes clınicas, em particular

aquelas envolvendo doencas raras.


Do ponto de vista teorico, os estudos de coorte sao mais adequados do

que os estudos caso-controle. Os estudos caso-controle sao, contudo, mais

utilizados por envolverem menor custo e menor tempo para a coleta das

informacoes.

Na Tabela 1.6 encontram-se os resultados do mesmo estudo apresentado

na Tabela 1.5 realizado, no entanto, como um estudo caso-controle. Ob-

serve que, comparativamente ao estudo de coorte, um estudo caso-controle

apresenta os totais marginais n+1 e n+2 fixos em vez de n1+ e n2+. Para a

Tabela 1.6 pode-se, tambem, associar o modelo produto de binomiais inde-

pendentes, uma binomial, contudo, para cada coluna da respectiva tabela.

Tabela 1.6: Resultados de um estudo caso-controle.

Grupos

Fumante Casos: com cancer Controles: sem cancer Totais

Sim 75 45

Nao 21 56

Totais 96 101 197

1.4.4 Ensaios clınicos aleatorizados

Esses estudos sao realizados, em geral, com o objetivo de comparar trata-

mentos. Inicialmente, os indivıduos sao alocados aleatoriamente ao grupo

controle (tratamento padrao) ou ao grupo tratamento (tratamento alterna-

tivo) e sao, entao, acompanhados para observacao da ocorrencia ou nao da

resposta de interesse. Observe, nesses ensaios, que o pesquisador interfere

deliberadamente no curso natural dos acontecimentos, ou seja, impoe um

tratamento e, daı, estes sao ditos experimentais. Nos estudos de coorte e

caso-controle, o pesquisador nao interfere no curso natural dos acontecimen-

tos, apenas observa. Por este fato sao ditos observacionais. Um exemplo e


mostrado na Tabela 1.7.

Tabela 1.7: Resultados de um ensaio clınico realizado para comparar dois

medicamentos usados no tratamento de infeccoes respiratorias severas.

Resposta

Tratamento Favoravel Nao favoravel Totais

Novo 29 16 45

Padrao 14 31 45

Totais 43 47 90

A forma com que e conduzido um ensaio clınico aleatorizado nos mostra

que os mesmos, quando representados em tabelas de contingencia, como a

Tabela 1.7, apresenta os totais marginais n1+ e n2+ fixos. Sendo assim, a

distribuicao produto de binomias independentes, uma binomial para cada

linha, e a distribuicao associada a esses estudos.

Os ensaios clınicos com drogas sao, usualmente, classificados em 4 fases:

Fase I - sao ensaios de farmacologia clınica e toxicidade no homem, relaciona-

dos a seguranca e nao a eficacia. Geralmente sao realizados em voluntarios

normais. O principal objetivo e determinar uma dose aceitavel. Tipica-

mente, estudos nessa fase envolvem entre 20 a 80 indivıduos.

Fase II - sao ensaios iniciais de investigacao clınica do efeito do tratamento

ainda em pequena escala da efetividade e seguranca da droga, com moni-

toramento cuidadoso de cada paciente. Nao mais do que 100 a 200 pacientes

por droga sao selecionados nesta fase.

Fase III - Avaliacao em larga escala do tratamento. Apos a droga ter sido

considerada como razoavelmente efetiva, deve-se compara-la com o(s) trata-

mento(s) padrao disponıvel, o que e feito em um ensaio clınico envolvendo

um numero suficientemente grande de pacientes.

Fase IV - Fase de vigilancia pos-comercializacao: monitoramento de efeitos

adversos, estudos de morbidade e mortalidade.


Anterior as fases citadas, deve existir um programa de pesquisa pre-

clınica, incluindo a sıntese de novas drogas e estudos com animais referentes

ao metabolismo, eficacia e, sobretudo, a toxicidade potencial. A fase pre-

clınica e responsavel pela maior parte do gasto estimado com a pesquisa

sobre drogas. A duracao media de um programa inteiro de pesquisa rela-

cionado a uma droga e de 7 a 10 anos. Aproximadamente metade desse

tempo e gasto em ensaios clınicos, que envolvem milhoes de dolares.

Ao realizar um ensaio clınico aleatorizado, ha uma tendencia dos par-

ticipantes (pacientes, profissionais envolvidos e avaliadores) mudarem seu

comportamento por serem alvos de interesse e atencao especial. Por exem-

plo, o fato do paciente saber que esta recebendo um novo tratamento pode

ter um efeito psicologico benefico e, ao contrario, saber que esta recebendo

um tratamento convencional, ou nenhum tratamento, pode exercer um

efeito desfavoravel. Tambem o entusiasmo, por exemplo, do medico por

algum novo tratamento, pode ser transferido para o paciente e ocasionar

uma mudanca de atitude. Os avaliadores, por outro lado, podem registrar

respostas mais favoraveis para o tratamento que acreditam ser superior. O

nao conhecimento dos grupos e o uso de placebo auxiliam a evitar esses

vıcios. Ensaios clınicos em que os pacientes nao conhecem o tratamento

que estao recebendo sao denominados ensaios cegos. O termo duplo-cego e

usado nos casos em que, nem os pacientes, nem os responsaveis pela sua as-

sistencia e avaliacao, conhecem o tratamento que esta sendo administrado

para cada paciente.

1.4.5 Estudos tranversais ou cross-sectional

Em estudos transversais coletam-se simultaneamente, de um grupo ou po-

pulacao de indivıduos, informacoes sobre uma variedade de caracterısticas

que sao posteriormente cruzadas em tabelas de contingencia. Esta coleta


e realizada em um unico ponto no tempo e, frequentemente, o pesquisador

nao sabe o que ocorreu antes desse ponto. A obtencao da prevalencia da

doenca, ou seja, da proporcao do grupo com a doenca no momento em que

foi realizada a coleta, e um dos objetivos desses estudos. Constitui outro

interesse, em geral, a investigacao de potenciais relacoes causais entre os

fatores suspeitos serem de risco e a doenca.

Os estudos transversais podem ser vistos como avaliacoes fotograficas

de grupos ou populacoes de indivıduos. O termo transversal e usado para

indicar que os indivıduos estao sendo estudados em um ponto no tempo

(corte transversal). O interesse esta em avaliar a associacao entre as res-

postas obtidas. Nesses estudos e comum considerar algumas das variaveis

como fatores.

Um exemplo e o de um estudo realizado com criancas para determinar

se elas apresentavam sintomas de doencas respiratorias. Neste estudo, um

total de n = 1080 criancas foram examinadas anotando-se, para cada uma

delas, o sexo e se apresentavam, ou nao, os sintomas. Os resultados sao

mostrados na Tabela 1.8. Note, neste estudo, que apenas n e fixo e, desse

modo, tem-se a distribuicao multinomial associada a Tabela 1.8.

Tabela 1.8: Estudo transversal sobre doencas respiratorias.

SintomasSexo Sim Nao Totais

Feminino 355 125 480

Masculino 410 190 600

Totais 765 315 1080


1.5 Incidencia e prevalencia

Nos estudos de coorte e nos ensaios clınicos, os indivıduos apresentam no

inıcio do experimento a mesma condicao clınica. Sao, entao, acompanhados

por um perıodo de tempo para observacao da ocorrencia de casos novos

(por exemplo, de doenca, de cura etc.). Em ambos os estudos citados, e

possıvel a obtencao de uma medida denominada incidencia. A incidencia

(seja de doenca, de cura etc.) e definida como a proporcao de indivıduos

em um determinado grupo que desenvolve a resposta de interesse ao longo

do tempo de observacao, isto e:

Incidencia =indivıduos que apresentam resposta positiva no perıodo de observacao

total de indivıduos no inıcio do experimento.

Nos estudos transversais, a avaliacao nao e feita ao longo do tempo, mas

somente em um unico ponto (momento) no tempo. Alguns dos indivıduos

neste ponto do tempo apresentarao a resposta e outros nao. Nao e ob-

servado, portanto, casos novos ao longo do tempo, mas somente os casos

existentes naquele momento especıfico. A medida adequada e, desse modo,

a prevalencia, isto e, a proporcao de indivıduos do grupo com resposta

positiva naquele momento especıfico do tempo, ou seja:

Prevalencia =indivıduos com a resposta em determinado ponto no tempo

indivıduos pesquisados em determinado ponto no tempo.

1.6 Exercıcios

1. Em uma pesquisa realizada com 39 pacientes diagnosticados como

tendo a doenca de Hodgkin, estes foram classificados por sexo, bem

como se apresentavam ou nao anormalidades na funcao pulmonar. Os

resultados sao mostrados na Tabela 1.9.

1.6. Exercıcios 21

Tabela 1.9: Pacientes com a doenca de Hodgkin.

Anormalidade Pulmonar

Sexo Presente Ausente Total

Masculino 14 12 26

Feminino 12 01 13

Total 26 13 39

(a) Que tipo de estudo foi realizado?

(b) Qual o modelo probabilıstico associado?

(c) E possıvel obter a incidencia ou prevalencia de anormalidade pul-

monar com os dados desse estudo? Se sim, obtenha e interprete.

2. Com o objetivo de verificar a existencia de associacao entre fumo e

cancer de pulmao, um grupo de 2000 pessoas (800 fumantes e 1200

nao fumantes), foi acompanhado por 20 anos. Os resultados foram:

Tabela 1.10: Estudo sobre fumo e cancer de pulmao.

Cancer de Pulmao

Status Sim Nao Total

Fumante 90 710 800

Nao Fumante 10 1190 1200

Total 100 1900 2000


(b) Qual o modelo probabilıstico associado?

(c) E possıvel obter a incidencia de cancer de pulmao entre os fu-

mantes e nao fumantes? Se sim, obtenha e interprete.

(d) Ha indıcios de que os fumantes sejam mais propensos ao cancer

de pulmao?


3. Com o objetivo de verificar se o historico familiar constitui um fator

de risco para o cancer de mama, um grupo de mulheres com a referida

doenca e, outro grupo, livre da doenca foram comparados. A partir

dos resultados, que se encontram na Tabela 1.11, responda:

Tabela 1.11: Estudo sobre historico familiar e cancer de mama.

Cancer de Mama

Historico familiar Sim Nao Total

Sim 17 36 53

Nao 8 102 110

Total 25 138 163


(b) Quais cuidados devem ser tomados para a escolha dos dois grupos

de mulheres?

(c) Qual o modelo probabilıstico associado?

(d) Este estudo poderia ter sido conduzido de outro modo? Se sim,

descreva como.

(e) Cite as vantagens e desvantagens do estudo ter sido realizado como

foi descrito.

(f) E possıvel obter a incidencia ou prevalencia de cancer de mama

com os dados desse estudo? Se sim, obtenha e interprete.

4. Um estudo foi conduzido para investigar o efeito da vitamina C em

uma determinada desordem renal genetica chamada nephropathic cys-

tosis. A resposta considerada foi melhora clınica (sim ou nao). Os

dados obtidos encontram-se na Tabela 1.12.

(a) Qual o modo mais adequado, em sua opiniao, para planejar e

realizar este experimento? Justifique.

1.6. Exercıcios 23

Tabela 1.12: Estudo sobre efeito da vitamina C.

Melhora Clınica

Vitamina C Sim Nao Total

Sim 24 8 32

Nao 29 3 32

Total 53 11 64

Fonte: Schneider et al. (1979)

(b) Qual o modelo probabilıstico associado ao delineamento escolhido

em (a)?

5. Um estudo foi realizado para verificar a existencia de associacao entre

cancer de esofago e consumo de alcool. Os resultados desse estudo

foram os apresentados na Tabela 1.13.

Tabela 1.13: Estudo sobre cancer de esofago.

Cancer de Esofago

Consumo de Alcool Sim Nao Total

Sim 96 109 205

Nao 104 666 770

Total 200 775 975

Fonte: Tuyns et al (1977)

(a) Como este experimento poderia ter sido planejado e conduzido?

Na sua opiniao, qual o mais adequado para responder ao objetivo do

pesquisador?

(b) Identifique os modelos probabilısticos associados aos delineamen-

tos descritos em (a).

6. Uma pesquisa foi conduzida para avaliar a opiniao de homens e mulhe-

res a respeito da legalizacao do aborto. Das 500 mulheres e 600


homens entrevistados, foram obtidos os resultados mostrados na Tabela 1.14.

Tabela 1.14: Estudo sobre o aborto.

Favoravel a legalizacao

Sexo Sim Nao Total

Mulheres 309 191 500

Homens 319 281 600

Total 628 472 1100

Fonte: Christensen (1997)

(a) Qual o esquema amostral utilizado nesta pesquisa e o modelo

probabilıstico associado?

(b) Com base somente nos valores observados, diria existir algum

indıcio de que haja diferentes opinioes entre homens e mulheres?

Capıtulo 2

Estrategias de Analise

2.1 Introducao

Algumas estrategias de analise de dados categoricos sao tratadas neste

capıtulo. Inicialmente, e considerada a analise de experimentos em que

os resultados estejam dispostos em tabelas de contingencia 2 × 2. Sao

entao analisados, a seguir, esperimentos em que os resultados encontram-se

dispostos em tabelas de contingencia 2 × r, s × 2 e s × r (r, s > 2). Sera

visto que muitas questoes sobre dados categoricos podem ser respondidas

estabelecendo-se hipoteses de associacao. Para, contudo, descrever a na-

tureza dessa associacao, quando presente nos dados, bem como os padroes

dessa associacao, serao utilizados modelos, tais como, o modelo de regressao

logıstica e o modelo de regressao Poisson. Estes modelos sao tratados nos

Capıtulos 3 e 4, respectivamente.

2.2 Analise de Tabelas de Contingencia 2 × 2

Considere os dados apresentados na Tabela 1.1 do Capıtulo 1, referentes

aos resultados obtidos a partir de um ensaio clınico aleatorizado realizado

25

26 Capıtulo 2. Estrategias de Analise Giolo, S.R.

para comparar dois medicamentos. A questao de interesse, nesse caso, e

averiguar se as taxas de melhora para o placebo e para o novo medica-

mento sao as mesmas. Esta questao pode ser respondida testando-se a

existencia de associacao entre o medicamento e a resposta do paciente, ou

seja, testando-se a seguinte hipotese nula:“H0: nao existe associacao en-

tre o tratamento e a resposta do paciente”. Levando-se em consideracao o

delineamento amostral, esta hipotese e equivalentemente especificada por:

a) H0: p11 = p21, caso o esquema amostral seja aquele em que os totais

amostrais ni+ sao fixos. Pelo fato desta hipotese traduzir a igual-

dade dos parametros distribucionais, ela e denominada hipotese de

homogeneidade.

b) H0: pij = (pi+) (p+j), caso o esquema amostral corresponder aquele

em que somente o total amostral n e fixo. Esta hipotese e denominada

hipotese de independencia, uma vez que a ausencia de associacao neste

caso, em termos probabilısticos, significa independencia mutua.

c) H0: µij =(µi+) (µ+j)

µ, caso o esquema amostral seja aquele em que

os totais marginais sao todos aleatorios. Como esta hipotese evidencia

uma forma multiplicativa nas medias, ela e denominada hipotese de

multiplicatividade.

Visto as hipoteses nulas de homogeneidade, independencia e multiplica-

tividade serem equivalentes no que diz respeito a ausencia de associacao

entre as duas variaveis de interesse, alguns testes apropriados para testa-

las, bem como algumas medidas de associacao, sao apresentados a seguir.

2.2.1 Estatısticas de Teste

No estudo experimental que produziu os dados apresentados na Tabela 1.1,

os totais marginais n1+ e n2+ sao fixos, pois 60 pacientes foram alocados

2.2. Analise de Tabelas de Contingencia 2 × 2 27

aleatoriamente a um dos tratamentos, o placebo, e 64 ao outro tratamento.

Sob a hipotese nula de nao existencia de diferencas entre os tratamentos, os

totais marginais n+1 e n+2 sao tambem considerados fixos e, portanto, sob

H0, a distribuicao de probabilidade associada e a hipergeometrica. Assim,

o valor esperado de nij e:

E(Nij | H0) =(ni+) (n+j)

n= mij

e a variancia:

V (Nij | H0) =(n1+) (n2+) (n+1) (n+2)

n2(n − 1)= vij .

Para uma amostra suficientemente grande, n11 tem aproximadamente

uma distribuicao normal, o que implica que:

Q =(n11 − m11)

2

v11(2.1)

tem aproximadamente uma distribuicao qui-quadrado com um grau de

liberdade. Nao importa como as linhas e colunas sejam arranjadas, Q

assumira sempre o mesmo valor, uma vez que:

| n11 − m11 | = | nij − mij | =| n11n22 − n12n21 |

n.

Uma estatıstica relacionada a Q e a estatıstica de Pearson dada por:

QP =2∑

i=1

2∑

j=1

(nij − mij)2

mij=

n

(n − 1)Q. (2.2)

Se as contagens (frequencias) nas caselas forem suficientemente grandes,

QP segue uma distribuicao qui-quadrado com um grau de liberdade. Ainda,

quando n cresce, QP e Q convergem. Uma regra util para determinar o

tamanho amostral adequado para Q e QP e que o valor esperado mij seja

maior do que 5 para todas as caselas.


Note, que as estatısticas Qp e Q foram utilizadas para testar a hipotese

de homogeneidade em um ensaio clınico aleatorizado. Estas podem ser,

contudo, utilizadas em experimentos resultantes de qualquer um dos tres

delineamentos amostrais apresentados, pois, sob as hipoteses de homogenei-

dade, independencia e multiplicatividade, E(Nij | H0) = mij =(ni+) (n+j)

n .

Muitas vezes, contudo, as frequencias observadas nas caselas de uma

tabela de contingencia sao muito pequenas inviabilizando, assim, o uso da

distribuicao qui-quadrado. Nessas situacoes, metodos exatos baseados na

distribuicao hipergeometrica sao usados para se testar a hipotese nula de

nao associacao. O teste exato de Fisher, em que o valor p e determinado

somando-se as probabilidades das tabelas que sao pouco provaveis, dado

que as marginais sao fixas, e, entao, utilizado.

2.2.2 Medidas de Associacao

Estabelecida a associacao em uma tabela de contingencia 2 × 2, pode haver

o interesse em descrever a intensidade desta associacao.

(a) Diferenca de proporcoes

Para estudos como, por exemplo, os de coorte e clınico aleatorizado, em que

se tem duas amostras aleatorias independentes de tamanhos fixos n1+ e n2+,

esta intensidade pode ser descrita por meio da diferenca das proporcoes p11

e p21 obtidas a partir dessas amostras, bem como por meio do intervalo de

confianca correspondente a esta diferenca.

Assim, se os dois grupos sao amostras aleatorias independentes com

probabilidades de sucesso π11 e π21, respectivamente, e ha o interesse em

se estimar a diferenca de proporcoes, isto e, d = p11 − p21, em que o valor

esperado e:

E[p11 − p21] = π11 − π21


e a variancia:

V [p11 − p21] =π11(1 − π11)

n1++

π21(1 − π21)

n2+,

para a qual um estimador nao-viciado e:

v[p11 − p21] =p11(1 − p11)

n1+ − 1+

p21(1 − p21)

n2+ − 1,

tem-se o seguinte intervalo para (π11−π21), a um nıvel de confianca (1-α)%:

d ±(

zα/2

√v +

1

2

(1

n1++

1

n2+

)),

em que zα/2 denota o 100(1−α/2) percentil da distribuicao normal padrao.

Exemplo: Para os dados da Tabela 1.1 tem-se: Q = 21,53 (p < 0,0001)

e Qp = 21,7 (p < 0,0001). Ambas as estatısticas sao claramente significa-

tivas e, portanto, ha uma forte associacao entre o tratamento e a resposta

do paciente. Como se trata de um experimento em que as marginais n1+

e n2+ sao fixas, tem-se que a diferenca estimada entre as proporcoes e

d = 0, 667 − 0, 25 = 0, 417 com correspondente intervalo, ao nıvel de 95%

de confianca, dado por: I.C.95%(d) = 0,417 ± 0,177 = (0,24; 0,594), que

nao inclui o valor zero. Conclui-se, portanto, que o novo tratamento e

significativamente superior ao placebo.

(b) Risco relativo e odds ratio (razao de chances)

A odds ratio (OR) e uma medida que descreve a intensidade de associacao

em uma tabela de contingencia 2 × 2 e e calculada por:

OR =n11/n12

n21/n22=

n11 n22

n12 n21.

Esta medida pode ser usada em qualquer tipo de estudo e varia de 0

a infinito. Quando OR = 1, nao existe associacao entre as variaveis. Se,


no entanto, OR > 1, o grupo 1 tem chance (odds) maior de apresentar a

resposta do que o grupo 2. Consequentemente, se OR < 1, o grupo 1 tem

chance menor de apresentar a resposta do que o grupo 2. Para obtencao

de um I.C. para OR, toma-se o logaritmo da mesma na base e, isto e,

f = log(OR), cuja variancia estimada e:

V (f) =

(1

n11+

1

n12+

1

n21+

1

n22

).

Assim, um I.C. para OR, ao nıvel 100(1-α)% de confianca, e dado por:

I.C.(OR) = exp(f ± zα/2

√V (f)

),


Para estudos prospectivos (como, por exemplo os de coorte e ensaios

clınicos aleatorizados), uma outra quantidade denominada risco relativo

pode tambem ser obtida. O risco relativo (RR) fornece o risco de desen-

volvimento de uma determinada condicao (frequentemente uma doenca)

para um grupo comparado a outro grupo. Esta medida e expressa por:

RR =p11

p21

e pode ser mostrado que:

RR = OR ×[

1 + (n21/n22)

1 + (n11/n12)

].

Logo, a OR se aproxima do RR quando n11 e n21 sao pequenos relati-

vamente a n12 e n22, respectivamente. Essa situacao se verifica para o caso

de doencas raras.

Um I.C. para RR e tambem obtido tomando-se o logaritmo, na base e,

do RR, isto e, f∗ = log(RR) = log(p11) − log(p21), cuja variancia e:

V (f∗) =(1 − p11)

(n1+) (p11)+

(1 − p21)

(n2+) (p21)


e, portanto, um I.C. para RR, ao nıvel 100(1-α)% de confianca, e dado por:

I.C.(RR) = exp(f∗ ± zα/2

√V (f∗)

),


2.2.3 Exemplos

Exemplo 1: Considere os dados apresentados na Tabela 1.1 referentes a

um estudo clınico aleatorizado realizado para testar um novo medicamento.

Nesse estudo, a hipotese nula de nao associacao entre o medicamento e a

resposta do paciente corresponde a hipotese de homogeneidade H0: p11 =

p21. Para testa-la foram obtidos os seguintes resultados:

Q = 21, 53 (p < 0, 0001)

Qp = 21, 70 (p < 0, 0001)

d(novo−placebo) = (0, 667 − 0, 25) = 0, 417

IC(d)(95%) = (0, 24; 0, 594)

RRnovo|placebo = 2, 67

IC(RR)(95%) = (1, 68; 4, 22).

Com base nesses resultados, pode-se concluir que o medicamento esta

associado a resposta do paciente e, sendo assim, as taxas de melhora para o

placebo e para o novo medicamento diferem entre si. Para o novo medica-

mento ha uma proporcao maior de pacientes apresentando melhora. Essa

diferenca entre as proporcoes de melhora e estimada em 41,7% e pode

variar, ao nıvel de confianca de 95%, entre 24% e 59,4%. Pode-se, ainda,

concluir que o risco de melhora dos pacientes submetidos ao novo medica-

mento e 2,67 vezes o risco dos pacientes que receberam placebo. Essa

estimativa, ao nıvel de confianca de 95%, pode variar entre 1,68 a 4,22

vezes. O novo medicamento e, desse modo, recomendavel.


Exemplo 2: Nesse exemplo, e analisado os dados apresentados na Tabela

1.4 referentes a um estudo realizado para verificar a influencia da cor da

armadilha sobre a atracao de machos e femeas. Para se testar a hipotese

nula de nao associacao entre a cor da armadilha e sexo, o que equivale a

testar a hipotese de multiplicatividade H0: µij =(µi+) (µ+j)

µ, obtiveram-se

os resultados:

Q = 0, 0013 (p = 0, 9718); Qp = 0, 0013 (p = 0, 9718)

OR = 1, 011

IC(OR)(95%) = (0, 55; 1, 857).

Nao ha, portanto, evidencias estatısticas para a rejeicao da hipotese

nula e, desse modo, pode-se concluir nao haver evidencias de que a atracao

de machos e femeas esteja sendo influenciada pela cor da armadilha. A

atracao de machos e femeas, da especie coletada, e semelhante usando-

se armadilhas alaranjadas e amarelas. Os machos apresentam, contudo,

atracao, em media, maior as armadilhas do que as femeas,

Exemplo 3: Referem-se aos dados apresentados na Tabela 1.5, resultado

de um estudo de coorte realizado para pesquisar a associacao entre taba-

gismo e cancer de pulmao. Para testar a hipotese nula de nao existencia

dessa associacao, o que equivale a testar H0: p11 = p21, foram obtidos os

seguintes resultados:

Q = 23, 18 (p < 0, 0001)

Qp = 23, 29 (p < 0, 0001)

d(fumantes - nao fumantes) = (0, 625 − 0, 2777) = 0, 3523

IC(d)(95%) = (0, 21; 0, 495)

RR(fumantes | nao fumantes) = 2, 29

IC(RR)(95%) = (1, 55; 3, 38).


A conclusao, nesse exemplo, e de que existe associacao entre tabagismo

e cancer de pulmao. A proporcao de fumantes com cancer de pulmao foi

maior do que a dos nao fumantes. A diferenca entre essas proporcoes foi

estimada em 35,23%. Essa estimativa pode variar, ao nıvel de confianca de

95%, entre 21% e 49,5%. Pode-se, ainda, concluir que o risco de cancer de

pulmao dos fumantes e 2,29 vezes o risco dos nao fumantes. Esta estimativa,

ao nıvel de confianca de 95%, varia entre 1,55 a 3,38 vezes. O tabagismo

pode, portanto, ser considerado um fator de risco para o cancer de pulmao.

Exemplo 4: Neste exemplo sao analisados os dados apresentados na Ta-

bela 1.6 referentes a um estudo caso-controle realizado para pesquisar a

associacao entre tabagismo e cancer de pulmao. Para testar a hipotese

nula de nao existencia dessa associacao (H0: pij = pi+p+j), obtiveram-se

os seguintes resultados:

Q = 23, 18 (p < 0, 0001)

Qp = 23, 29 (p < 0, 0001)

OR = 4, 44

IC(OR)(95%) = (2, 37; 8, 28).

Conclui-se, portanto, que o tabagismo e cancer de pulmao estao as-

sociados, ou seja, as taxas de desenvolvimento de cancer de pulmao para

fumantes e nao fumantes diferem. A chance dos indivıduos que fumam

apresentarem a doenca e 4,44 vezes a chance dos que nao fumam, chance

esta que, ao nıvel de confianca de 95%, pode variar entre 2,37 e 8,28 vezes.

Exemplo 5: Refere-se ao estudo transversal apresentado na Tabela 1.8

sobre doencas respiratorias realizado com criancas. O objetivo e verificar

se sexo e doencas respiratorias estariam associadas. A hipotese nula con-

siderada e, portanto, a de nao associacao entre sexo e doencas respiratorias


(H0: pij = pi+p+j). Para testa-la, obtiveram-se os resultados:

Q = 4, 0803 (p = 0, 0434)

Qp = 4, 084 (p = 0, 0433)

OR(feminino|masculino) = 1, 3161

IC(OR)(95%) = (1, 008; 1, 718).

Com base nos resultados obtidos, e considerando-se um nıvel de sig-

nificancia de 5%, pode-se concluir que existe associacao entre sexo e doencas

respiratorias, ou seja, as taxas de doencas respiratorias em criancas do sexo

feminino e masculino diferem. Observe, contudo, que a OR estimada nao

se encontra tao distante do valor 1 (que indicaria chances nao diferentes

entre os sexos). Este fato mostra que a chance das criancas do sexo femi-

nino apresentarem doencas respiratorias, nao e muito maior do que a das

criancas do sexo masculino. Essa chance e de 1,31 vezes podendo, ao nıvel

de confianca de 95%, variar entre 1,008 e 1,718 vezes.

Exemplo 6: Neste exemplo, sao analisados os dados apresentados na

Tabela 1.7 referentes a um ensaio clınico aleatorizado realizado para com-

parar dois medicamentos usados no tratamento de infeccoes severas. Para

testar a hipotese nula de nao associacao entre o tratamento e a resposta do

paciente (H0: p11 = p21), os seguintes resultados foram obtidos:

Q = 9, 9085 (p = 0, 0016)

Qp = 10, 02 (p = 0, 0015)

d(novo - padrao) = (0, 6444 − 0, 3111) = 0, 3333

IC(d)(95%) = (0, 114; 0, 552)

RR(novo | padrao) = 2, 07

IC(RR)(95%) = (1, 27; 3, 36).


Pode-se, portanto, concluir pela existencia de associacao entre o trata-

mento e a resposta do paciente, o que implica que as taxas de respostas

favoraveis para os tratamentos novo e padrao diferem. Pacientes que rece-

beram o novo tratamento apresentaram uma proporcao maior de resposta

favoravel. A diferenca entre as proporcoes foi estimada em 33,33%. Esta

estimativa pode variar, ao nıvel de confianca de 95%, entre 11,4% e 55,2%.

Conclui-se, ainda, que o risco de resposta favoravel dos pacientes que re-

ceberam o novo tratamento e 2,07 vezes o risco daqueles que receberam o

tratamento padrao. Esta estimativa, ao nıvel de confianca de 95%, pode

variar entre 1,27 a 3,36 vezes. O novo medicamento e, desse modo, pre-

ferıvel ao medicamento padrao.

2.2.4 Sensibilidade e Especificidade

A sensibilidade e especificidade sao medidas usadas, em particular, quando

se deseja determinar a eficacia de um exame (teste) realizado para detectar

a presenca de uma doenca ou outro evento qualquer. O exame de DNA,

realizado para saber se o indivıduo e de fato o pai de uma crianca, e um

exemplo desses testes. Outro exemplo, e o do exame de AIDS, realizado

para saber se o sujeito e soropositivo.

As medidas citadas determinam a eficiencia desses testes em detectar

a verdade. A sensibilidade e definida como a proporcao de resultados

positivos que um teste apresenta, quando realizado em sujeitos conhecidos

terem a doenca, ou seja, e a proporcao de verdadeiros positivos. A es-

pecificidade, por outro lado, e definida como a proporcao de resultados

negativos que um teste apresenta, quando realizado em sujeitos conhecidos

estarem livres da doenca (proporcao de verdadeiros negativos). O desejado

de um exame (teste) e que ele tenha, simultaneamente, alta sensibilidade e

especificidade.


A sensibilidade e especificidade sao tambem usadas para testar se um

novo exame, alternativo ao ja existente, mas de custo inferior, e tao efi-

ciente quanto aquele tido como o melhor na literatura. O melhor teste e,

geralmente, referenciado na literatura como teste ouro ou teste padrao.

Considere a Tabela 2.1, que apresenta os resultados positivos e negativos

de um exame realizado em 180 pacientes para verificar a presenca de uma

doenca de pele.

Tabela 2.1: Resultados de um exame realizado para verificar a presenca de

uma doenca de pele.

Resultado do exameStatus + - Totais

Doenca presente 52 8 60

Doenca ausente 20 100 120

Para esses dados, a sensibilidade e especificidade estimadas sao dadas,

respectivamente, por:

Sensibilidade =52

60= 0, 867 e Especificidade =

100

120= 0, 833.

O exame usado apresenta, portanto, boa sensibilidade e especificidade

detectando em torno de 87% dos casos positivos e 83% dos casos negativos.

O exame deixou, contudo, de detectar em torno de 13% dos casos posi-

tivos (taxa de falsos negativos = 8/60 = 0,1333) e em torno de 17% dos

casos apresentou resultado positivo erroneamente (taxa de falsos positivos

= 20/120 = 0,1667). A taxa bruta de concordancia (poder preditivo ou

acuracia) do exame foi de 152/180 = 0.844 (84,4%). Dos 72 resultados

positivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder

preditivo positivo do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado,


dos 108 resultados negativos apresentados pelo exame, 100 estavam corre-

tos fornecendo, assim, para o poder preditivo negativo do exame, um valor

de 100/108 = 0,926 (92,6%).

Seria, desse modo, recomendavel que o teste fosse realizado mais de

uma vez, em cada paciente, para evitar que um paciente doente nao seja

tratado ou que, um paciente livre da doenca seja tratado indevidamente.

Se, contudo, o medicamento a ser utilizado nao apresentar efeitos adver-

sos, recomenda-se um segundo teste somente para os pacientes que apre-

sentarem resultado negativo. Como cada doenca apresenta suas peculiari-

dades, deve-se analisar, para cada uma delas, o que e de fato relevante. Em

determinadas situacoes, por exemplo, ha um interesse maior em testes com

alta sensibilidade e, especificidade, relativamente inferior.

2.2.5 Teste de McNemar

As tabelas de contingencia 2 × 2 contem, em algumas situacoes, informacoes

pareadas. Por exemplo, situacoes em que sao realizadas duas perguntas

relacionadas ou, a mesma pergunta e feita para um par de indivıduos

relacionados (casal, gemeos etc.) ou, ainda, informacoes tomadas antes

e apos algum acontecimento (uso de um medicamento, campanha publi-

citaria etc.). Nesses casos, o interesse e testar se a proporcao dos pares

respondendo sim para a pergunta 1 e a mesma dos que respondem sim

para a pergunta 2, ou seja, testar a hipotese nula:

H0 :n+1

n=

n1+

n.

Para testar a hipotese citada, McNemar (1947), propos um teste qui-

quadrado baseado na distribuicao binomial. Ele mostra que somente os

elementos fora da diagonal sao importantes para determinar se existem


diferencas entre essas proporcoes. A estatıstica desse teste e dada por:

QM =(n12 − n21)

2

(n12 + n21),

que, sob H0, tem aproximadamente uma distribuicao qui-quadrado com 1

grau de liberdade.

Exemplo: Considere a taxa de aprovacao, apresentada na Tabela 2.2,

de um determinado polıtico, antes e apos o anuncio de certas medidas. O

teste da hipotese nula H0: proporcao de aprovacao do candidato antes e

apos o anuncio das medidas e a mesma, resultou em QM = 1,67 (valor p =

0,1967). Sendo assim, nao e possıvel rejeitar H0 e, desse modo, nao se pode

afirmar que a taxa de aprovacao desse polıtico se alterou apos o anuncio

das medidas.

Tabela 2.2: Resultados de um pesquisa realizada para verificar a taxa de

aprovacao de um polıtico antes e apos o anuncio de certas medidas.

AposAntes Aprova Reprova Totais

Aprova 20 5 25

Reprova 10 10 20

Totais 30 15 45

O pacote estatıstico R foi usado para obtencao dos resultados apresen-

tados. Os comandos utilizados encontram-se no apendice deste texto.

2.3 Analise de Tabelas de Contingencia 2 × r

Considere a Tabela 2.3 que mostra o resultado de um estudo clınico aleatori-

zado duplo-cego realizado para pesquisar um tratamento para artrite reu-

matoide.

2.3. Analise de Tabelas de Contingencia 2 × r 39

Tabela 2.3: Resultado de um estudo clınico realizado para investigar um

tratamento para artrite reumatoide.

Melhora

Tratamento Nenhuma Alguma Acentuada Totais

Ativo 13 7 21 41

Placebo 29 7 7 43

Totais 42 14 28 84

Note que a variavel resposta e ordinal e, entao, para se fazer uso desta

caracterıstica ordinal da resposta, sao, em geral, assumidos escores para

suas categorias. Obtem-se, assim, escores medios (um para cada linha da

tabela) que sao, entao, comparados. O escore medio para a i-esima linha

(i = 1, 2) da Tabela 2.3 e definido por:

fi =3∑

j=1

aj nij

ni+i = 1, 2,

em que a = (a1, a2, a3) e o vetor de escores assumidos para as categorias

da variavel resposta.

Se a hipotese H0 e a de nao associacao entre o tratamento e o grau

de melhora, o que significa que as frequencias sao similares para todos as

categorias, entao:

E(f1 | H0) =3∑

j=1

(aj

n1+ n+j

n1+ n

)=

3∑

j=1

ajn+j

n= µa

e a variancia:

V (f1 | H0) =(n − n1+)

n1+(n − 1)

3∑

j=1

(aj − µa)2(n+j

n

)=

(n − n1+) va

n1+(n − 1)

sendo va =∑3

j=1(aj − µa)2(

n+j

n

).


A quantidade f1 tem, pelo teorema central do limite, distribuicao nor-

mal, de modo que, a quantidade:

QS =(f1 − µa)

2

[(n − n1+)/(n1+(n − 1))

]va

tem aproximadamente distribuicao qui-quadrado com um grau de liber-

dade. QS e chamada estatıstica escore medio. Por usar a informacao or-

dinal da variavel resposta, QS pode indicar onde as mudancas ocorrem.

Assim, as estatısticas Q e Qp sao uteis para detectar tipos gerais de as-

sociacao, mas nao sao tao eficientes quanto QS em detectar a localizacao

dessas mudancas.

Usando-se os escores a = (1, 2, 3) para, respectivamente, as catego-

rias: nenhuma, alguma e acentuada, foi obtido QS = 12,859 (p = 0,0003).

Conclui-se, desse modo, que os tratamentos diferem e que o tratamento

Ativo apresentou desempenho melhor (grau de melhora mais acentuado)

do que o placebo, uma vez que fA = 2, 195 e fP = 1, 488.

2.3.1 Escolha dos Escores

As estrategias de analise de dados ordinais requerem a escolha dos escores

a serem atribuıdos as categorias da variavel resposta. Dentre as varias

maneiras de escolha, as duas mais usuais sao:

i) escores inteiros: estes sao definidos como aj = j, para j = 1, · · · , r,

e sao uteis quando as categorias ordenadas da variavel resposta sao

vistas como igualmente espacadas. Sao tambem uteis, quando as

categorias da variavel resposta correspondem a contagens inteiras.

Os escores inteiros (0, 1, · · · ) e (1, 2, · · · ), em termos de conclusoes,

produzem resultados similares.

2.4. Analise de Tabelas de Contingencia s × 2 41

ii) escores padronizados (midranks): estes sao restritos a valores

entre 0 e 1 e sao definidos por:

aj =2(∑j

k=1 n+k

)− n+j + 1

2(n + 1).

A vantagem desses escores sobre os escores inteiros e que o analista

nao se responsabiliza diretamente pela selecao dos escores. Ele usa

os dados para obte-los.

Para muitos conjuntos de dados, a escolha dos escores apresentam pe-

queno efeito nos resultados. Escolhas diferentes de escores inteiros usual-

mente fornecem resultados similares. Isso pode, contudo, nao acontecer

quando os dados sao muito desbalanceados, tal como quando algumas cate-

gorias apresentam muito mais observacoes do que outras. Com os escores

padronizados (midranks) isso tambem ocorre, uma vez que aquelas catego-

rias apresentando poucas observacoes, em relacao as demais, apresentarao

escores muito proximos. A consequencia e que as distancias entre os nıveis

da variavel resposta podem vir a ser consideradas muito mais proximas do

que elas realmente sao.

Como pode ser visto, a escolha dos escores nao e uma tarefa muito sim-

ples. Agresti (1990, 1996) recomenda que os dados sejam analisados usando

diversos razoaveis conjuntos de escores para determinar se conclusoes im-

portantes dependem das escolhas feitas. O pesquisador e, sem duvida, de

fundamental importancia para o entendimento das distancias entre as cate-

gorias da variavel resposta e consequente escolha adequada dos escores.

2.4 Analise de Tabelas de Contingencia s × 2

Os dados apresentados na Tabela 2.4 referem-se a um estudo sobre o uso

de tabaco por adolescentes (Bauman et al., 1989), em que o interesse era


testar a existencia de associacao entre a variavel resposta (uso de tabaco)

e o fator consciencia do risco de uso do tabaco pelo adolescente.

Tabela 2.4: Resultado de um estudo sobre o uso de tabaco por adolescentes.

Consciencia do risco Nao usa tabaco Usa tabaco Totais

Mınima 70 33 103

Moderada 202 40 242

Substancial 218 11 229

Totais 490 84 574

Para esses dados observam-se, a variavel resposta (uso de tabaco) como

sendo dicotomica e o fator consciencia do risco, como ordinal. Na pratica,

as duas variaveis podem ser consideradas ordinais, uma vez que e comum

associar os escores 0 e 1 as categorias de uma variavel dicotomica. Assim, e

como no caso das tabelas de contingencia 2 × r, escores c = (c1, c2, c3) sao

assumidos para os nıveis (mınima, moderada e substancial) do fator ordinal

consciencia do risco. Por exemplo, c = (1, 2, 3). Para as categorias nao usa

e usa tabaco da variavel resposta assumem-se os escores a = (a1, a2) =

(0, 1), respectivamente. Assim, tem-se:

f =

3∑

i=1

2∑

j=1

ci aj nij

n,

em que, sob H0,

E(f | H0) =3∑

i=1

ci

(ni+

n

) 2∑

j=1

aj

(n+j

n

)= µc µa

e

V (f | H0) =

{3∑

i=1

(ci − µc)2(ni+

n

) 2∑

j=1

(aj − µa)2(n+j/n)

(n + 1)

}.

2.5. Analise de Tabelas de Contingencia s × r 43

A quantidade f tem distribuicao aproximadamente normal para grandes

amostras de modo que, para essas situacoes, usa-se a estatıstica de teste:

QCS =(f − µc µa)

2

V ar(f | H0)

=(n − 1)

[∑3i=1

∑2j=1(ci − µc)(aj − µa) nij

]2[∑3

i=1(ci − µc)2 ni+

][∑2j=1(aj − µa)2 n+j

] = (n − 1) r2ac,

em que rac e o coeficiente de correlacao de Pearson. Por este fato, QCS e

denominada estatıstica da correlacao. Ainda, QCS tem distribuicao aproxi-

mada qui-quadrado com 1 grau de liberdade.

Para os dados da Tabela 2.4, tem-se QCS = 42, 94 (p < 0,0001),

concluindo-se, portanto, haver uma forte associacao entre consciencia do

risco de fumo e uso de tabaco. Ainda, rac = −0, 274 e, desse modo, o uso

de tabaco diminui a medida que a consciencia do risco aumenta.

2.5 Analise de Tabelas de Contingencia s × r

Os conceitos de associacao e medidas de associacao em tabelas 2 × 2 e

associacao em tabelas de contingencia 2 × r e s × 2 foram apresentados e

discutidos ate o momento. Nessa secao, tais conceitos sao estendidos para

tabelas s × r (s, r > 2), cuja notacao e apresentada na Tabela 2.5.

2.5.1 Associacao geral em tabelas s × r

Para testar a hipotese nula de nao existencia de associacao geral em uma

tabela de contingencia s × r pode-se usar:


Tabela 2.5: Tabela de contingencia s × r.

Categorias da variavel respostaGrupos 1 2 · · · r Totais

1 n11 n12 · · · n1r n1+

2 n21 n22 · · · n2r n2+

......

......

......

s ns1 ns2 · · · nsr ns+

Totais n+1 n+2 · · · n+r n

(a) Caso 1: variavel resposta nominal

i) A estatıstica qui-quadrado de Pearson que, de modo analogo ao apre-

sentado para uma tabela de contingencia 2 × 2, e definida por:

QP =

s∑

i=1

r∑

j=1

(nij − mij)2

mij.

Quando todas as caselas apresentarem valores esperados maiores que 5,

tal estatıstica segue aproximadamente uma distribuicao Qui-quadra-

do com (s − 1)(r − 1) graus de liberdade.

ii) A estatıstica Q que, similarmente ao apresentado para uma tabela de

contingencia 2 × 2, e obtida por:

Q =(n − 1)

nQP

Tambem Q segue aproximadamente uma distribuicao qui-quadrado

com (s − 1)(r − 1) graus de liberdade.

(b) Caso 2: variavel resposta ordinal

As estatısticas Q e QP sao adequadas para a deteccao de associacao geral.

Nao sao, no entanto, tao adequadas quando a variavel resposta e ordinal e


e de interesse levar em conta tal ordenacao. Assim como para tabelas de

contingencia 2× r, a estatıstica escore medio, QS , pode ser tambem usada

para tabelas de contingencia s × r, de modo que QS fica expressa por:

QS =(n − 1)

∑si=1 ni+(fi − µa)

2

n va

em que fi =∑r

j=1(aj)(nij)

ni+, µa = E[fi | H0] =

∑rj=1

(aj)(n+j)n e va =

∑rj=1(aj−µa)

2(

n+j

n

). Nesses casos, QS tem aproximadamente distribuicao

qui-quadrado com (s−1) graus de liberdade, uma vez que os escores medios

de s grupos estao sendo comparados.

(c) Caso 3: ambas as variaveis ordinais

Esta situacao ocorre, por exemplo, quando a variavel resposta e ordinal e

os tratamentos sendo comparados sao, na realidade, dosagens diferentes de

um mesmo medicamento. Em tais situacoes, escores sao assumidos para os

nıveis da variavel resposta e, tambem, para os nıveis do fator de interesse.

A estatıstica de teste apropriada para esta situacao, como visto para

tabelas de contingencia s × 2, e a estatıstica da correlacao QCS que, in-

dependente da dimensao da tabela, tera sempre distribuicao aproximada

qui-quadrado com 1 grau de liberdade. Tal estatıstica e expressa por:

QCS = (n − 1) r2ac

em que rac e o coeficiente de correlacao de Pearson.

2.5.2 Teste exato para associacao geral em tabelas s × r

Em alguns casos o tamanho amostral, em uma tabela de contingencia s × r,

nao e suficientemente grande e ocorrem diversos valores esperados menores

do que 5. As estatısticas qui-quadrado discutidas anteriormente nao sao,

portanto, recomendaveis. Nessas situacoes, uma alternativa e o teste exato


de Fisher para tabelas s × r. Esse metodo segue os mesmos princıpios do

teste exato de Fisher para uma tabela de contingencia 2 × 2, exceto que

as probabilidades sao assumidas serem provenientes de uma distribuicao

hipergeometrica multivariada, isto e.

P (Nij = nij) =

s∏

i=1

ni+!

r∏

j=1

n+j !

n!s∏

i=1

r∏

j=1

nij !

.

2.5.3 Medidas de associacao em tabelas s × r

Algumas medidas de associacao encontram-se disponıveis quando ha inte-

resse em se obter a intensidade da associacao em uma tabela s × r. A

escolha por uma dessas medidas, dependera da escala de mensuracao das

variaveis.

i) Medidas de associacao ordinal

Nos casos em que as categorias exibidas nas linhas e colunas de uma

tabela de contingencia s × r estiverem em uma escala intervalar ou

apresentarem escores que sao igualmente espacados, recomenda-se

(Stokes et al., 2000) como medida de associacao, o coeficiente de

correlacao de Pearson. Nos casos, contudo, em que as categorias sao

de natureza ordinal mas nao apresentarem uma escala de distancia

obvia, sugere-se, entao, o coeficiente de correlacao de Spearman o

qual baseia-se nos ranks das categorias.

ii) Medidas de associacao nominal

Medidas de associacao nos casos em que uma, ou ambas, as variaveis

de uma tabela de contingencia s × r estiverem em uma escala de

mensuracao nominal, sao mais difıceis. Dois coeficientes propostos


na literatura para essas situacoes sao: o coeficiente de incerteza (un-

certainty coefficient) e o coeficiente lambda. Agresti (1990) discute

algumas dessas medidas.

2.5.4 Exemplos

(a) Local de moradia e afiliacoes polıtico partidarias

Os dados apresentados na Tabela 2.6 referem-se a um estudo sobre a afiliacao

polıtico partidaria em uma determinada cidade (Stokes et al., 2000). O in-

teresse e saber se existe associacao entre partido polıtico e local (bairros)

de moradia.

Tabela 2.6: Distribuicao polıtico partidaria nos bairros da cidade.

Local de Moradia

Partido Polıtico A B C D Totais

Democrata 221 160 360 140 881

Independente 200 291 160 311 962

Republicano 208 106 316 97 727

Totais 629 557 836 548 2570

Para esses dados, ambas as variaveis encontram-se na escala de men-

suracao nominal e, desse modo, para testar a hipotese nula de nao asso-

ciacao entre partido polıtico e local de moradia pode-se usar a estatıstica

qui-quadrado de Pearson (QP ) bem como a estatıstica Q. Os resultados

obtidos para elas foram: QP = 273,92 (p < 0,0001, g.l = 6) e Q = 273, 81

(p < 0,0001, g.l. = 6). Note que Q e QP forneceram valores muito proximos,

o que ja era esperado, uma vez que o tamanho amostral (n = 2570) e

grande. Dos resultados apresentados, conclui-se haver associacao entre par-

tido polıtico e local de moradia.


(b) Medicamentos para dor de cabeca e perıodo sem dor

Os dados desse exemplo, que encontram-se na Tabela 2.7, sao de um estudo

sobre um novo medicamento utilizado para aliviar dores de cabeca. Os

pesquisadores compararam tal medicamento com o tratamento padrao e um

placebo e mediram, para cada um deles, o numero (em horas) de substancial

alıvio da dor de cabeca.

Tabela 2.7: Novo medicamento para o tratamento de dores de cabeca.

Horas de alıvio

Tratamento 0 1 2 3 4 Totais

Placebo 6 9 6 3 1 25

Padrao 1 4 6 6 8 25

Novo 2 5 6 8 6 27

Totais 9 18 18 17 15 77

Claramente, numero de horas e uma variavel resposta ordinal. Nesses

casos, o teste escore medio, como visto anteriormente, e indicado para testar

a hipotese nula de nao associacao entre medicamento e a intensidade do

alıvio de dor de cabeca. Utilizando-se, portanto, os escores a = (0, 1, 2, 3,

4) obteve-se QS = 13, 7346 (p = 0,00104, g.l = 2). Assim, ha evidencias

estatısticas de associacao entre tratamento e o numero de horas de dor de

cabeca. Pode-se, desse modo, concluir que pelo menos dois tratamentos

diferem entre si. Quais deles diferem? Observe que f1 = 1, 36, f2 = 2, 64

e f3 = 2, 41, fornecendo indıcios de que o placebo difere dos tratamentos

novo e padrao. Nao parece haver indıcios, contudo, de diferencas entre os

tratamentos novo e padrao.

Considerando-se, entao, a tabela com somente as linhas correspondentes

aos tratamentos padrao e novo tem-se QS= 0,465 (p = 0,495, g.l. = 1).

Conclui-se, desse modo, que os tratamentos novo e padrao nao diferem


entre si. Para as demais comparacoes obtiveram-se: i) placebo versus novo:

QS = 8, 6 (p = 0,0034, g.l. = 1) e ii) placebo versus padrao: QS = 11, 66

(p = 0,0006, g.l. = 1).

Observe, neste exemplo, que existem varias caselas com frequencia es-

perada menor do que 5, o que inviabiliza a utilizacao das estatısticas Q

e QP , mas nao inviabiliza o uso da estatıstica QS . Este e, portanto, um

exemplo que mostra a vantagem em se considerar a escala ordinal dos dados

utilizando-se uma estatıstica de teste mais apropriada.

(c) Produtos de limpeza de roupas e intensidade da limpeza

Uma companhia de tratamento de agua realizou um estudo para pesquisar

como os aditivos adicionados a agua afetam a limpeza das roupas. O estudo

considerou: agua sem nenhum aditivo, agua com tratamento padrao e agua

com dose dupla do tratamento padrao. Os resultados obtidos encontram-se

na Tabela 2.8

Tabela 2.8: Influencia de aditivos na agua sobre limpeza das roupas.

Limpeza

Tratamento Baixa Media Alta Totais

Agua pura 27 14 5 46

Agua + trat. padrao 10 17 26 53

Agua + dose dupla trat. padrao 5 12 50 67

Totais 42 43 81 166

Ambas as variaveis sao, nesse caso, ordinais e como foi visto, a es-

tatıstica da correlacao QCS e indicada. Tomando-se, desse modo, os es-

cores a = (1, 2, 3) e c = (1, 2, 3) para as categorias das variaveis limpeza e

tratamento, respectivamente, obteve-se QCS = 50,6 (p < 0,0001, g.l.= 1).


Conclui-se, portanto, que o tratamento e limpeza estao associados e que a

limpeza aumenta com a dosagem de aditivo adicionado a agua, visto que

rac = 0,554.

(d) Tipo de veıculo adquirido e fonte de propaganda.

Os dados desse exemplo referem-se a um estudo realizado para saber se o

tipo de carro que as pessoas haviam comprado nos ultimos meses em uma

determinada concessionaria, estava associado com o tipo de anuncio publi-

citario dos mesmos. Os resultados do estudo encontram-se na Tabela 2.9.

Tabela 2.9: Escolha do tipo de carro e anuncio publicitario.

Anuncio publicitario

Tipo de carro TV Revista Jornal Radio Totais

Sedan 4 0 0 2 6

Esportivo 0 3 3 4 10

Utilitario 5 5 2 2 14

Totais 9 8 5 8 30

Pode-se notar que os dados nao satisfazem as condiccoes de aplicabili-

dade dos testes usuais Q e QP , pois existem caselas com frequencia zero,

bem como algumas delas com frequencias esperadas menores do que 5. O

teste exato de Fisher, para testar a hipotese nula de nao associacao, e,

desse modo, a estrategia indicada. Utilizando-se tal teste para os dados

desse exemplo, obteve-se um valor p = 0,0473 (bilateral). Nao existe teste

exato de Fisher unilateral para tabelas s× r. Conclui-se, nesse caso, haver

evidencias de associacao ao nıvel de significancia de 5%. Para nıveis de

significancia menores nao e possıvel concluir pela existencia de associacao

entre o tipo de carro comprado e o tipo de anuncio publicitario.

2.6. Analise Estratificada 51

2.6 Analise Estratificada

Nos estudos em geral pode haver a necessidade de se realizar uma analise

estratificada. Este tipo de analise pode, em alguns casos, ter sido planejada

e, em outros, surge apos a coleta dos dados.

Um exemplo de analise estratificada planejada e o de um estudo rea-

lizado com o objetivo de se verificar a associacao entre fumo voluntario e

cancer de pulmao em que e considerada uma estratificacao pelo fator fumo

passivo. A estratificacao, nesse caso, e feita para evitar que o aparente

efeito do fumo voluntario, seja distorcido devido ao fato desses dois fatores

estarem mesclados (confundidos). Caso a influencia do confundimento entre

os fatores fumo voluntario e fumo passivo nao seja removida, a associacao

entre tabaco e cancer de pulmao pode ate mesmo nao ser detectada. As-

sim, nao e a mera presenca ou ausencia do confundimento que e importante

avaliar, mas sim a magnitude deste confundimento. Se esta magnitude nao

for muito acentuada, a associacao entre o fator de interesse e a resposta,

caso exista, pode ate ser observada mesmo sem a estratificacao. A inten-

sidade da associacao e que, contudo, nao estara sendo bem avaliada. Em

face da incerteza, e conveniente realizar ambas as analises: com e sem a

estratificacao.

Um exemplo de analise estratificada nao planejada e a de um estudo

clınico aleatorizado realizado para comparar dois tratamentos em que os

dados sao coletados em mais de um hospital ou centro medico. Somente

apos a realizacao do estudo e que os pesquisadores notam comportamentos

dos pacientes acentuadamente diferentes em cada centro e que este fator

deveria ser, portanto, considerado na analise. Fazendo-se uma analogia com

planejamento de experimentos, os centros aqui tem o sentido de blocos, pois

nao ha o interesse em testa-los, mas sim controlar o seu efeito na analise da

associacao entre o tratamento e a resposta. Este exemplo, dentre outros, e


apresentado e analisado a seguir.

Exemplo 1: Considere os dados da Tabela 2.10 provenientes de um en-

saio clınico aletorizado realizado para comparar dois medicamentos usados

no tratamento de infeccoes respiratorias severas, medicamentos estes que

foram testados em dois centros medicos. Note que esta tabela e, na reali-

dade, um conjunto de duas tabelas de contingencia 2 × r, com r = 2, em

que as mesmas questoes de uma unica tabela sao de interesse. Ou seja,

deseja-se testar a existencia de associacao entre o tratamento e a resposta

do paciente e, se esta existe, qual a intensidade da mesma.

Tabela 2.10: Resultados de um ensaio clınico realizado para comparar dois

medicamentos usados no tratamento de infeccoes respiratorias severas.

RespostaCentro Tratamento Favoravel Nao favoravel Totais

1 Novo 29 16 45

1 Padrao 14 31 45

Totais 43 47 90

2 Novo 37 8 45

2 Padrao 24 21 45

Totais 61 29 90

Como o interesse concentra-se na associacao entre o tratamento e a

resposta, poder-se-ia pensar em somar as frequencias das linhas correspon-

dentes a cada tratamento obtendo-se, assim, uma unica tabela de con-

tingencia 2 × 2. Os pesquisadores notaram, contudo, que os pacientes

apresentaram comportamentos acentuadamente diferentes em cada centro

e que este deveria ser, portanto, considerado na analise. Uma analise es-

tratificada e, desse modo, a estrategia a ser adotada nesta situacao. Em


tal analise, examina-se a associacao entre as duas variaveis de interesse

controlando-se, ou ajustando-se, para o efeito de centro.

Um teste para verificar a associacao entre as variaveis de interesse,

controlando (ou ajustando) por uma covariavel (fator), foi proposto por

Mantel-Haenszel (1959). Este teste e apresentado a seguir.

2.6.1 Teste de Mantel-Haenszel

Para obtencao da estatıstica de teste proposta por esses autores, considera-

se, para cada uma das q tabelas 2 × 2 que compoem a tabela geral, a

notacao apresentada na Tabela 2.11.

Tabela 2.11: h-esima tabela de contingencia 2 × 2.

ColunaLinha A B Totais

A nh11 nh12 nh1+

B nh21 nh22 nh2+

Totais nh+1 nh+2 nh

Sob a hipotese nula de nao diferenca entre os tratamentos, o valor es-

perado de nh11 e sua respectiva variancia sao dados por:

E(Nh11 | H0) =(nh1+)(nh+1)

nh= mh11

V (Nh11 | H0) =(nh1+)(nh2+)(nh+1)(nh+2)

n2h(nh − 1)

= vh11.

Assim, a estatıstica de teste proposta por Mantel-Haenszel e dada por:

QMH =

(q∑

h=1

nh11 −q∑

h=1

mh11

)2

q∑

h=1

vh11

=

(q∑

h=1

(nh1+ nh2+)

nh(ph11 − ph21)

)2

q∑

h=1

vh11

,


em que phi1 = nhi1/nhi+. Sob H0, QMH tem aproximadamente uma dis-

tribuicao qui-quadrado com 1 grau de liberdade, quando∑q

h=1 nh for sufi-

cientemente grande (> 30). Em um certo sentido, essa estrategia de analise

e similar a uma analise de variancia de um experimento fatorial em blocos

aleatorizados.

QMH e eficaz para determinar padroes de associacao quando existir

uma forte tendencia de a maioria das diferencas (ph11 − ph21) apresentar o

mesmo sinal. Assim, QMH pode falhar em detectar a associacao quando as

diferencas estiverem em direcoes opostas (sinais diferentes) e apresentarem

magnitudes similares.

Mantel e Fleiss (1980) propuseram um criterio para determinar se a

aproximacao qui-quadrado e apropriada para a distribuicao da estatıstica

de Mantel-Haenszel para q tabelas. Este criterio e dado por:

CMF = min

{[q∑

h=1

mh11 −q∑

h=1

(nh11)L

],

[q∑

h=1

(nh11)U −q∑

h=1

(mh11)

]}> 5,

em que (nh11)L = max(0, (nh1+ − nh11)) e (nh11)U = min(nh+1, nh1+).

Para os dados da Tabela 2.10 tem-se: QMH = 18, 41 (p < 0,0001). As-

sim, existe uma forte associacao entre tratamento e a resposta do paciente,

ajustado para centro. Conclui-se, portanto, que o medicamento novo apre-

senta uma taxa de resposta favoravel significativamente maior do que a do

placebo. Ainda, CMF = min{

(52 − 24), (88 − 52)}

= 28 ≥ 5 mostrando

que, para esses dados, a aproximacao qui-quadrado e apropriada para QMH .

2.6.2 Medidas de associacao

Para um conjunto de q tabelas de contingencia 2 × 2 pode-se calcular a

media das odds ratios. Se as odds ratios forem homogeneas, o estimador de


Mantel-Haenszel para a odds ratio comum e dado por:

ORMH =

∑qh=1

nh11 nh22

nh∑qh=1

nh12 nh21

nh

.

O intervalo de confianca a 100(1-α)% para a ORMH e:

(ORMH exp(zα/2 σ), ORMH exp(−zα/2 σ)

),

em que:

σ2 =

∑h(nh11 + nh22)(nh11 nh22)/n

2h

2(∑

h(nh11 nh22)/nh)2

+

∑h

[(nh11 + nh22)(nh12 nh21) + (nh12 + nh21)(nh11 nh22)

]/n2

h

2(∑

h(nh11 nh22)/nh)(∑

h(nh12 nh21)/nh)

+

∑h(nh12 + nh21)(nh12 nh21)/n

2h

2(∑

h(nh12 nh21)/nh)2.

No exemplo apresentado na Tabela 2.10, as odds ratios sao homogeneas

(OR1 = 4, 01 e OR2 = 4, 04) e, sendo assim, a odds ratio comum estimada,

bem como seu respectivo I.C. ao nıvel de 95% de confianca, sao:

ORMH = 4, 028

IC(ORMH)(95)% = (2, 106; 7, 701).

Ajustado por centro, tem-se, portanto, que a chance (odds) dos pacientes

que receberam o novo tratamento apresentarem melhora e, em media, 4

vezes a chance (odds) dos que receberam placebo. Essa chance varia, ao

nıvel de 95% de confianca, entre 2,1 e 7,7 vezes.

Exemplo 2: Considere os dados do estudo clınico duplo-cego apresentado

na Secao 2.3, sendo que, agora, se deseja verificar a existencia de associacao

entre o tratamento e o grau de melhora, controlando-se, no entanto, pela

covariavel sexo. Os dados sao mostrados na Tabela 2.12.


Tabela 2.12: Resultado de um estudo clınico realizado com pacientes de

ambos os sexos para investigar um tratamento para artrite reumatoide.

Melhora

Sexo Tratamento Nenhuma Alguma Acentuada Totais

Feminino Ativo 6 5 16 27

Feminino Placebo 19 7 6 32

Totais 25 12 22 59

Masculino Ativo 7 2 5 14

Masculino Placebo 10 0 1 11

Totais 17 2 6 25

Note que os dados sao, na realidade, um conjunto de duas tabelas de

contingencia 2 × r, com r = 3, em que o interesse esta na associacao

entre o tratamento e o grau de melhora, ajustado para sexo. Como dito

anteriormente, a covariavel sexo tem, tambem aqui, o sentido de blocos, pois

nao ha o interesse em testa-la, mas sim controlar o seu efeito na analise da

associacao entre o tratamento e o grau de melhora.

Em sendo o grau de melhora uma resposta ordinal, uma vez que ne-

nhuma, alguma e acentuada sao gradacoes de melhora, Mantel (1963)

propos para a analise de um conjunto de tabelas 2 × r, quando a resposta e

ordinal, uma extensao da estrategia de Mantel-Haenszel, a qual e descrita

a seguir.

Considere ah = (ah1, ah2, · · · , ahr) o conjunto de escores assumidos

para os r nıveis da variavel resposta na h-esima tabela 2 × r. Assim,

considerando-se as duas tabelas 2 × 3 da Tabela 2.12, tem-se para o trata-

mento Ativo a seguinte soma de escores:

f+1 =2∑

h=1

3∑

j=1

(ahj)(nh1j) =2∑

h=1

(nh1+)(fh1),


em que:fh1 =

3∑

j=1

ahj nh1j

nh1+

e o escore medio para o tratamento Ativo na h-esima tabela. Sob a hipotese

nula de nao associacao, f+1 tem valor esperado dado por:

E(f+1 | H0) =

2∑

h=1

(nh1+) (µh) = µ∗

e variancia,

V (f+1 | H0) =2∑

h=1

(nh1+) (nh − nh1+)

(nh − 1)vh = v∗,

em que µh =3∑

j=1

(ahj) (nh+j)

nhe vh =

3∑

j=1

(ahj − µh)2

(nh+j

nh

).

Se os tamanhos amostrais n+i+ =∑2

h=1

∑3j=1 nhij forem suficiente-

mente grandes, entao f+1 tera distribuicao aproximadamente normal e a

quantidade:

QSMH =(f+1 − µ∗)

2

v∗

distribuicao aproximadamente qui-quadrado com 1 grau de liberdade. A

estatıstica QSMH e conhecida como estatıstica escore medio de Mantel-

Haenszel estendida, sendo eficiente para detectar padroes de diferencas

quando (fh1 − fh2) apresentarem predominantemente o mesmo sinal.

Para os dados da Tabela 2.12, e considerando-se os escores a = (1, 2, 3),

obteve-se QSMH = 14,63 (p < 0,001). Os tamanhos amostrais n+1+ = 41 e

n+2+ = 43 sendo suficientemente grandes, asseguram que QSMH apresenta

uma boa aproximacao para a distribuicao qui-quadrado, de modo que e

possıvel concluir que o tratamento e o grau de melhora, controlando-se

para sexo, apresentam-se associados.

Exemplo 3: Considere o mesmo estudo sobre a existencia de associacao

entre a variavel resposta uso de tabaco e o fator consciencia do risco de


uso de tabaco pelo adolescente controlando, no entanto, pelo fator uso de

tabaco pelo pai. Os dados estao apresentados na Tabela 2.13.

Tabela 2.13: Resultado de um estudo sobre o uso de tabaco por adoles-

centes.

Pai usa Consciencia do risco Nao usa tabaco Usa tabaco Totais

Nao Mınima 59 25 84

Nao Moderada 169 29 198

Nao Substancial 196 9 205

Totais 424 63 487

Sim Mınima 11 8 19

Sim Moderada 33 11 44

Sim Substancial 22 2 24

Totais 66 21 87

Para esses dados, tanto a resposta (uso de tabaco) quanto o fator uso

de tabaco pelo pai, sao dicotomicas. O fator consciencia do risco e ordi-

nal. Tambem aqui, as tres variaveis podem ser consideradas ordinais, uma

vez que e comum associar os escores 0 e 1 as categorias de uma variavel

dicotomica.

Mantel (1963) propos tambem uma estatıstica de teste para a associacao

de duas variaveis que sao ordinais em um conjunto de tabelas s× 2, baseada

nos escores a e c assumidos para as colunas e linhas das tabelas. Esta

estatıstica e expressa por:

QCSMH =

[∑q

h=1 nh

(fh − E(fh | H0)

)]2

∑qh=1 n2

h var(fh | H0)=

[∑q

h=1 nh (vhc vha)1/2 rac.h

]2

∑qh=1

[n2

h vhc vha/(nh − 1)]

e e chamada estatıstica da correlacao de Mantel-Haenszel estendida. Esta

estatıstica segue a distribuicao qui-quadrado com 1 grau de liberdade quando

2.7. Concordancia entre observadores 59

o tamanho amostral combinado das tabelas s×2 for suficientemente grande,

isto e,∑q

h=1 nh ≥ 40.

Para os dados da Tabela 2.13, considerando-se os escores inteiros c =

(1, 2, 3), foi obtido QCSMH = 40,6639 (p < 0,0001). Existe, portanto, uma

forte associacao (correlacao) entre consciencia do risco de fumar e uso de

tabaco pelo adolescente, controlando-se pelo fator uso de tabaco pelo pai.

Ainda, rac.1 = −0, 265 e rac.2 = −0, 276, indicam correlacao negativa entre

consciencia do risco e uso de tabaco e, sendo assim, o uso de tabaco diminui

a medida que a consciencia do risco do adolescente aumenta.

2.6.3 Analise estratificada em tabelas s × r (s, r > 2)

Para um conjunto de tabelas s × r tem-se, para testar as associacoes de

interesse, as extensoes das estatısticas:

i) QMH , quando as variaveis forem nominais;

ii) QSMH , quando os categorias da variavel resposta forem ordinais e,

iii) QCSMH , quando ambas as variaveis forem ordinais.

2.7 Concordancia entre observadores

2.7.1 Estatıstica Kappa

Pesquisadores nas areas de medicina, epidemiologia, psiquiatria, psicologia

etc. tem, ou deveriam ter, consciencia de que o observador e uma possıvel

fonte de erro de medicao. Em muitos casos, diferentes observadores, ou um

mesmo observador em diferentes tempos, podem, por exemplo, examinar

um raio X, ou realizar um exame fısico, e chegarem a diferentes conclusoes

(diagnosticos). E importante, desse modo, avaliar a concordancia entre os

observadores. Os dados, em um estudo desse tipo, produzem, em geral,


uma tabela de contingencia s× s em que os nıveis nas colunas representam

a resposta de um observador e os nıveis nas linhas a resposta do outro obser-

vador. As caselas na diagonal representam os casos em que os observadores

concordam.

Certamente as estatısticas tratadas anteriormente para testar a asso-

ciacao, ou nao, entre as respostas dos observadores poderiam ser usadas.

Com os resultados obtidos nao se poderia, contudo, quantificar a con-

cordancia dos observadores. Medidas de concordancia foram, entao, pro-

postas. O coeficiente Kappa, proposto por Cohen (1960), e uma dessas

medidas e e definido por:

κ =Π0 − Πe

1 − Πe

sendo Π0 =∑s

i=1 pii =∑s

i=1nii

n a probabilidade de concordancia, com pii

a probabilidade de um indivıduo ser classificado na categoria i por ambos

os observadores e, Πe =∑s

i=1(pi+)(p+i) =∑s

i=1(ni+)

n(n+i)

n a probabili-

dade de concordancia sob H0, em que H0: nao ha concordancia entre os

observadores (independencia das duas classificacoes).

Como Π0 = 1 quando existir concordancia perfeita (todos os elementos

fora da diagonal iguais a zero), κ sera igual a 1 quando existir concordancia

perfeita entre os observadores e, κ sera igual a 0 quando a concordancia for

aquela esperada sob H0. Assim quanto mais proximo de 1 for o valor de κ,

maior concordancia existira entre os observadores. E possıvel obter valores

negativos para κ mas isto, raramente ocorre. Considera-se, em geral, κ <

0,4 como concordancia fraca, κ entre [0,4; 0,8) como concordancia moderada

e κ ≥ 0,8 como concordancia forte.

A variancia assintotica do coeficiente Kappa pode ser estimada por:

var(κ) =(A + B − C)

((1 − Πe)2 n),

em que A =∑

i pii

[1 −

((pi+) + (p+i)

)(1 − κ)

]2, C =

[κ − Πe(1 − κ)

]2e

2.7. Concordancia entre observadores 61

B = (1 − κ)2∑∑

i6=j pij

((p+1)(pj+)

)2. Um intervalo de confianca para κ

pode, portanto, ser obtido por:

κ ± zα/2

√var(κ)

em que zα/2 e o 100(1-α/2) percentil da distribuicao normal padrao.

2.7.2 Estatıstica Kappa ponderada

Para os casos em que a resposta e ordinal uma forma ponderada da es-

tatıstica Kappa foi proposta e esta e definida por:

κw =Π0(w) − Πe(w)

1 − Πe(w)=

∑si=1

∑sj=1 wij pij −

∑si=1

∑sj=1 wij(pi+)(p+j)

1 −∑si=1

∑sj=1 wij(pi+)(p+j)

,

em que wij sao pesos com valores entre 0 e 1. Um possıvel conjunto de

pesos e dado por:

wij = 1 −| escore(i) − escore(j) |escore(dim) − escore(1)

em que escore(i) e o escore para a i-esima linha, escore(j) e o escore para a

j-esima coluna e dim e a dimensao da tabela s × s.

A variancia assintotica do coeficiente Kappa ponderado pode ser esti-

mada por:

var(κw) =

∑i

∑j pij

[wij − (wi+ + w+j)(1 − κw)

]2−[κw − Πe(w)(1 − κw)

]2

(1 − Πe(w))2 n,

em que wi+ =∑

j(p+j)(wij) e w+j =∑

j(pi+)(wij).

Um intervalo de confianca para κw pode, portanto, ser obtido por:

κ(w) ± zα/2

√var(κw),

em que zα/2 e o 100(1-α/2) percentil da distribuicao normal padrao.


2.7.3 Exemplo

Os dados apresentados na Tabela 2.14 referem-se a classificacao de pacientes

com esclerose multipla, em 4 classes de diagnostico, por dois neurologistas.

Tabela 2.14: Concordancia de diagnosticos de neurologistas.

Neurologista 1

Neurologista 2 1 2 3 4 Totais

1 38 5 0 1 44

2 33 11 3 0 47

3 10 14 5 6 35

4 3 7 3 10 23

Totais 84 37 11 17 149

Para esses dados, obteve-se:

κ =((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/1492)

1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/1492))

κ = 0, 2079.

Ainda, var(κ) = 0, 00255 e, portanto, IC0,95(κ) = (0,109; 0,3068). De

forma analoga, κw = 0, 3797, var(κw) = 0, 002673 e IC0,95(κw) = (0,2785;

0,4810). Tais resultados indicam uma concordancia fraca entre os neurol-

ogistas. No software R, os intervalos de confianca diferem dos aqui apre-

sentados devido essencialmente as variancias assintoticas serem obtidas de

forma ligeiramente diferenciada.

2.8. Exercıcios 63

2.8 Exercıcios

1. Para os dados do exercıcio 1 do Capıtulo 1:

(a) Estabeleca as hipoteses de interesse e teste-as.

(b) Calcule uma medida de associacao apropriada a esse estudo, bem

como seu respectivo intervalo de confianca, e retire conclusoes.

2. Faca o mesmo para os dados dos exercıcios 2, 3, 4 e 5 do Capıtulo 1.

3. Testes sobre alergia a um medicamento foram realizados em um total

de 1247 pessoas no ano de 1993. Os resultados obtidos foram:

Tabela 2.15: Testes sobre alergia a um medicamento.

Resultado do Teste

Sexo + − Total

Feminino 21 538 559

Masculino 52 636 688

Total 73 1174 1247

Em 1994, estes testes foram realizados em um total de 3319 pessoas,

obtendo-se:

Tabela 2.16: Testes sobre alergia a um medicamento.

Resultado do Teste

Sexo + − Total

Feminino 47 1578 1625

Masculino 123 1571 1694

Total 170 3149 3319

(a) Pode-se dizer que sexo e um fator de risco? Ou seja, sera que pes-

soas do sexo feminino sao mais ou menos provaveis a terem alergia do


que as do sexo masculino? Analise adequadamente e tire conclusoes.

4. Com a finalidade de se verificar qual parte do menisco e mais atingida

por lesoes, 15 jogadores com idade entre 20 e 29 anos, que nunca apre-

sentaram sintomas de lesoes, tiveram ambos os meniscos submetidos

a uma avaliacao por ressonancia magnetica. O grau de lesao de cada

menisco foi avaliado em 4 regioes de acordo as posicoes (medial e

lateral) e segmentos (anterior e posterior). Problemas ocorreram na

ressonancia de 3 meniscos e, portanto, um total de 108 avaliacoes

foram consideradas para a analise. Os resultados dessas avaliacoes

encontram-se na Tabela 2.17. As comparacoes de interesse sao:

a) medial e lateral;

b) anterior e posterior;

c) medial anterior e medial posterior e,

d) lateral anterior e lateral posterior.

Tabela 2.17: Estudo sobre lesoes em meniscos.

Regioes dos meniscos Grau da lesao

Posicao Segmento 0 0,5 1 1,5 Total

Medial Anterior 20 7 0 0 27

Medial Posterior 5 11 11 0 27

Lateral Anterior 19 3 3 2 27

Lateral Posterior 17 6 4 0 27

0 = ausente, 0,5 = leve, 1 = moderada e 1,5 = grave

5. Num programa de reabilitacao de drogas, indivıduos do sexo mas-

culino com idade entre 25 e 34 anos eram, ao entrarem no programa,

classificados segundo duas categorias etnicas (A ou B). Um ano apos

2.8. Exercıcios 65

a entrada no programa, foi observado quantos tinham retornado ao

uso das drogas. Os resultados sao apresentados na Tabela 2.18:

Tabela 2.18: Estudo sobre reabilitacao de drogas.

Status apos um ano

Grupo Etnico reincidentes nao-reincidentes Total

A 47 43 90

B 26 21 47

Total 73 64 137

(a) Identifique o tipo de estudo realizado.

(b) Forneca um intervalo de confianca de 90% para o risco relativo

do grupo A se tornar reincidente quando comparado com o grupo B.

Interprete esse intervalo relacionando-o com a hipotese de que a razao

do retorno a droga e a mesma para os dois grupos etnicos.

6. Para comprovar se um programa informativo e de acompanhamento

de aleitamento materno e mais eficaz do que o tradicional, foi reali-

zado um estudo em duas maternidades de Curitiba-PR em que, na

maternidade H, adotou-se o referido programa e, na maternidade A,

manteve-se o programa tradicional. As maes foram acompanhadas

por um perıodo de 120 dias e dentre as que efetivamente permanece-

ram no programa obtiveram-se os resultados apresentados na Tabela

2.19. O programa e considerado mais eficaz se as maes, ao final

do perıodo estabelecido, continuaram amamentando as criancas com

leite materno. Na maternidade H iniciou-se com 150 maes e na mater-

nidade A com 44. Houve portanto, perda, considerada aleatoria, de

em torno 20% em cada grupo.

(a) Com os resultados obtidos o que diria a pesquisadora?


Tabela 2.19: Estudo sobre aleitamento materno.

Amamentacao apos 120 dias

Maternidade Sim Nao Total

H 83 34 117

A 19 16 35

Total 102 50 152

Tese de Doutorado: Dra. Marizilda M. Gravioff

7. Para verificar a severidade de nauseas devido ao uso do medicamento

cisplatinum, um estudo foi realizado obtendo-se:

Tabela 2.20: Estudo sobre a severidade de nauseas.

Grau da severidade

Uso do cisplatinum 0 1 2 3 4 5 Total

Sim 7 7 3 12 15 14

Nao 43 39 13 22 15 29

(0 = ausente, ...., 5 = forte)

(a) E possıvel concluir que o medicamento provoca uma severidade

mais acentuada de nauseas? Apresente testes de hipoteses e resulta-

dos.

(b) Considere os pesos com espacamentos de 0,5 em vez de 1. As

conclusoes se alteram?

8. Os dados, a seguir, referem-se a um estudo realizado sobre a presenca

de resfriado em criancas de duas regioes (urbana e rural). Pesquisadores

visitaram as criancas diversas vezes e observaram se elas tinham, ou

nao, quaisquer sintomas de resfriado. A resposta medida foi o numero

de perıodos em que cada crianca exibiu esses sintomas.

(a) Considerando somente a tabela das criancas do sexo feminino,

2.8. Exercıcios 67

Tabela 2.21: Estudo sobre resfriado em criancas.

Perıodos com resfriado

Sexo Regiao 0 1 2 Total

Feminino Urbana 45 64 71 180

Feminino Rural 80 104 116 300

Masculino Urbana 84 124 82 290

Masculino Rural 106 117 87 310

Stokes (1986).

teste a existencia de associacao entre regiao e perıodos com resfriado.

(b) Faca o mesmo considerando somente as criancas do sexo mas-

culino.

(c) Teste a existencia de associacao entre regiao e perıodos com res-

friado, controlando para a variavel sexo.

(d) Qual a sua conclusao?

9. Dois adesivos, singlebonde e Panavia F, usados em restauracoes denta-

rias foram pesquisados a fim de avaliar se o grau de infiltracao com

estes adesivos diferem. Para os 14 dentes utilizados no experimento

(cada dente recebeu em uma das metades o adesivo singlebonde e na

outra metade o Panavia F), tres examinadores atribuıram notas de 0

a 4 para o grau de infiltracao observado (4 corresponde ao maior grau

de infiltracao). Para os resultados das avaliacoes dos examinadores

apresentados na Tabela 2.22, responda:

(a) O grau de infiltracao entre os adesivos difere?

(b) O que diria a respeito do grau de concordancia entre as avaliacoes

realizadas pelos tres examinadores, seja para o adesivo singlebonde,

seja para o Panavia F.


Tabela 2.22: Estudo sobre a comparacao de dois adesivos.

Examinador 1 Examinador 2 Examinador 3

Dentes A1 A2 A1 A2 A1 A2

1 1 3 1 4 1 4

2 4 1 4 4 4 1

3 1 0 1 1 1 1

4 4 0 4 0 4 0

5 0 1 0 4 0 1

6 0 0 0 0 0 0

7 1 4 1 2 1 2

8 1 0 1 1 2 1

9 4 3 4 4 4 3

10 2 4 3 2 2 4

11 1 1 1 1 1 2

12 0 0 1 1 1 0

13 4 3 4 1 1 3

14 0 1 0 2 0 2

Fonte: Bajah Nasser Neto - Graduando Odontologia, UFPR, 2003

A1 = Singlebonde e A2 = Panavia F

10. (a) Para avaliar a concordancia dos diagnosticos emitidos por medicos

residentes e medicos cursando especializacao, quanto ao grau de gravi-

dade de criancas atendidas na Dermatopediatria do HC de Curitiba-

PR, foi realizada uma pesquisa com 100 criancas, selecionadas aleato-

riamente, obtendo-se os resultados apresentados na Tabela 2.23. O

que e possıvel concluir a respeito da concordancia dos diagnosticos

emitidos por esses profissionais?

(b) Neste mesmo experimento, o grau de resolucao (ou seja, a decisao

dos medicos residentes e especializandos) foi tambem avaliado quanto

a concordancia. Dos resultados apresentados na Tabela 2.24, o que

e possıvel concluir a respeito da concordancia das decisoes tomadas

2.8. Exercıcios 69

Tabela 2.23: Estudo sobre a concordancia de diagnosticos.

Gravidade - Especializando

Gravidade - Residente Pouco Moderada Muita

Pouco 89 1 0

Moderada 5 3 1

Muita 1 0 0

Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.

por esses profissionais?


Decisao - Especializando

Dermato Dermato

Decisao - Residente Pediatria urgente nao urgente

Pediatria 10 0 0

Dermato urgente 1 1 1

Dermato nao urgente 36 1 50


(c) Comparando, ainda, o grau de preocupacao da mae com o grau

de gravidade da doenca, segundo os residentes e, tambem, segundo os

especializandos, obtiveram-se os resultados apresentados nas Tabelas

2.25 e 2.26. Conclua a respeito da concordancia entre:

(c1) o grau de preocupacao da mae e o grau de gravidade da doenca

segundo os residentes e,

(c2) o grau de preocupacao da mae e o grau de gravidade da doenca

segundo os especializandos.

11. Procure artigos, textos ou similares que tratem a aplicacao de medidas

tais como: especificidade, sensibilidade, valor preditivo etc.



Gravidade - Residente

Preocupacao - Mae Pouco Moderada Muita

Pouco 1 0 5

Moderada 1 1 6

Muita 8 2 73



Gravidade - Especializando

Preocupacao - Mae Pouco Moderada Muita

Pouco 6 0 0

Moderada 7 0 1

Muita 80 3 0


Sugestao: PINHO, A. A. Validade da citologia cervicovaginal de lesoes pre-

neoplasicas e neoplasicas de colo de utero. Jornal Brasileiro de Patologia e

Medicina Laboratorial, v.38, n.3, p.225-231, 2002.

Capıtulo 3

Regressao Logıstica

3.1 Introducao

A regressao logıstica e frequentemente apropriada para a analise de ex-

perimentos que apresentam variaveis resposta categoricas em que o inte-

resse seja o de descrever a relacao entre a variavel resposta e um conjunto

de variaveis explanatorias (covariaveis). Quando a variavel resposta e di-

cotomica (somente duas categorias), tem-se a, assim denominada, regressao

logıstica dicotomica. Para variaveis resposta com mais do que duas catego-

rias, a denominacao usada e regressao logıstica politomica. As covariaveis,

em regressao logıstica, podem ser categoricas ou contınuas. Variaveis dum-

mies sao usadas para que as covariaveis categoricas sejam consideradas em

um modelo de regressao logıstica. Nas Secoes 3.2 e 3.3, sao apresentadas

as regressoes logıstica dicotomica e politomica.

3.2 Regressao Logıstica Dicotomica

Considere, como exemplo inicial, os dados da Tabela 3.1 em que a relacao

entre idade e doenca coronaria esta sendo estudada. Dos resultados apre-

71

72 Capıtulo 3. Regressao Logıstica Giolo, S.R.

sentados nesta tabela, observa-se que com o acrescimo da idade, cresce

tambem a probabilidade de ocorrencia de doenca coronaria. Cconsiderando-

se o ponto medio de cada intervalo de idade, a Figura 3.1 apresenta grafi-

camente tais resultados.

Tabela 3.1: Dados sobre doenca coronaria por intervalos de idade.

Doenca coronaria

Idade (X = x) Nao (Y = 0) Sim (Y = 1) Totais E(Y | x)

20-29 9 1 10 0,10

30-34 13 2 15 0,13

35-39 9 3 12 0,25

40-44 10 5 15 0,33

45-49 7 6 13 0,46

50-54 3 5 8 0,63

55-59 4 13 17 0,76

60-69 2 8 10 0,80

Totais 57 43 100 0,43

30 40 50 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Idade(em anos)

E[Y

|x]

Figura 3.1: Valor esperado de Y dado x = idade versus idade.

3.2. Regressao Logıstica Dicotomica 73

Uma diferenca importante entre o modelo de regressao logıstica e o mo-

delo de regressao linear pode ser notada e, esta, diz respeito a natureza

da relacao entre a variavel resposta e as variaveis independentes. Em qual-

quer problema de regressao a quantidade sendo modelada e o valor medio da

variavel resposta dado os valores das variaveis independentes. Esta quan-

tidade e denominada media condicional e e expressa por E(Y | x), em que

Y denota a variavel resposta e x denota os valores das variaveis indepen-

dentes. Em regressao linear, ∞ < E(Y | x) < + ∞ e, em regressao logıstica,

devido a natureza da variavel resposta, 0 ≤ E(Y | x) ≤ 1, como pode ser

observado na Figura 3.1. Observe, ainda, a partir desta mesma figura, que

a mudanca em E(Y | x) por unidade de mudanca em x torna-se progres-

sivamente menor quando E(Y | x) torna-se proxima de zero ou de um. A

curva em forma de “S” lembra a distribuicao acumulada de uma variavel

aleatoria, o que motivou o uso da distribuicao logıstica para fornecer um

modelo para E(Y | x).

A funcao de distribuicao logıstica e descrita por:

F (x) =1

1 + exp{−x} =exp{x}

1 + exp{x} ,

em que, para x = - ∞ e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua

correspondente representacao grafica e mostrada na Figura 3.2.

−20 −10 0 10 20

0.0

0.2

0.4

0.6

0.8

1.0

1.2

x

F(x)

Figura 3.2: Funcao de distribuicao logıstica.


A funcao de distribuicao logıstica toma valores entre zero e um; assume

o valor zero em uma parte do domınio das variaveis explicativas, um em

outra parte do domınio e cresce suavemente na parte intermediaria pos-

suindo uma particular curva em forma de “S”. Se comparada com a da

Figura 3.1 pode-se notar as similaridades. Outras funcoes de distribuicao

possuem as caracterısticas mencionadas. No entanto, a funcao logıstica foi

escolhida basicamente por duas razoes: (i) do ponto de vista matematico

e extremamente flexıvel e facil de ser usada e, (ii) conduz a interpretacoes

simples. Para descrever a variacao entre os θ(x) = E(Y | x), foi, entao,

proposto o modelo de regressao logıstica expresso por:

θ(x) = P (Y = 1 | x) =

exp

{β0 +

p∑

k=1

βk xk

}

1 + exp

{β0 +

p∑

k=1

βk xk

} , (3.1)

em que Y = 1 significa a presenca da resposta, x representa as covariaveis

(fatores de risco), isto e, x = (x1, x2, · · · , xp), o parametro β0 e o intercepto,

e βk (k = 1, · · · , p) sao os p parametros de regressao. Observe que este

modelo retorna uma estimativa da probabilidade do indivıduo apresentar a

resposta dado que o mesmo possui, ou nao, determinados fatores de risco.

Consequentemente,

1 − θ(x) =

exp

{−(β0 +

p∑

k=1

βk xk

)}

1 + exp

{−(β0 +

p∑

k=1

βk xk

)}

=1

1 + exp

{β0 +

p∑

k=1

βk xk

}

retorna uma estimativa da probabilidade do indivıduo nao apresentar a

resposta dado que o mesmo possui, ou nao, determinados fatores de risco.


Observe, ainda, que fazendo-se:

log

(θ(x)

1 − θ(x)

)= β0 +

p∑

k=1

βk xk

tem-se um modelo linear para o logito, isto e, para o logaritmo neperiano

da razao entre θ(x) e 1 − θ(x). O logito e, na realidade, o logaritmo de

uma odds e, este fato, permitira que odds ratios sejam obtidas a partir do

modelo (sera tratado em detalhes mais adiante).

No contexto de modelos lineares generalizados, uma funcao, monotona

e derivavel, que relaciona a media ao preditor linear e denominada funcao

de ligacao. Assim, η = log(

θ(x)1−θ(x)

), e a funcao de ligacao canonica para o

modelo binomial.

Alem de apresentar uma forma linear, o modelo logıstico apresenta a

propriedade util de que todos os valores (β0 +∑p

k=1 βkxk), pertencentes

ao intervalo (-∞, + ∞), tem um correspondente, no intervalo (0, 1), para

θ(x). Probabilidades preditas por este modelo sao, desse modo, restritas a

assumirem valores entre 0 e 1. O modelo, portanto, nao produz probabili-

dades negativas, bem como probabilidades maiores que 1.

Outra diferenca importante entre o modelo de regressao linear e o mo-

delo de regressao logıstica, refere-se a distribuicao condicional da variavel

resposta. No modelo de regressao linear e assumido que uma observacao

da variavel resposta pode ser expressa por y = E(Y | x) + ε, em que a

quantidade ε e chamada erro e e assumida ter distribuicao normal com

media zero e variancia constante. Este nao e o caso quando a resposta e

dicotomica (Y = 1 ou 0). Nesta situacao, ε tem distribuicao com media

zero e variancia dada por θ(x)(1 − θ(x)

), isto e, a distribuicao condicional

da variavel resposta segue uma distribuicao binomial com probabilidade

dada pela media condicional θ(x).


3.2.1 Estimacao dos parametros

A estimacao dos parametros em regressao logıstica e feita, em geral, pelo

metodo de maxima verossimilhanca. Para aplicacao deste metodo e neces-

sario, inicialmente, construir a funcao de verossimilhanca, a qual expressa

a probabilidade dos dados observados como uma funcao dos parametros

desconhecidos. Os estimadores de maxima verossimilhanca dos parametros

serao os valores que maximizam esta funcao.

Para encontrar esses valores no modelo de regressao logıstica, considere

a variavel resposta Y codificada como zero ou um. Da expressao (3.1)

pode-se, entao, obter a probabilidade condicional de que Y seja igual a 1

dado x, isto e, θ(x) = P(Y = 1 | x) e, em consequencia, a probabilidade

condicional de que Y seja igual a zero dado x, isto e, 1− θ(x) = P(Y = 0 |x). Assim, θ(xi) sera a contribuicao para a funcao de verossimilhanca dos

pares (yi, xi) em que yi = 1 e 1 − θ(xi), a contribuicao dos pares em que

yi = 0.

Assumindo-se que as observacoes sao independentes, tem-se a seguinte

expressao para a funcao de verossimilhanca:

L(β) =n∏

i=1

[θ(xi)

]yi[1 − θ(xi)

]1−yi

. (3.2)

As estimativas de β serao os valores que maximizam a funcao de verossi-

milhanca dada em (3.2). Algebricamente e mais facil trabalhar com o loga-

ritmo desta funcao, isto e, com:

l(β) = log L(β) =n∑

i=1

yi log[θ(xi)

]+ (1 − yi) log

[1 − θ(xi)

].

Para obter os valores de β que maximizam l(β) basta diferenciar a

respectiva funcao com respeito a cada parametro βj (j = 0, 1,.., p) obtendo-


se, assim, o sistema de p + 1 equacoes,

n∑

i=1

[yi − θ(xi)

]= 0

n∑

i=1

xij

[yi − θ(xi)

]= 0 j = 1, · · · , p

que, ao serem igualadas a zero, produzem como solucao as estimativas de

maxima verossimilhanca de β. Os valores preditos pelo modelo de regressao

logıstica sao obtidos substituindo-se as estimativas β em (3.1).

As p + 1 equacoes sao chamadas equacoes de verossimilhanca e por

serem nao-lineares nos parametros βj (j = 0, 1,.., p), requerem metodos

especiais para suas solucoes. Os metodos iterativos de Newton-Raphson

e o escore de Fisher sao algoritmos numericos comumente utilizados com

esta finalidade. Uma discussao geral de metodos implementados em varios

softwares pode ser encontrada em McCullagh e Nelder (1983).

O metodo de estimacao das variancias-covariancias dos coeficientes es-

timados seguem da teoria de estimacao de maxima verossimilhanca, a qual

estabelece que os estimadores sao obtidos pela matriz das derivadas par-

ciais de segunda ordem do logaritmo da funcao de verossimilhanca. Essas

derivadas tem a seguinte forma geral:

∂2 log L(β)

∂β2j

= −n∑

i=1

x2ij θ(xi)

(1 − θ(xi)

)(3.3)

∂2 log L(β)

∂βj∂βl= −

n∑

i=1

xij xil θ(xi)(1 − θ(xi)

)(3.4)

para j, l = 0, 1, .., p.

A matriz contendo o negativo dos termos apresentados nas equacoes

(3.3) e (3.4) sera denotada por I(β) e e chamada matriz de informacao.

As variancias e covariancias dos coeficientes estimados serao obtidas pela

inversa dessa matriz e sera denotada por Σ(β) = [I(β)]−1. O j-esimo


elemento da diagonal dessa matriz, denotado por σ2(βj), corresponde a

variancia de βj e, o elemento na j-esima linha e l-esima coluna, dessa

matriz, denotado por σ(βj , βl), corresponde a covariancia entre βj e βl. Os

estimadores das variancias e covariancias, denotados por Σ(β), sao obtidos

por avaliar Σ(β) em β.

Em notacao matricial, a matriz de informacao I(β) = X’VX, em que

X e uma matriz com n linhas e p + 1 colunas contendo um vetor de uns

e as covariaveis dos indivıduos e V e uma matriz diagonal de n linhas e n

colunas com elementos θ(x)(1 − θ(x)) na diagonal. Isto e,

X =

1 x11 · · · x1p

1 x21 · · · x2p

......

......

1 xn1 · · · xnp

e

V =

θ(x1)(1 − θ(x1)) 0 · · · 0

0 θ(x1)(1 − θ(x2)) · · · 0...

......

...

0 0 · · · θ(xn)(1 − θ(xn))

.

Considerando-se o ponto medio para cada intervalo de idade (25, 32,

38, 43, 47, 53, 57 e 65) e ajustando-se o modelo de regressao logıstica para

os dados da Tabela 3.1, foram obtidas as estimativas β0 = -5,123 (s.e. =

1,11) e β1 = 0,1058 (s.e. = 0,023).

3.2.2 Significancia das variaveis no modelo

Apos obtencao das estimativas dos coeficientes βj (j = 0, 1,..., p), faz-se

necessario avaliar a adequacao do modelo ajustado.


O primeiro interesse esta em acessar a significancia das covariaveis pre-

sentes no modelo. O princıpio em regressao logıstica e o mesmo usado em

regressao linear, ou seja, comparar os valores observados da variavel res-

posta com os valores preditos pelos modelos com, e sem, a covariavel sob

investigacao.

Em regressao linear esta comparacao e feita por meio de uma tabela

chamada analise de variancia, em que a atencao e dada a soma de quadrados

devido a regressao. Um valor grande da soma de quadrados de regressao

sugere que pelo menos uma, ou talvez todas as variaveis independentes

sejam importantes. Em regressao logıstica a comparacao pode ser feita

utilizando-se testes tais como, dentre outros, o teste da razao de verossimi-

lhancas, em que a funcao de verossimilhanca do modelo sem as covariaveis

(LSC) e comparada com a funcao de verossimilhanca do modelo com as

covariaveis (LCC). Formalmente, o teste e expresso por:

TRV = −2 log

[verossimilhanca do modelo sem as covariaveis

verossimilhanca do modelo com as covariaveis

]

= −2 log

[LSC

LCC

]= 2 log(LCC) − 2 log(LSC).

Note, que a razao das verossimilhancas e multiplicada por −2 log. Isto

e feito para que se obtenha uma quantidade cuja distribuicao e conhecida

(no caso a distribuicao qui-quadrado) de modo que, tal quantidade, possa

ser usada para a realizacao de testes de hipoteses. Em regressao logıstica

a estatıstica:

D = −2 log

[verossimilhanca do modelo sob estudo

verossimilhanca do modelo saturado

]

e chamada deviance, em que, para um melhor entendimento, e conceitual-

mente util pensar um valor observado da variavel resposta como sendo

tambem um valor predito resultante do modelo saturado. Um modelo


saturado e aquele que contem tantos parametros quantos dados existirem.

Assim, a estatıstica TRV , apresentada anteriormente, pode ser vista como

a diferenca de duas deviances, isto e,

TRV = Deviance do modelo sem covariaveis − Deviance do modelo com covariaveis

= −2 log

[verossimilhanca do modelo sem covariaveis


]−

[− 2 log

[verossimilhanca do modelo com as covariaveis


]],

o que resulta em:

TRV = 2 log(LCC) − 2 log(LSC).

Sob a hipotese nula de que os p coeficientes associados as covariaveis no

modelo sao iguais a zero, a distribuicao de TRV sera Qui-Quadrado com p

graus de liberdade. Rejeicao da hipotese nula, neste caso, tem interpretacao

analoga aquela em regressao linear, ou seja, pode-se concluir que pelo menos

um, ou talvez todos os p coeficientes, sejam diferentes de zero.

3.2.3 Analise de deviance e selecao de modelos

Uma tabela, similar a obtida em regressao linear, para a analise de de-

viance (ANODEV) pode ser construıda. A ANODEV e uma generalizacao

da analise de variancia visando obter, a partir de uma sequencia de modelos

encaixados, os efeitos de fatores, covariaveis e suas interacoes.

Para uma sequencia de modelos encaixados, tendo estes a mesma dis-

tribuicao e funcao de ligacao, utiliza-se a deviance como uma medida de dis-

crepancia do modelo e pode-se, entao, construir uma tabela das diferencas

de deviance, como, por exemplo, a apresentada na Tabela 3.2, em que e

considerado um experimento com duas covariaveis contınuas X1 e X2.

A partir das deviances e suas diferencas, pode-se, usando-se o teste da

razao de verossimilhancas descrito anteriormente, testar a significancia da


Tabela 3.2: Tabela de diferencas de deviance para um experimento com duas

covariaveis contınuas X1 e X2.

Modelo g.l. deviance diferencas diferenca g.l.

residual de deviance

Nulo s−1 DN

X1 s−2 DX1DN - DX1

1

X1 e X2 s−3 DX1+X2DX1

- DX1+X21

X1, X2 e X1 ∗ X2 s−4 DX1∗X2DX1+X2

- DX1∗X21

Saturado 0 0

g.l. = s − p, sendo s = no. de subpopulacoes (linhas da tabela) e p = no. de parametros.

inclusao de determinadas covariaveis, bem como suas interacoes no modelo.

Em outras palavras, pode-se avaliar o quanto da variacao total e explicada

pela inclusao de termos no modelo.

Para o exemplo apresentado na Tabela 3.1, em que se deseja verificar a

relacao entre idade e doenca coronaria, tem-se:

Tabela 3.3: Tabela de diferenca de deviances para os dados de doenca coronaria.

Modelo g.l. Deviance residual Dif. Deviance Diferenca g.l.

Nulo 7 28,7015

X1: idade 6 0,5838 28,1177 1

bem como a correspondente analise de deviance (ANODEV), apresentada

na Tabela 3.4.

Portanto, TRV = 28,1177 (p = 1.142e-07) e, desse modo, rejeita-se

a hipotese H0: β1 = 0, concluindo-se que idade esta associada a doenca

coronaria e deve, portanto, permanecer no modelo.


Tabela 3.4: Analise de deviance para os dados de doenca coronaria.

Causa de variacao g.l. Deviances TRV valor p

Regressao 1 28,1177 28,1177 1,142e-07

Resıduos 6 0,5838

Total 7 28,7015

3.2.4 Qualidade do modelo ajustado

Uma vez selecionado o modelo, dentre os analisados, deseja-se avaliar o

quao bem ele se ajusta aos dados, ou seja, quao proximo os valores preditos

pelo modelo encontram-se de seus correspondentes valores observados. As

estatısticas de teste usadas para esta finalidade sao, em geral, denominadas

estatısticas de qualidade do ajuste e comparam, de alguma maneira

apropriada, as diferencas entre os valores observados e preditos.

Duas estatısticas tradicionais de qualidade do ajuste sao: a qui-quadrado

de Pearson, QP , que e baseada nos resıduos de Pearson e a qui-quadrado

da razao de verossimilhancas, QL, tambem conhecida como deviance por

basear-se nos resıduos deviance, e estas sao expressas, respectivamente, por:

QP =∑

i,j

(nij − mij

)2

mije

QL =∑

i,j

2nij log

(nij

mij

),

em que mij sao as quantidades preditas pelo modelo e definidas por:

mij = ni+ θ(x) para j = 1

mij = ni+ (1 − θ(x)) para j = 2.

Sob a hipotese H0 de que o modelo se ajusta bem aos dados, QP e QL

sao aproximadamente qui-quadrado com graus de liberdade igual ao numero


de linhas na tabela de dados menos o numero de parametros no modelo.

Na pratica, essas estatısticas serao aproximadamente qui-quadrado se:

• cada ni+ > 10

• 80% das contagens preditas sao pelo menos 5

• todas as outras contagens esperadas > 2, e nenhuma contagem e 0.

Para o modelo ajustado aos dados de doenca coronaria obtiveram-se:

Qp = 0.59 (p = 0.9965, g.l. = 6) e QL = 0.58 (p = 0.9967, g.l. = 6).

Conclui-se, desses resultados, pela nao rejeicao da hipotese H0 e, portanto,

pode-se dizer que o modelo escolhido se ajusta satisfatoriamente aos dados.

3.2.5 Diagnostico da regressao logıstica

As estatısticas Qp e QL, descritas na secao anterior e usadas para verificar

a qualidade de ajuste do modelo de regressao logıstica, fornecem um unico

numero o qual resume a concordancia entre os valores observados e os

ajustados. O problema com essas estatısticas e que um unico numero e

usado para resumir uma quantidade consideravel de informacao. Portanto,

antes de considerar que o modelo ajustado e satisfatorio, e importante que

outras medidas sejam examinadas para que se possa averiguar se o ajuste

e valido sobre todas as combinacoes das categorias das covariaveis.

Pregibon (1981) estendeu os metodos de diagnostico de regressao li-

near para a regressao logıstica e argumenta que, como as estatısticas qui-

quadrado de Pearson (Qp) e deviance (QL) sao duas medidas usadas para

verificar a qualidade do modelo ajustado, faz sentido analisar os compo-

nentes individuais dessas estatısticas, uma vez que estes componentes sao

funcoes dos valores observados e preditos pelo modelo

Assim, se em uma tabela de contingencia s × 2, tem-se para cada uma

das s linhas ni+ sujeitos dos quais ni1 apresentam a resposta de interesse


(sucesso) e θi1 denota a probabilidade predita de sucesso para a i-esima

linha (grupo), define-se o i-esimo resıduo por:

ci =ni1 − ((ni+) θi1)√(ni+) θi1 (1 − θi1)

i = 1, · · · , s.

Esses resıduos sao conhecidos como resıduos de Pearson, uma vez que

a soma deles ao quadrado resulta em QP . Exame dos valores residuais ci

auxiliam a determinar quao bem o modelo se ajusta aos grupos individuais.

Frequentemente, resıduos excedendo o valor |2, 0| (ou |2, 5|) indicam falta de

ajuste. Similarmente, a deviance residual e um componente da estatıstica

deviance e e expressa por:

di = sinal(ni1 − yi1)

[2 ni1 log

(ni1

yi1

)+ 2(ni+ − ni1) log

(ni+ − ni1

ni+ − yi1

)]1/2

,

em que yi1 = (ni+) θi1. A soma das deviances residuais ao quadrado resulta

na estatıstica deviance QL. A partir do exame dos resıduos deviance pode-

se observar a presenca de resıduos nao usuais (demasiadamente grandes),

bem como a presenca de outliers ou, ainda, padroes sistematicos de variacao

indicando, possivelmente, a escolha de um modelo nao muito adequado.

Para os dados da Tabela 3.1 obtiveram-se os resıduos de Pearson e

deviance apresentados a seguir.

Covariavel Resıduos Resıduos

IDADE Pearson Deviance

1 25.0000 0.2677 | * | 0.2570 | * |

2 32.0000 -0.1763 | * | -0.1791 | * |

3 38.0000 0.0070 | * | 0.0070 | * |

4 43.0000 -0.2169 | * | -0.2182 | * |

5 47.0000 -0.0051 | * | -0.0051 | * |

6 53.0000 0.0375 | * | 0.0376 | * |

7 57.0000 0.4774 | * | 0.4870 | * |

8 65.0000 -0.4662 |* | -0.4465 | * |


Uma analise visual desses resıduos mostra que os mesmos apresentam-se

satisfatorios, podendo-se, entao, concluir que o modelo escolhido ajusta-se

bem aos dados.

As estatısticas de diagnostico apresentadas permitem, ao analista, iden-

tificar padroes de covariaveis que estao com um ajuste pobre. Apos estes

padroes serem identificados, pode-se, entao, avaliar a importancia que eles

tem na analise. Esta avaliacao e similar ao que e feito em regressao linear,

ou seja, retira-se o padrao com ajuste pobre e verifica-se o impacto causado

nas estimativas dos parametros, bem como nas estatısticas QP e QL usadas

para verificar a qualidade de ajuste do modelo.

3.2.6 O modelo ajustado e interpretacoes

Para os dados da Tabela 3.1 foi ajustado o modelo:

θ(x) =

exp

{− 5, 123 + 0, 1058 ∗ idade

}

1 + exp

{− 5, 123 + 0, 1058 ∗ idade

} , (3.5)

que, juntamente com os valores observados, encontra-se representado grafi-

camente na Figura 3.3.

30 40 50 60

0.0

0.2

0.4

0.6

0.8

idade

E(Y

|x)

Figura 3.3: Valores observados e valores preditos a partir do modelo.


A partir do modelo (3.5), diversas estimativas podem ser obtidas, tais

como, por exemplo, as apresentadas na Tabela 3.5.

Tabela 3.5: Estimativas obtidas do modelo ajustado.

Idade (xi) θ(xi) 1 − θ(xi) logito

26 0,0853 0,9147 -2,3724

27 0,0939 0,9061 -2,2669

65 0,8524 0,1476 1,7535

Observe que exp{logito(θ(xi))} =θ(xi)

(1 − θ(xi))= odds (tratada anterior-

mente). Pode-se, entao, obter a odds ratio para, por exemplo, indivıduos

com idades 65 e 26 anos, isto e,

OR =odds(65 anos)

odds(26 anos)=

exp{1, 7535}exp{−2, 3724} = exp{4, 126} = 61, 9

concluindo-se, assim, que a odds de indivıduos com 65 anos apresentarem

doenca coronaria e 61,9 vezes a dos indivıduos com 26 anos. Note, que

OR = exp{4, 126} = exp{(65 − 26) β1}.

3.2.7 Exemplos

A seguir, sao apresentados alguns exemplos que ilustram o uso da regressao

logıstica dicotomica.

Exemplo 1: Os dados apresentados na Tabela 3.6 referem-se a um es-

tudo realizado com pacientes que procuraram uma determinada clınica para

serem submetidos a um eletrocardiagrama (ECG). A variavel resposta, pre-

senca ou ausencia de doenca coronaria arterial, bem como as covariaveis

sexo e ECG, sao dicotomicas.

Assumindo, para cada linha da tabela, que a variavel resposta apresenta

distribuicao binomial de parametros (ni+, θi1(x)), i = 1, . . . , 4, tem-se as-


Tabela 3.6: Estudo sobre doenca coronaria arterial.

Sexo (x1) ECG (x2) Presenca doenca Ausencia doenca Total

Feminino < 0,1 ST 4 11 15

Feminino ≥ 0,1 ST 8 10 18

Masculino < 0,1 ST 9 9 18

Masculino ≥ 0,1 ST 21 6 27

sociado a tabela, o modelo produto de binomiais independentes. Para des-

crever a variacao entre os θi1(x), a sugestao e ajustar o modelo de regressao

logıstica, expresso por:

θi1(x) =

exp

{β0 + β1 x1 + β2 x2

}

1 + exp

{β0 + β1 x1 + β2 x2

} ,

em que β0 e uma constante desconhecida e, β1 e β2, sao parametros des-

conhecidos associados as covariaveis sexo e ECG, respectivamente.

Tem-se, assim, que:

log

(θi1(x)

1 − θi1(x)

)= logit[θi1(x)] = β0 + β1 x1 + β2 x2, (3.6)

o que, matricialmente, corresponde a:

logit(θ11)

logit(θ21)

logit(θ31)

logit(θ41)

=

β0

β0 + β2

β0 + β1

β0 + β1 + β2

=

1 0 0

1 0 1

1 1 0

1 1 1

β0

β1

β2

.

Esse tipo de parametrizacao e frequentemente denominada parametriza-

cao de efeito incremental. Como a combinacao: sexo feminino e ECG < 0,1


sao descritas pelo intercepto, esse grupo e conhecido, nessa parametrizacao,

como a combinacao de referencia. O parametro β1 e o incremento no logito

para o sexo masculino e β2 e o incremento no logito para ECG ≥ 0,1. As

probabilidades e odds para esse modelo sao, portanto, as apresentadas na

Tabela 3.7.

Tabela 3.7: Probabilidades e odds para o modelo com X1 e X2.

Sexo (x1) ECG (x2) θi1 Odds de doenca

Feminino < 0,1 eβ0/(1 + eβ0) eβ0

Feminino ≥ 0,1 eβ0+β2/(1 + eβ0+β2) eβ0+β2

Masculino < 0,1 eβ0+β1/(1 + eβ0+β1) eβ0+β1

Masculino ≥ 0,1 eβ0+β1+β2/(1 + eβ0+β1+β2) eβ0+β1+β2

Pode-se, desse modo, obter a odds ratio para pacientes do sexo mas-

culino versus as do sexo feminino por:

eβ0+β1

eβ0= eβ1 ou

eβ0+β1+β2

eβ0+β2= eβ1 .

Similarmente, a odds ratio para ECG ≥ 0, 1 versus ECG < 0, 1 e deter-

minada por:

eβ0+β1+β2

eβ0+β1= eβ2 ou

eβ0+β2

eβ0= eβ2 .

Em regressao logıstica, as odds ratios sao, portanto, funcoes dos parame-

tros do modelo. Para modelos com somente os efeitos principais, cada odds

que compoe a odds ratio, e obtida simplesmente exponenciando as esti-

mativas dos parametros. Contudo, diferentemente das odds ratios obtidas

de tabelas 2 × 2, estas sao ajustadas para todas as outras covariaveis no

modelo.


(a) Resultados e conclusoes obtidas para os dados do exemplo 1

As estimativas de maxima verossimilhanca dos parametros do modelo apre-

sentado em (3.5) e que foi ajustado aos dados do exemplo 1, foram as

seguintes: β0 = -1,1747 (s.e.= 0,4854), β1 = 1,277 (s.e.= 0,4980) e β2 =

1,0545 (s.e.= 0,4980).

A Tabela 3.8 apresenta as diferencas de deviance e mostra a significancia

das variaveis sexo (p = 0,00762) e ECG na presenca de sexo (p = 0,03108).

Tabela 3.8: Tabela de diferenca de deviances para os dados do exemplo 1.

Modelos g.l. Deviance residual Dif. Deviance Dif. g.l. valor p

Nulo 3 11,9835

X1 2 4,8626 7,1209 1 0,00762

X1 e X2 1 0,2141 4,6485 1 0,03108

A ANODEV apresentada na Tabela 3.9 mostra que o modelo de regressao

logıstica, com as covariaveis sexo e ECG, apresentou uma reducao na de-

viance residual de 11,7694 (de um total de 11,9835) evidenciando que ambas

as covariaveis estao associadas a variavel resposta e devem, portanto, per-

manecer no modelo, uma vez que estas explicam grande parte da deviance

residual total.

Tabela 3.9: Analise de deviance para os dados do exemplo 1.


Regressao 2 11,7694 11,7694 0,00278

Resıduos 1 0,2141

Total 3 11,9835

Para o modelo ajustado e expresso por:


logit(θi1(x)) = −1, 1747 + 1, 277 sexo + 1, 0545 ECG,

obtiveram-se QP = 0,2155 (p = 0,6425) e QL = 0,2141 (p = 0,6436) e,

sendo assim, nao se rejeita a hipotese nula de que o modelo ajustado e

satisfatorio.

Os valores θi1 observados e tambem os preditos a partir do modelo ajus-

tado, bem como a deviance residual e os resıduos de Pearson, sao apresenta-

dos na Tabela 3.10. Nota-se, desses resultados, que os resıduos apresentam-

se satisfatorios, podendo-se concluir que o modelo escolhido se ajusta bem

aos dados.

Tabela 3.10: Valores observados, valores preditos e resıduos.

deviance resıduos

θi1 θi1 (θi1 - θi1) residual de Pearson

0,2666667 0,2360103 0,03065632 0.2756894 0.2796124

0,4444444 0,4699914 -0,02554693 -0.2174355 -0.2171644

0,5000000 0,5255469 -0,02554693 -0.2169146 -0.2170564

0,7777778 0,7607465 0,01703129 0.2091855 0.2074342

Tem-se, entao, que a odds ratio dos pacientes do sexo masculino versus

a dos pacientes do sexo feminino pode ser estimada, como visto anterior-

mente, por OR(m/f) = e1,277 = 3,586. Logo, a chance (odds) dos homens

apresentarem doenca coronaria arterial e 3,5 vezes a das mulheres. De

modo analogo, estima-se que a odds ratio de ECG ≥ 0,1 versus a de ECG

< 0,1 e OR = e1,0545 = 2,871. Entao, a chance (odds) dos pacientes com

ECG ≥ 0,1 apresentarem doenca coronaria arterial e de aproximadamente

3 vezes a daqueles pacientes com ECG < 0,1. De modo geral, pacientes do

sexo masculino e com ECG ≥ 0,1 sao os mais propensos a apresentarem


doenca coronaria arterial.

Intervalos de confianca para as odds ratios podem ser obtidos usando-se

as propriedades assintoticas de βi. Assim, por exemplo, o I.C.95% para

OR(m/f) e dado por (e(1,277−1,96∗0,498), e(1,277+1,96∗0,498)) = (1,35; 9,51).

Analogamente, para a odds ratio de ECG ≥ 0,1 versus ECG < 0,1, tem-se

o intervalo, com 95% de confianca, de (1,082; 7,618).

A interacao entre sexo e ECG, quando incluıda no modelo, nao apresen-

tou significancia estatıstica, com correspondente valor p associado ao teste

da razao de verossimilhancas de 0,6436.

Exemplo 2: Nesse exemplo, sao analisados os dados de um estudo sobre

infeccoes urinarias (Koch et al., 1985) apresentados na Tabela 3.11.

Tabela 3.11: Estudo sobre tratamento de infeccoes urinarias.

Diagnostico (x1) Tratamento (x2) Curado Nao curado Total

Infeccao complicada A 78 28 106

Infeccao complicada B 101 11 112

Infeccao complicada C 68 46 114

Infeccao nao complicada A 40 5 45

Infeccao nao complicada B 54 5 59

Infeccao nao complicada C 34 6 40

Observe que um, dentre tres tratamentos, foi administrado a cada pa-

ciente que apresentou no diagnostico infeccao urinaria complicada ou nao

de ser curada. A resposta e portanto dicotomica, a covariavel diagnostico

apresenta duas categorias e a covariavel tratamento, tres categorias. E im-

portante notar que uma covariavel com L categorias deve ser representada

em um modelo por (L - 1) parametros.

Para esse estudo, o modelo de regressao logıstica com os efeitos prin-

cipais (diagnostico e tratamento) e a interacao entre eles, e representado


matricialmente por:

logit(θ11)

logit(θ21)

logit(θ31)

logit(θ41)

logit(θ51)

logit(θ61)

=

1 1 1 0 1 0

1 1 0 1 0 1

1 1 0 0 0 0

1 0 1 0 0 0

1 0 0 1 0 0

1 0 0 0 0 0

β0

β1

β2

β3

β4

β5

.

Uma vez que o modelo considerado e o saturado, isto e, seu numero

de parametros e igual ao numero de linhas da tabela de dados, o teste de

qualidade de ajuste nao se aplica a este modelo porque nao existem graus

de liberdade disponıveis. Ajustar esse modelo possibilita, contudo, a analise

do efeito da interacao. Na Tabela 3.12 pode-se observar as diferencas de

deviance dos modelos sequenciais ajustados.

Tabela 3.12: Diferencas de deviance: estudo sobre infeccoes urinarias.

deviance diferencas de

Modelos g.l. residual deviance diferencas g.l.

Nulo 5 44,473

X1 4 30,628 13,844 1

X1 e X2 2 2,515 28,114 2

X1, X2 e X1 ∗ X2 0 0,000 2,515 2

A partir da Tabela 3.12 tem-se que o teste relativo a hipotese nula de

que a interacao nao e significativa, o que equivale a testar H0: β4 = β5 = 0,

resultou em TRV = 2,515 (p = 0,2843, g.l.= 2). Desse modo, nao ha

evidencias para a rejeicao da hipotese H0. Em sendo a interacao nao signi-

ficativa, testes dos efeitos do diagnostico e tratamento sao, a seguir, real-

izados. Para saber se ha efeito da covariavel diagnostico, o que equivale a

testar H0: β1 = 0, usou-se, novamente, o teste da razao de verossimilhancas

obtendo-se TRV = 13,844 (p = 0,000198, g.l.= 1). Ha, portanto, evidencias


de efeito do diagnostico. Analogamente, obteve-se para o teste do efeito

da covariavel tratamento, na presenca da covariavel dignostico, o que equi-

vale a testar H0: β2 = β3 = 0, o resultado TRV = 28,114 (p = 7,85e-07,

g.l. = 2). Conclui-se, assim, haver evidencias de efeito dos tratamentos,

estando a covariavel dignostico no modelo.

O modelo considerado e, desse modo, o que considera os efeitos prin-

cipais de diagnostico e tratamento. Os respectivos parametros estimados

para este modelo encontram-se na Tabela 3.13.

Tabela 3.13: Estimativas dos parametros obtidas para o modelo ajustado.

Parametros Estimativas Erro-padrao

β0: intercepto 1,4184 0,2986

β1: diag = infeccao complicada -0,9616 0,2997

β2: tratamento A 0,5847 0,2641

β3: tratamento B 1,5608 0,3158

A ANODEV para esse modelo encontra-se na Tabela 3.14. Desta tabela,

pode-se observar que as covariaveis diagnostico e tratamento sao altamente

associadas a variavel resposta (cura, ou nao, da infeccao urinaria).

Tabela 3.14: Analise de deviance para os dados do exemplo 2.


Regressao 3 41,958 41,958 4.09e-09

Resıduos 2 2,515

Total 5 44,473

As estatısticas de qualidade de ajuste do modelo considerado resultaram

em QL = 2,515 (p = 0,2844, g.l. = 2) e QP = 2,7574 (p = 0,2519 g.l. = 2)

fornecendo, assim, evidencias de que o modelo apresenta ajuste satisfatorio


aos dados. Ainda, dos valores observados e dos valores preditos a partir do

modelo, bem como da deviance residual e dos resıduos de Pearson, apresen-

tados na Tabela 3.15, nota-se que os resıduos encontram-se-se satisfatorios,

podendo-se, desse modo, concluir que o modelo escolhido, e expresso por:

logit(θi1) = 1, 4184 − 0, 9616 diag + 0, 5847 tratA + 1, 5608 tratB,

em que diag = 1 se infeccao urinaria foi diagnosticada como complicada e

0, em caso contrario, tratA = 1 e tratB = 0, se o tratamento A foi uti-

lizado, tratA = 0 e tratB = 1, se o tratamento B foi utilizado e, finalmente,

tratA = tratB = 0, se o tratamento C foi utilizado, se ajusta bem aos

dados.

Tabela 3.15: Valores observados, valores preditos e resıduos.

di = deviance ci = resıduos

θi1 θi1 residual de Pearson

0,7358491 0,7391443 -0,07715904 -0,07726359

0,9017857 0,8826267 0,64598342 0,62995503

0,5964912 0,6122501 -0,34450962 -0,34533240

0,8888889 0,8811267 0,16244931 0,16088958

0,9152542 0,9516237 -1,18234402 -1,30201030

0,8500000 0,8050871 0,74055971 0,71706568

A partir do modelo ajustado pode-se obter as odds de cura, apresentadas

na Tabela 3.16, para que sejam retiradas algumas conclusoes de interesse

do pesquisador. Desta tabela tem-se, por exemplo, que a odds ratio de

diagnostico de infeccao complicada versus a de infeccao nao complicada e

de OR = eβ1 = 0,3822 e, portanto, a chance (odds) de cura no caso de

infeccoes diagnosticadas como nao complicadas e de (1/0,3822) = 2,6 vezes

a odds de cura no caso de infeccoes diagnosticadas como complicadas. Por


outro lado, a odds de ser curado com o tratamento A e de eβ2 = 1,79 vezes

a de ser curado com tratamento C, bem como, a odds de ser curado com

o tratamento B e de eβ3 = 4,76 vezes a de ser curado com tratamento C.

Por fim, a chance (odds) de cura com o tratamento B e de eβ3−β2 = 2,65

vezes a de ser curado com o tratamento A. Chances maiores de cura sao

observadas, portanto, para aqueles pacientes com infeccoes urinarias diag-

nosticadas como sendo nao complicadas e que recebam o tratamento B.

Tabela 3.16: Logitos e odds obtidos a partir do modelo de regressao logıstica ajustado.

diagnostico tratamento logito odds de cura

inf. complicada A β0 + β1 + β2 = 1,0415 e1,0415 = 2,8335

inf. complicada B β0 + β1 + β3 = 2,0175 e2,0175 = 7,5198

inf. complicada C β0 + β1 = 0,4567 e0,4567 = 1,5789

inf. nao complicada A β0 + β2 = 2,0031 e2,0031 = 7,4123

inf. nao complicada B β0 + β3 = 2,9791 e2,9791 = 19,671

inf. nao complicada C β0 = 1,4184 e1,4184 = 4,1305

Exemplo 3: Neste exemplo sao analisados os dados apresentados na Tabela

3.17 referentes a um estudo sobre doenca coronaria, similar ao analisa-

do previamente no exemplo 1, considerando-se, no entanto, alem das co-

variaveis sexo e eletrocardiograma (ECG), a covariavel idade (em anos).

Ainda, a covariavel ECG e apresentada em tres categorias: < 0,1, [0,1; 0,2)

e ≥ 0,2 e foi considerada nos modelos como uma variavel ordinal em que

foram assumidos, para as respectivas categorias citadas, os escores 0, 1 e 2.

Observe que diversos valores da covariavel idade sao unicos, o que im-

plica que na construcao de uma tabela de contingencia considerando-se as

tres covariaveis, existirao diversas caselas com somente uma observacao.


Tabela 3.17: Dados de pacientes observados em um estudo sobre doenca coronaria.

sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc

0 0 28 0 1 0 42 1 0 1 46 0

0 0 34 0 1 0 44 1 0 1 48 1

0 0 38 0 1 0 45 0 0 1 49 0

0 0 41 1 1 0 46 0 0 1 49 0

0 0 44 0 1 0 48 0 0 1 52 0

0 0 45 1 1 0 50 0 0 1 53 1

0 0 46 0 1 0 52 1 0 1 54 1

0 0 47 0 1 0 52 1 0 1 55 0

0 0 50 0 1 0 54 0 0 1 57 1

0 0 51 0 1 0 55 0 0 2 46 1

0 0 51 0 1 0 59 1 0 2 48 0

0 0 53 0 1 0 59 1 0 2 57 1

0 0 55 1 1 1 32 0 0 2 60 1

0 0 59 0 1 1 37 0 1 0 30 0

0 0 60 1 1 1 38 1 1 0 34 0

0 1 32 1 1 1 38 1 1 0 36 1

0 1 33 0 1 1 42 1 1 0 38 1

0 1 35 0 1 1 43 0 1 0 39 0

0 1 39 0 1 1 43 1 1 0 42 0

0 1 40 0 1 1 44 1 1 2 43 1

1 1 45 0 1 1 57 1 1 2 47 1

1 1 45 1 1 1 59 1 1 2 48 1

1 1 45 1 1 1 60 1 1 2 49 0

1 1 46 1 1 1 63 1 1 2 58 1

1 1 48 1 1 2 35 0 1 2 59 1

1 1 57 1 1 2 37 1 1 2 60 1

sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se

∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2; dc = 1 se doenca coronaria presente e dc = 0

em caso contrario.

Isto significa que as estatısticas de teste QL e QP nao poderao ser cal-

culadas. Este fato e muito comum quando se tem a presenca de co-

variaveis contınuas. Para esses casos, estrategias alternativas encontram-se

disponıveis.


Um modelo de interesse para os dados apresentados e aquele com as

covariaveis: sexo, ECG e idade e, possivelmente, as interacoes duplas e

tripla entre elas. Um cuidado que se deve ter, no entanto, e quanto ao

numero de parametros envolvidos. Alguns analistas sugerem que haja pelo

menos 5 observacoes da resposta que ocorre com menor frequencia, para

cada parametro sendo considerado. Nesse estudo tem-se 37 indivıduos que

apresentaram resposta nao e 41 que apresentaram resposta sim. Assim,

tem-se 37/5 = 7,4, o que sugere que no maximo 7 a 8 parametros sejam

considerados.

Na Tabela 3.18 sao apresentadas as diferencas de deviance dos modelos

sequenciais ajustados para os dados do estudo descrito.

Tabela 3.18: Tabela das diferencas de deviance dos modelos de regressao logıstica

sequencias ajustados ao estudo sobre doencas coronarias.

Deviance Diferencas de

Modelos g.l. Residual Deviance Diferenca g.l.

Nulo 77 107,926 – –

X1 76 101,840 6,086 1

X1 e X2 75 95,080 6,760 1

X1, X2 e X3 74 86,811 8,626 1

X1, X2, X3 + int. duplas 71 85,522 1,289 3

X1, X2, X3 + int. duplas e tripla 70 85,414 0,108 1

X1 = sexo; X2 = ECG e X3 = idade.

A partir da Tabela 3.18 tem-se que o teste relativo a hipotese nula de que

a interacao tripla nao e significativa, o que equivale a testar H0: β7 = 0,

resultou em TRV = 0,108 (p = 0,7424, g.l.= 1). Desse modo, nao ha

evidencias para a rejeicao de H0. De modo analogo, para o teste da hipotese

H0: β4 = β5 = β6 = 0 (interacoes duplas) foi obtido TRV = 1,289 (p =

0,7317, g.l. = 3), o que mostra nao haver evidencias para a rejeicao desta


hipotese. Como nao foram encontradas evidencias de que as interacoes

tripla e duplas sejam necessarias no modelo, testou-se:

a) H0: β1 = 0, obtendo-se TRV = 6,086 (p = 0,0136, g.l.= 1)

b) H0: β2 = 0, obtendo-se TRV = 6,760 (p = 0,0093, g.l.= 1)

c) H0: β3 = 0, obtendo-se TRV = 8,626 (p = 0,0033, g.l.= 1)

Dos resultados obtidos, conclui-se haver evidencias para a rejeicao das

tres hipoteses nulas testadas. O modelo escolhido e, portanto, o que consi-

dera os efeitos de sexo, ECG e idade. Os respectivos parametros estimados

para este modelo encontram-se na Tabela 3.19.

Tabela 3.19: Estimativas dos parametros do modelo ajustado.


β0: intercepto -5,6417 1,8026

β1: sexo (masculino) 1,3564 0,5458

β2: ECG 0,8732 0,3839

β3: idade 0,0928 0,0350

O modelo estimado ficou, assim, expresso por:

logit(θi1) = −5, 6417 + 1, 3564 sexo + 0, 8732 ECG + 0, 0928 idade.

Para avaliar a qualidade do modelo ajustado, na presenca de variaveis

contınuas, Hosmer e Lemeshow (1989) propuseram uma estatıstica, deno-

tada aqui por QHL, que considera as contagens esperadas e observadas para

as respostas dc = 1 e dc = 0 em cada decil das probabilidades preditas. Para

esse estudo, tal estatıstica resultou em 5,76 (p = 0,6747, g.l. = 8 (no decis −2). E possıvel, assim, concluir que o modelo considerado ajusta-se satisfa-

toriamente aos dados. Os resıduos deviance e de Pearson apresentaram-se

tambem satisfatorios, como pode ser observado na Figura 3.4.


0 20 40 60 80

−2−1

01

2

Index

resi

duos

de

Pea

rson

0 20 40 60 80

−2−1

01

2

Index

devi

ance

resi

dual

Figura 3.4: Resıduos de Pearson e deviance residual.

A odds ratio para sexo, ajustada para ECG e idade, e, nesse estudo,

estimada por OR = e1,3564 = 3,882. Assim, a chance (odds) de pacientes do

sexo masculino apresentarem doenca coronaria e 3,882 vezes a dos pacientes

do sexo feminino. De modo analogo, a odds ratio para ECG, ajustada para

sexo e idade, e estimada por OR = e0,8732 = 2,395. Isto significa que a

chance de pacientes com ECG = 1 apresentarem doenca coronaria e 2,395

vezes a daqueles com ECG = 0, bem como a odds dos pacientes com ECG

= 2 apresentarem doenca coronaria e 2,395 vezes a odds dos pacientes com

ECG = 1. Ainda, a odds ratio para a idade, ajustada para sexo e ECG,

dada por OR = e0,0929 = 1,097, significa que a chance (odds) de doenca

coronaria de um paciente com x+1 anos e 1,097 vezes a de um paciente com

x anos. Para, por exemplo, dois pacientes do mesmo sexo e mesmo ECG,

mas em que um deles tenha 30 anos e outro 40, tem-se OR = e0,0929∗(40−30)

= 2,53, ou seja, a chance de doenca coronaria do paciente com 40 anos e

de 2,53 vezes a daquele com 30 anos.

De modo geral, pode-se concluir, desse estudo, que a presenca de doenca

coronaria encontra-se positivamente associada com a idade e com o resul-


tado do ECG, bem como que os pacientes do sexo masculino sao mais

propensos a apresenta-la.

3.2.8 Metodos auxiliares no diagnotico do modelo ajustado

(a) QQplot com envelope simulado

No caso em que a variavel resposta e assumida ser normalmente dis-

tribuıda, e comum que afastamentos serios da distribuicao normal sejam

verificados por meio do grafico de probabilidades normal dos resıduos. No

contexto de modelos lineares generalizados, em que distribuicoes diferentes

da normal sao tambem consideradas, graficos similares com envelopes si-

mulados podem ser tambem construıdos com os resıduos gerados a partir

do modelo ajustado. A inclusao do envelope simulado no QQplot auxilia a

decidir se o pontos diferem significativamente de uma linha reta (Atkinson,

1985). Paula (2000) apresenta codigos em linguagem Splus, que podem ser

utilizados no pacote estatıstico R, para gerar tais graficos em: regressao

gama, logıstica, Poisson e binomial negativa, alem da normal. Para que

o modelo ajustado seja considerado satisfatorio, faz-se necessario que as

deviances residuais caiam dentro do envelope simulado. Para os dados

desse exemplo, o QQplot obtido encontra-se apresentado na Figura 3.5.

Desta figura e possıvel observar que nao ocorreram afastamentos serios da

distribuicao binomial para a variavel resposta, uma vez que as deviances

encontram-se dentro do envelope.

(b) Poder preditivo do modelo e outras medidas auxiliares

O poder preditivo do modelo pode tambem ser obtido com a finalidade

de avaliar a qualidade do modelo ajustado. Para isso, faz-se necessario

estabelecer uma probabilidade, denominada “ponto de corte”, a partir da

qual se estabeleca que:


−2 −1 0 1 2

−2−1

01

2

Q−Q Plot

Percentis

Dev

ianc

e

Q−Q PlotQ−Q PlotQ−Q Plot

Figura 3.5: QQplot com envelope simulado para os dados do exemplo 3.

I a variavel resposta receba o valor 1, isto e, Y = 1 para probabilidades

estimadas pelo modelo que sejam maiores ou iguais a esse ponto de

corte e, ainda, que

I a variavel resposta receba o valor 0, isto e, Y = 0 para probabilidades

estimadas pelo modelo que sejam menores do que esse ponto de corte.

Estabelecendo-se o ponte de corte pc = 0,50, foram obtidos para os

dados do exemplo 3, os resultados apresentados na Tabela 3.20. Desta

tabela, tem-se que:

a) valor preditivo do modelo = 31+2578 = 0, 7179


b) valor preditivo + = 3143 = 0, 7209 e valor preditivo - = 25

35 = 0, 7143

c) falsos positivos = 1237 = 0, 3243 e falsos negativos = 10

41 = 0, 2439

d) sensibilidade do modelo = 3141 = 0, 7561

e) especificidade do modelo = 2537 = 0, 6757

Tabela 3.20: Classificacoes pelo modelo para pc = 0,5 vs observado.

Classificado pelo modelo

Observado dc = 1 (+) dc = 0 (−) Totais

dc = 1 (+) 31 10 41

dc = 0 (−) 12 25 37

Totais 43 35 78

De modo geral, e dos resultados apresentados, pode-se concluir que o

modelo ajustado apresenta-se satisfatorio.

3.2.9 Outros modelos com resposta dicotomica

Para estudos em que a variavel resposta e dicotomica, foi apresentado o

modelo de regressao logıstica. Alem deste, outros modelos para respostas

dicotomica sao descritos na literatura, dentre eles, o modelo probito e o

modelo complemento log-log, que tem sido utilizados, por exemplo, em ex-

perimentos dose-resposta. Todos sao, na realidade, modelos de regressao

binomial, visto a distribuicao binomial estar associada a variavel resposta.

Na Tabela 3.21 e apresentado a caracterizacao dos modelos citados em ter-

mos de suas funcoes de distribuicao F (x′β) = P [Y = 1 | x] e de suas

respectivas funcoes de ligacao.

3.3. Regressao Logıstica Politomica 103

Tabela 3.21: Caracterizacao de alguns modelos de regressao binomial.

Modelo de regressao P[Y = 1 | x] = θ(x) funcao de ligacao

logıstica exp{x′β}1+exp{x′β} log

[θ(x)

1−θ(x)

]

probito Φ(x′β) Φ−1(θ(x))

complemento log-log 1 − exp{−e{x′β}} log[− log[1 − θ(x)]]

Φ(·) denota a funcao de distribuicao da normal padrao.

3.3 Regressao Logıstica Politomica

A regressao logıstica tambem se aplica, como mencionado anteriormente, a

situacoes em que a variavel resposta apresenta mais do que duas categorias

(respostas politomicas), podendo, as categorias, serem ordinais ou nomi-

nais. A seguir sao apresentados exemplos que ilustram ambas as situacoes.

3.3.1 Resposta ordinal: modelo de odds proporcionais

Para tratar a situacao em que a resposta e ordinal, considere os dados

apresentados na Tabela 3.22 em que pacientes do sexo feminino e masculino

receberam o tratamento A, ou um placebo, para suas dores de artrite. A

resposta, nesse estudo, foi o grau de melhora das dores: nenhuma, alguma

e melhora acentuada.

Tabela 3.22: Estudo clınico sobre tratamentos para dores de artrite.

Grau de melhora

Sexo Tratamento Acentuada Alguma Nenhuma Totais

F A 16 5 6 27

F Placebo 6 7 19 32

M A 5 2 7 14

M Placebo 1 0 10 11


Uma possıvel estrategia de analise desses dados seria criar uma variavel

resposta dicotomica combinando duas das categorias de respostas. Con-

tudo, visto que existe uma ordem natural das categorias de resposta, faz

sentido considerar uma estrategia que leve em conta essa ordenacao. Con-

sidere, desse modo, as quantidades:

θhi1 = πhi1 e θhi2 = πhi1 + πhi2,

em que πhi1 denota a probabilidade de melhora acentuada, πhi2 a probabili-

dade de alguma melhora e πhi3 a probabilidade de nenhuma melhora (h = 1

para sexo feminino, h = 2 para sexo masculino, i = 1 para tratamento A e

i = 2 para placebo). Assim, θhi1 e a probabilidade de melhora acentuada e

θhi2 e a probabilidade de melhora acentuada ou alguma melhora, ou seja,

e uma probabilidade acumulada.

Para uma resposta dicotomica foi visto que, uma unica funcao logito

e considerada para cada subpopulacao (linha da tabela de contingencia).

Ja para uma resposta ordinal com L > 2 categorias, L − 1 logitos cumula-

tivos, baseados nas probabilidades acumuladas, sao considerados para cada

subpopulacao. Para tres categorias de resposta, como e o caso do exemplo

apresentado na Tabela 3.22, os dois logitos cumulativos sao expressos por:

logit(θhi1) = log

[πhi1

πhi2 + πhi3

]e logit(θhi2) = log

[πhi1 + πhi2

πhi3

].

Esses logitos sao, respectivamente, o log(odds) de melhora acentuada

para alguma ou nenhuma melhora e o log(odds) de melhora acentuada ou

alguma melhora para nenhuma melhora. O modelo de odds proporcionais

leva em consideracao ambas as odds citadas.

Assumindo-se que os totais marginais nhi+ sao fixos, tem-se, associa-

do a cada subpopulacao (linha da tabela de contingencia), a distribuicao

multinomial em que∑3

j=1 πhij = 1. Um modelo que se aplica a ambos


os logitos simultaneamente, para cada combinacao de sexo e tratamento,

poderia entao ser escrito por:

logit(θhik) = β0k + β′kxhi,

em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos sao dis-

tintos, bem como existem diferentes conjuntos de parametros de regressao

para cada logito.

Com a suposicao de odds proporcionais tem-se que βk = β para todo

k, simplicando, assim, o modelo para:

logit(θhik) = β0k + β′xhi

que tambem pode ser expresso por:

θhik =exp

{β0k + β′xhi

}

1 + exp{

β0k + β′xhi

} =exp

{β0k +

∑pg=1 βgxhig

}

1 + exp{

β0k +∑p

g=1 βgxhig

} ,

em que g = 1, ..., p refere-se as covariaveis. Esse modelo e similar a

regressao logıstica dicotomica e seus parametros sao tambem estimados

por meio do metodo de maxima verossimilhanca.

Os valores para πhij podem ser determinados, usando-se esse modelo,

por meio das apropriadas subtracoes de θhik, ou seja:

πhi1 = θhi1

πhi2 = θhi2 − θhi1

πhi3 = 1 − θhi2.

(a) Regressao logıstica politomica ajustada aos dados de artrite

Sob a suposicao de odds proporcionais, o modelo de efeitos principais e um

apropriado ponto de partida para a analise dos dados de artrite e, este


modelo, em notacao matricial, e expresso por:

logit(θ111)

logit(θ112)

logit(θ121)

logit(θ122)

logit(θ211)

logit(θ212)

logit(θ221)

logit(θ222)

=

β01 + β1 + β2

β02 + β1 + β2

β01 + β1

β02 + β1

β01 + β2

β02 + β2

β01

β02

=

1 0 1 1

0 1 1 1

1 0 1 0

0 1 1 0

1 0 0 1

0 1 0 1

1 0 0 0

0 1 0 0

β01

β02

β1

β2

.

Esse modelo e similar aos modelos descritos anteriormente, exceto pela

existencia de dois parametros de intercepto, correspondendo as duas funcoes

logito sendo modeladas para cada subpopulacao. O parametro β01 e o

intercepto do primeiro logito cumulativo e o parametro β02 e o intercepto

do segundo logito cumulativo, β1 e o efeito (incremento) do sexo feminino

e β2 e o efeito (incremento) do tratamento A. Sexo masculino e placebo

correspondem a casela de referencia.


sequenciais ajustados.

Tabela 3.23: Tabela das diferencas de deviance para os dados de artrite.

deviance diferencas de diferencas

Modelos g.l. residual deviance de g.l.

Nulo 6 (8−2) 169,9159

X1 5 (8−3) 166,1106 3,8053 1

X1 e X2 4 (8−4) 150,0294 16,0812 1

X1, X2 e X1 ∗ X2 3 (8−5) 149,7210 0,3084 1

X1 = sexo, X2 = tratamento

Os graus de liberdade (g.l.) foram obtidos por (s ∗ (r − 1))− p, sendo s


o numero de subpopulacoes (linhas da tabela de contingencia), r o numero

de categorias da variavel resposta e p o numero de parametros no modelo.

Pode-se observar, da Tabela 3.23, que a interacao entre sexo e tratamento

nao e significativa, uma vez que TRV = 0,3084 (p = 0,5786, g.l. = 1).

Ja para os efeitos principais de sexo e tratamento na presenca de sexo,

obtiveram-se TRV = 3,8053 (p = 0,051) e TRV = 16,0812 (p = 6,06e−7),

respectivamente, podendo-se, desse modo, concluir que ambos os efeitos sao

significativos e devem, portanto, permanecer no modelo. Os respectivos

parametros estimados para o modelo com as covariaveis sexo e tratamento,

encontram-se na Tabela 3.24.

Tabela 3.24: Estimativas obtidas para o modelo ajustado.


β01: intercepto 1 -2,6672 0,6065

β02: intercepto 2 -1,8128 0,5654

β1: sexo feminino 1,3187 0,5381

β2: tratamento A 1,7973 0,4718

A avaliacao da qualidade de ajuste do modelo de odds proporcionais e

similar a realizada para o modelo de regressao logıstica dicotomica. Se pelo

menos 80% das contagens observadas nas caselas for 5, entao pode-se usar as

estatısticas QL e QP as quais, sob H0, tem distribuicao Qui-Quadrado com

((r−1)(s−1)−q) g.l., sendo r o numero de categorias da variavel resposta,

s o numero de subpopulacoes e q o numero de covariaveis. Para os dados

desse exemplo obtiveram-se QL = 2,7121 (p = 0,6071, g.l. = 4) e QP =

1,9099 (p = 0,7523, g.l. = 4) e, desse modo, conclui-se que o modelo ajusta-

se satisfatoriamente aos dados. O modelo ajustado e, portanto, expresso

por:

logit(θhik) = β0k + 1, 3187 sexo + 1, 7973 tratamento


ou, ainda,

θhik =exp

{β0k + 1, 3187 sexo + 1, 7973 tratamento

}

1 + exp{

β0k + 1, 3187 sexo + 1, 7973 tratamento} , k = 1, 2.

As probabilidades cumulativas preditas por tal modelo e, consequente-

mente, as probabilidades nao-cumulativas, encontram-se na Tabela 3.25.

Tabela 3.25: Probabilidades cumulativas (θhik) e nao-cumulativas (πhij) esti-

madas por meio do modelo ajustado.

Sexo Tratamento θhi1 θhi2 πhi1 πhi2 πhi3

F A 0,6104 0,7864 0,6104 0,1760 0,2136

F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211

M A 0,2953 0,4961 0,2953 0,2008 0,5039

M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597

Note, ainda, que as probabilidades observadas e as estimadas a partir

do modelo ajustado, apresentadas na Tabela 3.26, encontram-se bastante

proximas umas das outras, indicando que o modelo ajustado apresenta-se

satisfatorio.

As odds ratios sao tambem obtidas de modo similar a regressao logıstica

dicotomica. Na Tabela 3.27 sao apresentadas as odds para o modelo de odds

proporcionais ajustado. Desta tabela, pode-se, por exemplo, observar que

a odds de melhora acentuada versus alguma ou nenhuma melhora para

pacientes do sexo feminino comparada com a odds dos pacientes do sexo

masculino e de OR = exp{β01+β1+β2}exp{β01+β2}

= exp{β01+β1}exp{β01}

= exp{β1}. Assim, a

chance dos pacientes do sexo feminino apresentarem melhora acentuada e

e1,3187 = 3, 738 vezes a dos pacientes do sexo masculino. Ainda, a chance

dos pacientes recebendo o tratamento A apresentarem melhora acentuada

e eβ2 = e1,7973 = 6,03 vezes a dos pacientes recebendo placebo e, pela


Tabela 3.26: Probabilidades observadas e estimadas pelo modelo.

observadas estimadas (observadas - estimadas)

0.5925926 0.61036848 -0.017775889

0.1851852 0.17601388 0.009171310

0.2222222 0.21361764 0.008604579

0.1875000 0.20612474 -0.018624743

0.2187500 0.17281504 0.045934963

0.5937500 0.62106022 -0.027310220

0.3571429 0.29527688 0.061865982

0.1428571 0.20084884 -0.057991694

0.5000000 0.50387429 -0.003874287

0.0909091 0.06493692 0.025972174

0.0000000 0.07536270 -0.075362704

0.9090909 0.85970038 0.049390531

suposicao de odds proporcionais assumida para o modelo ajustado, esta e

tambem a odds ratio para melhora acentuada ou alguma melhora versus

nenhuma melhora.

Tabela 3.27: Formulas das odds obtidas para o modelo de odds proporcionais ajustado.

Melhora acentuada versus Melhora acentuada ou alguma

Sexo Tratamento alguma ou nenhuma versus nenhuma

F A exp{β01 + β1 + β2} exp{β02 + β1 + β2}

F Placebo exp{β01 + β1} exp{β02 + β1}

M A exp{β01 + β2} exp{β02 + β2}

M Placebo exp{β01} exp{β02}

Observe que a suposicao de odds proporcionais e necessaria para o uso

do modelo aqui apresentado. Assim, a hipotese de que existe um vetor

comum β, em vez de distintos vetores βk, deve ser testada, isto e, deve-se


testar a hipotese nula H0: βk = β. Se esta hipotese for rejeitada, uma

outra abordagem deve ser considerada. Uma abordagem sugerida, nesses

casos, e considerar as categorias da variavel resposta como nominais em vez

de ordinais e, entao, ajustar um modelo para os logitos generalizados, que

e tratado na proxima secao.

Para o exemplo considerado, o teste da hipotese nula citada resultou

em QRS = 1,8833 (p = 0,39, g.l. = ((r− 1)(s− 1)− q) = 2), concluindo-se,

assim, que a suposicao de odds proporcionais e razoavel para esses dados.

3.3.2 Resposta nominal: modelo de logitos generalizados

Modelos de regressao logıstica tambem podem ser usados para analisar

dados em que as categorias da variavel resposta sao nominais. Nesses casos,

contudo, ajustam-se modelos para logitos generalizados e nao para logitos

cumulativos.

Para tratar o modelo de logitos generalizados, considere os dados apre-

sentados na Tabela 3.28 referentes a um estudo realizado com criancas para

determinar qual programa de aprendizado elas preferem, bem como se tal

preferencia estaria associada com a escola e o perıodo escolar (padrao ou

com atividades em tempo integral).

Uma vez que, nesse estudo, as categorias da variavel resposta nao apre-

sentam uma ordenacao, o modelo de odds proporcionais nao e apropriado.

Assim, cada logito generalizado usado nessas situacoes e definido por:

logithik = log

[πhik

πhir

],

para k = 1, 2, · · · , (r − 1), sendo r o numero de categorias da variavel

resposta. Note, que cada logito e obtido a partir da probabilidade de cada

categoria sobre a da ultima categoria de resposta. Os logitos generalizados

para uma resposta com tres categorias, como e o caso do exemplo sobre a


Tabela 3.28: Estudo com criancas sobre preferencia de programa escolar.

Preferencia aprendizado

Escola Perıodo Individual Grupo Sala Aula Totais

1 Padrao 10 17 26 53

1 Integral 5 12 50 67

2 Padrao 21 17 26 64

2 Integral 16 12 36 64

3 Padrao 15 15 16 46

3 Integral 12 12 20 44

preferencia de programa escolar, sao expressos por:

logithi1 = log

[πhi1

πhi3

]e logithi2 = log

[πhi2

πhi3

],

para h = 1, 2, 3 (escolas) e i = 1, 2 (perıodos padrao e integral, respecti-

vamente). Assim, o modelo a ser ajustado para os logitos generalizados e:

logithik = β0k + β′kxhi,

em que k indexa os 2 logitos. Note, que para cada logito desse modelo, exis-

tem diferentes interceptos e diferentes conjuntos de parametros de regressao

βk. Assim, enquanto para o modelo de odds proporcionais estimam-se

multiplos parametros de interceptos, mas um unico conjunto de parametros

associado as covariaveis, para o modelo de logitos generalizados estimam-se

multiplos conjuntos de parametros, tanto para o intercepto quanto para as

covariaveis.

Como multiplas funcoes resposta (logitos) estao sendo modeladas para

cada subpopulacao (linha da tabela de contingencia), existe um numero

maior de graus de liberdade associado a cada efeito. A forma matricial

do modelo e, tambem, um tanto mais complicada devido a necessidade


de se levar em consideracao tais funcoes multiplas. Contudo, o procedi-

mento de modelagem e o usual, isto e, ajusta-se o modelo, examinam-se

as estatısticas de qualidade de ajuste do modelo e, se necessario, reduz-

se o modelo. Note, que como mais de um logito esta sendo predito por

subpopulacao, o tamanho amostral necessita ser grande o suficiente para

acomodar o numero de logitos sendo modelados. Problemas quanto a es-

timacao dos parametros serao certamente encontrados em situacoes em que

nao existem dados suficientes para justificar a analise de logitos generaliza-

dos. Em tais situacoes, simplificar a estrutura da variavel resposta para

uma razoavel resposta dicotomica e proceder a uma analise de regressao

logıstica dicotomica pode ser uma alternativa plausıvel.

(a) Logitos generalizados ajustados aos dados do programa escolar

Os logitos generalizados, nesse exemplo, sao construıdos considerando-

se a probabilidade de preferencia de aprendizado individual com respeito

ao aprendizado em sala de aula (πhi1/πhi3) e a probabilidade de preferencia

de aprendizado em grupo com respeito ao aprendizado em sala de aula

(πhi2/πhi3). As covariaveis foram consideradas no modelo por meio de

variaveis dummies do tipo 1 e -1, por serem o default do software estatıstico

SAS (Proc Catmod), utilizado para obtencao dos resultados desta analise.

As conclusoes seriam as mesmas se dummies do tipo 1 e 0 fossem usadas.

As variaveis dummies associadas as covariaveis X1 e X2 sao, desse modo:

X11 =

1 se escola 1

0 se escola 2,

−1 se escola 3

X12 =

0 se escola 1

1 se escola 2

−1 se escola 3

e X2 =

{1 se padrao

−1 se integral


sequenciais ajustados. Pode-se observar, desta tabela, que a interacao entre

escola e perıodo nao e significativa, uma vez que TRV = 1,7776 (p = 0,78,

g.l. = 4). Ja para os efeitos principais de escola e perıodo na presenca de


escola, obtiveram-se TRV = 17,3765 (p = 0,0016, g.l. = 4) e TRV = 11,094

(p = 0,0039, g.l.= 2), respectivamente. Ambos os efeitos sao, portanto, sig-

nificativos e devem permanecer no modelo. Note, que os graus de liberdade

para modelar dois logitos sao duas vezes os graus de liberdade esperados ao

se modelar um unico logito. Isso ocorre porque simultaneamente sao mode-

ladas duas funcoes resposta (logitos) em vez de uma e, consequentemente,

o numero de parametros a serem estimados sao duplicados. Assim, em um

modelo de logitos generalizados, os graus de liberdade sao determinados

multiplicando-se por (r−1) o numero de graus de liberdade esperado para

modelar um logito, sendo r o numero de categorias da variavel resposta.

Tabela 3.29: Diferencas de deviance - dados do programa escolar.

deviance diferencas de diferencas

Modelos g.l. residual deviance de g.l.

Nulo 10 695,4043 - -

X1 6 678,0278 17,3765 (10−6) = 4

X1 e X2 4 666,9338 11,0940 (6−4) = 2

X1, X2 e X1 ∗ X2 0 665,1562 1,7776 (4−0) = 4

X1 = escola, X2 = perıodo

O modelo com X1 e X2, em notacao matricial, fica representado por:

logit111

logit112

logit121

logit122

logit211

logit212

logit221

logit222

logit311

logit312

logit321

logit322

=

1 0 1 0 0 0 1 0

0 1 0 1 0 0 0 1

1 0 1 0 0 0 −1 0

0 1 0 1 0 0 0 −1

1 0 0 0 1 0 1 0

0 1 0 0 0 1 0 1

1 0 0 0 1 0 −1 0

0 1 0 0 0 1 0 −1

1 0 −1 0 −1 0 1 0

0 1 0 −1 0 −1 0 1

1 0 −1 0 −1 0 −1 0

0 1 0 −1 0 −1 0 −1

β01

β02

β11

β12

β21

β22

β31

β32

.


Observe, na representacao matricial do modelo, que as linhas ımpares

correspondem ao primeiro logito e as linhas pares ao segundo logito. Similar-

mente, as colunas ımpares correspondem aos parametros do primeiro logito

e as pares aos do segundo logito. As estimativas dos parametros desse mo-

delo encontram-se na Tabela 3.30. Na Tabela 3.31, estas estimativas sao

apresentadas de acordo ao logito a que se referem.

Tabela 3.30: Estimativas dos parametros do modelo ajustado.

Erro Qui-

Efeito Parametro Estimativa Padrao Quadrado valor p

Intercepto β01 -0,7979 0,1465 29,65 < 0, 0001

β02 -0,6589 0,1367 23,23 < 0, 0001

escola β11 -0,7992 0,2198 13,22 0,0003

β12 -0,2786 0,1867 2,23 0,1356

β21 0,2836 0,1899 2,23 0,1352

β22 -0,0985 0,1892 0,27 0,6028

perıodo β31 0,3737 0,1410 7,03 0,0080

β32 0,3713 0,1353 7,53 0,0061

Tabela 3.31: Estimativas dos parametros do modelo ajustado por logito.

logito (indiv/sala aula) logito (grupo/sala de aula)

Covariavel coeficiente e.p. coeficiente e.p.

Intercepto -0,7979 0,1465 -0,6589 0,1367

Escola 1 -0,7992 0,2198 -0,2786 0,1867

Escola 2 0,2836 0,1899 -0,0985 0,1892

Perıodo 0,3737 0,1410 0,3713 0,1353

A partir da Tabela 3.31 e possıvel observar que a escola 1 apresenta o

maior efeito dentre as escolas, particularmente para o logito comparando o

aprendizado individual ao aprendizado em sala de aula. O perıodo escolar


apresenta efeitos similares em ambos os logitos.

As odds ratios tambem podem ser usadas nos modelos de logitos genera-

lizados para facilitar a interpretacao do modelo. Para o modelo considerado,

as odds encontram-se na Tabela 3.32.

Tabela 3.32: Odds preditas pelo modelo de logitos generalizados.

Odds

Escola Perıodo Individual/Sala aula Grupo/Sala aula

1 Padrao eβ01+β11+β31 eβ02+β12+β32

1 Integral eβ01+β11−β31 eβ02+β12−β32

2 Padrao eβ01+β21+β31 eβ02+β22+β32

2 Integral eβ01+β21−β31 eβ02+β22−β32

3 Padrao eβ01−β11−β21+β31 eβ02−β12−β22+β32

3 Integral eβ01−β11−β21−β31 eβ02−β12−β22−β32

As estimativas das odds ratios de aprendizado individual, em relacao ao

aprendizado em sala de aula, sao desse modo:

i) entre perıodos: ORP/I =eβ01+β11+β31

eβ01+β11−β31

= e2∗β31 = 2,11

ii) entre escolas: OR2/1 =eβ01+β21+β31

eβ01+β11+β31

= eβ21−β11 = 2,95

OR3/1 =eβ01−β11−β21+β31

eβ01+β11+β31

= e−2∗β11−β21 = 3,72

OR3/2 =eβ01−β11−β21+β31

eβ01+β21+β31

= e−2∗β21−β11 = 1,26.

Assim, a odds (chance) dos alunos nas escolas com perıodo escolar

padrao preferirem o aprendizado individual ao aprendizado em sala de aula


e 2,11 vezes a dos alunos nas escolas com perıodo escolar integral. Ainda, a

odds dos alunos da escola 2 preferirem o aprendizado individual ao apren-

dizado em sala de aula e 2,95 vezes a dos alunos da escola 1.

De modo analogo, as odds ratios de aprendizado em grupo, em relacao

ao aprendizado em sala de aula, sao:

i) entre perıodos: ORP/I =eβ02+β12+β32

eβ02+β12−β32

= e2∗β32 = e2∗0,3713 = 2,10

ii) entre escolas: OR2/1 =eβ02+β22+β32

eβ02+β12+β32

= eβ22−β12 = 1,19

OR3/1 =eβ02−β12−β22+β32

eβ02+β12+β32

= e−2∗β12−β22 = 1,93

OR3/2 =eβ02−β12−β22+β32

eβ02+β22+β32

= e−2∗β22−β12 = 1,61.

Logo, a chance (odds) dos alunos nas escolas com perıodo escolar padrao

preferirem o aprendizado em grupo ao aprendizado em sala de aula e 2,10

vezes a dos alunos nas escolas com perıodo escolar integral. Tambem, os

alunos da escola 3, em relacao aos da escola 1, preferem o aprendizado em

grupo ao em sala de aula. A odds dessa preferencia entre os alunos da

escola 3 e 1,93 vezes a dos alunos da escola 1. Ja os alunos da escola 2,

em relacao aos da escola 1, apresentam razao de odds muito proxima de 1,

indicando nao ter havido, para os alunos dessas duas escolas, preferencia

diferenciada entre esses dois metodos de aprendizado.

Note, a partir dos resultados apresentados na Tabela 3.33, que as proba-

bilidades observadas e preditas a partir do modelo encontram-se proximas,

indicando que o modelo apresenta um ajuste satisfatorio.

3.4. Regressao Logıstica Condicional 117

Tabela 3.33: Valores observados e preditos para as probabilidades.

Observados Preditos

Escola Perıodo Pref. Probabilidade e.p. Probabilidade e.p Obs-Pred

1 pad ind 0,1887 0,0537 0,1580 0,0403 0,0306

gr 0,3208 0,0641 0,3049 0,0527 0,0159

aula 0,4906 0,0687 0,5371 0,0560 -0,0470

1 int ind 0,0746 0,0321 0,0989 0,0279 -0,0240

gr 0,1791 0,0468 0,1917 0,0393 -0,0130

aula 0,7463 0,0532 0,7095 0,0459 0,0368

2 pad ind 0,3281 0,0587 0,3409 0,0515 -0,0130

gr 0,2656 0,0552 0,2667 0,0469 -0,0010

aula 0,4063 0,0614 0,3924 0,0509 0,0139

2 int ind 0,2500 0,0541 0,2372 0,0444 0,0128

gr 0,1875 0,0488 0,1864 0,0389 0,0011

aula 0,5625 0,062 0,5764 0,0518 -0,0140

3 pad ind 0,3261 0,0691 0,3436 0,0587 -0,0170

gr 0,3261 0,0691 0,3429 0,0582 -0,0170

aula 0,3478 0,0702 0,3136 0,0536 0,0343

3 int ind 0,2727 0,0671 0,2545 0,0521 0,0183

gr 0,2727 0,0671 0,2552 0,0517 0,0176

aula 0,4545 0,0751 0,4904 0,0608 -0,0360

3.4 Regressao Logıstica Condicional

Algumas vezes a abordagem de maxima verossimilhanca para estimacao

em regressao logıstica nao e apropriada, particularmente se os dados sao

altamente estratificados e existe um numero pequeno de sujeitos em cada

estrato. Exemplos comuns sao observacoes pareadas tais como as de gemeos

fraternos, lados esquerdo e direito do corpo em estudos dermatologicos

ou, ainda, uma opiniao coletada em duas ocasioes distintas. Regressao

logıstica ordinaria pode ser inapropriada para tais dados, pois o tamanho

amostral e insuficiente para estimar, sem vıcio, o efeito do par. Usando,

contudo, argumentos condicionais, pode-se remover o efeito do par e estimar

os demais efeitos de interesse.


A forma apropriada de regressao logıstica para tais tipos de dados e

denominada regressao logıstica condicional. Em tal regressao, a estimacao

dos parametros do modelo e baseada em uma funcao de verossimilhanca

condicional. Algumas situacoes sao apresentadas a seguir.

3.4.1 Estudos prospectivos: contagem pequena nos estratos

Considere um ensaio clınico em que i = 1, · · · , q centros medicos sao esco-

lhidos para sua realizacao. Em cada centro, sao selecionados dois pacientes,

um para receber o tratamento sob pesquisa e, o outro, para receber o

placebo. O interesse se concentra na avaliacao da melhora do paciente.

Note, que existem somente duas observacoes por centro, o que, natural-

mente, inviabiliza que o efeito de centro seja estimado sem vıcio.

Se para esse estudo fossse considerado o modelo de regressao logıstica

usual, a probabilidade para yij , em que i = 1, · · · , q centros e j = 1, 2

tratamentos, seria dada por:

P [yij = 1] =exp{αi + β xij + γ′zij}

1 + exp{αi + β xij + γ′zij}

sendo αi o efeito do i-esimo centro, β o parametro associado ao trata-

mento e γ’ = (γ1, γ2, · · · , γt) o vetor de parametros associado as covariaveis

z. Como, no entanto, os parametros αi (i = 1, · · · , q) nao podem ser es-

timados adequadamente pelo fato de existirem somente duas observacoes

por centro, uma alternativa e considerar um modelo baseado em probabi-

lidades condicionais, em que os efeitos dos centros sao considerados como

parametros nuisance (perturbacao). Sob esta abordagem, a probabilidade

condicional para yij e escrita como a razao entre: a probabilidade conjunta

do paciente tratado de um par melhorar e o paciente placebo deste par nao

melhorar, e a probabilidade conjunta de que, seja o paciente tratado ou o


paciente placebo, tenha apresentado melhora. Tem-se, entao:

P [yi1 = 1, yi2 = 0 | yi1 = 1, yi2 = 0 ou yi1 = 0, yi2 = 1] =

=P [yi1 = 1]P [yi2 = 0]

P [yi1 = 1]P [yi2 = 0] + P [yi1 = 0]P [yi2 = 1]. (3.7)

Como as probabilidades envolvidas em (3.7), em termos do modelo de

regressao logıstica, sao dadas por:

P [yi1 = 1]P [yi2 = 0] =exp{αi + β + γ′zi1}

1 + exp{αi + β + γ′zi1}.

1

1 + exp{αi + γ′zi2}

e

P [yi1 = 0]P [yi2 = 1] =1

1 + exp{αi + βγ′zi1}.

exp{αi + γ′zi2}1 + exp{αi + γ′zi2}

,

tem-se que a razao (3.7) resulta em:

exp{αi + β + γ′zi1}exp{αi + β + γ′zi1} + exp{αi + γ′zi2}

=exp{β + γ′(zi1 − zi2)}

1 + exp{β + γ′(zi1 − zi2)},

que nao inclui os parametros αi (i = 1, · · · , q). Sob a abordagem de pro-

babilidades condicionais, tem-se, portanto, um modelo com um numero

reduzido de parametros que podem ser estimados sem vıcio. A funcao de

verossimilhanca condicional e, desse modo,

L(β, γ) =

q∏

i=1

{exp{β + γ′(zi1 − zi2)}

1 + exp{β + γ′(zi1 − zi2)}

}yi1(1−yi2)

{1

1 + exp{β + γ′(zi1 − zi2)}

}(1−yi1)yi2

(3.8)

que, na realidade, e a funcao de verossimilhanca nao-condicional para o

modelo de regressao logıstica usual, exceto que o intercepto e agora β, o

efeito do tratamento, e cada observacao representa um par de observacoes

de cada centro, em que a resposta e 1, se o par apresenta a combinacao

(yi1 = 1, yi2 = 0) e 0, se o par apresenta a combinacao (yi1 = 0, yi2 = 1).


Ainda, (zi1 − zi2) sao as diferencas dos valores das covariaveis para o pa-

ciente tratado e o paciente placebo. Como a funcao de verossimilhanca

e condicionada nos pares discordantes, os pares concordantes ((yi1 = 1,

yi2 = 1) e (yi1 = 0, yi2 = 0)) sao nao-informativos e podem ser, assim,

ignorados.

A funcao de verossimilhanca (3.8) pode, ainda, ser reescrita como:

L(β, γ) =

q∏

i=1

{exp{β + γ′zi1}

exp{β + γ′zi1} + exp{γ′zi2}

}yi1(1−yi2)

{exp{β + γ′zi2}

exp{β + γ′zi1} + exp{γ′zi2}

}(1−yi1)yi2

que e a mesma funcao de verossimilhanca que se aplica a dados pareados

em um caso simples do modelo de regressao de Cox, ou modelo de riscos

proporcionais, usado em analise de sobrevivencia. Isso significa que os

mesmos procedimentos computacionais usados para ajustar o modelo de

riscos proporcionais, pode ser usado para o modelo de regressao logıstica

condicional.

Note, na ausencia das covariaveis z, que os dados podem ser represen-

tados em uma tabela de contingencia 2 × 2 em que as respostas para o

tratamento sao cruzadas com as respostas para o placebo. Testar β = 0 e,

desse modo, equivalente ao teste de McNemar. Ainda, pode ser mostrado,

que eβ e estimado por n12/n21, sendo n12 e n21 as contagens que aparecem

fora da diagonal principal desta tabela.

Exemplo: Para analisar o efeito de um novo tratamento em um particular

problema de pele, pesquisadores coletaram informacoes em 79 clınicas. Em

cada clınica, um paciente recebeu o tratamento e, o outro, recebeu um

placebo. As covariaveis coletadas foram: idade, sexo (1 se masculino e 0

se feminino) e o grau inicial do problema, que variou de 1 a 4 para leve


a severo. A resposta considerada foi a melhora ou nao do problema. Os

dados encontram-se no Apendice.

Considerando o modelo de regressao logıstica condicional para os dados

desse estudo, obtiveram-se as estimativas dos parametros apresentados na

Tabela 3.34.

Tabela 3.34: Estimativas de maxima verossimilhanca.

estimativas erro-padrao z valor p

Tratamento (β) 0,7025 0,3601 1,951 0,051

Sexo (M) (γ1) 0,5312 0,5545 0,958 0,340

Idade (γ2) 0,0248 0,0224 1,107 0,270

Grau inicial (γ3) 1,0915 0,3351 3,257 0,001

A partir da Tabela 3.34, podem ser observados efeitos significativos para

o grau inicial (p = 0, 001) e tratamento (p = 0, 051), bem como efeitos nao

significativos para sexo e idade. Removendo-se do modelo os efeitos nao

significativos, foram obtidas as estimativas apresentadas na Tabela 3.35.

Tabela 3.35: Estimativas de maxima verossimilhanca: modelo reduzido.

estimativas erro-padrao z valor p

Tratamento (β) 0,711 0,349 2,04 0,0410

Grau inicial (γ1) 1,077 0,321 3,35 0,0008

Tem-se, entao, que a odds de melhora para os pacientes recebendo o

tratamento e de e0,711 = 2, 03 vezes a dos pacientes recebendo o placebo. A

odds de melhora tambem cresce por um fator de em torno de 3 para cada

unidade de acrescimo no grau inicial. Logo, mesmo ajustado para o grau

inicial, o tratamento apresenta efeito significativo.


Os resıduos apresentados na Figura 3.6, evidenciam um ajuste satis-

fatorio do modelo aos dados.

0 50 100 150

−1.0

−0.5

0.0

0.5

1.0

i

resi

duos

Figura 3.6: Resıduos associados ao modelo ajustado.

3.4.2 Estudos crossover

Regressao logıstica condicional e tambem uma ferramenta util na analise

de estudos com delineamentos crossover. Nestes delineamentos, frequen-

temente usados em ensaios clınicos, o estudo e dividido em perıodos e os

pacientes recebem um tratamento diferente a cada um desses perıodos. O

paciente atua, desse modo, como seu proprio controle. O interesse se con-

centra na comparacao da eficacia dos tratamentos, ajustando para os efeitos

dos perıodos e efeitos residuais destes. O delineamento crossover basico e o

de dois-perıodos, mas delineamentos com tres ou mais perıodos sao tambem

frequentes.

(a) Estudos crossover de dois-perıodos

Um estudo crossover de dois-perıodos pode tambem ser considerado

um estudo com observacoes pareadas. Na Tabela 3.36 sao apresentados

dados de um ensaio clınico conduzido sob o delineamento crossover de dois


perıodos em que os pacientes foram estratificados de acordo com dois grupos

de idade (jovens e adultos). Tres sequencias de tratamentos foram, entao,

designadas a cada um dos dois grupos. FF indica resposta favoravel nos

perıodos 1 e 2, FU indica resposta favoravel no perıodo 1 e nao-favoravel no

perıodo 2 e, assim sucessivamente. A sequencia A:B significa que a droga

A foi administrada durante o 1o perıodo e a B no 2o perıodo. A notacao P

indica placebo. Cada sequencia foi administrada a 50 pacientes.

Tabela 3.36: Estudo crossover de dois-perıodos.

Respostas

Idade Sequencia FF FU UF UU Total

adultos A:B 12 12 6 20 50

adultos B:P 8 5 6 31 50

adultos P:A 5 3 22 20 50

jovens B:A 19 3 25 3 50

jovens A:P 25 6 6 13 50

jovens P:B 13 5 21 11 50

Fonte: Stokes et al. (2000)

Uma estrategia de analise desses dados e modelar a probabilidade de

melhora de cada paciente no 1o perıodo (e nao no segundo) versus a pro-

babilidade de melhora seja no 1o ou 2o perıodos, mas nao em ambos. Isto

pode ser expresso como a probabilidade condicional:

P [p1 = F ]P [p2 = U ]

P [p1 = F ]P [p2 = U ] + P [p1 = U ]P [p2 = F ],

em que p1 significa perıodo 1 e p2, perıodo 2. Entao, a analise pode ser

feita da mesma maneira do exemplo anterior. Naquele caso, a analise foi

ajustada para centros, removendo-se, assim, a variabilidade entre centros

(intercentros) e se concentrando na variabilidade intracentros. Nesse exem-

plo, a analise e ajustada para pacientes, removendo-se a variabilidade entre


pacientes (interpacientes) e se concentrando na informacao intrapacientes.

Os efeitos a serem considerados sao: efeito do perıodo, efeito dos grupos de

idade, efeito das drogas e, ainda, os efeitos residuais das drogas A e B que

resultam da passagem do perıodo 1 para o perıodo 2.

O modelo incluindo os efeitos residuais das drogas pode ser escrito por:

P [FU | FU ou UF ] =exp{β + τ ′z}

1 + exp{β + τ ′z} ,

em que z consiste das diferencas entre os dois perıodos para: grupos de

idade, droga A, droga B, residual da droga A e residual da droga B. O

parametro β corresponde ao efeito do perıodo, τ0 ao efeito de grupos de

idade, τ1 e τ2 aos efeitos das drogas A e B, respectivamente, e τ3 e τ4 aos

efeitos residuais das drogas A e B, respectivamente. Note, que como z

consiste das diferencas entre os dois perıodos, deve-se considerar para os

pacientes adultos, os valores 1 e 0 para os perıodos 1 e 2, respectivamente,

e, para os pacientes jovens, o valor 0 para ambos os perıodos. Desse modo,

tem-se as diferencas: zidade = 1, se adulto e zidade = 0, se jovem.

As estimativas dos parametros do modelo de regressao logıstica condi-

cional ajustado aos dados desse estudo encontram-se na Tabela 3.37.

Tabela 3.37: Estimativas de maxima verossimilhanca - modelo inicial.

estimativas erro-padrao χ2 valor p

Perıodo (p1) (β) -1,4370 0,703 4,183 0,041

Droga A (τ1) 1,2467 0,681 3,354 0,067

Droga B (τ2) -0,0019 0,641 0,000 0,997

Gpidade (adultos) (τ0) 0,6912 0,465 2,205 0,137

Residual droga A (τ3) -0,1903 1,112 0,029 0,864

Residual droga B (τ4) -0,5653 1,156 0,239 0,624

A partir Tabela 3.37, ha evidencias de que os efeitos residuais, seja da


droga A ou da B, nao foram significativos. O modelo reduzido, em que os

efeitos residuais de ambas as drogas sao removidos, foi ajustado. O efeito

de grupos de idade, por apresentar um efeito modestamente sugestivo, foi

mantido no modelo. As estimativas encontram-se na Tabela 3.38.

Tabela 3.38: Estimativas de maxima verossimilhanca - modelo reduzido.


Perıodo (p1) (β) -1,191 0,331 12,95 0,0003

Droga A (τ1) 1,346 0,329 16,75 <, 0001

Droga B (τ2) 0,266 0,323 0,67 0,4104

Gpidade (adultos) (τ0) 0,710 0,458 2,41 0,1207

Note, a partir da Tabela 3.38, que o efeito de perıodo permanece clara-

mente significativo (p = 0,0003). A droga A, em relacao ao placebo, tambem

apresenta efeito significativo. O mesmo nao ocorre com a droga B, que

apresenta efeito nao significativo. O efeito de grupos de idade permanece

ainda sugestivo. Remove-lo ou nao do modelo depende do proposito da

analise. Se nao for de interesse a distincao entre os grupos adulto e jovem,

entao a escolha provavel sera pela remocao deste efeito, o que resulta nas

estimativas apresentadas na Tabela 3.39.

Tabela 3.39: Estimativas do modelo sem grupos de idade.


Perıodo (p1) (β) -0,845 0,231 13,45 2,4e-04

Droga A (τ1) 1,408 0,341 17,09 3,6e-05

Droga B (τ2) 0,296 0,316 0,87 3,5e-01

Para comparar os efeitos das drogas A e B, foi testado a hipotese nula


H0: τ1 = τ2. Os resultados: χ2 = 12,41, g.l. = 1, p = 0,00042, mostram que

as drogas apresentam efeitos diferentes. Os resıduos associados ao modelo

ajustado evidenciaram um ajuste satisfatorio. As odds ratios podem ser

obtidas e interpretadas de modo similar ao dos demais exemplos.

(b) Estudos crossover de tres-perıodos

Os estudos crossover de tres-perıodos, embora com certo trabalho adi-

cional, podem ser analisados de maneira similar aos de dois-perıodos. Um

tal exemplo pode ser encontrado em Stokes et al. (2000).

3.4.3 Estudos retrospectivos com observacoes pareadas

Estudos retrospectivos sao frequentes em pesquisas epidemiologicas. Em

um estudo caso-controle, por exemplo, uma pessoa conhecida ter o evento

de interesse (caso) e pareada com uma ou mais pessoas que nao apresentam

o respectivo evento (controles). A situacao mais comum consiste de parea-

mento 1:1, isto e, um controle para cada caso. Outras situacoes seriam a

de pareamentos 1:m, em que m = numero de controles estariam entre 2 e

5, bem como as que consideram pareamentos n:m (n e m entre 1 e 5).

Em estudos dessa natureza, modelos de regressao logıstica condicional

podem ser tambem utilizados. A funcao de verossimilhanca e construıda

com base nas probabilidades condicionais de se observar as covariaveis dado

a resposta (evento: sim ou nao) e no uso do teorema de Bayes para deter-

minar a probabilidade associada ao evento. Essa funcao e similar aquela

derivada na Secao 3.4.1 para estudos prospectivos com contagens pequenas

nos estratos. Para pareamentos 1:1, esta funcao e expressa por:

L(β) =

q∏

i=1

{exp{β′(xi1 − xi2)}

1 + exp{β′(xi1 − xi2)}

}, (3.9)

em que (xi1 − xi2) sao as diferencas dos valores das covariaveis do caso

e controle envolvidos no i-esimo pareamento (i = 1, · · · , q). Note, que o


efeito do par (caso e seu respectivo controle), e considerado um parametro

nuisance (perturbacao). Sendo assim, seu efeito e removido e, consequente-

mente, nao existe intercepto no modelo. Para a funcao de verossimilhanca

condicional (3.9), pares em que xi1 = xi2 sao nao-informativos, visto que

a contribuicao deles para (3.9) e 0,5. Esses pares podem ser, portanto,

ignorados.

A funcao de verossimilhanca condicional (3.9) e, na realidade, a funcao

de verossimilhanca para o modelo de regressao logıstica nao-condicional

sem o intercepto, em que a resposta e sempre 1 e os valores das covariaveis

sao iguais as diferencas entre os valores dos casos e controles

Para estudos com pareamentos 1:m, pode ser mostrado que a funcao de

verossimilhanca condicional e:

L(β) =

q∏

i=1

[1 +

m∑

h=1

exp{β′(xih − xi0)

}]−1

,

em que h = 1, · · · , m indexa os controles e h = 0 corresponde ao caso.

Essa funcao nao e, contudo, equivalente a nenhuma forma nao-condicional

e, sendo assim, programas computacionais especıficos sao necessarios nos

casos em que ocorrem pareamentos 1:m, bem como n:m.

Exemplo: Um estudo foi realizado em uma comunidade de aposentadas

nos anos 70 para estudar a associacao entre o uso de estrogenio e a in-

cidencia de cancer do endometrio. Casos foram pareados a controles que

estavam no mesmo ano de idade, tinham o mesmo status marital e viviam

na mesma comunidade na data do diagnostico do caso. Outras informacoes

coletadas foram sobre: hipertensao, historico de vesıcula biliar e o nao uso

de estrogenio. Um total de 63 pares (pareamentos 1:1) foi obtido. Os dados

encontram-se no Apendice.

No processo de ajuste do modelo de regressao logıstica condicional, foi

observado que somente as covariaveis EST (estrogenio) e HVB (historico


de vesıcula biliar) apresentaram-se significativas. As estimativas para o

modelo com estas covariaveis encontram-se na Tabela 3.40. Os resultados

mostram que a odds de cancer endometrial das pessoas com historico de

vesıcula biliar (HVB), ajustada para estrogenio, e exp{2, 78} = 16, 1 vezes

a das sem tal historico. Por outro lado, a odds de cancer endometrial das

pessoas que usaram estrogenio, ajustada para historico de vesıcula biliar,

foi exp{1, 66} = 5, 23 vezes a das que nao usaram estrogenio. Os resıduos

associados a este modelo evidenciaram um ajuste satisfatorio.

Tabela 3.40: Estimativas obtidas para o modelo final.


EST (β1) 1,66 0,798 4,3 0,0381

HVB (β2) 2,78 0,760 13,3 0,0003

3.5 Exercıcios

1. Para os dados apresentados na Tabela 3.41, referentes a um estudo

sobre doenca coronaria, em que se tem CAT: nıvel de catecholamine

(0 se baixo e 1 se alto), IDADE: 0 se < 55 anos e 1 se ≥ 55 e ECG:

eletrocardiograma (0 se normal e 1 se anormal):

(a) ajuste um modelo de regressao logıstica que estime adequada-

mente a probabilidade de doenca coronaria e retire conclusoes. Con-

sidere as possıveis interacoes duplas entre as covariaveis.

2. (a) Para os dados do estudo sobre bronquite (Tabela 3.42):

(a) ajuste um modelo de regressao logıstica que estime adequada-

mente a probabilidade de bronquite. As covariaveis consideradas no

3.5. Exercıcios 129

Tabela 3.41: Estudo sobre doenca coronaria (CHD).

CHD

CAT IDADE ECG Sim Nao Total

0 0 0 17 257 274

0 1 0 15 107 122

0 0 1 7 52 59

0 1 1 5 27 32

1 0 0 1 7 8

1 1 0 9 30 39

1 0 1 3 14 17

1 1 1 14 44 58

Fonte: Kleinbaum (1994).

Tabela 3.42: Estudo sobre bronquite (BRC).

BRC

SMK SES IDADE Sim Nao Total

0 1 0 38 73 111

0 1 1 48 86 134

0 0 0 28 67 95

0 0 1 40 84 124

1 1 0 84 89 173

1 1 1 102 46 148

1 0 0 47 96 143

1 0 1 59 53 112

Fonte: Kleinbaum (1994).

estudo foram: SMK: fumante (0 se nao e 1 se sim), SES: status socio-

economico (0 se baixo e 1 se alto) e IDADE (0 se < 40 e 1 se entre

[40,59) anos).

3. Um estudo realizado em Curitiba-PR, reuniu informacoes, no perıodo

de 1994 a 1995, de 494 indivıduos que sofreram acidente traumatico


e foram atendidos pelo SIATE. Um dos objetivos foi encontrar um

modelo de regressao que pudesse predizer adequadamente a probabi-

lidade de sobrevida de pacientes politraumatizados nas primeiras 24

horas apos o acidente. Sabendo-se que o modelo ajustado foi:

log

[θ(x)

1 − θ(x)

]= 2, 211 + 2, 607 x1 − 0, 52 x2,

em que x1 = numero de lesoes (0 a 5) no torax e x2 = escala de

coma de Glascow (3 a 15) obtida de acordo com o total observado na

Tabela 3.43:

Tabela 3.43: Escala de coma de Glascow.

1. Abertura Ocular espontanea 4

a voz 3

com dor 2

ausente 1

2. Resposta Verbal orientada 5

confusa 4

desconexa 3

ininteligıvel 2

ausente 1

3. Resposta Motora obedece comandos 6

apropriada a dor 5

retirada a dor 4

flexao anormal 3

extensao 2

ausente 1

Total GCS (1+2+3)

(a) obtenha e apresente em uma tabela, as probabilidades estimadas

para todas as combinacoes de x1 e x2. O que e possıvel concluir?

4. Um estudo caso-controle envolvendo 78 pessoas, em que para cada um

dos 39 casos tem-se 1 controle associado, foi realizado para pesquisar

3.5. Exercıcios 131

se o fumo (SMK) estaria associado ao infarto do miocardio (MI).

Quatro variaveis foram consideradas no pareamento: idade, raca, sexo

e status do hospital. Duas outras covariaveis coletadas (nao consi-

deradas no pareamento) foram: pressao sistolica (SBP) e status do

eletrocardiograma (ECG). Os dados encontram-se no Apendice.

(a) ajuste um modelo de regressao logıstica condicional aos dados

desse estudo e retire conclusoes.

5. Os dados na Tabela 3.44 sao de um estudo sobre doenca respiratoria

cronica (Semenya e Koch, 1980).

Tabela 3.44: Estudo sobre doenca respiratoria cronica.

Poluicao Poluicao Status Nıvel da doenca

do ar no trabalho Fumo I II III IV Total

baixa nao nao 158 9 5 0 172

baixa nao ex 167 19 5 3 194

baixa nao sim 307 102 83 68 560

baixa sim nao 26 5 5 1 37

baixa sim ex 38 12 4 4 58

baixa sim sim 94 48 46 60 248

alta nao nao 94 7 5 1 107

alta nao ex 67 8 4 3 82

alta nao sim 184 65 33 36 318

alta sim nao 32 3 6 1 42

alta sim ex 39 11 4 2 56

alta sim sim 77 48 39 51 215

Os nıveis associados a variavel resposta significam: I = sem sintomas,

II = tosse por menos de 3 meses ao ano, III = tosse por mais de 3

meses ao ano e IV = tosse e outros sintomas por mais de 3 meses ao

ano.


(a) ajuste um modelo de regressao logıstica aos dados desse estudo e

retire conclusoes.

APENDICE

A.1 Dados do Exemplo - Secao 3.4.1 (skin.txt)

A.2 Dados do Exemplo - Secao 3.4.3 (match.txt)

A.3 Dados do Exercıcio 4 - Capıtulo 3 (infart.txt)

A.4 Codigos em R utilizados nas analises (comandosR.txt)

Obs: arquivos disponıveis em www.est.ufpr.br/∼suely

134 Apendice

A.1 Dados do estudo prospectivo - Secao 3.4.1 (skin.txt).

V1 V2 V3 V4 V5 V6 V1 V2 V3 V4 V5 V6

1 1 0 27 0 1 1 0 0 32 0 2

2 1 0 41 1 3 2 0 0 47 0 1

3 1 1 19 1 4 3 0 1 31 0 4

4 1 1 55 1 1 4 0 1 24 1 3

5 1 0 51 1 4 5 0 0 44 0 2

6 1 1 23 0 1 6 0 0 44 1 3

7 1 1 31 1 2 7 0 0 39 0 2

8 1 1 22 0 1 8 0 1 54 1 4

9 1 1 37 1 3 9 0 1 63 0 2

10 1 1 33 0 3 10 0 0 43 0 3

11 1 0 32 1 1 11 0 1 33 0 3

12 1 1 47 1 4 12 0 1 24 0 4

13 1 1 55 1 3 13 0 0 38 1 1

14 1 0 33 0 1 14 0 0 28 1 2

15 1 0 48 1 1 15 0 0 42 0 1

16 1 1 55 1 3 16 0 1 52 0 1

17 1 1 30 0 4 17 0 1 48 1 4

18 1 0 31 1 2 18 0 1 27 1 3

19 1 1 66 1 3 19 0 0 54 0 1

20 1 0 45 0 2 20 0 0 66 1 2

21 1 1 19 1 4 21 0 0 20 1 4

22 1 1 34 1 4 22 0 0 31 0 1

23 1 0 46 0 1 23 0 1 30 1 2

24 1 1 48 1 3 24 0 0 62 0 4

25 1 1 50 1 4 25 0 1 45 1 4

26 1 1 57 1 3 26 0 0 43 0 3

27 1 0 13 0 2 27 0 1 22 1 3

28 1 1 31 1 1 28 0 0 21 0 1

29 1 1 35 1 3 29 0 1 35 1 3

30 1 0 36 1 3 30 0 0 37 0 3

31 1 0 45 0 1 31 0 0 41 1 1

32 1 1 13 1 2 32 0 1 42 0 1

33 1 1 14 0 4 33 0 0 22 1 2

34 1 0 15 1 2 34 0 1 24 0 1

35 1 0 19 1 3 35 0 0 31 0 1

36 1 1 20 0 2 36 0 1 32 1 3

37 1 1 23 1 3 37 0 0 35 0 1

38 1 0 23 0 1 38 0 1 21 1 1

39 1 1 24 1 4 39 0 1 30 1 3

40 1 1 57 1 3 40 0 0 43 1 3

Apendice 135

A.1 Continuacao.

V1 V2 V3 V4 V5 V6 V1 V2 V3 V4 V5 V6

41 1 0 13 1 2 41 0 1 22 0 3

42 1 1 31 1 1 42 0 0 21 1 3

43 1 0 19 1 3 43 0 1 35 1 3

44 1 1 31 1 3 44 0 0 37 0 2

45 1 0 44 0 1 45 0 0 41 1 1

46 1 1 41 1 2 46 0 1 41 0 1

47 1 1 41 1 2 47 0 0 21 0 4

48 1 0 51 1 2 48 0 1 22 1 1

49 1 0 62 1 3 49 0 0 32 0 3

50 1 1 21 0 1 50 0 1 34 0 1

51 1 1 55 1 3 51 0 0 35 1 2

52 1 0 61 0 1 52 0 1 19 0 1

53 1 1 43 1 2 53 0 1 31 0 2

54 1 0 44 1 1 54 0 0 41 1 1

55 1 1 67 1 2 55 0 1 41 0 1

56 1 1 41 0 2 56 0 1 21 1 4

57 1 0 51 1 3 57 0 1 51 0 2

58 1 1 62 1 3 58 0 1 54 1 3

59 1 1 22 0 1 59 0 0 22 0 1

60 1 1 42 1 2 60 0 0 29 1 2

61 1 0 51 1 1 61 0 0 31 0 1

62 1 1 27 0 2 62 0 1 32 1 2

63 1 1 31 1 1 63 0 0 21 0 1

64 1 1 35 0 3 64 0 1 33 1 3

65 1 1 67 1 2 65 0 1 19 0 1

66 1 1 41 0 2 66 0 1 62 1 4

67 1 0 31 1 2 67 0 1 45 1 3

68 1 1 34 1 1 68 0 0 54 0 1

69 1 0 21 0 1 69 0 1 34 1 4

70 1 1 64 1 3 70 0 1 51 0 1

71 1 0 61 1 3 71 0 1 34 1 3

72 1 1 33 0 1 72 0 0 43 0 1

73 1 0 36 0 2 73 0 1 37 0 3

74 1 1 21 1 1 74 0 1 55 0 1

75 1 0 47 0 2 75 0 0 42 1 3

76 1 0 51 1 4 76 0 1 44 0 2

77 1 0 23 1 1 77 0 1 41 1 3

78 1 1 31 0 2 78 0 0 23 1 4

79 1 1 22 0 1 79 0 1 19 1 4

V1=clinica, V2=trat, V3=sexo, v4=idade, V5=melhora e V6= grauini

136 Apendice

A.2 Dados do estudo retrospectivo apresentado na Secao 3.4.3 (match.txt).

par cc id est hvb hip nes par cc id est hvb hip nes

1 1 74 1 0 0 1 20 1 66 1 0 1 1

1 0 75 0 0 0 0 20 0 66 1 0 0 1

2 1 67 1 0 0 1 21 1 77 1 0 0 1

2 0 67 0 0 1 1 21 0 77 1 1 1 1

3 1 76 1 0 1 1 22 1 66 1 0 1 1

3 0 76 1 0 1 1 22 0 67 0 0 1 1

4 1 71 1 0 0 0 23 1 71 1 0 1 0

4 0 70 1 1 0 1 23 0 72 0 0 0 0

5 1 69 1 1 0 1 24 1 80 1 0 0 1

5 0 69 1 0 1 1 24 0 79 0 0 0 0

6 1 70 1 0 1 1 25 1 64 1 0 0 1

6 0 71 0 0 0 0 25 0 64 1 0 0 1

7 1 65 1 1 0 1 26 1 63 1 0 0 1

7 0 65 0 0 0 0 26 0 63 1 0 1 1

8 1 68 1 1 1 1 27 1 72 0 1 0 1

8 0 68 0 0 1 1 27 0 72 0 0 1 0

9 1 61 0 0 0 1 28 1 57 1 0 0 0

9 0 61 0 0 0 1 28 0 57 1 0 1 1

10 1 64 1 0 0 1 29 1 74 0 1 0 1

10 0 65 0 0 0 0 29 0 74 0 0 0 1

11 1 68 1 1 0 1 30 1 62 1 0 1 1

11 0 69 1 1 0 0 30 0 62 1 0 0 1

12 1 74 1 0 0 1 31 1 73 1 0 1 1

12 0 74 1 0 0 0 31 0 72 1 0 0 1

13 1 67 1 1 0 1 32 1 71 1 0 1 1

13 0 68 1 0 1 1 32 0 71 1 0 1 1

14 1 62 1 1 0 1 33 1 64 0 0 1 1

14 0 62 0 1 0 0 33 0 65 1 0 0 1

15 1 71 1 1 0 1 34 1 63 1 0 0 1

15 0 71 1 0 1 1 34 0 64 0 0 0 1

16 1 83 1 0 1 1 35 1 79 1 1 1 1

16 0 82 0 0 0 0 35 0 78 1 1 1 1

17 1 70 0 0 0 1 36 1 80 1 0 0 1

17 0 70 0 0 1 1 36 0 81 0 0 1 1

18 1 74 1 0 0 1 37 1 82 1 0 1 1

18 0 75 0 0 0 0 37 0 82 0 0 0 1

19 1 70 1 0 0 1 38 1 71 1 0 1 1

19 0 70 0 0 0 0 38 0 71 0 0 1 1

Apendice 137

A.2 Continuacao.

par cc id est hvb hip nes par cc id est hvb hip nes

39 1 83 1 0 1 1 52 1 72 1 0 1 1

39 0 83 0 0 0 1 52 0 72 1 0 1 1

40 1 61 1 0 1 1 53 1 65 1 0 1 1

40 0 60 0 0 0 1 53 0 67 0 0 0 0

41 1 71 1 0 0 1 54 1 67 1 0 1 1

41 0 71 0 0 0 0 54 0 66 1 0 0 1

42 1 69 1 0 1 1 55 1 64 1 1 0 1

42 0 69 0 1 0 1 55 0 63 0 0 0 1

43 1 77 1 0 0 1 56 1 62 1 0 0 0

43 0 76 1 0 1 1 56 0 63 0 0 0 0

44 1 64 1 0 0 0 57 1 83 0 1 1 1

44 0 64 1 0 0 0 57 0 83 0 1 0 0

45 1 79 0 1 0 0 58 1 81 1 0 0 1

45 0 82 1 0 0 1 58 0 79 0 0 0 0

46 1 72 1 0 0 1 59 1 67 1 0 0 1

46 0 72 1 0 0 1 59 0 66 1 0 1 1

47 1 82 1 1 1 1 60 1 73 1 1 1 1

47 0 81 0 0 0 0 60 0 72 1 0 0 1

48 1 73 1 0 1 1 61 1 67 1 1 0 1

48 0 74 1 0 0 1 61 0 67 1 1 0 1

49 1 69 1 0 0 1 62 1 74 1 0 1 1

49 0 68 0 0 0 1 62 0 75 0 0 0 1

50 1 79 1 0 1 1 63 1 68 1 1 0 1

50 0 79 0 0 0 1 63 0 69 1 0 0 1

51 1 72 1 0 0 0

51 0 71 1 0 1 1

cc = 1 se caso e 0 se controle, id = idade (anos), est = estrogenio (1 se usou e 0 se nao),

hvb = historico vesıcula biliar (1 se sim e 0 se nao), hip = hipertensao (1 se sim e 0 se nao),

nes = nao estrogenio (1 se nao usa e 0 se usa).

138 Apendice

A.3 Estudo caso-controle do exercıcio 4 - Capıtulo 3 (infart.txt).

par MI SMK SBP ECG par MI SMK SBP ECG

1 1 0 160 1 20 0 0 140 1

1 0 0 140 0 21 1 1 160 0

2 1 0 160 1 21 0 0 140 0

2 0 0 140 0 22 1 1 120 0

3 1 0 160 0 22 0 0 120 0

3 0 0 140 0 23 1 1 140 0

4 1 0 160 0 23 0 0 140 0

4 0 0 140 0 24 1 1 120 0

5 1 0 160 0 24 0 0 140 0

5 0 0 140 0 25 1 1 120 0

6 1 0 160 0 25 0 0 160 0

6 0 0 140 0 26 1 0 120 0

7 1 0 160 0 26 0 1 140 0

7 0 0 140 0 27 1 0 120 0

8 1 0 160 0 27 0 1 120 0

8 0 0 140 0 28 1 0 160 1

9 1 0 160 0 28 0 0 140 0

9 0 0 140 0 29 1 0 160 0

10 1 0 160 0 29 0 0 140 0

10 0 0 140 0 30 1 0 120 0

11 1 0 120 1 30 0 0 140 0

11 0 0 120 0 31 1 0 140 0

12 1 0 120 0 31 0 0 140 0

12 0 0 120 0 32 1 1 160 1

13 1 0 120 0 32 0 1 140 0

13 0 0 120 0 33 1 1 160 1

14 1 0 140 0 33 0 1 140 1

14 0 0 140 0 34 1 1 120 1

15 1 0 120 1 34 0 1 120 1

15 0 0 140 1 35 1 1 160 0

16 1 0 120 1 35 0 0 140 0

16 0 0 140 1 36 1 0 160 1

17 1 1 160 1 36 0 1 140 1

17 0 0 140 0 37 1 0 120 0

18 1 1 160 1 37 0 1 140 0

18 0 0 140 0 38 1 1 160 1

19 1 1 160 0 38 0 1 140 0

19 0 0 140 1 39 1 1 120 0

20 1 1 160 1 39 0 1 120 0

Fonte: Kleinbaum (1994)

Apendice 139

A.4 Codigos em R utilizados nas analises

1. Explorando a Distribuicao Qui-quadrado

> help(dchisq)

> x<-1:40

> plot(x,x*0,pch="",ylim=range(c(0,0.15)),xlim=range(c(0,40)),

xlab="x",ylab="f(x)",bty="n")

> lines(dchisq(x,1),lty=1,c=1)





> pchisq(3.84,1)

> 1-pchisq(3.84,1)

> qchisq(0.95,1)

> gera<-sort(rchisq(5000,5))

> plot(dchisq(gera,5))

2. Estatısticas Q e Qp e valores p associados

> dados<-matrix(c(40,16,20,48),nc=2)

> dados

> Qp<-chisq.test(dados,correct=F)

> Qp

> n<-sum(dados)

> Q<-((n-1)/n)*Qp$statistic

> Q

> p<-1-pchisq(Q,1)

> p

3. Teste Exato de Fisher

> dados<-matrix(c(6,3,2,5), nc=2)

> fisher.test(dados)

4. Diferenca de Proporcoes = d e IC95%(d)

> dados<-matrix(c(40,16,20,48),nc=2)

> dados

> p11<-(dados[1,1]/(sum(dados[1,])))

140 Apendice

> p21<-(dados[2,1]/(sum(dados[2,])))

> d<-p11-p21

> d

> vd<- ((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1))

> dvd<-sqrt(vd)

> z<-qnorm(0.975)

> corr<-0.5*((1/(sum(dados[1,]))) + (1/(sum(dados[2,]))))

> li<- d - ((z*dvd) + corr)

> li

> ls<- d + ((z*dvd) + corr)

> ls

5. Odds Ratio = OR e IC95%(OR)

> dados<-matrix(c(16,40,48,20),nc=2)

> dados

> OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1])

> OR

> vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2]))

> vf

> dpf<-sqrt(vf)

> dpf

> z<-qnorm(0.975)

> li<-exp(log(OR)-z*dpf)

> li

> ls<-exp(log(OR)+z*dpf)

> ls

6. Risco Relativo = RR e IC95%(RR)

> dados<-matrix(c(40,16,20,48),nc=2)

> dados

> p11<-(dados[1,1]/(sum(dados[1,])))

> p21<-(dados[2,1]/(sum(dados[2,])))

> RR<-p11/p21

> RR

> vf1<-((1-p11)/(sum(dados[1,])*p11)) + ((1-p21)/(sum(dados[2,])*p21))

> dpf1<-sqrt(vf1)

> z<-qnorm(0.975)

> li<-exp(log(RR)-z*dpf1)

Apendice 141

> li

> ls<-exp(log(RR)+z*dpf1)

> ls

7. Teste de Mcnemar

> dados<-matrix(c(20,10,5,10),nc=2)

> dados

> mcnemar.test(dados,correct=F)

8. Estatıstica Escore Medio = QS e p-valor (tabela 2 x 3)

> dados<-matrix(c(13,29,7,7,21,7),nc=3)

> dados

> escore<-c(1,2,3)

> fb1<-(sum(dados[1,]*escore))/sum(dados[1,])


> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3])))/sum(dados)

> mua<-sum(escore*esp)

> va<-sum((escore-mua)^2*esp)

> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,])*(sum(dados)-1)))*va

> QS = ((fb1-mua)^2)/vbf1

> QS

> gl<-nrow(dados)-1

> p<-1-pchisq(QS,gl)

> p

9. Estatıstica QCS e p-valor

> x<-c(rep(1,84),rep(2,198),rep(3,205))

> y<-c(rep(0,59),rep(1,25),rep(0,169),rep(1,29),rep(0,196),rep(1,9))

> rac<-cor(y,x)

> n<-length(x)

> QCS<-(n-1)*rac^2

> QCS

> p<-1-pchisq(QCS,1)

10. Mantel Haenszel = QMH em tabelas 2 x 2, ORMH e IC(ORMH)

> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))

> mantelhaen.test(tab, correct=F)

142 Apendice

11. Estatıstica QSMH e valor p em tabelas 2x3

> dados<-matrix(c(6,19,7,10,5,7,2,0,16,6,5,1),nc=3)

> dados

> escore<-c(0,1,2)



> c(fb11,fb21)

> fm1<-sum(c(sum(dados[1,]),sum(dados[3,]))*c(fb11,fb21))

> esp1<-(c(sum(dados[1:2,1]),sum(dados[1:2,2]),sum(dados[1:2,3])))/sum(dados[1:2,])

> mu1<-sum(escore*esp1)

> esp2<-(c(sum(dados[3:4,1]),sum(dados[3:4,2]),sum(dados[3:4,3])))/sum(dados[3:4,])

> mu2<-sum(escore*esp2)

> mu<-sum(c(sum(dados[1,]),sum(dados[3,]))*c(mu1,mu2))

> v1<- sum(((escore-mu1)^2)*esp1)

> v2<- sum(((escore-mu2)^2)*esp2)

> vfma<-(sum(dados[1,])*sum(dados[2,])*v1)/(sum(dados[1:2,])-1)

> vfmb<-(sum(dados[3,])*sum(dados[4,])*v2)/(sum(dados[3:4,])-1)

> vfm<- sum(c(vfma,vfmb))

> QSMH<-((fm1-mu)^2)/vfm

> p<-1-pchisq(QSMH,1)

> round(c(QSMH,p),digits=5)

12. Estatıstica Kappa

Obs: baixar e instalar: vcd_0.1-3.2.zip (http://www.r-project.org)

> require(vcd)

> x<-c(38,5,0,1,33,11,3,0,10,14,5,6,3,7,3,10)

> x<-matrix(x,4,4)

> Kappa(x)

> Kappa(x, conf.level = 0.90)

13. Regressao Logıstica Dicotomica

13.1 Exemplo - Capıtulo 3

> resim<-c(1,2,3,5,6,5,13,8)

> resnao<-c(9,13,9,10,7,3,4,2)

> idade<-c(25,32,38,43,47,53,57,65)

> dados<-cbind(resim, resnao,idade)

Apendice 143

> dados

> dados<-as.data.frame(dados)

> attach(dados)

> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,family=binomial, data=dados)

> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,family=binomial(link="logit"),data=dados)

> ajust

> anova(ajust)

> anova(ajust,test="Chisq")

> summary(ajust)

> ajust$fitted.values

> ajust$y

> ajust$residuals

> dev<-residuals(ajust,type=’deviance’)

> dev

> QL<-sum(dev^2)

> QL

> p1<-1-pchisq(QL,6)

> p1

> rpears<-residuals(ajust,type=’pearson’)

> rpears

> QP<-sum(rpears^2)

> QP

> p2<-1-pchisq(QP,6)

> p2

> theta<-resim/(resim+resnao)

> plot(idade,theta,ylim=range(0,0.9),xlab="idade",ylab="E(Y|x)",pch=16)

> idade<-20:70

> modajust<-(exp(-5.123+0.1058*idade))/(1+ exp(-5.123+0.1058*idade))

> modajust

> lines(idade,modajust)

13.2 Exemplo 1 - Capıtulo 3

> resim<-c(4,8,9,21)

> resnao<-c(11,10,9,6)

> sexo<-c(0,0,1,1)

> ecg<-c(0,1,0,1)

> dados<-cbind(resim, resnao,sexo,ecg)

> dados


> attach(dados)

144 Apendice

> ajust<-glm(as.matrix(dados[,c(1,2)])~sexo+ecg,

family=binomial(link="logit"),data=dados)

> ajust

> summary(ajust)

> anova(ajust,test="Chisq")

> names(ajust)


> ajust$y

> ajust$residuals


> dev

> QL<-sum(dev^2)

> QL


> p1


> rpears

> QP<-sum(rpears^2)

> QP


> p2

> ajust1<- glm(as.matrix(dados[,c(1,2)])~sexo+ecg+sexo*ecg,


> ajust1

> anova(ajust1, test = "Chisq")


> resim<-c(78,101,68,40,54,34)

> resnao<-c(28,11,46,5,5,6)

> diag<-c(1,1,1,0,0,0)

> tratA<-c(1,0,0,1,0,0)

> tratB<-c(0,1,0,0,1,0)

> int1<-diag*tratA

> int2<-diag*tratB

> dados<-cbind(resim, resnao,diag,tratA,tratB,int1,int2)

> dados


> attach(dados)

> ajust1<-glm(as.matrix(dados[,c(1,2)])~diag+tratA+tratB+int1+int2,


Apendice 145

> ajust1

> summary(ajust1)

> anova(ajust1)

> ajust<-glm(as.matrix(dados[,c(1,2)])~diag+tratA+tratB,


> ajust


> ajust$y


> dev

> QL<-sum(dev^2)

> QL


> p1


> rpears

> QP<-sum(rpears^2)

> QP


> p2

> logito<-log(ajust$fitted.values/(1-ajust$fitted.values))

> logito

> odds<-ajust$fitted.values/(1-ajust$fitted.values)

> odds


> dc<-c(0,0,0,1,0,1,0,0,0,0,0,0,1,0,1,1,0,0,0,0,1,1,0,0,0,0,1,1,0,0,1,1,0,0,1,1,1,0,1,

1,0,1,0,0,0,1,1,0,1,1,0,1,1,0,0,1,1,0,0,0,1,1,1,1,1,1,1,1,1,0,1,1,1,1,0,1,1,1)

> sexo<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,

1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1)

> ecg<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,

1,1,1,1,1,1,1,1,1,1,2,2,2,2,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2)

> idade<-c(28,34,38,41,44,45,46,47,50,51,51,53,55,59,60,32,33,35,39,40,42,44,45,46,48,50,

52,52,54,55,59,59,32,37,38,38,42,43,43,44,46,48,49,49,52,53,54,55,57,46,48,57,

60,30,34,36,38,39,42,45,45,45,46,48,57,57,59,60,63,35,37,43,47,48,49,58,59,60)

> ajust1<-glm(dc~sexo+ecg+idade+sexo*ecg+sexo*idade+ecg*idade+sexo*ecg*idade,

family=binomial(link="logit"))

> ajust1

> summary(ajust1)

> anova(ajust1,test="Chisq")

146 Apendice

> ajust2<-glm(dc~sexo+ecg+idade,family=binomial(link="logit"))

> ajust2

> summary(ajust2)

> anova(ajust2, test="Chisq")

> cbind(dc,sexo,ecg,idade,ajust2$fitted.values)

> dev<-residuals(ajust2,type=’deviance’)

> dev

> plot(dev)

> rpears<-residuals(ajust2,type=’pearson’)

> rpears

> plot(rpears)

# Obs: usar codigo gof_bino para obtenc~ao da estatıstica QHL

# Q-QPlot com envelope simulado

> fit.model<-ajust2

> par(mfrow=c(1,1))

> X <- model.matrix(fit.model)

> n <- nrow(X)

> p <- ncol(X)

> w <- fit.model$weights

> W <- diag(w)

> H <- solve(t(X)%*%W%*%X)

> H <- sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)

> h <- diag(H)

> td <- resid(fit.model,type="deviance")/sqrt(1-h)

> e <- matrix(0,n,100)

> for(i in 1:100){

> dif <- runif(n) - fitted(fit.model)

> dif[dif >= 0 ] <- 0

> dif[dif<0] <- 1

> nresp <- dif

> fit <- glm(nresp ~ X, family=binomial)

> w <- fit$weights

> W <- diag(w)

> H <- solve(t(X)%*%W%*%X)

> H <- sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)

> h <- diag(H)

> e[,i] <- sort(resid(fit,type="deviance")/sqrt(1-h))}

> e1 <- numeric(n)

Apendice 147

> e2 <- numeric(n)

> for(i in 1:n){

> eo <- sort(e[i,])

> e1[i] <- eo[5]

> e2[i] <- eo[95]}

> med <- apply(e,1,mean)

> faixa <- range(td,e1,e2)

> par(pty="s")

> qqnorm(td,xlab="Percentis", ylab="Deviance", ylim=faixa, pch=20)

> par(new=T)

> qqnorm(e1,axes=F,xlab="",ylab="",type="l",ylim=faixa,lty=1)

> par(new=T)

> qqnorm(e2,axes=F,xlab="",ylab="", type="l",ylim=faixa,lty=1)

> par(new=T)

> qnorm(med,axes=F,xlab="", ylab="", type="l",ylim=faixa,lty=2)

14. Regressao Logıstica Politomica

14.1 Exemplo: modelo de odds proporcionais

> require(MASS)

> melhora<-rep(c("ac","alg","nenh"),4)

> sexo<-c(1,1,1,1,1,1,0,0,0,0,0,0)

> trat<-c(1,1,1,0,0,0,1,1,1,0,0,0)

> Freq<-c(16,5,6,6,7,19,5,2,7,1,0,10)

> artrite<-cbind(melhora,sexo,trat)

> artrite<-as.data.frame(artrite)

> attach(artrite)

> options(contrasts = c("contr.treatment", "contr.poly"))

> ajust1 <- polr(melhora ~ sexo + trat + sexo*trat, weights = Freq, data=artrite)

> ajust1

> summary(ajust1)

> ajust2 <- polr(melhora ~ sexo + trat, weights= Freq, data = artrite)

> ajust2

> summary(ajust2)

> ajust2$fitted.values

*******************************************************************************

* Obs: inverter sinais dos parametros dos efeitos e manter os dos interceptos *

*******************************************************************************

148 Apendice

14.2 Exemplo: modelo de logitos generalizados (obs: executar no software SAS)

data school;

input escola periodo $ pref $ count @@;

datalines;

1 pad ind 10 1 pad gr 17 1 pad aula 26

1 int ind 5 1 int gr 12 1 int aula 50





;

run;

proc catmod order=data;

weight count;

model pref = escola periodo escola*periodo;

run;


weight count;

model pref = escola periodo;

run;


weight count;

model pref = escola;

run;


weight count;

model pref = ; run;

15. Regressao Logıstica Condicional

15.1 Exemplo: estudo retrospectivo

> skin<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/skin.txt",h=T)

> attach(skin)

> require(survival)

> model1<-clogit(melhora~trat+sexo+idade+grauini+strata(clinica))

> model1

> summary(model1)

> plot(model1$residuals, pch=16)

> model2<-clogit(melhora~trat+grauini+strata(clinica))

Apendice 149

> model2

> summary(model2)

> plot(model2$residuals, pch=16,ylab="residuos",xlab="i")

15.2 Exemplo: estudo crossover

> cross<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/cross.txt",h=T)

> attach(cross)

# preparando os dados para analise

> n<-sum(freq)

> m<-dim(cross)[2]

> k<-dim(cross)[1]

> cross1<-matrix(0,n,m)

> cross2<-as.data.frame(cross1)

> count<-c(0,freq)

> for(j in 1:k){

> for(i in (sum(count[1:j])+1):(sum(count[1:(j+1)]))){

> cross2[i,] <- cross[j,]}}

> names(cross2)<-names(cross)

> obs<-1:300

> cross2$obs<-obs

> cross3<-as.data.frame(rbind(cross2,cross2))

> i<-order(cross3$obs)

> cross4<-cross3[i,]

# idade: 1 se adulto e 0 se jovem, F = 1 e U = 2

# sequencias: AB = 1, AP = 2, BA= 3, BP = 4, PA = 5 e PB = 6

# criando variaveis dummies

> periodo<-rep(c(1,0),300) #1 se periodo1 e 0 se periodo2

> cross4$periodo<-periodo

> drogaA<-c(rep(c(1,0),50),rep(c(0,0),50),rep(c(0,1),50),

rep(c(0,1),50),rep(c(1,0),50),rep(c(0,0),50))

> cross4$drogaA<-drogaA

> drogaB<-c(rep(c(0,1),50),rep(c(1,0),50),rep(c(0,0),50),

rep(c(1,0),50),rep(c(0,0),50),rep(c(0,1),50))

> cross4$drogaB<-drogaB

> resA<-c(rep(c(0,1),50),rep(c(0,0),50),rep(c(0,0),50),

rep(c(0,0),50),rep(c(0,1),50),rep(c(0,0),50))

> cross4$resA<-resA

150 Apendice

> resB<-c(rep(c(0,0),50),rep(c(0,1),50),rep(c(0,0),50),

rep(c(0,1),50),rep(c(0,0),50),rep(c(0,0),50))

> cross4$resB<-resB

> attach(cross4)

> resp<-rep(0,600)

> for(i in 1:600){

> ifelse(p1[i]==1 & p2[i]==1, resp[i]<-1,resp[i])

> ifelse(p1[i]==1 & p2[i]==2 & periodo[i]==1, resp[i]<-1,resp[i])




> ifelse(p1[i]==2 & p2[i]==2, resp[i]<-0, resp[i])}

> cross4$resp<-resp

> gpidade<-periodo*idade;

> cross4$gpidade<-gpidade

# usando arquivo cross4 para ajustar modelos

> attach(cross4)

> require(survival)

> model1<-clogit(resp~periodo+drogaA+drogaB+gpidade+resA+resB+strata(obs),data=cross4)

> model1

> summary(model1)


> model2<-clogit(resp~periodo+drogaA+drogaB+gpidade+strata(obs),data=cross4)

> model2

> summary(model2)


> model3<-clogit(resp~periodo+drogaA+drogaB+gpidade+strata(obs),data=cross4)

> model3

> summary(model3)

# testando Ho: tau1 = tau2

> model3$var

> vardif<-model3$var[2,2]+model3$var[3,3]-2*(model3$var[2,3])

> teste<-((1.408-0.296)/sqrt(vardif))^2

> teste

> 1-pchisq(teste,1)

15.3 Exemplo: estudo caso-controle

> match<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/match.txt",h=T)

Apendice 151

> attach(match)

> require(survival)

> model1<-clogit(cc~hvb+est+hip+id+nest+strata(par),data=match)

> model1

> model2<-clogit(cc~hvb+est+strata(par),data=match)

> model2

> summary(model2)


Bibliografia

AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons,

1990.

AGRESTI, A. An Introduction to Categorical data Analysis. New York:

John Wiley & Sons, 1996.

BAUMAN, K.E., KOCH, G.G., LENTZ, M. Parent characteristics, perceived

health risk, and smokeless tobacco use among white adolescent males, NI

Monographs 8, p.43-48, 1989.

CHRISTENSEN, R. Log-Linear Models and Logistic Regression. New

York: Springer-Verlag, 1997.

DEMETRIO, C.G.B. Modelos Lineares Generalizados em Experimentacao Agro-

nomica. Piracicaba: Minicurso 46a Rbras e 9o SEAGRO, 2001.

FREEMAN, D. Applied Categorical Data Analysis. New York: Marcel

Dekker, 1987.

KLEINBAUM, Logistic Regression: a self-learning text. New York: Springer

Verlag, 1994.

HOSMER JR, D.W., LEMESHOW, S. Applied Logistic Regression. New

York: John Wiley & Sons, 1989.

McCULLACH, P., NELDER, J.A. Generalized Linear Models. London:

Chapman and Hall, 1989.

153

154 Bibliografia

MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the

Mantel-Haenszel procedure, Journal of the American Statistical As-

sociation, v.58, p.690-700, 1963.

MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from

retrospective studies of disease, Journal of the National Cancer Insti-

tute, v.22, p.719-748, 1959.

MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-

Haenszel one-degree of freedom chi-square test and a related rapid proce-

dure, American Journal of Epidemiology, v.112, p.129-143, 1980.

PAULA, G. A. Modelos de Regressao com apoio computacional (versao

2004). Disponıvel em www.ime.usp.br/∼giapaula/mlgs.html. Acesso em

16.03.04

PAULINO, C.D.M., SINGER, J.M. Analise de Dados Categorizados. Sao

Paulo: versao preliminar 1999 (nao-publicada).

PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9,

p.705-724, 1981.

SEMENYA, K.A., KOCH, G.G. Linear models analysis for rank functions ordinal

categorical data. Proceedings of the Statistical Computing Section

of the American Statistical Association, p.271-276, 1980.

SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Ma-

nual de Ecologia dos Insetos. Sao Paulo: Agronomica Ceres, 1976,

419p.

STOKES, M. E., DAVIS, C. S., KOCH, G. G. Categorical Data Analysis

using the SAS System. SAS Institute Inc., Cary, NC. USA, 2000.

Indice Remissivo

analise de deviance, 80

ANODEV, 80

confundimento, 51

contagens discretas, 4

deviance, 79

diferenca de proporcoes, 28

distribuicao logıstica, 73

escalas de mensuracao, 2

escores

inteiros, 40

padronizados, 41

especificidade, 35

esquemas amostrais, 5

estatıstica

de Hosmer e Lemeshow, 98

de Pearson, 27

Kappa, 59

Kappa ponderada, 61

estimacao de parametros, 76

estudos

caso-controle, 14

clınico aleatorizado, 16

cross-sectional, 18

crossover, 122

de coorte, 11

descritivos, 11

transversais, 18

hipotese de

homogeneidade, 26

independencia, 26

multiplicatividade, 26

incidencia, 20

logitos

cumulativos, 104

generalizados, 110

modelo

complemento log-log, 102

de logitos generalizados, 110

de odds proporcionais, 103

hipergeometrico, 9

multinomial, 7

probito, 102

produto de binomiais, 6

produto de multinomiais, 6

produto de Poisson, 7

odds ratio, 29

pareamento, 126

prevalencia, 20

QQplot com envelope simulado, 100

155

razao de chances, 29

regressao logıstica

condicional, 117

dicotomica, 71

politomica, 103

resıduos

de Pearson, 84

deviance, 84

risco relativo, 30

sensibilidade, 35

teste

da razao de verossimilhancas, 79

de Mantel-Haenszel, 53

de McNemar, 37

exato, 45

variaveis

dicotomicas, 2

nominais, 4

ordinais, 3

Documents

INTRODUC˘AO~ A ANALISE DE DADOS CATEGORICOS Suely Ruiz …niveam/micro da sala/bom/Dados_Categoricos.… · INTRODUC˘AO~ A ANALISE DE DADOS CATEGORICOS Suely Ruiz Giolo Departamento