Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
1
MODELOS DE REGRESSÃO PARA DADOS BINÁRIOS
2
Introdução
• Interesse em modelar algum fenômeno com dois desfechos possíveis (“sucesso ou fracasso”) em
função de uma ou mais covariáveis.
• Associa-se ao desfecho do fenômeno uma variável aleatória binária, assumindo valor zero ou um,
conforme o desfecho observado.
• A distribuição binomial (e, como caso particular, a distribuição de Bernoulli) surge como principal
alternativa para a modelagem de dados binários.
• Grande quantidade e variedade de potenciais aplicações.
3
Exemplos de motivação
• Desfecho clínico de pacientes (sobrevivência ou óbito) em função de variáveis clínicas, genéticas e
comportamentais;
• Pagamento ou não de empréstimos, por parte de clientes de uma instituição financeira, em função
de variáveis sócio-econômicas e variáveis inerentes à modalidade de empréstimo;
• Prognóstico de partidas de basquete (digamos, vitória ou derrota do time mandante) em função
de variáveis referentes ao desempenho das equipes, ao histórico de confrontos, às circunstâncias
da partida...;
• Presença ou não de certa espécie vegetal em pequenas áreas de uma extensa floresta em função de
variáveis ambientais e climáticas.
4
Distribuição de Bernoulli
• Uma variável aleatória Y tem distribuição de Bernoulli se sua função de probabilidades for dada
por:
( ) ( ) 10;1,0,1 1 <<=−== − πππ yyYP yy .
• De forma equivalente, pode-se expressá-la por:
( )0
1
,1
,
==
−==
y
yyYP
ππ
.
• Seja ( )πBernoulliY ~ . Então:
( ) πµ == YE ; ( ) ( )ππ −= 1YVar .
• A distribuição de Bernoulli pertence à família exponencial de distribuições, tendo função de
variância ( ) ( )µµµ −= 1V e parâmetro de dispersão 1=φ .
5
Distribuição binomial
• A distribuição de Bernoulli é um caso particular da distribuição binomial. Uma variável aleatória
Y tem distribuição binomial com parâmetros n e π se sua função de probabilidades é dada por:
( ) ( ) 10;,...,2,1,0,1 <<=−
== − πππ nyy
nyYP yny .
• Seja ( )π,~ nBinomialY . Então:
( ) πnYE = ; ( ) ( )ππ −= 1nYVar
Nota - A função de probabilidade da distribuição binomial acima particulariza para a distribuição
de Bernoulli quando 1=n .
6
• A distribuição binomial, também pertencente à família exponencial, tem função de variância
( ) ( )µµµ −= 1V e parâmetro de dispersão n1=φ .
Nota – Se ( )π,~ nBinomialX e nXX =∗ , então ( ) π=∗XE e ( ) ( ) nXVar ππ −=∗ 1 .
7
Modelos lineares generalizados para dados binários
• No contexto de modelos lineares generalizados, vamos considerar nYYY ,...,, 21 variáveis aleatórias
independentes, com ( )iii mbinomialY π,~ , ni ,...,2,1= . Repare que se tomarmos 1=im , para todo i ,
temos um conjunto de variáveis de Bernoulli.
• Adicionalmente, sejam ( )ipiii xxx ,...,, 21=x , ni ,...,2,1= , vetores de covariáveis correspondentes a
cada observação na amostra.
• Um modelo linear generalizado ficaria especificado da seguinte forma:
( )iii mbinomialY π,~| ix
( ) ( )ippiiiii xxxg ββββηπ ++++=′== ...22110βx .
8
A escolha da função de ligação para um MLG para dados binários
Questão – como definir uma função de ligação adequada?
• Dentre os requisitos a serem considerados para a escolha de uma função de ligação apropriada,
alguns aspectos podem (ou devem) devem ser considerados:
o Que seja contínua, diferenciavel e monótona;
o Capaz de ‘confinar’ os valores de π entre zero e um;
o Capaz de descrever adequadamente a relação entre as partes aleatória e sistemática do
modelo;
o Que proporcione interpretações simples.
9
• Boa parte dos requisitos relacionados pode ser atendida ao definir:
( ) ( ) βxiii Fg ′== − ππ 1 ,
ou, de forma equivalente,
( ) ( )βxiii FF ′== ηπ ,
sendo ( )⋅F a função de distribuição acumulada de alguma variável aleatória contínua com suporte no
conjunto dos reais.
• Embora qualquer função distribuição acumulada de variável aleatória contínua configure uma
possível função de ligação, na sequência são apresentadas algumas frequentemente utilizadas.
10
1) Função de ligação logito: obtida a partir da distribuição logística:
( ) βxii
iig ′=
−=
πππ
1ln →
1+= ′
′
βx
βx
i
i
e
eiπ ;
Nota – A função de ligação logito é amplamente utilizada, dentre outros motivos, por:
� Propiciar uma interpretação simples dos resultados em função da chance (odds) de resposta,
definida por:
i
iichance
ππ−
=1
,
correspondendo, portanto, à razão da probabilidade de resposta pela probabilidade de não resposta;
� Garantir a concavidade da função de verossimilhança;
� Ser adequada para a análise de dados coletados retrospectivamente.
11
2) Função de ligação probito: obtida a partir da distribuição Normal:
( ) ( ) βxiiig ′== − πφπ 1 → ( )βxii ′= φπ ,
sendo ( ) ( )zZPz ≤=φ a função de distribuição acumulada de ( )1,0~ NormalZ .
� A ligação probito é bastante utilizada em determinadas áreas como, por exemplo, na
Entomologia.
� Na prática, as funções probito e logito têm comportamento bastante semelhantes, sobretudo no
intervalo ( )9,0;1,0 .
12
3) Função de ligação complemento log-log: baseada na distribuição Gumbel (também
chamada distribuição do valor extremo):
( ) ( )( ) βxiiig ′=−−= ππ 1lnln → ( )( )βxii ′−−= expexp1π .
� Dentre as três funções de ligação apresentadas, a função complemento log-log é a única que
não é simétrica em torno de 5,0=iπ . Para as ligações logito e probito, temos:
( ) ( )ππ −−= 1gg .
13
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
x
F(x
)
LogísticaNormalGumbel
Figura 1 – Ilustração das funções de distribuição acumuladas para as distribuições Normal, Logística
e Gumbel (nos três casos foi fixado 0=Xµ e 12 =Xσ ) .
14
• Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser
expressas na forma:
( ) ( )
−−=
−
αππ
α 11ln i
ig ,
em que α é um parâmetro desconhecido. É fácil verificar que quando 1=α temos a ligação logito e
quando 0→α tem-se a ligação complemento log-log.
Exemplo – Mortalidade de embriões. Vamos ao R!
15
Regressão logística
• O modelo de regressão logística aplica-se à análise de dados binários, no contexto em que se
dispõe de nYYY ,...,, 21 variáveis aleatórias independentes, com ( )iii mbinomialY π,~ , ni ,...,2,1=
(novamente, tomando 1=im para todo i , tem-se um conjunto de variáveis binárias, com
distribuição de Bernoulli).
• O que especifica o modelo de regressão logística é a função de ligação logito:
( ) ippiiii
ii xxg βββη
πππ +++=′==
−= ...
1ln 110βx ,
sendo iη o preditor linear, configurando a parte sistemática do modelo.
16
• Podemos escrever o modelo diretamente na escala da probabilidade de resposta:
( )11 ...
...1
110
110
+=
+=′= +++
+++
′
′−
ippi
ippi
i
i
xx
xx
iie
e
e
eg βββ
βββ
πβx
βx
βx ,
• Ou na escala da chance de resposta:
ippiixx
i
ii eeodds
βββ
ππ +++′ ==−
= ...110
1βx .
17
• O desvio para o modelo de regressão logística linear fica dado por:
( ) ( ) ( )( )∑ =
−−−+
= n
ii
ii
i
ii
yy
yyD
1 ˆ1
1log1
ˆlog2ˆ;
πππy ,
sendo ( )ii g ηµ ˆˆ 1−= e βxiˆˆ ′=iη , uma vez que sua log-verossimilhança é dada por:
( )∑=
−+
−=
n
ii
i
iiyl
1
1ln1
ln)ˆ( ππ
πy;π .
18
Interpretação dos parâmetros de um modelo de regressão logística linear
• Suponhamos que o preditor linear contemple apenas uma variável numérica:
ix
i
ii
i
i ex 10
11ln 10
ββ
ππββ
ππ +=
−→+=
−.
• Considere dois indivíduos para os quais 1+= kx e kx = , respectivamente. A razão de chances
para este par de indivíduos fica dada por:
( )( )
( )
2
2
1
11
22
11
111
111
10
10
ππ
ππ
ππππ ββ
ββ
ββ
−=
−→==
−−= +
++ee
e
eratioOdds
k
k
.
• Assim, 1βe corresponde à razão de chances decorrente do acréscimo de uma unidade em 1x . De
forma equivalente, o acréscimo de uma unidade em x multiplica a chance de resposta em 1βe .
19
• Adicionalmente, 1β∆e corresponde à razão de chances decorrente do acréscimo de ∆ unidades em
1x : )(/)( 11 kxchancekxchance =∆+= .
• Suponhamos que o preditor linear contemple apenas uma variável dicotômica, indicadora de
alguma variável categórica:
ix
i
ii
i
i ex 10
11ln 10
ββ
ππββ
ππ +=
−→+=
−,
onde 0=ix , se o ésimoi − indivíduo pertence a uma categoria ‘A’, e 1=ix , se o ésimoi − indivíduo
pertence a uma categoria ‘B’.
• A razão de chances para indivíduos da categoria ‘B’ em relação a indivíduos da categoria ‘A’ fica
dada por:
( )( ) A
A
B
B
AA
BB eee
e
ππ
ππ
ππππ ββ
ββ
ββ
−=
−→==
−−
⋅+
⋅+
111
111
10
10
0
1
.
20
• Assim, 1βe corresponde à razão de chances para indivíduos da categoria ‘B’ em relação a
indivíduos da categoria ‘A’.
• Se tivéssemos ainda uma categoria ‘C’, então definiríamos, por exemplo:
=
contráriocaso
Btipoindivsex
,0
,11 ;
=
contráriocaso
Ctipoindivsex
,0
,12 ,
configurando:
22110
11ln 22110
ii xx
i
iii
i
i exx βββ
ππβββ
ππ ++=
−→++=
−.
21
• Logo, as razões de chance ficariam dadas por:
:AarelaçãoemB ( )( )
1
210
210
00
01
1
1 ββββ
βββ
ππππ
ee
e
AA
BB ==−−
⋅+⋅+
⋅+⋅+
;
:AarelaçãoemC ( )( )
2
210
210
00
10
1
1 ββββ
βββ
ππππ
ee
e
AA
CC ==−−
⋅+⋅+
⋅+⋅+
;
:BarelaçãoemC( )( )
( )12
210
210
01
10
1
1 βββββ
βββ
ππππ −
⋅+⋅+
⋅+⋅+
==−−
ee
e
BB
CC .
• Caso o preditor linear contenha múltiplas variáveis, as interpretações são idênticas, devendo-
se ressaltar, no entanto, que a interpretação da razão de chances calculada para uma particular
variável, é válida considerando fixos os valores das demais variáveis.
Exemplo – Pesquisa de intenção de votos. Vamos ao R!