21
1 MODELOS DE REGRESSÃO PARA DADOS BINÁRIOS

MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

1

MODELOS DE REGRESSÃO PARA DADOS BINÁRIOS

Page 2: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

2

Introdução

• Interesse em modelar algum fenômeno com dois desfechos possíveis (“sucesso ou fracasso”) em

função de uma ou mais covariáveis.

• Associa-se ao desfecho do fenômeno uma variável aleatória binária, assumindo valor zero ou um,

conforme o desfecho observado.

• A distribuição binomial (e, como caso particular, a distribuição de Bernoulli) surge como principal

alternativa para a modelagem de dados binários.

• Grande quantidade e variedade de potenciais aplicações.

Page 3: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

3

Exemplos de motivação

• Desfecho clínico de pacientes (sobrevivência ou óbito) em função de variáveis clínicas, genéticas e

comportamentais;

• Pagamento ou não de empréstimos, por parte de clientes de uma instituição financeira, em função

de variáveis sócio-econômicas e variáveis inerentes à modalidade de empréstimo;

• Prognóstico de partidas de basquete (digamos, vitória ou derrota do time mandante) em função

de variáveis referentes ao desempenho das equipes, ao histórico de confrontos, às circunstâncias

da partida...;

• Presença ou não de certa espécie vegetal em pequenas áreas de uma extensa floresta em função de

variáveis ambientais e climáticas.

Page 4: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

4

Distribuição de Bernoulli

• Uma variável aleatória Y tem distribuição de Bernoulli se sua função de probabilidades for dada

por:

( ) ( ) 10;1,0,1 1 <<=−== − πππ yyYP yy .

• De forma equivalente, pode-se expressá-la por:

( )0

1

,1

,

==

−==

y

yyYP

ππ

.

• Seja ( )πBernoulliY ~ . Então:

( ) πµ == YE ; ( ) ( )ππ −= 1YVar .

• A distribuição de Bernoulli pertence à família exponencial de distribuições, tendo função de

variância ( ) ( )µµµ −= 1V e parâmetro de dispersão 1=φ .

Page 5: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

5

Distribuição binomial

• A distribuição de Bernoulli é um caso particular da distribuição binomial. Uma variável aleatória

Y tem distribuição binomial com parâmetros n e π se sua função de probabilidades é dada por:

( ) ( ) 10;,...,2,1,0,1 <<=−

== − πππ nyy

nyYP yny .

• Seja ( )π,~ nBinomialY . Então:

( ) πnYE = ; ( ) ( )ππ −= 1nYVar

Nota - A função de probabilidade da distribuição binomial acima particulariza para a distribuição

de Bernoulli quando 1=n .

Page 6: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

6

• A distribuição binomial, também pertencente à família exponencial, tem função de variância

( ) ( )µµµ −= 1V e parâmetro de dispersão n1=φ .

Nota – Se ( )π,~ nBinomialX e nXX =∗ , então ( ) π=∗XE e ( ) ( ) nXVar ππ −=∗ 1 .

Page 7: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

7

Modelos lineares generalizados para dados binários

• No contexto de modelos lineares generalizados, vamos considerar nYYY ,...,, 21 variáveis aleatórias

independentes, com ( )iii mbinomialY π,~ , ni ,...,2,1= . Repare que se tomarmos 1=im , para todo i ,

temos um conjunto de variáveis de Bernoulli.

• Adicionalmente, sejam ( )ipiii xxx ,...,, 21=x , ni ,...,2,1= , vetores de covariáveis correspondentes a

cada observação na amostra.

• Um modelo linear generalizado ficaria especificado da seguinte forma:

( )iii mbinomialY π,~| ix

( ) ( )ippiiiii xxxg ββββηπ ++++=′== ...22110βx .

Page 8: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

8

A escolha da função de ligação para um MLG para dados binários

Questão – como definir uma função de ligação adequada?

• Dentre os requisitos a serem considerados para a escolha de uma função de ligação apropriada,

alguns aspectos podem (ou devem) devem ser considerados:

o Que seja contínua, diferenciavel e monótona;

o Capaz de ‘confinar’ os valores de π entre zero e um;

o Capaz de descrever adequadamente a relação entre as partes aleatória e sistemática do

modelo;

o Que proporcione interpretações simples.

Page 9: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

9

• Boa parte dos requisitos relacionados pode ser atendida ao definir:

( ) ( ) βxiii Fg ′== − ππ 1 ,

ou, de forma equivalente,

( ) ( )βxiii FF ′== ηπ ,

sendo ( )⋅F a função de distribuição acumulada de alguma variável aleatória contínua com suporte no

conjunto dos reais.

• Embora qualquer função distribuição acumulada de variável aleatória contínua configure uma

possível função de ligação, na sequência são apresentadas algumas frequentemente utilizadas.

Page 10: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

10

1) Função de ligação logito: obtida a partir da distribuição logística:

( ) βxii

iig ′=

−=

πππ

1ln →

1+= ′

βx

βx

i

i

e

eiπ ;

Nota – A função de ligação logito é amplamente utilizada, dentre outros motivos, por:

� Propiciar uma interpretação simples dos resultados em função da chance (odds) de resposta,

definida por:

i

iichance

ππ−

=1

,

correspondendo, portanto, à razão da probabilidade de resposta pela probabilidade de não resposta;

� Garantir a concavidade da função de verossimilhança;

� Ser adequada para a análise de dados coletados retrospectivamente.

Page 11: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

11

2) Função de ligação probito: obtida a partir da distribuição Normal:

( ) ( ) βxiiig ′== − πφπ 1 → ( )βxii ′= φπ ,

sendo ( ) ( )zZPz ≤=φ a função de distribuição acumulada de ( )1,0~ NormalZ .

� A ligação probito é bastante utilizada em determinadas áreas como, por exemplo, na

Entomologia.

� Na prática, as funções probito e logito têm comportamento bastante semelhantes, sobretudo no

intervalo ( )9,0;1,0 .

Page 12: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

12

3) Função de ligação complemento log-log: baseada na distribuição Gumbel (também

chamada distribuição do valor extremo):

( ) ( )( ) βxiiig ′=−−= ππ 1lnln → ( )( )βxii ′−−= expexp1π .

� Dentre as três funções de ligação apresentadas, a função complemento log-log é a única que

não é simétrica em torno de 5,0=iπ . Para as ligações logito e probito, temos:

( ) ( )ππ −−= 1gg .

Page 13: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

13

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

LogísticaNormalGumbel

Figura 1 – Ilustração das funções de distribuição acumuladas para as distribuições Normal, Logística

e Gumbel (nos três casos foi fixado 0=Xµ e 12 =Xσ ) .

Page 14: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

14

• Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser

expressas na forma:

( ) ( )

−−=

αππ

α 11ln i

ig ,

em que α é um parâmetro desconhecido. É fácil verificar que quando 1=α temos a ligação logito e

quando 0→α tem-se a ligação complemento log-log.

Exemplo – Mortalidade de embriões. Vamos ao R!

Page 15: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

15

Regressão logística

• O modelo de regressão logística aplica-se à análise de dados binários, no contexto em que se

dispõe de nYYY ,...,, 21 variáveis aleatórias independentes, com ( )iii mbinomialY π,~ , ni ,...,2,1=

(novamente, tomando 1=im para todo i , tem-se um conjunto de variáveis binárias, com

distribuição de Bernoulli).

• O que especifica o modelo de regressão logística é a função de ligação logito:

( ) ippiiii

ii xxg βββη

πππ +++=′==

−= ...

1ln 110βx ,

sendo iη o preditor linear, configurando a parte sistemática do modelo.

Page 16: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

16

• Podemos escrever o modelo diretamente na escala da probabilidade de resposta:

( )11 ...

...1

110

110

+=

+=′= +++

+++

′−

ippi

ippi

i

i

xx

xx

iie

e

e

eg βββ

βββ

πβx

βx

βx ,

• Ou na escala da chance de resposta:

ippiixx

i

ii eeodds

βββ

ππ +++′ ==−

= ...110

1βx .

Page 17: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

17

• O desvio para o modelo de regressão logística linear fica dado por:

( ) ( ) ( )( )∑ =

−−−+

= n

ii

ii

i

ii

yy

yyD

1 ˆ1

1log1

ˆlog2ˆ;

πππy ,

sendo ( )ii g ηµ ˆˆ 1−= e βxiˆˆ ′=iη , uma vez que sua log-verossimilhança é dada por:

( )∑=

−+

−=

n

ii

i

iiyl

1

1ln1

ln)ˆ( ππ

πy;π .

Page 18: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

18

Interpretação dos parâmetros de um modelo de regressão logística linear

• Suponhamos que o preditor linear contemple apenas uma variável numérica:

ix

i

ii

i

i ex 10

11ln 10

ββ

ππββ

ππ +=

−→+=

−.

• Considere dois indivíduos para os quais 1+= kx e kx = , respectivamente. A razão de chances

para este par de indivíduos fica dada por:

( )( )

( )

2

2

1

11

22

11

111

111

10

10

ππ

ππ

ππππ ββ

ββ

ββ

−=

−→==

−−= +

++ee

e

eratioOdds

k

k

.

• Assim, 1βe corresponde à razão de chances decorrente do acréscimo de uma unidade em 1x . De

forma equivalente, o acréscimo de uma unidade em x multiplica a chance de resposta em 1βe .

Page 19: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

19

• Adicionalmente, 1β∆e corresponde à razão de chances decorrente do acréscimo de ∆ unidades em

1x : )(/)( 11 kxchancekxchance =∆+= .

• Suponhamos que o preditor linear contemple apenas uma variável dicotômica, indicadora de

alguma variável categórica:

ix

i

ii

i

i ex 10

11ln 10

ββ

ππββ

ππ +=

−→+=

−,

onde 0=ix , se o ésimoi − indivíduo pertence a uma categoria ‘A’, e 1=ix , se o ésimoi − indivíduo

pertence a uma categoria ‘B’.

• A razão de chances para indivíduos da categoria ‘B’ em relação a indivíduos da categoria ‘A’ fica

dada por:

( )( ) A

A

B

B

AA

BB eee

e

ππ

ππ

ππππ ββ

ββ

ββ

−=

−→==

−−

⋅+

⋅+

111

111

10

10

0

1

.

Page 20: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

20

• Assim, 1βe corresponde à razão de chances para indivíduos da categoria ‘B’ em relação a

indivíduos da categoria ‘A’.

• Se tivéssemos ainda uma categoria ‘C’, então definiríamos, por exemplo:

=

contráriocaso

Btipoindivsex

,0

,11 ;

=

contráriocaso

Ctipoindivsex

,0

,12 ,

configurando:

22110

11ln 22110

ii xx

i

iii

i

i exx βββ

ππβββ

ππ ++=

−→++=

−.

Page 21: MODELOS DE REGRESSÃO PARA DADOS BINÁRIOStaconeli/CE225/Aula13.pdf14 • Ligação de Aranda-Ordaz: corresponde a uma família de funções de ligação que podem ser expressas na

21

• Logo, as razões de chance ficariam dadas por:

:AarelaçãoemB ( )( )

1

210

210

00

01

1

1 ββββ

βββ

ππππ

ee

e

AA

BB ==−−

⋅+⋅+

⋅+⋅+

;

:AarelaçãoemC ( )( )

2

210

210

00

10

1

1 ββββ

βββ

ππππ

ee

e

AA

CC ==−−

⋅+⋅+

⋅+⋅+

;

:BarelaçãoemC( )( )

( )12

210

210

01

10

1

1 βββββ

βββ

ππππ −

⋅+⋅+

⋅+⋅+

==−−

ee

e

BB

CC .

• Caso o preditor linear contenha múltiplas variáveis, as interpretações são idênticas, devendo-

se ressaltar, no entanto, que a interpretação da razão de chances calculada para uma particular

variável, é válida considerando fixos os valores das demais variáveis.

Exemplo – Pesquisa de intenção de votos. Vamos ao R!