24
1 DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

1

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

Page 2: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

2

• A análise de diagnóstico (ou diagnóstico do ajuste) configura uma etapa fundamental no ajuste de

modelos de regressão.

• O objetivo principal dessa etapa da análise é a avaliação do modelo ajustado. No caso de MLGs,

baseia-se, dentre outros, na verificação (validação) dos seguintes itens:

o Adequação da distribuição proposta (avaliação da função de variância, assimetria nos dados

compatível com a distribuição proposta);

o Adequação da parte sistemática (preditor linear) do modelo, quanto às covariáveis incluídas,

às suas respectivas escalas (necessidade de alguma transformação), ausência de covariáveis

relevantes...

o Adequação da função de ligação;

Page 3: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

3

o Identificação e avaliação de observações mal ajustadas;

o Identificação de observações influentes e pontos de alavanca, avaliação do impacto de tais

observações no ajuste do modelo, dentre outros.

• Boa parte dos métodos de diagnóstico em MLGs configuram extensões dos procedimentos

utilizados em regressão linear. No entanto, deve-se ter cautela quanto ao uso desses métodos em

MLGs pois alguns resultados dependem fortemente das propriedades do modelo proposto.

Nota – Veremos adiante que o uso de simulação no diagnóstico de MLGs pode ser bastante

recomendável em algumas situações.

• Também para MLGs, a análise de resíduos é fundamental no diagnóstico do modelo.

Page 4: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

4

Tipos de resíduos em Modelos Lineares Generalizados

• Um resíduo (denotado, genericamente, por ir ) é alguma medida de afastamento de uma observação

( iy ) para seu valor ajustado pelo modelo ( iµ ):

( )iiii yqr µ,= ,

sendo iq alguma medida de diferença, usualmente escolhida para estabilizar a variância ou induzir

simetria na distribuição amostral de ir , a fim de garantir comparabilidade dos resíduos e possibilitar a

detecção de resíduos discrepantes.

Page 5: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

5

• Resíduo ordinário – O resíduo ordinário é simplesmente a diferença do valor observado para o

valor ajustado para uma particular observação:

iii yr µ−= .

Os resíduos ordinários não tem variância constante, sendo de pouca serventia no diagnóstico de

modelos lineares generalizados.

• Resíduo de Pearson – Os resíduos de Pearson são os componentes da estatística 2Χ de Pearson:

( )( )i

iiPi V

yr

µµˆ

ˆ−= ,

em que ( )iV µ representa a função de variância do modelo.

Nota – O resíduo de Pearson tem como desvantagem o fato de ter distribuição fortemente assimétrica

para modelos não-normais.

No R: Obtido por resid(modelo,type=’pearson’).

Page 6: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

6

• Resíduo de Pearson padronizado– O resíduo de Pearson padronizado é definido por:

( )( )( )iii

iiPi

hV

yr

−−=

1ˆˆˆ*

µφµ

,

sendo iih o ésimoi − elemento da diagonal da matriz H :

( ) 21121 WXXWXXWH ˆˆˆ ′′=−

,

que é a matriz de projeção da solução de mínimos quadrados de z contra X com pesos W (rever o

algoritmo de estimação).

No R: Obtido por rstandard(modelo,type=’pearson’).

Page 7: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

7

• Resíduo componente da deviance – O resíduo componente da deviance para a i-ésima

observação corresponde à contribuição dessa observação para a deviance do modelo. É uma medida

de distância de iy em relação a iµ na escala do logaritmo da verossimilhança. Apenas relembrando,

a deviance de um MLG é definida como:

( ) ( ) ( ){ } ( ) ( ){ }

( ) ( ) ( )( ){ }

( ) ( )( ) ( )( ) ( )( )( ){ } ,ˆˆ2

~ˆˆ~2

;ˆ;2;ˆ;2ˆ;

11

1

1

∑∑

==

=

=

=−+−=

=−+−=

=−=−=

n

ii

n

iiiiii

n

iiiiii

n

iiiii

dyqbqbqyqy

bby

ylyylllD

µµ

θθθθ

µyµyyµy

Nota - Repare que iθ foi substituído por ( )iq µ , configurando uma forma alternativa (mas equivalente)

de expressar a deviance.

Page 8: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

8

O resíduo componente da deviance fica definido por:

,)ˆ(sinal iiiD

i dyr ⋅−= µ

em que ( ) 1xsinal −= , se 0x < , e ( ) 1xsinal += , se 0x > .

No R: Obtido por resid(modelo,type=’deviance’).

• Resíduo componente da deviance padronizado – O resíduo componente da deviance

padronizado é definido como:

( )ii

DiD

ih

rr

−=

1φ.

No R: Obtido por rstandard(modelo,type=’deviance’).

Page 9: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

9

• Resíduo quantílico aleatorizado

o Diferentemente do que acontece para os modelos lineares com erros normais, nas situações em

que se tem uma variável resposta sem distribuição Normal os resíduos, muitas vezes, não tem boa

aproximação à distribuição normal, ainda que o modelo se ajuste bem aos dados;

o A falta de normalidade dos resíduos é particularmente notável na modelagem de dados discretos,

sobretudo quando os dados assumem valores pequenos (Ex: Poisson, com taxa próxima de zero;

Binomial, com probabilidade de sucesso próxima de zero ou um...).

o Propostos por Dunn e Smith (1996), os resíduos quantílicos aleatorizados apresentam

distribuição Normal, independente da distribuição da variável resposta.

o Os resíduos quantílicos aleatorizados baseiam-se no teorema da inversa da função distribuição

acumulada (para maiores detalhes, consultar a bibliografia de Probabilidade e Simulação).

Page 10: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

10

o No contexto de modelos lineares generalizados, seja ( )φµ,;yF a função distribuição acumulada de

uma variável aleatória Y .

o Se Y é contínua, o teorema da inversa da função distribuição acumulada garante que

( )φµ ,; iii yFU = tem distribuição uniforme no intervalo (0,1).

o Ajustado um MLG, o resíduo quantílico fica definido por:

( ){ }φµ ,ˆ;1ii

qi yFr −Φ= ,

sendo ( )⋅Φ a função de distribuição acumulada da Normal padrão.

o Se os parâmetros do modelo são consistentemente estimados, então qir converge para uma

distribuição Normal padrão.

Page 11: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

11

o Se Y é discreta, então um recurso de aleatorização é aplicado de tal forma que, também nesse caso,

se os parâmetros do modelo são consistentemente estimados, então qir converge para uma

distribuição Normal padrão.

No R: Obtido por qresiduals ( modelo), do pacote statmod.

Page 12: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

12

3.2 - Técnicas gráficas

Dentre os principais gráficos de resíduos, usados para se diagnosticar o ajuste do modelo,

destacam-se:

i. Gráficos de resíduos versus valores ajustados (η )– Para um modelo bem ajustado, o padrão

desse gráfico é a distribuição aleatória dos resíduos, centrada em zero e com variância constante;

• As figuras 1-4 apresentam alguns dos padrões mais comuns em gráficos desse tipo:

Page 13: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

13

-3

-2

-1

0

1

2

3

Valores ajustados

Res

íduo

s

Figura 1 – Distribuição dos resíduos fornece indicativo de bom ajuste.

Page 14: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

14

-6

-4

-2

0

2

4

6

8

Valores ajustados

Res

íduo

s

Figura 2 – Presença de alguns resíduos extremos (observações mal ajustadas).

Page 15: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

15

-1

0

1

2

3

4

5

Valores ajustados

Res

íduo

s

Figura 3 – Resíduos com distribuição fortemente assimétrica.

Page 16: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

16

-4

-2

0

2

Valores ajustados

Res

íduo

s

Figura 4 – Resíduos com variância não constante.

Page 17: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

17

ii. Gráfico normal de probabilidades – O gráfico normal de probabilidades consiste num gráfico

de pontos em que são representados os quantis amostrais dos resíduos em um dos eixos e os quantis

teóricos da distribuição Normal noutro. Para um modelo bem ajustado, o padrão desse gráfico

corresponde ao alinhamento dos pontos na reta que representa a identidade dos quantis amostrais e

teóricos.

Atenção – Em alguns casos, dependendo da distribuição e dispersão dos dados, ainda que o modelo

se ajuste bem a distribuição dos resíduos de Pearson ou componentes da deviance não será normal.

Nesses casos, recomenda-se o uso de simulação e construção de envelopes simulados, verificando-se a

disposição dos pontos dentro do envelope, e/ou o uso dos resíduos quantílicos aleatorizados.

• As figuras 5-8 apresentam alguns dos padrões mais comuns em gráficos desse tipo.

Page 18: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

18

-3 -2 -1 0 1 2 3

-4

-2

0

2

4

Percentil da N(0,1)

Res

iduo

s

Figura 5 – Indicação de bom ajuste.

Page 19: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

19

-3 -2 -1 0 1 2 3

-6

-4

-2

0

2

4

6

8

Percentil da N(0,1)

Res

iduo

s

Figura 6 – Presença de resíduos discrepantes.

Page 20: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

20

-3 -2 -1 0 1 2 3

-4

-2

0

2

4

6

Percentil da N(0,1)

Res

iduo

s

Figura 7 – Resíduos com distribuição fortemente assimétrica.

Page 21: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

21

-2 -1 0 1 2

-4

-2

0

2

4

Percentil da N(0,1)

Com

pone

nte

do D

esvio

Figura 8 – Resíduos com “caldas pesadas”.

Page 22: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

22

iii. Gráficos de resíduos versus variáveis incluídas no modelo – Neste gráfico, deve-se

observar se os resíduos estão aleatoriamente dispersos em torno de zero. A presença de algum

padrão sistemático indica que a variável em questão não foi adequadamente incluída no modelo;

iv. Gráficos de resíduos versus variável não incluída no modelo – Qualquer padrão

sistemático indica a necessidade de se incorporar tal variável ao modelo;

Nota – Uma alternativa a esse tipo de gráfico é o gráfico da variável adicionada (“added variable plot”).

A função avPlots do pacote car produz esse tipo de gráfico.

O padrão observado nesses gráficos serve como indicador da forma como a variável deve ser

incluída ao modelo.

Page 23: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

23

0.0 0.2 0.4 0.6 0.8 1.0

-4

-2

0

2

4

(a)

x

Res

íduo

s

0.0 0.2 0.4 0.6 0.8 1.0

-4

-2

0

2

4

(b)

xR

esíd

uos

Figura 9 – Representação de gráficos de resíduos vs variável. (a) indica que a variável deve ser

incluída (ou inserida de outra forma) ao modelo. Em (b), não se tem indicativo da necessidade de

inclusão (ou mudança de escala) de x .

Page 24: DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4 Tipos de resíduos em Modelos Lineares Generalizados • Um resíduo (denotado, genericamente,

24

v. Gráfico de resíduos versus ordem de coleta dos dados, posição no tempo ou espaço

das observações – A presença de algum padrão sistemático pode indicar dependência com relação

à ordem de coleta, posição no tempo ou espaço. O padrão para um modelo bem ajustado é a

distribuição aleatória dos resíduos.

vi. Gráfico da variável ajustada ( iz ) versus o preditor linear iη - Serve para avaliar se a função

de ligação é adequada. Neste gráfico, uma tendência linear indica escolha adequada da função de

ligação.

Nota – Uma forma de testar a adequação da função ligação é a seguinte:

o Ajusta-se um MLG e extrai-se η ;

o Insere-se 2η ao rol de covariáveis e ajusta-se um novo MLG;

o Avalia-se o decréscimo na deviance resultante da inclusão de 2η . Se a redução for significativa,

o indicativo é de que a função de ligação não é adequada.