Metodos de Diagnostico para ModelosLineares Mistos
Aluno: Juvencio Santos Nobre
Orientador: Prof. PhD Julio da Motta Singer
IME-USP
Metodos de Diagnostico para Modelos Lineares Mistos – p.1/58
Introdução
Experimentos com medidas repetidas referem-se a casos no qualcada unidade experimental é observada pelo menos duasvezes.
ExemploEstudo realizado na FOUSP.
Objetivo: comparar dois tipos de escova, monobloco econvencional, quanto à manuntenção da capacidade deremoção da placa bacteriana (durabilidade) sob usodiário.
Metodos de Diagnostico para Modelos Lineares Mistos – p.2/58
Introdução
Experimentos com medidas repetidas referem-se a casos no qualcada unidade experimental é observada pelo menos duasvezes.
ExemploEstudo realizado na FOUSP.
Objetivo: comparar dois tipos de escova, monobloco econvencional, quanto à manuntenção da capacidade deremoção da placa bacteriana (durabilidade) sob usodiário.
Metodos de Diagnostico para Modelos Lineares Mistos – p.2/58
Modelagem da Estrutura de Correlação
Espera-se uma dependência entre as observações referentesa uma mesma unidade experimental. Propostas para modelara estrutura de correlação intra-unidade experimental:
Inclusão de variáveis latentes em modelos lineares (nãolineares), gerando assim os modelos lineares (não lineares)mistos e os modelos lineares generalizados mistos [Laird &Ware (1982), McCulloch & Searle (2001)];Inclusão de uma matriz de correlação de trabalho(EEG)[Liang & Zeger (1986)].
Metodos de Diagnostico para Modelos Lineares Mistos – p.3/58
Modelos Lineares Mistos
Um modelo linear misto pode ser escrito na forma
Yi = Xiβ + Ziγi + εi (i = 1, ..., c), (1)
Considerando Y = (Y>1 , · · · ,Y>
c )>, X = (X>1 · · ·X>
c )>,Z=diag(Z1, · · · ,Zc), γ = (γ>1 , · · · , γ>c )> e ε = (ε>1 , · · · , ε>c )> temos:
Yn×1 = Xn×pβp×1 + Zn×cqγcq×1 + εn×1. (2)
Usualmente, assume-se que
[γ
ε
]∼ Ncq+n
([0cq
0n
],
[∆ 0cq×n
0n×cq Σ
]), (3)
com γ1, ..., γci.i.d.∼ Nq(0,G) [∆ = Ic
⊗G].
Metodos de Diagnostico para Modelos Lineares Mistos – p.4/58
Modelos Lineares Mistos
∆ e Σ são funções de poucos parâmetros (desconhecidos) θ queindependem dos parâmetros de localização β, ou seja, ∆ = σ2D(θ)
e Σ = σ2R(θ). Fazendo ξ = Zγ + ε, obtém-se
Y = Xβ + ξ, (4)
com ξ ∼ Nn(0n,V), em que
V = σ2(ZDZ> + R
). (5)
Se R = In ⇒ modelo de independência condicionalhomocedástico.
Metodos de Diagnostico para Modelos Lineares Mistos – p.5/58
BLUE e BLUP
Seja γ (β) o BLUP (BLUE) de γ (β) então:
γ e β são funções lineares de Y;
IE[γ − γ] = 0 (IE[β − β] = 0), ou seja, γ (β) é não viesado paraγ (β);
γ (β) é o melhor preditor (estimador) de γ (β) dentro da classedos preditores (estimadores) lineares, no sentido, de que omesmo minimiza o erro quadrático médio de previsão(estimação).
Supondo V conhecida, mostra-se que
β =(X>MX
)−1X>MY =
(X>V−1X
)−1X>V−1Y e
γ = DZ>M(Y − Xβ) = DZ>V−1(Y − Xβ) = DZ>QY.
Metodos de Diagnostico para Modelos Lineares Mistos – p.6/58
BLUE e BLUP
com M = σ2V−1 e Q = M − MX(X>MX
)−1X>M uma matriz
simétrica semi-definida positiva de ordem n (posto(Q)=n− p), comQM−1Q = Q e QX = 0. Pode-se mostrar que
Cov
[β − β
γ − γ
]= σ2
[X>R−1X X>R−1Z
Z>R−1X Z>R−1Z + D−1
]−1
. (6)
Metodos de Diagnostico para Modelos Lineares Mistos – p.7/58
BLUE e BLUP
com M = σ2V−1 e Q = M − MX(X>MX
)−1X>M uma matriz
simétrica semi-definida positiva de ordem n (posto(Q)=n− p), comQM−1Q = Q e QX = 0. Pode-se mostrar que
Cov
[β − β
γ − γ
]= σ2
[X>R−1X X>R−1Z
Z>R−1X Z>R−1Z + D−1
]−1
. (7)
EBLUE e EBLUPComo D (V) depende de um vetor de componentes decovariância θ∗ desconhecido, calculamos o BLUE e BLUPcom base no estimador θ∗; nesse caso eles sãodenominados como BLUE e BLUP empíricos (EBLUE eEBLUP).
Metodos de Diagnostico para Modelos Lineares Mistos – p.7/58
Testes de hipóteses e critérios de informação
Teste da Razão de Verossimilhanças;
Teste de Wald/Score [Verbeke & Molenberghs (2003)].Problemas quando a hipótese de interesse situa-se naborda do espaço paramétrico [Self & Liang (1987)].
Metodos de Diagnostico para Modelos Lineares Mistos – p.8/58
Testes de hipóteses e critérios de informação
Teste da Razão de Verossimilhanças;
Teste de Wald/Score [Verbeke & Molenberghs (2003)].Problemas quando a hipótese de interesse situa-se naborda do espaço paramétrico [Self & Liang (1987)].
É comum utilizar alguns critérios de informação como o AIC, oBIC definidos como
AIC = −2l + 2d, (8)
BIC = −2l + d lnn, (9)
com l representando o máximo da log-verossimilhança (completa ou
restrita), d o número de parâmetros do modelo e n o número de
observações.Metodos de Diagnostico para Modelos Lineares Mistos – p.8/58
Aplicação
Singer & Andrade (1997) apontam as seguintes característicasque o modelo adotado para representar dados deste tipo deveapresentar:
(i) Um índice pré-tratamento nulo implica um índicepós-tratamento também nulo;
(ii) Os índices pré-tratamento e pós-tratamento são não-negativos;
(iii) Os dados são possivelmente heterocedásticos (pois sãonão-negativos e satisfazem a desigualdade y ≤ x);
(iv) A relação entre os índices pré-tratamento e pós-tratamento épossivelmente não-linear;
(v) As observações realizadas numa mesma unidade experimentalsão possivelmente correlacionadas.
Metodos de Diagnostico para Modelos Lineares Mistos – p.9/58
Modelo
Singer et al. (2004) sugerem o seguinte modelo
yijd = βjdxγjd
ijd ξijd, (10)
com βjd > 0, i = 1, 2, ..., 32, j = 0, 1, d = 1, 2, 3, 4.
yijd (xijd) é o índice de placa bacteriana pós-tratamento(pré-tratamento) relativo a i-esima criança com a j-esima escovana d-esima sessão de avaliação;
βjd é um coeficiente de placa bacteriana residual relativo àj-esima escova e à d-esima sessão de avaliação;
γjd é um coeficiente de uniformidade da taxa de placa residualesperada relativo à j-esima escova e a d-esima sessão deavaliação e ξijd é um erro aleatório não-negativo.
Metodos de Diagnostico para Modelos Lineares Mistos – p.10/58
Modelo
Considerando a seguinte transformação
ln yijd = lnβjd + γjd lnxijd + ln ξijd
y∗ijd = λjd + γjdx∗ijd + ξ∗ijd, (11)
ξ∗ijd = ln ξijd ∼ N(0, σ2i ). Para satisfazer a característica (v),
consideramos que o logaritmo do erro é decomposto da seguinteforma:
ξ∗ijd = ψi + εijd, (12)
com ψi ∼ N(0, τ2) e εijd ∼ N(0, σ2), denotando respectivamente, o
efeito aleatório da criança e o erro de medida.
Metodos de Diagnostico para Modelos Lineares Mistos – p.11/58
Modelo adotado
lnYi = Xiβ + Ziψi + εi, (13)
em que β = (λ01, λ02, · · · , λ13, λ14, γ01, γ02, · · · , γ13, γ14)> e Zi = 14.
A priori, consideramos
Σi = Var[εi] = σ2
1 ρ ρ2 ρ3
ρ 1 ρ ρ2
ρ2 ρ 1 ρ
ρ3 ρ2 ρ 1
. (14)
Metodos de Diagnostico para Modelos Lineares Mistos – p.12/58
Estratégia de análise
(i) Simplificação da estrutura de covariâncias (ρ = 0), ou seja,Σi = σ2I4;
(ii) Testar a homogeneidade entre os coeficientes de uniformidadepara as duas escovas nas quatro sessões de avaliação, ouseja, testar se γjd = γ (j = 0, 1, d = 1, ..., 4);
(iii) Testar a significância do efeito de interação e dos efeitosprincipais dos tipos de escova com relação aos coeficientes deplaca bacteriana residual, ou seja,λ01 − λ11 = λ02 − λ12 = λ03 − λ13 = λ04 − λ14 e λjd = λj ;
(iv) Ajustar o modelo que incorpora as conclusões obtidas em (i),(ii) e (iii), ou seja, reduzir o modelo (10) para
yijd = βjxγijdξijd.⊕ (15)
Metodos de Diagnostico para Modelos Lineares Mistos – p.13/58
Ajuste do modelo final
Figura 1: Ajuste do modelo final.∗
Indice de placa bacteriana pre-tratamento
Indi
ce d
e pl
aca
bact
eria
na p
os-t
rata
men
to
1.0 1.5 2.0
0.0
0.5
1.0
1.5
2.0
ConvencionalMonobloco
As observações representadas por • referem-se as crianças que uti-
lizaram a escova monobloco.Metodos de Diagnostico para Modelos Lineares Mistos – p.14/58
Objetivos da análise de diagnóstico
Verificar as suposições do modelo;
Identificar observações/unidades experimentais que exerceminfluência desproporcional no modelo ajustado;
Avaliar a robustez do modelo quando ele está sujeito a algumtipo de perturbação (qualquer mudança nas suposições ou nosdados).
Metodos de Diagnostico para Modelos Lineares Mistos – p.15/58
Análise de Resíduos
No modelo (2), podemos definir três tipos de erro:
Erro condicional: ε = Y − IE[Y|γ] = Y − Xβ − Zγ;
Efeitos aleatorios: Zγ = IE[Y|γ] − IE[Y];
Erro marginal: ξ = Y − IE[Y] = Y − Xβ = Zγ + ε.
Os respectivos resíduos (e matrizes de covariâncias ) são dadospor
Resıduo condicional: ε = Y − Xβ − Zγ (Var[ε] = σ2Q);
EBLUP: Zγ (Var[Zγ] = σ2ZDZ>QZDZ>);
Resıduo marginal: ξ = Y − Xβ (Var[ξ] = σ2M−1QM−1).
Metodos de Diagnostico para Modelos Lineares Mistos – p.16/58
Resíduo marginal e resíduo condicional
Resíduo marginalAvaliar a suposição de linearidade entre IE[Y] e ascovariáveis X [Hilden-Minton (1995)];(ξ vs. x)Avaliar o ajuste da estrutura de covariâncias [Weiss(1995)], uma vez que Var[ξ] = V.
Resíduo condicionalAvaliar a hipótese de homocedasticidade do errocondicional;Verificar a existência de observações discrepantes [Weiss &Lazaro (1992), Weiss (1995), Oman (1995) e Pinheiro &Bates (2000, p.175)];
Gráfico dos elementos do resíduo condicional padronizadovs. índices [R = In] ε∗i = εi
σ√
qii.
Metodos de Diagnostico para Modelos Lineares Mistos – p.17/58
Resíduo com confundimento mínimo
Sob a validade do modelo (2) temos
ε = Qε+ QZγ, (16)
implicando que ε é confundido pela presença de γ. Hilden-Minton(1995) define a fração de confundimento para εi
0 ≤ CFi =Var[U>
i ZγUi]
Var[εi]=
U>i QZDZ>QUi
U>i QUi
= 1 − U>i QQUi
U>i QUi
≤ 1. (17)
Para minimizar o efeito de confundimento, Hilden-Minton (1995) su-
gere utilizar uma tranformação linear de ε, L>ε, que minimize o con-
fundimento em algum sentindo.Metodos de Diagnostico para Modelos Lineares Mistos – p.18/58
Resíduo com confundimento mínimo
Denotando as colunas de L por li, uma sugestão é minimizar oconfundimento de l>i ε, ou seja maximizar
λi =l>i QQli
l>i Qli, (18)
sujeito a restrição Var[l>i ε] ∝ l>i Qli > 0. Desta forma, mostra-se que
o vetor li que minimiza o confundimento é dado por li = π−1/2i Ki(i =
1, ..., n − p), com Ki representando a i-esima coluna de K, em que
Q = KΠK>, com Kn×(n−p); K>K = In−p e Π=diag(π1, ..., πn−p)
com elementos π1 ≤ ... ≤ πn−p. Mostra-se que l>i ε =√πiK
>i Y e
Cov[l>i ε, lj ε] = σ211(i = j). (i, j = 1, ..., n− p)
Metodos de Diagnostico para Modelos Lineares Mistos – p.19/58
EBLUP
Encontrar possíveis unidades experimentais discrepantes[Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre(1996a), Pinheiro & Bates (2000) e Longford (2001)]
Ziγi reflete a diferença entre o valor predito e o valor médiopopulacional para a i-esima unidade experimental, destaforma podemos utilizar o EBLUP para encontrar unidadesexperimentais discrepantes através deζi = γ>i Var[γi − γi]γi ≈ χ2
ni.
Avaliar a hipótese de normalidade de γ [Lange & Ryan (1989) eJiang (2001)].
Estimativas consistentes mesmo quando γ não seguedistribuição normal [Verbeke & Lesaffre (1996b)];
Metodos de Diagnostico para Modelos Lineares Mistos – p.20/58
EBLUP
Encontrar possíveis unidades experimentais discrepantes[Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre(1996a), Pinheiro & Bates (2000) e Longford (2001)]
Ziγi reflete a diferença entre o valor predito e o valor médiopopulacional para a i-esima unidade experimental, destaforma podemos utilizar o EBLUP para encontrar unidadesexperimentais discrepantes através deζi = γ>i Var[γi − γi]γi ≈ χ2
ni.
Avaliar a hipótese de normalidade de γ [Lange & Ryan (1989) eJiang (2001)].
Estimativas consistentes mesmo quando γ não seguedistribuição normal [Verbeke & Lesaffre (1996b)];
Metodos de Diagnostico para Modelos Lineares Mistos – p.20/58
EBLUP
Encontrar possíveis unidades experimentais discrepantes[Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre(1996a), Pinheiro & Bates (2000) e Longford (2001)]
Ziγi reflete a diferença entre o valor predito e o valor médiopopulacional para a i-esima unidade experimental, destaforma podemos utilizar o EBLUP para encontrar unidadesexperimentais discrepantes através deζi = γ>i Var[γi − γi]γi ≈ χ2
ni.
Avaliar a hipótese de normalidade de γ [Lange & Ryan (1989) eJiang (2001)].
Estimativas consistentes mesmo quando γ não seguedistribuição normal [Verbeke & Lesaffre (1996b)];
Metodos de Diagnostico para Modelos Lineares Mistos – p.20/58
EBLUP
Encontrar possíveis unidades experimentais discrepantes[Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre(1996a), Pinheiro & Bates (2000) e Longford (2001)]
Ziγi reflete a diferença entre o valor predito e o valor médiopopulacional para a i-esima unidade experimental, destaforma podemos utilizar o EBLUP para encontrar unidadesexperimentais discrepantes através deζi = γ>i Var[γi − γi]γi ≈ χ2
ni.
Avaliar a hipótese de normalidade de γ [Lange & Ryan (1989) eJiang (2001)].
Estimativas consistentes mesmo quando γ não seguedistribuição normal [Verbeke & Lesaffre (1996b)];
Metodos de Diagnostico para Modelos Lineares Mistos – p.20/58
Figura 2: Resíduo Marginal e EBLUP do modelo final .
Logaritmo do indice de placa bacteriana pre-escovacao
Res
iduo
Mar
gina
l
-0.4 -0.2 0.0 0.2 0.4 0.6 0.8
-1.0
-0.5
0.0
0.5
1.0
(a)
12.2
29.3
29.4
Unidade Experimental
EB
LUP
0 5 10 15 20 25 30
-0.4
-0.2
0.0
0.2
0.4
(b)
29
Metodos de Diagnostico para Modelos Lineares Mistos – p.21/58
Figura 3: Resíduo condicional padronizado e envelope simuladocom 95% para o resíduo com confundimento mínimo.
Unidade Experimental
Res
iduo
Con
dici
onal
Pad
roni
zado
0 5 10 15 20 25 30
-4-2
02
4
(a)
12.2 29.4
Quantis da N(0,1)R
esid
uo c
om c
onfu
ndim
ento
min
imo
-2 -1 0 1 2
-20
24
(b)
Metodos de Diagnostico para Modelos Lineares Mistos – p.22/58
Análise de Sensibilidade
Identificar observações/unidades experimentais que exerceminfluência desproporcional no modelo ajustado;
Avaliar a robustez do modelo quando está sujeito a algum tipode perturbação (qualquer mudança nas suposições ou nosdados).
Metodos de Diagnostico para Modelos Lineares Mistos – p.23/58
Pontos/Observações Alavanca
Observações que exercem uma forte influência no respectivovalor predito; destacam-se observações com valores atípicosdas variáveis explicativas [Cook & Weisberg (1982) e Wei et al.
(1998)].
Considerando um modelo estatístico em que Y = IE[Y] = µ(β),Wei et al. (1998) definem a matriz de alavancagem generalizada
GL(β) =∂Y
∂Y> =
(∂yi
∂yj
)
n×n
, (19)
que reflete a taxa de mudança instantânea no respectivo valor pre-
dito quando a variável resposta é acrescida por um infinitésimo. A
“alavancagem generalizada" da i-ésima observação é definida por
GL(β)ii = ∂yi/∂yi. Metodos de Diagnostico para Modelos Lineares Mistos – p.24/58
Observações alavanca para os efeitos fixos
Considerando γ como um parâmetro de pertubação no modelo,uma vez que IE[Y] não depende do mesmo, e lembrando
β =(X>V−1X
)−1X>V−1Y, tem-se que a matriz (19) fica
GL(β) = X(X>V−1X
)−1X>V−1. (20)
Definindo h∗ii = GL(β)ii, consideraremos o i-esimo ponto como “ala-
vanca" se h∗ii ≥ 2p/n. Usando a abordagem de Banerjee & Frees
(1997) podemos definir uma unidade experimental como alavanca
se tr(Hi)ni
≥ 2p/n, em que Hi = Xi(X>V−1X)−1X>
i V−1i .
Metodos de Diagnostico para Modelos Lineares Mistos – p.25/58
Alavancagem nos efeitos fixos e aleatórios
Uma observação pode influenciar tanto as estimativas dosefeitos fixos como as predições dos efeitos aleatórios;
Aconselhável medir esta influência de forma conjunta.
Uma proposta para incorporar informações a respeito dos efeitos
aleatórios, é considerar Y∗ = IE[Y|γ] = Xβ + Zγ. Derivando Y∗
com relação a Y>
GL(β, γ) =∂Y∗
∂Y> =Y
∂Y> +∂Zγ
∂Y>
= GL(β) + ZDZ>Q. (21)
Metodos de Diagnostico para Modelos Lineares Mistos – p.26/58
Figura 4: Alavancagem generalizada.
Unidade Experimental
Ala
vanc
a G
ener
aliz
ada
0 5 10 15 20 25 30
0.02
0.04
0.06
0.08
0.10
(a) Efeitos fixospor observacao
3.1
6.3
11.2
12.1
19.1
31.1
31.4
Unidade Experimental
Ala
vanc
a G
ener
aliz
ada
0 5 10 15 20 25 30
0.02
00.
025
0.03
00.
035
0.04
00.
045
(b) Efeitos fixospor UE
11
12
Unidade Experimental
Ala
vanc
a G
ener
aliz
ada
0 5 10 15 20 25 30
0.16
0.18
0.20
(c) Efeitos fixos e aleatoriospor observacao
3.1 6.3
11.2
12.1
31.1
Unidade Experimental
Ala
vanc
a G
ener
aliz
ada
0 5 10 15 20 25 30
0.14
50.
150
0.15
50.
160
0.16
5
(d) Efeitos fixos e aleatoriospor UE
11 12
Metodos de Diagnostico para Modelos Lineares Mistos – p.27/58
Eliminação de observações
Avaliar a influência de um conjunto de observações I atravésda sua eliminação;
Importância de obter a relação entre θ e θ(I), evitando assimreajustar o modelo;
Incoveniente:
Estimativas dos parâmetros de covariâncias são obtidasiterativamente (processo computacionalmente intensivo);Propostas:
Considerar a estrutura de covariância conhecida,encontrar a relação e avaliar sobre a estrutura decovariância estimada [Hilden-Minton (1995), Haslett(1999) e Fung et al. (2002)];Aproximação por 1 passo [Pregibon (1981)].
Metodos de Diagnostico para Modelos Lineares Mistos – p.28/58
Fórmulas de atualização do BLUE e BLUP
Considerando V conhecida e que I = i1, i2, ..., ik mostra-se
β − β(I) =(X>MX
)−1X>MUI φI (22)
e
γ − γ(I) = DZ>QUI φI , (23)
com
φI =(U>
I QUI
)−1U>
I QY (24)
UI = (uij)n×k = (Ui1 ,Ui2 , ...,Uik), (25)
em que Ui denota a i-esima coluna da matriz In.
Metodos de Diagnostico para Modelos Lineares Mistos – p.29/58
Medidas baseadas na eliminação de observações
Uma das medidas mais utilizadas para avaliar a influência de umconjunto de observações, via eliminação, é a distância de Cook[Cook (1977)]
DI =
(θ − θ(I)
)>U(θ − θ(I)
)
c, (26)
sendo U uma matriz positiva definida e c um parâmetro de escala.
DI mede a influência das observações do conjunto I na estimativa
do vetor de parâmetros θ, segundo a métrica definida por U e c. No
caso linear normal, costuma-se utilizar U = X>X e c = pσ2 [Cook
(1977)].
Metodos de Diagnostico para Modelos Lineares Mistos – p.30/58
Generalizações da distância de Cook
Algumas “generalizações" de (26) são propostas dentro docontexto de modelos lineares mistos. Uma proposta [Christensen etal. (1992), Banerjee & Frees (1997) e Fung et al. (2002) ] é utilizar
DI =(β − β(I))
>(X>V−1X)(β − β(I))
σ2
=(Y − Y(I))
>V−1(Y − Y(I))
σ2, (27)
para medir a influência das observações do conjunto I nas estimati-
vas dos parâmetros fixos.
Metodos de Diagnostico para Modelos Lineares Mistos – p.31/58
Desvantagem de DI
Pode não detectar observações influentes nas estimativas dosparâmetros de covariância [Banerjee (1998) e Tan et al. (2001)];
Dado que o efeito causado pela eliminação de uma observaçãona estrutura de covariância é equivalente ao efeito causado noBLUP γ, então Tan et al. (2001) sugerem a utilização da medida deCook condicional nos efeitos aleatórios (i = 1, ..., n)
Dcondi =
c∑
j=1
P>j(i)Var[Y|γ]−1Pj(i)
(n− 1)c+ p=
c∑
j=1
P>j(i)Pj(i)
k, (28)
com Pj(i) = Yj − Yj(i) = (Xj +Zj γj)− (Xj(i) +Zj γj(i)) e k = σ2([n−
1]c+ p).
Metodos de Diagnostico para Modelos Lineares Mistos – p.32/58
Decomposição de Dcondi
Podemos decompor (28) da seguinte forma
Dcondi = Dcond
1i +Dcond2i +Dcond
3i , (29)
em que
Dcond1i =
(β − β(i))>(X>X)(β − β(i))
k=
(Y − Y(i))>(Y − Y(i))
k,
Dcond2i =
(γ − γ(i))>Z>Z(γ − γ(i))
k,
e
Dcond3i =
2(β − β(i))>X>Z(γ − γ(i))
k.
Metodos de Diagnostico para Modelos Lineares Mistos – p.33/58
Influência de uma unidade experimental
Ao eliminar todas as observações de uma unidadeexperimental não podemos prever o correspondente efeitoaleatório.
Proposta: Avaliar a influência da i-esima unidadeexperimental utilizando a média das distâncias (28)referentes a todas as observações da unidadeexperimental, ou seja,
Dcondi. = (ni)
−1∑
j∈I
Dcondj , (30)
com I representando o conjunto das ni observações dai-esima unidade experimental.
Metodos de Diagnostico para Modelos Lineares Mistos – p.34/58
Figura 5: Distância de Cook condicional por observação.
Unidade Experimental
Di
0 5 10 15 20 25 30
0.0
0.01
0.02
0.03
0.04
0.05
(a) Distancia de Cook condicional
12.2
29.4
Unidade Experimental
Di1
0 5 10 15 20 25 30
0.0
0.01
0.02
0.03
0.04
0.05
(b) D1i
12.112.2 29.4
Unidade Experimental
D2i
0 5 10 15 20 25 30
0.0
0.01
0.02
0.03
0.04
0.05
(c) D2i
12.229.4
Unidade Experimental
D3i
0 5 10 15 20 25 30
-0.0
010.
00.
001
(d) D3i
12.1
12.2
12.4
Metodos de Diagnostico para Modelos Lineares Mistos – p.35/58
Figura 6: Distância de Cook condicional por unidade experimental.
Unidade Experimental
Di
0 5 10 15 20 25 30
0.0
0.00
50.
010
0.01
50.
020
(a) Distancia de Cook condicional
12
29
Unidade Experimental
D1i
0 5 10 15 20 25 30
0.0
0.00
50.
010
0.01
50.
020
(b) D1i
12
29
Unidade Experimental
D2i
0 5 10 15 20 25 30
0.0
0.00
50.
010
0.01
50.
020
(c) D2i
1229
Unidade Experimental
D3i
0 5 10 15 20 25 30
-0.0
006
-0.0
002
0.0
0.00
020.
0004
0.00
06
(d) D3i
12
Metodos de Diagnostico para Modelos Lineares Mistos – p.36/58
Influência Local
Proposto por Cook (1986) com o objetivo de avaliar a mudançanos resultados da análise quando incorporamos “pequenasperturbações" ao modelo. A abordagem original baseia-se naanálise do afastamento da verossimilhança (“likelihooddisplacement")
LD(w) = 2L(θ) − L(θw)
, (31)
em que:
L(·) é a log-verossimilhança do modelo postulado;
θ é um vetor p× 1 de parâmetros ;
L(·|w) é a log-verossimilhança do modelo “perturbado";
w representa um vetor q × 1 de perturbações relevantes,restrito a um intervalo aberto Ω ⊂ IRq;
Metodos de Diagnostico para Modelos Lineares Mistos – p.37/58
Influência Local
θ e θw são, respectivamente, os EMV baseados em L(·) eL(·|w);
w0 ∈ Ω é o vetor que representa a ausência de perturbação, ouseja, L(θ|w0) = L(θ), ∀θ ∈ Θ.
Quanto maior for LD(w) maior é a sensibilidade com relação ao
esquema de perturbação proposto. Nesse contexto LD(w) é uti-
lizada para comparar θ e θw com respeito aos contornos da log-
verossimilhança L(·).
Metodos de Diagnostico para Modelos Lineares Mistos – p.38/58
Influência Local
Cook (1986) considerou o gráfico de influência (LD(w) vs. w)como uma superfície em IRq+1 formada pelos valores do vetor
α(w) =(w>, LD(w)
)>, (32)
com w variando em Ω. Para medir a sensibilidade do afastamento
da verossimilhança, Cook (1986) utilizou a curvatura normal de (32)
ao redor de w0 na direção de um vetor d (q × 1) de norma unitária,
que doravante será denominada Cd.
Metodos de Diagnostico para Modelos Lineares Mistos – p.39/58
Curvatura Normal
A curvatura normal de α(w) é dada por [Cook (1986, eq.16)]
Cd = −2d>H>L−1Hd, (33)
com L =∂2L(θ)/∂θ>∂θ
|θ=θ
e H =∂2L(θ|w)/∂θ>∂w
|w=w0;θ=θ
.A curvatura normal (33) assume seu valor máximo quandod = dmax, com dmax representando o autovetor normalizadoassociado ao maior autovalor de −H>L−1H.
dmax indica qual o tipo de perturbação que produz a maiormudança em LD(w);
O gráfico de | dmax | pode revelar qual o tipo de perturbaçãoque possue a maior influência em LD(w) na “vizinhança" dew0 [Cook (1986) e Paula (2003)];
Na literatura, outros tipos de gráficos são sugeridos paradiagnóstico .
Metodos de Diagnostico para Modelos Lineares Mistos – p.40/58
Influência Local em Modelos Lineares mistos
Beckman et al. (1987) e Lesaffre & Verbeke (1998) utilizaram oconceito de influência local em modelos lineares mistos;
Ambos basearam-se na verossimilhança marginal de Y
L(ψ) = −(1/2)ln |V| + (Y − Xβ)>V−1(Y − Xβ)
, (34)
com ψ> = (β>, σ2, θ>) = (β>, (θ∗)>).
Metodos de Diagnostico para Modelos Lineares Mistos – p.41/58
Tipos de perturbação
Perturbação na matriz de covariâncias de ε.
Identificar observações sensíveis a suposição dehomocedasticidade.⊕
Metodos de Diagnostico para Modelos Lineares Mistos – p.42/58
Tipos de perturbação
Perturbação na matriz de covariâncias de ε.Identificar observações sensíveis a suposição dehomocedasticidade.⊕
Metodos de Diagnostico para Modelos Lineares Mistos – p.42/58
Tipos de perturbação
Perturbação na matriz de covariâncias de ε.Identificar observações sensíveis a suposição dehomocedasticidade.
Perturbação na variável resposta.
Identificar observações sensíveis a pequenas perturbaçõesna variável resposta; No caso linear normal destacam-seas observações com alto erro de predição |yi − yi|[Schwarzmann (1991)].⊕
Metodos de Diagnostico para Modelos Lineares Mistos – p.43/58
Tipos de perturbação
Perturbação na matriz de covariâncias de ε.Identificar observações sensíveis a suposição dehomocedasticidade.
Perturbação na variável resposta.Identificar observações sensíveis a pequenas perturbaçõesna variável resposta; No caso linear normal destacam-seas observações com alto erro de predição |yi − yi|[Schwarzmann (1991)].⊕
Metodos de Diagnostico para Modelos Lineares Mistos – p.43/58
Tipos de perturbação
Perturbação na matriz de covariâncias de εIdentificar observações sensíveis a suposição dehomocedasticidade.
Perturbação na variável respostaIdentificar observações sensíveis a pequenas perturbaçõesna variável resposta; No caso linear normal destacam-seas observações com alto erro de predição |yi − yi|[Schwarzmann (1991)].
Perturbação na matriz de covariâncias de γi.
Identificar unidades experimentais sensíveis a suposiçãode homogeneidade entre as matrizes de covariâncias dosefeitos aleatórios.⊕
Metodos de Diagnostico para Modelos Lineares Mistos – p.44/58
Tipos de perturbação
Perturbação na matriz de covariâncias de εIdentificar observações sensíveis a suposição dehomocedasticidade.
Perturbação na variável respostaIdentificar observações sensíveis a pequenas perturbaçõesna variável resposta; No caso linear normal destacam-seas observações com alto erro de predição |yi − yi|[Schwarzmann (1991)].
Perturbação na matriz de covariâncias de γi.Identificar unidades experimentais sensíveis a suposiçãode homogeneidade entre as matrizes de covariâncias dosefeitos aleatórios.⊕
Metodos de Diagnostico para Modelos Lineares Mistos – p.44/58
Figura 7: Perturbação na matriz de covariâncias de ε. ∗
Observacao
|dm
ax|
0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
1.2
12.2
29.4
Metodos de Diagnostico para Modelos Lineares Mistos – p.45/58
Figura 8: Perturbação na variável resposta. ∗
Observacao
|dm
ax|
0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
1.2 12.2
29.4
Metodos de Diagnostico para Modelos Lineares Mistos – p.46/58
Figura 9: Perturbação na matriz de covariâncias de γi. ∗
Unidade Experimental
|dm
ax|
0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
29
Metodos de Diagnostico para Modelos Lineares Mistos – p.47/58
Caso ponderado
Lesaffre & Verbeke (1998) consideraram o modelo linear misto,com a respectiva matriz de covariâncias Var[γi] = G nãoestruturada. Nesse caso, a log-verossimilhança pode ser reescritada seguinte forma
L(ψ) =
c∑
i=1
Li(ψ) =
c∑
i=1
(−1/2)ln |Vi| + r>i V−1
i ri
, (35)
com ri = ξi = Yi − Xiβ e Li(ψ) representando alog-verossimilhança referente a i-esima U.E., respectivamente. Elessurgeriram perturbar o modelo da seguinte forma
Li(ψ|w) =
c∑
i=1
wiLi(ψ), (36)
em que w é um vetor c× 1 de perturbações (w0 = 1c).Metodos de Diagnostico para Modelos Lineares Mistos – p.48/58
Influência local referente ao i-esimo indivíduo
Lesaffre & Verbeke (1998) definiram a influência local referenteao i-ésimo indíviduo como sendo a curvatura normal (33) calculadana direção do vetor di, com di representando um vetor dedimensão c× 1 com valor 1 na i-esima posição e zero nas demais.Nesse caso a curvatura normal é dada por
Ci = 2∣∣∣d>
i H>L−1Hdi
∣∣∣ = 2∣∣∣H>
i L−1Hi
∣∣∣ , (37)
com Hi representando a i-esima coluna da matriz H.
Metodos de Diagnostico para Modelos Lineares Mistos – p.49/58
Propriedades de Ci
Ci converge para 2ρi, com ρi representando a proposta dePregibon (1981) para medir a influência da i-esima unidadeexperimental, via aproximação por 1 passo de ψ(i) [Verbeke(1995)];
Pode-se mostrar que
Ci = 2
c∑
j=1
λjv2ji, (38)
com λ1 ≥ λ2 ≥ · · · ≥ λc denotando os c autovalores de−H>L−1H e dmax ≡ v1, · · · ,vc os autovetores ortogonaisnormalizados correspondentes, com vji representando oi-esimo componente do vetor vj . ⊕
Metodos de Diagnostico para Modelos Lineares Mistos – p.50/58
Figura 10: Caso ponderado∗
Unidade Experimental
Ci
0 5 10 15 20 25 30
02
46
12
29
Unidade Experimental
|dm
ax|
0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
12
29
Metodos de Diagnostico para Modelos Lineares Mistos – p.51/58
Decomposição de Ci
Podemos reescrever Ci como
Ci = 2||L−1|| cosφi||Hi||2, (39)
com φi representando o ângulo entre vec(−L−1) e vec(HiH>i ), com
||A|| = |vec(A)| denotando a norma de Frobenius da matriz A. A
idéia de Lesaffre & Verbeke (1998) foi decompor ||Hi||2 como a soma
dos quadrados das normas da contribuição do i-esimo indivíduo para
o vetor score de β, θ e σ2, ou seja,
Metodos de Diagnostico para Modelos Lineares Mistos – p.52/58
Decomposição de Ci
||Hi||2 = ||X>i V−1
i ri||2 +1
2||Z>
i V−1i Zi − Z>
i V−1i rir
>i V−1
i Zi||2
+1
4||trV−1
i − r>i V−1i V−1
i ri||2. (40)
Desta forma, pode-se mostrar que Ci = ai + bi + di com
ai = 2
cosφi cosψi||L−1||||XiX>
i||2||Ri||2, (41)
bi =
cosφi cosκi||L−1||||ZiZ>
i||2||Ini
−RiR>i||2, (42)
di =1
2
cosφi cos2 νi||L−1||
||V−1
i ||2||Ini−RiR>
i||2. (43)
Metodos de Diagnostico para Modelos Lineares Mistos – p.53/58
Decomposição de Ci
em que ψi, κi e υi representam ângulos similares a φi e
Ri = V−1/2i
ri, Xi = V−1/2i
Xi e Zi = V−1/2i
Zi.
||L−1|| é a parte comum a todas as componentes;
ψi, κi e υi representam as partes não interpretáveis de ai, bi edi, respectivamente;
Partes interpretáveis:
||XiX>i||2 (ai);
||Ri||2 (ai);
||ZiZ>i||2 (bi);
||Ini−RiR>
i||2 (bi e di);
||V−1i ||2 (di).
Metodos de Diagnostico para Modelos Lineares Mistos – p.54/58
Decomposição de Ci
Um alto valor de ai pode ser causado por uma unidadeexperimental que tem muitas observações ou que não é bempredita pelo modelo;
bi tende a assumir um valor alto, para uma unidadeexperimental com muitas observações com a respectiva matrizde covariâncias mal ajustada;
di tende a assumir um grande valor, para uma unidadeexperimental com pequena variabilidade e com respectivamatriz de covariâncias mal ajustada;
Em um estudo desbalanceado as partes interpretáveis apodem sofrer uma alta influência do número de observaçõesde cada unidade experimental;
Através da decomposição proposta podemos explicar por qualmotivo uma unidade experimental é influente.
Metodos de Diagnostico para Modelos Lineares Mistos – p.55/58
Figura 11: Quantidades interpretáveis de Ci
Unidade Experimental
norx
0 5 10 15 20 25 30
7075
8085
9095
(f) Norma de Frobenius da Matriz de planejamento dos efeitos fixos padronizada
Unidade Experimental
|ri|^
2
0 5 10 15 20 25 30
12
34
5
(g) Norma de Frobenius dos residuos marginais padronizados
12
29
Unidade Experimental
nore
si
0 5 10 15 20 25 30
510
1520
25
Residuos para a estruturada matriz de covariancias
12
29
Metodos de Diagnostico para Modelos Lineares Mistos – p.56/58
Unidades experimentais “atípicas".
# 11: Essa criança utilizou a escova convencional e apresentouo menor índice de placa bacteriana pré-escovação (0.60);
# 12: Essa criança utilizou a escova convencional e apresentouo segundo menor índice de placa bacteriana pré-escovação(0.71) na segunda sessão; apresenta também um alto índice,entre as 25% maiores, de placa bacteriana pós-escovação(1.31) na quarta sessão;
# 29: Essa criança apesar de ter utilizado a escova monobloco,apresentou todos seus índices de placa bacterianapós-escovação entre os 25% menores índices, inclusive omenor (0.37) obtido na quarta sessão.
Metodos de Diagnostico para Modelos Lineares Mistos – p.57/58
Pesquisas futuras
Estender o gráfico da variável adicionada para efeitosaleatórios;
Utilizar o EBLUP com confundimento mínimo, como ferramentapara avaliar a suposição de normalidade dos efeitos aleatórios;
Estender as técnicas de diagnóstico aqui apresentadas para osmodelos lineares mistos sem se restringir ao modelo deindependência condicional, modelos não-lineares mistos epara os modelos lineares generalizados mistos;
Estudar a sensibilidade das medidas de diagnósticoapresentadas, devido a má especificação das matrizes R e D;
Criação de uma macro (S-Plus).
Metodos de Diagnostico para Modelos Lineares Mistos – p.58/58
Recommended