Upload
phungliem
View
224
Download
0
Embed Size (px)
Citation preview
Resenha dos Modelos LinearesGeneralizados
Gilberto A. PaulaDepartamento de Estatıstica
IME-USP
MAE5763 - Modelos Lineares Generalizados2o semestre de 2011
Resenha dos Modelos Lineares Generalizados – p. 1/67
SumárioIntroduc ao
A ideia dos MLGs
Nova famılia
Um exemplo simples
Contribuic oes dos MLGs
Modelos de quase-verossimilhanca
Equac oes de estimac ao generalizadas
Modelos aditivos generalizados
Resenha dos Modelos Lineares Generalizados – p. 2/67
Modelos n ao lineares de famılia exponencial
Modelos lineares generalizados duplos
Modelos lineares generalizados mistos
Modelos lineares generalizados hier arquicos
Aplicativos
Conclus oes
Refer encias
Resenha dos Modelos Lineares Generalizados – p. 3/67
IntroduçãoO objetivo desta palestra inaugural é fazer uma resenha
dos Modelos Lineares Generalizados(MLGs) criados há
quase 40 anos por Nelder e Wedderburn (1972).
Resenha dos Modelos Lineares Generalizados – p. 4/67
IntroduçãoO objetivo desta palestra inaugural é fazer uma resenha
dos Modelos Lineares Generalizados(MLGs) criados há
quase 40 anos por Nelder e Wedderburn (1972).
Após uma breve introdução dos MLGs apresentaremos em
ordem cronológica algumas das principais classes de
modelos de regressão que foram motivadas pelos MLGs.
Algumas dessas classes serão estudadas na disciplina
Modelos Lineares Generalizados. Exemplos ilustrativos
são também apresentados ao longo do texto.
Resenha dos Modelos Lineares Generalizados – p. 4/67
Antes dos MLGsOs MLGs foram criados com o objetivo de reunir numa
mesma família vários modelos estatísticos que eram
tratados separadamente.
Em geral nas análises de regressão procurava-se algum
tipo de transformação que levasse à normalidade, tais
como a transformação de Box-Cox (1964)
z =
{
yλ−1λ se λ 6= 0
logy se λ = 0,
em que y > 0 e λ é uma constante desconhecida.
Resenha dos Modelos Lineares Generalizados – p. 5/67
A ideia dos MLGsO modelo normal linear é definido por
(1) Yiindep∼ N(µi, σ
2) (i = 1, . . . , n),
(2) µi = ηi = β1 + β2xi2 + · · ·+ βpxip.
Resenha dos Modelos Lineares Generalizados – p. 6/67
A ideia dos MLGsO modelo normal linear é definido por
(1) Yiindep∼ N(µi, σ
2) (i = 1, . . . , n),
(2) µi = ηi = β1 + β2xi2 + · · ·+ βpxip.
Os MLGs são definidos por
(1) Yiindep∼ FE(µi, φ) (i = 1, . . . , n),
(2) µi = g−1(ηi),
em que E(Yi) = µi, Var(Yi) = φ−1V (µi), V (µi) função de
variância, g(·) função de ligação, φ−1 parâmetro de
dispersão e ηi preditor linear.
Resenha dos Modelos Lineares Generalizados – p. 6/67
Nova famíliaAlguns modelos da nova família:
Resenha dos Modelos Lineares Generalizados – p. 7/67
Nova famíliaAlguns modelos da nova família:
Modelo logístico-linear
(1) Yiindep∼ Be(µi) (i = 1, . . . , n), (0 < µi < 1),
(2) µi =exp(ηi)
1+exp(ηi).
Resenha dos Modelos Lineares Generalizados – p. 7/67
Nova famíliaAlguns modelos da nova família:
Modelo logístico-linear
(1) Yiindep∼ Be(µi) (i = 1, . . . , n), (0 < µi < 1),
(2) µi =exp(ηi)
1+exp(ηi).
Modelo recíproco gama
(1) Yiindep∼ G(µi, φ) (i = 1, . . . , n),
(2) µi = η−1i ,
em que (µi > 0) e (Yi > 0).
Resenha dos Modelos Lineares Generalizados – p. 7/67
Nova famíliaModelo log-linear de Poisson
(1) Yiindep∼ P(µi) (i = 1, . . . , n),
(2) µi = eηi ,
em que (Yi = 0, 1, 2, . . .), (µi > 0) e (Var(Yi) = µi).
Resenha dos Modelos Lineares Generalizados – p. 8/67
Nova famíliaModelo log-linear de Poisson
(1) Yiindep∼ P(µi) (i = 1, . . . , n),
(2) µi = eηi ,
em que (Yi = 0, 1, 2, . . .), (µi > 0) e (Var(Yi) = µi).
Modelo log-linear binomial negativo
(1) Yiindep∼ BN(µi, φ) (i = 1, . . . , n),
(2) µi = eηi ,
em que (Yi = 0, 1, 2, . . .), (µi > 0) e (Var(Yi) = µi +µ2
i
φ ).
Resenha dos Modelos Lineares Generalizados – p. 8/67
Um exemplo simplesVamos considerar um exemplo em que modelos de
regressão normal linear são comparados com um modelo
log-linear de Poisson para ajustar dados de contagem.
resposta: número de bactérias sobreviventes em
amostras de um produto elimentício exposto a uma
temperatura de 300oF.
variável explicativa: tempo de exposição do produto
(em minutos).
(Montgomery, Peck e Vining, 2001) (Paula, 2010).
Resenha dos Modelos Lineares Generalizados – p. 9/67
Descrição dados bactérias
Bactérias 175 108 95 82 71 50Exposição 1 2 3 4 5 6Bactérias 49 31 28 17 16 11Exposição 7 8 9 10 11 12
Tempo de Exposicao
Nu
me
ro d
e B
acte
ria
s
2 4 6 8 10 12
50
10
01
50
Resenha dos Modelos Lineares Generalizados – p. 10/67
Ajuste modelos nomaisCom base na aproximação da Poisson pela normal vamos
propor inicialmente os seguintes modelos:
√yi = α + βtempoi + ǫi
e
√yi = α + βtempoi + γtempo2i + ǫi,
em que ǫi ∼ N(0, σ2) são erros mutuamente independentes.
Pelos gráficos de resíduos a observação #1 não foi bem
ajustada pelos dois modelos.
Resenha dos Modelos Lineares Generalizados – p. 11/67
Resíduos modelos normais
Percentis da N(0,1)
Re
sid
uo
Stu
de
ntiza
do
-1 0 1
-20
24
6
(linear)Percentis da N(0,1)
Re
sid
uo
Stu
de
ntiza
do
-1 0 1-2
02
4
(quadratico)
Resenha dos Modelos Lineares Generalizados – p. 12/67
Ajuste modelo de PoissonVamos supor agora o seguinte modelo log-linear de
Poisson
logµi = α + βtempoi,
em que Yi ∼ P(µi). As estimativas desse modelo são
apresentadas na tabela abaixo.
Parâmetro Estimativa E/E.Padrãoα 5,30 88,34β -0,23 -23,00
Desvio 8,42 (10 g.l.)
Resenha dos Modelos Lineares Generalizados – p. 13/67
Resíduos modelo de Poisson
Percentis da N(0,1)
Com
pone
nte
do D
esvi
o
-1 0 1
-2-1
01
23
Resenha dos Modelos Lineares Generalizados – p. 14/67
Interpretação modelo de PoissonO modelo ajustado fica então dado por
µ(x) = e5,30−0,23x,
em que x denota o tempo de exposição.
Resenha dos Modelos Lineares Generalizados – p. 15/67
Interpretação modelo de PoissonO modelo ajustado fica então dado por
µ(x) = e5,30−0,23x,
em que x denota o tempo de exposição. Logo, se
diminuirmos de uma unidade o tempo de exposição a
variação no valor esperado fica dada por
µ(x− 1)
µ(x)= e0,23 = 1, 259.
Ou seja, o número esperado de sobreviventes aumenta
aproximadamente 25,9%.
Resenha dos Modelos Lineares Generalizados – p. 15/67
Curva ajustada modelo de Poisson
Tempo de Exposicao
Nu
me
ro d
e B
acte
ria
s
2 4 6 8 10 12
50
10
01
50
Resenha dos Modelos Lineares Generalizados – p. 16/67
Contribuições dos MLGsAlgumas contribuições importantes dos MLGs.
Resenha dos Modelos Lineares Generalizados – p. 17/67
Contribuições dos MLGsAlgumas contribuições importantes dos MLGs.
(1) Ligação entre a média e o preditor linear: µi = g−1(ηi).
Para cada distribuição da família exponencial novos
modelos podem ser gerados variando-se a função de
ligação g(·).
Resenha dos Modelos Lineares Generalizados – p. 17/67
Contribuições dos MLGsAlgumas contribuições importantes dos MLGs.
(1) Ligação entre a média e o preditor linear: µi = g−1(ηi).
Para cada distribuição da família exponencial novos
modelos podem ser gerados variando-se a função de
ligação g(·).
(2) Função desvio: D(y; µ) = 2{L(y,y)− L(µ,y)}.É uma distância entre as (log) verossimilhnças do modelo
saturado e do modelo postulado. Para alguns modelos a
distribuição do desvio é uma qui-quadrado facilitando
avaliar a qualidade do ajuste.
Resenha dos Modelos Lineares Generalizados – p. 17/67
Contribuições dos MLGs
(3) Resíduo componente do desvio: tDi= ±
√
d2(yi, µi).
Esse resíduo é muito utilizado para detectar pontos
aberrantes e para avaliar a adequação da distribuição
utlizada para a resposta.
Resenha dos Modelos Lineares Generalizados – p. 18/67
Contribuições dos MLGs
(3) Resíduo componente do desvio: tDi= ±
√
d2(yi, µi).
Esse resíduo é muito utilizado para detectar pontos
aberrantes e para avaliar a adequação da distribuição
utlizada para a resposta.
(4) Função de variância: V (µ)
Caracteriza a distribuição da família exponencial. Ou seja,
para cada V (µ) existe apenas uma distribuição na família
exponencial e vice-versa. Além disso, quando φ → ∞
tem-se que√φ(Y − µ) →d N(0, V (µ)) (Jørgensen, 1987).
Resenha dos Modelos Lineares Generalizados – p. 18/67
Contribuições dos MLGs(5) Processo iterativo na forma de mínimos quadrados
A estimativa de máxima verossimilhança β pode ser obtida
através do processo iterativo de mínimos quadrados
reponderados
β(m+1) = (XTW(m)X)−1XTW(m)z(m),
com matriz modelo X, matriz de pesos W e variável
dependende modificada z. Esse processo iterativo é
inicializado nos próprios valores observados e em geral
converge num número finito de passos.
Resenha dos Modelos Lineares Generalizados – p. 19/67
Quase-verossimilhançaWedderburn (1974) apresentou uma extensão dos MLGs
criando uma função de (log) quase-verossimilhança:
Q(µ; y) =1
σ2
∫ µ
y
y − t
V (t)dt,
em que V (µ) > 0 e σ2 > 0.
Resenha dos Modelos Lineares Generalizados – p. 20/67
Quase-verossimilhançaWedderburn (1974) apresentou uma extensão dos MLGs
criando uma função de (log) quase-verossimilhança:
Q(µ; y) =1
σ2
∫ µ
y
y − t
V (t)dt,
em que V (µ) > 0 e σ2 > 0. Se V (µ) for uma função de
variância então Q(µ; y) é uma log-verossimilhança.
Todavia, pode-se mostrar que Q(µ; y) segue condições
básicas de regularidade e consequentemente tem-se que
E(Y ) = µ e Var(Y ) = σ2V (µ).
Resenha dos Modelos Lineares Generalizados – p. 20/67
Modelos de QVAssim, os modelos de quase-verossimilhança podem ser
definidos da seguinte maneira:
(1) Yiindep∼ Q(µi, yi) (i = 1, . . . , n),
(2) µi = g−1(ηi),
em que E(Yi) = µi, Var(Yi) = σ2V (µi), V (µi) > 0, g(·) função
de ligação e σ2 > 0 parâmetro de dispersão.
Resenha dos Modelos Lineares Generalizados – p. 21/67
Modelos de QVAssim, os modelos de quase-verossimilhança podem ser
definidos da seguinte maneira:
(1) Yiindep∼ Q(µi, yi) (i = 1, . . . , n),
(2) µi = g−1(ηi),
em que E(Yi) = µi, Var(Yi) = σ2V (µi), V (µi) > 0, g(·) função
de ligação e σ2 > 0 parâmetro de dispersão. O parâmetro β
do preditor linear ηi pode ser estimado através de um
processo iterativo de mínimos quadrados reponderados
similar aos MLGs.
Resenha dos Modelos Lineares Generalizados – p. 21/67
Exemplo modelo de QVSeja Yij a proporção da área afetada da folha da cevada da
variedade j no local i (i = 1, . . . , 9 e j = 1, . . . , 10)
(McCullagh e Nelder, 1989, Tabela 9.2).
Resenha dos Modelos Lineares Generalizados – p. 22/67
Exemplo modelo de QVSeja Yij a proporção da área afetada da folha da cevada da
variedade j no local i (i = 1, . . . , 9 e j = 1, . . . , 10)
(McCullagh e Nelder, 1989, Tabela 9.2). Como 0 ≤ Yij ≤ 1
podemos propor o seguinte modelo de QV:
(1) Yijindep∼ Q(µij , yij) (0 < µij < 1),
(2) µij =exp(ηij)
1+exp(ηij), ηij = α + βi + γj ,
em que µij = E(Yij) e Var(Yij) = σ2V (µij).
Resenha dos Modelos Lineares Generalizados – p. 22/67
Exemplo modelo de QVSeja Yij a proporção da área afetada da folha da cevada da
variedade j no local i (i = 1, . . . , 9 e j = 1, . . . , 10)
(McCullagh e Nelder, 1989, Tabela 9.2). Como 0 ≤ Yij ≤ 1
podemos propor o seguinte modelo de QV:
(1) Yijindep∼ Q(µij , yij) (0 < µij < 1),
(2) µij =exp(ηij)
1+exp(ηij), ηij = α + βi + γj ,
em que µij = E(Yij) e Var(Yij) = σ2V (µij). Vamos comparar
os ajustes com V (µij) = µij(1− µij) e V (µij) = µ2ij(1− µij)2.
Resenha dos Modelos Lineares Generalizados – p. 22/67
Resíduos V (µij) = µij(1− µij)
−8 −6 −4 −2 0 2
−2−1
01
23
Logito valores ajustados
Res
iduo
de
Pea
rson
Resenha dos Modelos Lineares Generalizados – p. 23/67
Resíduos V (µij) = µ2ij(1− µij)
2
−8 −6 −4 −2 0 2
−10
12
3
Logito valores ajustados
Res
iduo
de
Pea
rson
Resenha dos Modelos Lineares Generalizados – p. 24/67
Dados correlacionadosComo ajustar dados correlacionados não Gaussianos?
Resenha dos Modelos Lineares Generalizados – p. 25/67
Dados correlacionadosComo ajustar dados correlacionados não Gaussianos?
Liang e Zeger (1986) propuseram as Equações de
Estimação Generalizadas (EEGs) que são uma extensão
dos modelos de QV para dados correlacionados.
Resenha dos Modelos Lineares Generalizados – p. 25/67
Dados correlacionadosComo ajustar dados correlacionados não Gaussianos?
Liang e Zeger (1986) propuseram as Equações de
Estimação Generalizadas (EEGs) que são uma extensão
dos modelos de QV para dados correlacionados. Supondo
que yi = (yi1, . . . , yini)T correspondem às ni respostas do
i-ésimo indivíduo as EEGs são definidas por:
(1) Yij ∼ FE(µij , φ) (i = 1, . . . , n), (j = 1, . . . , ni),
(2) µij = g−1(ηij),
(3) corr(Yi) = Ri(ρ), em que ρ = (ρ1, . . . , ρq)T .
Resenha dos Modelos Lineares Generalizados – p. 25/67
Exemplo dados longitudinaisConsidere os dados abaixo descritos em Myers,
Montgomery e Vining (2002), em que pacientes com
problemas respiratórios receberam dois tratamentos:
Visita 1 Visita 2 Visita 3 Visita 4Tratamento 22/27 13/27 5/27 1/27Placebo 20/29 18/29 21/29 15/29
27 receberam uma droga ativa e 29 receberam placebo.
Cada paciente foi observado em quatro ocasiões em que
mediu-se a condição respiratória (boa ou ruim).
Resenha dos Modelos Lineares Generalizados – p. 26/67
Proposta de EEGForam observados para cada paciente além do Trat (=0
droga ativa, =1 placebo) as variáveis explicativas: Idade
(em anos), Gênero (=0 feminino, =1 masculino) e Base (=0
ausência, =1 presença).
Resenha dos Modelos Lineares Generalizados – p. 27/67
Proposta de EEGForam observados para cada paciente além do Trat (=0
droga ativa, =1 placebo) as variáveis explicativas: Idade
(em anos), Gênero (=0 feminino, =1 masculino) e Base (=0
ausência, =1 presença). Seja Yij a condição (=1 ruim, =0
boa) do i-ésimo paciente na j-ésima ocasião, i = 1, . . . , 56 e
j = 1, 2, 3, 4. Proposta de EEG:
(1) Yij ∼ Be(µi) (0 < µi < 1),
(2) µi =exp(ηi)
1+exp(ηi), em que
ηi = α + β1Idadei + β2Trati + β3Generoi + β4Basei,
(3) corr(Yij , Yij′) = ρ|j−j′| para j 6= j′ (AR(1)).
Resenha dos Modelos Lineares Generalizados – p. 27/67
Resultados dos ajustesEstimativas dos ajustes através de modelos logísticos
supondo independência e estrutura de correlação AR(1).
Correlação AR(1) IndependênciaEfeito Estimativa z-robusto Estimativa z-robustoIntercepto -0,377 -0,386 -0,404 -0,474Idade 0,043 3,380 0,048 3,443Tratamento 1,001 3,066 1,070 3,425Gênero -2,003 -2,988 -2,178 -3,162Base 0,492 0,586 0,498 0,977ρ 0,275 0,00
Resenha dos Modelos Lineares Generalizados – p. 28/67
Resíduos EEG
−3 −2 −1 0 1 2 3
−8
−6
−4
−2
02
Percentis da N(0,1)
Re
sid
uo
de
Pe
ars
on
Pa
dro
niz
ad
o
Resenha dos Modelos Lineares Generalizados – p. 29/67
Modelos aditivosHastie e Tibshirane (1990) propuseram substituir o preditor
linear dos MLGs por um preditor aditivo formado por
funções não paramétricas f1(X1), . . . , fp(Xp) das variáveis
explicativas X1, . . . , Xp (por exemplo splines cúbicas).
Resenha dos Modelos Lineares Generalizados – p. 30/67
Modelos aditivosHastie e Tibshirane (1990) propuseram substituir o preditor
linear dos MLGs por um preditor aditivo formado por
funções não paramétricas f1(X1), . . . , fp(Xp) das variáveis
explicativas X1, . . . , Xp (por exemplo splines cúbicas).
Esse nova classe de modelos denominada Modelos
Aditivos Generalizados é definida por:
(1) Yiindep∼ FE(µi, φ) (i = 1, . . . , n),
(2) µi = g−1(ηi),
em que ηi = α + f1(x1i) + · · ·+ fp(xpi).
Resenha dos Modelos Lineares Generalizados – p. 30/67
Modelos aditivosAs funções f(x) são não paramétricas e em geral
assumem a forma f(x) =∑r
ℓ=1 bℓ(x)βℓ, em que
b1(x), . . . , br(x) é a base do espaço de funções e β1, . . . , βr
são parâmetros a serem estimados. O logaritmo da função
de verossimilhança penalizada assume a forma
Lp(θ) = L(θ)− 1
2
p∑
j=1
λjβTj Sjβj ,
em que θ = (α,βT1 , . . . , β
Tp )
T , βj = (βj1, . . . , βjrj)T , Sj é uma
matriz rj × rj e λj são os parâmetros de suavização.
Resenha dos Modelos Lineares Generalizados – p. 31/67
Modelos aditivosAs funções f(x) são não paramétricas e em geral
assumem a forma f(x) =∑r
ℓ=1 bℓ(x)βℓ, em que
b1(x), . . . , br(x) é a base do espaço de funções e β1, . . . , βr
são parâmetros a serem estimados. O logaritmo da função
de verossimilhança penalizada assume a forma
Lp(θ) = L(θ)− 1
2
p∑
j=1
λjβTj Sjβj ,
em que θ = (α,βT1 , . . . , β
Tp )
T , βj = (βj1, . . . , βjrj)T , Sj é uma
matriz rj × rj e λj são os parâmetros de suavização.
Resenha dos Modelos Lineares Generalizados – p. 31/67
Exemplo perfil de clientesConsidere os dados apresentados em Neter et al. (1996)
sobre o perfil dos clientes de uma determinada loja
oriundos de 110 áreas de uma cidade. O objetivo do estudo
é relacionar o número de clientes em cada área (Nclientes)
com as seguintes variáveis explicativas em cada área:
número de domicílios (em mil) (Domic), renda média anual
(em mil USD) (Renda), idade média dos domicílios (em
anos) (Idade), distância ao concorrente mais próximo (em
milhas) (Dist1) e distância à loja (em milhas) (Dist2).
Resenha dos Modelos Lineares Generalizados – p. 32/67
Diagramas de dispersão
20000 40000 60000 80000 120000
05
1015
2025
30
Renda
Clie
ntes
0 10 20 30 40 50 60
05
1015
2025
30
Idade
Clie
ntes
1 2 3 4 5 6
05
1015
2025
30
Dist1
Clie
ntes
2 4 6 8 10
05
1015
2025
30
Dist2
Clie
ntes
Resenha dos Modelos Lineares Generalizados – p. 33/67
Estimativas modelo de PoissonSupor o MLG:
(1) Nclientesi ∼ P(µi) (i = 1, . . . , 110),
(2) logµi =α+ β1Domici + β2Rendai + β3Idadei + β4Dist1i + β5Dist2i.
Efeito Parâmetro Estimativa E/E.PadrãoConstante α 2,942 14,21Domicílio β1 0,606 4,27Renda β2 -0,012 -5,54Idade β3 -0,004 -2,09Dist1 β4 0,168 6,54Dist2 β5 -0,129 -7,95
Resenha dos Modelos Lineares Generalizados – p. 34/67
Resíduos modelo de Poisson
Percentis da N(0,1)
Com
pone
nte
do D
esvi
o
-2 -1 0 1 2
-20
2
Resenha dos Modelos Lineares Generalizados – p. 35/67
Ajuste GAMlogµi = α + S(Domic)i + S(Renda)i + S(Idade)i+S(Dist1)i + S(Dist2)i.
20000 40000 60000 80000 120000
−1.0
−0.5
0.0
0.5
1.0
renda
s(re
nda,
1)
0 10 20 30 40 50 60
−1.0
−0.5
0.0
0.5
1.0
idade
s(id
ade,
1)
1 2 3 4 5 6
−1.0
−0.5
0.0
0.5
1.0
dist1
s(di
st1,
3.12
)
2 4 6 8 10
−1.0
−0.5
0.0
0.5
1.0
dist2
s(di
st2,
1)
Resenha dos Modelos Lineares Generalizados – p. 36/67
Comparação ajustes
5 10 15 20 25 30 35
510
1520
2530
Predito ajuste GLM
Pre
dito
aju
ste
GA
M
Resenha dos Modelos Lineares Generalizados – p. 37/67
Modelos não linearesCordeiro e Paula (1989) propuseram os Modelos Não
Lineares de Família Exponencial, em que o preditor linear
dos MLGs é substituído por um preditor não linear.
Resenha dos Modelos Lineares Generalizados – p. 38/67
Modelos não linearesCordeiro e Paula (1989) propuseram os Modelos Não
Lineares de Família Exponencial, em que o preditor linear
dos MLGs é substituído por um preditor não linear. Wei
(1998) agregou novos resultados a esta classe que é
definida por:
(1) Yiindep∼ FE(µi, φ) (i = 1, . . . , n),
(2) µi = g−1(ηi), em que ηi = f(xi;β),
sendo f(xi;β) uma função não linear em β.
Resenha dos Modelos Lineares Generalizados – p. 38/67
Modelo mistura de drogasModelo proposto por Finney (1978) para avaliar a mistura
de duas drogas A e B:
(1) Yiindep∼ FE(µi, φ) (i = 1, . . . , n),
(2) g(µi) = α + δlog{x1i + ρx2i + k√ρx1ix2i},
Resenha dos Modelos Lineares Generalizados – p. 39/67
Modelo mistura de drogasModelo proposto por Finney (1978) para avaliar a mistura
de duas drogas A e B:
(1) Yiindep∼ FE(µi, φ) (i = 1, . . . , n),
(2) g(µi) = α + δlog{x1i + ρx2i + k√ρx1ix2i},
em que Y é a resposta, x1 e x2 representam as log-doses
das drogas A e B, respectivamente, δ é a inclinação comum
na relação log-dose e resposta, ρ é a potência da droga B
em relação à doga A e k representa a interação entre as
duas drogas (k = 0 ausência de interação, k > 0 sinergismo
e k < 0 antagonistmo).
Resenha dos Modelos Lineares Generalizados – p. 39/67
Coelhos europeus
0 200 400 600 800
5010
015
020
025
0
Idade do coelho(em dias)
Pes
o da
s le
ntes
dos
olh
os d
o co
elho
(em
mg)
Resenha dos Modelos Lineares Generalizados – p. 40/67
Modelo normal inversoWei (1998) (Possamai, 2009) propôs o seguinte modelo
não linear para explicar o peso das lentes (em mg) dos
olhos de coelhos europeus em função da idade (em anos):
Resenha dos Modelos Lineares Generalizados – p. 41/67
Modelo normal inversoWei (1998) (Possamai, 2009) propôs o seguinte modelo
não linear para explicar o peso das lentes (em mg) dos
olhos de coelhos europeus em função da idade (em anos):
(1) Yiindep∼ NI(µi, φ) (i = 1, . . . , 76),
(2) µi = µexp{
− βxi+γ
}
ou logµi = α− βxi+γ ,
em que Yi e xi denotam, respectivamente, o peso da lente
e a idade do i-ésimo coelho, µ é a assintota ou o peso
máximo esperado para as lentes dos coelhos, β está
relacionado com o crescimento da curva e γ com a idade
dos coelhos. Note que Var(Yi) = φ−1µ3i .
Resenha dos Modelos Lineares Generalizados – p. 41/67
Ajuste do modelo
0 200 400 600 800
5010
015
020
025
0
Idade do coelho(em dias)
Pes
o da
s le
ntes
dos
olh
os d
o co
elho
(em
mg)
Resenha dos Modelos Lineares Generalizados – p. 42/67
MLGs duplosSmyth (1989) introduziu os modelos lineares generalizados
duplos com modelagem conjunta da média e do parâmetro
de dispersão, os quais são definidos por:
(1) Yiindep∼ FE(µi, φi) (i = 1, . . . , n),
(2) µi = g−1(ηi), com ηi = xTi β,
(3) φi = h−1(λi), com λi = zTi γ,
em que xi = (xi1, . . . , xip)T e zi = (zi1, . . . , ziq)
T contêm
valores de variáveis explicativas e β = (β1, . . . , βp)T e
γ = (γ1, . . . , γq)T são parâmetros a serem estimados.
Resenha dos Modelos Lineares Generalizados – p. 43/67
MLGs duplosSmyth (1989) introduziu os modelos lineares generalizados
duplos com modelagem conjunta da média e do parâmetro
de dispersão, os quais são definidos por:
(1) Yiindep∼ FE(µi, φi) (i = 1, . . . , n),
(2) µi = g−1(ηi), com ηi = xTi β,
(3) φi = h−1(λi), com λi = zTi γ,
em que xi = (xi1, . . . , xip)T e zi = (zi1, . . . , ziq)
T contêm
valores de variáveis explicativas e β = (β1, . . . , βp)T e
γ = (γ1, . . . , γq)T são parâmetros a serem estimados.
Resenha dos Modelos Lineares Generalizados – p. 43/67
Comparação de SnacksVamos considerar um estudo desenvolvido na Faculdade
de Saúde Pública da USP em que 5 formas diferentes de
um novo tipo de snack, denotados por A, B, C, D e E, com
baixo teor de gordura saturada e de ácidos graxos, foram
comparados ao longo de 20 semanas. Neste novo produto
optou-se por substituir, totalmente ou parcialmente, o
agente responsável pela fixação do aroma do produto, a
gordura vegetal hidrogenada por óleo de canola. Uma das
variáveis de interesse é o comportamento da textura dos
produtos através da força necessária para o cisalhamento.
Resenha dos Modelos Lineares Generalizados – p. 44/67
Comparação de SnacksVamos considerar um estudo desenvolvido na Faculdade
de Saúde Pública da USP em que 5 formas diferentes de
um novo tipo de snack, denotados por A, B, C, D e E, com
baixo teor de gordura saturada e de ácidos graxos, foram
comparados ao longo de 20 semanas. Neste novo produto
optou-se por substituir, totalmente ou parcialmente, o
agente responsável pela fixação do aroma do produto, a
gordura vegetal hidrogenada por óleo de canola. Uma das
variáveis de interesse é o comportamento da textura dos
produtos através da força necessária para o cisalhamento.
Resenha dos Modelos Lineares Generalizados – p. 44/67
Boxplots segundo a semana
2 4 6 8 10 12 14 16 18 20
4060
8010
012
0
Semanas
Cisa
lham
ento
Resenha dos Modelos Lineares Generalizados – p. 45/67
Boxplots segundo o grupo
A B C D E
4060
8010
012
0
Grupo
Cisa
lham
ento
Resenha dos Modelos Lineares Generalizados – p. 46/67
Média e CV segundo a semana
5 10 15 20
4550
5560
6570
Semana
Cisa
lham
ento
Med
io
5 10 15 20
2025
30
Semana
CV C
isalh
amen
to
Resenha dos Modelos Lineares Generalizados – p. 47/67
Modelagem da média e dispersãoSeja Yijk a força de cisalhamento referente à k-ésima
réplica do i-ésimo grupo na j-ésima semana. Vamos supor
que Yijk ∼ G(µij , φij) com parte sistemática dada por
µij = β0 + βi + β6semanaj + β7semana2j e
logφij = γ0 + γi + γ6semanaj + γ7semana2j ,
em que β1 = 0 e γ1 = 0. Portanto β0 e γ0 são os efeitos da
forma A, controlando-se pela semana, na média e na
dispersão, respectivamente, enquanto β0 + βi e γ0 + γi são
os efeitos das demais formas.
Resenha dos Modelos Lineares Generalizados – p. 48/67
Estimativas da média e dispersão
Média DispersãoEfeito Estimativa Valor-z Estimativa Valor-zConstante 36,990 11,53 1,560 7,27Grupo B -10,783 -6,40 0,468 2,95Grupo C -3,487 -1,98 0,050 0,31Grupo D -14,829 -9,18 0,815 5,05Grupo E -15,198 -9,54 0,817 5,06Semana 5,198 9,88 0,155 3,91Semana2 -0,189 -8,88 -0,005 -2,99
Resenha dos Modelos Lineares Generalizados – p. 49/67
Resíduos modelo gama duplo
−3 −2 −1 0 1 2 3
−4−2
02
Percentis da N(0,1)
Com
pone
nte
do D
esvio
Resenha dos Modelos Lineares Generalizados – p. 50/67
MLGs mistosBreslow e Clayton (1993) propuseram os Modelos Lineares
Generalizados Mistos (MLGMs) em que o preditor linear é
formado por um componente fixo (paramétrico) e um
componente aleatório (efeitos aleatórios).
Resenha dos Modelos Lineares Generalizados – p. 51/67
MLGs mistosBreslow e Clayton (1993) propuseram os Modelos Lineares
Generalizados Mistos (MLGMs) em que o preditor linear é
formado por um componente fixo (paramétrico) e um
componente aleatório (efeitos aleatórios). Supondo que
yi = (yi1, . . . , yini)T correspondem às ni respostas do
i-ésimo indivíduo os MLGMs são definidas por:
(1) Yij |biindep∼ FE(µij , φ) (i = 1, . . . , n) (j = 1, . . . , ni),
(2) µij = g−1(ηij), em que ηij = xTijβ + zTijbi,
(3) biiid∼ Nq(0,D).
Resenha dos Modelos Lineares Generalizados – p. 51/67
Modelo marginal mistoSejam fij(yij |bi,β, φ) e f(bi|D) as f.d.p.’s de Yij |bi e bi,
respectivamente. Então, a f.d.p. marginal de
Y = (Y1, . . . ,Yn)T , em que Yi = (Yi1, . . . , Yimi
)T , fica dada
por (McCullogh e Searle, 2001)
f(y|β, φ,D) = Πni=1
∫
IRq
{Πmi
j=1fij(yij |bi,β, φ)}f(bi|D)dbi.
Resenha dos Modelos Lineares Generalizados – p. 52/67
Modelo marginal mistoSejam fij(yij |bi,β, φ) e f(bi|D) as f.d.p.’s de Yij |bi e bi,
respectivamente. Então, a f.d.p. marginal de
Y = (Y1, . . . ,Yn)T , em que Yi = (Yi1, . . . , Yimi
)T , fica dada
por (McCullogh e Searle, 2001)
f(y|β, φ,D) = Πni=1
∫
IRq
{Πmi
j=1fij(yij |bi,β, φ)}f(bi|D)dbi.
A função log-verossimilhança fica expressa na forma
L(β, φ,D) =
n∑
i=1
log
∫
IRq
{Πmi
j=1fij(yij |bi,β, φ)}f(bi|D)dbi.
Resenha dos Modelos Lineares Generalizados – p. 52/67
Dados placas dentárias
Período
Esco
re
0.00.51.01.52.02.53.03.5
0.00.51.01.52.02.53.03.5
0.00.51.01.52.02.53.03.5
Placebo
RINSE A
RINSE B
Início Após 3 meses Após 6 meses
Resenha dos Modelos Lineares Generalizados – p. 53/67
Distribuição inicial das placas
2.0 2.5 3.0 3.5
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Placa
Den
sida
de
Resenha dos Modelos Lineares Generalizados – p. 54/67
Modelo propostoSeja Yijk o escore do k-ésimo indivíduo do i-ésimo grupo
(placebo, líquido A, líquido B) e j-ésimo período (início do
tratamento, após 3 meses, após 6 meses), i, j = 1, 2, 3,
k = 1, . . . , nij com n1j = 39, n2j = 34 e n3j = 36 (Hadgu e
Koch, 1999).
Resenha dos Modelos Lineares Generalizados – p. 55/67
Modelo propostoSeja Yijk o escore do k-ésimo indivíduo do i-ésimo grupo
(placebo, líquido A, líquido B) e j-ésimo período (início do
tratamento, após 3 meses, após 6 meses), i, j = 1, 2, 3,
k = 1, . . . , nij com n1j = 39, n2j = 34 e n3j = 36 (Hadgu e
Koch, 1999). Modelo de intercepto aleatório:
(1) Yijk|bkindep∼ G(µijk, φ),
(2) logµijk = ηijk, em que ηijk = α + bk + βi + γj + δij,
(3) bkiid∼ N(0, σ2e).
Resenha dos Modelos Lineares Generalizados – p. 55/67
Estimativas do modelo
Efeito Parâmetro Estimativa E/E.PadrãoConstante α 0,938 13,95Líquido A β2 0,020 0,21Líquido B β3 -0,026 -0,27Tempo(3M) γ2 -0,409 -5,41Tempo(6M) γ3 -0,424 -5,46A*Tempo(3M) δ22 -0,376 -3,39A*Tempo(6M) δ23 -0,319 -2,93B*Tempo(3M) δ32 -0,419 -3,72B*Tempo(6M) δ33 -0,498 -4,51Efeito aleatório σe 0,252
Resenha dos Modelos Lineares Generalizados – p. 56/67
Resíduos marginais
−3 −2 −1 0 1 2 3
−1.0
−0.5
0.0
0.5
Percentil da N(0,1)
Res
iduo
mar
gina
l
Resenha dos Modelos Lineares Generalizados – p. 57/67
Modelos hierárquicosOs Modelos Lineares Generalizados Hierárquicos (MLGHs)
(Lee, Nelder e Pawitan, 2004) flexibilizam a distribuição dos
efeitos aleatórios na classe dos (MLGMs).
Resenha dos Modelos Lineares Generalizados – p. 58/67
Modelos hierárquicosOs Modelos Lineares Generalizados Hierárquicos (MLGHs)
(Lee, Nelder e Pawitan, 2004) flexibilizam a distribuição dos
efeitos aleatórios na classe dos (MLGMs). Supondo que
yi = (yi1, . . . , yini)T correspondem às ni respostas do
i-ésimo indivíduo os MLGHs são definidas por:
(1) Yij |biindep∼ FE(µij , φ) (i = 1, . . . , n) (j = 1, . . . , ni),
(2) µij = g−1(ηij), em que ηij = xTijβ + vi,
(3) vi = v(ui), em que ui tem uma distribuição apropriada.
Resenha dos Modelos Lineares Generalizados – p. 58/67
A ideia dos MLGHsA principal contribuição dos MLGHs é estimar (vi, α) em
conjunto com os parâmetros (β, φ). Nelder e Lee
propuseram a h-verossimilhança:
h(β, φ, α,v|y) =n∑
i=1
ni∑
j=1
{L(β, φ; yij |vi) + L(α, vi)}.
Resenha dos Modelos Lineares Generalizados – p. 59/67
A ideia dos MLGHsA principal contribuição dos MLGHs é estimar (vi, α) em
conjunto com os parâmetros (β, φ). Nelder e Lee
propuseram a h-verossimilhança:
h(β, φ, α,v|y) =n∑
i=1
ni∑
j=1
{L(β, φ; yij |vi) + L(α, vi)}.
Modelo Poisson-gama: yij |ui é Poisson e ui é gama;
modelo binomial-beta: yij |ui é binomial e ui é beta e
modelo gama-normal inversa: yij |ui é gama e ui é normal
inversa, em que vi = v(ui).
Resenha dos Modelos Lineares Generalizados – p. 59/67
AplicativosO primeiro aplicativo desenvolvido para o ajuste de MLGs
GLIM está desativado. Aplicativos com MLGs e extensões:
S-Plus (http://www.insightful.com)
R (http://www.r-project.org) (software livre)
SAS (http://www.sas.com)
STATA (http://www.stata.com)
MATLAB (http://www.mathworks.com)
SUDAAN (http://www.rti.org/sudaan)
Resenha dos Modelos Lineares Generalizados – p. 60/67
ConclusõesOs MLGs trouxeram uma nova notação para a área de
Modelos de Regressão e nesses quase 40 anos receberam
várias extensões com modificações na parte aleatória, na
estrutura de correlação e no componente sistemático com a
inclusão, por exemplo, de componentes não paramétricos,
componentes não lineares e componentes aleatórios.
Resenha dos Modelos Lineares Generalizados – p. 61/67
ConclusõesOs MLGs trouxeram uma nova notação para a área de
Modelos de Regressão e nesses quase 40 anos receberam
várias extensões com modificações na parte aleatória, na
estrutura de correlação e no componente sistemático com a
inclusão, por exemplo, de componentes não paramétricos,
componentes não lineares e componentes aleatórios.
Todavia, os MLGs na sua forma original continuam sendo
aplicados num grande número de problemas práticos com
excelentes resultados.
Resenha dos Modelos Lineares Generalizados – p. 61/67
ReferênciasBreslow, N. E. e Clayton, D. G. (1993). Approximate
inference in generalized linear mixed models. Journal of
the American Statistical Association 88, 9-25.
Cordeiro, G. M. e Paula, G. A. (1989). Improved
likelihood ratio statistics for exponential family nonlinear
models. Biometrika 76, 93-100.
Finney, D. J. (1978). Statistical Methods in Biological
Assay, 3rd. Edition. Cambridge University Press,
Cambridge.
Resenha dos Modelos Lineares Generalizados – p. 62/67
ReferênciasHadgu, A. e Koch, G. (1999). Application of generalized
estimating equations to a dental randomized clinical
trial. Journal of Biopharmaceutical Statistics 9, 161-178.
Hastie, T. e Tibshirani, R. (1990). Generalized Additive
Models. Chapman and Hall, London.
Jørgensen, B. (1987). Exponential dispersion models
(with discussion). Journal of the Royal Statistical
Society B 49, 127-162.
Resenha dos Modelos Lineares Generalizados – p. 63/67
ReferênciasLee, Y., Nelder, J. A. e Pawitan, Y. (2006). Generalized
Linear Models with Random Effects. Chapman and
Hall, London.
Liang, K. Y. e Zeger, S. L. (1986). Longitudinal data
analysis using generalized linear models. Biometrika
73, 13-22.
McCullagh, P. e Nelder, J. A. (1989). Generalized Linear
Models, 2nd. Edition. Chapman and Hall, London.
Resenha dos Modelos Lineares Generalizados – p. 64/67
ReferênciasMcCulloch, C. E. e Searle, S. R. (2001). Linear and
Generalized Linear Mixed Models. Wiley, New York.
Montgomery, D. C.; Peck, E. A. e Vining, G. G. (2001).
Introduction to Linear Regression Analysis, Third
Edition. John Wiley, New York.
Myers, R.H.; Montgomery, D. C. e Vining, G. G. (2002).
Generalized Linear Models: With Applications in
Engineering and the Sciences. John Wiley, New York.
Resenha dos Modelos Lineares Generalizados – p. 65/67
ReferênciasNelder, J. A. e Wedderburn, R. W. M. (1972).
Generalized linear models. Journal of the Royal
Statistical Society A 135, 370-384.
Neter, J.; Kutner, M. H.; Nachtsheim, C. J. e
Wasserman, W.(1996). Applied Linear Regression
Models, 3rd Edition. Irwin, Illinois,
Paula, G. A. (2010). Modelos de Regressão: com apoio
computacional. IME-USP.
(http://www.ime.usp.br/∼giapaula/mlgs.html)
Resenha dos Modelos Lineares Generalizados – p. 66/67
ReferênciasPossamai, A. A. (2009). Modelos Não Lineares de
Família Exponencial Revisitados. Dissertação de
Mestrado, IME-USP.
Wedderburn, R. W. M. (1974). Quasi-likelihood
functions, generalized linear models and the
Gauss-Newton method. Biometrika 61, 439-447.
Wei, B. C. (1998). Exponential Family Nonlinear
Models. Lecture Notes in Statistics Vol. 130. Springer,
New York.
Resenha dos Modelos Lineares Generalizados – p. 67/67