25
CE225 - Modelos Lineares Generalizados Cesar Augusto Taconeli 16 de agosto, 2018 Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 1 / 25

CE225 - Modelos Lineares Generalizados

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CE225 - Modelos Lineares Generalizados

CE225 - Modelos Lineares Generalizados

Cesar Augusto Taconeli

16 de agosto, 2018

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 1 / 25

Page 2: CE225 - Modelos Lineares Generalizados

Aula 4 - Família exponencial de distribuições

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 2 / 25

Page 3: CE225 - Modelos Lineares Generalizados

Componente aleatório de um modelo lineargeneralizado

O componente aleatório de um modelo linear generalizado consiste emuma variável aleatória y , por meio de um conjunto de observaçõesindependentes y1, y2, ..., yn, com distribuição pertencente à famíliaexponencial.Mais especificamente, assumimos que a função (densidade) deprobabilidades de y possa ser expressa na forma:

f (yi ; θi , φ) = exp{yiθi − b(θi )

a(φ) + c(yi ;φ)}, (1)

sendo usualmente chamada de forma canônica da família exponencial, oufamília exponencial de dispersão.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 3 / 25

Page 4: CE225 - Modelos Lineares Generalizados

Componente aleatório de um modelo lineargeneralizado

O parâmetro θi é chamado parâmetro natural (ou parâmetro canônico)e φ o parâmetro de dispersão da distribuição.

Em geral, temos a(φ) = φ ou ai (φ) = φωi, sendo ωi um peso particular

a cada observação.

A família exponencial de dispersão contempla diversas distribuições unie bi-paramétricas pertencentes à família exponencial, por exemplo asdistribuições binomial, poisson, normal, gama e normal inversa.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 4 / 25

Page 5: CE225 - Modelos Lineares Generalizados

Algumas propriedades da família exponencial dedispersão

Para distribuições pertencentes à família exponencial de dispersão,expressões para E (yi ) e Var(yi ) são dadas por:

E (yi ) = µi = b′(θi ) = ∂b(θi )∂θi

(2)

e

Var(yi ) = a(φ)× b′′(θi ) = a(φ)× ∂µi∂θi

. (3)

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 5 / 25

Page 6: CE225 - Modelos Lineares Generalizados

Algumas propriedades da família exponencial dedispersão

Assim, a variância de yi pode ser fatorada em dois componentes:O primeiro (a(φ)) é função de um parâmetro (φ) que está associadoexclusivamente à dispersão de yi (não à sua média);O segundo, usualmente denotado por V (µi ) = b′′(θi ) e chamado funçãode variância, é função da média da distribuição, e exprime a relaçãomédia-variância de y .

Cada distribuição pertencente à família exponencial de dispersão temsua particular função de variância e vice-versa (unicidade).

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 6 / 25

Page 7: CE225 - Modelos Lineares Generalizados

Algumas propriedades da família exponencial dedispersão

Uma vez que a distribuição conjunta de y1, y2, ..., yn é dada por:

f (y ; θ, φ) =n∏

i=1f (yi ; θi , φ) = exp

{∑ni=1 yiθi −

∑ni=1 b(θi )

a(φ)

}exp

n∑i=1

c(yi ;φ),

(4)

pelo teorema da fatoração de Neyman-Fisher, tem-se que∑n

i=1 yi é umaestatística suficiente para θi se φ for conhecido.

Na sequência são ilustradas algumas distribuições pertencentes àfamília exponencial de dispersão.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 7 / 25

Page 8: CE225 - Modelos Lineares Generalizados

Distribuição binomial

Uma variável aleatória xi tem distribuição binomial se sua função deprobabilidades é dada por:

f (xi ; ni , πi ) =(nixi

)πxi

i (1− πi )ni−xi ; xi = 0, 1, 2, ..., ni ; 0 < πi < 1, (5)

em que xi corresponde à contagem de sucessos em ni observaçõesindependentes de um experimento binário.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 8 / 25

Page 9: CE225 - Modelos Lineares Generalizados

Distribuição binomial

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

n=5;π=0,10

x

P(X

=x)

● ● ●

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

n=5;π=0,50

xP

(X=

x)

● ●

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

n=5;π=0,90

x

P(X

=x)

● ● ●

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

n=10;π=0,10

x

P(X

=x)

● ● ● ● ● ● ●

0 1 2 3 4 5 6 7 8 9

0.0

0.1

0.2

0.3

0.4

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

n=10;π=0,50

x

P(X

=x)

● ●

● ●

0 1 2 3 4 5 6 7 8 9

0.0

0.1

0.2

0.3

0.4

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

n=10;π=0,90

xP

(X=

x)

● ● ● ● ● ● ●

0 1 2 3 4 5 6 7 8 9

0.0

0.1

0.2

0.3

0.4

Figura 1: Ilustração - distribuição binomialCesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 9 / 25

Page 10: CE225 - Modelos Lineares Generalizados

Distribuição binomial

Podemos expressar a distribuição binomial, de maneira alternativa, pelavariável yi = xi

ni, a fração amostral de sucessos, com função de

probabilidades:

f (yi ; ni , πi ) =(

niniyi

)πni yi

i (1− πi )ni−(ni yi ); yi = 0, 1ni,2ni, ..., 1; 0 < πi < 1.

(6)

Exercício 1Verifique que a distribuição binomial pode ser expressa na forma da famíliaexponencial de dispersão. Identifique a(φ), θi , b(θi ) e c(yi , φ). Deduza amédia e a variância de yi e identifique a função de variância.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 10 / 25

Page 11: CE225 - Modelos Lineares Generalizados

Distribuição binomial

Algumas notas sobre o modelo binomial binomial:

* O modelo binomial é usado, principalmente, na modelagem de dadosbinários ou de proporções discretas;

* É bem aproximado pela distribuição Normal(π, π(1−π)m ) quando

mπ > 0, 5 e 0, 1 ≤ π ≤ 0, 9 ou mπ > 25, para qualquer valor de π.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 11 / 25

Page 12: CE225 - Modelos Lineares Generalizados

Distribuição Poisson

Uma variável aleatória discreta yi tem distribuição de Poisson se suafunção de probabilidades é dada por:

f (yi ;µi ) = e−µiµyii

yi !, (7)

com yi = 0, 1, 2, ... e µi > 0.

Exercício 2Verifique que a distribuição Poisson pode ser expressa na forma da famíliaexponencial de dispersão. Identifique a(φ), θi , b(θi ) e c(yi , φ). Deduza amédia e a variância de yi e identifique a função de variância.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 12 / 25

Page 13: CE225 - Modelos Lineares Generalizados

Distribuição Poisson

µ=1

y

P(Y

=y)

● ●

●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20

0.00

0.08

0.16

0.24

0.32

0.40

µ=5

y

P(Y

=y)

● ●

●● ● ● ● ● ● ● ● ● ●

0 5 10 15 20

0.00

0.08

0.16

0.24

0.32

0.40

µ=10

y

P(Y

=y)

● ● ● ●●

●● ●

●●

● ● ● ●

0 5 10 15 20

0.00

0.08

0.16

0.24

0.32

0.40

Figura 2: Ilustração - distribuição de Poisson

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 13 / 25

Page 14: CE225 - Modelos Lineares Generalizados

Distribuição Poisson

Algumas notas sobre o modelo de Poisson:Se eventos ocorrem independente e aleatoriamente no tempo (ouespaço), com taxa média de ocorrência constante, o modelo atribuiprobabilidades ao número de eventos por intervalo de tempo (ou regiãodo espaço);

Proporciona, em geral, uma descrição satisfatória de dados cujavariância é proporcional à média;

Surge como caso limite para a distribuição binomial quando n→∞ eπ → 0 (matendo fixo µ = nπ);

É bem aproximada pela distribuição Normal(µ, µ) para µsuficientemente grande.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 14 / 25

Page 15: CE225 - Modelos Lineares Generalizados

Distribuição normal

Uma variável aleatória contínua yi tem distribuição normal se suafunção densidade de probabilidade é dada por:

f (yi ;µi , σ2) = 1√

2πσexp

{−(yi − µi )2

2σ2

}, (8)

com −∞ < yi <∞; −∞ < µi <∞; σ > 0.

Exercício 3Verifique que a distribuição normal pode ser expressa na forma da famíliaexponencial de dispersão. Identifique a(φ), θi , b(θi ) e c(yi , φ). Deduza amédia e a variância de yi e identifique a função de variância.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 15 / 25

Page 16: CE225 - Modelos Lineares Generalizados

Distribuição normal

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

y

f(y)

µ=−3, σ2=1µ=0, σ2=1µ=3, σ2=1

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

y

f(y)

µ=0, σ2=1µ=0, σ2=4µ=0, σ2=9

Figura 3: Ilustração - distribuição normalCesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 16 / 25

Page 17: CE225 - Modelos Lineares Generalizados

Distribuição gama

Uma variável aleatória contínua yi tem distribuição gama se sua funçãodensidade de probabilidade é dada por:

f (yi ;µi , ν) =

(νµi

)νΓ(ν) yν−1

i exp{−yiν

µi

}, (9)

com yi > 0, µi > 0, ν > 0 e Γ(x) =∫∞

0 tx−1e−tdt.

Uma das parametrizações alternativas da distribuição gama é aseguinte:

f (y ;α, β) = βα

Γ(α)yα−1exp {−βy} , (10)

tal que a equivalência das duas parametrizações decorre de µ = αβ e ν = α.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 17 / 25

Page 18: CE225 - Modelos Lineares Generalizados

Distribuição gama

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

1.2

y

f(y)

µ=1, ν=2µ=1, ν=1µ=1, ν=0,5

0 2 4 6 8 10

0.0

0.2

0.4

0.6

y

f(y)

µ=1, ν=2µ=2, ν=2µ=4, ν=2

Figura 4: Ilustração - distribuição gama

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 18 / 25

Page 19: CE225 - Modelos Lineares Generalizados

Distribuição gama

O modelo gama é usado na análise de dados contínuos não negativosem que a variância aumenta conforme a média, particularmente nocaso em que o coeficiente de variação é aproximadamente constante.

Exercício 4Verifique que a distribuição gama pode ser expressa na forma da famíliaexponencial de dispersão (use a primeira parametrização apresentada).Identifique a(φ), θi , b(θi ) e c(yi , φ). Deduza a média e a variância de yi eidentifique a função de variância.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 19 / 25

Page 20: CE225 - Modelos Lineares Generalizados

Distribuição normal inversa

Uma variável aleatória contínua tem distribuição normal inversa se suafunção densidade de probabilidade é dada por:

f (yi ;µi , λ) =√

12πφy3

iexp

{−(yi − µi )2

2µ2φyi

}, (11)

com yi > 0, µi > 0, φ > 0.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 20 / 25

Page 21: CE225 - Modelos Lineares Generalizados

Distribuição normal inversa

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

y

f(y)

µ=0,5, φ=2µ=0,5, φ=1µ=1, φ=1µ=1, φ=0,5µ=2, φ=0,5

Figura 5: Ilustração - distribuição normal inversa

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 21 / 25

Page 22: CE225 - Modelos Lineares Generalizados

Distribuição normal inversa

O modelo normal inverso se aplica a análise de dados contínuos, nãonegativos com distribuição acentuadamente assimétrica.

Exercício 5Verifique que a distribuição normal inversa pode ser expressa na forma dafamília exponencial de dispersão. Identifique a(φ), θi , b(θi ) e c(yi , φ).Deduza a média e a variância de yi e identifique a função de variância.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 22 / 25

Page 23: CE225 - Modelos Lineares Generalizados

Distribuição binomial negativa

Uma variável aleatória discreta Y tem distribuição binomial negativa sea sua função de probabilidades é dada por:

f (yi ;µi , k) = Γ(k + yi )Γ(k)yi !

µyii kk

(µi + k)k+yi, (12)

com yi = 0, 1, 2, ...; µi > 0; k > 0.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 23 / 25

Page 24: CE225 - Modelos Lineares Generalizados

Distribuição binomial negativa

k=2;µ=2

y

P(Y

=y)

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

0 5 15 25 35 45

0.0

0.1

0.2

0.3

k=2;µ=5

yP

(Y=

y)

● ● ●●

●●

●●

● ● ● ● ● ● ● ● ● ● ● ●

0 4 8 12 16 20

0.0

0.1

0.2

0.3

k=2;µ=10

y

P(Y

=y)

●●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 4 8 12 16 20

0.0

0.1

0.2

0.3

k=2;µ=5

y

P(Y

=y)

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

0 5 15 25 35 45

0.0

0.1

0.2

0.3

k=5;µ=5

y

P(Y

=y)

●● ●

●●

●●

●●

● ● ● ● ● ● ● ● ● ●

0 4 8 12 16 20

0.0

0.1

0.2

0.3

k=10;µ=5

yP

(Y=

y)

●●

●●

●● ● ● ● ● ● ● ● ● ●

0 4 8 12 16 20

0.0

0.1

0.2

0.3

Figura 6: Ilustração - distribuição binomial negativaCesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 24 / 25

Page 25: CE225 - Modelos Lineares Generalizados

Distribuição binomial negativa

O modelo binomial negativo é uma alternativa ao de Poisson emsituações em que a variância dos dados aumenta mais rapidamente quea média;Para valores inteiros de k, usa-se também a denominação modelo dePascal;Para k = 1, temos como caso particular a distribuição geométrica.

Exercício 6Verifique que a distribuição binomial negativa pode ser expressa na formada família exponencial de dispersão (k fixo). Identifique a(φ), θi , b(θi ) ec(yi , φ). Deduza a média e a variância de yi e identifique a função devariância.

Cesar Augusto Taconeli CE225 - Modelos Lineares Generalizados 16 de agosto, 2018 25 / 25