90
Análise Multivariada G. Amaral Análise Multivariada Getúlio Amaral Universidade Federal de Pernambuco 2006

Apostila de Analise Multivariada

Embed Size (px)

Citation preview

Page 1: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Análise Multivariada

Getúlio Amaral

Universidade Federal de Pernambuco

2006

Page 2: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.

Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatisticalMardia, Kent and Bibby (1979) Multivariate AnalysisJohnson and Wichern (1982) Applied Multivariate StatisticalAnalysisAvaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

Page 3: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatistical

Mardia, Kent and Bibby (1979) Multivariate AnalysisJohnson and Wichern (1982) Applied Multivariate StatisticalAnalysisAvaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

Page 4: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatisticalMardia, Kent and Bibby (1979) Multivariate Analysis

Johnson and Wichern (1982) Applied Multivariate StatisticalAnalysisAvaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

Page 5: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatisticalMardia, Kent and Bibby (1979) Multivariate AnalysisJohnson and Wichern (1982) Applied Multivariate StatisticalAnalysis

Avaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

Page 6: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

As notas de aula Apenas apresentam os tópicos deInteresse. O aluno precisa consultar os livros abaixo paraobter os conhecimentos necessários para as provas e,futuramente, parasua vida profissional.Livros TextosAnderson, T. A. (1984), An Introduction To MultivariateStatisticalMardia, Kent and Bibby (1979) Multivariate AnalysisJohnson and Wichern (1982) Applied Multivariate StatisticalAnalysisAvaliação1 Prova2 Trabalho (artigo, apresentação, relatório, 5 perguntas,respostas) Sorteio toda aula3 Conjunto de Dados

Page 7: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Pesquisas HistóricasNormal Bivariada: Adrian (1808) Laplace (1811) Gauss (1823)Galton Geneticista - Correlação, Regressão eHomocedasticidadeKarl Pearson - Coeficiente de correlação para estudar problemasem genética, biologia e outras áreas.Fisher - Métodos para agricultura, botanica e outras áreas.

Page 8: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Normal MultivariadaTem sido adequada para problemas de várias áreas doconhecimento como psicologia, engenharia, economia e outros.Métodos não Paramétricos (serão abordados em seminários)Modernos, boas possibilidades de pulicações, melhores resultadosem muitos casos.Bootstrap Distribuição Empírica c/reamostragemKernel Distribuição estimada dos dados

Page 9: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Matrix de dados

X =

x11 . . . x1p...

...xn1 . . . xnp

Seja xi a i-ésima linha escrita como coluna, que é dada por

x ′i = (xi1, . . . , xip)

Seja x(j) a j-ésima coluna de X

x ′(j) = (x1j , . . . , xnj)

Page 10: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Vetor de Médias

x ′ = (x1, . . . , xp)

onde xi = 1n

∑nr=1 xri .

Matriz de covariância

S = (sij),

onde sij = 1n

∑nr=1(xri − xi )(xrj − xj).

Notação Matricial

x =1nX ′1,

onde 1′ = (1, . . . , 1) é um vetor de dimensão n.Para a matriz de covarianância

S =1n(X ′X − 1

nX ′11′X ),

ou ainda, se H = I − 1n11′,

S =1nX ′HX

Page 11: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Matriz de Correlação

R = (rij),

onde rij =sijsi sj

.

Exercício 1 (Mardia et al, 1979, p. 11) Exemplo 1.4.1 (dados de28 árvores).Calcular, usando o R ou outro programa, o vetor de médias, amatriz de covariância e a matriz de correlação.Exercício 2Fazer o download do "Atlas do desenvolvimento Humano doRecife."Escolher uma variável quantitativa e calcular as mesmasquantidades do exercício 1.

Page 12: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Combinações lineares

yr = a1xr1+, . . . , apxrp

Transformação de Escala

yr = D−1(xr − x),

onde r = 1, . . . , n, D = diag(si ) e diag(.) denota uma matrizdiagonal.Esta mudança torna unitária a variância das variáveis.Transformação de Mahalanobiszr = S−1/2(xr − x),onde S−1/2S−1/2 = S é inversa da matriz raiz quadrada de S .S−1/2 é definida a partir dos autovalores e autovetores de S .Se Γ é matriz de autovetores de S e λ1, . . . , λp os autovalores deS ,a matriz raiz quadrada é dada por

S1/2 = ΓΛ1/2Γ′,

onde Λ1/2 = diag(λ1/2i ).

A inversa de S1/2 é por

S−1/2 = ΓΛ−1/2Γ′,

onde Λ−1/2 = diag(λ−1/2i ).

Page 13: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

NotaçãoX :Matriz de Dados;xi : uma observação;x(j) uma variável;Xi um vetor aletório cujo o valor observado é xi .

Page 14: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Distribuições MultivariadasConsidere p variáveis aleatórias X1, . . . ,Xp, a função dedistribuição de probabilidade (fdp) é dada por

F (x1, . . . , xp) = P(X1 ≤ x1), . . . ,Xp ≤ xp).

A função de densidade (fd) é definida por

∂F (x1, . . . , xn)

∂x1 . . . ∂xp= f (x1, . . . , xp).

e

F (x1, . . . , xp) =

∫ xp

−∞. . .

∫ x1

−∞f (u1, . . . , up)du1 . . . dup.

Page 15: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

IndependênciaSeja F (x1, . . . , xp) a fdp de X1, . . . ,Xp, o conjunto de variáveisaleatórias X1, . . . ,Xp, é mutuamente independente seF (x1, . . . , xp) = F1(x1) . . .Fp(xp),onde

Fi (xi ) =

∫ ∞

−∞. . .

∫ ∞

−∞f (u1, . . . , up)du1 . . . dup,

onde uj 6= xi

Page 16: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Transformação de VariáveisSe a densidade de X1, . . . ,Xp é f (x1, . . . , xp), considere asseguintes p funções

yi = yi (x1, . . . , xp)

A transformaç ao inversa é

xi = xi (y1, . . . , yp).

Considere as p variáveis aleatórias

Yi = yi (x1, . . . , xp)

A densidade de Y1, . . . ,Yp é

g(y1, . . . , yp) = f (x1(y1, . . . , yp), . . . , xp(y1, . . . , yp))

|J(y1, . . . , yp)|,onde

J(y1, . . . , yp) =

∂x1∂y1

. . . ∂x1∂yp

......

∂xp∂y1

. . .∂xp∂yp

Page 17: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Amostra AleatóriaSeja X1, ...,Xn uma amostra aleatória de uma distribuição F (x)com vetor de médias µ e matriz de covariância Σ.O estimador

X =

∑ni=1 Xi

n

é centrado, isto é, E (X ) = µ.Além disto, cov(X ) = 1

nΣ.

Page 18: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

É possível mostrar também que

E (Sn) =n − 1

nΣ,

onde Sn =∑n

j=1(Xj − X )(Xj − X )′.Exercício 3Se um vetor aleatório V tem E (V ) = µv e Cov(V ) = Σv , proveque E (VV ′) = Σv + µvµ′v .

Page 19: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralNormal MultivaridaNormal univariada

f (x ;µ, σ) = k exp−12(x − µ)σ−1(x − µ)

As quantidades univariadas podem ser redefinidas para o casomultivariado

x =

x1...xn

µ =

µ1...

µn

Page 20: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Σ =

σ1,1 . . . σ1,m...

. . ....

σk,1 . . . σk,m

Substituindo-se x , µ e σ por suas versões multivariadas, temos

f (x ;µ, σ) = k exp−12 (x−µ)′Σ−1(x−µ) .

A única incógnita para determinar a distribuição de x é k.

Page 21: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Cálculo da Constante k

k =

∫ ∞

−∞. . .

∫ ∞

−∞exp−

12 (x−µ)′Σ−1(x−µ) dxp . . . dx1.

Usando-se o corolário A.1.6 (Vide Anderson, 1984, p. 586), se Σé positiva definida, então existe uma matriz não singular C talque

C ′Σ−1C = I ,I é a matriz identidade e C ′ é a tranposta de C .Considere

x − µ = Cy ,

onde y ′ = (y1, . . . , yp).Temos que

(x − µ)′Σ−1(x − µ) = y ′C ′Σ−1Cy = y ′y .

Como

J = |C |,a constante de interesse é dada por

k∗ = Mod |C |∫ ∞

−∞. . .

∫ ∞

−∞exp−

12 y ′y dyp . . . dy1.

Page 22: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Simplificando-se o integrando, temos

exp−12 y ′y =

p∏i=1

exp−12 y2

i .

O valor da constante de interesse é dado por

k = Mod |C |∫ ∞

−∞. . .

∫ ∞

−∞exp−

12 y2

1 . . .

exp−12 y2

p dyp . . . dy1

= Mod |C |∫ ∞

−∞exp−

12 y2

p dyp . . .∫ ∞

−∞exp−

12 y2

1 dy1

= Mod |C |(√

2π)p.

Calculando-se o determinante de C, tem-se

|C ′||Σ−1||C | = I ,o que resulta em

Mod |C | = 1√|Σ−1|

.

Assim, a constante de interesse é

1k

=√

Σ−1(2π)−12 p.

Portanto, a função de densidade da normal multivariada é dadapor

√|A|(2π)

12 p

exp

− 12 (x−µ)′Σ−1(x−µ)

Page 23: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Exercício 4Considere uma distribuição multivariada do vetor (x , y). Paraobter este vetor, seja u and v N(0, 1) independentes e definax = u se uv ≤ 0 enquanto x = −u se uv < 0. Defina y = v .Mostre que x e y são N(0, 1), porém (x , y) não tem distribuiçãonormal bivariada.

Page 24: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Esperança e CovariânciaEsperança de Um VetorSe X ′ = (X1, . . . ,Xp), o valor esperado de X é dado por

E (X ) =

E (X1)...

E (Xp)

.

Page 25: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Se Y = DX + b, onde X é um vetor aleatório, podemos afirmarque

E (Y ) = DE (X ) + b

e

V (Y ) = DV (X )D ′.

Prova: Anderson (1984, p. 19).

Page 26: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Se a função de densidade de X é definida como

√|A|(2π)

12 p

exp

− 12 (x−µ)′Σ−1(x−µ)

Temos que

E (X ) = µ

e

V (X ) = Σ.

Prova: Anderson (1984, pp. 19-20).Notação: N(µ,Σ) denota uma normal multivariada com média µe matriz de covariância Σ.

Page 27: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Teorema. Se X ∼ N(µ,Σ), a transformação

Y = CX

tem distribuição N(Cµ,CΣC ′), onde C é não singular.Prova: Vide Anderson (1984, pp. 25-26).

Page 28: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Teorema. A função característica de X ∼ N(µ,Σ) é igual a

φ(t) = E (expit′X ) = expit′µ− 12 t′Σt ,

onde t é um vetor real.Prova: Anderson (1984, p. 46).

Page 29: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Exercício 5Encontre µ e Σ nas densidades:a) 1

2π exp−12 [(x−1)2+(y−2)2]

b) 12π exp−

12 [x2+y2+4x−6y+13]

Exercício 6Prove que se Σ é positiva definida, tem-se

|Σ| = |Σ11 − Σ12Σ−122 Σ21||Σ22|.

(Vide Anderson, 1984, p. 35).

Page 30: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Exercício 7Se X ∼ N(µ, Σ), onde

µ =

000

e

Σ−1 =

7 3 23 4 12 1 2

,

qual é a distribuição de X1 + 2X2 − 3X3.Exercício 8 Quais são as densidades marginais de X e Y em (a)e (b) do exercício 5.

Page 31: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Distribuição de (X − µ)′Σ−1(X − µ)Seja X distribuida como uma N(µ,Σ), com |Σ| > 0, os seguintesresultados são válidos:

1. (X − µ)′Σ−1(X − µ) ∼ χ2p.

2. P[(X − µ)′Σ−1(X − µ) ≤ χ2p] = 1− α é um elipsoide.

Page 32: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Verificação da Hipótese de Normalidade Multivariada

1. Obter q-q plots e aplicar testes de normalidade (Kolmogorovou outro), para cada variável individualmente.

2. Fazer diagramas de dispersão (XY) e verifique se o conjuntodos pontos possuem aproximadamente a forma de umaelipse.

3. Verificar se existem pontos aberrantes que precisam sercuidadosamente analisados.

Page 33: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

4 Calcular

d2j = (xj − x)′S−1(xj − x) j = 1, . . . , n,

onde x1, . . . , xn são as observações amostrais.Em seguida, verificar por um Q-Q plot se os d ′j s seguem umadistribuição χ2

p.

Page 34: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralEstimação de Máxima Verossimilhança

Função de VerossimilhançaConsidere uma a.a. X1, . . . ,Xn onde Xi tem f.d.p f (xi ; θ), onde θé um vetor de parâmetros. A função de verossimilhança édefinida como

L(x1, . . . , xn; θ) =n∏

i=1

f (xi ;µ).

O log da função de verossimilhança é é dado por

l(x1, . . . , xn; θ) =n∑

i=1

log f (xi ;µ).

Page 35: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralEstimação de Máxima Verossimilhança

Função de VerossimilhançaConsidere uma a.a. X1, . . . ,Xn onde Xi tem f.d.p f (xi ; θ), onde θé um vetor de parâmetros. A função de verossimilhança édefinida como

L(x1, . . . , xn; θ) =n∏

i=1

f (xi ;µ).

O log da função de verossimilhança é é dado por

l(x1, . . . , xn; θ) =n∑

i=1

log f (xi ;µ).

Page 36: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralEstimação de Máxima Verossimilhança

Função de VerossimilhançaConsidere uma a.a. X1, . . . ,Xn onde Xi tem f.d.p f (xi ; θ), onde θé um vetor de parâmetros. A função de verossimilhança édefinida como

L(x1, . . . , xn; θ) =n∏

i=1

f (xi ;µ).

O log da função de verossimilhança é é dado por

l(x1, . . . , xn; θ) =n∑

i=1

log f (xi ;µ).

Page 37: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralDistribuição Normal

Caso da Normal Multivariada

l(x1, . . . , xn; θ) = −n2

log |2πΣ| − 12

n∑i=1

(xi − µ)′Σ−1(xi − µ)

ou

l(x1, . . . , xn; θ) = −n2

log |2πΣ|−n2trΣ−1S−n

2(x−µ)′Σ−1(x−µ).

(Vide Mardia et al, 1979, pp. 96-97).

Page 38: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralDistribuição Normal

Caso da Normal Multivariada

l(x1, . . . , xn; θ) = −n2

log |2πΣ| − 12

n∑i=1

(xi − µ)′Σ−1(xi − µ)

ou

l(x1, . . . , xn; θ) = −n2

log |2πΣ|−n2trΣ−1S−n

2(x−µ)′Σ−1(x−µ).

(Vide Mardia et al, 1979, pp. 96-97).

Page 39: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralEscores e Matrix de Informação

Função Escore

S(x1, . . . , xn; θ) =∂

∂θl(X ; θ)

Matriz de Informação de Fisher

F = −E(

∂2l∂θ∂θ

)

Page 40: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralEstimadores de Máxima Verossimilhaça

O máximo de l(X ; θ) é obtido quando

(∂l/∂θ) = 0,

para um certo valor θ, que é o estimador de máximaverossimilhança de θ.Exercício 9 Verifique que no exemplo 4.1.4 (Vide Mardia et al,1979, p. 100) têm-se

l(X ; θ) = log c−n log 4+x1 log 2 + θ+(x2+x3)log(1−θ)+x4 log θ,

s(X ; θ) =∂l(X ; θ)

∂θ=

x1

2 + θ− x2 + x3

1− θ+

x4

θe

F =n(1 + 2θ)

2θ(1− θ)(2 + θ).

Page 41: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Exercício 10 Encontre o estimador de máxima verossimilhançado exercício 9 por solucionar a equação s(X ; θ) = 0.

Os problemas descritos acima tratam da distribuição descrita porFisher (1970, p. 305), que é um experimento com 4 resultadoscujas as probabilidades destes resultados são(2 + θ)/4, (1− θ)/4, (1− θ)/4 e θ/4. Esta distribuição é umamultinomial.

Page 42: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralMaximizando a Verossimilhaça da NormalMultivariada

Log Verossimilhança

l(x1, . . . , xn; θ) = −n2

log |2πΣ|−n2trΣ−1S−n

2(x−µ)′Σ−1(x−µ).

Estimadores

µ = x , Σ = S .

Para garantir que o ponto crítico é o máximo, usa-seTeorema Se A é uma matrix p × p fixa, o máximo de

f (Σ) = |Σ|−n/2 exp(−12trΣ−1A)

é Σ = n−1A.

Page 43: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralInferência Bayesiana(Vide Gelman et al, 1995, pp. 3-82).

1. Existe um modelo probabilístico completo, isto é, umadistribuição de probabilidade conjunta para todas asquantidades observáveis e não observáveis.

2. Obter uma distribuição condicionada aos dados observados.3. Avaliar o modelo e a distribuição obtida a posteriori. Caso o

modelo não seja adequado, as etapas 1, 2 e 3 devem serrepetidas.

O pensamento Bayesiano facilita uma interpretação dasconclusões estatísticas associadas ao bom senso.Um intervalo de confiança bayesiano para uma quantidade deinterese desconhecida pode ser considerado como tendo uma altaprobabilidade de conter o parâmetro verdadeiro.Por outro lado, o intervalo frequentista, não pode ter a mesmainterpretação. O que pode ser dito é que em uma grandequantidade de realizações de um experimento espera-se que ointervalo contenha o valor verdadeiro em uma grande proporçãodestas realizações.

Page 44: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Notação Bayesianaθ - Vetor de quantidades não observáveis.y - Dados observadosy - Quantidade desconhecida que, porém, é potencialmenteobservável.p(θ) - Priori, representa o conhecimento subjetivo que opesquisador da área de estudo (medicina, oceanografia,engenharia) têm a respeito de θ.p(y |θ) - Verossimilhança, representa as informações provinientesdos dados.p(θ|y) - Posteriori, é a distribuição final que é utilizada paraconstruir regiões de confiança e para testar hipóteses.Regra de Bayes

p(θ|y) = p(θ)p(y |θ).

Page 45: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Verossimillhança para um ponto da Normal univariadaVerossimilhança

P(y |θ) =1√2πσ

exp−1

2σ2 (y−θ)2

Priori

p(θ) ∝ exp(− 1τ20

(θ − µ0)2),

θ ∼ N(µ0, τ20 ), onde µ0 e τ2

0 são hyperparâmetros.Posteriori

P(θ|y) ∝ exp(−12

[(y − θ)2

σ2 +(θ − µ0)

2

τ20

]Simplificandos-se (completando-se quadrados e etc),

P(θ|y) ∝ exp(− 12τ2

1(θ − µ1)

2,

onde

µ1 =

1τ20µ0 + 1

σ2 y1τ2 + 1

σ2

e

1τ21

=1τ20

+1σ2 .

Page 46: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Normal MultivariadaVerossimilhança

P(y |µ,Σ) ∝ |Σ| exp(−1

2(y − µ)′Σ−1(y − µ)

)para uma amostra Y1, . . . ,Yn,

P(y1, . . . , yn) ∝ |Σ|−n/2 expn∑

i=1

(yi − µ)′Σ−1(yi − µ)

Posterior Distribution

P(µ|y ,Σ) ∝ exp

(−1

2

[(µ− µ0)

′Λ−10 (µ− µ0) +

n∑i=1

(yi − µ)′Σ−1(yi − µ)

]),

ou ainda,

P(µ|y ,Σ) = N(µ|µn,Λn),

µn = (Λ−10 + nΣ−1)−1(Λ−1

0 µ0 + nΣ−1y),

Λ−1n = Λ−1

0 + nΣ−1.

Page 47: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralTestes de Hipóteses

Teste da Razão de VerossimilhançaSeja X1, . . . ,Xn uma a.a. de F (θ). Sejam H0 : θ ∈ Ω0 eH1 : θ ∈ Ω1. A razão de verossimilhança é definida por

λ(x) =L?

0

L?1,

onde L?i é o maior valor que a função de verossimilhança assume

na região Ωi , i = 0, 1.Para simplificar, usa-se a estatística

−2logλ = 2(l?1 − l?0 ),

onde l?1 = log L?1 e l?0 = log L?

0.

Page 48: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralHipótese H0 : µ = µ0, ΣConhecido

l?0 = l(µ0,Σ) = −12nlog |2∗piΣ|−1

2trΣ−1S−1

2n(x−µ0)

′Σ−1(x−µ0)

Não existe restrições para µ em H1, logo, E.M.V de µ é x .Usando-se a razão de verossimilança,

−2logλ = 2(l?1 − l?0 ) = n(x − µ0)′Σ−1(x − µ0)

Page 49: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralHipótese H0 : µ = µ0, Σ desconhecido (Teste deHotelling para Uma Amostra)Σ deve ser estimado sob H0 e H1.Usando os resultados de Mardia et al (1979, pp. 102-108),Sob H0, µ = µ0 e Σ = S + dd ′ onde d = x − µ0.Sob H1, µ = x e Σ = S .Logo,

l?0 = l(µ0,S +dd ′) = −12plog2π+ log |S |+ log(1+d ′S−1d)+p

e l?1 = l(x ,S) é obtido por colocar d = 0 na expressão acima.Logo,

−2logλ = 2(l?1 − l?0 ) = nlog(1 + d ′S−1d).

A estatística

d ′S−1d

é chamada de T 2 de Hotelling.

Page 50: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

A distribuição da estatística

n − pp

d ′S−1d ∼ Fp,n−p.

falicita o uso do teste acima em muitos problemas reais.

Page 51: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralHipótese H0 : Σ = Σ0, onde µ Desconhecido

Sob H0, temos µ = x e Σ = Σ0.Sob H1, temos µ = x e Σ = SLogo,

l?0 = −12nlog |2πΣ0| −12ntrΣ−1

0 S ,

l?1 = −12nlog |2πΣ| − 12np

e

−2logλ = ntrΣ−10 S − nlog |Σ−1

0 S | − np.

Distribuição muito complexa, alternativas: bootstrap,verossimilhança empírica.

Page 52: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Se w e v são variáveis aletórias unidimensionais independentes esuas distribuições são σ2χ2

α e σ2χ2β , respectivamente, o termo

w/v têm distribuição Fα,β .

Distribuição de Wishart

Se M(p) pode ser escrita como M = X ′X , one X (n) é umamatriz de dados de N(0,Σ), a distribuição da matriz M é umaWishart com matriz de escala Σ e com n graus de liberdade. Aforma padrão da distribuição ocorre quando M = I .A distribuição de Wishart é denotada po Wp(Σ, n).

Page 53: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

No caso multivariado, Se A ∼ W (Σ,m) e B ∼ W (Σ, n) sãoindependentes, define-se que

Λ = |A|/|A + B | = |I + A−1B|−1 ∼ Λ(p,m, n),

onde Λ(p,m, n) é a distribuição lambda de Wilks.

Page 54: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralTeste T 2 de Hotelling para 2 Amostras

Se x e M são independentes e distribuidas como N(µ,Σ) eWp(Σ,m), respectivamente, têm-se

m(x − µ)′M−1(x − µ) ∼ T 2(p,m),

onde T 2(p,m) é a distribuição de Hotelling com parâmetros m ep.

TheoremT2(p, n) = np/(n − p + 1) ∼ Fp,n−p+1

Logo,

(n − p)/p(x − µ)Σ−1(x − µ) ∼ Fp,n−p

Suponha duas amostras de tamanho n1 e n2, onde n1 + n2 = n.

Page 55: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Teste de Hotelling p/ Duas PopulaçõesH0 : µ1 = µ2Considera-se que as matrizes de covariância são iguais.O núcleo da estatística do teste é

D2 = (x1 − x2)′S−1

c (x1 − x2),

onde (Sc = n1S1 + n2S2)/(n − 2) é a matriz de covariânciacombinada.Usando os resultados anteriores, temos

n1n2(n − p − 1)

n(n − 2)pD2 ∼ F(p,n−p−1).

Page 56: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralProblema de Várias AmostrasAnálise de Variância com um FatorConsidereH0 : µ1 = . . . = µp, dado que Σ1 = . . . = ΣkSob H0, os EMV’s de µ e Σ são x e S , respectivamente.Sob H1, a log-verossimilhaça é dada por

l?0 = −12

p∑i=1

[ni log |2πΣ|+ ni trΣ−1(Si + did ′i )],

onde Si é a matriz de covariância da i-ésima amostra edi = xi − µi .O EMV de µi é xi e

l?0 = −12log |2πΣ| − 1

2trΣ−1W , onde W =

p∑i=1

niSi .

Derivando a equação acima com respeito a Σ e igualando a zero,temos

Σ = n−1W .

Page 57: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralProblema de Várias Amostras

W = soma de quadrados e produtos (SQP) dentro dos gruposA razão das verossimilhanças é dada por

λ =

|W ||nS |

n/2

= |T−1W |n/2,

onde T = nS é a SQP total.Como W é a SQPD e T é a SQPT, temos a seguinte relação

B = T −W = ni (xi − x)(xi − x)′,

onde a matriz B é considerada a SQP entre os grupos ou SQPE.Logo podemos escrever

λ =|W |

|B + W |= |I + W−1B|−1.

Antes de determinar a distribuição desta estatística, é necessáriointroduzir algumas definições.

Page 58: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Exercício 11 A densidade de uma normal bivariada éExiste uma elipse associada a esta densidade. Os eixos e faça umgráfico desta elipse.Exercício 12 Se X ∼ N(0,Σ), onde

˚ =

(4 22 1

),

Ache a tal que X = a′Y e Y tem distribuição normal nãosingular. Apresente a densidade de Y .

Page 59: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Exercício 13 Considere (X1,Y1)′, (X2,Y2)

′, (X3,Y3)′, onde

(Xi ,Yi )′ são i.i.d com distribuição N(µ,Σ), com

µ′ = (µx , µy )

e

Σ = .

Page 60: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralAnálise de Agrupamento

HistóricoHindus usaram o sexo, características físicas e comportamentaispara classificar pessoas em seis tipos, os quais eles usaram nomesde animais.Romanos usaram Caraterísticas Físicas e gregos novetemperamentos.Existem muitos critérios para classificar, o genêro, a espécie eoutros.

Page 61: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Matriz de Dados

X =

x11 . . . x1p...

. . ....

xn1 . . . xnp

,

Classificação das técnicas de agrupamento:i)Técnicas Hierárquicas;ii)Técnicas de Partição-Otimização.

Page 62: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Idéia geral de alguns métodos:1)Cálculo das distâncias;2)Algoritmo para agrupar as observações.Distância EuclideanaA distância entre os objetos "i"e "j"pode ser calculada por

d(xi , xj) =√

(xi1 − xj1)2+, . . . ,+(xip − xjp)2

Page 63: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralMétodos Aglomerativos

Inicia com o cálculo das distâncias ou similaridades entre osobjetos, o que produz uma matriz n × n com estas medidas.Como existem vários métodos para calcular distâncias ousimilaridades, existirá para um certo método aglomerativo váriasopções.Além das medidas de distâncias e similaridades, é fundamentalestabelecer o algoritmo utilizado para formar os grupos deentidades.

Page 64: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralMétodo do Vizinho Mais PróximoInicialmente, se existem n indivíduos, existirão n grupos. Emcada etapa existe uma fusão entre os grupos mais próximos.Exemplo:Suponha que a matriz de distâncias é:

D1 =

0.0 2.0 6.0 10.0 9.02.0 0.0 5.0 9.0 8.06.0 5.0 0.0 4.0 5.010.0 9.0 4.0 0.0 3.09.0 8.0 5.0 3.0 0.0

,

No primeiro passo, ocorre o agrupamento de 1 e 2, e novasdistâncias são calculadas usando

d(12)3 = Mind13, d23 = d23 = 5.0A nova matriz é:

D2 =

0.0 5.0 9.0 8.05.0 0.0 4.0 5.09.0 4.0 0.0 3.08.0 5.0 3.0 0.0

,

No passo seguinte, as observações 4 e 5 são agrupadas, e têm-se:

D3 =

0.0 5.0 8.05.0 0.0 4.08.0 4.0 0.0

,

Page 65: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralMétodo da Ligação Completa

As mesmas etapas devem ser seguidas. Porém, em cadaagrupamento a nova distância deve ser calculada como

d(12)3 = maxd13, d23 = d13 = 6.0

Page 66: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralMétodo do Centróide

Calcula-se a matriz de distâncias entre todos os objetos. Osobjetos com a menor distância irão forma um novo grupo.Calcula-se o centróide de um novo grupo e usa-se esta medidapara obter a matriz distância relativa a este grupo.A distância entre os grupos é calculada como a distância entre oscentróides dos grupos.

Page 67: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralDistâncias, Similaridades e seus Axiomas

1. D(x , y) ≥ 0;

2. D(x , y) = 0 sse x = y ;

3. D(x , y) = D(y , x), ∀ x , y ∈ Rd ;

4. D(x , y) ≤ D(x , z) + D(y , z), ∀x , y , z ∈ Rd ;

1. s(A,B) = s(B,A)

2. s(A,B) > 03. s(A,B) ∝ similaridade entre A e B

Page 68: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralMedidas de Distância

Nome Fórmula

Euclideana∑p

j=1 wj(xrj − xsj)21/2

Karl Pearson wj1s2k

Mahalanobis (xr − xs)Σ−1(xr − xs)1/2

Manhanttan∑p

j=1 wj |xrj − xsk |

Tabela: Distâncias, Mardia et al. (1979, p. 381)

Variáveis Qualitativas

r =ad − bc

(a + b)(c + d)(a + c)(b + d).

Page 69: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralMétodo de K-Médias

Este método adiciona cada item ao grupo que tem o centróide(média) mais próxima.A versão mais simples deste método têm as seguintes etapas:

1. Decidir qual o valor de K2. Particionar os itens em K grupos3. Para cada item, verificar que grupo é mais próximo. Caso

exista um grupo mais próximo do item do que seu grupoatual, retirar este item do grupo atual e recolocá-lo nogrupo mais próximo. Em seguida, os novos centróides decada grupo devem ser recalculados.

4. repetir a etapa 3 até que nenhum item precise ser movido.

Page 70: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralAnálise Discriminante

Considere g populações ou grupos Π1, . . . ,Πg , onde se xi ∈ Πjentão xi ∼ fj(x).O objetivo é alocar um certo objeto "i"a uma das populações Πj ,usando o vetor de variáveis xi .Esta alocação deve minimizar o erro de classificação.Duas situações principais de classificação:a)Análise de Agrupamento - A população do objeto "i"não éconhecida (classificação não supervisionada)b)Análise discriminante - A população do objeto "i"é conhecida(classificação supervisionada)

Page 71: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralModelos de ClassificaçãoExistem 2 principais casos de interesse:

1. A f.d.p. associada a Πj é fj(x), isto é, uma densidade deforma conhecida;

2. Um método empírico, onde nenhuma forma particular para af.d.p. associada a Πj é assumida.

Regra de alocação: Alocar o objeto x a uma das populaçõesΠ1, . . . ,Πg que produz o maior valor da verossimilhança para x .Assim,

Li (x) = MaxiLi (x).

Para os próximos exemplos, considere que

P(Li (x) = Lk(x)para algum i 6= k|Πi ) = 0.

Distribuição Normal: Caso de duas PopulaçõesΠ1 = N(µ1, σ

21)

Π2 = N(µ2, σ22)

Li (x) = (2πσ2i )−1/2 exp

−1

2

(x − µi

σi

)2)

.

Page 72: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

λ =L1(x)

L2(x)=

σ2

σ1exp

−1

2

[(x − µ1

σ1

)2

+

(x − µ2

σ2

)2]

> 1

Simplificando,

x2(

1σ2

1− 1

σ22

)− 2x

(µ1

σ21− µ2

σ22

)+

(µ2

1

σ21− µ2

2

σ22

)< 2 log

σ2

σ1

Esta regra é utilizada para alocar x a Π1 ou Π2.TeoremaSe Π = Np(µi ,Σ), i = 1, . . . , g e Σ > 0, x é alocado a Πj se

(x − µj)′Σ−1(x − µj)

é o valor mínimo de a′iΣ−1ai , onde ai = (x − µi ), para

i = 1, . . . , g .

Page 73: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Quando g = 2, a regra é alocar x a Π1 se

α′(x − µ) = [Σ−1(µ1 − µ2)]′(x − 1

2(µ1 − µ2))

= (µ1 − µ2)′Σ−1(x − µ1

2− µ2

2) > 0.

Page 74: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralEstimando a Regra Discriminante

Condições:

1. Matriz de Dados X (n × p);

2. Π1, . . . ,Πg são conhecidos com fi (µ,Σ) normal, e µ e Σdevem ser estimados;

3. As linhas de X são particionadas em g gruposX ′ = (X ′

1, . . . ,X′g );

4. x1, . . . , x ′g e Su =P

niSi(n−g) são os estimadores não viesados de

µ1, . . . , µg e Σ.

Se g = 2, A regra é alocar x a Π1 se

(x1 − x2)S−1x − 1/2(x1 + x > 0.

Page 75: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Componentes Principais

A média representa uma combinação linear que é dada por

151x = (

15

15

15

15

15)′x .

Porém, esta combinação linear atribui o mesmo peso à todas asvariáveis.O método de componentes principais fornece uma combinaçãolinear com pesos diferentes.DefiniçãoSe x é um vetor aleatório com média µ e matriz de covariânciaΣ, as componentes principais são definidas por

y = Γ′(x − µ),

onde Γ é ortogonal, Γ′ΣΓ = Λ = diagλ1, . . . , λp.Tem-se que λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0 e Γ é a matriz deautovetores.

Page 76: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Teorema Se x ∼ (µ,Σ), a transformação y = Γ′(x − µ) satisfazos seguintes resultadosa)E (Yi ) = 0b) V (Yi ) = λic) Cov(Yi ,Yj) = 0, i 6= jb)V (Y1) ≥ V (Y2) ≥ . . . ≥ V (Yp) ≥ 0e)∑p

i=1 V (Yi ) = trΣf)∏p

i=1 V (Yi ) = |Σ|Teorema: Nenhuma combinação linear de x tem variância maiordo que λ1, a variância da primeira componente principal.

Page 77: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Se α = a′x é uma combinação linear de x que não écorrelacionada com as com as primeiras k componentesprincipais de x , então a variância de α é maximizada quando α éa (k + 1)−ésima componente principal.Componentes Principais Amostrais

X = (x1, . . . , xn)

Xa é uma soma ponderada das colunas de X .

V (Xa) = a′Sa

Primeira componente principal

Y(1) = (X − 1X ′)e(1)

e

Y(i) = (X − 1X ′)e(i).

O conjunto dos componentes principais é dado por

Y = (X − 1X ′)G .

Page 78: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralPropriedades das Componentes Principais

a)A proporção da variabilidade explicada pelas k componentesprincipais é dado por

(λ1 + . . . + λk)

(λ1 + . . . + λp).

b)Componentes principais são afetadas por mudança de escala.Isto pode ser solucionada por padrozinar as variáveis ou usar amatriz de correlação.c)O posto de x = r < p, a variabilidade total pode ser explicadapelas r primeiras componentes.d)Elipsóide

(x − µ)S−1(x − µ) = Tα

Page 79: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralEliminação de Componentes

hipótesesH0 : λp = λp−1 = . . . = λk+1.O log da estatística da razão de verossimilhança é dada por

−2logλ = np(a− 1− log g),

onde a e g são as médias geométricas dos autovalores de Σ−1S ,onde Σ de Σ. Os autovalores de S são os mesmos de Σ.Sejam a0 =

(λk+1,...,+λp)

(p−k) e g0 = (λk+1×, . . . ,×λp).

A estatística para testar a hipótese acima, com a aplicação dacorreção de Bartlett, é dada

(n − 2p + 116

)(p − k) log(a0

g0) ∼ χ2

(p−k+2)(p−k−1)/2,

O mesmo pode ser feito com a matriz de correlação (VideMardia et al (1979, p. 236).

Page 80: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralComponentes Principais e Análise de Regressão

Para várias explicativas muito correlacionadas, o método decomponentes principais torna-se uma boa alternativa.O critério de escolha das componentes não é mais o testeanteriormente descrito. Este critério é o mesmo usado para asvariáveis explicativas do modelo de regressão, onde estasvariáveis explicativas são as componentes principais.As principais vantagens do uso de componentes principais emanálise regressão são:

O uso de componentes principais faz com que todas as variáveispossam ser utilizadas na análise.

As componentes principais permitem que o efeito individual decada variável seja melhor quantificado.

Page 81: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralFormulação do Modelo

Modelo de regressão

y = Xβ + ε, onde ε ∼ N(0, σ2H) e H = I − n−111′.

O modelo de regressão com as componentes principais W = XGé definido como

y = Wα + ε,

onde α = G ′β.

Page 82: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralRegressão Múltipla Multivariada

Modelo

Y(n×m) = Zn×(p+1)β(p+1)×m) + ε(n×m),

onde

Z =

z11 z12 . . . z1m...

.... . .

...zn1 zn2 . . . znm

β =

β01 β02 . . . β0m...

.... . .

...βp1 βp2 . . . βpm

ε =

ε11 ε12 . . . ε1m...

.... . .

...εn1 εn2 . . . εnm

Page 83: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Page 84: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Page 85: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Page 86: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Anderson, T. W., (1971). An Introduction to MultivariateStatistical Analysis, John Wiley & Sons, New York.

Everitt, B., (1974). Cluster Analysis , HeinemannEducational Books, London.

Mardia, K. V., Kent, J. T. and Bibby, J. M. (1979).Multivariate Analysis, Academic Press, London.

Page 87: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralCritérios de Avaliação - Atlas Banco de Dados

1. Usar latex;2. Usar R ou OX;3. A avaliação é competitiva, isto é, o melhor trabalho recebe a

melhor nota e força a redução das notas dos outrostrabalhos;

4. Justificar a escolha das variáveis e o objetivo de sua análise;5. Usar as informações dos livros porque as notas de aula são

apenas slides;6. Explicar os modelos utilizados (equações e idéias);7. Colocar referências bibliográficas;8. Escrever notas explicativas nos programas desenvolvidos e

colocar todos os programas em um apêndice.

As melhores análises serão enviadas para secretaria deplanejamento da cidade do Recife. Nossa expectativa é receberalguma retroalimentação.

Page 88: Apostila de Analise Multivariada

Análise Multivariada

G. AmaralCalendário

Prova 17.10.06

Análise do Banco de Dados:Atlas (Recife) 24.10.06

Seminário: 19.10.06

Page 89: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Os trabalhos entregues 2 dias antes do prazo têm um acréscimode 20% no valor da nota.

Método Datada En-trega

Abraão Fábio Juliana

Agrupamento 24.10 2,6 2,4 2,2Discriminante 10.11 2,6 2,4 2,4ComponentesPrincipais

20.11 2,4 2,4 2,2

RegressãoMultivariada

30.11 2,6 2,4 2,3

Tabela: Cronograma e Avaliação

Page 90: Apostila de Analise Multivariada

Análise Multivariada

G. Amaral

Os alunos José Luis e Edson já estão reprovados.

Aluno SeminárioProva AnáliseDados

MédiaFinal

Abraão 9,5 7,5 10 9,0Edson 4 0,7 0Fábio 8,5 7,0 9,6 8,4Jose Luis 5 0 0Juliana 8,5 4,5 9.1 7,4

Tabela: Resultados Parciais