34
Ref.: Johnson e Wichern, Cap. 4

Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Embed Size (px)

Citation preview

Page 1: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Ref.: Johnson e Wichern, Cap. 4

Page 2: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados.

A qualidade das inferências feitas por estes métodos depende de quão próxima é a população em estudo da normal multivariada.

Procedimentos para verificação de dados que apresentam desvios da suposição de normalidade se fazem necessários.

Page 3: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

PROBLEMA: As observações Xi parecem violar a suposição de normalidade?

Sugestão: verificar se as distribuições marginais do vetor aleatório parecem normais;

se os diagramas de dispersão das variáveis tomadas duas a duas têm uma aparência elíptica;

se existem observações discrepantes (outliers) que mereçam ser verificadas.

Page 4: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliação da normalidade das distribuições marginaisHistogramas para tamanhos amostrais

superiores ou iguais a 25 podem revelar situações nas quais uma cauda da distribuição seja mais pesada do que a outra.

Se o histograma para a j-ésima componente do vetor de observações parece razoavelmente simétrico, podemos verificar a normalidade calculando a proporção de valores que caem em determinados intervalos comparando-a com a proporção esperada sob normalidade.

Page 5: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliação da normalidade das distribuições marginais

Por exemplo, numa distribuição normal univariada a probabilidade de um valor cair no intervalo que dista um desvio-padrão da média é cerca de 68%; a probabilidade de um valor cair no intervalo que dista dois desvios-padrão da média é cerca de 95%; etc.

Assim, se observarmos proporções amostrais muito diferentes do que se espera no caso da normal, a hipótese de normalidade deve ser descartada.

Gráficos são sempre ferramentas úteis em qualquer análise de dados. Gráficos especiais chamados Q-Q plots podem ser usados para avaliar a suposição de normalidade.

Page 6: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Q-Q plotsConstruídos a partir das distribuições marginais de cada

componente do vetor p-variado.São de fato um gráfico do quantil amostral versus quantil

esperado sob normalidade (podem ser usados para validar outras distribuições diferentes da normal).

Quando a configuração de pontos no gráfico se aproxima de uma reta, a suposição de normalidade é sustentável.

A normalidade é suspeita se houver pontos que se desviam do comportamento linear.

A forma como os pontos se desviam do comportamento linear pode fornecer pistas sobre a natureza da não normalidade das observações.

Conhecida a razão da não normalidade dos dados, ações corretivas podem ser tomadas (transformações visando normalizar os dados ou uso de técnicas para dados não normais).

Page 7: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

PASSOS NA CONSTRUÇÃO DO Q-Q plotOrdenar os n valores da j-ésima componente

do vetor aleatório. Seja as observações ordenadas. Os ‘s são os quantis amostrais (i=1,2,...,n).

Quando todos os quantis amostrais são distintos entre si, então exatamente i observações são menores ou iguais a .

A proporção i/n da amostra à esquerda de x(i) é frequentemente aproximada para (i-0,5)/n por conveniência analítica.

)()2()1( ... nxxx

sx i ')(

)(ix

Page 8: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

PASSOS NA CONSTRUÇÃO DO Q-Q plotPara uma distribuição normal padrão, podemos

obter os quantis q(i) tais que P(Z≤ q(i))=(i-0,5)/n.

A idéia será olhar os pontos (q(i),x(i)) com a mesma probabilidade acumulada (i-0,5)/n.

Se os dados, de fato, provêm de uma normal, os pares serão aproximadamente linearmente relacionados, pois o quantil esperado sob normalidade é aproximadamente σ q(i)+μ, com σ representando o desvio-padrão e μ a média da distribuição.

Page 9: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Usando o R para a construção do Q-Q plotNo R temos a função ppoints(n) que gera o

vetor de valores (i-0,5)/n, para i variando de 1 a n.

Para gerar os quantis esperados sob normalidade usaremos a função qnorm(p), que retorna o quantil cuja probabilidade acumulada é p. (Quando não especificamos nada além de p, o R retorna quantis da N(0,1)).

A função usada para ordenar um vetor de números no R é a função sort(x).

Page 10: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Construção do Q-Q plot das medidas do conjunto de dados crabs do pacote MASSCarregue o pacote MASS.Digite data(crabs).Os dados estão organizados de tal modo que as

colunas de 4 a 8 representam medidas morfológicas de caranguejos de duas espécies (linha 1 a 100 uma espécie e de 101 a 200 a outra).

Também há a divisão por gênero (macho e fêmea) tal que as 50 primeiras linhas de cada espécie são do gênero macho e, as restantes, do gênero fêmea.

Vamos construir 20 QQ-plots representando cada uma das 5 medidas dos 4 grupos caracterizados por espécie e gênero.

Page 11: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Construção do Q-Q plot das medidas do conjunto de dados crabs do pacote MASSComo n=50 em cada grupo espécie e gênero,

faça prop=ppoints(50)Calcule o vetor de quantis esperados sob

normalidade: quantilesp=qnorm(prop)Ordene os valores observados:

x1=sort(crabs[1:50,4])Construa o gráfico: plot(quantilesp,x1).Para que os 20 gráficos fiquem numa única

página use a função par(mfrow=c(4,5))

Page 12: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências
Page 13: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliação da normalidade das distribuições marginaisUma medida quantitativa para auxiliar na

avaliação do Q-Q plot é calcular a correlação rQ entre os quantis esperados e o vetor observado ordenado.

A hipótese de normalidade é rejeitada ao nível de significância α se rQ obtido for menor que um valor apropriado.

Por exemplo, ao nível de significância de 5% amostras de tamanho 50, a hipótese deve ser rejeitada se rQ for inferiro a 0,9768.

Page 14: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Correlações obtidas na base de dados crabs

grupo 1: 0,9929 0,9899 0,9924 0,9924 0,9910 grupo 2: 0,9901 0,9939 0,9931 0,9940 0,9924 grupo 3: 0,9902 0,9943 0,9907 0,9903 0,9893 grupo 4: 0,9919 0,9903 0,9915 0,9912 0,9939Limiar: 0,9768.Logo, verifica-se que nenhuma das

correlações fica abaixo do limiar especificado pelo nível de significância de 5%, evidenciando a não rejeição da hipótese nula de normalidade das distribuições marginais.

Page 15: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Teste de normalidade de Shapiro-WilkEsse teste, proposto em 1965, calcula uma estatística W que testa

se uma amostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade e pontos percentuais para a estatística W, podem ser obtidos via simulação de Monte Carlo.

A estatística W é calculada de acordo com a seguinte equação:

n

ii

n

iii

xx

xa

W

1

2

2

1)(

em que os x(i)’s são os valores amostrais ordenado e os ai‘s são constantes geradas das médias, variâncias e covariâncias das estatísticas de ordem de uma amostra aleatória de tamanho n de uma distribuição normal. Em comparação a outros testes de bondade de ajuste, esse teste comporta-se bem. No R existe a função shapiro.test(x).

Page 16: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Resultados da aplicação do teste de normalidade de Shapiro-Wilk aos dados “CRABS”

data: x1 --> W = 0.9817, p-value = 0.6268 data: x2 --> W = 0.9771, p-value = 0.4361 data: x3 --> W = 0.9815, p-value = 0.6179 data: x4 --> W = 0.9817, p-value = 0.6234 data: x5 --> W = 0.9777, p-value = 0.4592 data: y1 --> W = 0.9793, p-value = 0.5233 data: y2 --> w = 0.9846, p-value = 0.7538 data: y3 --> W = 0.9843, p-value = 0.7395 data: y4 --> W = 0.9866, p-value = 0.8386 data: y5 --> W = 0.9824, p-value = 0.6565 data: z1 --> W = 0.9758, p-value = 0.3918 data: z2 --> W = 0.9869, p-value = 0.8496 data: z3 --> W = 0.9771, p-value = 0.4366 data: z4 --> W = 0.9765, p-value = 0.4142 data: z5 --> W = 0.9742, p-value = 0.3411 data: w1 --> W = 0.9802, p-value = 0.5612 data: w2 --> W = 0.9804, p-value = 0.5683 data: w3 --> W = 0.9799, p-value = 0.5474 data: w4 --> W = 0.9801, p-value = 0.5568 data: w5 --> W = 0.9839, p-value = 0.7228

Page 17: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliando compostos linearesCompostos lineares podem ser investigados. Alguns

textos sugerem trabalhar com o composto linear 11111

ˆeˆˆˆS comˆ eexe iT

representando o maior autovalor de S. O composto linear:

ppppiTp eexe ˆeˆˆˆS comˆ

representando o menor autovalor de S também costuma ser usado.

Page 18: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliando compostos linearesPara avaliar os compostos sugeridos no slide

anterior, primeiro devemos obter os n valores correspondentes a tais compostos. Por simplicidade, consideraremos apenas o primeiro grupo. A verificação para os demais grupos fica como um exercício.

Primeiro vamos obter a decomposição espectral de S1 fazendo DES1=eigen(S1).

DES1 receberá dois objetos: o vetor de autovalores em ordem decrescente de magnitude e a matriz ortogonal na qual as colunas são os autovetores correspondentes.

Page 19: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliando compostos linearesDES1$vectors[,j] representa o j-ésimo autovetor.Faça e1=matrix(0,1,5) e e5=matrix(0,1,5)Depois faça for (i in 1:5)

{e1[i]=DES1$vectors[i,1]} efor (i in 1:5){e5[i]=DES1$vectors[i,5]}Defina xc=matrix(0,50,2), matriz que receberá

em cada coluna um dos compostos a serem analisados.

Finalmente, obtenha os compostos: (x1 representa a matriz de dados do grupo 1)for (i in 1:50){xc[i,1]=e1%*%x1[i,]} e

for (i in 1:50){xc[i,2]=e5%*%x1[i,]}

Page 20: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Resultados

Page 21: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Teste de Shapiro-Wilk Shapiro-Wilk normality test

data: xc[, 1] W = 0.9812, p-value = 0.6055

> shapiro.test(xc[,2])

Shapiro-Wilk normality test

data: xc[, 2] W = 0.9661, p-value = 0.1603

Page 22: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliação da Normalidade bivariadaEm trabalhos práticos, geralmente é

suficiente investigar as distribuições uni e bivariadas subjacentes.

Se as observações foram geradas de uma distribuição normal multivariada, cada distribuição bivariada será normal e os contornos de densidade constante serão elipses.

O diagrama de dispersão deve-se ajustar a essa estrutura exibindo uma forma elíptica.

Page 23: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliação da Normalidade bivariadaAlém disso, vimos que se , então ),(~ pNX

.50,02)5,0(2

1 XXP T

A grosso modo, devemos esperar que cerca de 50% das observaçõescaiam na região (no elipsóide)

2)5,0(2

1 xxSxx T

Assim um procedimento útil, embora não exato, é comparar as proporções de pontos dentro de um contorno com a proba-bilidade teórica correspondente.

Page 24: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliação da Normalidade bivariadaUm método um pouco mais formal para

julgar a normalidade bivariada é baseado no quadrado da distância generalizada

nixxSxxd iT

ii ,...2,1,12

Esse procedimento não é limitado ao caso p=2, pode ser usado. para p>2.

Page 25: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Avaliação da Normalidade bivariadaQuando a população é de fato normal multivariada

e ambos n e n-p são maiores que 25 ou 30, cada uma das distâncias generalizadas quadradas devem comportar-se segundo uma distribuição de qui-quadrado com p graus de liberdade.

Apesar dessas distâncias não serem independentes ou terem distribuição exata de Qui-quadrado, é útil construir um gráfico como se fossem.

O gráfico resultante é chamado gráfico qui-quadrado.

Page 26: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Construção do gráfico qui-quadrado1. Ordene as distâncias quadradas amostrais obtendo

2)(

2)2(

2)1( ... nddd

2. Construa o gráfico de dispersão dos pontos:

2

502

/)5,0(2

)( com,, )/n,(i-pnipid

representando o 100(i-0,5)/n quantil da distribuição de qui-quadrado com p graus de liberdade.

A nuvem de pontos deve se ajustar a uma reta. Um padrão diferente sugere falta de normalidade

Page 27: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Verificando a normalidade bivariada dos dados em crabsPara começar devemos calcular as distâncias

quadradas. Para isso vamos definir a matriz de dados x=matrix(0,200,5) e fazer x1=x[1:50,1:5].

Em seguida vamos calcular o vetor de médias m1=matrix(0,1,5) // for (i in 1:5){m1[i]=mean(x1[,i])}

e a matriz de covariância amostral S1=cov(x1).Defina o vetor que receberá as distâncias

quadradas: dquad1=matrix(0,50) e façafor (i in 1:50){dquad1[i]=(x1[i,]-m1)%*%solve(S1)%*%t(x1[i,]-m1)}

Page 28: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Verificando a normalidade bivariada dos dados em crabsEm seguida obtenha o vetor prop=ppoints(50)

para calcular o vetor de quantis (esperados) qui=qchisq(prop,5)

Agora é só construir o gráfico.A figura a seguir mostra os gráficos obtidos

para os quatro grupos.Também podemos calcular as porcentagens

em cada caso das distâncias quadradas que ficaram abaixo do quantil de 50% da qui-quadrado com 5 graus de liberdade. Nesses caso em particular, observou-se 60%, 62%, 50% e 50%, respectivamente.

Page 29: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências
Page 30: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Transformações de normalizaçãoSe a suposição de normalidade dos dados não é

plausível, que estratégia adotar?1) Usar técnicas estatísticas apropriadas para dados

não-normais, após verificar a distribuição plausível para os dados (Poisson, Gamma,etc.)

2) Transformar os dados para uma nova escala, sob a qual a suposição de normalidade é plausível.

 Aqui, somente trataremos da transformação, pois

técnicas a serem estudadas a seguir são voltadas para dados normais.

Transformações não são nada mais do que uma forma de reescrever os dados numa unidade diferente.

Page 31: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Transformações úteis Escala original Escala transformada

Contagens (y)

Proporções (

Correlações (r) Fisher

y

)p̂

p

pp

ˆ1

ˆlog

2

1)ˆ(logit

r

rrz

1

1log

2

1)(

Page 32: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Transformações de normalizaçãoEm muitas situações a escolha para melhorar

a aproximação normal não é óbvia. Para tais casos é conveniente deixar que os dados mostrem uma transformação. Uma família útil de transformações para esse propósito é a família de transformações de potências : xλ.

As transformações de potência só estão definidas para variáveis positivas. Porém, isso não é tão restritivo quanto parece, porque uma única constante pode ser adicionada a cada observação no conjunto de dados se alguns dos valores observados forem negativos. 

Page 33: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Transformações de normalizaçãoBox e Cox consideraram a seguinte família de

transformações de potência modificada:

0,ln

0,1

)(

x

x

que é contínua em λ para x>0. Dada a amostra, escolhe-se λ de modo a maximizar:

i

n

i

n

ij xxx

n

nl

1

2)(

1

)( ln)1()(1

ln2

)(

Page 34: Ref.: Johnson e Wichern, Cap. 4. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências

Transformações de normalizaçãoObservação: A transformação obtida geralmente

melhora a aproximação à normalidade. Porém, não há garantias de que mesmo a melhor

escolha de λ produzirá um conjunto de dados transformados que seja adequado à suposição de normalidade.

Os resultados obtidos por uma transformação selecionada de acordo com esse procedimento devem ser cuidadosamente examinados para possíveis violações da suposição de normalidade.

Essa recomendação de fato vale para qualquer transformação usada.