35
MANOVA Hiron Pereira Farias Sunday, June 26, 2016 Hiron Pereira Farias MANOVA Sunday, June 26, 2016 1 / 35

MANOVA - Universidade de São Paulo · MANOVA HironPereiraFarias Sunday,June26,2016 Hiron Pereira Farias MANOVA Sunday, June 26, 2016 1 / 35

Embed Size (px)

Citation preview

MANOVA

Hiron Pereira Farias

Sunday, June 26, 2016

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 1 / 35

Comparação de valores médios para duas amostras: o casounivariável

Considere os dados na Tabela 1.1 sobre as medidas(em mm) do corpo de 49pardocas fémeas, após uma forte tempestade. Em que:

X1: comprimento total;

X2: extensão alar;

X3: comprimento do bico e cabeça;

X4: comprimento do Úmero;

X5: comprimento da quilha do esterno;

X6: sobreviveu (sob) ou morreu (mor).

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 2 / 35

Pacotes

rm(list=ls(all=TRUE))library(fBasics)library(xtable)library(doBy)require(biotools)

## ---## biotools version 2.2

library(clusterSim)setwd("~/ESALQ/verao_2016")pardocas<-read.table("pardocas.txt",h=T,skip=2)pardocas$X6<- factor(c(rep('sob',21),rep('mor',28)))

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 3 / 35

Leitura

head(pardocas,3)

## X1 X2 X3 X4 X5 X6## 1 156 245 31.6 18.5 20.5 sob## 2 154 240 30.4 17.9 19.6 sob## 3 153 240 31.0 18.4 20.6 sob

tail(pardocas,3)

## X1 X2 X3 X4 X5 X6## 47 153 237 30.6 18.6 20.4 mor## 48 162 245 32.5 18.5 21.1 mor## 49 164 248 32.3 18.8 20.9 mor

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 4 / 35

Leitura

str(pardocas)

## 'data.frame': 49 obs. of 6 variables:## $ X1: int 156 154 153 153 155 163 157 155 164 158 ...## $ X2: int 245 240 240 236 243 247 238 239 248 238 ...## $ X3: num 31.6 30.4 31 30.9 31.5 32 30.9 32.8 32.7 31 ...## $ X4: num 18.5 17.9 18.4 17.7 18.6 19 18.4 18.6 19.1 18.8 ...## $ X5: num 20.5 19.6 20.6 20.2 20.3 20.9 20.2 21.2 21.1 22 ...## $ X6: Factor w/ 2 levels "mor","sob": 2 2 2 2 2 2 2 2 2 2 ...

attach(pardocas)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 5 / 35

Vetores de Médias e matrizes de covariâncias

Suponha que existem p variávies X1,X2, ...,Xp, sendo consideradas, e queuma amostra de n valores para cada uma destas variáveis está disponível.

x j = x1j + x2j + . . .+ xnjn = 1

n

n∑i=1

xij , j = 1, 2, ..., p (1)

S2j = 1

n − 1

n∑i=1

(xij − x j)2, j = 1, 2, ..., p (2)

cj,k = 1n − 1

n∑i=1

(xij − x j)(xik − xk), k = 1, 2, ..., p (3)

rj,k = cj,ksjsk

, k = 1, 2, ..., p (4)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 6 / 35

Mediana

Seja X a variável de interesse e x1, x2, x3, ..., xn valores observados davariável X.Impondo a ordenação

x1 ≤ x2 ≤ x3 ≤ . . . ≤ xn

A mediana é o valor observado que assumi a posição (n+12 ) e será expresso

por:

M = Xp + q|X(p+1) − Xp|. (5)

em que p e a parte inteira e q a parte decimal na divisão de (n + 1) por 2.

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 7 / 35

Padronização e Desvio Absoluto da Mediana

A Padronização é uma transformação nos valores observados, constuituídosubtraindo cada valor observado pela média do conjunto e dividida pelodesvio padrão, esta transformação será denotada por z, e expressa por

zj = xij − x jSj

, j = 1, 2, ..., p (6)

O desvio absoluto da mediana (dm) é o valor absoluto da diferença entrecada valor observado da variável e sua mediana

dmj = |xij −Mj |, j = 1, 2, ..., p (7)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 8 / 35

Padronização no R

padr<-data.Normalization(pardocas[,-6],type="n1",normalization="column")

pad<-round(head(padr),4)head(pad)

## X1 X2 X3 X4 X5## 1 -0.5417 0.7249 0.1772 0.0542 -0.3294## 2 -1.0890 -0.2618 -1.3327 -1.0090 -1.2372## 3 -1.3627 -0.2618 -0.5778 -0.1230 -0.2285## 4 -1.3627 -1.0510 -0.7036 -1.3635 -0.6320## 5 -0.8154 0.3302 0.0514 0.2315 -0.5311## 6 1.3738 1.1195 0.6805 0.9403 0.0741

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 9 / 35

Matriz de covariância de pad

round(cov(pad),4)

## X1 X2 X3 X4 X5## X1 1.0683 0.6660 0.5831 0.6789 0.2815## X2 0.6660 0.6139 0.4635 0.6049 0.2010## X3 0.5831 0.4635 0.5235 0.5352 0.2741## X4 0.6789 0.6049 0.5352 0.7129 0.2914## X5 0.2815 0.2010 0.2741 0.2914 0.1984

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 10 / 35

Matriz de correlação de pad

round(cor(pad),4)

## X1 X2 X3 X4 X5## X1 1.0000 0.8223 0.7796 0.7779 0.6115## X2 0.8223 1.0000 0.8176 0.9145 0.5760## X3 0.7796 0.8176 1.0000 0.8760 0.8506## X4 0.7779 0.9145 0.8760 1.0000 0.7747## X5 0.6115 0.5760 0.8506 0.7747 1.0000

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 11 / 35

Estatística Descritiva

resumo1<-round(basicStats(pardocas[,-6]),2)pardocas.sob<-subset(pardocas,X6=="sob")resumo2<-round(basicStats(pardocas.sob[,-6]),2)pardocas.mor<-subset(pardocas,X6=="mor")resumo3<-round(basicStats(pardocas.mor[,-6]),2)cov_sob<-round(var(pardocas.sob[,-6]),4)cov_mor<-round(var(pardocas.mor[,-6]),4)cor_sob<-round(cor(pardocas.sob[,-6]),4)cor_mor<-round(cor(pardocas.mor[,-6]),4)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 12 / 35

ps<-pardocas.sob$X1n1<-length(ps)pm<-pardocas.mor$X1n2<-length(pm)res1<-summaryBy(X1~X6,FUN=c(mean,var),

data=pardocas.sob,na.rm=F)res2<-summaryBy(X1~X6,FUN=c(mean,var),

data=pardocas.mor,na.rm=F)rbind<-rbind(res1,res2)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 13 / 35

−5 0 5 10 15 20 25

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Gráfico das Distribuições f(x)

FIGURA 2

f(x)

f(x) =1

3 2πe

−12(x−10

3)2

f(x) =1

4 2πe

−12(x−10

4)2

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 14 / 35

X1 X2 X3 X4 X5nobs 49.00 49.00 49.00 49.00 49.00NAs 0.00 0.00 0.00 0.00 0.00

Minimum 152.00 230.00 30.10 17.20 18.60Maximum 165.00 252.00 33.40 19.80 23.101. Quartile 155.00 238.00 30.90 18.10 20.203. Quartile 161.00 245.00 32.00 18.80 21.50

Mean 157.98 241.33 31.46 18.47 20.83Median 158.00 242.00 31.50 18.50 20.70

Sum 7741.00 11825.00 1541.50 905.00 1020.50SE Mean 0.52 0.72 0.11 0.08 0.14

LCL Mean 156.93 239.87 31.23 18.31 20.54UCL Mean 159.03 242.78 31.69 18.63 21.11Variance 13.35 25.68 0.63 0.32 0.98

Stdev 3.65 5.07 0.79 0.56 0.99Skewness 0.14 -0.13 0.37 -0.05 0.23Kurtosis -1.20 -0.69 -0.61 -0.12 -0.37

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 15 / 35

Médias

Pardocas sobreviventes

Variável X1 X2 X3 X4 X5Médias 157.38 241.00 31.43 18.50 20.81

Pardocas mortas

variável X1 X2 X3 X4 X5Médias 158.43 241.57 31.48 18.45 20.84

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 16 / 35

Matrizes de variâncias e covariânciasTabela de covariância das pardocas sobreviventes

cov X1 X2 X3 X4 X5X1 11.05 9.10 1.56 0.87 1.29X2 9.10 17.50 1.91 1.31 0.88X3 1.56 1.91 0.53 0.19 0.24X4 0.87 1.31 0.19 0.18 0.13X5 1.29 0.88 0.24 0.13 0.57

Tabela de covariância das pardocas mortas

cov X1 X2 X3 X4 X5X1 15.07 17.19 2.24 1.75 2.93X2 17.19 32.55 3.40 2.95 4.07X3 2.24 3.40 0.73 0.47 0.56X4 1.75 2.95 0.47 0.43 0.51X5 2.93 4.07 0.56 0.51 1.32

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 17 / 35

Matrizes de correlaçõesTabela de correlações das pardocas sobreviventes

cor X1 X2 X3 X4 X5X1 1.00 0.65 0.64 0.62 0.51X2 0.65 1.00 0.63 0.75 0.28X3 0.64 0.63 1.00 0.62 0.43X4 0.62 0.75 0.62 1.00 0.42X5 0.51 0.28 0.43 0.42 1.00

Tabela de correlações das pardocas mortas

cor X1 X2 X3 X4 X5X1 1.00 0.78 0.68 0.68 0.66X2 0.78 1.00 0.70 0.78 0.62X3 0.68 0.70 1.00 0.83 0.57X4 0.68 0.78 0.83 1.00 0.67X5 0.66 0.62 0.57 0.67 1.00

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 18 / 35

Teste de NormalidadeShapiro (H0: Os dados provem de uma pop. com dist. normal)

shapiro.test(ps)

#### Shapiro-Wilk normality test#### data: ps## W = 0.93397, p-value = 0.1653

shapiro.test(pm)

#### Shapiro-Wilk normality test#### data: pm## W = 0.93835, p-value = 0.1004

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 19 / 35

Teste FH0: As variâncias são iguais

varianceTest(pm,ps)

#### Title:## F Test of Variances#### Test Results:## PARAMETER:## Hypothesized Ratio: 1## Numerator df: 27## Denumerator df: 20## SAMPLE ESTIMATES:## Ratio of Variances: 1.364## STATISTIC:## F: 1.364## P VALUE:## Alternative Two-Sided: 0.4788## Alternative Less: 0.7606## Alternative Greater: 0.2394## CONFIDENCE INTERVAL:## Two-Sided: 0.5743, 3.0734## Less: 0, 2.6919## Greater: 0.6626, Inf#### Description:## Sat Feb 11 22:34:38 2017

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 20 / 35

TESTE t de Student (H0: As médias são iguais)

t.test(pm,ps,alternative ="two.sided",mu = 0,paired = FALSE,var.equal = TRUE, conf.level = 0.95)

#### Two Sample t-test#### data: pm and ps## t = 0.99295, df = 47, p-value = 0.3258## alternative hypothesis: true difference in means is not equal to 0## 95 percent confidence interval:## -1.074874 3.170113## sample estimates:## mean of x mean of y## 158.4286 157.3810

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 21 / 35

Comparação de valores médios para duas amostras: O casomultivariado

Consideremos p variáveis X1,X2, ...,Xp e duas amostras de tamanhos n1 en2. Então há dois vetores de médias amostrais, x̄1 e x̄2 duas matrizes decovariâncias amostrais, C1 e C2.

Assumindo que as matrizes de covariâncias populacionais são as mesmaspara ambas populações, uma estimativa combinada desta matriz é

C = (n1 − 1)C1 + (n2 − 1)C2(n1 + n2 − 2) (8)

A estatística T 2 de Hotteling é definida como

T 2 = n1n2(x̄1 − x̄2)′C−1(x̄1 − x̄2)(n1 + n2) (9)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 22 / 35

Estatística F

Um valor significante para a estatística T 2 evidência de que os dois vetoresde médias populacionais são diferentes. Sob a hipótese de que os vetores demédias populacionais são iguais é verdadeira, então a estatísticatransformada

F = (n1 + n2 − p − 1)T 2

(n1 + n2 − 2)p (10)

segue uma distribuição F com p e (n1 + n2 − p − 1) gl.

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 23 / 35

Comparação da variação para duas ou mais amostras

O teste M de Box é o mais conhecido para comparar a variação em váriasamostras, ele pode ser usado com uma ou várias variáveis, com duas oumais amostras. Para m amostras, a estatística M é dada pela equação

M =∏m

j=1 |Ci |(ni−1)/2

|C|(n−m)/2 (11)

em que ni é o tamanho da i-ésima amostra, Ci é a covariância amostralpara a i-ésima amostra, C é a matriz de covariâncias combinada

C =

n∑i=1

(ni − 1)Ci

(n −m)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 24 / 35

Comparação de médias para várias amostras

Quando há várias variáveis e várias amostras, há quatro testeS que sãocomumente usados para testar a hipótese de que todas as amostras vem depopulações com mesmo vetor médio.

Teste: Lambda de Wilks

Estatística:

Λ = |W||T| (12)

em que,

W: Matriz das somas de quadrados e de produtos cruzados do resíduo;

T: Matriz das somas de quadrados e produtos cruzados dos totais.

B: Matriz das somas de quadrados e produtos de tratamentos

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 25 / 35

continuaçãoSejam λ1, ..., λp os autovalores da matriz W−1B . Então o lambda deWilks pode também ser expresso como:

Λ =p∏

i=1

1(1 + λi )

(13)

Maior raiz de Roy;

λ1 = max(λ1, λ2, ..., λp) (14)Traço de Pillai;

V =p∑

i=1

λi(1 + λi )

(15)

Traço de Lawley-Hotelling.

U =p∑

i=1λi (16)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 26 / 35

Soma de quadrados de total (SQT) para X1 e X2,respectivamente

SQTotal(X1) =∑

X 21 −

(n∑

i=1X1)2

N (17)

SQTotal(X2) =∑

X 22 −

(n∑

i=1X2)2

N (18)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 27 / 35

Soma de produtos de Totais (SPTotais), que se obtémcom os totais relativos a X1 e X2.

SPTotal(X1,X2) =∑

X1X2 −(∑

X1)(∑

X2)N (19)

Matriz de somas de quadrados e produtos total

T =[

SQTotal(X1) SQTotal(X1,X2)SQTotal(X1,X2) SQTotal(X2)

]

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 28 / 35

Soma de quadrados de tratamentos (SQT) de X1 e X2,respectivamente

SQT (X1) = T 21 + T 2

2 + T 23

r −(

n∑i=1

X1)2

N (20)

SQT (X2) = T 21 + T 2

2 + T 23

r −(

n∑i=1

X2)2

N (21)

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 29 / 35

Soma de produtos de tratamentos (SPT), que se obtémcom os totais relativos a tratamentos de X1 e X2.

SQT (X1,X2) =

∑X1X2

r −

J∑j=1

Tj(X1)J∑

j=1TJ(X2)

N (22)

A matriz de somas de quadrados e produtos de tratamentos é:

B =[

SQT (X1) SQT (X1,X2)SQT (X1,X2) SQT (X2)

]

Podemos, então escrever a matriz de somas quadrados e produtos do resíduo

W = T - B

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 30 / 35

Tabela MANOVA

TABELA 1:0 quadro de análise de variância multivariada (MANOVA)

Fonte de variação GL Matriz de SQPTratamentos k1 BResíduos k2 WTotal k T

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 31 / 35

Aplicação : Um ensaio inteiramente casualizado

Em um ensaio de fertilização em vasos, inteiramente casualizado, com 3tratamentos (A-testemunha; B-turfa fermentada; C-turfa natural) e com 5repetições. Determinaram-se nas plantas colhidas os teores de Nitrogénio(X1) e Fósforo (X2), que constam na tabela1.

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 32 / 35

read.table("turfas.txt",h=T)

## Trat X1 X2## 1 A 4.63 0.95## 2 A 4.38 0.89## 3 A 4.94 1.01## 4 A 4.96 1.23## 5 A 4.48 0.94## 6 B 6.03 1.08## 7 B 5.96 1.05## 8 B 6.16 1.08## 9 B 6.33 1.19## 10 B 6.08 1.08## 11 C 4.71 0.96## 12 C 4.81 0.93## 13 C 4.49 0.87## 14 C 4.43 0.82## 15 C 4.56 0.91

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 33 / 35

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 34 / 35

Bibliografias

ANTON, W; BUSBY, R. C.Álgebra linear contemporânea1. ed.,Porto Alegre: Bookman, 2006.

FERREIRA, D.F.Estatística multivariada1. ed.,Lavras: Ed. UFLA, 2008.MANLY, B. J. F.Métodos estatísticos multivariados: Uma introdução.3. ed.,Porto Alegre: Bookman, 2008.

MINGOTI, S. A.Análises de dados através de métodos de estatísticosmultivariada: Uma abordagem aplicada.1. ed.,Belo Horizonte: ed. UFMG, 2005.

Hiron Pereira Farias MANOVA Sunday, June 26, 2016 35 / 35