Transcript
Page 1: Análise Multivariada - trabalho

UNIVERSIDADE FEDERAL DO PARANÁ

Programa de

Pós-Graduação em Métodos Numéricos em Engenharia

Trabalho de

Análise Multivariada Aplicada à Pesquisa

Prof. D. Jair Mendes Marques

Aluna

Marina Vargas R. P. G. Ferreira

Curitiba - PR

2010

Page 2: Análise Multivariada - trabalho

Sumário

1 Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias 3

2 Lista 2 - Distribuição Normal Multivariada 33

3 Lista 3 - Inferência sobre o vetor de médias e MANOVA 48

4 Lista 4: Análise de Componentes Principais 75

5 Lista 5: Análise Fatorial 99

6 Lista 6: Análise Discriminante 121

7 Lista 7: Regressão Logística 135

8 Lista 8: Análise de Agrupamento 146

9 Lista 9: Análise de Correlação Canônica 169

2

Page 3: Análise Multivariada - trabalho

1 Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias

Resolver os problemas 1 até 16, com uso do MATLAB

1. Dadas as matrizes

A =

⎡⎢⎢⎢⎢⎢⎢⎣

−7 0 5 4

3 −3 −2 3

7 5 4 1

2 2 7 −3

⎤⎥⎥⎥⎥⎥⎥⎦, B =

⎡⎢⎢⎢⎢⎢⎢⎣

8 5 7 5

−1 −3 −3 −1

−1 3 −2 5

1 1 3 6

⎤⎥⎥⎥⎥⎥⎥⎦

e C =

⎡⎢⎢⎢⎢⎢⎢⎣

−5 5 0 −5

2 −3 2 2

2 3 −1 1

0 4 1 −3

⎤⎥⎥⎥⎥⎥⎥⎦,

calcular:

(a) A+B;

>> A+B

ans =

1 5 12 9

2 -6 -5 2

6 8 2 6

3 3 10 3

(b) C −B;

>> C-B

ans =

-13 0 -7 -10

3 0 5 3

3 0 1 -4

-1 3 -2 -9

(c) −5 ⋅B;

>> (-5)*B

ans =

-40 -25 -35 -25

5 15 15 5

5 -15 10 -25

-5 -5 -15 -30

3

Page 4: Análise Multivariada - trabalho

(d) A+ 3 ⋅B − 5 ⋅ C;

>> A+3*B-5*C

ans =

42 -10 26 44

-10 3 -21 -10

-6 -1 3 11

5 -15 11 30

(e) B ⋅A;

>> B*A

ans =

18 30 93 39

-25 -8 -18 -13

12 -9 16 -12

29 24 57 -8

(f) (C ⋅A) ⋅B;

>> (C*A)*B

ans =

425 75 525 -65

-106 15 -195 112

-62 20 -9 75

164 51 246 85

(g) A ⋅ (B − C);

>> A*(B-C)

ans =

-102 -12 -46 -14

57 -9 44 58

65 -3 22 80

-4 9 -9 15

(h) A−1;

>> inv(A)

ans =

4

Page 5: Análise Multivariada - trabalho

-0.0507 0.0941 0.0404 0.0400

0.0097 -0.2008 0.1365 -0.1423

0.0526 0.0658 -0.0132 0.1316

0.0955 0.0824 0.0872 -0.0945

(i) (B ⋅ C)−1

>> inv(B*C)

ans =

-0.0568 0.0389 0.0019 0.1170

0.0181 -0.0776 -0.0252 -0.0256

0.0487 -0.1005 0.0613 -0.1177

0.0393 -0.1723 -0.0316 -0.1184

(j) tr(A);

>> trace(A)

ans =

-9

(k) tr(B + C);

>> trace(B+C)

ans =

-3

(l) B2;

>> B^2

ans =

57 51 42 100

-3 -6 5 -23

-4 -15 3 12

10 17 16 55

(m) C3;

>> C^3

ans =

-285 570 -75 -440

114 -257 52 180

5

Page 6: Análise Multivariada - trabalho

50 -44 -12 66

-84 197 -28 -142

(n) tr(A+B)−1;

>> trace(inv(A+B))

ans =

-0.4004

(o) A′;

>> A’

ans =

-7 3 7 2

0 -3 5 2

5 -2 4 7

4 3 1 -3

(p) (B +A− C ′)′;

>> (B+A-C’)’

ans =

6 -3 6 8

3 -3 6 1

10 -8 3 9

9 -2 5 6

(q) det(B);

>> det(B)

ans =

613

(r) det(A−B).

>> det(A-B)

ans =

-152

2. Dados os vetores: u = [0, 3,−1, 0, 5], v = [−5, 1,−5, 1, 4] e w = [1,−1,−3, 0, 2], calcular:

6

Page 7: Análise Multivariada - trabalho

(a) u ∙ v;

u ∙ v = 28

(b) w ∙ v;

w ∙ v = 17

(c) u ∙ (v + w);

u ∙ (v + w) = 38

(d) u ∙ (v − w).

u ∙ (v − w) = 18

3. Dados os vetores: u1 = [2,−1, 3, 2], u2 = [−1, 3, 2, 1], u3 = [−4, 2,−6,−4] e u4 =

[6,−3, 9, 6], verifique se são L.D. ou L.I.:

(a) u1 e u2;

Como

M =

⎡⎢⎢⎢⎢⎢⎢⎣

2 −1

−1 3

3 2

2 1

⎤⎥⎥⎥⎥⎥⎥⎦

e rank(MA) = 2, então os vetores u1 e u2 são Linearmente Independentes.

(b) u1 e u3;

Como

MM =

⎡⎢⎢⎢⎢⎢⎢⎣

2 −4

−1 2

3 −6

2 −4

⎤⎥⎥⎥⎥⎥⎥⎦

e rank(MM) = 1, então os vetores u1 e u3 são Linearmente Dependentes.

(c) u1, u2 e u3;

7

Page 8: Análise Multivariada - trabalho

Como

TT =

⎡⎢⎢⎢⎢⎢⎢⎣

2 −1 −4

−1 3 2

3 2 −6

2 1 −4

⎤⎥⎥⎥⎥⎥⎥⎦

e rank(TT ) = 2, então os vetores u1, u2 e u3 são Linearmente Dependentes.

(d) u1, u3 e u4;

Como

TH =

⎡⎢⎢⎢⎢⎢⎢⎣

2 −4 6

−1 2 −3

3 −6 9

2 −4 6

⎤⎥⎥⎥⎥⎥⎥⎦

e rank(TH) = 1, então os vetores u1, u3 e u4 são Linearmente Dependentes.

(e) u1, u2 , u3 e u4.

Como

GG =

⎡⎢⎢⎢⎢⎢⎢⎣

2 −1 −4 6

−1 3 2 −3

3 2 −6 9

2 1 −4 6

⎤⎥⎥⎥⎥⎥⎥⎦

e rank(GG) = 2, então os vetores u1, u2, u3 e u4 são Linearmente Dependentes.

4. Calcular a norma ou comprimento de cada um dos vetores do item 2.

- ∥u∥ = 5.9161

- ∥v∥ = 8.2462

- ∥w∥ = 3.8730

5. Determinar os autovalores e autovetores normalizados das matrizes:

A =

⎡⎢⎢⎢⎣

9 −1 3

−1 5 1

3 1 7

⎤⎥⎥⎥⎦

Matriz de autovetores

8

Page 9: Análise Multivariada - trabalho

e =

⎡⎢⎢⎢⎣

0.441225 0.374359 0.815583

0.687013 −0.725619 −0.0386051

−0.57735 −0.57735 0.57735

⎤⎥⎥⎥⎦

Matriz de autovalores

L =

⎡⎢⎢⎢⎣

3.51739 0 0

0 6.31158 0

0 0 11.171

⎤⎥⎥⎥⎦

Assim

Autovalores Autovetores

¸1 = 3.51739 e1 = [0.441225 0.687013 -0.57735]’

¸2 = 6.31158 e2 = [0.374359 -0.725619 -0.57735]’

¸3 = 11.171 e3 = [0.815583 -0.0386051 0.57735]’

e

B =

⎡⎢⎢⎢⎢⎢⎢⎣

−3 5 1 3

5 −3 1 5

1 1 3 −4

3 5 −4 6

⎤⎥⎥⎥⎥⎥⎥⎦

Matriz de autovetores

e =

⎡⎢⎢⎢⎢⎢⎢⎣

0.627122 −0.598371 0.408248 0.286361

−0.76064 −0.340226 0.408248 0.372836

0.0667588 0.469299 0.816497 −0.329599

0.153909 0.553133 1.69362e−017 0.818752

⎤⎥⎥⎥⎥⎥⎥⎦

Matriz de autovalores

L =

⎡⎢⎢⎢⎢⎢⎢⎣

−8.22181 0 0 0

0 −3.71455 0 0

0 0 4 0

0 0 0 10.9364

⎤⎥⎥⎥⎥⎥⎥⎦

Assim

9

Page 10: Análise Multivariada - trabalho

Autovalores Autovetores

¸1 = -8.2218 e1 = [0.627122 -0.76064 0.0667588 0.153909]’

¸2 = -3.7146 e2 = [ -0.598371 -0.340226 0.469299 0.553133]’

¸3 = 4.0000 e3 = [0.408248 0.408248 0.816497 1.69362e−017]’

¸4 = 10.9364 e4 = [ 0.286361 0.372836 -0.329599 0.818752 ]’

6. Determine as matrizes A1/2 e B1/2, se existirem, para as matrizes do item 5.

>> A=[9 -1 3; -1 5 1; 3 1 7]

A =

9 -1 3

-1 5 1

3 1 7

>> [e,L]=eig(A)

e =

0.4412 0.3744 0.8156

0.6870 -0.7256 -0.0386

-0.5774 -0.5774 0.5774

L =

3.5174 0 0

0 6.3116 0

0 0 11.1710

>> AR=e*(sqrt(L))*e’

AR =

2.9404 -0.2192 0.5531

-0.2192 2.2130 0.2341

0.5531 0.2341 2.5767

ou

>> AR=sqrtm(A)

AR =

2.9404 -0.2192 0.5531

-0.2192 2.2130 0.2341

0.5531 0.2341 2.5767

10

Page 11: Análise Multivariada - trabalho

A1/2 =

⎡⎢⎢⎢⎣

2.94042 −0.21917 0.553062

−0.21917 2.21295 0.234092

0.553062 0.234092 2.57669

⎤⎥⎥⎥⎦

>> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6]

B =

-3 5 1 3

5 -3 1 5

1 1 3 -4

3 5 -4 6

>> [e,L]=eig(B)

e =

0.6271 -0.5984 0.4082 0.2864

-0.7606 -0.3402 0.4082 0.3728

0.0668 0.4693 0.8165 -0.3296

0.1539 0.5531 0.0000 0.8188

L =

-8.2218 0 0 0

0 -3.7146 0 0

0 0 4.0000 0

0 0 0 10.9364

B1/2 Não existe, pois B1/2 =k∑

i=1

√¸ieie

′i = PΛ1/2P ′, dependendo assim dos autovalores,

onde dois deles são negativos.

7. Para a matriz B do item 6 verifique se é possível: (B1/2)−1 = PΛ−1/2P ′.

Temos que(A1/2

)−1=

k∑i=′

1√¸ieie

′i = PΛ−1/2P ′, como existem autovalores negativos, não é

possível encontrar (B1/2)−1.

8. Verificar se existe alguma matriz positiva definida entre as matrizes A e B do item 6.

(a) Do item 6, temos

11

Page 12: Análise Multivariada - trabalho

Autovalores A B

¸1 3.5174 -8.2218

¸2 6.3116 -3.7146

¸3 11.1710 4.0000

¸4 10.9364

A matriz A é positiva definida, pois seus autovalores são positivos, já a matriz B não é

positiva definida.

9. Calcular o comprimento ou norma de cada vetor coluna das matrizes A e B do item 6.

Matriz A

>> A=[9 -1 3; -1 5 1; 3 1 7];

>> u1=[9 -1 -3]

u1 =

9 -1 -3

>> u2=[-1 5 1]

u2 =

-1 5 1

>> u3=[3 1 7]

u3 =

3 1 7

>> norm(u1)

ans =

9.5394

>> norm(u2)

ans =

5.1962

>> norm(u3)

ans =

7.6811

>> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6];

>> u1=[-3 5 1 3]

u1 =

12

Page 13: Análise Multivariada - trabalho

-3 5 1 3

>> u2=[5 -3 1 5]

u2 =

5 -3 1 5

>> u3=[1 1 3 -4]

u3 =

1 1 3 -4

>> u4=[3 5 -4 6]

u4 =

3 5 -4 6

>> norm(u1)

ans =

6.6332

>> norm(u2)

ans =

7.7460

>> norm(u3)

ans =

5.1962

>> norm(u4)

ans =

9.2736

Vetores Coluna A B

u1 9.5394 6.6332

u2 5.1962 7.7460

u3 7.6811 5.1962

u4 9.2736

10. Considere a matriz de covariância

Σ =

⎡⎢⎢⎢⎢⎢⎢⎣

9 0 0 0

0 16 0 0

0 0 20 0

0 0 0 25

⎤⎥⎥⎥⎥⎥⎥⎦,

13

Page 14: Análise Multivariada - trabalho

determine:

(a) Σ−1;

>> sigma=[9 0 0 0;0 16 0 0;0 0 20 0;0 0 0 25]

sigma =

9 0 0 0

0 16 0 0

0 0 20 0

0 0 0 25

>> InvSigma=inv(sigma)

InvSigma =

0.1111 0 0 0

0 0.0625 0 0

0 0 0.0500 0

0 0 0 0.0400

(b) Os autovalores e autovetores normalizados de Σ;

>> [e,L]=eig(sigma)

e =

1 0 0 0

0 1 0 0

0 0 1 0

0 0 0 1

L =

9 0 0 0

0 16 0 0

0 0 20 0

0 0 0 25

Autovalores Autovetores

¸1 = 9 e1 = [1 0 0 0]’

¸2 = 16 e2 = [0 1 0 0]’

¸3 = 20 e3 = [0 0 1 0]’

¸4 = 25 e4 = [0 0 0 1 ]’

14

Page 15: Análise Multivariada - trabalho

(c) os autovalores e autovetores normalizados de Σ−1.

>> [einv,Linv]=eig(InvSigma)

einv =

0 0 0 1

0 0 1 0

0 1 0 0

1 0 0 0

Linv =

0.0400 0 0 0

0 0.0500 0 0

0 0 0.0625 0

0 0 0 0.1111

Autovalores Autovetores

¸1 = 0.0400 e1 = [0 0 0 1]’

¸2 = 0.0500 e2 = [0 0 1 0]’

¸3 = 0.0625 e3 = [0 1 0 0]’

¸4 = 0.1111 e4 = [1 0 0 0 ]’

11. Dada a matriz covariância

Σ =

⎡⎢⎢⎢⎢⎢⎢⎣

4 −1 3 4

−1 5 2 1

3 2 4 5

4 1 5 5

⎤⎥⎥⎥⎥⎥⎥⎦

determine:

(a) A matriz de correlação ½;

>> Sigma=[4 -1 3 4;-1 5 2 1;3 2 4 5;4 1 5 5]

>> V=diag(diag(Sigma))

V =

4 0 0 0

0 5 0 0

0 0 4 0

0 0 0 5

>> Vraiz=sqrtm(V)

15

Page 16: Análise Multivariada - trabalho

Vraiz =

2.0000 0 0 0

0 2.2361 0 0

0 0 2.0000 0

0 0 0 2.2361

>> IVraiz=inv(Vraiz)

IVraiz =

0.5000 0 0 0

0 0.4472 0 0

0 0 0.5000 0

0 0 0 0.4472

>> Corre=IVraiz*Sigma*IVraiz

Matriz de Correlação =

1.0000 -0.2236 0.7500 0.8944

-0.2236 1.0000 0.4472 0.2000

0.7500 0.4472 1.0000 1.1180

0.8944 0.2000 1.1180 1.0000

(b) Verifique a relação V 1/2½V 1/2 = Σ;

>> Corre=IVraiz*Sigma*IVraiz

Corre =

1.0000 -0.2236 0.7500 0.8944

-0.2236 1.0000 0.4472 0.2000

0.7500 0.4472 1.0000 1.1180

0.8944 0.2000 1.1180 1.0000

>> Sigma=Vraiz*Corre*Vraiz

Sigma =

4.0000 -1.0000 3.0000 4.0000

-1.0000 5.0000 2.0000 1.0000

3.0000 2.0000 4.0000 5.0000

4.0000 1.0000 5.0000 5.0000

(c) Efetue a decomposição espectral de Σ

Sigma =

4.0000 -1.0000 3.0000 4.0000

16

Page 17: Análise Multivariada - trabalho

-1.0000 5.0000 2.0000 1.0000

3.0000 2.0000 4.0000 5.0000

4.0000 1.0000 5.0000 5.0000

>> [e,L]=eig(Sigma)

e =

0.0997 -0.7697 0.4143 0.4754

-0.1147 -0.3916 -0.8967 0.1715

0.7156 0.3704 -0.1434 0.5745

-0.6817 0.3421 0.0609 0.6438

L =

-0.6656 0 0 0

0 0.2695 0 0

0 0 5.7140 0

0 0 0 12.6821

>> Auto=e*L*e’

Auto =

4.0000 -1.0000 3.0000 4.0000

-1.0000 5.0000 2.0000 1.0000

3.0000 2.0000 4.0000 5.0000

4.0000 1.0000 5.0000 5.0000

Então, vê-se que A = PAP ′. A= matriz dos Autovalores de sigma P= matriz dos

Autovetores de sigma

12. Uma amostra multivariada aleatória X (com 12 observações e 6 variáveis) é dada a seguir:

17

Page 18: Análise Multivariada - trabalho

X =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

39 51 53 42 55 48

47 51 53 48 53 57

43 45 46 44 44 51

49 46 49 45 48 57

51 55 44 57 49 56

52 49 39 50 44 47

57 52 55 44 43 44

48 50 47 50 55 50

53 47 52 44 50 48

54 47 51 43 47 46

55 52 50 49 54 52

43 43 45 56 52 56

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

(a) o vetor de médias;

>> X=[39 51 53 42 55 48;47 51 53 48 53 57; 43 45 46 44 44 51; 49 46 49 45 48 57;51 55 44 57 49 56;52 49 39 50 44 47;57 52 55 44 43 44;48 50 47 50 55 50;53 47 52 44 50 48;54 47 51 43 47 46;55 52 50 49 54 52;43 43 45 56 52 56]

X =

39 51 53 42 55 48

47 51 53 48 53 57

43 45 46 44 44 51

49 46 49 45 48 57

51 55 44 57 49 56

52 49 39 50 44 47

57 52 55 44 43 44

48 50 47 50 55 50

53 47 52 44 50 48

54 47 51 43 47 46

55 52 50 49 54 52

43 43 45 56 52 56

>> mean(X)

ans =

49.2500 49.0000 48.6667 47.6667 49.5000 51.0000

(b) a matriz covariância estimada S;

S=cov(X)

18

Page 19: Análise Multivariada - trabalho

ans =

30.0227 6.4545 3.0000 -0.7273 -9.3182 -9.0909

6.4545 12.0000 2.8182 2.7273 2.7273 -1.3636

3.0000 2.8182 21.3333 -14.4848 4.6364 -4.6364

-0.7273 2.7273 -14.4848 24.6061 4.5455 12.8182

-9.3182 2.7273 4.6364 4.5455 19.1818 7.5455

-9.0909 -1.3636 -4.6364 12.8182 7.5455 21.0909

(c) a matriz de correlação R;

>> M=diag(diag(S))

M =

30.0227 0 0 0 0 0

0 12.0000 0 0 0 0

0 0 21.3333 0 0 0

0 0 0 24.6061 0 0

0 0 0 0 19.1818 0

0 0 0 0 0 21.0909

>> raizM=sqrtm(M)

raizM =

5.4793 0 0 0 0 0

0 3.4641 0 0 0 0

0 0 4.6188 0 0 0

0 0 0 4.9604 0 0

0 0 0 0 4.3797 0

0 0 0 0 0 4.5925

>> invRM=inv(raizM)

invRM =

0.1825 0 0 0 0 0

0 0.2887 0 0 0 0

0 0 0.2165 0 0 0

0 0 0 0.2016 0 0

0 0 0 0 0.2283 0

0 0 0 0 0 0.2177

>> R=invRM*S*invRM

R =

1.0000 0.3401 0.1185 -0.0268 -0.3883 -0.3613

0.3401 1.0000 0.1761 0.1587 0.1798 -0.0857

0.1185 0.1761 1.0000 -0.6322 0.2292 -0.2186

-0.0268 0.1587 -0.6322 1.0000 0.2092 0.5627

-0.3883 0.1798 0.2292 0.2092 1.0000 0.3751

-0.3613 -0.0857 -0.2186 0.5627 0.3751 1.0000

19

Page 20: Análise Multivariada - trabalho

(d) a matriz desvio padrão D1/2.

>> DM=diag(diag(S))

DM =

30.0227 0 0 0 0 0

0 12.0000 0 0 0 0

0 0 21.3333 0 0 0

0 0 0 24.6061 0 0

0 0 0 0 19.1818 0

0 0 0 0 0 21.0909

>> DeM=sqrtm(DM)

DeM =

5.4793 0 0 0 0 0

0 3.4641 0 0 0 0

0 0 4.6188 0 0 0

0 0 0 4.9604 0 0

0 0 0 0 4.3797 0

0 0 0 0 0 4.5925

13. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens

obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra,

situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de

estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para

cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ...

, CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7;

COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área

total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e

b (mg/10g)).

20

Page 21: Análise Multivariada - trabalho

Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT

1. T1 4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00

2. T2 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22

3. T7 5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61

4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44

5. T15 5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90

6. T22 9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73

7. T26 9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82

8. T28 6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32

9. T33 6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09

10. T43 8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28

11. F3A 9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25

12. F9 5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35

13. F10 6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26

14. F17 7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36

15. F18 8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39

16. F36 6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29

17. F6A 8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27

18. F40 6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40

19. F41 7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62

20. F42 8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37

(a) montar a matriz de dados X;

>> X=[4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00; 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22;5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61;7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44;5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90;9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73;9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82;6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32;6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09;8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28;9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25;5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35;6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26;7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36;8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39;6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29;8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27;6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40;7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62;8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37]

X =

4.50 6.75 5.25 71.00 45.50 8.75 97.90 5.12 18.00

8.75 9.50 11.50 43.50 53.75 14.50 52.40 1.91 15.22

5.75 8.25 8.50 51.25 42.00 9.50 50.60 2.74 15.61

7.75 9.75 11.75 50.25 41.25 10.25 49.30 0.89 14.44

5.50 6.50 5.00 73.25 40.50 6.50 96.50 6.68 17.90

9.50 12.00 28.50 31.50 61.75 31.25 11.10 0.27 12.73

9.00 10.25 9.25 61.75 48.00 10.00 90.20 3.71 14.82

6.75 7.75 6.25 82.00 44.50 6.75 96.70 5.36 17.32

6.25 6.50 5.25 80.25 46.75 6.75 96.00 6.55 15.09

8.50 10.00 8.25 74.75 55.50 10.50 97.90 2.05 16.28

9.00 11.50 20.50 43.75 58.00 22.25 19.70 0.81 10.25

21

Page 22: Análise Multivariada - trabalho

5.75 7.00 11.00 28.25 31.00 9.00 14.30 0.62 12.35

6.25 7.50 17.50 22.00 31.00 13.50 4.20 0.15 8.26

7.00 9.75 9.75 61.25 53.75 11.75 55.30 1.96 14.36

8.25 10.50 9.00 83.00 60.00 11.75 85.80 6.64 11.39

6.75 8.25 8.00 59.00 46.75 9.75 45.50 2.20 12.29

8.00 10.00 11.00 49.25 48.00 14.00 16.90 1.17 13.27

6.75 8.00 10.75 43.75 42.00 10.00 38.10 1.58 14.40

7.75 10.25 15.50 45.25 58.75 20.50 29.20 0.74 15.62

8.25 11.00 16.75 31.25 46.75 18.25 21.50 9.63 10.37

(b) estimar o vetor de médias;

>> M=mean(X)

M =

7.30 9.05 11.46 54.31 47.77 12.77 53.45 3.04 13.99

(c) estimar a matriz de covariâncias;

>> S=cov(X)

S =

1.89 2.13 4.73 -4.94 8.22 5.53 -11.35 -0.72 -1.22

2.13 2.92 6.72 -8.54 10.94 8.06 -20.95 -0.90 -1.72

4.73 6.72 33.94 -80.04 16.73 33.67 -150.59 -6.78 -9.38

-4.94 -8.54 -80.04 352.20 40.52 -65.53 590.45 26.02 30.46

8.22 10.94 16.73 40.52 76.05 31.28 31.42 0.06 1.18

5.53 8.06 33.67 -65.53 31.28 37.74 -132.46 -5.62 -7.25

-11.35 -20.95 -150.59 590.45 31.42 -132.46 1160.39 51.43 63.90

-0.72 -0.90 -6.78 26.02 0.06 -5.62 51.43 7.30 1.41

-1.22 -1.72 -9.38 30.46 1.18 -7.25 63.90 1.41 6.91

(d) determinar os autovalores e autovetores da matriz de covariâncias;

Matriz dos autovetores. Cada coluna é um autovetor.

>> [e,L]=eig(S)

e =

0.71 0.23 0.58 0.31 -0.07 -0.01 0.05 -0.09 -0.01

-0.50 -0.50 0.64 0.24 -0.11 -0.01 0.04 -0.13 -0.02

-0.31 0.49 0.09 0.15 0.40 0.56 0.28 -0.26 -0.12

0.02 -0.01 0.07 -0.06 0.18 0.25 -0.78 -0.27 0.46

-0.10 0.19 -0.17 0.06 -0.28 -0.42 0.08 -0.81 0.03

0.37 -0.57 -0.09 -0.36 0.22 0.33 0.27 -0.41 -0.10

0.00 -0.03 -0.04 0.07 0.00 -0.00 0.47 0.08 0.87

-0.04 0.17 0.13 -0.42 -0.75 0.45 0.02 0.01 0.04

-0.09 0.23 0.43 -0.72 0.31 -0.37 0.06 0.02 0.05

22

Page 23: Análise Multivariada - trabalho

A matriz de autovalores, onde estes se localizam na sua diagonal é:

L =

0.15 0 0 0 0 0 0 0 0

0 0.17 0 0 0 0 0 0 0

0 0 0.92 0 0 0 0 0 0

0 0 0 3.12 0 0 0 0 0

0 0 0 0 5.11 0 0 0 0

0 0 0 0 0 7.40 0 0 0

0 0 0 0 0 0 38.16 0 0

0 0 0 0 0 0 0 109.79 0

0 0 0 0 0 0 0 0 1514.51

(e) estimar a matriz de correlações.

>> X=[4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00; 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22;5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61;7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44;5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90;9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73;9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82;6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32;6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09;8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28;9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25;5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35;6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26;7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36;8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39;6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29;8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27;6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40;7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62;8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37]

X =

4.5000 6.7500 5.2500 71.0000 45.5000 8.7500 97.9000 5.1200 18.0000

8.7500 9.5000 11.5000 43.5000 53.7500 14.5000 52.4000 1.9100 15.2200

5.7500 8.2500 8.5000 51.2500 42.0000 9.5000 50.6000 2.7400 15.6100

7.7500 9.7500 11.7500 50.2500 41.2500 10.2500 49.3000 0.8900 14.4400

5.5000 6.5000 5.0000 73.2500 40.5000 6.5000 96.5000 6.6800 17.9000

9.5000 12.0000 28.5000 31.5000 61.7500 31.2500 11.1000 0.2700 12.7300

9.0000 10.2500 9.2500 61.7500 48.0000 10.0000 90.2000 3.7100 14.8200

6.7500 7.7500 6.2500 82.0000 44.5000 6.7500 96.7000 5.3600 17.3200

6.2500 6.5000 5.2500 80.2500 46.7500 6.7500 96.0000 6.5500 15.0900

8.5000 10.0000 8.2500 74.7500 55.5000 10.5000 97.9000 2.0500 16.2800

9.0000 11.5000 20.5000 43.7500 58.0000 22.2500 19.7000 0.8100 10.2500

5.7500 7.0000 11.0000 28.2500 31.0000 9.0000 14.3000 0.6200 12.3500

6.2500 7.5000 17.5000 22.0000 31.0000 13.5000 4.2000 0.1500 8.2600

7.0000 9.7500 9.7500 61.2500 53.7500 11.7500 55.3000 1.9600 14.3600

8.2500 10.5000 9.0000 83.0000 60.0000 11.7500 85.8000 6.6400 11.3900

6.7500 8.2500 8.0000 59.0000 46.7500 9.7500 45.5000 2.2000 12.2900

8.0000 10.0000 11.0000 49.2500 48.0000 14.0000 16.9000 1.1700 13.2700

6.7500 8.0000 10.7500 43.7500 42.0000 10.0000 38.1000 1.5800 14.4000

7.7500 10.2500 15.5000 45.2500 58.7500 20.5000 29.2000 0.7400 15.6200

8.2500 11.0000 16.7500 31.2500 46.7500 18.2500 21.5000 9.6300 10.3700

>> S=cov(X)

S =

1.0e+003 *

0.0019 0.0021 0.0047 -0.0049 0.0082 0.0055 -0.0113 -0.0007 -0.0012

0.0021 0.0029 0.0067 -0.0085 0.0109 0.0081 -0.0209 -0.0009 -0.0017

0.0047 0.0067 0.0339 -0.0800 0.0167 0.0337 -0.1506 -0.0068 -0.0094

-0.0049 -0.0085 -0.0800 0.3522 0.0405 -0.0655 0.5905 0.0260 0.0305

0.0082 0.0109 0.0167 0.0405 0.0761 0.0313 0.0314 0.0001 0.0012

0.0055 0.0081 0.0337 -0.0655 0.0313 0.0377 -0.1325 -0.0056 -0.0072

-0.0113 -0.0209 -0.1506 0.5905 0.0314 -0.1325 1.1604 0.0514 0.0639

-0.0007 -0.0009 -0.0068 0.0260 0.0001 -0.0056 0.0514 0.0073 0.0014

23

Page 24: Análise Multivariada - trabalho

-0.0012 -0.0017 -0.0094 0.0305 0.0012 -0.0072 0.0639 0.0014 0.0069

>> V=diag(diag(S))

V =

1.0e+003 *

0.0019 0 0 0 0 0 0 0 0

0 0.0029 0 0 0 0 0 0 0

0 0 0.0339 0 0 0 0 0 0

0 0 0 0.3522 0 0 0 0 0

0 0 0 0 0.0761 0 0 0 0

0 0 0 0 0 0.0377 0 0 0

0 0 0 0 0 0 1.1604 0 0

0 0 0 0 0 0 0 0.0073 0

0 0 0 0 0 0 0 0 0.0069

>> RV=sqrtm(V)

RV =

1.3755 0 0 0 0 0 0 0 0

0 1.7083 0 0 0 0 0 0 0

0 0 5.8255 0 0 0 0 0 0

0 0 0 18.7671 0 0 0 0 0

0 0 0 0 8.7208 0 0 0 0

0 0 0 0 0 6.1435 0 0 0

0 0 0 0 0 0 34.0645 0 0

0 0 0 0 0 0 0 2.7021 0

0 0 0 0 0 0 0 0 2.6285

>> IRV=inv(RV)

IRV =

0.7270 0 0 0 0 0 0 0 0

0 0.5854 0 0 0 0 0 0 0

0 0 0.1717 0 0 0 0 0 0

0 0 0 0.0533 0 0 0 0 0

0 0 0 0 0.1147 0 0 0 0

0 0 0 0 0 0.1628 0 0 0

0 0 0 0 0 0 0.0294 0 0

0 0 0 0 0 0 0 0.3701 0

0 0 0 0 0 0 0 0 0.3804

>> R=IRV*S*IRV

R =

1.0000 0.9074 0.5897 -0.1913 0.6849 0.6546 -0.2421 -0.1940 -0.3388

0.9074 1.0000 0.6755 -0.2664 0.7343 0.7681 -0.3599 -0.1956 -0.3820

0.5897 0.6755 1.0000 -0.7321 0.3293 0.9408 -0.7588 -0.4304 -0.6124

-0.1913 -0.2664 -0.7321 1.0000 0.2476 -0.5683 0.9236 0.5131 0.6175

0.6849 0.7343 0.3293 0.2476 1.0000 0.5839 0.1058 0.0025 0.0513

0.6546 0.7681 0.9408 -0.5683 0.5839 1.0000 -0.6329 -0.3383 -0.4488

-0.2421 -0.3599 -0.7588 0.9236 0.1058 -0.6329 1.0000 0.5588 0.7137

-0.1940 -0.1956 -0.4304 0.5131 0.0025 -0.3383 0.5588 1.0000 0.1984

-0.3388 -0.3820 -0.6124 0.6175 0.0513 -0.4488 0.7137 0.1984 1.0000

14. Uma amostra multivariada X de tamanho n = 12 foi obtida de um vetor aleatório p =

24

Page 25: Análise Multivariada - trabalho

[alturas pesos], resultando

Indivíduo Altura Peso

1 165 83

2 180 82

3 178 67

4 167 72

5 190 95

6 175 70

7 178 75

8 183 80

9 169 70

10 177 73

11 184 85

12 170 68

(a) Construir a matriz de dados;

>> X=[165 83;180 82; 178 67; 167 72;190 95; 175 70;178 75;183 80;169 70;177 73;184 85;170 68]

X =

165 83

180 82

178 67

167 72

190 95

175 70

178 75

183 80

169 70

177 73

184 85

170 68

(b) calcular o vetor de médias;

>> EX=mean(X)

EX =

176.3333 76.6667

(c) representar graficamente num espaço bidimensional as observações e o vetor de médias.

25

Page 26: Análise Multivariada - trabalho

165 170 175 180 185 19065

70

75

80

85

90

95

Altura

Pes

o

Resolver os problemas 15 até 21, sem uso do MATLAB.

15. Determinar os autovalores e autovetores normalizados da matriz A =

⎡⎣ 9 −3

−3 9

⎤⎦ .

Seja Ae = ¸e, então (A− ¸I)e = 0, assim

∣ A− ¸I ∣= 0 ⇒∣∣∣∣∣∣9− ¸ −3

−3 9− ¸

∣∣∣∣∣∣= 0 ⇒ (9− ¸)2 − 9 = 0 ⇒ (¸− 6)(¸− 12) = 0

Para ¸1 = 6 Para ¸2 = 12⎛⎝ 3 −3

−3 3

⎞⎠

⎛⎝ e11

e21

⎞⎠ =

⎛⎝ 0

0

⎞⎠

⎛⎝ −3 −3

−3 −3

⎞⎠

⎛⎝ f11

f21

⎞⎠ =

⎛⎝ 0

0

⎞⎠

⎧⎨⎩

3e11 − 3e21 = 0

−3e11 + 3e21 = 0

⎧⎨⎩

−3f11 − 3f21 = 0

−3f11 − 3f21 = 0

3e11 = 3e21 ⇒ e11 = e21 −3f11 = 3f21 ⇒ f11 = −f21

Para autovetores normalizados, tem-se: Para autovetores normalizados, tem-se:√(e11)2 + (e11)2 = 1

√(f11)2 + (−f11)2 = 1

Assim e11 =1√2e e21 =

1√2

Assim f11 =1√2e f21 = − 1√

2

¸1 = 6, autovetor e =

⎛⎝

1√2

1√2

⎞⎠ ¸2 = 12, autovetor f =

⎛⎝

1√2

− 1√2

⎞⎠

16. Pesquisar o que é uma pseudo-inversa. Exemplificar e dar suas propriedades.

Definição: Dada a matriz A : mxn, m ≥ n com posto(A) = r e sua fatoração em de-

composição em valores singulares (SVD), chama-se pseudo-inversa de Moore-Penrose de

26

Page 27: Análise Multivariada - trabalho

A, a matriz A+ ∈ IRnxm, A+ = V Σ+UT , onde Σ+ = diag

Ã1

¾1, ...1

¾r,0...,0

)∈ IRnxm,

U = [u1, ..., um] e v = [v1, ..., vn]. Se posto(A) = n, então A+ = (ATA)−1AT . Se

m = n = posto(A), então A+ = A−1.

Teorema:(Pseudo-Inversa) Para toda matriz A ∈ IRmxn, existe uma única matriz

A+ ∈ IRnxm, denominada pseudo-inversa de A, satisfazendo as condições de Moore-

Penrose.

(a) AA+A = A

(b) (A+A)T = A+A

(c) A+AA+ = A+

(d) (AA+)T = AA+

Demonstração: Seja A = UΣV T uma SVD da matriz A. Sabemos que A+ = V Σ+UT .

Assim:

(a) AA+A = UΣV TV Σ+UTUΣV T = UΣΣ+ΣV T = UΣV T = A

(b) (A+A)T = (V Σ+UTUΣV T )T = V (Σ+Σ)TV T = V (Σ+Σ)V T = V Σ+UTUΣV T =

A+A

(c) A+AA+ = V Σ+UTUΣV TV Σ+UT = V Σ+ΣΣ+UT = V Σ+UT = A+

(d) (AA+)T = (UΣV TV Σ+UT )T = U(ΣΣ+)TUT = U(ΣΣ+)UT = UΣV TV Σ+UT =

AA+

17. Dar um exemplo de uma matriz ortogonal 3 X 3 e calcular o determinante associado. Em

Álgebra linear, uma matriz ortogonal é uma matriz real M cuja inversa coincide com a sua

transposta, isto é: M−1 = MT , isto é, MMT = MTM = I Ex:

- A matriz Identidade, A =

⎛⎜⎜⎜⎝

1 0 0

0 1 0

0 0 1

⎞⎟⎟⎟⎠, det(A) = 1.

- B =

⎛⎜⎜⎜⎝

13

23

23

0 1√2

− 1√2

43√2

− 13√2

− 13√2

⎞⎟⎟⎟⎠, det(B) = −1

18. Provar as propriedades da transposta de uma matriz.

27

Page 28: Análise Multivariada - trabalho

(a) (AT )T = A

- O elemento (i, j) da matriz A é o elemento aji.

- O elemento (i, j) da matriz AT é o elemento ®ij = aji.

- Portanto, o elemento (i, j) de (AT )T é o elemento ®ji = aij

(b) (A+B)T = AT +BT

Seja C = A + B então cij = aij + bij . Logo cij ∈ CT = (A + B)T . Por outro lado,

aij ∈ A ⇒ aij ∈ AT

bij ∈ B ⇒ bij ∈ BT

⎫⎬⎭ = aij + bij ∈ AT +BT .

Logo cij = aij + bij .

(c) (AB)T = BTAT Seja A uma matriz mxp e B uma matriz pxn. O produto C = AB

é uma matriz mxn e o seu elemento (i, j) é dado por cij =p∑

k=1

aikbkj .

a matriz (AB)T é portanto uma matriz nxm e nela, o elemento cij ocupa a i-ésima

coluna e a j-ésima linha. Por outro lado, a matriz BTAT também é de ordem nxm.

O elemento (i, j) de AT é o elemento ®ij = aji, assim como o elemento (i, j) de BT

é o elemento ¯ij = bji. Logo, o elemento de BTAT que ocupa a i-ésima coluna e a

j-ésima linha é dado por

p∑

k=1

¯jk®ki =

p∑

k=1

bkjaik = cij

(d) (kA)T = kAT

Seja C = kA, logo o elemento (i, j) de C é dado por cij = kaij . Na matriz (kA)T , o

elemento cij ocupa a i-ésima coluna e a j-ésima linha.

Por outro lado, o elemento (i, j) de AT é o elemento ®ij = aij . Logo, o elemento de

kAT que ocupa a i-ésima coluna e a jésima linha é dado por

k®ji = kaij = cij .

19. Provar as propriedades comutativa e associativa da adição de matrizes.

(a) Comutativa ⇒ A+B = B +A

Dada as matrizes A = [aij ]mxn e B = [bij ]mxn, tem-se:

28

Page 29: Análise Multivariada - trabalho

A =

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠, B =

⎛⎜⎜⎜⎜⎜⎜⎝

b11 b12 . . . b1n

b21 b22 . . . b2n...

.... . .

...

bm1 bm2 . . . bmn

⎞⎟⎟⎟⎟⎟⎟⎠, assim

A+B =

⎛⎜⎜⎜⎜⎜⎜⎝

a11 + b11 a12 + b12 . . . a1n + b1n

a21 + b21 a22 + b22 . . . a2n + b2n...

.... . .

...

am1 + bm1 am2 + bm2 . . . amn + bmn

⎞⎟⎟⎟⎟⎟⎟⎠

=

=

⎛⎜⎜⎜⎜⎜⎜⎝

b11 + a11 b12 + a12 . . . b1n + a1n

b21 + a21 b22 + a22 . . . b2n + a2n...

.... . .

...

bm1 + am1 bm2 + am2 . . . bmn + amn

⎞⎟⎟⎟⎟⎟⎟⎠

= B +A,

logo

A+B = B +A

(b) Associativa ⇒ (A+B) + C = A+ (B + C)

Dada as matrizes A = [aij ]mxn, B = [bij ]mxn e C = [cij ]mxn, tem-se:

A =

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠, B =

⎛⎜⎜⎜⎜⎜⎜⎝

b11 b12 . . . b1n

b21 b22 . . . b2n...

.... . .

...

bm1 bm2 . . . bmn

⎞⎟⎟⎟⎟⎟⎟⎠

e

C =

⎛⎜⎜⎜⎜⎜⎜⎝

c11 c12 . . . c1n

c21 c22 . . . c2n...

.... . .

...

cm1 cm2 . . . cmn

⎞⎟⎟⎟⎟⎟⎟⎠, assim:

(A+B)+C =

⎛⎜⎜⎜⎜⎜⎜⎝

a11 + b11 a12 + b12 . . . a1n + b1n

a21 + b21 a22 + b22 . . . a2n + b2n...

.... . .

...

am1 + bm1 am2 + bm2 . . . amn + bmn

⎞⎟⎟⎟⎟⎟⎟⎠+

⎛⎜⎜⎜⎜⎜⎜⎝

c11 c12 . . . c1n

c21 c22 . . . c2n...

.... . .

...

cm1 cm2 . . . cmn

⎞⎟⎟⎟⎟⎟⎟⎠

=

=

⎛⎜⎜⎜⎜⎜⎜⎝

a11 + b11 + c11 a12 + b12 + c12 . . . a1n + b1n + c1n

a21 + b21 + c21 a22 + b22 + c22 . . . a2n + b2n + c2n...

.... . .

...

am1 + bm1 + cm1 am2 + bm2 + cm2 . . . amn + bmn + cmn

⎞⎟⎟⎟⎟⎟⎟⎠

=

29

Page 30: Análise Multivariada - trabalho

=

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠

+

⎛⎜⎜⎜⎜⎜⎜⎝

b11 + c11 b12 + c12 . . . b1n + c1n

b21 + c21 b22 + c22 . . . b2n + c2n...

.... . .

...

bm1 + cm1 bm2 + cm2 . . . bmn + cmn

⎞⎟⎟⎟⎟⎟⎟⎠

=

= A+ (B + C)

Portanto, (A+B) + C = A+ (B + C)

20. Provar as propriedades comutativa, associativa e distributiva da multiplicação de escalar

por matriz.

(a) Comutativa ⇒ kA = Ak

Seja A uma matriz mxn, tal que A =

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠

e seja k ∈ IR, assim

kA = k

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠

=

⎛⎜⎜⎜⎜⎜⎜⎝

ka11 ka12 . . . ka1n

ka21 ka22 . . . ka2n...

.... . .

...

kam1 kam2 . . . kamn

⎞⎟⎟⎟⎟⎟⎟⎠

=

=

⎛⎜⎜⎜⎜⎜⎜⎝

a11k a12k . . . a1nk

a21k a22k . . . a2nk...

.... . .

...

am1k am2k . . . amnk

⎞⎟⎟⎟⎟⎟⎟⎠

=

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠

k = Ak

(b) Associativa ⇒ k1(k2A) = (k1k2)A

Seja A uma matriz mxn, tal que A =

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠

e seja k1, k2 ∈ IR,

assim

k1(k2A) = k1

⎛⎜⎜⎜⎜⎜⎜⎝

k2a11 k2a12 . . . k2a1n

k2a21 k2a22 . . . k2a2n...

.... . .

...

k2am1 k2am2 . . . k2amn

⎞⎟⎟⎟⎟⎟⎟⎠

=

⎛⎜⎜⎜⎜⎜⎜⎝

k1k2a11 k1k2a12 . . . k1k2a1n

k1k2a21 k1k2a22 . . . k1k2a2n...

.... . .

...

k1k2am1 k1k2am2 . . . k1k2amn

⎞⎟⎟⎟⎟⎟⎟⎠

=

30

Page 31: Análise Multivariada - trabalho

=

⎛⎜⎜⎜⎜⎜⎜⎝

(k1k2) a11 (k1k2) a12 . . . (k1k2) a1n

(k1k2) a21 (k1k2) a22 . . . (k1k2) a2n...

.... . .

...

(k1k2) am1 (k1k2) am2 . . . (k1k2) amn

⎞⎟⎟⎟⎟⎟⎟⎠

= (k1k2)

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠

=

k1k2A

Logo k1(k2A) = (k1k2)A

(c) Distributiva

- k(A+B) = kA+ kB

Dada as matrizes A = [aij ]mxn, B = [bij ]mxn e k ∈ IR tem-se:

k(A+B) = k

⎛⎜⎜⎜⎜⎜⎜⎝

a11 + b11 a12 + b12 . . . a1n + b1n

a21 + b21 a22 + b22 . . . a2n + b2n...

.... . .

...

am1 + bm1 am2 + bm2 . . . amn + bmn

⎞⎟⎟⎟⎟⎟⎟⎠

=

⎛⎜⎜⎜⎜⎜⎜⎝

k (a11 + b11) k (a12 + b12) . . . k (a1n + b1n)

k (a21 + b21) k (a22 + b22) . . . k (a2n + b2n)...

.... . .

...

k (am1 + bm1) k (am2 + bm2) . . . k (amn + bmn)

⎞⎟⎟⎟⎟⎟⎟⎠

=

=

⎛⎜⎜⎜⎜⎜⎜⎝

(ka11 + kb11) (ka12 + kb12) . . . (ka1n + kb1n)

(ka21 + kb21) (ka22 + kb22) . . . (ka2n + kb2n)...

.... . .

...

(kam1 + kbm1) (kam2 + kbm2) . . . (kamn + kbmn)

⎞⎟⎟⎟⎟⎟⎟⎠

=

=

⎛⎜⎜⎜⎜⎜⎜⎝

ka11 ka12 . . . ka1n

ka21 ka22 . . . ka2n...

.... . .

...

kam1 kam2 . . . kamn

⎞⎟⎟⎟⎟⎟⎟⎠

+

⎛⎜⎜⎜⎜⎜⎜⎝

kb11 kb12 . . . kb1n

kb21 kb22 . . . kb2n...

.... . .

...

kbm1 kbm2 . . . kbmn

⎞⎟⎟⎟⎟⎟⎟⎠

=

= kA+ kB. Portanto, k(A+B) = kA+ kB

- (k1 + k2)A = k1A+ k2A

Dada a matriz A = [aij ]mxn e k1, k2 ∈ IR, tem-se:

(k1 + k2)A = (k1 + k2)

⎛⎜⎜⎜⎜⎜⎜⎝

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎠

=

31

Page 32: Análise Multivariada - trabalho

=

⎛⎜⎜⎜⎜⎜⎜⎝

(k1 + k2)a11 (k1 + k2)a12 . . . (k1 + k2)a1n

(k1 + k2)a21 (k1 + k2)a22 . . . (k1 + k2)a2n...

.... . .

...

(k1 + k2)am1 (k1 + k2)am2 . . . (k1 + k2)amn

⎞⎟⎟⎟⎟⎟⎟⎠

=

=

⎛⎜⎜⎜⎜⎜⎜⎝

(k1a11 + k2a11) (k1a12 + k2a12) . . . (k1a1n + k2a1n)

(k1a21 + k2a21) (k1a22 + k2a22) . . . (k1a2n + k2a2n)...

.... . .

...

(k1am1 + k2am1) (k1am2 + k2am2) . . . (k1amn + k2amn)

⎞⎟⎟⎟⎟⎟⎟⎠

=

=

⎛⎜⎜⎜⎜⎜⎜⎝

(k1)a11 (k1)a12 . . . (k1)a1n

(k1)a21 (k1)a22 . . . (k1)a2n...

.... . .

...

(k1)am1 (k1)am2 . . . (k1)amn

⎞⎟⎟⎟⎟⎟⎟⎠+

⎛⎜⎜⎜⎜⎜⎜⎝

(k2)a11 (k2)a12 . . . (k2)a1n

(k2)a21 (k2)a22 . . . (k2)a2n...

.... . .

...

(k2)am1 (k2)am2 . . . (k2)amn

⎞⎟⎟⎟⎟⎟⎟⎠

=

= k1A+ k2A.

Portanto, (k1 + k2)A = k1A+ k2A.

21. Provar todas as propriedades da multiplicação de duas matrizes.

(a) Distributividade da soma à direita, (A+B)C = AC +BC

Seja D = A+B

- elemento (i, k) de D:

dik = aik + bik (1)

- elemento (i, j) da matriz ((A+B)C)

((A+B)C)ij = (DC)ij =

p∑

k=1

dikckj =

p∑

k=1

aikckj + bikckj (2)

- elemento (i, j) da matriz (AC + BC) ≡ soma dos elementos (i, j) das matrizes

AC e BC.

((AC +BC))ij = (AC)ij + (BC)ij =

Ãp∑

k=1

aikckj

)+

Ãp∑

k=1

bikckj

)=

p∑

k=1

aikckj + bikckj = ((A+B)C)ij (3)

(b) Associatividade, A(BC) = (AB)C Seja D = BC

32

Page 33: Análise Multivariada - trabalho

- elemento (k, j) de D:

dkj =

q∑

l=1

bklclj (4)

- elemento (i, j) de AD:

(AD)ij =

p∑

k=1

aikdkj (5)

Substituindo (4) em (5):

(AD)ij =

p∑

k=1

p∑

l=1

aikbklclj (6)

Seja Z = AB ≡ elemento (i, j) de (AB)C:

((AB)C)ij = (ZC)ij =

q∑

l=1

zilclj =

q∑

l=1

Ãp∑

k=1

aikbkl

)clj =

q∑

l=1

p∑

k=1

aikbklclj = (A(BC))ij

2 Lista 2 - Distribuição Normal Multivariada

1. Utilizando a função Matlab (que gera amostras aleatórias normais multivariadas): Xi =

mvnrnd(¹,Σ, n), i = 1, 2, 3, . . . sendo: ¹ = [4.5 6.0 8.5 10.0 12.5 15.0] o vetor de médias,

Σ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

15.0000 1.5000 3.0000 2.3000 5.1000 0.9000

1.5000 13.0000 2.7000 3.6000 4.7000 2.8000

3.0000 2.7000 13.9000 5.2000 6.2000 3.2000

2.3000 3.6000 5.2000 25.0000 3.1000 5.2000

5.1000 4.7000 6.2000 3.1000 36.0000 4.8000

0.9000 2.8000 3.2000 5.2000 4.8000 48.0000

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

a matriz de covariâncias e n o tamanho das amostras, gerar as amostras aleatórias normais

multivariadas X1, X2 e X3 do vetor de médias ¹ e Σ a matriz de covariâncias com tamanho:

(a) n = 10, calculando em seguida, para X1, o vetor de médias amostrais (X) e a matriz

de covariâncias amostrais (S), comparando esses valores com os parâmetros ¹ e Σ.

Discutir as diferenças.

>> MI=[4.5 6 8.5 10 12.5 15]

MI =

4.5000 6.0000 8.5000 10.0000 12.5000 15.0000

33

Page 34: Análise Multivariada - trabalho

>> Cov=[15 1.5 3.0 2.3 5.1 0.9; 1.5 13.0 2.7 3.6 4.7 2.8; 3.0 2.7 13.9 5.2 6.2 3.2; 2.3 3.6 5.2 25.0 3.1 5.2;5.1 4.7 6.2 3.1 36.0 4.8;0.9 2.8 3.2 5.2 4.8 48.0]

Cov =

15.0000 1.5000 3.0000 2.3000 5.1000 0.9000

1.5000 13.0000 2.7000 3.6000 4.7000 2.8000

3.0000 2.7000 13.9000 5.2000 6.2000 3.2000

2.3000 3.6000 5.2000 25.0000 3.1000 5.2000

5.1000 4.7000 6.2000 3.1000 36.0000 4.8000

0.9000 2.8000 3.2000 5.2000 4.8000 48.0000

>> X1=mvnrnd(MI,Cov,10)

X1 =

6.5824 1.3693 10.4200 14.0294 11.8459 9.3273

11.6026 17.5895 7.6237 7.1229 15.6737 16.4204

-4.2485 7.7255 9.8072 5.0986 13.0840 6.6432

7.8392 6.1079 14.9699 8.4866 17.3463 8.2866

5.7346 8.6856 10.9781 -2.5282 9.6254 13.2773

-0.5647 4.7588 11.0591 17.0322 11.5824 26.7321

2.8207 5.3871 10.6869 12.0000 11.7389 10.2523

5.8270 11.4728 8.6750 7.6792 17.8671 18.2602

18.3591 12.4369 13.2687 20.2792 25.2909 17.1399

15.2260 12.1528 8.7717 3.9651 23.1206 23.0164

>> mean(X1)

ans =

6.9178 8.7686 10.6260 9.3165 15.7175 14.9356

>> S=cov(X1)

S =

46.9874 18.2327 1.3555 6.9462 28.3493 12.9910

18.2327 22.2742 -4.3880 -7.6632 13.6887 10.4479

1.3555 -4.3880 4.7934 5.2097 1.4845 -4.0889

6.9462 -7.6632 5.2097 44.8926 9.2218 9.3750

28.3493 13.6887 1.4845 9.2218 27.2998 11.1871

12.9910 10.4479 -4.0889 9.3750 11.1871 43.5201

Para n = 10, tanto o vetor de médias X como a matriz de covariâncias amostrais S

têm seus valores bem distantes dos valores originais do vetor de médias ¹ e da matriz

34

Page 35: Análise Multivariada - trabalho

de covariâncias Σ, respectivamente.

(b) n = 100, calculando em seguida, para X2, o vetor de médias amostrais (X) e a matriz

de covariâncias amostrais (S), comparando esses valores com os parâmetros ¹ e Σ.

Discutir as diferenças.

>> X2=mvnrnd(MI,Cov,100);

>> mean(X2)

ans =

4.5417 7.0864 8.6808 10.0058 13.0134 14.8672

>> S2=cov(X2)

S2 =

14.6431 2.7541 3.6464 3.1158 5.3392 -1.2280

2.7541 13.6900 3.0848 3.5469 6.8503 0.3377

3.6464 3.0848 13.7587 6.0858 4.9247 5.7381

3.1158 3.5469 6.0858 26.5766 6.0904 6.3325

5.3392 6.8503 4.9247 6.0904 33.3137 2.5282

-1.2280 0.3377 5.7381 6.3325 2.5282 41.0911

Para n = 100, o vetor de médias X tem seus valores bem próximos do vetor de

médias¹, diferindo em apenas algumas unidades. Quanto a matriz de covariâncias

amostrais S seus valores estão bem distantes dos valores originais da matriz de covar-

iâncias Σ.

(c) n = 1000, calculando em seguida, para X3, o vetor de médias amostrais (X) e a

matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros ¹

e Σ. Discutir as diferenças.

>> X3=mvnrnd(MI,Cov,1000);

>> mean(X3)

ans =

4.4758 6.1065 8.5225 9.8296 12.4343 14.8078

>> S3=cov(X3)

S3 =

14.4039 1.5281 2.7079 2.1403 3.7544 0.6423

1.5281 11.8247 2.6428 2.5697 4.0056 4.2034

2.7079 2.6428 12.7488 4.3487 5.2230 3.1401

35

Page 36: Análise Multivariada - trabalho

2.1403 2.5697 4.3487 24.2446 2.5543 7.5897

3.7544 4.0056 5.2230 2.5543 32.5033 3.3190

0.6423 4.2034 3.1401 7.5897 3.3190 46.9719

Para n = 1000, tanto o vetor de médias X como a matriz de covariâncias amostrais S

têm seus valores bem próximos dos valores originais do vetor de médias ¹ e da matriz

de covariâncias Σ, respectivamente.

(d) Para os itens (a), (b) e (c) verificar a normalidade de cada amostra.

Usar:

function [ d2,q2 ] = normult( x )

%d2 = distâncias quadráticas

%q2 = qui-quadrado

%x= amostra multivariada

%função destinada a averiguar a normalidade multivariada

%Qual a dimensão de x?

[n,p]=size(x);

m=mean(x);

S=cov(x);

% cálculo das distâncias generalizadas, d2

for i=1:n

d2(i)=(x(i,:)-m)*inv(S)*(x(i,:)-m)’;

end

%ordem crescente

d2=sort(d2);

%calculo dos q2

for i=1:n

q2(i)=chi2inv(((i-0.5)/n),p);

end

q2

%grafico

plot(d2,q2,’*K’)

xlabel(’d^2’)

ylabel(’chi^2’)

grid

36

Page 37: Análise Multivariada - trabalho

end

Para o item (a)

[d2j , Â

26

Ãj − 1

2

10

)]=

q2 =

1.6354 2.6613 3.4546 4.1973 4.9519 5.7652 6.6948 7.8408 9.4461 12.5916

ans =

2.5302 3.3036 4.4551 4.8674 5.3506 5.6743 6.5874 6.6517 7.2706 7.3091

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.50

2

4

6

8

10

12

14

d2

chi2

Para o item (b)

[d2j , Â

26

Ãj − 1

2

100

)]=

>> normult(X2);

q2 =

0.6757 1.0160 1.2373 1.4140 1.5659 ... 14.4494 15.7774 18.5476

ans =

0.8834 0.9080 1.2236 1.6460 ... 13.0529 14.7759 16.1014 18.2444

37

Page 38: Análise Multivariada - trabalho

0 5 10 15 200

2

4

6

8

10

12

14

16

18

20

d2

chi2

Para o item (c)

[d2j , Â

26

Ãj − 1

2

1000

)]=

q2 =

0.2994 0.4394 0.5266 0.5940 0.6504 ... 19.4271 20.2494 21.4857 24.1028

ans =

0.4914 0.6709 0.7719 0.7788 0.9040 ... 19.6546 20.1195 20.5514 20.7033

0 5 10 15 20 250

5

10

15

20

25

d2

chi2

2. Uma amostra aleatória de n = 70 indivíduos do vetor aleatório: X = [X1, X2, X3]′, onde:

X1 = idade (anos), X2 = peso (kg) e X3 = altura (cm), é dada a seguir:

38

Page 39: Análise Multivariada - trabalho

X1 X2 X3

29 71 170

25 65 158

30 69 170

31 69 175

27 61 155

34 72 172

34 73 176

30 71 174

31 77 177

31 69 165

29 72 172

32 75 178

28 73 174

37 71 173

30 71 170

30 71 170

33 68 169

30 67 171

30 74 174

28 67 161

31 72 175

26 67 161

32 69 170

35 72 173

28 70 171

33 68 171

34 77 180

25 68 159

26 63 159

32 70 176

29 64 165

39

Page 40: Análise Multivariada - trabalho

32 62 156

32 76 179

32 70 168

34 75 175

32 73 171

34 73 177

26 63 157

30 66 165

30 68 166

25 61 154

31 66 167

27 74 175

34 74 184

28 63 155

32 71 169

31 66 168

27 62 157

23 63 154

30 74 176

27 68 171

32 74 179

32 66 172

35 72 177

32 70 177

28 63 159

31 65 161

27 72 170

30 70 174

30 67 163

30 73 176

29 70 168

33 68 172

24 71 165

40

Page 41: Análise Multivariada - trabalho

31 72 174

33 79 176

32 77 178

32 68 170

30 65 162

32 71 177

Verificar a normalidade do vetor aleatório X.

d2j Â23

Ãj − 1

2

70

)

>> normult(X)

d2 =

Columns 1 through 11

0.2556 0.3173 0.3326 0.3326 0.4465 0.4606 0.6031 0.6491 0.7674 0.8370 1.0962

Columns 12 through 16

1.1121 1.1979 1.4144 1.5191 1.6057

Columns 17 through 27

1.6646 1.6969 1.7103 1.7106 1.7351 1.7416 1.7570 1.8258 1.8387 1.8826 1.9208

Columns 28 through 32

1.9396 1.9992 2.0073 2.0530 2.1582

Columns 33 through 43

2.3807 2.4055 2.4649 2.5009 2.5071 2.6760 2.7943 2.8713 2.9153 3.0750 3.0953

Columns 44 through 48

3.1039 3.1289 3.1679 3.1837 3.1871

Columns 49 through 59

3.2703 3.6031 3.6705 3.6872 3.7317 3.8597 3.9231 4.0450 4.2108 4.2481 4.5922

Columns 60 through 64

5.0297 5.3688 5.5681 5.6340 5.9425

Columns 65 through 70

6.0255 6.8449 7.7218 7.8503 9.3072 10.8191

41

Page 42: Análise Multivariada - trabalho

0 2 4 6 8 10 120

2

4

6

8

10

12

14

d2

chi2

3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza,

X1, X2, X3 e X4, de cada uma das n = 50 bordas de chapas. A primeira medida envolve

a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada

enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos.

>> Y=[1949 1842 1666 1437;1814 1719 1647 1388;1901 1893 1668 1527;2084 1916 1808 1489;1991 1894 1753 1481;2030 1919 1640 1491;2076 1934 1666 1586;1830 1816 1605 1444;1948 1855 1661 1436;1944 1782 1632 1415;1919 1799 1667 1523;1985 1903 1671 1571;2122 1912 1701 1592;1997 1881 1682 1447;2098 1913 1724 1517;1944 1807 1654 1457;2001 1849 1715 1500;1937 1842 1683 1450;2047 1937 1660 1482;1980 1882 1714 1474;2038 1977 1776 1569;2053 1920 1744 1607;1994 1820 1709 1488;2071 1944 1747 1517;2185 2017 1766 1597;2042 1942 1723 1501;1999 1924 1618 1576;2073 2009 1785 1586;2004 1875 1693 1448;1911 1859 1641 1444;2039 1923 1694 1565;2000 1871 1644 1507;1978 1993 1740 1534;2102 1950 1758 1470;2149 1921 1725 1547;1958 1963 1704 1532;2008 1921 1711 1483;1935 1804 1634 1424;2054 1964 1705 1521;1811 1848 1689 1406;2079 1904 1733 1516;2018 1917 1761 1519;2021 1906 1688 1558;2097 1901 1676 1528;1978 1946 1750 1486;1989 1893 1696 1558

1898 1865 1635 1500;1867 1783 1614 1450;1944 1833 1579 1495

2022 1929 1760 1494]

Y =

1949 1842 1666 1437

1814 1719 1647 1388

1901 1893 1668 1527

2084 1916 1808 1489

1991 1894 1753 1481

2030 1919 1640 1491

2076 1934 1666 1586

1830 1816 1605 1444

1948 1855 1661 1436

1944 1782 1632 1415

1919 1799 1667 1523

1985 1903 1671 1571

2122 1912 1701 1592

1997 1881 1682 1447

2098 1913 1724 1517

1944 1807 1654 1457

2001 1849 1715 1500

1937 1842 1683 1450

2047 1937 1660 1482

1980 1882 1714 1474

42

Page 43: Análise Multivariada - trabalho

2038 1977 1776 1569

2053 1920 1744 1607

1994 1820 1709 1488

2071 1944 1747 1517

2185 2017 1766 1597

2042 1942 1723 1501

1999 1924 1618 1576

2073 2009 1785 1586

2004 1875 1693 1448

1911 1859 1641 1444

2039 1923 1694 1565

2000 1871 1644 1507

1978 1993 1740 1534

2102 1950 1758 1470

2149 1921 1725 1547

1958 1963 1704 1532

2008 1921 1711 1483

1935 1804 1634 1424

2054 1964 1705 1521

1811 1848 1689 1406

2079 1904 1733 1516

2018 1917 1761 1519

2021 1906 1688 1558

2097 1901 1676 1528

1978 1946 1750 1486

1989 1893 1696 1558

1898 1865 1635 1500

1867 1783 1614 1450

1944 1833 1579 1495

2022 1929 1760 1494

Verificar a normalidade do vetor aleatório X = [X1, X2, X3, X4]′.

d2j Â24

Ãj − 1

2

50

)

d2 q2

0.7185 0.2971

1.1178 0.5351

1.1429 0.7107

1.3561 0.8616

1.3988 0.9987

1.5479 1.1268

1.5542 1.2488

1.5869 1.3665

1.6037 1.4810

1.8767 1.5933

1.9487 1.7039

43

Page 44: Análise Multivariada - trabalho

1.9792 1.8136

2.1394 1.9226

2.2011 2.0313

2.2267 2.1402

2.2886 2.2494

2.3910 2.3593

2.4764 2.4701

2.5079 2.5821

2.5619 2.6955

2.5626 2.8106

2.5688 2.9277

3.0283 3.0469

3.1915 3.1687

3.4710 3.2933

3.6621 3.4209

3.7459 3.5521

3.8643 3.6871

4.2957 3.8265

4.4187 3.9706

4.5159 4.1201

4.5229 4.2755

4.9482 4.4377

5.0309 4.6074

5.0393 4.7857

5.1432 4.9738

5.2379 5.1730

5.3510 5.3853

5.6204 5.6127

5.8405 5.8581

5.9066 6.1251

5.9812 6.4185

6.0689 6.7449

6.9324 7.1137

7.0571 7.5390

7.3377 8.0434

7.5011 8.6664

7.5174 9.4877

9.1262 10.7119

9.8881 13.2767

44

Page 45: Análise Multivariada - trabalho

0 2 4 6 8 100

2

4

6

8

10

12

14

d2

chi2

4. Representar graficamente uma distribuição normal bivariada com vetor de médias ¹ =

[10 15]′ e matriz covariância Σ =

⎡⎣ 4 0

0 9

⎤⎦ .

Como ¹1 = 10, ¹2 = 15, ¾1 = 2 e ¾2 = 3, temos

f(x1) =1

2√2¼

e−(x1 − 10)2

2 ⋅ 22

e

f(x2) =1

3√2¼

e−(x2 − 15)2

2 ⋅ 32

logo a f.d.p. conjunta é dada por:

f(x1, x2) = f(x1) ⋅ f(x2)

=1

2√2¼

e−(x1 − 10)2

2 ⋅ 22 ⋅ 1

3√2¼

e−(x2 − 15)2

2 ⋅ 32

=1

12¼e−⎡⎣(x1 − 10)2

8+

(x2 − 15)2

18

⎤⎦

>> x1=3:0.1:17;

>> x2=10:0.1:24;

>> [x1,x2]=meshgrid(x1,x2);

>> z=(1/(12*pi))*exp(((-1/8)*(x1-10).^2)+(-(1/18)*(x2-15).^2));

>> mesh(x1,x2,z)

45

Page 46: Análise Multivariada - trabalho

05

1015

20

10

15

20

250

0.005

0.01

0.015

0.02

0.025

0.03

5. Seja X ∼ N3(¹,Σ) com ¹ = [−3, 1, 4]′ e Σ =

⎡⎢⎢⎢⎣

1 −2 0

−2 5 0

0 0 2

⎤⎥⎥⎥⎦. Quais das seguintes var-

iáveis são independentes? Justifique.

Substituir a matriz de covariância pela matriz de correlação

>> S=[1 -2 0;-2 5 0;0 0 2]

S =

1 -2 0

-2 5 0

0 0 2

>> V=diag(diag(S))

V =

1 0 0

0 5 0

0 0 2

>> RV=sqrtm(V)

RV =

1.0000 0 0

0 2.2361 0

46

Page 47: Análise Multivariada - trabalho

0 0 1.4142

>> IRV=inv(RV)

IRV =

1.0000 0 0

0 0.4472 0

0 0 0.7071

>> R=IRV*S*IRV

R =

1.0000 -0.8944 0

-0.8944 1.0000 0

0 0 1.0000

A matriz de correlação nos dá justamente a relação de dependência entre as variáveis, logo

(a) X1 e X2 são dependestes, pois ½12 = ½21 ∕= 0.

(b) X2 e X3 são independentes, pois ½23 = ½32 = 0.

6. Seja X ∼ N3(¹,Σ) com ¹ =

⎡⎢⎢⎢⎣

¹1

¹2

¹3

⎤⎥⎥⎥⎦ e Σ =

⎡⎢⎢⎢⎣

¾21 ¾12 ¾13

¾21 ¾22 ¾23

¾31 ¾32 ¾23

⎤⎥⎥⎥⎦. Determine a f.d.p.

f(x1, x2, x3) padronizada.

Como ½12 =¾12¾1¾2

e ½13 =¾13¾1¾3

∴ ¾12 = ¾21 = ½12¾1¾2, ¾13 = ¾31 = ½13¾1¾3

e ¾23 = ¾32 = ½23¾2¾3, tem-se a matriz de correlação: R =

⎡⎢⎢⎢⎣

¾21 ½12¾1¾2 ½13¾1¾3

½12¾1¾2 ¾22 ½23¾2¾3

½13¾1¾3 ½23¾2¾3 ¾23

⎤⎥⎥⎥⎦

f(x1, x2, x3) =1√

(2¼)3¾1¾2¾3exp

Ã−1

2

3∑

i=1

(xi − ui

¾i

)2)

ou em notação matricial

f(x) =1√

(2¼)3∣Σ∣ 12exp

[−1

2(x− ¹)′Σ−1(x− ¹)

]

A fdp normal padronizada pode ser obtida fazendo-se zi =xi − ¹i

¾i

47

Page 48: Análise Multivariada - trabalho

3 Lista 3 - Inferência sobre o vetor de médias e MANOVA

1. Para o problema 2 da lista 2, testar a hipótese: H0: ¹ = [30 60 170]′ contra a alternativa

H1: ¹ ∕= [30 60 170]′, aos níveis de significância:

(a) de 1%;Temos que H0: ¹ = [30 60 170]′, H1: ¹ ∕= [30 60 170]′, n = 70, assim

>> X=[ 29 71 170; 25 65 158; 30 69 170;31 69 175; 27 61 155;

34 72 172;

34 73 176; 30 71 174; 31 77 177; 31 69 165; 29 72 172;

32 75 178; 28 73 174; 37 71 173; 30 71 170; 30 71 170;

33 68 169; 30 67 171; 30 74 174; 28 67 161; 31 72 175;

26 67 161; 32 69 170; 35 72 173; 28 70 171; 33 68 171;

34 77 180; 25 68 159; 26 63 159; 32 70 176; 29 64 165;

32 62 156; 32 76 179; 32 70 168; 34 75 175; 32 73 171;

34 73 177; 26 63 157; 30 66 165; 30 68 166; 25 61 154;

31 66 167; 27 74 175; 34 74 184; 28 63 155; 32 71 169;

31 66 168; 27 62 157; 23 63 154; 30 74 176; 27 68 171;

32 74 179; 32 66 172; 35 72 177; 32 70 177; 28 63 159;

31 65 161; 27 72 170; 30 70 174; 30 67 163; 30 73 176;

29 70 168; 33 68 172; 24 71 165; 31 72 174; 33 79 176;

32 77 178; 32 68 170; 30 65 162; 32 71 177];

>> mi=mean(X)

mi =

30.2857 69.5286 169.4000

Sem o uso do computador usaríamos assim:

>> S=(1/2)*((X(1,:)-mi)’*(X(1,:)-mi)+(X(2,:)-mi)’*(X(2,:)-mi)+(X(3,:)-mi)’*(X(3,:)-mi))...

Com o uso do Matlab, faz-se:

>> S=cov(X)

S =

8.2070 6.1222 13.9855

6.1222 17.9340 27.0464

13.9855 27.0464 53.6638

>> InvS=inv(S)

InvS =

0.2292 0.0494 -0.0846

0.0494 0.2430 -0.1354

-0.0846 -0.1354 0.1089

Logo

>> T2=70*((mi-([30 60 170]))*InvS*(mi-([30 60 170]))’)

T2 =

1.6779e+003

48

Page 49: Análise Multivariada - trabalho

Como

>> F=(((70-1)*3)/(70-3))*finv(0.99,3,67)

F =

12.6306

Como T 2 é maior que F então, rejeita-se H0, portanto ¹ é diferente de [30 60 170]′

(b) de 5%.

>> F=(((70-1)*3)/(70-3))*finv(0.95,3,67)

F =

8.4702

Com 5% de significância, temos que, F = 12.6306, logo T 2 > F2,1(0, 05), sendo assim,

rejeitamos a hipótese de que ¹ = ¹0.

2. A transpiração de 20 mulheres sadias foram analisadas. Três componentes, X1 = taxa de

suor, X2 = conteúdo de sódio e X3 = conteúdo de potássio, foram medidos, e os resultados,

aos quais chamamos “dados do suor”, são apresentados na tabela seguinte:

Identificação X1 X2 X3

1 3.7 48.5 9.3

2 5.7 65.1 8

3 3.8 47.2 10.9

4 3.2 53.2 12

5 3.1 55.5 9.7

6 4.6 36.1 7.9

7 2.4 24.8 14

8 7.2 33.1 7.6

9 6.7 47.4 8.5

10 5.4 54.1 11.3

11 3.9 36.9 12.7

12 4.5 58.8 12.3

13 3.5 27.8 9.8

14 4.5 40.2 8.4

15 1.5 13.5 10.1

49

Page 50: Análise Multivariada - trabalho

16 8.5 56.4 7.1

17 4.5 71.6 8.2

18 6.5 52.8 10.9

19 4.1 44.1 11.2

20 5.5 40.9 9.4

Testar a hipótese: H0: ¹ = [4 50 10]’ contra a alternativa H1: ¹ ∕= [4 50 10]’, ao nível designificância de 1%.

>> M=[3.7 48.5 9.3;5.7 65.1 8.0;3.8 47.2 10.9;3.2 53.2 12.0;3.1 55.5 9.7;

4.6 36.1 7.9;2.4 24.8 14.0;7.2 33.1 7.6;6.7 47.4 8.5;5.4 54.1 11.3;

3.9 36.9 12.7;4.5 58.8 12.3;3.5 27.8 9.8;4.5 40.2 8.4;1.5 13.5 10.1;

8.5 56.4 7.1;4.5 71.6 8.2;6.5 52.8 10.9;4.1 44.1 11.2;5.5 40.9 9.4];

M =

3.7000 48.5000 9.3000

5.7000 65.1000 8.0000

3.8000 47.2000 10.9000

3.2000 53.2000 12.0000

3.1000 55.5000 9.7000

4.6000 36.1000 7.9000

2.4000 24.8000 14.0000

7.2000 33.1000 7.6000

6.7000 47.4000 8.5000

5.4000 54.1000 11.3000

3.9000 36.9000 12.7000

4.5000 58.8000 12.3000

3.5000 27.8000 9.8000

4.5000 40.2000 8.4000

1.5000 13.5000 10.1000

8.5000 56.4000 7.1000

4.5000 71.6000 8.2000

6.5000 52.8000 10.9000

4.1000 44.1000 11.2000

5.5000 40.9000 9.4000

>> Vmi=mean(M)

50

Page 51: Análise Multivariada - trabalho

Vmi =

4.6400 45.4000 9.9650

>> S=cov(M)

S =

2.8794 10.0100 -1.8091

10.0100 199.7884 -5.6400

-1.8091 -5.6400 3.6277

>> InvS=inv(S)

InvS =

0.5862 -0.0221 0.2580

-0.0221 0.0061 -0.0016

0.2580 -0.0016 0.4018

>> T2=20*((Vmi-H0)*InvS*(Vmi-H0)’)

T2 =

9.7388

Sabendo que

H0: ¹ = [4 50 10]′,

H1: ¹ ∕= [4 50 10]′,

n = 20,

>> F=(((20-1)*3)/(20-3))*finv(0.99,3,17)

F =

17.3850

Temos que(n− 1) ⋅ pn− p

ℱ3,17(0.01) = 17.3850, logo T 2 <(n− 1) ⋅ p

n− pℱ3,17(0.01), sendo assim,

aceita-se H0, ou seja, com 1% de significância aceitamos a hipótese de que ¹ = [4 50 10]′.

3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza,

X1, X2, X3 e X4, de cada uma das n = 30 bordas de chapas. A primeira medida envolve

a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada

enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos.

Observações X1 X2 X3 X4

51

Page 52: Análise Multivariada - trabalho

1 1874 1722 1420 1371

2 1535 1393 1299 1220

3 1754 1566 1296 1309

4 2211 2069 1742 1599

5 1977 1903 1533 1545

6 2076 1832 1524 1513

7 2189 1972 1633 1620

8 1576 1376 1245 1184

9 1871 1732 1542 1408

10 1859 1520 1436 1382

11 1796 1687 1586 1417

12 1964 1783 1555 1550

13 2304 2083 1668 1651

14 1992 1874 1623 1605

15 2245 1997 1773 1711

16 1861 1669 1531 1339

17 2002 1717 1622 1422

18 1843 1553 1580 1378

19 2117 1856 1612 1542

20 1950 1775 1597 1479

21 2096 1848 1654 1584

22 2134 1829 1606 1519

23 1984 1857 1826 1525

24 2178 1909 1683 1585

25 2462 2203 1783 1758

26 2105 1892 1849 1614

27 1998 1781 1625 1544

28 2183 1986 1626 1622

29 2011 1792 1664 1445

30 1779 1496 1534 1389

Testar a hipótese: H0: ¹ = [2000 1700 1500 1400]’, ao nível de significância de 5%.

Temos que

52

Page 53: Análise Multivariada - trabalho

H0: ¹ = [2000 1700 1500 1400]’,

H1: ¹ ∕= [2000 1700 1500 1400]′,

n = 30,

>> Mi_O=mean(O)

Media =

1.0e+003 *

1.9975 1.7891 1.5889 1.4943

>> S=cov(O)

S =

1.0e+004 *

4.1962 3.8593 2.3421 2.6239

3.8593 3.9383 2.2569 2.5497

2.3421 2.2569 2.0993 1.6417

2.6239 2.5497 1.6417 1.8725

>> IS=inv(S)

IS =

1.0e-003 *

0.2922 -0.1788 -0.0126 -0.1549

-0.1788 0.3241 0.0007 -0.1914

-0.0126 0.0007 0.1523 -0.1169

-0.1549 -0.1914 -0.1169 0.6336

>> T2=30*((Media-([2000 1700 1500 1400]))*IS*(Media-([2000 1700 1500 1400]))’)

T2 =

132.1786

>> F=(((30-1)*4)/(30-4))*finv(0.95,4,26)

F =

12.2362

Temos que(n− 1) ⋅ pn− p

ℱ4,26(0.05) = 12.2362, logo T 2 >(n− 1) ⋅ p

n− pℱ4,26(0.05), sendo assim,

rejeita-se H0, ou seja, com 5% de significância rejeitamos a hipótese de que ¹ = ¹0.

4. As amostras de tamanhos n1 = 60 e n2 = 75 foram obtidas das avaliações de 4 disciplinas

(Matemática, História, Geografia e Ciências) das Escolas A e B, resultando nos vetores

53

Page 54: Análise Multivariada - trabalho

de médias: x1 =[5.0 7.0 6.5 7.5

]′e x2 =

[6.0 6.5 7.5 6.0

]′e nas matrizes de

covariâncias:

S1 =

⎡⎢⎢⎢⎢⎢⎢⎣

1.00 0.20 0.30 0.28

0.20 0.25 0.27 0.12

0.30 0.27 0.36 0.12

0.28 0.12 0.12 0.16

⎤⎥⎥⎥⎥⎥⎥⎦

e S2 =

⎡⎢⎢⎢⎢⎢⎢⎣

1.00 0.18 0.24 0.24

0.18 0.36 0.19 0.17

0.24 0.19 0.16 0.08

0.24 0.17 0.08 0.16

⎤⎥⎥⎥⎥⎥⎥⎦

Testar a hipótese:

H0 : ¹1 = ¹2 contra a alternativa

H1 : ¹1 ∕= ¹2,

ao nível de significância de 5%, considerando que Σ1 = Σ2.

>> x1=[5 7 6.5 7.5]

x1 =

5.0000 7.0000 6.5000 7.5000

>> x2=[6 6.5 7.5 6]

x2 =

6.0000 6.5000 7.5000 6.0000

>> S1=[];

>> S2=[];

Calcular a matriz de covariância ponderada

>> Sp=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2)

Sp =

1.0000 0.1889 0.2666 0.2577

0.1889 0.3112 0.2255 0.1478

0.2666 0.2255 0.2487 0.0977

0.2577 0.1478 0.0977 0.1600

>> T2=(x1-x2)*(inv(9/300*(Sp)))*(x1-x2)’

T2 =

1.4616e+003

>> Fteste=(T2*(120+100-3-1))/((120+100-2)*3)

F =

9.6959

>> F=finv(0.95,4,130)

54

Page 55: Análise Multivariada - trabalho

F =

2.4414

Temos que(n1 + n2 − 2) ⋅ pn1 + n2 − p− 1

ℱ4,130(0.05) = 2.4414, logo Festatistico >(n1 + n2 − 2) ⋅ pn1 + n2 − p− 1

ℱ4,130(0.05),

sendo assim, rejeita-se H0, ou seja, com 5% de significância a hipótese H0 : mu1 = ¹2 é

rejeitada.

5. Observações com duas respostas (variáveis) foram obtidas para três tratamentos. Os vetores

observados foram:

Tratamento 1:

⎡⎣ 6

7

⎤⎦,

⎡⎣ 5

9

⎤⎦,

⎡⎣ 8

6

⎤⎦,

⎡⎣ 4

9

⎤⎦,

⎡⎣ 7

9

⎤⎦,

⎡⎣ 6

8

⎤⎦;

Tratamento 2:

⎡⎣ 3

3

⎤⎦,

⎡⎣ 1

6

⎤⎦,

⎡⎣ 2

3

⎤⎦,

⎡⎣ 1

4

⎤⎦;

Tratamento 3:

⎡⎣ 2

3

⎤⎦,

⎡⎣ 5

1

⎤⎦,

⎡⎣ 3

1

⎤⎦,

⎡⎣ 2

3

⎤⎦,

⎡⎣ 4

2

⎤⎦.

Aplicar a MANOVA para testar a igualdade de tratamentos, usando um nível de significân-

cia de 5%. Repita o teste usando o qui-quadrado aproximado de Bartlett. Compare os

resultados.

>> T1=[6 7;5 9;8 6;4 9;7 9;6 8]

T1 =

6 7

5 9

8 6

4 9

7 9

6 8

>> T2=[3 3;1 6;2 3;1 4]

T2 =

3 3

1 6

2 3

1 4

>> T3=[2 3;5 1;3 1;2 3;4 2]

55

Page 56: Análise Multivariada - trabalho

T3 =

2 3

5 1

3 1

2 3

4 2

Calcular a média de cada amostra

>> x1=mean(T1)

x1 =

6 8

>> x2=mean(T2)

x2 =

1.7500 4.0000

>> x3=mean(T3)

x3 =

3.2000 2.0000

Calcular a média ponderada global

>> xg=(6*x1+4*x2+5*x3)/(15)

xg =

3.9333 4.9333

>> B=6*(x1-xg)’*(x1-xg)+4*(x2-xg)’*(x2-xg)+5*(x3-xg)’*(x3-xg)

B =

47.3833 56.9333

56.9333 102.9333

>> W=(T1(1,:)-x1)’*(T1(1,:)-x1)+(T1(2,:)-x1)’*(T1(2,:)-x1)+(T1(3,:)-x1)’*(T1(3,:)-x1)+

(T1(4,:)-x1)’*(T1(4,:)-x1)+(T1(5,:)-x1)’*(T1(5,:)-x1)+(T1(6,:)-x1)’*(T1(6,:)-x1)+

(T2(1,:)-x2)’*(T2(1,:)-x2)+(T2(2,:)-x2)’*(T2(2,:)-x2)+(T2(3,:)-x2)’*(T2(3,:)-x2)+

(T2(4,:)-x2)’*(T2(4,:)-x2)+(T3(1,:)-x3)’*(T3(1,:)-x3)+(T3(2,:)-x3)’*(T3(2,:)-x3)+

(T3(3,:)-x3)’*(T3(3,:)-x3)+(T3(4,:)-x3)’*(T3(4,:)-x3)+(T3(5,:)-x3)’*(T3(5,:)-x3)

W =

19.5500 -13.0000

-13.0000 18.0000

>> B+W

ans =

66.9333 43.9333

56

Page 57: Análise Multivariada - trabalho

43.9333 120.9333

Lambda de Wilks

>> L=det(W)/(det(B+W))

L =

0.0297

>> Fteste=((15-3-1)/(3-1))*((1-sqrt(L))/(sqrt(L)))

Fteste =

26.4300

>> F=finv(0.95,4,22)

F =

2.8167

Como F2(g−1),2(n−g−1) = F4,22 = 2.8167 < Festatstico = 26.4300, então pelo menos um vetor

de médias é diferente dos demais.

Se fôssemos fazer a comparação por Barlett, teríamos (n− 1− p+g2 ) lnΛ X2

p (g − 1)

>> B=(15-1-(2+3))*log(L)

B =

-31.6584

>> X=chi2inv(0.95,4)

X =

9.4877

6. Um pesquisador deseja testar a igualdade dos vetores médios de duas populações. Os re-

sultados de suas pesquisas para o vetor aleatório X = [X1, X2, X3]′ forneceu as estatísticas:

n1 = 120, X1 =

⎡⎢⎢⎢⎣

44.3

53.8

60.5

⎤⎥⎥⎥⎦ , S1 =

⎡⎢⎢⎢⎣

22.5 4.4 −3.9

4.4 122.6 −17.5

−3.9 −17.5 214.7

⎤⎥⎥⎥⎦

n2 = 100, X2 =

⎡⎢⎢⎢⎣

49.2

56.5

65.2

⎤⎥⎥⎥⎦ , S2 =

⎡⎢⎢⎢⎣

95.7 10.2 −50.7

10.2 152.7 −7.1

−50.7 −7.1 302.3

⎤⎥⎥⎥⎦

Qual seria sua conclusão ao nível de significância de 1%? Considerar que Σ1 = Σ2.

H0 : ¹1 = ¹2

57

Page 58: Análise Multivariada - trabalho

H0 : ¹1 ∕= ¹2

>> x1=[44.3 53.8 60.5]

x1 =

44.3000 53.8000 60.5000

>> x2=[49.2 56.5 65.2]

x2 =

49.2000 56.5000 65.2000

>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7]

S1 =

s 22.5000 4.4000 -3.9000

4.4000 122.6000 -17.5000

-3.9000 -17.5000 214.7000

>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3]

S2 =

95.7000 10.2000 -50.7000

10.2000 152.7000 -7.1000

-50.7000 -7.1000 302.3000

>> Sp=(((120-1)*S1)+((100-1)*S2))/(120+100-2)

Sp =

55.7422 7.0339 -25.1532

7.0339 136.2693 -12.7771

-25.1532 -12.7771 254.4817

>> T2=(x1-x2)*(inv(((1/120)+(1/100))*(Sp)))*(x1-x2)’

T2 =

36.4501

>> Fteste=(T2*(120+100-3-1))/((120+100-2)*3)

Fteste =

12.0386

>> F=finv(0.99,3,216)

F =

3.8735

Sendo Festatstico = 12.0386 maior que F3,216(0.01) = 3.8735, então rejeita-se a hipótese

58

Page 59: Análise Multivariada - trabalho

H0 : ¹1 = ¹2.

Considerar que Σ1 ∕= Σ2. H0 : ¹1 = ¹2

H0 : ¹1 ∕= ¹2

>> x1=[44.3 53.8 60.5]

x1 =

44.3000 53.8000 60.5000

>> x2=[49.2 56.5 65.2]

x2 =

49.2000 56.5000 65.2000

>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7]

S1 =

22.5000 4.4000 -3.9000

4.4000 122.6000 -17.5000

-3.9000 -17.5000 214.7000

>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3]

S2 =

95.7000 10.2000 -50.7000

10.2000 152.7000 -7.1000

-50.7000 -7.1000 302.3000

>> (x1-x2)*inv(((1/120)*S1)+((1/100)*S2))*(x1-x2)’

ans =

33.9250

>> X=chi2inv(0.99,3)

X =

11.3449

Ao nível de significância de 1%, considerando Σ1 ∕= Σ2, rejeita-se a hipótese H0 onde

considera-se ¹1 = ¹2

7. Para o problema 1 da lista 2, testar a igualdade dos vetores médios resultantes das amostrasaleatórias obtidas (n1 = 10, n2 = 100 e n3 = 1000). Qual seria sua conclusão ao nível designificância de 5%? H0 : ¹1 = ¹2 = ¹3 H1 : Algum dos vetores difere dos outros

Sigma =

59

Page 60: Análise Multivariada - trabalho

15.0000 1.5000 3.0000 2.3000 5.1000 0.9000

1.5000 13.0000 2.7000 3.6000 4.7000 2.8000

3.0000 2.7000 13.9000 5.2000 6.2000 3.2000

2.3000 3.6000 5.2000 25.0000 3.1000 5.2000

5.1000 4.7000 6.2000 3.1000 36.0000 4.8000

0.9000 2.8000 3.2000 5.2000 4.8000 48.0000

>> mi=[4.5 6.0 8.5 10.0 12.5 15.0]

mi =

4.5000 6.0000 8.5000 10.0000 12.5000 15.0000

>> mx1=[6.9178 8.7686 10.6260 9.3165 15.7175 14.9356]

mx1 =

6.9178 8.7686 10.6260 9.3165 15.7175 14.9356

>> mx2=[4.5417 7.0864 8.6808 10.0058 13.0134 14.8672]

mx2 =

4.5417 7.0864 8.6808 10.0058 13.0134 14.8672

>> mx3=[4.4758 6.1065 8.5225 9.8296 12.4343 14.8078]

mx3 =

4.4758 6.1065 8.5225 9.8296 12.4343 14.8078

>> X1=mvnrnd(mi,Sigma,10);

>> S1=cov(X1);

>> X2=mvnrnd(mi,Sigma,100);

>> S2=cov(X2);

>> X3=mvnrnd(mi,Sigma,1000);

>> S3=cov(X3);

>> Sp=((10-1)*S1+(100-1)*S2+(1000-1)*S3)/(10+100+1000-3)

Sp =

15.6287 1.9193 3.0319 1.4114 5.1191 -0.5561

1.9193 13.0521 2.6940 3.2722 3.9318 3.3664

3.0319 2.6940 13.2001 4.4627 6.9650 2.0574

1.4114 3.2722 4.4627 24.2386 2.3232 5.1255

5.1191 3.9318 6.9650 2.3232 35.6304 4.9712

-0.5561 3.3664 2.0574 5.1255 4.9712 46.5597

>> X=[X1;X2;X3];

>> n=[10 100 1000]

n =

10 100 1000

>> manova(X,n)

***********************************

* AMOSTRAS MULTIVARIADAS - GRUPOS *

***********************************

***********************************

* E MÉDIAS DOS GRUPOS *

***********************************

X1 =

6.5824 1.3693 10.4200 14.0294 11.8459 9.3273

11.6026 17.5895 7.6237 7.1229 15.6737 16.4204

-4.2485 7.7255 9.8072 5.0986 13.0840 6.6432

7.8392 6.1079 14.9699 8.4866 17.3463 8.2866

60

Page 61: Análise Multivariada - trabalho

5.7346 8.6856 10.9781 -2.5282 9.6254 13.2773

-0.5647 4.7588 11.0591 17.0322 11.5824 26.7321

2.8207 5.3871 10.6869 12.0000 11.7389 10.2523

5.8270 11.4728 8.6750 7.6792 17.8671 18.2602

18.3591 12.4369 13.2687 20.2792 25.2909 17.1399

15.2260 12.1528 8.7717 3.9651 23.1206 23.0164

xm1 =

6.9178

8.7686

10.6260

9.3165

15.7175

14.9356

xm2 =

4.1854

5.7971

8.0434

9.6145

12.3953

14.9631

xm3 =

4.5368

6.1124

8.6809

10.1606

12.5119

14.9485

**********************************

* FONTE DE VARIAÇÃO: TRATAMENTOS *

**********************************

**********************************

* MATRIZ B *

**********************************

68.9232 74.2750 68.2612 -1.5521 80.6297 -0.8068

74.2750 80.4771 71.5727 -5.4796 88.9140 -0.7975

68.2612 71.5727 76.7049 15.8803 70.5974 -1.1282

-1.5521 -5.4796 15.8803 33.3743 -19.5365 -0.6119

80.6297 88.9140 70.5974 -19.5365 103.7436 -0.6089

-0.8068 -0.7975 -1.1282 -0.6119 -0.6089 0.0213

**********************************

* GRAUS DE LIBERDADE *

**********************************

12

**********************************

* FONTE DE VARIAÇÃO: RESIDUAL *

**********************************

* MATRIZ W *

61

Page 62: Análise Multivariada - trabalho

**********************************

1.0e+004 *

1.7301 0.2125 0.3356 0.1562 0.5667 -0.0616

0.2125 1.4449 0.2982 0.3622 0.4353 0.3727

0.3356 0.2982 1.4613 0.4940 0.7710 0.2278

0.1562 0.3622 0.4940 2.6832 0.2572 0.5674

0.5667 0.4353 0.7710 0.2572 3.9443 0.5503

-0.0616 0.3727 0.2278 0.5674 0.5503 5.1542

**********************************

* GRAUS DE LIBERDADE *

**********************************

2204

**********************************

* FONTE DE VARIAÇÃO: TOTAL *

**********************************

**********************************

* MATRIZ B + W *

**********************************

1.0e+004 *

1.7370 0.2199 0.3425 0.1561 0.5747 -0.0616

0.2199 1.4529 0.3054 0.3617 0.4441 0.3726

0.3425 0.3054 1.4689 0.4956 0.7781 0.2276

0.1561 0.3617 0.4956 2.6865 0.2552 0.5673

0.5747 0.4441 0.7781 0.2552 3.9547 0.5503

-0.0616 0.3726 0.2276 0.5673 0.5503 5.1542

**********************************

* GRAUS DE LIBERDADE *

**********************************

2216

**********************************

* LÂMBDA DE WILKS *

**********************************

0.9864

**********************************

* ESTATÍSTICA DO TESTE *

**********************************

F =

1.2615

**********************************

* VALOR DE p *

**********************************

0.2349

Como o teste p = 0.2349 > 0.05 então, aceita-se a hipótese H0 : em que considera-se a

igualdade dos vetores médios resultantes das amostras aleatórias.

8. A tabela seguinte mostra 9 variáveis referentes a 5 espécies de cães da Tailândia.

62

Page 63: Análise Multivariada - trabalho

Ident. X1 X2 X3 X4 X5 X6 X7 X8 X9

Cães Modernos da Tailândia

1 123 10.1 23 23 19 7.8 32 33 5.6

2 137 9.6 19 22 19 7.8 32 40 5.8

3 121 10.2 18 21 21 7.9 35 38 6.2

4 130 10.7 24 22 20 7.9 32 37 5.9

5 149 12 25 25 21 8.4 35 43 6.6

6 125 9.5 23 20 20 7.8 33 37 6.3

7 126 9.1 20 22 19 7.5 32 35 5.5

8 125 9.7 19 19 19 7.5 32 37 6.2

9 121 9.6 22 20 18 7.6 31 35 5.3

10 122 8.9 10 20 19 7.6 31 35 5.7

11 115 9.3 19 19 20 7.8 33 34 6.5

12 112 9.1 19 20 19 6.6 30 33 5.1

13 124 9.3 21 21 18 7.1 30 36 5.5

14 128 9.6 22 21 19 7.5 32 38 5.8

15 130 8.4 23 20 19 7.3 31 40 5.8

16 127 10.5 25 23 20 8.7 32 35 6.1

Chacais Dourados

1 120 8.2 18 17 18 7 32 35 5.2

2 107 7.9 17 17 20 7 32 34 5.3

3 110 8.1 18 16 19 7.1 31 32 4.7

4 116 8.5 20 18 18 7.1 32 33 4.7

5 114 8.2 19 18 19 7.9 32 33 5.1

6 111 8.5 19 16 18 7.1 30 33 5

7 113 8.5 17 18 19 7.1 30 34 4.6

8 117 8.7 20 17 18 7 30 34 5.2

9 114 9.4 21 19 19 7.5 31 35 5.3

10 112 8.2 19 17 19 6.8 30 34 5.1

11 110 8.5 18 17 19 7 31 33 4.9

12 111 7.7 20 18 18 6.7 30 32 4.5

13 107 7.2 17 16 17 6 28 35 4.7

14 108 8.2 18 16 17 6.5 29 33 4.8

63

Page 64: Análise Multivariada - trabalho

15 110 7.3 19 15 17 6.1 30 33 4.5

16 105 8.3 19 17 17 6.5 29 32 4.5

17 107 8.4 18 17 18 6.2 29 31 4.3

18 106 7.8 19 18 18 6.2 31 32 4.4

19 111 8.4 17 16 18 7 30 34 4.7

20 111 7.6 19 17 18 6.5 30 35 4.6

Cuons

1 123 9.7 22 21 20 7.8 27 36 6.1

2 135 11.8 25 21 23 8.9 31 38 7.1

3 138 11.4 25 25 22 9 30 38 7.3

4 141 10.8 26 25 21 8.1 29 39 6.6

5 135 11.2 25 25 21 8.5 29 39 6.7

6 136 11 22 24 22 8.1 31 39 6.8

7 131 10.4 23 23 23 8.7 30 36 6.8

8 137 10.6 25 24 21 8.3 28 38 6.5

9 135 10.5 25 25 21 8.4 29 39 6.9

10 131 10.9 25 24 21 8.5 29 35 6.2

11 130 11.3 22 23 21 8.7 29 37 7

12 144 10.8 24 26 22 8.9 30 42 7.1

13 139 10.9 26 23 22 8.7 30 39 6.9

14 123 9.8 23 22 10 8.1 26 34 5.6

15 137 11.3 27 26 23 8.7 30 39 6.5

16 128 10 22 23 22 8.7 29 37 6.6

17 122 9.9 22 22 20 8.2 26 36 5.7

Lobos Indianos

1 167 11.5 29 28 25 9.5 41 45 7.2

2 164 12.3 27 26 25 10 42 47 7.9

3 150 11.5 21 24 25 9.3 41 46 8.5

4 145 11.3 28 24 24 9.2 36 41 7.2

5 177 12.4 31 27 27 10.5 43 50 7.9

6 166 13.4 32 27 26 9.5 40 47 7.3

7 164 12.1 27 24 25 9.9 42 45 8.3

8 165 12.6 30 26 25 7.7 40 43 7.9

64

Page 65: Análise Multivariada - trabalho

9 131 11.8 20 24 23 8.8 38 40 6.5

10 163 10.8 27 24 24 9.2 39 48 7

11 164 10.7 24 23 26 9.5 43 47 7.6

12 141 10.4 20 23 23 8.9 38 43 6

13 148 10.6 26 21 24 8.9 39 40 7

14 158 10.7 25 25 24 9.8 41 45 7.4

Cães Pré-históricos Tailandeses

1 112 10.1 17 18 19 7.7 31 33 5.8

2 115 10 18 23 20 7.8 33 36 6

3 136 11.9 22 25 21 8.5 36 39 7

4 111 9.9 19 20 18 7.3 29 34 5.3

5 130 11.2 23 27 20 9.1 35 35 6.6

6 125 10.7 19 26 20 8.4 33 37 6.3

7 132 9.6 19 20 19 9.7 35 38 6.6

8 121 10.7 21 23 19 7.9 32 35 6

9 122 9.8 22 23 18 7.9 32 35 6.1

19 124 9.5 20 24 19 7.6 32 37 6

Nota: As variáveis são X1 = comprimento da mandíbula; X2 = largura da mandíbula abaixo do

primeiro molar; X3 = largura do côndilo articular; X4 = altura da mandíbula abaixo do primeiro

molar; X5 = comprimento do primeiro molar; X6 = largura do primeiro molar; X7 = comprimento

do primeiro ao terceiro molar, inclusive (primeiro ao segundo para o cuon); X8 = comprimento do

primeiro ao quarto premolar, inclusive; X9 = largura do canino inferior.

(a) Através da MANOVA, testar a existência de diferenças significativas, ao nível designificância de 5%, entre tratamentos para as cinco raças de cães.

>> Y=[Y1;Y2;Y3;Y4;Y5]

Y =

123.0000 10.1000 23.0000 23.0000 19.0000 7.8000 32.0000 33.0000 5.6000

137.0000 9.6000 19.0000 22.0000 19.0000 7.8000 32.0000 40.0000 5.8000

121.0000 10.2000 18.0000 21.0000 21.0000 7.9000 35.0000 38.0000 6.2000

130.0000 10.7000 24.0000 22.0000 20.0000 7.9000 32.0000 37.0000 5.9000

149.0000 12.0000 25.0000 25.0000 21.0000 8.4000 35.0000 43.0000 6.6000

125.0000 9.5000 23.0000 20.0000 20.0000 7.8000 33.0000 37.0000 6.3000

126.0000 9.1000 20.0000 22.0000 19.0000 7.5000 32.0000 35.0000 5.5000

125.0000 9.7000 19.0000 19.0000 19.0000 7.5000 32.0000 37.0000 6.2000

121.0000 9.6000 22.0000 20.0000 18.0000 7.6000 31.0000 35.0000 5.3000

122.0000 8.9000 10.0000 20.0000 19.0000 7.6000 31.0000 35.0000 5.7000

65

Page 66: Análise Multivariada - trabalho

115.0000 9.3000 19.0000 19.0000 20.0000 7.8000 33.0000 34.0000 6.5000

112.0000 9.1000 19.0000 20.0000 19.0000 6.6000 30.0000 33.0000 5.1000

124.0000 9.3000 21.0000 21.0000 18.0000 7.1000 30.0000 36.0000 5.5000

128.0000 9.6000 22.0000 21.0000 19.0000 7.5000 32.0000 38.0000 5.8000

130.0000 8.4000 23.0000 20.0000 19.0000 7.3000 31.0000 40.0000 5.8000

127.0000 10.5000 25.0000 23.0000 20.0000 8.7000 32.0000 35.0000 6.1000

120.0000 8.2000 18.0000 17.0000 18.0000 7.0000 32.0000 35.0000 5.2000

107.0000 7.9000 17.0000 17.0000 20.0000 7.0000 32.0000 34.0000 5.3000

110.0000 8.1000 18.0000 16.0000 19.0000 7.1000 31.0000 32.0000 4.7000

116.0000 8.5000 20.0000 18.0000 18.0000 7.1000 32.0000 33.0000 4.7000

114.0000 8.2000 19.0000 18.0000 19.0000 7.9000 32.0000 33.0000 5.1000

111.0000 8.5000 19.0000 16.0000 18.0000 7.1000 30.0000 33.0000 5.0000

113.0000 8.5000 17.0000 18.0000 19.0000 7.1000 30.0000 34.0000 4.6000

117.0000 8.7000 20.0000 17.0000 18.0000 7.0000 30.0000 34.0000 5.2000

114.0000 9.4000 21.0000 19.0000 19.0000 7.5000 31.0000 35.0000 5.3000

112.0000 8.2000 19.0000 17.0000 19.0000 6.8000 30.0000 34.0000 5.1000

110.0000 8.5000 18.0000 17.0000 19.0000 7.0000 31.0000 33.0000 4.9000

111.0000 7.7000 20.0000 18.0000 18.0000 6.7000 30.0000 32.0000 4.5000

107.0000 7.2000 17.0000 16.0000 17.0000 6.0000 28.0000 35.0000 4.7000

108.0000 8.2000 18.0000 16.0000 17.0000 6.5000 29.0000 33.0000 4.8000

110.0000 7.3000 19.0000 15.0000 17.0000 6.1000 30.0000 33.0000 4.5000

105.0000 8.3000 19.0000 17.0000 17.0000 6.5000 29.0000 32.0000 4.5000

107.0000 8.4000 18.0000 17.0000 18.0000 6.2000 29.0000 31.0000 4.3000

106.0000 7.8000 19.0000 18.0000 18.0000 6.2000 31.0000 32.0000 4.4000

111.0000 8.4000 17.0000 16.0000 18.0000 7.0000 30.0000 34.0000 4.7000

111.0000 7.6000 19.0000 17.0000 18.0000 6.5000 30.0000 35.0000 4.6000

123.0000 9.7000 22.0000 21.0000 20.0000 7.8000 27.0000 36.0000 6.1000

135.0000 11.8000 25.0000 21.0000 23.0000 8.9000 31.0000 38.0000 7.1000

138.0000 11.4000 25.0000 25.0000 22.0000 9.0000 30.0000 38.0000 7.3000

141.0000 10.8000 26.0000 25.0000 21.0000 8.1000 29.0000 39.0000 6.6000

135.0000 11.2000 25.0000 25.0000 21.0000 8.5000 29.0000 39.0000 6.7000

136.0000 11.0000 22.0000 24.0000 22.0000 8.1000 31.0000 39.0000 6.8000

131.0000 10.4000 23.0000 23.0000 23.0000 8.7000 30.0000 36.0000 6.8000

137.0000 10.6000 25.0000 24.0000 21.0000 8.3000 28.0000 38.0000 6.5000

135.0000 10.5000 25.0000 25.0000 21.0000 8.4000 29.0000 39.0000 6.9000

131.0000 10.9000 25.0000 24.0000 21.0000 8.5000 29.0000 35.0000 6.2000

130.0000 11.3000 22.0000 23.0000 21.0000 8.7000 29.0000 37.0000 7.0000

144.0000 10.8000 24.0000 26.0000 22.0000 8.9000 30.0000 42.0000 7.1000

139.0000 10.9000 26.0000 23.0000 22.0000 8.7000 30.0000 39.0000 6.9000

123.0000 9.8000 23.0000 22.0000 10.0000 8.1000 26.0000 34.0000 5.6000

137.0000 11.3000 27.0000 26.0000 23.0000 8.7000 30.0000 39.0000 6.5000

128.0000 10.0000 22.0000 23.0000 22.0000 8.7000 29.0000 37.0000 6.6000

122.0000 9.9000 22.0000 22.0000 20.0000 8.2000 26.0000 36.0000 5.7000

167.0000 11.5000 29.0000 28.0000 25.0000 9.5000 41.0000 45.0000 7.2000

164.0000 12.3000 27.0000 26.0000 25.0000 10.0000 42.0000 47.0000 7.9000

150.0000 11.5000 21.0000 24.0000 25.0000 9.3000 41.0000 46.0000 8.5000

145.0000 11.3000 28.0000 24.0000 24.0000 9.2000 36.0000 41.0000 7.2000

177.0000 12.4000 31.0000 27.0000 27.0000 10.5000 43.0000 50.0000 7.9000

66

Page 67: Análise Multivariada - trabalho

166.0000 13.4000 32.0000 27.0000 26.0000 9.5000 40.0000 47.0000 7.3000

164.0000 12.1000 27.0000 24.0000 25.0000 9.9000 42.0000 45.0000 8.3000

165.0000 12.6000 30.0000 26.0000 25.0000 7.7000 40.0000 43.0000 7.9000

131.0000 11.8000 20.0000 24.0000 23.0000 8.8000 38.0000 40.0000 6.5000

163.0000 10.8000 27.0000 24.0000 24.0000 9.2000 39.0000 48.0000 7.0000

164.0000 10.7000 24.0000 23.0000 26.0000 9.5000 43.0000 47.0000 7.6000

141.0000 10.4000 20.0000 23.0000 23.0000 8.9000 38.0000 43.0000 6.0000

148.0000 10.6000 26.0000 21.0000 24.0000 8.9000 39.0000 40.0000 7.0000

158.0000 10.7000 25.0000 25.0000 24.0000 9.8000 41.0000 45.0000 7.4000

112.0000 10.1000 17.0000 18.0000 19.0000 7.7000 31.0000 33.0000 5.8000

115.0000 10.0000 18.0000 23.0000 20.0000 7.8000 33.0000 36.0000 6.0000

136.0000 11.9000 22.0000 25.0000 21.0000 8.5000 36.0000 39.0000 7.0000

111.0000 9.9000 19.0000 20.0000 18.0000 7.3000 29.0000 34.0000 5.3000

130.0000 11.2000 23.0000 27.0000 20.0000 9.1000 35.0000 35.0000 6.6000

125.0000 10.7000 19.0000 26.0000 20.0000 8.4000 33.0000 37.0000 6.3000

132.0000 9.6000 19.0000 20.0000 19.0000 9.7000 35.0000 38.0000 6.6000

121.0000 10.7000 21.0000 23.0000 19.0000 7.9000 32.0000 35.0000 6.0000

122.0000 9.8000 22.0000 23.0000 18.0000 7.9000 32.0000 35.0000 6.1000

124.0000 9.5000 20.0000 24.0000 19.0000 7.6000 32.0000 37.0000 6.0000

>> n=[16 20 17 14 10]

n =

16 20 17 14 10

>> manova(Y,n)

***********************************

* AMOSTRAS MULTIVARIADAS - GRUPOS *

***********************************

***********************************

* E MÉDIAS DOS GRUPOS *

***********************************

X1 =

123.0000 10.1000 23.0000 23.0000 19.0000 7.8000 32.0000 33.0000 5.6000

137.0000 9.6000 19.0000 22.0000 19.0000 7.8000 32.0000 40.0000 5.8000

121.0000 10.2000 18.0000 21.0000 21.0000 7.9000 35.0000 38.0000 6.2000

130.0000 10.7000 24.0000 22.0000 20.0000 7.9000 32.0000 37.0000 5.9000

149.0000 12.0000 25.0000 25.0000 21.0000 8.4000 35.0000 43.0000 6.6000

125.0000 9.5000 23.0000 20.0000 20.0000 7.8000 33.0000 37.0000 6.3000

126.0000 9.1000 20.0000 22.0000 19.0000 7.5000 32.0000 35.0000 5.5000

125.0000 9.7000 19.0000 19.0000 19.0000 7.5000 32.0000 37.0000 6.2000

121.0000 9.6000 22.0000 20.0000 18.0000 7.6000 31.0000 35.0000 5.3000

122.0000 8.9000 10.0000 20.0000 19.0000 7.6000 31.0000 35.0000 5.7000

115.0000 9.3000 19.0000 19.0000 20.0000 7.8000 33.0000 34.0000 6.5000

112.0000 9.1000 19.0000 20.0000 19.0000 6.6000 30.0000 33.0000 5.1000

124.0000 9.3000 21.0000 21.0000 18.0000 7.1000 30.0000 36.0000 5.5000

128.0000 9.6000 22.0000 21.0000 19.0000 7.5000 32.0000 38.0000 5.8000

130.0000 8.4000 23.0000 20.0000 19.0000 7.3000 31.0000 40.0000 5.8000

127.0000 10.5000 25.0000 23.0000 20.0000 8.7000 32.0000 35.0000 6.1000

xm1 =

125.9375

67

Page 68: Análise Multivariada - trabalho

9.7250

20.7500

21.1250

19.3750

7.6750

32.0625

36.6250

5.8687

X2 =

120.0000 8.2000 18.0000 17.0000 18.0000 7.0000 32.0000 35.0000 5.2000

107.0000 7.9000 17.0000 17.0000 20.0000 7.0000 32.0000 34.0000 5.3000

110.0000 8.1000 18.0000 16.0000 19.0000 7.1000 31.0000 32.0000 4.7000

116.0000 8.5000 20.0000 18.0000 18.0000 7.1000 32.0000 33.0000 4.7000

114.0000 8.2000 19.0000 18.0000 19.0000 7.9000 32.0000 33.0000 5.1000

111.0000 8.5000 19.0000 16.0000 18.0000 7.1000 30.0000 33.0000 5.0000

113.0000 8.5000 17.0000 18.0000 19.0000 7.1000 30.0000 34.0000 4.6000

117.0000 8.7000 20.0000 17.0000 18.0000 7.0000 30.0000 34.0000 5.2000

114.0000 9.4000 21.0000 19.0000 19.0000 7.5000 31.0000 35.0000 5.3000

112.0000 8.2000 19.0000 17.0000 19.0000 6.8000 30.0000 34.0000 5.1000

110.0000 8.5000 18.0000 17.0000 19.0000 7.0000 31.0000 33.0000 4.9000

111.0000 7.7000 20.0000 18.0000 18.0000 6.7000 30.0000 32.0000 4.5000

107.0000 7.2000 17.0000 16.0000 17.0000 6.0000 28.0000 35.0000 4.7000

108.0000 8.2000 18.0000 16.0000 17.0000 6.5000 29.0000 33.0000 4.8000

110.0000 7.3000 19.0000 15.0000 17.0000 6.1000 30.0000 33.0000 4.5000

105.0000 8.3000 19.0000 17.0000 17.0000 6.5000 29.0000 32.0000 4.5000

107.0000 8.4000 18.0000 17.0000 18.0000 6.2000 29.0000 31.0000 4.3000

106.0000 7.8000 19.0000 18.0000 18.0000 6.2000 31.0000 32.0000 4.4000

111.0000 8.4000 17.0000 16.0000 18.0000 7.0000 30.0000 34.0000 4.7000

111.0000 7.6000 19.0000 17.0000 18.0000 6.5000 30.0000 35.0000 4.6000

xm2 =

111.0000

8.1800

18.6000

17.0000

18.2000

6.8150

30.3500

33.3500

4.8050

X3 =

123.0000 9.7000 22.0000 21.0000 20.0000 7.8000 27.0000 36.0000 6.1000

135.0000 11.8000 25.0000 21.0000 23.0000 8.9000 31.0000 38.0000 7.1000

138.0000 11.4000 25.0000 25.0000 22.0000 9.0000 30.0000 38.0000 7.3000

141.0000 10.8000 26.0000 25.0000 21.0000 8.1000 29.0000 39.0000 6.6000

135.0000 11.2000 25.0000 25.0000 21.0000 8.5000 29.0000 39.0000 6.7000

136.0000 11.0000 22.0000 24.0000 22.0000 8.1000 31.0000 39.0000 6.8000

131.0000 10.4000 23.0000 23.0000 23.0000 8.7000 30.0000 36.0000 6.8000

137.0000 10.6000 25.0000 24.0000 21.0000 8.3000 28.0000 38.0000 6.5000

68

Page 69: Análise Multivariada - trabalho

135.0000 10.5000 25.0000 25.0000 21.0000 8.4000 29.0000 39.0000 6.9000

131.0000 10.9000 25.0000 24.0000 21.0000 8.5000 29.0000 35.0000 6.2000

130.0000 11.3000 22.0000 23.0000 21.0000 8.7000 29.0000 37.0000 7.0000

144.0000 10.8000 24.0000 26.0000 22.0000 8.9000 30.0000 42.0000 7.1000

139.0000 10.9000 26.0000 23.0000 22.0000 8.7000 30.0000 39.0000 6.9000

123.0000 9.8000 23.0000 22.0000 10.0000 8.1000 26.0000 34.0000 5.6000

137.0000 11.3000 27.0000 26.0000 23.0000 8.7000 30.0000 39.0000 6.5000

128.0000 10.0000 22.0000 23.0000 22.0000 8.7000 29.0000 37.0000 6.6000

122.0000 9.9000 22.0000 22.0000 20.0000 8.2000 26.0000 36.0000 5.7000

xm3 =

133.2353

10.7235

24.0588

23.6471

20.8824

8.4882

29.0000

37.7059

6.6118

X4 =

167.0000 11.5000 29.0000 28.0000 25.0000 9.5000 41.0000 45.0000 7.2000

164.0000 12.3000 27.0000 26.0000 25.0000 10.0000 42.0000 47.0000 7.9000

150.0000 11.5000 21.0000 24.0000 25.0000 9.3000 41.0000 46.0000 8.5000

145.0000 11.3000 28.0000 24.0000 24.0000 9.2000 36.0000 41.0000 7.2000

177.0000 12.4000 31.0000 27.0000 27.0000 10.5000 43.0000 50.0000 7.9000

166.0000 13.4000 32.0000 27.0000 26.0000 9.5000 40.0000 47.0000 7.3000

164.0000 12.1000 27.0000 24.0000 25.0000 9.9000 42.0000 45.0000 8.3000

165.0000 12.6000 30.0000 26.0000 25.0000 7.7000 40.0000 43.0000 7.9000

131.0000 11.8000 20.0000 24.0000 23.0000 8.8000 38.0000 40.0000 6.5000

163.0000 10.8000 27.0000 24.0000 24.0000 9.2000 39.0000 48.0000 7.0000

164.0000 10.7000 24.0000 23.0000 26.0000 9.5000 43.0000 47.0000 7.6000

141.0000 10.4000 20.0000 23.0000 23.0000 8.9000 38.0000 43.0000 6.0000

148.0000 10.6000 26.0000 21.0000 24.0000 8.9000 39.0000 40.0000 7.0000

158.0000 10.7000 25.0000 25.0000 24.0000 9.8000 41.0000 45.0000 7.4000

xm4 =

157.3571

11.5786

26.2143

24.7143

24.7143

9.3357

40.2143

44.7857

7.4071

X5 =

112.0000 10.1000 17.0000 18.0000 19.0000 7.7000 31.0000 33.0000 5.8000

115.0000 10.0000 18.0000 23.0000 20.0000 7.8000 33.0000 36.0000 6.0000

136.0000 11.9000 22.0000 25.0000 21.0000 8.5000 36.0000 39.0000 7.0000

69

Page 70: Análise Multivariada - trabalho

111.0000 9.9000 19.0000 20.0000 18.0000 7.3000 29.0000 34.0000 5.3000

130.0000 11.2000 23.0000 27.0000 20.0000 9.1000 35.0000 35.0000 6.6000

125.0000 10.7000 19.0000 26.0000 20.0000 8.4000 33.0000 37.0000 6.3000

132.0000 9.6000 19.0000 20.0000 19.0000 9.7000 35.0000 38.0000 6.6000

121.0000 10.7000 21.0000 23.0000 19.0000 7.9000 32.0000 35.0000 6.0000

122.0000 9.8000 22.0000 23.0000 18.0000 7.9000 32.0000 35.0000 6.1000

124.0000 9.5000 20.0000 24.0000 19.0000 7.6000 32.0000 37.0000 6.0000

xm5 =

122.8000

10.3400

20.0000

22.9000

19.3000

8.1900

32.8000

35.9000

6.1700

**********************************

* FONTE DE VARIAÇÃO: TRATAMENTOS *

**********************************

**********************************

* MATRIZ B *

**********************************

1.0e+004 *

1.8577 0.1326 0.3230 0.2982 0.2658 0.0996 0.3587 0.4543 0.1029

0.1326 0.0112 0.0240 0.0268 0.0182 0.0081 0.0209 0.0313 0.0084

0.3230 0.0240 0.0614 0.0550 0.0463 0.0179 0.0482 0.0767 0.0186

0.2982 0.0268 0.0550 0.0650 0.0400 0.0189 0.0420 0.0692 0.0196

0.2658 0.0182 0.0463 0.0400 0.0390 0.0140 0.0536 0.0656 0.0143

0.0996 0.0081 0.0179 0.0189 0.0140 0.0059 0.0169 0.0238 0.0061

0.3587 0.0209 0.0482 0.0420 0.0536 0.0169 0.1138 0.0955 0.0168

0.4543 0.0313 0.0767 0.0692 0.0656 0.0238 0.0955 0.1125 0.0245

0.1029 0.0084 0.0186 0.0196 0.0143 0.0061 0.0168 0.0245 0.0063

**********************************

* FONTE DE VARIAÇÃO: RESIDUAL *

**********************************

* MATRIZ W *

**********************************

1.0e+003 *

4.7028 0.2151 0.9154 0.6018 0.4049 0.1633 0.6246 1.0197 0.1692

0.2151 0.0373 0.0707 0.0528 0.0377 0.0116 0.0404 0.0377 0.0130

0.9154 0.0707 0.4991 0.1717 0.0681 0.0255 0.0764 0.1282 0.0254

0.6018 0.0528 0.1717 0.2174 0.0677 0.0233 0.0845 0.1170 0.0190

0.4049 0.0377 0.0681 0.0677 0.1897 0.0243 0.1157 0.1097 0.0320

0.1633 0.0116 0.0255 0.0233 0.0243 0.0205 0.0406 0.0358 0.0102

0.6246 0.0404 0.0764 0.0845 0.1157 0.0406 0.1854 0.1444 0.0412

1.0197 0.0377 0.1282 0.1170 0.1097 0.0358 0.1444 0.3491 0.0415

0.1692 0.0130 0.0254 0.0190 0.0320 0.0102 0.0412 0.0415 0.0163

70

Page 71: Análise Multivariada - trabalho

**********************************

* FONTE DE VARIAÇÃO: TOTAL *

**********************************

*********************************

* MATRIZ B + W *

**********************************

1.0e+004 *

2.3280 0.1541 0.4146 0.3584 0.3063 0.1160 0.4212 0.5563 0.1198

0.1541 0.0150 0.0311 0.0320 0.0220 0.0092 0.0249 0.0350 0.0096

0.4146 0.0311 0.1113 0.0722 0.0531 0.0205 0.0558 0.0896 0.0211

0.3584 0.0320 0.0722 0.0867 0.0468 0.0213 0.0504 0.0809 0.0215

0.3063 0.0220 0.0531 0.0468 0.0580 0.0164 0.0651 0.0766 0.0175

0.1160 0.0092 0.0205 0.0213 0.0164 0.0080 0.0210 0.0274 0.0071

0.4212 0.0249 0.0558 0.0504 0.0651 0.0210 0.1323 0.1099 0.0209

0.5563 0.0350 0.0896 0.0809 0.0766 0.0274 0.1099 0.1475 0.0286

0.1198 0.0096 0.0211 0.0215 0.0175 0.0071 0.0209 0.0286 0.0079

**********************************

* LÂMBDA DE WILKS *

**********************************

0.0049

**********************************

* ESTATÍSTICA DO TESTE *

**********************************

qui2 =

366.9383

**********************************

* VALOR DE p *

**********************************

0

Como o teste p = 0 < 0.05 então, rejeita-se a hipótese H0 : em que considera-se a

igualdade dos vetores médios.

(b) Testar isoladamente cada raça com os cães pré-históricos tailandeses, ao nível designificância de 5%.

>> Y1=[];

>> Y2=[];

>> Y3=[];

>> Y4=[];

>> Y5=[];

>> S1=cov(Y1)

S1 =

72.3292 4.3350 12.9167 9.8083 2.4250 2.1450 5.2708 19.9083 1.4979

4.3350 0.7180 1.5467 1.0433 0.4767 0.2893 0.7983 0.9300 0.1828

12.9167 1.5467 13.4000 2.9667 0.6333 0.6333 1.0167 2.7000 0.2983

9.8083 1.0433 2.9667 2.6500 0.5500 0.4633 0.9250 1.6500 0.1108

2.4250 0.4767 0.6333 0.5500 0.7833 0.2700 1.1083 0.9500 0.2925

2.1450 0.2893 0.6333 0.4633 0.2700 0.2313 0.4617 0.4167 0.1385

71

Page 72: Análise Multivariada - trabalho

5.2708 0.7983 1.0167 0.9250 1.1083 0.4617 2.0625 1.9583 0.4887

19.9083 0.9300 2.7000 1.6500 0.9500 0.4167 1.9583 7.4500 0.5742

1.4979 0.1828 0.2983 0.1108 0.2925 0.1385 0.4887 0.5742 0.1796

>> S2=cov(Y2)

S2 =

15.0526 0.8000 1.5263 1.1053 0.6842 1.1158 2.2632 2.1579 0.6474

0.8000 0.2533 0.1968 0.2368 0.1568 0.1566 0.1495 0.0284 0.0691

1.5263 0.1968 1.3053 0.5263 -0.0737 0.1221 0.2526 -0.1158 0.0495

1.1053 0.2368 0.5263 0.9474 0.3684 0.2158 0.4737 0.0526 0.0526

0.6842 0.1568 -0.0737 0.3684 0.6947 0.2653 0.6105 0.1368 0.1358

1.1158 0.1566 0.1221 0.2158 0.2653 0.2308 0.3629 0.1208 0.0994

2.2632 0.1495 0.2526 0.4737 0.6105 0.3629 1.2921 0.1342 0.1718

2.1579 0.0284 -0.1158 0.0526 0.1368 0.1208 0.1342 1.3974 0.2192

0.6474 0.0691 0.0495 0.0526 0.1358 0.0994 0.1718 0.2192 0.0973

>> S3=cov(Y3)

S3 =

41.3162 2.6191 7.2978 7.4007 9.9669 1.0404 7.0625 10.6360 2.2783

2.6191 0.3707 0.5610 0.3713 0.9467 0.1309 0.7063 0.5824 0.2103

7.2978 0.5610 2.8088 1.4596 1.2574 0.1882 0.9375 1.3934 0.2368

7.4007 0.3713 1.4596 2.4926 1.4559 0.1643 0.9375 2.0147 0.3044

9.9669 0.9467 1.2574 1.4559 8.7353 0.4923 3.1875 3.1507 0.9577

1.0404 0.1309 0.1882 0.1643 0.4923 0.1174 0.3250 0.2401 0.1151

7.0625 0.7063 0.9375 0.9375 3.1875 0.3250 2.2500 1.7500 0.6125

10.6360 0.5824 1.3934 2.0147 3.1507 0.2401 1.7500 3.7206 0.6287

2.2783 0.2103 0.2368 0.3044 0.9577 0.1151 0.6125 0.6287 0.2286

>> S4=cov(Y4)

S4 =

156.4011 4.8467 37.1484 14.6484 11.9560 3.8016 18.9945 30.5440 4.9203

4.8467 0.8049 2.1203 1.1703 0.5703 0.0585 0.4665 0.7874 0.2717

37.1484 2.1203 14.9505 4.6044 2.8352 0.5225 1.8736 4.5879 0.9060

14.6484 1.1703 4.6044 3.6044 1.1429 0.3648 1.3736 2.9341 0.3637

11.9560 0.5703 2.8352 1.1429 1.2967 0.3725 1.7582 2.5495 0.5176

3.8016 0.0585 0.5225 0.3648 0.3725 0.4455 0.7764 1.3005 0.1459

18.9945 0.4665 1.8736 1.3736 1.7582 0.7764 4.1813 4.5110 0.9214

30.5440 0.7874 4.5879 2.9341 2.5495 1.3005 4.5110 9.2582 0.9786

4.9203 0.2717 0.9060 0.3637 0.5176 0.1459 0.9214 0.9786 0.4607

>> S5=cov(Y5)

S5 =

70.8444 3.3311 10.3333 13.8667 4.5111 4.8756 15.8444 12.5333 3.7822

3.3311 0.5938 0.8000 1.2822 0.5533 0.1571 0.9089 0.4044 0.2269

10.3333 0.8000 3.7778 3.7778 0.3333 0.4333 1.8889 0.8889 0.4889

13.8667 1.2822 3.7778 8.1000 1.5889 0.5433 3.2000 2.3222 0.7522

4.5111 0.5533 0.3333 1.5889 0.9000 0.2811 1.5111 1.0333 0.3322

4.8756 0.1571 0.4333 0.5433 0.2811 0.5499 1.2756 0.7211 0.2797

15.8444 0.9089 1.8889 3.2000 1.5111 1.2756 4.4000 2.8667 0.9822

12.5333 0.4044 0.8889 2.3222 1.0333 0.7211 2.8667 3.4333 0.6633

3.7822 0.2269 0.4889 0.7522 0.3322 0.2797 0.9822 0.6633 0.2290

>> X1=mean(Y1)

72

Page 73: Análise Multivariada - trabalho

X1 =

125.9375 9.7250 20.7500 21.1250 19.3750 7.6750 32.0625 36.6250 5.8687

>> X2=mean(Y2)

X2 =

111.0000 8.1800 18.6000 17.0000 18.2000 6.8150 30.3500 33.3500 4.8050

>> X3=mean(Y3)

X3 =

133.2353 10.7235 24.0588 23.6471 20.8824 8.4882 29.0000 37.7059 6.6118

>> X4=mean(Y4)

X4 =

157.3571 11.5786 26.2143 24.7143 24.7143 9.3357 40.2143 44.7857 7.4071

>> X5=mean(Y5)

X5 =

122.8000 10.3400 20.0000 22.9000 19.3000 8.1900 32.8000 35.9000 6.1700

>> n1=16;

>> n2=20;

>> n3=17;

>> n4=14;

>> n5=10;

>> Sp1=(((n1-1)*S1)+(n5-1)*S5)/(n1+n5-2)

Sp1 =

71.7724 3.9585 11.9479 11.3302 3.2073 3.1690 9.2359 17.1427 2.3545

3.9585 0.6714 1.2667 1.1329 0.5054 0.2398 0.8398 0.7329 0.1994

11.9479 1.2667 9.7917 3.2708 0.5208 0.5583 1.3438 2.0208 0.3698

11.3302 1.1329 3.2708 4.6938 0.9396 0.4933 1.7781 1.9021 0.3514

3.2073 0.5054 0.5208 0.9396 0.8271 0.2742 1.2594 0.9812 0.3074

3.1690 0.2398 0.5583 0.4933 0.2742 0.3508 0.7669 0.5308 0.1914

9.2359 0.8398 1.3438 1.7781 1.2594 0.7669 2.9391 2.2990 0.6738

17.1427 0.7329 2.0208 1.9021 0.9812 0.5308 2.2990 5.9438 0.6076

2.3545 0.1994 0.3698 0.3514 0.3074 0.1914 0.6738 0.6076 0.1981

>> Sp2=(((n2-1)*S2)+(n5-1)*S5)/(n2+n5-2)

Sp2 =

32.9857 1.6136 4.3571 5.2071 1.9143 2.3243 6.6286 5.4929 1.6550

1.6136 0.3627 0.3907 0.5729 0.2843 0.1568 0.3936 0.1493 0.1198

4.3571 0.3907 2.1000 1.5714 0.0571 0.2221 0.7786 0.2071 0.1907

5.2071 0.5729 1.5714 3.2464 0.7607 0.3211 1.3500 0.7821 0.2775

1.9143 0.2843 0.0571 0.7607 0.7607 0.2704 0.9000 0.4250 0.1989

2.3243 0.1568 0.2221 0.3211 0.2704 0.3334 0.6562 0.3137 0.1573

6.6286 0.3936 0.7786 1.3500 0.9000 0.6562 2.2911 1.0125 0.4323

5.4929 0.1493 0.2071 0.7821 0.4250 0.3137 1.0125 2.0518 0.3620

1.6550 0.1198 0.1907 0.2775 0.1989 0.1573 0.4323 0.3620 0.1397

>> Sp3=(((n3-1)*S3)+(n5-1)*S5)/(n3+n5-2)

Sp3 =

51.9464 2.8754 8.3906 9.7285 8.0028 2.4211 10.2240 11.3191 2.8197

2.8754 0.4510 0.6471 0.6992 0.8051 0.1403 0.7792 0.5183 0.2163

8.3906 0.6471 3.1576 2.2941 0.9247 0.2765 1.2800 1.2118 0.3275

9.7285 0.6992 2.2941 4.5113 1.5038 0.3008 1.7520 2.1254 0.4656

8.0028 0.8051 0.9247 1.5038 5.9146 0.4163 2.5840 2.3885 0.7325

73

Page 74: Análise Multivariada - trabalho

2.4211 0.1403 0.2765 0.3008 0.4163 0.2731 0.6672 0.4132 0.1744

10.2240 0.7792 1.2800 1.7520 2.5840 0.6672 3.0240 2.1520 0.7456

11.3191 0.5183 1.2118 2.1254 2.3885 0.4132 2.1520 3.6172 0.6412

2.8197 0.2163 0.3275 0.4656 0.7325 0.1744 0.7456 0.6412 0.2287

>> Sp4=(((n4-1)*S4)+(n5-1)*S5)/(n4+n5-2)

Sp4 =

121.4006 4.2267 26.1786 14.3286 8.9104 4.2410 17.7058 23.1760 4.4547

4.2267 0.7185 1.5802 1.2161 0.5634 0.0989 0.6475 0.6307 0.2534

26.1786 1.5802 10.3799 4.2662 1.8117 0.4860 1.8799 3.0747 0.7354

14.3286 1.2161 4.2662 5.4435 1.3253 0.4379 2.1208 2.6838 0.5227

8.9104 0.5634 1.8117 1.3253 1.1344 0.3351 1.6571 1.9292 0.4418

4.2410 0.0989 0.4860 0.4379 0.3351 0.4882 0.9806 1.0635 0.2006

17.7058 0.6475 1.8799 2.1208 1.6571 0.9806 4.2708 3.8383 0.9463

23.1760 0.6307 3.0747 2.6838 1.9292 1.0635 3.8383 6.8753 0.8496

4.4547 0.2534 0.7354 0.5227 0.4418 0.2006 0.9463 0.8496 0.3659

>> T1=(X1-X5)*inv(((1/n1)+(1/n5))*Sp1)*(X1-X5)’

T1 =

110.8603

>> T2=(X2-X5)*inv(((1/n2)+(1/n5))*Sp2)*(X2-X5)’

T2 =

296.4411

>> T3=(X3-X5)*inv(((1/n3)+(1/n5))*Sp3)*(X3-X5)’

T3 =

474.5587

>> T4=(X4-X5)*inv(((1/n4)+(1/n5))*Sp4)*(X4-X5)’

T4 =

243.2363

>> Fteste1=T1*((n1+n5-9-1)/(n1+n5-2))

Fteste1 =

73.9068

>> Fteste2=T2*((n2+n5-9-1)/(n2+n5-2))

Fteste2 =

211.7437

>> Fteste3=T3*((n3+n5-9-1)/(n3+n5-2))

Fteste3 =

322.6999

>> Fteste4=T4*((n4+n5-9-1)/(n4+n5-2))

Fteste4 =

154.7867

>> F1=finv(0.95,9,(n1+n5-9-1))

F1 =

2.5377

>> F2=finv(0.95,9,(n2+n5-9-1))

F2 =

2.3928

>> F3=finv(0.95,9,(n3+n5-9-1))

F3 =

2.4943

74

Page 75: Análise Multivariada - trabalho

>> F4=finv(0.95,9,(n4+n5-9-1))

F4 =

2.6458

Comparando as médias dos cães Pré-históricos tailandeses primeiramente com os cães

modernos da Tailândia, depois com os Chacais Dourados, em seguida com os Cuons

e depois com os lobos indianos, pode-se dizer que rejeita-se a hipótese de que: H0 :

a média ¹5 é igual a média ¹1, H0 : ¹5 = ¹2, H0 : ¹5 = ¹3, H0 : ¹5 = ¹4. Ou seja,

rejeita-se as 4 hipóteses em que compara-se a média dos cães pré-históricos tailandeses

com as demais médias, uma a uma.

4 Lista 4: Análise de Componentes Principais

1. A tabela seguinte mostra as estimativas de consumo médio de proteínas de diferentes fontes

de alimentos para os habitantes de 25 países europeus como publicados por Weber (1973).

Use a análise de componentes principais para investigar o relacionamento entre os países

com base nestas variáveis.

Países X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

Albânia 10 1 1 9 0 42 1 6 2 72

Austria 9 14 4 20 2 28 4 1 4 86

Bélgica 14 9 4 18 5 27 6 2 4 89

Bulgária 8 6 2 8 1 57 1 4 4 91

Tchecoslováquia 10 11 3 13 2 34 5 1 4 83

Dinamarca 11 11 4 25 10 22 5 1 2 91

Alemanha Ocidental 8 12 4 11 5 25 7 1 4 77

Finlândia 10 5 3 34 6 26 5 1 1 91

França 18 10 3 20 6 28 5 2 7 99

Grécia 10 3 3 18 6 42 2 8 7 99

Hungria 5 12 3 10 0 40 4 5 4 83

Irlanda 14 10 5 26 2 24 6 2 3 92

Itália 9 5 3 14 3 37 2 4 7 84

Países Baixos 10 14 4 23 3 22 4 2 4 86

Noruega 9 5 3 23 10 23 5 2 3 83

Polônia 7 10 3 19 3 36 6 2 7 93

Portugal 6 4 1 5 14 27 6 5 8 76

75

Page 76: Análise Multivariada - trabalho

Romênia 6 6 2 11 1 50 3 5 3 87

Espanha 7 3 3 9 7 29 6 6 7 77

Suécia 10 8 4 25 8 20 4 1 2 82

Suíça 13 10 3 24 2 26 3 2 5 88

Reino Unido 17 6 5 21 4 24 5 3 3 88

URSS 9 5 2 17 3 44 6 3 3 92

Alemanha Oriental 11 13 4 19 3 19 5 2 4 80

Iugoslávia 4 5 1 10 1 59 3 6 3 89

Tabela 5: Consumo de proteínas (g por pessoa por dia) em 25 países europeus

>> X

X =

10 1 1 9 0 42 1 6 2 72

9 14 4 20 2 28 4 1 4 86

14 9 4 18 5 27 6 2 4 89

8 6 2 8 1 57 1 4 4 91

10 11 3 13 2 34 5 1 4 83

11 11 4 25 10 22 5 1 2 91

8 12 4 11 5 25 7 1 4 77

10 5 3 34 6 26 5 1 1 91

18 10 3 20 6 28 5 2 7 99

10 3 3 18 6 42 2 8 7 99

5 12 3 10 0 40 4 5 4 83

14 10 5 26 2 24 6 2 3 92

9 5 3 14 3 37 2 4 7 84

10 14 4 23 3 22 4 2 4 86

9 5 3 23 10 23 5 2 3 83

7 10 3 19 3 36 6 2 7 93

6 4 1 5 14 27 6 5 8 76

6 6 2 11 1 50 3 5 3 87

7 3 3 9 7 29 6 6 7 77

10 8 4 25 8 20 4 1 2 82

13 10 3 24 2 26 3 2 5 88

17 6 5 21 4 24 5 3 3 88

9 5 2 17 3 44 6 3 3 92

11 13 4 19 3 19 5 2 4 80

4 5 1 10 1 59 3 6 3 89

>> comp2(X)

***********************

* VETOR DE MÉDIAS *

***********************

9.8000 7.9200 3.0800 17.2800 4.2800 32.4400 4.3600 3.0800 4.2000 86.3200

**************************

76

Page 77: Análise Multivariada - trabalho

* MATRIZ COVARIÂNCIA *

**************************

11.5833 2.4000 2.1833 13.1417 0.7667 -19.8250 0.8667 -2.8167 -0.4167 8.6083

2.4000 13.9933 2.5067 7.8983 -2.5600 -18.4633 2.0717 -5.0767 -0.5250 2.6100

2.1833 2.5067 1.2433 4.8517 0.1850 -8.8700 0.7617 -1.3400 -0.3500 1.4317

13.1417 7.8983 4.8517 50.3767 4.0017 -47.2117 2.5200 -8.9400 -5.4333 22.1150

0.7667 -2.5600 0.1850 4.0017 12.0433 -20.1700 2.5200 -0.8567 1.5250 -2.1350

-19.8250 -18.4633 -8.8700 -47.2117 -20.1700 127.5067 -10.7067 14.5050 0.7417 14.1867

0.8667 2.0717 0.7617 2.5200 2.5200 -10.7067 2.7400 -1.6550 0.2167 -0.4950

-2.8167 -5.0767 -1.3400 -8.9400 -0.8567 14.5050 -1.6550 4.0767 1.3583 -1.1100

-0.4167 -0.5250 -0.3500 -5.4333 1.5250 0.7417 0.2167 1.3583 3.6667 0.9333

8.6083 2.6100 1.4317 22.1150 -2.1350 14.1867 -0.4950 -1.1100 0.9333 45.8100

*************************

* MATRIZ CORRELAÇÃO *

*************************

1.0000 0.1885 0.5753 0.5440 0.0649 -0.5159 0.1538 -0.4099 -0.0639 0.3737

0.1885 1.0000 0.6010 0.2975 -0.1972 -0.4371 0.3346 -0.6721 -0.0733 0.1031

0.5753 0.6010 1.0000 0.6130 0.0478 -0.7045 0.4127 -0.5952 -0.1639 0.1897

0.5440 0.2975 0.6130 1.0000 0.1625 -0.5891 0.2145 -0.6238 -0.3998 0.4604

0.0649 -0.1972 0.0478 0.1625 1.0000 -0.5147 0.4387 -0.1223 0.2295 -0.0909

-0.5159 -0.4371 -0.7045 -0.5891 -0.5147 1.0000 -0.5728 0.6362 0.0343 0.1856

0.1538 0.3346 0.4127 0.2145 0.4387 -0.5728 1.0000 -0.4952 0.0684 -0.0442

-0.4099 -0.6721 -0.5952 -0.6238 -0.1223 0.6362 -0.4952 1.0000 0.3513 -0.0812

-0.0639 -0.0733 -0.1639 -0.3998 0.2295 0.0343 0.0684 0.3513 1.0000 0.0720

0.3737 0.1031 0.1897 0.4604 -0.0909 0.1856 -0.0442 -0.0812 0.0720 1.0000

************************************

* AUTOVALORES DA MATRIZ CORRELAÇÃO *

************************************

4.1288 1.7392 1.3090 1.0425 0.7043 0.4268 0.3409 0.1907 0.1169 0.0009

************************************

* AUTOVETORES DA MATRIZ CORRELAÇÃO *

************************************

-0.3190 -0.1751 0.3820 0.0391 -0.5262 -0.3962 0.4308 0.1648 -0.1702 0.2112

-0.3139 -0.1184 -0.3655 -0.5378 0.0977 0.3086 0.0915 0.2980 -0.4639 0.2179

-0.4207 -0.0810 -0.0212 -0.1548 -0.2657 -0.0634 -0.6428 0.2590 0.4803 0.0796

-0.3868 -0.2340 0.2010 0.3197 0.1577 0.3080 -0.1754 -0.5434 -0.1513 0.4294

-0.1268 0.5741 0.3272 0.3062 0.2066 0.3046 0.0588 0.5195 0.0169 0.2106

0.4175 -0.3131 0.0214 -0.1019 0.2997 -0.1942 0.0663 0.1969 0.2912 0.6792

-0.2875 0.4095 -0.0615 -0.1477 0.4277 -0.6787 -0.1137 -0.1891 -0.1517 0.0934

0.4178 0.0419 0.2492 -0.0104 -0.2241 -0.0942 -0.5757 0.0893 -0.5924 0.1093

0.1188 0.3524 0.4095 -0.6439 -0.1667 0.2210 0.0859 -0.3704 0.2045 0.1280

-0.1065 -0.4155 0.5818 -0.2060 0.4740 -0.0058 -0.0496 0.1791 -0.0364 -0.4177

******************************************

* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *

* AUTOVALORES DA MATRIZ CORRELAÇÃO *

******************************************

-----------------------------------------

ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.

77

Page 78: Análise Multivariada - trabalho

LORES (EM %) ACUM. (%)

-----------------------------------------

1 4.1288 41.29 41.29

2 1.7392 17.39 58.68

3 1.3090 13.09 71.77

4 1.0425 10.42 82.20

5 0.7043 7.04 89.24

6 0.4268 4.27 93.51

7 0.3409 3.41 96.92

8 0.1907 1.91 98.82

9 0.1169 1.17 99.99

10 0.0009 0.01 100.00

-----------------------------------------

***************************************************

* COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) *

***************************************************

-----------------------------------------------------------------------------------------------------

CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 CP10

-----------------------------------------------------------------------------------------------------

-0.3190 -0.1751 0.3820 0.0391 -0.5262 -0.3962 0.4308 0.1648 -0.1702 0.2112

-0.3139 -0.1184 -0.3655 -0.5378 0.0977 0.3086 0.0915 0.2980 -0.4639 0.2179

-0.4207 -0.0810 -0.0212 -0.1548 -0.2657 -0.0634 -0.6428 0.2590 0.4803 0.0796

-0.3868 -0.2340 0.2010 0.3197 0.1577 0.3080 -0.1754 -0.5434 -0.1513 0.4294

-0.1268 0.5741 0.3272 0.3062 0.2066 0.3046 0.0588 0.5195 0.0169 0.2106

0.4175 -0.3131 0.0214 -0.1019 0.2997 -0.1942 0.0663 0.1969 0.2912 0.6792

-0.2875 0.4095 -0.0615 -0.1477 0.4277 -0.6787 -0.1137 -0.1891 -0.1517 0.0934

0.4178 0.0419 0.2492 -0.0104 -0.2241 -0.0942 -0.5757 0.0893 -0.5924 0.1093

0.1188 0.3524 0.4095 -0.6439 -0.1667 0.2210 0.0859 -0.3704 0.2045 0.1280

-0.1065 -0.4155 0.5818 -0.2060 0.4740 -0.0058 -0.0496 0.1791 -0.0364 -0.4177

------------------------------------------------------------------------------------------------------

************************************

* ESCORES (VARIÁVEIS PADRONIZADAS) *

************************************

3.5846 -0.6366 -1.0980 1.9094 -1.9046 -0.3755 0.6478 -0.3053 -0.3526 -0.0195

-1.3867 -0.7113 -1.1613 -0.9297 0.0030 0.7585 -0.0035 0.0116 0.1224 0.0028

-1.6610 0.1110 0.4197 -0.2448 -0.1771 -0.9116 0.1568 0.3353 0.0311 0.0045

2.9589 -1.8221 0.0786 -0.3038 0.1108 0.3073 0.5911 0.7438 0.6695 -0.0256

-0.3746 -0.0991 -1.2188 -0.7155 0.0603 -0.3630 0.7876 0.0356 0.2421 -0.0023

-2.4856 0.1781 0.2057 0.9408 0.8262 0.6554 -0.0422 0.9847 -0.1600 -0.0067

-1.2347 1.5744 -1.9410 -0.7611 0.1491 -0.5881 -0.0637 0.3088 0.3230 0.0059

-1.7694 -0.7613 0.3701 2.2834 1.2175 0.1889 -0.0506 -0.7986 -0.0118 -0.0140

-1.6486 -0.2912 2.4813 -1.2583 -0.2198 -0.3329 1.3674 0.1890 -0.3773 0.0083

2.0780 -0.5979 3.0891 -0.3236 -0.2798 0.6437 -1.1895 0.2496 -0.1912 -0.0190

1.4700 -0.4362 -1.6091 -1.2139 0.1306 0.1162 -0.8172 0.1993 -0.5050 -0.0360

-2.6687 -1.0385 0.2851 -0.1597 -0.1726 -0.8685 -0.7282 -0.1938 -0.0476 0.0036

1.5548 0.0024 0.5927 -0.5451 -1.0798 0.7736 0.0020 -0.4436 0.8068 0.0196

-1.6954 -0.5091 -0.7578 -0.6459 -0.2956 0.9166 -0.2545 -0.0803 -0.4348 0.0003

-0.8764 1.2778 0.1813 1.7222 0.4407 0.4217 0.0080 -0.0127 0.1780 0.0021

78

Page 79: Análise Multivariada - trabalho

-0.2370 0.2054 0.3976 -1.6733 1.3304 0.0985 -0.0287 -0.8496 0.3263 -0.0088

2.0934 4.4131 0.6559 0.0422 0.2991 0.3364 0.6442 0.2105 -0.3033 -0.0057

2.5845 -1.0469 -0.5828 0.1458 0.5135 -0.1880 -0.2154 0.1985 -0.0370 -0.0423

1.5699 2.6779 0.2804 -0.2350 -0.5869 -0.6143 -0.9496 -0.4113 0.1588 0.0040

-1.8256 0.3542 -0.5423 1.5654 -0.1584 0.8009 -0.1532 0.2391 0.3407 0.0138

-0.9293 -0.9597 0.3534 -0.2847 -0.7621 0.7048 0.6845 -0.6688 -0.2549 0.0094

-1.9713 -0.5516 0.8763 0.6070 -1.3824 -1.2223 -0.4761 0.3677 0.2345 0.0201

0.7518 -0.4765 0.2702 0.4153 1.4640 -1.2218 0.3177 -0.2993 -0.0508 -0.0385

-1.6774 0.3019 -1.2198 -0.5504 -0.8067 0.1908 -0.0960 -0.1307 -0.4123 0.0083

3.7960 -1.1582 -0.4065 0.2131 1.2807 -0.2274 -0.1388 0.1204 -0.2945 0.1157

***********************************************

* CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS *

* E AS COMPONENTES PRINCIPAIS *

***********************************************

-----------------------------------------------------------------------------------

| COMPONENTES PRINCIPAIS

-------------------------------------------------------------------------------------------------

|VAR.| CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 CP10 |

-------------------------------------------------------------------------------------------------

1 -0.6482 -0.2310 0.4371 0.0399 -0.4415 -0.2588 0.2515 0.0720 -0.0582 0.0062

2 -0.6379 -0.1561 -0.4182 -0.5491 0.0820 0.2016 0.0534 0.1301 -0.1586 0.0064

3 -0.8549 -0.1069 -0.0243 -0.1580 -0.2230 -0.0414 -0.3753 0.1131 0.1642 0.0024

4 -0.7859 -0.3086 0.2300 0.3264 0.1324 0.2012 -0.1024 -0.2373 -0.0517 0.0127

5 -0.2578 0.7572 0.3744 0.3126 0.1734 0.1990 0.0343 0.2269 0.0058 0.0062

6 0.8482 -0.4129 0.0245 -0.1040 0.2515 -0.1269 0.0387 0.0860 0.0996 0.0201

7 -0.5842 0.5401 -0.0704 -0.1508 0.3589 -0.4434 -0.0664 -0.0826 -0.0519 0.0028

8 0.8490 0.0553 0.2851 -0.0107 -0.1880 -0.0615 -0.3362 0.0390 -0.2026 0.0032

9 0.2414 0.4648 0.4685 -0.6574 -0.1399 0.1444 0.0502 -0.1618 0.0699 0.0038

10 -0.2163 -0.5480 0.6657 -0.2103 0.3978 -0.0038 -0.0290 0.0782 -0.0124 -0.0124

----------------------------------------------------------------------------------------------------

ans =

FUNÇÃO COMP/UFPR/DEPTO. DE ESTATÍSTICA/JMM

As 4 primeiras componentes principais explicam quase 82.2% das variáveis originais, sendo

que as variáveis X1, X2, X3, X4, X6, X7 e X8 são melhores explicadas pela primeira com-

ponente Y 1 nos países: Albânia e Iugoslávia e pior explicadas para Dinamarca e Irlanda;

X5 é melhor explicada pela componente Y 2 nos países Espanha e Suíça e pior explicada

para Iugoslávia e Bulgária; X10 é melhor explicada pela componente Y 3 nos países França

e Grécia e pior explicada para Alemanha Oriental e Alemanha Ocidental; X9 é melhor

explicada pela componente Y 4 nos países Albânia e Finlândia e pior explicada por França

e Polônia.

79

Page 80: Análise Multivariada - trabalho

1 2 3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

3

3.5

4

4.5AUTOVALORES DA MATRIZ CORRELAÇÃO

NÚMERO DO AUTOVALOR

AU

TO

VA

LOR

−0.5 0 0.5−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

12

3

4

5

6

7

8

9

10

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2

COMPONENTE 1

CO

MP

ON

EN

TE

2

80

Page 81: Análise Multivariada - trabalho

−3 −2 −1 0 1 2 3 4−2

−1

0

1

2

3

4

5

12

3

4

56

7

8

910

11

12

13

14

15

16

17

18

19

20

21

22 23

24

25

DISPERSÃO DOS ESCORES: COMP1 versus COMP2

ESCORE − COMP1

ES

CO

RE

− C

OM

P2

2. Com o título: “Brasil fica mais vulnerável no governo FH” , o jornal “A folha de São Paulo”

publicou um artigo mostrando os seguintes indicadores usados pelo Banco Central (vamos

reproduzir 5 desses indicadores):

Ano X1 X2 X3 X4 X5

1995 46.1 3 31.7 3.4 64.5

1996 56.9 3.5 32.8 3.8 56.8

1997 76.3 5 25.7 3.8 47.4

1998 92.3 6 18.1 3.8 46.2

1999 146.6 13.3 14.7 4.7 46.5

2000 101.7 9.4 14 5 44.6

X1 = parcela das exportações que é comprometida pelos gastos com a dívida externa (em

%), X2 = quanto os gastos da dívida externa representam do PIB (em %), X3 = parcela

da dívida externa bruta que poderia ser paga com as reservas internacionais (em %), X4

= quantos anos de exportação são necessários para pagar a dívida externa bruta (divisão

do saldo da dívida externa bruta pelo saldo das exportações no ano) e X5 = parcela do

governo na dívida externa bruta (em %).

(a) Calcular o vetor de médias amostrais.

>> Mi=mean(X)

Mi =

86.6500 6.7000 22.8333 4.0833 51.0000

(b) Calcular a matriz de covariância amostral.

81

Page 82: Análise Multivariada - trabalho

>> S=cov(X)

S =

1.0e+003 *

1.2978 0.1390 -0.2666 0.0176 -0.2152

0.1390 0.0156 -0.0288 0.0021 -0.0212

-0.2666 -0.0288 0.0706 -0.0043 0.0566

0.0176 0.0021 -0.0043 0.0004 -0.0034

-0.2152 -0.0212 0.0566 -0.0034 0.0626

(c) Calcular a matriz de correlação amostral.

>> comp2(X)

* MATRIZ CORRELAÇÃO *

*************************

1.0000 0.9762 -0.8811 0.7888 -0.7548

0.9762 1.0000 -0.8660 0.8683 -0.6777

-0.8811 -0.8660 1.0000 -0.8231 0.8517

0.7888 0.8683 -0.8231 1.0000 -0.6971

-0.7548 -0.6777 0.8517 -0.6971 1.0000

(d) Calcular os autovalores da matriz de correlação R.

************************************

* AUTOVALORES DA MATRIZ CORRELAÇÃO *

************************************

4.2812 0.3957 0.2297 0.0918 0.0016

(e) Calcular o % de explicação de cada autovalor de R.

******************************************

* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *

* AUTOVALORES DA MATRIZ CORRELAÇÃO *

******************************************

-----------------------------------------

ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.

LORES (EM %) ACUM. (%)

-----------------------------------------

1 4.2812 85.62 85.62

2 0.3957 7.91 93.54

3 0.2297 4.59 98.13

4 0.0918 1.84 99.97

5 0.0016 0.03 100.00

-----------------------------------------

(f) Determinar as componentes principais de R.

***************************************************

* COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) *

***************************************************

------------------------------------------------

CP1 CP2 CP3 CP4 CP5

------------------------------------------------

82

Page 83: Análise Multivariada - trabalho

-0.4612 -0.2182 0.5303 -0.2410 -0.6328

-0.4602 -0.4496 0.2184 -0.1285 0.7224

0.4622 -0.2062 -0.0431 -0.8610 0.0260

-0.4365 -0.2694 -0.8179 -0.1356 -0.2226

0.4139 -0.7969 0.0192 0.4071 -0.1657

------------------------------------------------

(g) Determinar as correlações entre as variáveis (indicadores) e as componentes principais.Discutir os resultados.

* CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS *

* E AS COMPONENTES PRINCIPAIS *

***********************************************

-----------------------------------------------

| COMPONENTES PRINCIPAIS |

----------------------------------------------------

|VAR.| CP1 CP2 CP3 CP4 CP5 |

----------------------------------------------------

1 -0.9542 -0.1373 0.2541 -0.0730 -0.0256

2 -0.9522 -0.2828 0.1047 -0.0389 0.0292

3 0.9564 -0.1297 -0.0207 -0.2609 0.0010

4 -0.9032 -0.1695 -0.3920 -0.0411 -0.0090

5 0.8563 -0.5013 0.0092 0.1233 -0.0067

----------------------------------------------------

(h) Calcular os escores correspondentes.

************************************

* ESCORES (VARIÁVEIS PADRONIZADAS) *

************************************

2.6241 -0.6145 0.0860 0.3264 0.0259

1.8043 -0.1618 -0.2786 -0.3583 -0.0512

0.4990 0.6711 0.1034 -0.2927 0.0570

-0.3032 0.7679 0.4302 0.2851 -0.0397

-2.6521 -0.7283 0.4657 -0.1480 0.0008

-1.9721 0.0655 -0.8068 0.1876 0.0071

Observando o "Acumulado", é possível admitir um ou 2 fatores para explicar a variân-

cia do modelo. Com relação aos coeficientes de correlação e seus pesos na componente,

pode-se admitir que todas as variáveis são importantes e a componente 1 é de certa

forma uma medida entre valores governamentais (reservas e parcela do governo) ver-

sus gastos com a dívida, anos para pagar e "exportações". Isto sugere um coeficiente

que mensura ações responsáveis pelo governo, contra aspectos econômicos.

Se observarmos a tendência que se observa através do score 1, percebe-se que o cenário

de comprometimento dos fatores externos foram aumentando, implicando em pouca

ação do governo ou influência das reservas. O que permite dar suporte ao título.

83

Page 84: Análise Multivariada - trabalho

−0.5 0 0.5−0.8

−0.7

−0.6

−0.5

−0.4

−0.3

−0.2

−0.1

1

2

3

4

5

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2

COMPONENTE 1

CO

MP

ON

EN

TE

2

−3 −2 −1 0 1 2 3−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

2

3

4

5

6

DISPERSÃO DOS ESCORES: COMP1 versus COMP2

ESCORE − COMP1

ES

CO

RE

− C

OM

P2

84

Page 85: Análise Multivariada - trabalho

1 1.5 2 2.5 3 3.5 4 4.5 50

0.5

1

1.5

2

2.5

3

3.5

4

4.5AUTOVALORES DA MATRIZ CORRELAÇÃO

NÚMERO DO AUTOVALOR

AU

TO

VA

LOR

3. Jolicoer e Mosiman (1960) investigaram as componentes principais do comprimento (X1),

largura (X2) e altura (X3) da carapaça de tartarugas pintadas, com o objetivo de dar

um significado para o conceito de “tamanho” e “forma”. Foram feitas as medidas (em

milímetros) de 24 tartarugas fêmeas e a matriz de covariância é dada por:

S =

⎡⎢⎢⎢⎣

451, 39 271, 17 168, 70

171, 73 103, 29

66, 65

⎤⎥⎥⎥⎦

(a) Encontre os autovalores e autovetores de S.

>> S=[451.39 271.17 168.7; 271.17 171.73 103.29;168.7 103.29 66.65]

S =

451.3900 271.1700 168.7000

271.1700 171.7300 103.2900

168.7000 103.2900 66.6500

>> [e,l]=eig(S)

e =

0.2053 0.5454 0.8126

0.2493 -0.8321 0.4955

-0.9464 -0.1009 0.3068

l =

2.8573 0 0

85

Page 86: Análise Multivariada - trabalho

0 6.5016 0

0 0 680.4111

(b) Encontre as componentes principais: Y1, Y2 e Y3.

- Y1 = 0.8126X1 + 0.4955X2 + 0.3068X3

- Y2 = 0.5454X1 − 0.8321X2 − 0.1009X3

- Y3 = 0.2053X1 + 0.2493X2 − 0.9464X3

(c) Qual a % da variância total que é explicada pelas componentes principais?

Variável Nome e1 e2 e3 Total

comprimento X1 0.8126 0.5454 0.2053

largura X2 0.4955 -0.8321 0.2493

altura X3 0.3068 -0.1009 -0.9464

autovalores 680.41 6.50 2.86 689.77

%Explicada 98.64% 0.94% 0.41%

%Acumulado Explicado 98.64% 99, 59% 100%

(d) Encontre os coeficientes de correlação entre as componentes principais e as variáveis

originais.

Y1 Y2 Y3

X1 0.998 0.065 0.016

X2 0.986 −0.162 0.032

X3 0.98 −0.032 −0.196

(e) Interprete os resultados encontrados. O percentual explicado pela 1o componente

principal, domina o modelo, sendo responsável por mais que 98% da explicação da

variância. Portanto, a análise conduz a apenas um componente principal Y1. Na

primeira componente, observa-se que a variável comprimento tem um peso maior

sobre esta componente, sendo as demais variáveis de menor relevância. Porém ao se

observar a correlação das variáveis com a primeira componente, infere-se que todos

são significativos. Em Johnson há uma análise que sugere que estes valores são os

expoentes das variáveis, de forma que este componente dá uma espécie de volume da

pinta. Pois, apesar de não ser comentado no enunciado, se estas variáveis estiverem

logaritmadas, vem que y1 = e1 lnx1+e2 lnx2+e3 lnx3, o que implica em lnxe11 .xe22 .xe33 ,

onde o valor e3 é uma espécie de correlação devido a ovacidade provável da pinta.

(f) Verifique que S = CD¸C′ onde C é a matriz cujas colunas são os autovetores de S e

D¸ é a matriz diagonal dos autovalores.

86

Page 87: Análise Multivariada - trabalho

C D C S

0.2053 0.5454 0.8126 2.8573 0 0 0.2053 0.2493 -0.9464 451.39 271.17 168.7

0.2493 -0.8321 0.4955 0 6.5016 0 0.5454 -0.8321 -0.1009 271.17 171.73 103.29

-0.9464 -0.1009 0.3068 0 0 680.4111 0.8126 0.4955 0.3068 168.7 103.29 66.65

>> e*l*e’;

4. Num estudo da influência do adubo N-P-K em doses crescentes na produção de forragem,

a tabela abaixo mostra as produções de forragem (em kg/ha de matéria seca) nos meses

de 6/78, 9/78 e 6/79, 9/79, 6/80 e 9/80 (são as nossas variáveis). Determine:

Adubo 1978 1979 1980

X1 X2 X3 X4 X5 X6

N P K Jun Set Jun Set Jun Set

0 0 0 3994 2282 3068 1694 4320 1382

0 0 1 5316 1981 4168 3470 5900 2214

0 0 2 5050 1883 4408 3373 6476 1761

0 0 3 5996 2162 3614 3003 5021 1411

1 0 0 6086 5601 4599 3091 6145 2014

1 0 1 5180 2506 5022 2506 8299 2478

1 0 2 5291 1998 5241 2614 7768 2247

1 0 3 6148 2444 6147 2278 7440 2026

2 0 0 7292 2784 5692 2592 7978 2586

2 0 1 6615 3204 7655 3331 9225 3336

(a) o vetor médio amostral;

>> comp2(X)

***********************

* VETOR DE MÉDIAS *

***********************

1.0e+003 *

5.6968 2.6845 4.9614 2.7952 6.8572 2.1455

(b) a matriz de covariâncias S que estima Σ (covariância populacional);

**************************

* MATRIZ COVARIÂNCIA *

**************************

87

Page 88: Análise Multivariada - trabalho

1.0e+006 *

0.8586 0.3721 0.8188 0.1755 0.8017 0.3090

0.3721 1.2132 0.2661 0.0909 0.1335 0.1255

0.8188 0.2661 1.7494 0.1618 1.8596 0.6752

0.1755 0.0909 0.1618 0.3161 0.1659 0.1077

0.8017 0.1335 1.8596 0.1659 2.3876 0.8084

0.3090 0.1255 0.6752 0.1077 0.8084 0.3376

(c) os autovalores e autovetores de S;

>> S=(1.0e+006)*T

S =

858600 372100 818800 175500 801700 309000

372100 1213200 266100 90900 133500 125500

818800 266100 1749400 161800 1859600 675200

175500 90900 161800 316100 165900 107700

801700 133500 1859600 165900 2387600 808400

309000 125500 675200 107700 808400 337600

>> [e,l]=eig(S)

e =

-0.0540 0.2829 -0.3509 0.7876 -0.2823 0.3063

0.0503 0.0357 0.0538 -0.3609 -0.9218 0.1158

0.1239 -0.7773 -0.1606 0.0002 0.0418 0.5940

0.1771 -0.1075 0.8905 0.3897 -0.0864 0.0691

0.2309 0.5503 0.1248 -0.3053 0.2472 0.6884

-0.9458 -0.0018 0.1990 -0.0658 0.0167 0.2475

l =

1.0e+006 *

0.0426 0 0 0 0 0

0 0.1466 0 0 0 0

0 0 0.2706 0 0 0

0 0 0 0.4386 0 0

0 0 0 0 1.2855 0

0 0 0 0 0 4.6786

(d) Escreva as componentes principais da matriz de dados.

- Y1 = 0.3063X1 + 0.1158X2 + 0.5940X3 + 0.0691X4 + 0.6884X5 + 0.2475X6

- Y2 = −0.2823X1 − 0.9218X2 + 0418X3 − 0.0864X4 + 0.2472X5 + 0.0167X6

- Y3 = 0.7876X1 − 0.3609X2 + 0.0002X3 + 0.3897X4 − 0.3053X5 − 0.0658X6

- Y4 = −0.3509X1 + 0.0538X2 − 0.1606X3 + 0.8905X4 + 0.1248X5 + 0.1990X6

88

Page 89: Análise Multivariada - trabalho

- Y5 = 0.2829X1 + 0.0357X2 − 0.7773X3 − 0.1075X4 + 0.5503X5 − 0.0018X6

- Y6 = −0.0540X1 + 0.0503X2 + 0.1239X3 + 0.1771X4 + 0.2309X5 − 0.9458X6

1 2 3 4 5 60

0.5

1

1.5

2

2.5

3

3.5AUTOVALORES DA MATRIZ CORRELAÇÃO

NÚMERO DO AUTOVALOR

AU

TO

VA

LOR

−0.55 −0.5 −0.45 −0.4 −0.35 −0.3 −0.25 −0.2 −0.15−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

1

2

3

4

5

6

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2

COMPONENTE 1

CO

MP

ON

EN

TE

2

89

Page 90: Análise Multivariada - trabalho

−4 −3 −2 −1 0 1 2 3 4−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1

2

3

4

5

6 7

8

910

DISPERSÃO DOS ESCORES: COMP1 versus COMP2

ESCORE − COMP1

ES

CO

RE

− C

OM

P2

5. Os dados da tabela seguinte pertencem ao censo de 1970, de determinado país desenvolvido.

Tabelou-se 5 variáveis sócio-econômicas de 14 comarcas de determinado estado. Considere

as 14 comarcas como uma amostra aleatória dos municípios do estado.

Comarca X1 X2 X3 X4 X5

1 5.935 14.2 2.265 2.27 2.91

2 1.523 13.1 0.597 0.75 2.62

3 2.599 12.7 1.237 1.11 1.72

4 4.009 15.2 1.649 0.81 3.02

5 4.687 14.7 2.312 2.5 2.22

6 8.044 15.6 3.641 4.51 2.36

7 2.766 13.3 1.244 1.03 1.97

8 6.538 17 2.618 2.39 1.85

9 6.451 12.9 3.147 5.52 2.01

10 3.314 12.2 1.606 2.18 1.82

11 3.777 13 2.119 2.83 1.8

12 1.53 13.8 0.798 0.84 4.25

13 2.768 13.6 1.336 1.75 2.64

14 6.585 14.9 2.763 1.91 3.17

X1 = população total em 1000 hab, X2 = mediana dos anos de escolaridade da população,

X3 = total de empregos em milhares, X4 = total de empregos nos serviços de saúde em

90

Page 91: Análise Multivariada - trabalho

centenas e X5 = valor mediano das residências em US$10.000.

(a) Construa a matriz de covariância amostral S.

* MATRIZ COVARIÂNCIA *

**************************

4.3076 1.6837 1.8028 2.1553 -0.2535

1.6837 1.7675 0.5880 0.1780 0.1755

1.8028 0.5880 0.8007 1.0648 -0.1583

2.1553 0.1780 1.0648 1.9695 -0.3568

-0.2535 0.1755 -0.1583 -0.3568 0.5044

(b) Obtenha os pares de autovalores-autovetores e as 2 primeiras componentes principais

amostrais para a matriz de covariância do item (a).

* AUTOVALORES DA MATRIZ COVARIÂNCIA *

*************************************

6.9311 1.7851 0.3896 0.2295 0.0142

*************************************

* AUTOVETORES DA MATRIZ COVARIÂNCIA *

*************************************

-0.7812 0.0709 0.0037 0.5417 -0.3020

-0.3056 0.7639 -0.1618 -0.5448 -0.0093

-0.3344 -0.0829 0.0148 0.0510 0.9373

-0.4260 -0.5795 0.2205 -0.6360 -0.1721

0.0544 0.2624 0.9618 0.0513 0.0246

* COMPONENTES PRINCIPAIS (VARIÁVEIS ORIGINAIS *

***********************************************

CP1 CP2

----------------------

-0.7812 0.0709

-0.3056 0.7639

-0.3344 -0.0829

-0.4260 -0.5795

0.0544 0.2624

91

Page 92: Análise Multivariada - trabalho

1 1.5 2 2.5 3 3.5 4 4.5 50

1

2

3

4

5

6

7AUTOVALORES DA MATRIZ COVARIÂNCIA

NÚMERO DO AUTOVALOR

AU

TO

VA

LOR

−0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 0 0.1−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

2

3

4

5

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2

COMPONENTE 1

CO

MP

ON

EN

TE

2

(c) Calcule a proporção da variação total explicada pelas duas primeiras componentes

principais.

******************************************

* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *

* AUTOVALORES DA MATRIZ COVARIÂNCIA *

******************************************

-----------------------------------------

ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.

LORES (EM %) ACUM. (%)

92

Page 93: Análise Multivariada - trabalho

-----------------------------------------

1 6.9311 74.13 74.13

2 1.7851 19.09 93.23

-----------------------------------------

Ou seja, as 2 primeiras componentes explicam 93, 23% da variância.

(d) Calcule os coeficientes de correlação ½(yi, xj) = ½ij e interprete-os se possível.

CORRELAÇÕES ENTRE AS VARIÁVEIS ORIGINAIS *

E AS COMPONENTES PRINCIPAIS *

*****************************************

---------------------

COMPONENTES PRINCIPAIS

---------------------------

|VAR.| CP1 CP2

-------------------------

1 -0.9909 0.0456

2 -0.6053 0.7677

3 -0.9840 -0.1238

4 -0.7992 -0.5517

5 0.2015 0.4936

-------------------------

Na primeira componente principal as variáveisX1 eX3 estão muito bem representadas,

tendo X4 como uma variável que também pesa sobre esta componente. A variável

X2 tem maior peso na componente 2. Com isso, verificamos que as duas primeiras

componentes fazem uma boa avaliação de todas as variáveis presentes neste problema.

(e) Calcule os escores dados pelas duas primeiras componentes principais ou melhor, cada

comarca terá duas variáveis ao invés de 5 originais, você deverá determinar o valor de

cada componente principal para cada comarca.

*********************************

* ESCORES (VARIÁVEIS ORIGINAIS) *

*********************************

Score(Y1) Score(Y2)

-----------------------

93

Page 94: Análise Multivariada - trabalho

-10.5431 10.5279

-5.5705 10.3180

-6.7052 9.5909

-8.5101 12.0812

-9.8722 10.5032

-14.0629 10.1904

-6.9737 10.1724

-12.0968 12.3326

-12.2773 7.3790

-7.6847 8.6352

-8.7405 8.8547

-5.8069 11.2120

-7.3680 10.1526

-11.2639 11.3442

−5 −4 −3 −2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3ESCORES: COMP.PRINC.1 X COMP.PRINC.2

ESCORE COMP. PRINC.1

ES

CO

RE

CO

MP

. PR

INC

.2

12

3

4

56 7

8

9

1011

12

13

14

6. Suponha que você está com o problema de ajustar o modelo Y = X¯ + " a um conjunto

de dados. Mas, ocorre que as linhas da matriz do modelo X(n×p) são aproximadamente

colineares. Esta colinearidade faz com que algumas variáveis independentes contribuam

pouco para a regressão. Assim, pode-se descartar algumas das variáveis independentes

com o objetivo de: aumentar a precisão das estimativas de regressão com as variáveis

retidas e reduzir o número de medidas necessárias em dados semelhantes no futuro. Uma

maneira de descartar variáveis (variáveis redundantes) usando componentes principais é a

94

Page 95: Análise Multivariada - trabalho

seguinte:

- Determine os autovalores e autovetores da matriz de correlação das variáveis indepen-

dentes;

- Considere o autovetor correspondente ao menor autovalor (valor absoluto), descarte,

aí, a variável cujo coeficiente no autovetor for o maior (valor absoluto). É claro que o

autovetor com menor autovalor é o menos importante no conjunto.

- O número de variáveis descartadas deve ser igual ao número de autovalores menores

ou iguais a 0.70.

Use as informações anteriores para descartar variáveis redundantes no problema seguinte:

um estudo de n = 180 estacas de pinheiro Corsican foi feito com o objetivo de estudar

a dependência da força de compressão máxima (Y ) de 13 outras variáveis independentes

(Xi, i = 1, 2, . . . , 13). Estas estacas são usadas para escorar tetos de minas. Os autovalores

e autovetores da matriz de correlação das 13 variáveis independentes são dados. Responder

quais das 13 variáveis independentes devem ser descartadas.

X1 = diâmetro do topo da estaca, X2 = comprimento da estaca, X3 = unidade da estaca,

X4 = massa específica da madeira, X5 = massa específica da madeira seca, X6 = número

de anéis no topo da estaca, X7 = número de anéis na base, X8 = curvatura máxima, X9 =

distância da curvatura máxima-topo da estaca, X10 = número de nós, X11 = comprimento

da base ao topo, X12 = número médio de nós por estaca e X13 = diâmetro médio dos nós.

Autovalores:

¸1 = 4.22, ¸2 = 2.38, ¸3 = 1.88, ¸4 = 1.11, ¸5 = 0.91, ¸6 = 0.82, ¸7 = 0.58, ¸8 = 0.54,

¸9 = 0.35, ¸10 = 0.19, ¸11 = 0.05, ¸12 = 0.04 e ¸13 = 0.04.

95

Page 96: Análise Multivariada - trabalho

e1 e2 e3 e4 e5 e6 e7 e8 e9 e10 e11 e12 e13

1 -0,4 0,22 -0,21 -0,09 -0,08 0,12 -0,11 0,014 0,33 -0,31 0 0,39 -0,57

2 -0,41 0,19 -0,24 -0,1 -0,11 0,16 -0,08 0,02 0,32 -0,27 -0,05 -0,41 0,58

3 -0,12 0,54 0,14 0,08 0,35 -0,28 -0,02 0 -0,08 0,06 0,12 0,53 0,41

4 -0,17 0,46 0,35 0,05 0,36 -0,05 0,08 -0,02 -0,01 0,1 -0,02 -0,59 -0,38

5 -0,06 -0,17 0,48 0,05 0,18 0,63 0,42 -0,01 0,28 0 0,01 0,2 0,12

6 -0,28 -0,01 0,48 -0,06 -0,32 0,05 -0,3 0,15 -0,41 -0,1 -0,54 0,08 0,06

7 -0,4 -0,19 0,25 -0,07 -0,22 0 -0,23 0,01 -0,13 0,19 0,76 -0,04 0

8 -0,29 -0,19 -0,24 0,29 0,19 -0,06 0,4 0,64 -0,35 -0,08 0,03 -0,05 0,02

9 -0,36 0,02 -0,21 0,1 -0,1 0,03 0,4 -0,7 -0,38 -0,06 -0,05 0,05 -0,06

10 -0,38 -0,25 -0,12 -0,21 0,16 -0,17 0 -0,01 0,27 0,71 -0,32 0,06 0

11 0,01 0,21 -0,07 0,8 -0,34 0,18 -0,14 0,01 0,15 0,34 -0,05 0 -0,01

12 0,12 0,34 0,09 -0,3 -0,6 -0,17 0,54 0,21 0,08 0,19 0,05 0 0

13 0,11 0,31 -0,33 -0,3 0,08 0,63 -0,16 0,11 -0,38 0,33 0,04 0,01 -0,01

¸ 4,22 2,38 1,88 1,11 0,91 0,82 0,58 0,54 0,35 0,19 0,05 0,04 0,04Utilizando a heurística sugerida para eliminação de variáveis e aplicando para a matriz da

tabela acima, obtém-se o conjunto de variáveis conforme destacada na própria tabela. As

variáveis eliminadas são:

- ¸13 = X2 comprimento da estaca

- ¸12 = X4 massa específica da madeira

- ¸11 = X7 número de anéis na base

- ¸10 = X10 número de nós

- ¸9 = X6 número de anéis no topo da estaca

- ¸8 = X9 distância da curvatura máxima-topo da estaca

- ¸7 = X12 número médio de nós por estaca

7. Provar os seguintes resultados: (ver livro: Johnson & Wichern):

Resultado 1: Seja a matriz covariância associada ao vetor aleatórioX ′ = [X1, X2, . . . , Xp].

Seja Σ com os pares de autovalores e autovetores: (¸1, e1), (¸2, e2), . . . , (¸p, ep) onde

¸1 > ¸2 > . . . > ¸p > 0. A j-ésima componente principal é dada por:

Yj = e′jX = e1jX1 + e2jX2 + . . .+ epjXp, i = 1, 2, . . . , p

com essa escolha:

V (Yj) = e′jΣej = ¸j , j = 1, 2, . . . , p.

96

Page 97: Análise Multivariada - trabalho

Cov(Yi, Yj) = e′jX = 0, para todo i ∕= j

Suponha que xi = (xi1, ..., xip)′ sejam n vetores de p variáveis e definida:

- zi = (zi1, ..., zip)′ tal que zij = xij − n−1

∑ni=1 xij . zij é igual a xij centrado na

média

- ℎ = (ℎ1, ..., ℎn)′ tal que:

ℎ1 = ⟨¯, z1⟩ = ¯1z11 + ...+ ¯pz1p

ℎ2 = ⟨¯, z2⟩ = ¯1z21 + ...+ ¯pz2p...

......

......

ℎn = ⟨¯, zn⟩ = ¯1zn1 + ...+ ¯pznp

Para encontrar a primeira componente principal temos que resolver:

»1 = maxV ar(ℎ) = max

{n−1

n∑

i=1

ℎ2i

}(7)

s.a.

p∑

j=1

»2j1 = ∣∣»1∣∣2 = 1

O vetor »1 = (»11, ..., »1p)′ é o primeiro componente principal. Se definirmos uma

matriz Znxp tal que suas linhas são formadas por n ocorrências dos vetores zi, então:

ℎ = ¯′Z ′ ⇒n∑

i=1

ℎ2i = ¯′Z ′Z¯

Substituindo na equação (7) temos

»1 = maxn−1¯′Z ′Z¯

V ar(z) = n−1Z ′Z é o estimador da matriz de covariância de z. Os demais com-

ponentes principais podem ser obtidos repetindo o procedimento de maximização da

equação (7) e acrescentando a restrição de ortogonalidade com as componentes prin-

cipais já obtidas. Logo, se »k = (»k1, ..., »kp)′, então:

»k = maxV ar(ℎ) = max

{n−1

n∑

i=1

ℎ2i

}(8)

97

Page 98: Análise Multivariada - trabalho

s.a.

p∑

j=1

»2jk = ∣∣»k∣∣2 = 1

e⟨¯, »m⟩ = 0 para todo m < k

Chamamos ℎik =∑p

j=1 »jkzik de Escores de Componentes Principais (ECP) do k-

ésimo componente principal.

A restrição de norma unitária para os vetores de componentes principais é necessária

para delimitar o problema não permitindo que »′1V ar(z)»1 possa assumir valores ar-

bitrariamente grandes.

A idéia é encontrar a forma mais forte e, portanto, mais importante das variáveis

observadas.

Na obtenção dos componentes principais subseqüentes acrescentam-se restrições de or-

togonalidade (produto interno igual a zero) com os componentes principais já obtidos

para garantir que as próximas componentes principais representem inovações.

Logicamente, a cada componente principal obtido, o valor maximizado será cada vez

menor permitindo aferir o percentual explicado por cada componente. Observe que

esta definição de componentes principais não possui solução única. Para ver isto,

basta notar que se »k é um componente principal, então −»k também o será.

Sabemos que V ar(z) é uma matriz simétrica e não negativa definida. Logo, se ¸1 ≥... ≥ ¸p são os seus autovalores e e1, ..., ep os respectivos autovetores normalizados,

então »k ≡ ek para todo k.

Além disso, cada autovalor ¸k é um estimador para a variância de xk. Logo

¸k∑pi=1 ¸i

.100

é o percentual da variação explicada pelo componente principal de ordem k.

Prova

Variância é dada por V (Yj) =e′jΣeje′jej

, como e′jej = 1, tem-se V (Yj) = e′jΣej . Ree-

screvendo V (Yj) = e′j(Σej), a parte entre parênteses pode ser substituída por ¸jej ,

pois ej é o autovetor do autovalor ¸j . Obtem-se então V (Yj) = e′j(¸jej). Como ¸j é

um escalar é possível reescrever como V (Yj) = ¸je′jej . Como o vetor ej é normalizado,

o produto e′jej = 1. Com isso V (Yj) = ¸j .

Resultado 2: Seja X ′ = [X1, X2, . . . , Xp] tendo matriz covariância Σ , com pares de

autovalores e autovetores (¸1, e1), (¸2, e2), . . . , (¸p, ep) onde ¸1 > ¸2 > . . . > ¸p > 0.

98

Page 99: Análise Multivariada - trabalho

Sejam Y1 = e1X1, Y2 = e2X2, . . . , Yp = epXp as componentes principais. Então

¾11 + ¾22 + . . .+ ¾pp =

p∑

j=1

V (Xj) = ¸1 + ¸2 + . . .+ ¸p =

p∑

j=1

V (Yj)

Prova

Traço (Σ) =traço(PΛP ′) =traço(ΛPP ′) =traçoΛI =traçoΛ. Donde Λ é a matriz

diagonal dos autovalores e P é a matriz dos autovetores associados aos autovalores.

Assim

Traço(Σ) =traço(Λ) ou seja:

¾11 + ¾22 + ...+ ¾pp =∑p

j=1 V (Xj) = ¸1 + ¸2 + ...+ ¸p =∑p

j=1 V (Yj)

5 Lista 5: Análise Fatorial

1. Uma empresa do ramo de calçados populares gostaria de entender melhor a forma de rela-

cionamento de algumas variáveis e como este relacionamento pode interferir na condução

de seus negócios. Para isso, resolveu encomendar uma pesquisa com outras empresas do

ramo para identificar a importância de algumas variáveis. As variáveis que fizeram parte

da pesquisa foram:

v1 = automação, v2 = crescimento do PIB, v3 = parceria com os fornecedores, v4 = novos

concorrentes v5 = diversidade de produtos, v6 = controle de despesas, v7 = câmbio e v8 =

estabilidade econômica.

A pesquisa era respondida por uma escala de concordância: 1 = não interfere, 2 = interfere

pouco, 3 = interfere, 4 = interfere muito e 5 = fundamental.

Os resultados da pesquisa foram:

Empresas v1 v2 v3 v4 v5 v6 v7 v8

C1 4 1 2 2 2 4 1 3

C2 4 1 2 2 2 4 1 3

C3 2 2 1 3 1 3 2 4

C4 5 4 3 3 3 5 2 4

C5 4 2 3 3 1 3 2 4

C6 4 2 2 3 3 4 2 4

C7 5 3 3 4 5 5 4 5

C8 2 1 1 4 6 3 5 5

99

Page 100: Análise Multivariada - trabalho

C9 3 2 1 3 3 5 2 4

C10 4 2 2 3 1 3 2 4

C11 3 2 1 3 1 3 2 4

C12 3 2 1 3 2 4 6 4

C13 3 3 1 4 2 4 3 5

C14 3 3 1 4 2 4 3 5

C15 5 3 3 4 1 3 3 5

C16 3 1 1 2 2 4 1 3

C17 3 3 1 4 2 4 3 5

C18 5 2 3 3 3 5 2 4

C19 3 3 1 4 1 3 3 5

C20 3 2 1 3 3 5 2 4

C21 3 2 1 2 3 5 3 2

C22 4 3 2 3 1 3 2 3

C23 4 5 2 4 1 3 3 5

C24 4 3 2 4 3 5 3 5

C25 4 2 2 3 2 4 2 4

C26 4 3 2 4 3 5 3 5

C27 5 3 3 4 2 4 3 5

C28 5 3 3 4 2 4 3 5

C29 4 3 2 4 2 4 3 5

C30 5 3 3 4 2 4 3 5

(a) Faça uma Análise Fatorial e avalie seu resultado (teste de esfericidade, KMO, total devariância explicada e comunalidades) e comente sobre a aderência técnica à soluçãodeste caso.

>> y = kmo(A)

Teste de Esfericidade - Estatística de Bartlett

Q2 = 192.5975 pvalor = 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.4467

*************************

100

Page 101: Análise Multivariada - trabalho

* MATRIZ CORRELAÇÃO *

*************************

1.00 0.40 0.94 0.18 -0.05 0.24 -0.13 0.18

0.40 1.00 0.32 0.66 -0.21 0.02 0.26 0.57

0.94 0.32 1.00 0.20 -0.00 0.10 -0.10 0.21

0.18 0.66 0.20 1.00 0.11 -0.11 0.58 0.96

-0.05 -0.21 -0.00 0.11 1.00 0.55 0.38 0.11

0.24 0.02 0.10 -0.11 0.55 1.00 -0.02 -0.09

-0.13 0.26 -0.10 0.58 0.38 -0.02 1.00 0.51

0.18 0.57 0.21 0.96 0.11 -0.09 0.51 1.00

********************************************************

* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *

********************************************************

--------------------------------------------------

VAR. | PESOS ESTIMADOS | COM. | VAR.

| F1 F2 F3 | | ESP.

--------------------------------------------------

1 | 0.5115 0.8285 0.0976 | 0.96 | 0.04

2 | 0.7780 0.0975 -0.2392 | 0.67 | 0.33

3 | 0.5111 0.7862 0.0633 | 0.88 | 0.12

4 | 0.9155 -0.3221 -0.0917 | 0.95 | 0.05

5 | 0.1157 -0.2342 0.8969 | 0.87 | 0.13

6 | 0.0337 0.2295 0.8324 | 0.75 | 0.25

7 | 0.5378 -0.6010 0.2364 | 0.71 | 0.29

8 | 0.8794 -0.3002 -0.0809 | 0.87 | 0.13

--------------------------------------------------

AUTO | 3.04 1.98 1.64 |

----------------------------------

PROP. | |

ACUM. | 38.04 62.75 83.24 |

----------------------------------

****************************

* MATRIZ DOS RESÍDUOS *

****************************

0 -0.06 0.02 -0.01 0.00 -0.05 0.07 -0.01

-0.06 0 -0.14 -0.04 -0.06 0.17 -0.05 -0.11

101

Page 102: Análise Multivariada - trabalho

0.02 -0.14 0 -0.01 0.07 -0.15 0.09 -0.00

-0.01 -0.04 -0.01 0 0.01 0.01 -0.09 0.05

0.00 -0.06 0.07 0.01 0 -0.15 -0.04 0.01

-0.05 0.17 -0.15 0.01 -0.15 0 -0.09 0.01

0.07 -0.05 0.09 -0.09 -0.04 -0.09 0 -0.13

-0.01 -0.11 -0.00 0.05 0.01 0.01 -0.13 0

*******************

* ROTAÇÃO VARIMAX *

*******************

********************************************************

* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *

********************************************************

--------------------------------------------------

VAR. | PESOS ESTIMADOS | COM. | VAR.

| F1 F2 F3 | | ESP.

--------------------------------------------------

1 | 0.0804 0.9741 0.0468 | 0.96 | 0.04

2 | 0.6729 0.4217 -0.2034 | 0.67 | 0.33

3 | 0.1020 0.9342 0.0167 | 0.88 | 0.12

4 | 0.9676 0.1181 -0.0092 | 0.95 | 0.05

5 | 0.1237 -0.1030 0.9201 | 0.87 | 0.13

6 | -0.1487 0.2697 0.8074 | 0.75 | 0.25

7 | 0.7238 -0.2804 0.3224 | 0.71 | 0.29

8 | 0.9247 0.1221 -0.0025 | 0.87 | 0.13

--------------------------------------------------

AUTO | 3.04 1.98 1.64 |

----------------------------------

PROP. | |

ACUM. | 35.28 62.66 83.24 |

----------------------------------

Comentários: Pelo teste de esfericidade de Bartlett os dados são apropriados a análise

fatorial, o resultado do teste foi um p-value = 0, No entanto no Medida de adequaci-

dade da amostra de Kayser-Meyer-Olkin obtemos 0,44, um valor insatisfatório, pois o

MSA deve ser de no mínimo 0,5. Isso indica que a estrutura da matriz de correlação

não é apropriada à análise fatorial.

Aplicando a análise fatorial ao conjunto de dados (matriz de correlação) e usando

o critério de Kayser para determinar o número de fatores, obtemos três fatores que

102

Page 103: Análise Multivariada - trabalho

explicam 83,24% da variância total.

A análise dos fatores se torna complexa, pois existem com pesos parecidos nos fatores

obtidos, sendo assim foi aplicado o critério varimax de rotação com o objetivo de

facilitar a interpretação dos fatores.

Quanto as comunalidades, existem algumas com valores altos como v1, v4 e outras

com valores em torno de 0,7 como v2, v6 e v7. No geral, as comunalidades são altas,

não sendo necessário excluir variáveis do modelo.

Após a rotação observamos o seguinte relação entre variáveis por fator.

Fator 1: v4, v8, v7 e v2

Fator 2: v1, v3

Fator 3: v5, v6

(b) Qual a sua conclusão sobre os fatores encontrados para este caso?

O Fator 1 é uma junção das variáveis {novos concorrentes, estabilidade econômica, câmbio,

crescimento do PIB}, sugerindo assim um fator ligado a parte econômica. Já no Fator 2,

temos {automação e parceria com fornecedores } que está ligado a fornecedores, enquanto

que no Fator 3 temos {diversidade de produtos e controle de despesa} que está ligado a

produtos e despesas das empresas.

Dessa maneira a parte econômica é mais importante para as empresas, seguido da relação

com os fornecedores e por último as variáveis que envolvem produtos e despesas.

2. Os dados a seguir representam as notas de 88 alunos em cinco matérias onde foram real-

izadas provas com o livro “aberto” (A) ou o livro fechado (F). As cinco variáveis envolvidas

são: X1 = Mecânica, X2 = Vetores, X3 = Álgebra, X4 = Análise e X5 = Estatística.

Faça uma Análise Fatorial pelo Método das Componentes Principais: utilizar a rotação

Varimax. Procurar interpretar os fatores. Utilizar o Matlab.

Al. X1(F ) X2(F ) X3(A) X4(A) X5(A) Al. X1(F ) X2(F ) X3(A) X4(A) X5(A)

1 77 82 67 67 81 45 46 61 46 38 41

2 63 78 80 70 81 46 40 57 51 52 31

3 75 73 71 66 81 47 49 49 45 48 39

4 55 72 63 70 68 48 22 58 53 56 41

5 63 63 65 70 63 49 35 60 47 54 33

6 53 61 72 64 73 50 48 56 49 42 32

7 51 67 65 65 68 51 31 57 50 54 34

8 59 70 68 62 56 52 17 53 57 43 51

103

Page 104: Análise Multivariada - trabalho

9 62 60 58 62 70 53 49 57 47 39 26

10 64 72 60 62 45 54 59 50 47 15 46

11 52 64 60 63 54 55 37 56 49 28 45

12 55 67 59 62 44 56 40 43 48 21 61

13 50 50 64 55 63 57 35 35 41 51 50

14 65 63 58 56 37 58 38 44 54 47 24

15 31 55 60 57 73 59 43 43 38 34 49

16 60 64 56 54 40 60 39 46 46 32 43

17 44 69 53 53 53 61 62 44 36 22 42

18 42 69 61 55 45 62 48 38 41 44 33

19 62 46 61 57 45 63 34 42 50 47 29

20 31 49 62 63 62 64 18 51 40 56 30

21 44 61 52 62 46 65 35 36 46 48 29

22 49 41 61 49 64 66 59 53 37 22 19

23 12 58 61 63 67 67 41 41 43 30 33

24 49 53 49 62 47 68 31 52 37 27 40

25 54 49 56 47 53 69 17 51 52 35 31

26 54 53 46 59 44 70 34 30 50 47 36

27 44 56 55 61 36 71 46 40 47 29 17

28 18 44 50 57 81 72 10 46 36 47 39

29 46 52 65 50 35 73 46 37 45 15 30

30 32 45 49 57 64 74 30 34 43 46 18

31 30 69 50 52 45 75 13 51 50 25 31

32 46 49 53 59 37 76 49 50 38 23 9

33 40 27 54 61 61 77 18 32 31 45 40

34 31 42 48 54 68 78 8 42 48 26 40

35 36 59 51 45 51 79 23 38 36 48 15

36 56 40 56 54 35 80 30 24 43 33 25

37 46 56 57 49 32 81 3 9 51 47 40

38 45 42 55 56 40 82 7 51 43 17 22

39 42 60 54 49 33 83 15 40 43 23 18

40 40 63 53 54 25 84 15 38 39 28 17

41 23 55 59 53 44 85 5 30 44 36 18

42 48 48 49 51 37 86 12 30 32 35 21

43 41 63 49 46 44 87 5 26 15 20 20

44 46 52 53 41 40 88 0 40 21 9 14

Teste de Esfericidade -Estatística de Bartlett

Q2 = 194.55 pvalor = 0

104

Page 105: Análise Multivariada - trabalho

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.78

*************************

* MATRIZ CORRELAÇÃO *

*************************

1.00 0.55 0.55 0.41 0.39

0.55 1.00 0.61 0.49 0.44

0.55 0.61 1.00 0.71 0.66

0.41 0.49 0.71 1.00 0.61

0.39 0.44 0.66 0.61 1.00

********************************************************

* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *

********************************************************

-------------------------------------------

VAR. | PESOS ESTIMADOS | COM. | VAR.

| F1 F2 | | ESP.

-------------------------------------------

1 | -0.7126 -0.5587 | 0.82 | 0.18

2 | -0.7709 -0.3737 | 0.73 | 0.27

3 | -0.8970 0.1116 | 0.82 | 0.18

4 | -0.8147 0.3367 | 0.78 | 0.22

5 | -0.7834 0.3980 | 0.77 | 0.23

------------------------------------------

AUTO | 3.18 0.74 |

---------------------------

PROP. | |

ACUM. | 63.68 78.41 |

---------------------------

****************************

* MATRIZ DOS RESÍDUOS *

****************************

0 -0.20 -0.03 0.02 0.05

-0.20 0 -0.04 -0.02 -0.01

-0.03 -0.04 0 -0.06 -0.08

0.02 -0.02 -0.06 0 -0.16

0.05 -0.01 -0.08 -0.16 0

105

Page 106: Análise Multivariada - trabalho

*******************

* ROTAÇÃO VARIMAX *

*******************

********************************************************

* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *

********************************************************

-------------------------------------------

VAR. | PESOS ESTIMADOS | COM. | VAR.

| F1 F2 | | ESP.

-------------------------------------------

1 | -0.1998 -0.8832 | 0.82 | 0.18

2 | -0.3618 -0.7766 | 0.73 | 0.27

3 | -0.7660 -0.4799 | 0.82 | 0.18

4 | -0.8443 -0.2533 | 0.78 | 0.22

5 | -0.8588 -0.1860 | 0.77 | 0.23

-------------------------------------------

AUTO | 3.18 0.74 |

---------------------------

PROP. | |

ACUM. | 44.16 78.41 |

---------------------------

Comentários: Pelo teste de esfericidade de Bartlett (p-value = 0) e pela medida de ade-

quacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.78), a matriz de dados é adequada

à análise fatorial.

Fazendo a análise fatorial (matriz de correlação), escolheu-se 2 fatores que representam

78.41% da variância total do conjunto de dados original. Quanto as comunalidades, todas

as variáveis tem comunalidade acima de 0,7, não sendo necessário eliminar nenhuma delas.

A interpretação dos fatores obtidos é complicada, pois todas as variáveis tem alta correlação

com primeiro fator, e no segundo as correlações são baixas. Realizou-se então a rotação dos

fatores pelo critério varimax, onde podemos identificar claramente os grupos de variáveis

em cada fator.

Fator 1: Álgebra, Análise e Estatística (livro aberto)

Fator 2: Mecânica e vetores (livro fechado)

O primeiro fator mais representativo envolve as matérias de Álgebra, Análise e Estatística,

todas feitas com o livro aberto, já o segundo fator engloba as matérias Mecânica e Vetores,

ambas feitas com o livro fechado. Nesse caso os fatores separou as duas maneiras como as

106

Page 107: Análise Multivariada - trabalho

provas foram aplicadas.

3. Os dados seguintes representam os escores de 15 variáveis resultantes da avaliação de 48

candidatos a um certo posto de serviço. As variáveis são: X1 = forma da letra, X2 =

aparência, X3 = habilidade acadêmica, X4 = habilidade para o posto, X5 = confiança em

si mesmo, X6 = lucidez, X7 = honestidade, X8 = aptidão para vendas, X9 = experiência,

X10 = iniciativa, X11 = ambição, X12 = domínio, X13 = potencial, X14 = entusiasmo e

X15 = conveniência.

Can. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15

1 6 7 2 5 8 7 7 8 3 8 9 7 5 7 10

2 9 10 5 8 10 9 9 10 5 9 9 8 8 8 10

3 7 8 3 6 9 8 9 7 4 9 9 8 6 8 10

4 5 6 8 5 6 5 9 2 8 4 5 8 7 6 5

5 6 8 8 8 4 4 9 2 8 4 5 8 7 6 5

6 7 7 7 6 8 7 10 5 9 6 5 8 6 6 6

7 9 9 8 8 8 8 8 8 10 8 10 8 9 8 10

8 9 9 9 8 9 9 8 8 10 9 10 9 9 9 10

9 9 9 7 8 8 8 8 5 9 8 9 8 8 8 10

10 4 7 10 2 10 10 7 10 3 10 10 10 9 3 10

11 4 7 10 0 10 8 3 9 5 9 10 8 10 2 5

12 4 7 10 4 10 10 7 8 2 8 8 10 10 3 7

13 6 9 8 10 5 4 9 4 4 4 5 4 7 6 8

14 8 9 8 9 6 3 8 2 5 2 6 6 7 5 6

15 4 8 8 7 5 4 10 2 7 5 3 6 6 4 6

16 6 9 6 7 8 9 8 9 8 8 7 6 8 6 10

17 8 7 7 7 9 5 8 6 6 7 8 6 6 7 8

18 6 8 8 4 8 8 6 4 3 3 6 7 2 6 4

19 6 7 8 4 7 8 5 4 4 2 6 8 3 5 4

20 4 8 7 8 8 9 10 5 2 6 7 9 8 8 9

21 3 8 6 8 8 8 10 5 3 6 7 8 8 5 8

22 9 8 7 8 9 10 10 10 3 10 8 10 8 10 8

23 7 10 7 9 9 9 10 10 3 9 9 10 9 10 8

24 9 8 7 10 8 10 10 10 2 9 7 9 9 10 8

25 6 9 7 7 4 5 9 3 2 4 4 4 4 5 4

26 7 8 7 8 5 4 8 2 3 4 5 6 5 5 6

27 2 10 7 9 8 9 10 5 3 5 6 7 6 4 5

28 6 3 5 3 5 3 5 0 0 3 3 0 0 5 0

29 4 3 4 3 3 0 0 0 0 4 4 0 0 5 0

30 4 6 5 6 9 4 10 3 1 3 3 2 2 7 3

31 5 5 4 7 8 4 10 3 2 5 5 3 4 8 3

107

Page 108: Análise Multivariada - trabalho

32 3 3 5 7 7 9 10 3 2 5 3 7 5 5 2

33 2 3 5 7 7 9 10 3 2 2 3 6 4 5 2

34 3 4 6 4 3 3 8 1 1 3 3 3 2 5 2

35 6 7 4 3 3 0 9 0 1 0 2 3 1 5 3

36 9 8 5 5 6 6 8 2 2 2 4 5 6 6 3

37 4 9 6 4 10 8 8 9 1 3 9 7 5 3 2

38 4 9 6 6 9 9 7 9 1 2 10 8 5 5 2

39 10 6 9 10 9 10 10 10 10 10 8 10 10 10 10

40 10 6 9 10 9 10 10 10 10 10 10 10 10 10 10

41 10 7 8 0 2 1 2 0 10 2 0 3 0 0 10

42 10 3 8 0 1 1 0 0 10 0 0 0 0 0 10

43 3 4 9 8 2 4 5 3 6 2 1 3 3 3 8

44 7 7 7 6 9 8 8 6 8 8 10 8 8 6 5

45 9 6 10 9 7 7 10 2 1 5 5 7 8 4 5

46 9 8 10 10 7 9 10 3 1 5 7 9 9 4 4

47 0 7 10 3 5 0 10 0 0 2 2 0 0 0 0

48 0 6 10 1 5 0 10 0 0 2 2 0 0 0 0

Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais

e pelo Método da Máxima Verossimilhança. Utilizar a rotação Varimax. Utilizar o software

Statistica.

Teste de Esfericidade -Estatística de Bartlett Q2 = 649.25 pvalor

= 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.77

Método das Componentes Principais (Matriz Corelação) Varimax

Fator 1 Fator 2 Fator 3 Fator 4 Com. Var. Esp.

Forma da Letra 0.115 0.834 0.114 -0.136 0.740 0.260

Aparência 0.438 0.151 0.399 0.224 0.424 0.576

Habilidade Acadêmica 0.062 0.128 0.018 0.927 0.881 0.119

Habilidade p/ o posto 0.219 0.244 0.871 -0.090 0.875 0.125

Confiança em si mesmo 0.918 -0.103 0.167 -0.064 0.885 0.115

Lucidez 0.863 0.100 0.260 0.001 0.823 0.177

Honestidade 0.210 -0.244 0.866 0.014 0.854 0.146

108

Page 109: Análise Multivariada - trabalho

Aptidão p/ vendas 0.917 0.207 0.085 -0.054 0.895 0.105

Experiência 0.082 0.849 -0.048 0.216 0.776 0.224

Iniciativa 0.805 0.343 0.148 -0.057 0.790 0.210

Ambição 0.916 0.160 0.104 -0.039 0.878 0.122

Domínio 0.806 0.253 0.338 0.145 0.848 0.152

Potencial 0.751 0.320 0.414 0.220 0.887 0.113

Entusiasmo 0.445 0.355 0.529 -0.533 0.888 0.112

Conveniência 0.397 0.790 0.058 0.072 0.790 0.210

Expl.Var 5.793 2.696 2.390 1.355

Prp.Totl 0.386 0.180 0.159 0.090

Prop. Acum. 50.023 63.654 73.344 81.554

Comentários: Realizando o teste de esfericidade de Bartlett (p-value = 0) e Medida de

Adequacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.77), concluí-se que a matriz

de dados é adequada à análise fatorial.

Pelo Método das componentes principais (Software Statistica), obteve-se 4 fatores uti-

lizando o critério de Kayser, que explicam 81.55% da variância dos dados originais. Foi

Aplicada a rotação pelo critério Varimax.

Observando-se as comunalidades, podemos eliminar a variável Aparência do modelo, pois

sua comunalidade está abaixo de 0,5.

No primeiro fator podemos reunir as variáveis: Confiaça em si mesmo, Lucidez, Aptidão

para vendas, Iniciativa, Ambição, Domínio e Potencial.

No fator 2 temos: Forma da letra, Experiência e Conveniência.

Fator 3: Habilidade para o posto, Honestidade.

Fator 4: Habilidade Acadêmica.

109

Page 110: Análise Multivariada - trabalho

5 10 15 20 25 30 355

10

15

20

25

30

35

d2

χ2

Método da Máxima Verossimilhança(Matriz Corelação) Varimax

Factor 1 Factor 2 Factor 3 Com. Var. Esp.

Forma da Letra 0.120 0.188 0.655 0.479 0.521

Aparência 0.437 0.276 0.176 0.298 0.702

Habilidade Acadêmica 0.055 -0.044 0.217 0.052 0.948

Habilidade p/ o posto 0.202 0.948 0.158 0.965 0.035

Confiança em si mesmo 0.930 0.138 -0.091 0.892 0.108

Lucidez 0.832 0.309 0.125 0.804 0.196

Honestidade 0.263 0.672 -0.257 0.586 0.414

Aptidão p/ vendas 0.882 0.132 0.253 0.860 0.140

Experiência 0.070 0.005 0.788 0.626 0.374

Iniciativa 0.767 0.186 0.374 0.763 0.237

Ambição 0.890 0.143 0.177 0.844 0.156

Domínio 0.780 0.325 0.280 0.793 0.207

Potencial 0.721 0.424 0.349 0.822 0.178

Entusiasmo 0.446 0.579 0.217 0.580 0.420

Conveniência 0.346 0.126 0.813 0.797 0.203

Expl.Var 5.486 2.287 2.388

Prp.Totl 0.366 0.152 0.159

Prop. Acum. 45.758 56.346 67.739

110

Page 111: Análise Multivariada - trabalho

Comentários: Para utilizar o Método da Máxima Verossimilhança, testamos primeiro a

normalidade da amostra. Pelo gráfico acima, podemos aceitar a hipótese de que os dados

sejam normalmente distribuídos.

Pelo Método da Máxima Verossimilhança (Software Statistica), obteve-se 3 fatores uti-

lizando o critério de Kayser, que explicam 67.73% da variância dos dados originais. Foi

Aplicada a rotação pelo critério Varimax.

Observando-se as comunalidades, podemos eliminar as variáveis Forma da letra, Habilidade

acadêmica e Aparência do modelo, pois suas comunalidades estão abaixo de 0,5.

No primeiro fator podemos reunir as variáveis: Confiança em si mesmo, Lucidez, Aptidão

para vendas, Iniciativa, Ambição, Domínio e Potencial.

No fator 2 temos: Habilidade para o posto, Honestidade.

Fator 3: Experiência

Comparando as duas análises, podemos concluir que ambas agruparam as mesmas variáveis

no primeiro fator e no restante dos fatores as diferenças foram pouco significativas.

4. Os dados seguintes representam as taxas dos crimes ocorridos por 100.000 habitantes nos

EUA, em 1986, por estado, segundo as categorias dos crimes:

Estado Ass. Estupro Assalto Ass. c/ viol. Arromb. Roubo simp. Roubo carro

ME 2 14.8 28 102 803 2347 164

NH 2.2 21.5 24 92 755 2208 228

VT 2 21.8 22 103 949 2697 181

MA 3.6 29.7 193 331 1071 2189 906

RI 3.5 21.4 119 192 1294 2568 705

CT 4.6 23.4 192 205 1198 2758 447

NY 10.7 30.5 514 431 1221 2924 637

NJ 5.2 33.2 269 265 1071 2822 776

PA 5.5 25.1 152 176 735 1654 354

OH 5.5 38.6 142 235 988 2574 376

IN 6 25.9 90 186 887 2333 328

IL 8.9 32.4 325 434 1180 2938 628

MI 11.3 67.4 301 424 1509 3378 800

WI 3.1 20.1 73 162 783 2802 254

MN 2.5 31.8 102 148 1004 2785 288

IA 1.8 12.5 42 179 956 2801 158

MO 9.2 29.2 170 370 1136 2500 439

ND 1 11.6 7 32 385 2049 120

111

Page 112: Análise Multivariada - trabalho

SD 4 17.7 16 87 554 1939 99

NE 3.1 24.6 51 184 748 2677 168

KS 4.4 32.9 80 252 1188 3008 258

DE 4.9 56.9 124 241 1042 3090 272

MD 9 43.6 304 476 1296 2978 545

DC 31 52.4 754 668 1728 4131 975

VA 7.1 26.5 106 167 813 2522 219

WV 5.9 18.9 41 99 625 1358 169

NC 8.1 26.4 88 354 1225 2423 208

SC 8.6 41.3 99 525 1340 2846 277

GA 11.2 43.9 214 319 1453 2984 430

FL 11.7 52.7 367 605 2221 4373 598

KY 6.7 23.1 83 222 824 1740 193

TN 10.4 47 208 274 1325 2126 544

AL 10.1 28.4 112 408 1159 2304 267

MS 11.2 25.8 65 172 1076 1845 150

AR 8.1 28.9 80 278 1030 2305 195

LA 12.8 40.1 224 482 1461 3417 442

OK 8.1 36.4 107 285 1787 3142 649

TX 13.5 51.6 240 354 2049 3987 714

MT 2.9 17.3 20 118 783 3314 215

ID 3.2 20 21 178 1003 2800 181

WY 5.3 21.9 22 243 817 3078 169

CO 7 42.3 145 329 1792 4231 486

NM 11.5 46.9 130 538 1845 3712 343

AZ 9.3 43 169 437 1908 4337 419

UT 3.2 25.3 59 180 915 4074 223

NV 12.6 64.9 287 354 1604 3489 478

WA 5 53.4 135 244 1861 4267 315

OR 6.6 51.1 206 286 1967 4163 402

CA 11.3 44.9 343 521 1696 3384 762

AK 4.6 72.7 88 401 1162 3910 604

KI 4.8 31 106 103 1339 3759 328

Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais.

Mostrar e comentar: os fatores, a matriz de correlação, a matriz de resíduos, as comunali-

dades, os escores fatoriais. Utiliizar a rotação Varimax. Utilizar o software Statistica.

Teste de Esfericidade -Estatística de Bartlett

Q2 = 274.37

112

Page 113: Análise Multivariada - trabalho

pvalor = 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.80

Método das Componentes Principais (Matriz Corelação) Varimax

Fator 1 Fator 2 Com. Var. Esp.

Assassinato 0.86 0.23 0.80 0.20

Estupro 0.43 0.75 0.74 0.26

Assalto 0.92 0.23 0.90 0.10

Assalto c/ Violência 0.76 0.48 0.80 0.20

Arrombamento 0.43 0.82 0.86 0.14

Roubo Simples 0.13 0.92 0.87 0.13

Roubo de Carro 0.78 0.31 0.70 0.30

Expl.Var 3.15 2.52

Prp.Totl 0.45 0.36

Prop. Acum. 66.69 81.01

Matriz Correlação

Assassinato 1.00 0.53 0.81 0.77 0.58 0.34 0.56

Estupro 0.53 1.00 0.53 0.66 0.72 0.63 0.57

Assalto 0.81 0.53 1.00 0.74 0.55 0.40 0.79

Assalto c/ Violência 0.77 0.66 0.74 1.00 0.71 0.51 0.64

Arrombamento 0.58 0.72 0.55 0.71 1.00 0.76 0.58

Roubo Simples 0.34 0.63 0.40 0.51 0.76 1.00 0.39

Roubo de Carro 0.56 0.57 0.79 0.64 0.58 0.39 1.00

Matriz Resíduos

Assassinato 0.20 -0.01 -0.04 0.00 0.02 0.01 -0.19

Estupro -0.01 0.26 -0.04 -0.03 -0.08 -0.11 0.00

Assalto -0.04 -0.04 0.10 -0.06 -0.03 0.07 0.00

Assalto c/ Violência 0.00 -0.03 -0.06 0.20 -0.01 -0.03 -0.10

Arrombamento 0.02 -0.08 -0.03 -0.01 0.14 -0.05 -0.01

Roubo Simples 0.01 -0.11 0.07 -0.03 -0.05 0.13 0.00

Roubo de Carro -0.19 0.00 0.00 -0.10 -0.01 0.00 0.30

113

Page 114: Análise Multivariada - trabalho

Escores Fatoriais

ME -0.97272 -0.83601

NH -0.86210 -0.85943

VT -1.15465 -0.27514

MA 0.92052 -0.91994

RI 0.06027 -0.45561

CT -0.02263 -0.39470

NY 1.90205 -0.81223

NJ 0.74618 -0.49537

PA 0.26503 -1.55250

OH -0.09568 -0.30010

IN -0.18792 -0.80005

IL 1.19235 -0.44878

MI 1.15525 0.86828

WI -0.73038 -0.52244

MN -0.75178 -0.09742

IA -1.03247 -0.40273

MO 0.59479 -0.61096

ND -1.06528 -1.44864

SD -0.76823 -1.33710

NE -0.84043 -0.47240

KS -0.67895 0.26114

DE -0.60030 0.65133

MD 1.00802 0.01707

DC 4.35648 -0.12070

VA -0.28687 -0.73616

WV -0.23685 -1.81118

NC -0.04473 -0.39898

SC 0.13600 0.34052

GA 0.48788 0.23986

FL 0.91822 1.94079

KY -0.03453 -1.31962

TN 0.82878 -0.46695

AL 0.39241 -0.62470

MS 0.02771 -1.07690

AR -0.12453 -0.60846

LA 0.75353 0.43845

OK 0.07215 0.66752

TX 0.64618 1.48818

MT -1.20159 -0.11200

ID -0.99452 -0.21698

114

Page 115: Análise Multivariada - trabalho

WY -0.81908 -0.19755

CO -0.48450 1.68428

NM 0.10974 1.40918

AZ -0.22861 1.81708

UT -1.30216 0.70518

NV 0.62783 1.07213

WA -1.09641 2.17257

OR -0.55725 1.94986

CA 1.41923 0.49975

AK -0.43878 1.70137

KI -1.00664 0.80720

Comentários: Fazendo o teste de esfericidade de Bartlett e da medida de adequacidade da

amostra, concluí-se que os dados são apropriados à análise fatorial.

Analisando a matriz de correlação, as variáveis Assassinato, Assalto e Assalto com violência

formam um grupo, enquanto que estupro, roubo simples e roubo de carro formam outro

grupo, com correlações mais baixas que o primeiro grupo.

Pelo Método das componentes principais (Software Statistica), obteve-se 2 fatores uti-

lizando o critério de Kayser, que explicam 81.01% da variância dos dados originais. Foi

Aplicada a rotação pelo critério Varimax.

Todas as comunalidades estão acima de 0,7, não sendo necessário eliminar variáveis. E a

matriz de resíduos tem valores baixos.

No primeiro fator podemos reunir as variáveis: Assassinato, Assalto, Assalto com violência

e Roubo de Carro.

No fator 2 temos: Estupro, Arrombamento e Roubo Simples.

Nos escores fatoriais, conseguimos identificar Nova York que se destaca no primeiro fator

e Washington que se destaca no segundo fator.

5. Uma matriz de dados X(86×4), resultou na seguinte matriz covariância:

S =

⎡⎢⎢⎢⎢⎢⎢⎣

0, 029004 −0, 008545 0, 001143 −0, 006594

−0, 008545 0, 003318 0, 000533 0, 003248

0, 001143 0, 000533 0, 004898 0, 005231

−0, 006594 0, 003248 0, 005231 0, 008463

⎤⎥⎥⎥⎥⎥⎥⎦

115

Page 116: Análise Multivariada - trabalho

Aqui as variáveis relacionam o número de árvores, altura, área da superfície e o volume de

86 parcelas de terra. Utilizando o MATLAB, calcular:

(a) a matriz correlação;

*************************

* MATRIZ CORRELAÇÃO *

*************************

1.0000 -0.8711 0.0959 -0.4209

-0.8711 1.0000 0.1322 0.6129

0.0959 0.1322 1.0000 0.8125

-0.4209 0.6129 0.8125 1.0000

(b) os autovalores associados à matriz de correlação;

>> [e,l]=eig(R)

e =

0.1925 0.6792 0.5162 -0.4849

-0.2110 0.7214 -0.3388 0.5660

-0.6129 -0.1169 0.7030 0.3413

0.7368 -0.0682 0.3529 0.5727

l =

0.0386 0 0 0

0 0.1005 0 0

0 0 1.4146 0

0 0 0 2.4463

(c) escolher um número adequado de fatores; Pelo critério de Kayser escolhemos 2 fatores

(d) estimar a matriz de pesos;

F1 F2

0.7584 -0.6140 número de árvores

-0.8852 0.4029 altura -0.5339 -0.8361 área da superfície

-0.8958 -0.4197 volume

(e) estimar as comunalidades;

0.95 número de árvores 0.95 altura 0.98 área da

superfície 0.98 volume

(f) estimar as variâncias específicas;

0.05 número de árvores 0.05 altura 0.02 área da

superfície 0.02 volume

116

Page 117: Análise Multivariada - trabalho

(g) construir uma tabela resumindo os resultados;

********************************************************

* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *

********************************************************

-------------------------------------------

VAR. | PESOS ESTIMADOS | COM. | VAR.

| F1 F2 | | ESP.

-------------------------------------------

1 | 0.7584 -0.6140 | 0.95 | 0.05

2 | -0.8852 0.4029 | 0.95 | 0.05

3 | -0.5339 -0.8361 | 0.98 | 0.02

4 | -0.8958 -0.4197 | 0.98 | 0.02

-------------------------------------------

AUTO | 2.45 1.41 |

---------------------------

PROP. | |

ACUM. | 61.16 96.52 |

---------------------------

(h) Você consegue interpretar os fatores resultantes?

O primeiro fator constitui-se principalmente pelas variáveis Altura, Volume e Número

de árvores, enquanto que o segundo é dado pela área de superfície.

(i) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz.

****************************

* MATRIZ DOS RESÍDUOS *

****************************

0.0000 0.0477 -0.0126 0.0008

0.0477 -0.0000 -0.0035 -0.0109

-0.0126 -0.0035 0 -0.0166

0.0008 -0.0109 -0.0166 0

Os resíduos são pequenos, visto que o modelo explica 96.52% da variância total dos

dados.

6. Um conjunto de p = 10 variáveis psicológicas foram medidas para n = 810 crianças normais,

gerando as correlações dadas pela tabela seguinte:

Testes 1 2 3 4 5 6 7 8 9 10

117

Page 118: Análise Multivariada - trabalho

1 1.000 0.345 0.594 0.404 0.579 -0.280 -0.449 -0.188 -0.303 -0.200

2 1.000 0.477 0.338 0.230 -0.159 -0.205 -0.120 -0.168 -0.145

3 1.000 0.498 0.505 -0.251 -0.377 -0.186 -0.273 -0.154

4 1.000 0.389 -0.168 -0.249 -0.173 -0.195 -0.055

5 1.000 -0.151 -0.285 -0.129 -0.159 -0.079

6 1.000 0.363 0.359 0.227 0.260

7 1.000 0.448 0.439 0.511

8 1.000 0.429 0.316

9 1.000 0.301

10 1.000

Determine, utilizando o MATLAB,

(a) os autovalores associados à matriz de correlação;

>> [v,d] = eig(R)

v =

0.73 0.20 0.20 -0.07 -0.26 -0.12 0.12 0.27 0.23 -0.39

-0.08 0.31 -0.09 0.26 -0.24 -0.04 0.12 -0.78 0.24 -0.27

-0.16 -0.80 0.26 -0.05 -0.09 -0.01 0.02 -0.09 0.30 -0.39

0.07 0.16 -0.09 -0.32 0.73 0.25 -0.24 -0.11 0.31 -0.30

-0.38 0.13 -0.48 0.35 -0.05 -0.07 0.07 0.51 0.34 -0.32

0.09 -0.03 0.17 0.27 0.16 0.58 0.63 0.05 0.24 0.26

0.43 -0.33 -0.62 0.04 -0.12 0.08 -0.23 -0.13 0.29 0.38

-0.22 0.12 -0.06 -0.66 -0.14 -0.30 0.37 0.01 0.41 0.27

0.09 -0.02 0.28 0.42 0.41 -0.63 -0.04 -0.02 0.29 0.29

-0.18 0.21 0.40 0.04 -0.32 0.31 -0.56 0.11 0.43 0.24

d =

0.35 0 0 0 0 0 0 0 0 0

0 0.38 0 0 0 0 0 0 0 0

0 0 0.43 0 0 0 0 0 0 0

0 0 0 0.53 0 0 0 0 0 0

0 0 0 0 0.61 0 0 0 0 0

0 0 0 0 0 0.78 0 0 0 0

0 0 0 0 0 0 0.79 0 0 0

0 0 0 0 0 0 0 0.83 0 0

0 0 0 0 0 0 0 0 1.61 0

0 0 0 0 0 0 0 0 0 3.70

(b) escolher um número adequado de fatores;

118

Page 119: Análise Multivariada - trabalho

Escolheu-se 4 fatores que representam aproximadamente 70% da variância total

(c) estimar a matriz de pesos;

-0.7552 0.2870 0.2496 0.1064 -0.5212 0.3086 -0.7112 0.1047

-0.7469 0.3856 -0.0851 0.0215 -0.5851 0.3988 -0.1015 -0.2168

-0.6065 0.4339 0.4642 0.0591

0.5077 0.3089 0.0422 0.5600

0.7223 0.3701 -0.1183 -0.2051

0.5250 0.5236 0.0046 0.3335

0.5657 0.3743 -0.0143 -0.0316

0.4659 0.5395 0.0990 -0.5009

(d) estimar as comunalidades;

0.73

0.88

0.71

0.56

0.78

0.67

0.71

0.66

0.46

0.77

(e) estimar as variâncias específicas;

0.27

0.12

0.29

0.44

0.22

0.33

0.29

0.34

0.54

0.23

(f) construir uma tabela resumindo os resultados.

119

Page 120: Análise Multivariada - trabalho

********************************************************

* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *

********************************************************

---------------------------------------------------------

VAR. | PESOS ESTIMADOS | COM. | VAR.

| F1 F2 F3 F4 | | ESP.

---------------------------------------------------------

1 | -0.7552 0.2870 0.2496 0.1064 | 0.73 | 0.27

2 | -0.5212 0.3086 -0.7112 0.1047 | 0.88 | 0.12

3 | -0.7469 0.3856 -0.0851 0.0215 | 0.71 | 0.29

4 | -0.5851 0.3988 -0.1015 -0.2168 | 0.56 | 0.44

5 | -0.6065 0.4339 0.4642 0.0591 | 0.78 | 0.22

6 | 0.5077 0.3089 0.0422 0.5600 | 0.67 | 0.33

7 | 0.7223 0.3701 -0.1183 -0.2051 | 0.71 | 0.29

8 | 0.5250 0.5236 0.0046 0.3335 | 0.66 | 0.34

9 | 0.5657 0.3743 -0.0143 -0.0316 | 0.46 | 0.54

10 | 0.4659 0.5395 0.0990 -0.5009 | 0.77 | 0.23

---------------------------------------------------------

AUTO | 3.70 1.61 0.83 0.79 |

-----------------------------------------

PROP. | |

ACUM. | 37.02 53.14 61.41 69.33 |

-----------------------------------------

(g) Você consegue interpretar os fatores resultantes?

O primeiro fator é composto principalmente pelas variáveis 1, 3, 5, 7, 9. Já o segundo

fator é composto pelas variáveis 8, 9, mas com correlações em torno de 0,5. O terceiro

fator é composto pela variável 2 e o último pela variável 6.

(h) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz.

****************************

* MATRIZ DOS RESÍDUOS *

****************************

0 0.03 -0.06 -0.10 -0.13 -0.06 0.04 0.02 0.02 0.03

0.03 0 -0.09 -0.14 0.10 -0.02 -0.01 -0.04 0.00 0.05

-0.06 -0.09 0 -0.10 -0.08 0.00 0.01 -0.00 0.00 0.01

-0.10 -0.14 -0.10 0 -0.08 0.13 -0.03 -0.00 -0.02 -0.10

-0.13 0.10 -0.08 -0.08 0 -0.03 0.06 -0.06 0.03 -0.05

-0.06 -0.02 0.00 0.13 -0.03 0 0.00 -0.26 -0.16 0.13

0.04 -0.01 0.01 -0.03 0.06 0.00 0 -0.06 -0.12 -0.12

120

Page 121: Análise Multivariada - trabalho

0.02 -0.04 -0.00 -0.00 -0.06 -0.26 -0.06 0 -0.05 -0.04

0.02 0.00 0.00 -0.02 0.03 -0.16 -0.12 -0.05 0 -0.18

0.03 0.05 0.01 -0.10 -0.05 0.13 -0.12 -0.04 -0.18 0

Existem algumas variáveis com resíduos altos, em torno 0,1.

6 Lista 6: Análise Discriminante

1. Considere as observações de p = 2 variáveis oriundas de 3 populações ¼1, ¼2 e ¼3. As

matrizes de dados correspondentes às amostras das 3 populações todas com o mesmo

tamanho ni = 4 estão a seguir.

X1 =

⎡⎢⎢⎢⎢⎢⎢⎣

7, 4 9, 1

7, 2 14, 2

6, 7 9, 6

8, 0 10, 7

⎤⎥⎥⎥⎥⎥⎥⎦, X2 =

⎡⎢⎢⎢⎢⎢⎢⎣

6, 5 7, 8

5, 1 5, 5

4, 9 9, 4

3, 8 11, 6

⎤⎥⎥⎥⎥⎥⎥⎦

e X3 =

⎡⎢⎢⎢⎢⎢⎢⎣

8, 0 1, 2

10, 2 5, 5

10, 8 4, 3

6, 7 4, 0

⎤⎥⎥⎥⎥⎥⎥⎦

(a) Determine os vetores médios amostrais xi, i = 1, 2, 3.

>> pi1 =[ 7.4 9.1; 7.2 14.2 ; 6.7 9.6 ; 8.0 10.7 ];

>> pi2 = [ 6.5 7.8; 5.1 5.5 ; 4.9 9.4 ; 3.8 11.6 ];

>> pi3 = [ 8.0 1.2 ; 10.2 5.5 ; 10.8 4.3; 6.7 4.0 ];

>> PI = [pi1;pi2;pi3];

>> V = [4 4 4];

>> disc1(PI,V)

*********************

* MÉDIAS DOS GRUPOS *

*********************

xm1 =

7.3250 10.9000

xm2 =

5.0750 8.5750

xm3 =

8.9250 3.7500

(b) Determine o vetor médio global amostral.

*****************

* MÉDIA GLOBAL *

*****************

121

Page 122: Análise Multivariada - trabalho

7.1083 7.7417

(c) Calcule matrizes de covariâncias amostrais: S1, S2 , S3 e também as matrizes: Sp, B0

e W .

**********************************

* MATRIZES COVARIÂNCIAS - GRUPOS *

**********************************

COV1 =

0.2892 0.0433

0.0433 5.2867

COV2 =

1.2292 -1.7275

-1.7275 6.6292

COV3 =

3.6492 1.6883

1.6883 3.3100

************************************

* MATRIZ B - VARIAÇÃO ENTRE GRUPOS *

************************************

7.4817 -8.2617

-8.2617 26.6029

************************************

* MATRIZ COVARIÂNCIA CONJUNTA - Sp *

************************************

1.7225 0.0014

0.0014 5.0753

*****************************************

* MATRIZ W - VARIAÇÃO DENTRO DOS GRUPOS *

*****************************************

15.5025 0.0125

0.0125 45.6775

(d) Determine a matriz inversa W−1 e W−1B0.

>> Winv = inv(W)

Winv =

0.06 -0.00

-0.00 0.02

>> WinvB0 = inv(Winv*B0)

WinvB0 =

3.15 2.89

0.98 2.61

(e) Determine os autovalores e autovetores de W−1B0.

122

Page 123: Análise Multivariada - trabalho

**********************************

* AUTOVALORES DA MATRIZ INV(W)*B *

**********************************

0.8474

0.2180

******************************

* AUTOVALORES SATISFAZENDO À *

* CONDIÇÃO s=min(g-1,p) *

******************************

0.8474

0.2180

(f) Determine os discriminantes para as populações com base nos resultados amostrais.

*******************************************

* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *

*******************************************

Y1 =

-0.4944 0.3379

Y2 =

0.5798 0.2878

(g) Faça uma gráfico que represente espaço discriminante nas dimensões que você deter-

minou, represente a amostra no gráfico.

−4 −3 −2 −1 0 1 2 34.5

5

5.5

6

6.5

7

7.5

8

8.5

1

1

1

1

2

2

2 2

3

33

3

1

2

3

ESPAÇO DISCRIMINANTE

Y1

Y2

2. Considere dois grupos de agricultores em uma cidade: ¼1, os possuidores de determinada

123

Page 124: Análise Multivariada - trabalho

máquina agrícola e ¼2 os não-possuidores da máquina. O fabricante da máquina está in-

teressado em identificar possuidores ou não do equipamento, com a finalidade de promover

vendas futuras. Dispõe dos dados da renda e tamanho da fazenda de 24 fazendeiros pos-

suidores ou não do equipamento. Construa uma F.D.L. de Fisher para alocar um novo

agricultor em um ou dois grupos, com base nas informações a seguir. Em qual grupo você

alocaria o indivíduo x0 = [18.0 7.51]?

¼1 ¼2

x1 = renda x2 = área x1 = renda x2 = área

20 9.2 25 9.8

28.5 8.4 17.6 10.4

21.6 10.8 21.6 8.6

20.5 10.4 14.4 10.2

29 11.8 28 8.8

36.7 9.6 16.4 8.8

36 8.8 19.8 8

27.6 11.2 22 9.2

23 10 15.8 8.2

31 10.4 11 9.4

17 11 17 7

27 10 21 7.4

*********************

* MÉDIAS DOS GRUPOS *

*********************

xm1 =

24.8833 11.7417

xm2 =

18.4833 9.4667

************************************

* MATRIZES COVARIÂNCIAS DOS GRUPOS *

************************************

S1 =

63.1761 -7.4965

-7.4965 28.7863

S2 =

29.5452 3.0667

124

Page 125: Análise Multivariada - trabalho

3.0667 7.5806

************************

* MATRIZ ESTIMADA - Sp *

************************

Sp =

46.3606 -2.2149

-2.2149 18.1834

*****************************************

* COEFICIENTES DA FUNÇÃO DISCRIMINANTE *

*****************************************

0.1449 0.1428

**********************

* MÉDIA UNIVARIADA *

**********************

4.6551

>> v = 0.1449*(18) + 0.1428*(7.51)

v =

3.6806

Comentários: O indivíduo x0 será alocado no grupo ¼1

3. Pacientes com certa enfermidade são submetidos durante um certo período a um treina-

mento que envolve, inclusive, uma certa operação. No instante pré-operatório, do período

de tratamento, são feitos 9 exames clínicos que formam com a idade e sexo um conjunto

de 11 variáveis. As tabelas 1 e 2 mostram os resultados das medidas dessas 11 variáveis

para amostras da população de sobreviventes (n1 = 23) e mortos (n2 = 7), respectiva-

mente, ao fim do período de tratamento. Um médico pesquisador quer saber no instante

pré-operatório, com base nas medidas das 11 variáveis, se o paciente morrerá ou não ao

fim do período de tratamento. Você seria capaz de auxiliar o médico nesta questão? Como

faria?

i idade sexo BT BD BI SGPT SGOT FOSF AMI TAP ALBU

1 46 1 41.8 21.2 20.6 234 178 58.75 92 14 3.3

2 52 0 21.4 12.95 8.45 55 80 20.87 92 15 3.5

3 73 0 26.2 13.6 12.6 90 97 10.58 104 14 2.7

4 47 0 31.6 16.5 15.4 31 59 15.86 92 13 3

5 66 0 40 20.9 19.1 45 108 33.34 66 11 3.6

6 26 0 22 13.1 8.9 80 29 11.79 158 14 3

7 66 1 25.6 14 11.6 125 129 27.34 100 13 2.7

8 53 1 24.4 15 9.4 43 63 19.4 60 14 2.4

125

Page 126: Análise Multivariada - trabalho

9 34 0 19.8 11.6 8.2 24 47 6.41 92 13 3.6

10 50 1 25 14 11 86 149 42.48 10 14 1.5

11 69 1 11.9 7.55 4.35 176 92 21.88 104 13 3.4

12 63 1 15.6 9.1 6.5 21 44 22.1 144 15 3.9

13 43 1 13.7 7.7 6 25 63 26 79 13 3.2

14 76 0 10.4 7.3 3.1 35 50 25.74 104 13 3

15 66 1 19.8 10.7 9.1 48 68 25.74 104 14 3

16 73 0 16.2 9.9 6.3 132 71 22.08 196 15 3

17 46 1 8.6 5.6 3 28 56 25.74 104 15 3

18 45 1 19.4 10.1 9.3 99 87 10.43 158 17 2.6

19 60 1 18.8 10.1 8.7 33 92 24.07 158 17 2.3

20 76 0 19.1 12.2 6.9 60 71 44.31 66 13 4.2

21 33 0 3.8 2.4 1.4 35 61 21.33 60 13 3

22 46 1 3 2.2 0.8 390 400 65.95 132 15 3

23 55 1 13.4 6.85 6.55 45 97 9.85 123 14 2.7

Tabela 18: 1

i idade sexo BT BD BI SGPT SGOT FOSF AMI TAP ALBU

1 61 0 18.8 10.45 8.35 21 49 9.45 82 15 3.4

2 71 1 27.2 16.5 10.7 82 87 23.82 88 14 3.1

3 54 1 31.2 16.2 15 37 92 28.82 88 15 2.7

4 64 0 24.4 13.45 10.95 18 63 9.71 82 14 1.9

5 76 0 22 13.45 8.55 53 66 21.86 90 13 3.4

6 69 0 6.4 4.1 2.3 17 47 35.29 121 14 1.5

7 66 1 11.6 6.7 4.9 148 140 24.1 82 15 3.2

Tabela 19: 2

Faria uma análise discriminante para encontrar os coeficientes da função discriminante,onde seria possível, após a realização dos exames de certo paciente classifica-lo em algumgrupo. Neste caso, temos os coeficientes da função discriminante dado por:

*****************************************

* COEFICIENTES DA FUNÇÃO DISCRIMINANTE *

*****************************************

Columns 1 through 6

-0.0986 1.3059 -3.9929 3.9850 3.9813 -0.0023

Columns 7 through 11

0.0010 0.0338 0.0364 -1.0364 0.7732

**********************

126

Page 127: Análise Multivariada - trabalho

* MÉDIA UNIVARIADA *

**********************

-13.6213

onde a média univariada é -13.6213. Com os dados dos exames do paciente o médico pode

enquadrá-lo no grupo 1 caso o valor da função seja menor que a média univariada e no

grupo 2 se for maior.

4. Dados sobre petróleo coletados do arenito na região de Elk Hills, California, forneceram os

dados a seguir para as três amostras coletadas de 3 unidades estratigráficas: ¼1 = arenito

Wilhelm, ¼2 = arenito Sub-Mulinia e ¼3 = arenito Upper. Os dados referem-se às análise

químicas das amostras.

X1 X2 X3 X4 X5

3.9 51 0.2 7.06 12.19

2.7 49 0.07 7.14 12.23

2.8 36 0.3 7 11.3

3.1 45 0.08 7.2 13.01

3.5 46 0.1 7.81 12.63

3.9 43 0.07 6.25 10.42

2.7 35 0 5.11 9

Tabela 20: Amostra da População 1

X1 X2 X3 X4 X5

5 47 0.07 7.06 6.1

3.4 32 0.2 5.82 4.69

1.2 12 0 5.54 3.15

8.4 17 0.07 6.31 4.55

4.2 36 0.5 9.25 4.95

4.2 35 0.5 5.69 2.22

3.9 41 0.1 5.63 2.94

3.9 36 0.07 6.19 2.27

7.3 32 0.3 8.02 12.92

4.4 46 0.07 7.54 5.76

3 30 0 5.12 10.77

Tabela 21: Amostra da População 2

X1 X2 X3 X4 X5

127

Page 128: Análise Multivariada - trabalho

6.3 13 0.5 4.24 8.27

1.7 5.6 1 5.69 4.64

7.3 24 0 4.34 2.99

7.8 18 0.5 3.92 6.09

7.8 25 0.7 5.39 6.2

7.8 26 1 5.02 2.5

9.5 17 0.05 3.52 5.71

7.7 14 0.3 5.65 8.63

11 20 0.5 4.27 8.4

8 14 0.3 4.32 7.87

8.4 18 0.2 4.38 7.98

10 18 0.1 3.06 7.67

7.3 15 0.05 3.76 6.84

9.5 22 0.3 3.98 5.02

8.4 15 0.2 5.02 10.12

8.4 17 0.2 4.42 8.25

9.5 25 0.5 4.44 5.95

7.2 22 1 4.7 3.49

4 12 0.5 5.71 6.32

6.7 52 0.5 4.8 3.2

9 27 0.3 3.69 3.3

7.8 29 1.5 6.72 5.75

4.5 41 0.5 3.33 2.27

4 34 0.7 7.56 6.93

5.6 20 0.5 5.07 6.7

9 17 0.2 4.39 8.33

8.4 20 0.1 3.74 3.77

9.5 19 0.5 3.72 7.37

9 20 0.5 5.97 11.17

6.2 16 0.05 4.23 4.18

7.3 20 0.5 4.39 3.5

3.6 15 0.7 7 4.82

6.2 34 0.07 4.84 2.37

7.3 22 0 4.13 2.7

4.1 29 0.7 5.78 7.76

5.4 29 0.2 4.64 2.65

5 34 0.7 4.21 6.5

6.2 27 0.3 3.97 2.97

Tabela 22: Amostra da População 3

128

Page 129: Análise Multivariada - trabalho

(a) Determine os discriminantes para as populações com base nas observações amostrais.

*******************************************

* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *

*******************************************

Y1 =

0.3183 -0.0668 2.1116 -0.2960 -0.2500

Y2 =

-0.0906 0.0287 2.2717 -1.0046 0.3771

*******************************************

* MÉDIAS UNIVARIADAS - MÉDIA(Y1)=COLUNA 1 *

* MÉDIA(Y2)=COLUNA 2, ETC. *

*******************************************

-6.5334 -1.2508

-3.7485 -3.5878

-1.1213 -1.5599

(b) Faça um gráfico que represente o “espaço discriminante” nas dimensões que você de-

terminou e represente a amostra no gráfico.

−8 −7 −6 −5 −4 −3 −2 −1 0 1−6

−5

−4

−3

−2

−1

0

1

11 1

1

1

11

2

2

2

2

2

22

2

2

2

23

3

3

3

333

3

3

33

3

33

3 3 3 3

3

33

3

3

3

33

3

3

3

3

3

333

3

3

3

3

1

2

3

ESPAÇO DISCRIMINANTE

Y1

Y2

(c) Marque no gráfico os centróides de cada população (estimados).

Vide gráfico do item anterior.

5. Uma Universidade aplicou 5 testes diferentes ao seus alunos, atribuindo escores que vari-

avam de 0 a 10. Em seguida separou-os em 3 grupos semelhantes, com base nos escores

dos testes. Uma amostra de cada grupo com os respectivos escores são dados:

129

Page 130: Análise Multivariada - trabalho

Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5

1 9 6 8 6 8

2 8 7 7 7 9

3 7 6 8 6 10

4 7 8 7 5 9

5 7 7 8 6 10

6 8 6 9 7 9

7 9 7 7 8 8

8 6 8 8 6 9

9 7 9 6 7 7

10 8 8 7 6 9

11 9 7 8 8 10

12 9 6 9 9 8

13 9 8 8 7 9

14 10 9 7 6 9

15 8 8 9 7 7

Tabela 23: Grupo A

Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5

1 6 7 6 5 8

2 5 7 7 6 7

3 6 6 8 5 8

4 7 7 7 4 7

5 5 7 6 5 6

6 5 8 5 6 8

7 5 7 6 5 8

8 6 6 7 6 7

9 7 5 6 4 9

10 5 4 5 5 6

Tabela 24: Grupo B

Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5

1 4 6 5 3 7

2 5 6 4 4 6

3 5 5 5 4 6

4 5 6 6 3 7

5 4 7 6 4 5

6 5 4 5 2 6

130

Page 131: Análise Multivariada - trabalho

7 6 5 6 3 7

8 5 6 5 3 5

Tabela 25: Grupo C

(a) Através da MANOVA, ao nível de significância de 5%, testar se os três grupos diferemsignificativamente, caso contrário eliminar as variáveis que não discriminam os grupos.

**********************************

* ESTATÍSTICA DO TESTE *

**********************************

F =

12.3047

**********************************

* VALOR DE p *

**********************************

1.4032e-010

Pela MANOVA concluímos que os três grupos diferem significativamente.

(b) Determine a função discriminante linear de Fisher para os três grupos, com base nas

amostras.

**********************************

* MATRIZ B *

**********************************

64.1523 31.4174 46.3409 61.6985 47.1659

31.4174 16.0280 23.4803 32.0439 24.2553

46.3409 23.4803 34.4364 46.8061 35.4864

61.6985 32.0439 46.8061 64.5455 48.6561

47.1659 24.2553 35.4864 48.6561 36.7614

**********************************

* MATRIZ W *

**********************************

25.9083 -5.5083 4.4167 2.8167 2.5917

-5.5083 33.6083 -6.1167 0.6833 -3.8917

4.4167 -6.1167 22.5333 3.1333 2.4833

2.8167 0.6833 3.1333 23.3333 -6.7167

2.5917 -3.8917 2.4833 -6.7167 26.2083

>> inv(W)*B

ans =

2.0452 0.9855 1.4577 1.9212 1.4747

1.7629 0.8906 1.3068 1.7730 1.3452

1.4671 0.7424 1.0891 1.4791 1.1218

131

Page 132: Análise Multivariada - trabalho

2.8544 1.4950 2.1808 3.0219 2.2736

2.4517 1.2731 1.8596 2.5641 1.9330

>> [e,l]=eig(inv(W)*B)

e =

0.3980 0.7450 0.2890 -0.0202 0.1123

0.3587 0.0905 -0.3979 0.6831 0.3708

0.2990 0.0583 -0.6784 0.0176 -0.7557

0.6010 -0.5653 0.5252 0.1972 -0.1293

0.5120 -0.3375 -0.1485 -0.7027 0.5120

l =

8.8265 0 0 0 0

0 0.1532 0 0 0

0 0 0.0000 0 0

0 0 0 -0.0000 0

0 0 0 0 0.0000

*******************************************

* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *

*******************************************

Y1 =

0.3980 0.3587 0.2990 0.6010 0.5120

Y2 =

0.7450 0.0905 0.0583 -0.5653 -0.3375

(c) Determine o erro de classificação.

Utilizando-se como base:

Grupo Média Y1 Média Y2

1 19,05495 -0,88322

2 15,21688 -0,08769

3 12,12641 -0,9544Calculando-se os escores Y1 e Y2 para cada amostra e verificando em qual ponto esta

amostra esta mais próxima, vem:

132

Page 133: Análise Multivariada - trabalho

Distância

Grupo 1 2 3 Classificação Tipo

1 18,06 -2,46 1,87 3,7 6,12 1 11

1 18,99 -0,42 0,47 3,78 6,88 1 11

1 18,38 0,3 1,36 3,18 6,37 1 11

1 17,55 -1 1,51 2,51 5,43 1 11

1 18,78 0,17 1,09 3,58 6,75 1 11

1 19,26 -0,46 0,47 4,06 7,15 1 11

1 19,53 -1,09 0,52 4,43 7,4 1 11

1 18,16 0,59 1,72 3,02 6,23 1 11

1 17,84 -0,46 1,29 2,65 5,73 1 11

1 18,69 -1,25 0,52 3,66 6,57 1 11

1 21,06 -0,33 2,08 5,85 8,95 1 11

1 20,51 -0,42 1,52 5,3 8,4 1 11

1 20,17 -1,59 1,32 5,17 8,07 1 11

1 19,97 -3,3 2,58 5,73 8,18 1 11

1 18,89 -1,54 0,68 3,95 6,78 1 11

2 15,78 -0,25 3,34 0,58 3,72 2 22

2 15,79 0,92 3,73 1,16 4,12 2 22

2 16,05 -0,29 3,06 0,86 3,98 2 22

2 15,25 -2,42 4,1 2,33 3,45 2 22

2 14,15 -0,12 4,96 1,07 2,19 2 22

2 16,11 1,38 3,71 1,72 4,62 2 22

2 15,34 0,72 4,04 0,81 3,62 2 22

2 15,82 0,09 3,38 0,62 3,83 2 22

2 15,29 -1,25 3,78 1,16 3,17 2 22

2 12,59 0,33 6,58 2,66 1,37 3 23

3 12,16 0,05 6,96 3,06 1,01 3 33

3 12,36 -0,54 6,7 2,89 0,48 3 33

3 12,29 -0,5 6,77 2,95 0,49 3 33

3 12,93 -0,99 6,12 2,46 0,81 3 33

3 12,42 -0,29 6,66 2,8 0,73 3 33

3 10,48 -1,79 8,62 5,03 1,85 3 33

3 12,96 -1,83 6,17 2,85 1,21 3 33

3 11,4 -1,75 7,7 4,16 1,07 3 33

O que dá a seguinte matriz confusão:

133

Page 134: Análise Multivariada - trabalho

Grupo Classificado

Grupo Origem 1 2 3

1 15 0 0

2 0 9 1

Com as probabilidades de classificação das por:

Grupo Classificado

Grupo Origem 1 2 3

1 0% 0% 0%

2 0% 90% 10%

3 0% 0% 100%

(d) Em qual grupo você classificaria um aluno com escores: x0 = [6 7 7 8 8]?

>> Xm1;

>> Xm2;

>> Xm3;

>> Y11=e(:,1)’*Xm1

Y11 =

16.6730

>> Y12=e(:,1)’*Xm2

Y12 =

13.3031

>> Y13=e(:,1)’*Xm3

Y13 =

10.6180

>> Y21=e(:,2)’*Xm1

Y21 =

0.3705

>> Y22=e(:,2)’*Xm2

Y22 =

-0.1874

>> Y23=e(:,2)’*Xm3

Y23 =

0.5427

>> YK=e(:,1)’*K

134

Page 135: Análise Multivariada - trabalho

YK =

15.8974

>> YK=e(:,2)’*K

YK =

-1.7106

Seria classificado no primeiro grupo, como pode ser observado na figura a seguir.

7 Lista 7: Regressão Logística

1. O gerente de uma seguradora de veículos está interessado em aprimorar a sua política

de vendas para expandir a base de clientes. Ele acredita que em muitas situações teria

condições de realizar contratos a preços mais competitivos se tivesse uma melhor percepção

da taxa de risco a que se expõe em cada operação. Recorrendo à sua base de dados, resolveu

extrair uma amostra aleatória de 36 elementos para identificar quais são as variáveis que

mais contribuem para diferenciá-los quanto à ocorrência de sinistros. Com isso, espera

poder estimar de forma mais racional o arisco a que ficará exposto em futuras operações

e, conseqüentemente, conceder descontos mais adequados. Os dados são:

Sinistro Idade Estado Civil Sexo

0 22 1 1

135

Page 136: Análise Multivariada - trabalho

1 24 0 0

0 45 1 1

0 58 0 1

0 27 1 0

1 31 0 1

1 32 0 1

0 30 0 0

0 56 0 1

0 44 0 1

1 21 0 1

1 23 0 1

0 29 1 0

0 20 1 0

0 60 1 1

1 30 0 1

1 22 0 1

0 26 1 0

0 19 0 0

0 18 0 0

0 21 1 1

0 59 0 1

1 24 0 0

0 56 0 1

0 54 0 1

0 47 0 1

0 40 1 0

1 31 1 1

0 43 0 0

0 35 1 0

0 23 1 0

1 22 1 1

0 21 1 1

0 63 0 1

0 22 1 0

0 26 1 0

Como consta no quadro dos dados, verificaram-se 17 ocorrências de sinistro numa amostra

de 36 clientes ( 1 = houve sinistro; 0 = não houve sinistro). Em relação a cada indivíduo,

foram levantadas as seguintes informações adicionais: o estado civil (1 = solteiro, 0 =

casado), a idade e, finalmente, o sexo (1 = feminino; 0 = masculino). Baseando-se nesse

136

Page 137: Análise Multivariada - trabalho

histórico pede-se:

(a) determine um modelo capaz de descrever o relacionamento existente entre a ocorrência

de sinistros e as variáveis sexo, idade e estado civil. Usando o Software Statistica,

obteve-se

ˆ0 = 3.78104, ˆ1 = −0.189572, ˆ2 = −3.62511 e ˆ

3 = 3.70268

logo temos

¼(x1, x2, x3) =e3.78104−0.189572x1−3.62511x2+3.70268x3

1 + e3.78104−0.189572x1−3.62511x2+3.70268x3

x1 = Idade, x2 = Estado Civil, x3 = Sexo.

(b) estime a probabilidade de sinistro associada a um cliente de sexo masculino, casado e

com 25 anos de idade.

¼(25, 0, 0) = 0.2772

(c) para o mesmo cliente do item anterior, qual a probabilidade de sinistro se ele fore

solteiro?

¼(25, 1, 0) = 0.0101

(d) compare os resultados obtidos nos dois itens anteriores e reflita sobre as estratégias

que poderiam ser adotadas pela companhia para atrair novos clientes.

2. Considere a variável idade (AGE) e a variável dicotômica (CHD) que indica a presença (1)

ou ausência (0) de evidência de problemas coronários significativos em 100 indivíduos (ID)

com os números 1 a 100. A variável (AGRP) indica a faixa etária do indivíduo.

ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD

1 1 20 0 35 3 38 0 68 6 51 0

2 1 23 0 36 3 39 0 69 6 52 0

3 1 24 0 37 3 39 1 70 6 52 1

4 1 25 0 38 4 40 0 71 6 53 1

5 1 25 1 39 4 40 1 72 6 53 1

6 1 26 0 40 4 41 0 73 6 54 1

7 1 26 0 41 4 41 0 74 7 55 0

8 1 28 0 42 4 42 0 75 7 55 1

9 1 28 0 43 4 42 0 76 7 55 1

10 1 29 0 44 4 42 0 77 7 56 1

11 2 30 0 45 4 42 1 78 7 56 1

12 2 30 0 46 4 43 0 79 7 56 1

13 2 30 0 47 4 43 0 80 7 57 0

14 2 30 0 48 4 43 1 81 7 57 0

137

Page 138: Análise Multivariada - trabalho

15 2 30 0 49 4 44 0 82 7 57 1

16 2 30 1 50 4 44 0 83 7 57 1

17 2 32 0 51 4 44 1 84 7 57 1

18 2 32 0 52 4 44 1 85 7 57 1

19 2 33 0 53 5 45 0 86 7 58 0

20 2 33 0 54 5 45 1 87 7 58 1

21 2 34 0 55 5 46 0 88 7 58 1

22 2 34 0 56 5 46 1 89 7 59 1

23 2 34 1 57 5 47 0 90 7 59 1

24 2 34 0 58 5 47 0 91 8 60 0

25 2 34 0 59 5 47 1 92 8 60 1

26 3 35 0 60 5 48 0 93 8 61 1

27 3 35 0 61 5 48 1 94 8 62 1

28 3 36 0 62 5 48 1 95 8 62 1

29 3 36 1 63 5 49 0 96 8 63 1

30 3 36 0 64 5 49 0 97 8 64 0

31 3 37 0 65 5 49 1 98 8 64 1

32 3 37 1 66 6 50 0 99 8 65 1

33 3 37 0 67 6 50 1 100 8 69 1

34 3 38 0

(a) Efetuar uma regressão logística considerando a variável dependente (CHD) e como

variável independente as idades (AGE).

ˆ0 = −5.30945 e ˆ

1 = 0.1109

Logo, tem-se

¼(AGE) =e−5.30945+0.1109AGE

1 + e−5.30945+0.1109AGE

(b) Determinar os % de classificação correta.

Pred. Pred. Percent

0 1 Correct

0 45 12 78, 94736

1 14 29 67, 44186

(c) Determinar a variável (CHD) estimada para cada indivíduo.

138

Page 139: Análise Multivariada - trabalho

C:1 0,043479 C:34 0,250781 C:68 0,586017

C:2 0,059621 C:35 0,250781 C:69 0,612645

C:3 0,066153 C:36 0,272192 C:70 0,612645

C:4 0,073344 C:37 0,272192 C:71 0,638617

C:5 0,073344 C:38 0,294712 C:72 0,638617

C:6 0,081248 C:39 0,294712 C:73 0,663803

C:7 0,081248 C:40 0,318280 C:74 0,688091

C:8 0,099422 C:41 0,318280 C:75 0,688091

C:9 0,099422 C:42 0,342817 C:76 0,688091

C:10 0,109804 C:43 0,342817 C:77 0,711387

C:11 0,121125 C:44 0,342817 C:78 0,711387

C:12 0,121125 C:45 0,342817 C:79 0,711387

C:13 0,121125 C:46 0,368224 C:80 0,733617

C:14 0,121125 C:47 0,368224 C:81 0,733617

C:15 0,121125 C:48 0,368224 C:82 0,733617

C:16 0,121125 C:49 0,394383 C:83 0,733617

C:17 0,146793 C:50 0,394383 C:84 0,733617

C:18 0,146793 C:51 0,394383 C:85 0,733617

C:19 0,161237 C:52 0,394383 C:86 0,754725

C:20 0,161237 C:53 0,421163 C:87 0,754725

C:21 0,176807 C:54 0,421163 C:88 0,754725

C:22 0,176807 C:55 0,448414 C:89 0,774674

C:23 0,176807 C:56 0,448414 C:90 0,774674

C:24 0,176807 C:57 0,475979 C:91 0,793445

C:25 0,176807 C:58 0,475979 C:92 0,793445

C:26 0,193533 C:59 0,475979 C:93 0,811033

C:27 0,193533 C:60 0,503690 C:94 0,827449

C:28 0,211436 C:61 0,503690 C:95 0,827449

C:29 0,211436 C:62 0,503690 C:96 0,842716

C:30 0,211436 C:63 0,531379 C:97 0,856866

C:31 0,230521 C:64 0,531379 C:98 0,856866

C:32 0,230521 C:65 0,531379 C:99 0,869939

C:33 0,230521 C:66 0,558876 C:100 0,912465

C:67 0,558876

(d) Construir o histograma para os resíduos da regressão.

139

Page 140: Análise Multivariada - trabalho

Normal Esperada

No de obs.

Distr. Frequencia

(e) Considere agora uma regressão logística múltipla onde a variável dependente é CHD

e as variáveis independentes são ID e AGRP.

ˆ0 = −5.93116, ˆ

1 = −0.148642 e ˆ0 = 0.1399

logo tem-se

¼(AGRP,AGE) = e−5.93116−0.148642+0.1399AGE

1+e−5.93116−0.148642+0.1399AGE

(f) Determinar os % de classificação correta.

Pred. Pred. Percent

0 1 Correct

0 45 12 78,94736

1 14 29 67,44186

(g) Determinar a variável (CHD) estimada para cada indivíduo.

140

Page 141: Análise Multivariada - trabalho

C:1 0,036193 C:34 0,257058 C:68 0,577206

C:2 0,054046 C:35 0,257058 C:69 0,610925

C:3 0,061660 C:36 0,284667 C:70 0,610925

C:4 0,070268 C:37 0,284667 C:71 0,643615

C:5 0,070268 C:38 0,282888 C:72 0,643615

C:6 0,079974 C:39 0,282888 C:73 0,675020

C:7 0,079974 C:40 0,312106 C:74 0,673097

C:8 0,103130 C:41 0,312106 C:75 0,673097

C:9 0,103130 C:42 0,342899 C:76 0,673097

C:10 0,116806 C:43 0,342899 C:77 0,703103

C:11 0,115906 C:44 0,342899 C:78 0,703103

C:12 0,115906 C:45 0,342899 C:79 0,703103

C:13 0,115906 C:46 0,375073 C:80 0,731453

C:14 0,115906 C:47 0,375073 C:81 0,731453

C:15 0,115906 C:48 0,375073 C:82 0,731453

C:16 0,115906 C:49 0,408390 C:83 0,731453

C:17 0,147794 C:50 0,408390 C:84 0,731453

C:18 0,147794 C:51 0,408390 C:85 0,731453

C:19 0,166295 C:52 0,408390 C:86 0,758027

C:20 0,166295 C:53 0,406277 C:87 0,758027

C:21 0,186604 C:54 0,406277 C:88 0,758027

C:22 0,186604 C:55 0,440412 C:89 0,782753

C:23 0,186604 C:56 0,440412 C:90 0,782753

C:24 0,186604 C:57 0,475121 C:91 0,781261

C:25 0,186604 C:58 0,475121 C:92 0,781261

C:26 0,185279 C:59 0,475121 C:93 0,804226

C:27 0,185279 C:60 0,510071 C:94 0,825319

C:28 0,207330 C:61 0,510071 C:95 0,825319

C:29 0,207330 C:62 0,510071 C:96 0,844578

C:30 0,207330 C:63 0,544923 C:97 0,862069

C:31 0,231261 C:64 0,544923 C:98 0,862069

C:32 0,231261 C:65 0,544923 C:99 0,877877

C:33 0,231261 C:66 0,542752 C:100 0,926357

C:67 0,542752141

Page 142: Análise Multivariada - trabalho

(h) Construir o histograma para os resíduos da regressão.

3. Uma amostra consiste de 40 empresas clientes de um Banco de Desenvolvimento, sendo

30 classificadas como adimplentes e 10 como inadimplentes. Conhece-se os índices de

8 variáveis econômico-financeiras descritas como: MG = margem de garantia; PCT =

participação de capitais de terceiros; IPL = imobilização do patrimônio líquido; LS =

liquidez seca; LC = liquidez corrente; LG = liquidez geral; RSV = retorno sobre vendas;

RPL = retorno sobre patrimônio líquido. Seja a variável dependente VD onde VD = 1

para as empresas adimplentes e VD = 0 para as empresas inadimplentes.

Empresa VD MG PCT IPL LS LC LG RVS RPL

1 1 1.72 1.39 97.87 2.61 2.61 0.61 9.7 32.58

2 1 1.6 1.67 152.17 0.56 0.94 0.69 12.54 26.42

3 1 8.65 0.13 21.24 4.17 7.02 7.02 13.35 21.11

4 1 3.17 0.46 84.57 1 1.6 1.33 5.59 7.75

5 1 1.63 1.58 90.15 1.02 1.25 1.06 -0.45 -3.43

6 1 2.15 0.87 56.5 1.16 1.4 1.5 7.46 7.83

7 1 1.94 1.06 61.38 0.98 1.5 1.36 0.82 3.49

8 1 1.97 1.03 84.46 0.4 0.95 1.14 0.45 2.08

9 1 1.68 1.47 104.91 0.79 1 0.97 -0.02 0.24

10 1 2.89 0.53 59.13 3.86 3.86 1.76 7.75 23.21

11 1 6.66 0.18 90.02 1.11 1.55 1.68 9.03 6.05

12 1 1.43 2.32 51.67 0.53 1.06 1.2 0.29 1.42

142

Page 143: Análise Multivariada - trabalho

13 1 3.6 0.38 91.81 1.59 3.22 1.21 15.53 20.52

14 1 1.67 1.49 144.64 0.71 1.76 0.7 19.18 84.12

15 1 1.71 1.4 35.57 1.91 2.13 1.45 3.78 11.15

16 1 13.44 0.09 95.61 2.39 3.57 2.51 17.49 17.98

17 1 3.05 0.49 115.49 0.7 0.79 0.68 2.23 2.64

18 1 21.29 0.05 98.44 1.79 2.07 2.07 21.94 12.84

19 1 2.24 0.81 87.25 1.11 1.49 1.16 -0.06 0.98

20 1 3.18 0.46 76.34 2.17 2.18 1.51 10.03 7.3

21 1 5.71 0.28 125 1.29 1.29 1.29 26.06 56.67

22 1 1.37 2.67 229.32 0.42 0.55 0.52 -0.99 -11.28

23 1 1.6 1.68 78.97 1.21 1.28 1.12 6.69 29.24

24 1 3.54 0.39 35.21 2.27 2.65 2.65 15 32.73

25 1 1.47 2.14 87.65 0.6 1.03 1.03 -2.13 -23.46

26 1 4.37 0.3 84.45 1.59 1.59 1.52 3.79 7.59

27 1 1.64 1.55 25.26 0.16 1.48 1.48 9.01 77.34

28 1 1.23 4.31 187.46 0.31 0.36 0.76 0.52 7.67

29 1 1.25 4.05 86.62 0.36 1.03 1.03 2.07 17.35

30 1 5.3 0.23 94.38 0.54 1.03 1.24 -3.06 -9.83

31 0 1.67 1.59 216.77 0.33 0.39 0.29 -1.05 -10.85

32 0 1.21 4.72 387.18 0.21 0.4 0.39 -23.45 -147.63

33 0 1.25 4.04 102.84 -0.03 1 0.99 2.02 8.06

34 0 1.08 17.52 63 0.24 1.21 1.05 -7.76 -25.24

35 0 1.17 5.88 219.05 0.36 1.29 0.8 1.62 2.2

36 0 1.87 1.15 87.61 0.74 1.28 1.1 -40.36 -135.03

37 0 1.45 2.22 227.74 0.39 0.92 0.42 -50.67 -26.3

38 0 1.19 5.31 475.96 0.3 0.33 0.27 -0.61 -9.55

39 0 2.09 0.92 189.03 0.06 0.06 0.03 -0.08 5.61

40 0 1.31 15.81 154.59 0.75 1.35 1.21 4.72 34.67

(a) Utilizando o Método de Descarte de Variáveis Independentes, visto na Lista 4 (Análise

de Componentes Principais) determinar quais variáveis devem permanecer na análise.

143

Page 144: Análise Multivariada - trabalho

O método de descarte sugere descartar um número de variáveis igual ao número de

autovalores menores que 0.7. Como pode ser observado no screeplot acima, são 5

variáveis. Analisando os coeficientes:

Autovalor

Var 1 2 3 4 5 6 7 8 9

X1 0.0956 0.4145 -0.2769 -0.5960 -0.0542 0.1745 -0.3204 0.3600 0.3486

X2 0.0333 0.2195 0.1665 0.0467 -0.5641 -0.6898 -0.1216 -0.1850 0.2787

X3 -0.0024 0.2190 0.0172 -0.4346 -0.2761 0.0691 0.7854 -0.1119 -0.2292

X4 0.0160 0.2528 -0.2666 -0.1758 0.6075 -0.5919 -0.0051 -0.1068 -0.3209

X5 -0.4827 0.0551 0.5558 -0.2709 0.3632 0.0502 0.0188 -0.2957 0.3992

X6 0.7739 0.0475 0.0435 0.0678 0.2440 0.0986 0.1680 -0.3653 0.4018

X7 -0.3820 -0.0335 -0.7085 0.1713 -0.0371 0.0707 0.1535 -0.3882 0.3756

X8 0.0421 -0.6759 -0.0757 -0.2437 0.0905 -0.3442 0.2724 0.4059 0.3328

X9 -0.0994 0.4527 0.0758 0.5061 0.1800 -0.0532 0.3733 0.5253 0.2697As variáveis descartadas foram: X2 : MG, X3: PCT , X4: IPL, X6: LC, X9: RPL

(b) Efetuar uma regressão logística múltipla considerando a variável dependente (VD) e

como variáveis independente aquelas que permaneceram após o descarte feito no item

anterior.

Model: Logistic regression (logit) N of 0’s:10 1’s:30

Dep. var: VD Loss: Max likelihood

Final loss: 8,953831045 Chi2(3)=27,079 p=,00001

144

Page 145: Análise Multivariada - trabalho

Const.B0 LS LG RVS

Estimate -3,24551 5 2 0,15

Odds ratio (unit ch) 0,03895 126 8 1,16

Odds ratio (range) 671741504 1729328 72719,5

e−3,24551+5LS+2LG+0,15RV S

1 + e−3,24551+5LS+2LG+0,15RV S

(c) Determinar os % de classificação correta.

Classification of Cases (lista7exe2.sta)

Odds ratio: 56,000

Pred. Pred. Percent

0 1 Correct

0 8 2 80

1 2 28 93,33334

(d) Determinar a variável (VD) estimada para cada empresa.

C:1 ,999994 C:11 ,998989 C:21 ,999921 C:31 ,230445

C:2 ,937724 C:12 ,861459 C:22 ,428275 C:32 ,007775

C:3 1,000000 C:13 ,999899 C:23 ,997234 C:33 ,256984

C:4 ,994190 C:14 ,988191 C:24 1,000000 C:34 ,257574

C:5 ,978185 C:15 ,999927 C:25 ,812119 C:35 ,593120

C:6 ,998556 C:16 1,000000 C:26 ,999704 C:36 ,035836

C:7 ,988006 C:17 ,865842 C:27 ,868120 C:37 ,000375

C:8 ,749960 C:18 ,999997 C:28 ,473084 C:38 ,209509

C:9 ,928765 C:19 ,989024 C:29 ,714051 C:39 ,051899

C:10 1,000000 C:20 ,999993 C:30 ,812953 C:40 ,972320

(e) Construir o histograma para os resíduos da regressão.

145

Page 146: Análise Multivariada - trabalho

(f) Como você classificaria uma empresa com os seguintes valores para as variáveis (con-

sidere somente aquelas variáveis que não foram descartadas)

MG = 2,37; PCT = 8,75; IPL = 254,54; LS = 0,97; LC = 1,23; LG = 0,76; RSV = 0,57;

RPL = 7,45.

Aplicando a fórmula vem:

Calculando g(x) = −3, 24551− 5LS + 2LG+ 0, 15RV S , vem: g(x) = 4, 242.

Calculando ¼(x) = eg(x)

1+eg(x)= e4,242

1+e4,242= 0, 9858 Sendo classificado como adimplente.

8 Lista 8: Análise de Agrupamento

1. As distâncias entre 5 pares de itens são dadas abaixo:

146

Page 147: Análise Multivariada - trabalho

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

0

4 0

6 9 0

1 7 10 0

6 3 5 8 0

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

Faça uma análise de agrupamentos utilizando os métodos:

(a) do vizinho mais próximo;

A B C D E

A 0

B 4 0

C 6 9 0

D 1 7 10 0

E 6 3 5 8 0

A,D B C E

A,D 0

B 4 0

C 6 9 0

E 6 3 5 0

A,D B,E C

A,D 0

B,E 4 0

C 6 5 0

O passo 3 junta A,D com B,E, sobrando a última ligação, A,D, B,E com C, na

distância 5.

No matlab

>> D=[0 4 6 1 6;

4 0 9 7 3;

6 9 0 10 5;

1 7 10 0 8;

6 3 5 8 0]

>> y=squareform(D)

>> z=linkage(y)

>> dendrogram(z)

>> r=cophenet(z,y)

D =

0 4 6 1 6

4 0 9 7 3

6 9 0 10 5

1 7 10 0 8

6 3 5 8 0

y =

147

Page 148: Análise Multivariada - trabalho

4 6 1 6 9 7 3 10 5 8

z =

1 4 1

2 5 3

6 7 4

3 8 5

r =

0.7727

(b) do vizinho mais distante;

>> z=linkage(y,’complete’)

>> dendrogram(z)

>> r=cophenet(z,y) z =

1 4 1

2 5 3

6 7 8

3 8 10

r =

0.7893

(c) construa os dendrogramas.

1 4 2 5 3

1

1.5

2

2.5

3

3.5

4

4.5

5

148

Page 149: Análise Multivariada - trabalho

1 4 2 5 3

1

2

3

4

5

6

7

8

9

10

2. Suponha que temos as medidas de 3 variáveis: X1, X2 e X3 para 6 itens: A, B, C, D, E e

F. Os dados são dados abaixo:

Itens X1 X2 X3

A 2 5 7

B 1 4 5

C 2 6 4

D 3 5 5

E 4 5 6

F 2 6 5

Usando a técnica das k-médias dividir os ítens em K = 2 grupos. Começar com os grupos

iniciais (ABC) e (DEF).

>> M=[2 5 7

1 4 5 2 6 4 3 5 5 4 5 6 2 6 5]

mx_ABC=mean(M(1:3,:)) mx_DEF=mean(M(4:6,:)) M =

2 5 7

1 4 5

2 6 4

3 5 5

4 5 6

2 6 5

mx_ABC =

149

Page 150: Análise Multivariada - trabalho

1.6667 5.0000 5.3333

mx_DEF =

3.0000 5.3333 5.3333

>> %Distancia A

>> d_A_ABC=sqrt(sum((M(1,:)-mx_ABC).^2))

>> d_A_DEF=sqrt(sum((M(1,:)-mx_DEF).^2))

>> %Distancia B

>> d_B_ABC=sqrt(sum((M(2,:)-mx_ABC).^2))

>> d_B_DEF=sqrt(sum((M(2,:)-mx_DEF).^2))

>> %Distancia C

>> d_C_ABC=sqrt(sum((M(3,:)-mx_ABC).^2))

>> d_C_DEF=sqrt(sum((M(3,:)-mx_DEF).^2))

>> %Distancia D

>> d_D_ABC=sqrt(sum((M(4,:)-mx_ABC).^2))

>> d_D_DEF=sqrt(sum((M(4,:)-mx_DEF).^2))

>> %Distancia E

>> d_E_ABC=sqrt(sum((M(5,:)-mx_ABC).^2))

>> d_E_DEF=sqrt(sum((M(5,:)-mx_DEF).^2))

>> %Distancia F

>> d_F_ABC=sqrt(sum((M(6,:)-mx_ABC).^2))

>> d_F_DEF=sqrt(sum((M(6,:)-mx_DEF).^2))

d_A_ABC =

1.6997

d_A_DEF =

1.9720

d_B_ABC =

1.2472

d_B_DEF =

2.4267

d_C_ABC =

1.6997

d_C_DEF =

1.7951

150

Page 151: Análise Multivariada - trabalho

d_D_ABC =

1.3744

d_D_DEF =

0.4714

d_E_ABC =

2.4267

d_E_DEF =

1.2472

d_F_ABC =

1.1055

d_F_DEF =

1.2472

>> G_ABCF=[M(1:3,:);M(6,:)]

G_DE=M(4:5,:)

mx_ABCF=mean(G_ABCF) mx_DE=mean(G_DE)

%Distancia A

d_A_ABCF=sqrt(sum((M(1,:)-mx_ABCF).^2))

d_A_DE=sqrt(sum((M(1,:)-mx_DE).^2))

%Distancia B

d_B_ABCF=sqrt(sum((M(2,:)-mx_ABCF).^2))

d_B_DE=sqrt(sum((M(2,:)-mx_DE).^2))

%Distancia C

d_C_ABCF=sqrt(sum((M(3,:)-mx_ABCF).^2))

d_C_DE=sqrt(sum((M(3,:)-mx_DE).^2))

%Distancia D

d_D_ABCF=sqrt(sum((M(4,:)-mx_ABCF).^2))

d_D_DE=sqrt(sum((M(4,:)-mx_DE).^2))

%Distancia E

d_E_ABCF=sqrt(sum((M(5,:)-mx_ABCF).^2))

d_E_DE=sqrt(sum((M(5,:)-mx_DE).^2))

%Distancia F

d_F_ABCF=sqrt(sum((M(6,:)-mx_ABCF).^2))

151

Page 152: Análise Multivariada - trabalho

d_F_DE=sqrt(sum((M(6,:)-mx_DE).^2)) disp(’Grupo1: ABCF’)

disp(’Grupo2: DE’) G_ABCF =

2 5 7

1 4 5

2 6 4

2 6 5

G_DE =

3 5 5

4 5 6

mx_ABCF =

1.7500 5.2500 5.2500

mx_DE =

3.5000 5.0000 5.5000

d_A_ABCF =

1.7854

d_A_DE =

2.1213

d_B_ABCF =

1.4790

d_B_DE =

2.7386

d_C_ABCF =

1.4790

d_C_DE =

2.3452

d_D_ABCF =

1.2990

d_D_DE =

0.7071

d_E_ABCF =

2.3848

d_E_DE =

0.7071

152

Page 153: Análise Multivariada - trabalho

d_F_ABCF =

0.8292

d_F_DE =

1.8708

Grupo1: ABCF Grupo2: DE

3. Usando os dados do Exercício 4 da LISTA 5 (Análise Fatorial), fazer uma Análise de

Agrupamento utilizando os diversos tipos de distâncias e ligações. Construir o dendrograma

para a melhor solução.

A tabela seguinte mostra as quantidades das 25 espécies de plantas mais abundantes em

17 lotes de um prado de pastagem na Reserva natural em Steneryd na Suécia medidas

por Persson (1981) e usadas para um exemplo de Digby e Kempton (1987). Cada valor

na tabela é a soma dos valores cobertos em intervalo de 0 a 5 por nove quadrantes de

amostra, de modo que um valor de 45 corresponde à completa cobertura pelas espécies

sendo consideradas. Note que as espécies estão em ordem das mais abundantes (1) às

menos abundantes (25), e os lotes estão na ordem dada por Digby e Kempton , a qual

corresponde à variação em certos fatores ambientais tais como luz e umidade. Execute

uma análise de agrupamentos para estudar o relacionamento entre (a) os 17 lotes e (b) as

25 espécies.

Espécies Lotes

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

E1 38 43 43 30 10 11 20 0 0 5 4 1 1 0 0 0 0

E2 0 0 0 4 10 7 21 14 13 19 20 19 6 10 12 14 21

E3 0 0 0 0 0 6 8 21 39 31 7 12 0 16 11 6 9

E4 10 12 19 15 16 9 0 9 28 8 0 4 0 0 0 0 0

E5 0 0 0 0 0 0 0 0 0 0 13 0 0 21 20 21 37

E6 0 0 0 0 0 0 0 0 0 0 1 0 0 0 11 45 45

E7 1 0 5 6 2 8 10 15 12 15 4 5 6 7 0 0 0

E8 0 7 0 10 9 9 3 9 8 9 2 5 5 1 7 0 0

E9 0 0 1 4 6 9 9 9 11 11 6 5 4 1 7 0 0

E10 0 0 0 0 0 8 0 14 2 14 3 9 8 7 7 2 1

E11 0 0 0 0 0 8 0 0 6 5 4 7 9 8 8 7 6

153

Page 154: Análise Multivariada - trabalho

E12 0 5 3 9 12 9 0 1 7 4 5 1 1 1 3 0 0

E13 0 0 0 0 0 0 30 0 14 3 8 0 3 3 0 0 0

E14 4 10 10 9 7 6 9 0 0 2 1 0 2 0 1 0 0

E15 2 9 7 15 13 8 0 0 0 0 0 0 0 0 0 0 0

E16 0 0 0 0 15 6 0 18 1 9 0 0 2 0 0 0 0

E17 12 7 16 8 1 6 0 0 0 0 0 0 0 0 0 0 0

E18 0 0 0 0 0 7 0 2 2 1 0 7 9 2 3 8 7

E19 0 0 0 0 0 7 9 2 12 6 3 8 0 0 0 0 0

E20 0 0 0 0 2 6 3 0 6 5 3 9 3 2 7 0 0

E21 0 0 0 0 0 4 1 4 2 9 6 8 4 1 6 0 0

E22 0 0 0 0 0 8 0 4 0 6 2 10 6 0 2 7 0

E23 1 9 16 9 5 2 0 0 0 0 0 0 0 0 0 0 0

E24 0 0 0 0 2 7 0 1 0 3 1 6 8 2 0 7 4

E25 0 0 6 14 19 2 0 0 0 0 0 0 0 0 0 0 0

Espécies: E1 = festuca ovina; E2 = anemone nemorosa; E3 = stallaria holostea; E4 =

agrostis tenuis; E5 = ranunculus ficaria; E6 = merculrialis perenis; E7 = poa pratenis; E8

= rumex acetosa; E9 = verônica chamaedrys; E10 = dactylis glomerata; E11 = fraxinus

Excelsior; E12 = saxifraga granulata; E13 = deschampsia flexuosa; E14 = luzula campestris;

E15 = plantago lanceolata; E16 = festuca rubra; E17 = hieracium pilosella; E18 = geum

urbanum; E19 = lathyrus montanus; E20 = campânula persicifolia; E21 = viola riviniana;

E22 = hepática nobilis; E23 = achillea millefolium; E24 = allium sp.; E25 = trifolim repens.

function analisefunc(X) distancia = [

’euclidean ’

’seuclidean ’

’mahalanobis’

’cityblock ’

’minkowski ’

’cosine ’

’correlation’

’hamming ’

’jaccard ’

’chebychev ’

154

Page 155: Análise Multivariada - trabalho

];

strdist= cellstr(distancia);

iTamDist = size(strdist);

ligacao = [

’single ’

’complete’

’average ’

’weighted’

’centroid’

’median ’

’ward ’ ];

strlink = cellstr(ligacao);

iTamLink = size(strlink); fid =

fopen(’c:\cophenet.txt’,’w’); for i=1:iTamDist

Y = pdist(X,char(strdist(i)));

for j=1:iTamLink

Z = linkage(Y,char(strlink(j)));

c = cophenet(Z,Y);

fprintf(fid,’%12s %12s %6.4f\n’,char(strdist(i)), char(strlink(j)), c);

end

end fclose(fid);

Distância Link Cophenet

euclidean single 0,68

euclidean complete 0,7

euclidean average 0,75

euclidean weighted 0,74

euclidean centroid 0,75

euclidean median 0,74

euclidean ward 0,64

seuclidean single 0,75

seuclidean complete 0,7

seuclidean average 0,83

seuclidean weighted 0,81

155

Page 156: Análise Multivariada - trabalho

seuclidean centroid 0,83

seuclidean median 0,43

seuclidean ward 0,61

mahalanobis single 0,81

mahalanobis complete 0,73

mahalanobis average 0,85

mahalanobis weighted 0,8

mahalanobis centroid 0,84

mahalanobis median 0,72

mahalanobis ward 0,58

cityblock single 0,61

cityblock complete 0,6

cityblock average 0,66

cityblock weighted 0,58

cityblock centroid 0,66

cityblock median 0,72

cityblock ward 0,6

minkowski single 0,68

minkowski complete 0,7

minkowski average 0,75

minkowski weighted 0,74

minkowski centroid 0,75

minkowski median 0,74

minkowski ward 0,64

cosine single 0,49

cosine complete 0,55

cosine average 0,65

cosine weighted 0,56

cosine centroid 0,64

cosine median 0,5

cosine ward 0,55

correlation single 0,59

correlation complete 0,47

correlation average 0,66

correlation weighted 0,53

correlation centroid 0,65

correlation median 0,62

correlation ward 0,48

hamming single 0,56

156

Page 157: Análise Multivariada - trabalho

hamming complete 0,69

hamming average 0,7973

hamming weighted 0,7906

hamming centroid -0,2757

hamming median 0,1574

hamming ward 0,2909

jaccard single 0,5581

jaccard complete 0,6883

jaccard average 0,7973

jaccard weighted 0,7906

jaccard centroid -0,2757

jaccard median 0,1574

jaccard ward 0,2909

chebychev single 0,6429

chebychev complete 0,7247

chebychev average 0,7307

chebychev weighted 0,7254

chebychev centroid 0,7307

chebychev median 0,6334

chebychev ward 0,7161

Ao analisar os dados acima, a melhor solução foi

Distância Link Cophenet

mahalanobis average 0,85

4. A tabela abaixo fornece as medidas de 5 variáveis nutricionais para 12 tipos de cereais

usados no café da manhã.

157

Page 158: Análise Multivariada - trabalho

Cereal X1 X2 X3 X4 X5

Proteínas Carboidratos Fat Calorias Vitamina A

2. Grape nuts 3 23 0 100 25

3. Super sugar 2 26 0 110 25

4. Special K 6 21 0 110 25

5.Rice Krispies 2 25 0 110 25

6. Raisin Bran 3 28 1 120 25

7. Product 19 2 24 0 110 100

8.Wheaties 3 23 1 110 25

9. Total 3 23 1 110 100

10.Puffed Rice 2 13 0 50 0

11. Sugar Corn Po 2 26 0 110 25

12. Sugar Smacks 1 25 0 110 25

(a) Usando os dados dessa tabela, calcular as distâncias Euclidianas entre pares de cereais.

- 27,4 26,29 25,1 26,04 28,55 100,21 25,5 100,12 60,44 26,29 26,21

27,4 - 10,49 10,63 10,25 20,64 75,68 10,05 75,67 56,8 10,49 10,39

26,29 10,49 - 6,4 1 10,3 75,03 3,32 75,07 66,29 - 1,41

25,1 10,63 6,4 - 5,66 12,61 75,17 3,74 75,09 65,61 6,4 6,4

26,04 10,25 1 5,66 - 10,54 75,01 2,45 75,04 66,1 1 1

28,55 20,64 10,3 12,61 10,54 - 75,78 11,18 75,83 75,84 10,3 10,68

100,21 75,68 75,03 75,17 75,01 75,78 - 75,02 1,73 117,14 75,03 75,01

25,5 10,05 3,32 3,74 2,45 11,18 75,02 - 75 65,78 3,32 3

100,12 75,67 75,07 75,09 75,04 75,83 1,73 75 - 117,06 75,07 75,06

60,44 56,8 66,29 65,61 66,1 75,84 117,14 65,78 117,06 - 66,29 66,11

26,29 10,49 - 6,4 1 10,3 75,03 3,32 75,07 66,29 - 1,41

26,21 10,39 1,41 6,4 1 10,68 75,01 3 75,06 66,11 1,41 -

(b) Tratando as distâncias calculadas em (a) como medidas de similaridade, efetuar o

procedimento hierárquico do vizinho mais próximo, construindo o dendrograma cor-

respondente.

Este procedimento no matlab corresponde ao modelo ’single’, com distância ’eu-

clidean’. Este dá o seguinte dendrogram.

158

Page 159: Análise Multivariada - trabalho

3 11 5 12 8 4 2 6 1 10 7 90

10

20

30

40

50

60

70

5. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens

obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra,

situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de

estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para

cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ...

, CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7;

COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área

total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e

b (mg/10g)).

Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT

1. T1 4.5 6.75 5.25 71 45.5 8.75 97.9 5.12 18

2. T2 8.75 9.5 11.5 43.5 53.75 14.5 52.4 1.91 15.22

3. T7 5.75 8.25 8.5 51.25 42 9.5 50.6 2.74 15.61

4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44

5. T15 5.5 6.5 5 73.25 40.5 6.5 96.5 6.68 17.9

6. T22 9.5 12 28.5 31.5 61.75 31.25 11.1 0.27 12.73

7. T26 9 10.25 9.25 61.75 48 10 90.2 3.71 14.82

8. T28 6.75 7.75 6.25 82 44.5 6.75 96.7 5.36 17.32

9. T33 6.25 6.5 5.25 80.25 46.75 6.75 96 6.55 15.09

159

Page 160: Análise Multivariada - trabalho

10. T43 8.5 10 8.25 74.75 55.5 10.5 97.9 2.05 16.28

11.F3A 9 11.5 20.5 43.75 58 22.25 19.7 0.81 10.25

12.F9 5.75 7 11 28.25 31 9 14.3 0.62 12.35

13.F10 6.25 7.5 17.5 22 31 13.5 4.2 0.15 8.26

14.F17 7 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36

15.F18 8.25 10.5 9 83 60 11.75 85.8 6.64 11.39

16.F36 6.75 8.25 8 59 46.75 9.75 45.5 2.2 12.29

17.F6A 8 10 11 49.25 48 14 16.9 1.17 13.27

18.F40 6.75 8 10.75 43.75 42 10 38.1 1.58 14.4

19.F41 7.75 10.25 15.5 45.25 58.75 20.5 29.2 0.74 15.62

20.F42 8.25 11 16.75 31.25 46.75 18.25 21.5 9.63 10.37

Agrupar as áreas de plantio em 2 grupos, utilizando as distâncias estudadas e as diferentes

ligações, calculando o coeficiente cofenético. Construir também o dendrograma e discutir

os resultados.

Euclidiana

Mahalanobis

160

Page 161: Análise Multivariada - trabalho

Cityblock

Minkosk

161

Page 162: Análise Multivariada - trabalho

Cosseno

Correlação

162

Page 163: Análise Multivariada - trabalho

Hamming

Jaccard

163

Page 164: Análise Multivariada - trabalho

Chebychev

Quadrado euclideana

164

Page 165: Análise Multivariada - trabalho

Distância Link Cophenet

chebychev average 0,8575

chebychev centroid 0,8569

chebychev median 0,8561

chebychev weighted 0,8549

chebychev ward 0,8544

chebychev complete 0,8542

chebychev single 0,853

euclidean average 0,8349

minkowski average 0,8349

euclidean weighted 0,8347

minkowski weighted 0,8347

euclidean median 0,8341

minkowski median 0,8341

euclidean centroid 0,8337

minkowski centroid 0,8337

euclidean single 0,83

minkowski single 0,83

euclidean complete 0,8295

165

Page 166: Análise Multivariada - trabalho

minkowski complete 0,8295

euclidean ward 0,8288

minkowski ward 0,8288

seuclidean centroid 0,7823

seuclidean average 0,7737

cityblock average 0,7684

seuclidean weighted 0,767

cityblock centroid 0,7668

seuclidean complete 0,7581

correlation average 0,7578

correlation centroid 0,7577

correlation weighted 0,7575

correlation median 0,7575

cityblock ward 0,7571

correlation complete 0,7565

correlation ward 0,7551

cosine average 0,7356

cosine centroid 0,7355

cosine weighted 0,7354

cosine median 0,7353

cosine complete 0,7349

cosine ward 0,734

correlation single 0,7317

seuclidean median 0,7288

cityblock weighted 0,7275

cityblock median 0,726

cityblock complete 0,7168

mahalanobis average 0,7059

cosine single 0,704

mahalanobis weighted 0,6818

cityblock single 0,6781

hamming average 0,6656

166

Page 167: Análise Multivariada - trabalho

jaccard average 0,6656

seuclidean ward 0,6648

mahalanobis centroid 0,6543

hamming weighted 0,6538

jaccard weighted 0,6538

mahalanobis median 0,6139

hamming ward 0,6067

jaccard ward 0,6067

mahalanobis complete 0,5812

hamming complete 0,5791

jaccard complete 0,5791

seuclidean single 0,5639

mahalanobis single 0,5571

mahalanobis ward 0,4771

hamming median 0,1378

jaccard median 0,1378

hamming single 0,1357

jaccard single 0,1357

hamming centroid -0,3076

jaccard centroid -0,3076

As distância que sugerem uma boa classificação são a de chebychev, euclideana e minkowski.

Todas elas, possuem o agrupamento similar ao dendrograma abaixo (chebychev, average).

167

Page 168: Análise Multivariada - trabalho

Grupo Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT

1 1. T1 4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00

5. T15 5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90

7. T26 9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82

8. T28 6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32

9. T33 6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09

10. T43 8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28

15.F18 8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39

2 2. T2 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22

3. T7 5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61

4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44

6. T22 9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73

11.F3A 9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25

12.F9 5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35

13.F10 6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26

14.F17 7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36

16.F36 6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29

17.F6A 8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27

18.F40 6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40

19.F41 7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62

20.F42 8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37

168

Page 169: Análise Multivariada - trabalho

9 Lista 9: Análise de Correlação Canônica

1. (Variáveis solo e vegetação em Belize) Para uma exemplo com um grande número de da-

dos, considere parte dos dados coletados por Green (1973) para um estudo dos fatores

influenciando a locação de lugares de habitação Maya pré-históricos no distrito de Corozal

em Belize na América Central. A Tabela seguinte mostra quatro variáveis do solo e qua-

tro variáveis da vegetação registradas para quadrados de 2,5 x 2,5 km. Use a análise de

correlação canônica para estudar o relacionamento entre estes dois grupos de variáveis.

Quadrado Variáveis de Solo Variáveis de Vegetação

X1 X2 X3 X4 Y1 Y2 Y3 Y4

1 40 30 0 30 0 25 0 0

2 20 0 0 10 10 90 0 0

3 5 0 0 50 20 50 0 0

4 30 0 0 30 0 60 0 0

5 40 20 0 20 0 95 0 0

6 60 0 0 5 0 100 0 0

7 90 0 0 10 0 100 0 0

8 100 0 0 0 20 80 0 0

9 0 0 0 10 40 60 0 0

10 15 0 0 20 25 10 0 0

11 20 0 0 10 5 50 0 0

12 0 0 0 50 5 60 0 0

13 10 0 0 30 30 60 0 0

14 40 0 0 20 50 10 0 0

15 10 0 0 40 80 20 0 0

16 60 0 0 0 100 0 0 0

17 45 0 0 0 5 60 0 0

18 100 0 0 0 100 0 0 0

19 20 0 0 0 20 0 0 0

20 0 0 0 60 0 50 0 0

21 0 0 0 80 0 75 0 0

22 0 0 0 50 0 50 0 0

23 30 10 0 60 0 100 0 0

24 0 0 0 50 0 50 0 0

169

Page 170: Análise Multivariada - trabalho

25 50 20 0 30 0 100 0 0

26 5 15 0 80 0 100 0 0

27 60 40 0 0 10 90 0 0

28 60 40 0 0 50 50 0 0

29 94 5 0 0 90 10 0 0

30 80 0 0 20 0 100 0 0

31 50 50 0 0 25 75 0 0

32 10 40 50 0 75 25 0 0

33 12 12 75 0 10 90 0 0

34 50 50 0 0 15 85 0 0

35 50 40 10 0 80 20 0 0

36 0 0 100 0 100 0 0 0

37 0 0 100 0 100 0 0 0

38 70 30 0 0 50 50 0 0

39 40 40 20 0 50 50 0 0

40 0 0 100 0 100 0 0 0

41 25 25 50 0 100 0 0 0

42 40 40 0 20 80 20 0 0

43 90 0 0 10 100 0 0 0

44 100 0 0 0 100 0 0 0

45 100 0 0 0 90 10 0 0

46 10 0 0 90 100 0 0 0

47 80 0 0 20 100 0 0 0

48 60 0 0 30 80 0 0 0

49 40 0 0 0 0 30 0 0

50 50 0 0 50 100 0 0 0

51 50 0 0 0 40 0 0 0

52 30 30 0 20 30 60 0 0

53 20 20 0 40 0 100 0 0

54 20 80 0 0 0 100 0 0

55 0 10 0 60 0 75 0 0

56 0 50 0 30 0 75 0 0

57 50 50 0 0 30 70 0 0

170

Page 171: Análise Multivariada - trabalho

58 0 0 0 60 0 60 0 0

59 20 20 0 60 0 100 0 0

60 90 10 0 0 70 30 0 0

61 100 0 0 0 100 0 0 0

62 15 15 0 30 0 40 0 0

63 100 0 0 0 25 75 0 0

64 95 0 0 5 90 10 0 0

65 95 0 0 5 90 10 0 0

66 60 40 0 0 50 50 0 0

67 30 60 10 10 50 10 0 0

68 50 0 50 50 100 0 0 0

69 60 30 0 10 69 40 0 0

70 90 8 0 2 80 20 0 0

71 30 30 30 40 60 40 0 0

72 33 33 33 33 75 25 0 0

73 20 10 0 40 0 100 0 0

74 50 0 0 50 40 60 0 0

75 75 12 0 12 50 50 0 0

76 75 0 0 25 40 60 0 0

77 30 0 0 50 0 100 0 0

78 50 10 0 30 5 95 0 0

79 100 0 0 0 60 40 0 0

80 50 0 0 50 20 80 0 0

81 10 0 0 90 0 100 0 0

82 30 30 0 20 0 85 0 0

83 20 20 0 20 0 75 0 0

84 90 0 0 0 50 25 0 0

85 30 0 0 0 30 5 0 0

86 20 30 0 50 20 80 0 0

87 50 30 0 10 50 50 0 0

88 80 0 0 0 70 10 0 0

89 80 0 0 0 50 0 0 0

90 60 10 0 25 80 15 0 0

171

Page 172: Análise Multivariada - trabalho

91 50 0 0 0 75 0 0 0

92 70 0 0 0 75 0 0 0

93 100 0 0 0 85 15 0 0

94 60 30 0 0 40 60 0 0

95 80 20 0 0 50 50 0 0

96 100 0 0 0 100 0 0 0

97 100 0 0 0 95 5 0 0

98 0 0 0 60 0 50 0 0

99 30 20 0 30 0 60 0 40

100 15 0 0 35 20 30 0 0

101 40 0 0 45 70 20 0 0

102 30 0 0 45 20 40 0 20

103 60 10 0 30 10 65 5 20

104 40 20 0 40 0 25 0 75

105 100 0 0 0 70 0 0 30

196 100 0 0 0 40 60 0 0

107 80 10 0 10 40 60 0 0

108 90 0 0 10 10 0 0 90

109 100 0 0 0 20 10 0 70

110 30 50 0 20 10 90 0 0

111 60 40 0 0 50 50 0 0

112 100 0 0 0 80 10 0 10

113 60 0 0 40 60 10 30 0

114 50 50 0 0 0 100 0 0

115 60 30 0 10 25 75 0 0

116 40 0 0 60 30 20 50 0

117 30 0 0 70 0 50 50 0

118 50 20 0 30 0 100 0 0

119 50 50 0 0 25 75 0 0

120 90 10 0 0 50 50 0 0

121 100 0 0 0 60 40 0 0

122 50 0 0 50 70 30 0 0

123 10 10 0 80 0 100 0 0

172

Page 173: Análise Multivariada - trabalho

124 50 50 0 0 30 70 0 0

125 75 0 0 25 80 20 0 0

126 40 0 0 60 0 100 0 0

127 90 10 0 10 75 25 0 0

128 45 45 0 55 30 70 0 0

129 20 35 0 80 10 90 0 0

130 80 0 0 20 70 30 0 0

131 100 0 0 0 90 0 0 0

132 75 0 0 25 50 50 0 0

133 60 5 0 40 50 50 0 0

134 40 0 0 60 60 40 0 0

135 60 0 0 40 70 15 0 0

136 90 10 0 10 75 25 0 0

137 50 0 5 0 30 20 0 0

138 70 0 30 0 70 30 0 0

119 60 0 40 0 100 0 0 0

140 50 0 0 0 50 0 0 0

141 30 0 50 0 60 40 0 0

142 5 0 95 0 80 20 0 0

143 10 0 90 0 70 30 0 0

144 50 0 0 0 15 30 0 0

145 20 0 80 0 50 50 0 0

146 0 0 100 0 90 10 0 0

147 0 0 100 0 75 25 0 0

148 90 0 10 0 60 30 10 0

149 0 0 100 0 80 10 10 0

150 0 0 100 0 60 40 0 0

151 0 40 60 40 50 50 0 0

Nota: X1 = % de solo com enriquecimento constante de calário; X2 = % de solo de prado

com cálcio na água subterrânea; X3 = % de solo com matriz de coral sob condições de

enriquecimento constante de calcário; X4 = % de solo aluvial e orgânico adjacentes a rios

e solo orgânico salino na costa; Y1 = % de floresta decídua estacional com ervas de folhas

173

Page 174: Análise Multivariada - trabalho

largas; Y2 = % de floresta de locais altos e baixos coberta com água, plantas herbáceas em

lugares úmidos e pântanos; Y3 = % de floresta de palma de cohune; Y4 = % de floresta

mista.

>> X=[];

>> Y=[];

>> R11=corr(X)

R11 =

1.0000 -0.1433 -0.4089 -0.4692

-0.1433 1.0000 -0.0959 -0.0948

-0.4089 -0.0959 1.0000 -0.2387

-0.4692 -0.0948 -0.2387 1.0000

>> R22=corr(Y)

R22 =

1.0000 -0.7854 -0.0597 -0.1542

-0.7854 1.0000 -0.0682 -0.1366

-0.0597 -0.0682 1.0000 -0.0235

-0.1542 -0.1366 -0.0235 1.0000

>> R12=corr(X,Y)

R12 =

0.3785 -0.2693 -0.0292 0.1414

-0.2270 0.3831 -0.1045 -0.0494

0.3477 -0.2238 -0.0172 -0.0748

-0.3944 0.3475 0.2070 -0.0128

>> R21=corr(Y,X)

R21 =

0.3785 -0.2270 0.3477 -0.3944

-0.2693 0.3831 -0.2238 0.3475

-0.0292 -0.1045 -0.0172 0.2070

0.1414 -0.0494 -0.0748 -0.0128

>> R11i=inv(sqrtm(R11))

R11i =

1.3660 0.1922 0.4490 0.4905

0.1922 1.0479 0.1499 0.1574

174

Page 175: Análise Multivariada - trabalho

0.4490 0.1499 1.2362 0.3562

0.4905 0.1574 0.3562 1.2748

>> R22i=inv(R22)

R22i =

3.3498 2.7827 0.4111 0.9062

2.7827 3.3359 0.4147 0.8944

0.4111 0.4147 1.0562 0.1449

0.9062 0.8944 0.1449 1.2653

>> Rx=R11i*R12*R22i*R21*R11i

Rx =

0.3511 0.0271 0.2734 -0.0079

0.0271 0.1835 0.0077 0.1113

0.2734 0.0077 0.2407 -0.0290

-0.0079 0.1113 -0.0290 0.1578

>> [e,l]=eig(Rx)

e =

-0.7718 -0.0395 -0.6198 0.1361

-0.0531 -0.7421 -0.0333 -0.6673

-0.6321 0.0640 0.7700 -0.0593

0.0441 -0.6660 0.1478 0.7298

l =

0.5773 0 0 0

0 0.2841 0 0

0 0 0.0147 0

0 0 0 0.0569

>> A=R11i*e

A =

-1.3267 -0.4945 -0.4349 0.3891

-0.2917 -0.8805 -0.0153 -0.5671

-1.1201 -0.2870 0.7213 0.1478

-0.5559 -0.9624 0.1534 0.8710

>> a1=R11i*e(:,1)

a1 =

175

Page 176: Análise Multivariada - trabalho

-1.3267

-0.2917

-1.1201

-0.5559

>> a2=R11i*e(:,2)

a2 =

-0.4945

-0.8805

-0.2870

-0.9624

>> a3=R11i*e(:,3)

a3 =

-0.4349

-0.0153

0.7213

0.1534

>> a4=R11i*e(:,4)

a4 =

0.3891

-0.5671

0.1478

0.8710

>> R22i=inv(sqrtm(R22))

R22i =

1.5975 0.8473 0.1152 0.2583

0.8473 1.5939 0.1176 0.2523

0.1152 0.1176 1.0136 0.0411

0.2583 0.2523 0.0411 1.0645

>> R11i=inv(R11)

R11i =

2.3451 0.6084 1.3718 1.4856

0.6084 1.1823 0.4846 0.5133

1.3718 0.4846 1.8791 1.1382

176

Page 177: Análise Multivariada - trabalho

1.4856 0.5133 1.1382 2.0175

>> Ry=R22i*R21*R11i*R12*R22i

Ry =

0.5463 0.0123 0.0356 0.1177

0.0123 0.2731 0.0486 0.0262

0.0356 0.0486 0.0673 0.0242

0.1177 0.0262 0.0242 0.0464

>> [f,l]=eig(Ry)

f =

0.9687 0.1071 0.1898 -0.1193

0.0717 -0.9694 0.0353 -0.2322

0.0849 -0.2079 0.2721 0.9357

0.2222 -0.0747 -0.9427 0.2374

l =

0.5773 0 0 0

0 0.2841 0 0

0 0 0.0147 0

0 0 0 0.0569

>> B=R22i*f

B =

1.6753 -0.6936 0.1209 -0.2181

1.0010 -1.4977 0.0112 -0.3012

0.2152 -0.3155 0.2631 0.9171

0.5083 -0.3050 -0.9344 0.2018

>> b1=R22i*f(:,1)

b1 =

1.6753

1.0010

0.2152

0.5083

>> b2=R22i*f(:,2)

b2 =

-0.6936

177

Page 178: Análise Multivariada - trabalho

-1.4977

-0.3155

-0.3050

>> b3=R22i*f(:,3)

b3 =

0.1209

0.0112

0.2631

-0.9344

>> b4=R22i*f(:,4)

b4 =

-0.2181

-0.3012

0.9171

0.2018

Primeiro par de variáveis canônicas

U1 = a′1Z(1) = −1.3267Z

(1)1 − 0.2917Z

(1)2 − 1.1201Z

(1)3 − 0.5559Z

(1)4

V1 = b′1Z(2) = 1.6753Z

(2)1 + 1.0010Z

(2)2 + 0.2152Z

(2)3 + 0.5083Z

(2)4

Correlação Canônica

Corr(U1, V1) =√

(½∗1)2 =√¸1 =

√0, 5773 = 0.7598

−0, 76 representa a maior correlação possível entre Z(1) e Z(2).

Se fizermos

>> (a1’*a1)/4

ans =

0.8522

>> (b1’*b1)/4

ans =

1.0283

[(−1.3267)2 + (−0.2917)2 + (−1.1201)2 + (−0.5559)2]/4 = 0.8522

[(1.6753)2 + (1.0010)2 + (0.2152)2 + (0.5083)2]/4 = 1.0283

As variáveis do grupo 2 representam melhor o total de variáveis.

178

Page 179: Análise Multivariada - trabalho

Correlações amostrais entre as variáveis originais e as variáveis canônicas

- U1 com X(1) =

X(1)1 −0.5661

X(1)2 0.0585

X(1)3 −0.4170

X(1)4 0.3617

>> Rux1=a1’*R11;

- U1 com X(2) =

X(2)1 −0.6063

X(2)2 0.3031

X(2)3 −0.0266

X(2)4 −0.0823

>> Rux2=a1’*R12;

- V1 com X(1) =

X(1)1 0.4301

X(1)2 −0.0444

X(1)3 0.3168

X(1)4 −0.2748

>> Rvx1=b1’*R21;

- V1 com X(2) =

X(2)1 0.7979

X(2)2 −0.3989

X(2)3 0.0349

X(2)4 0.1083

>> Rvx2=b1’*R22;

Segundo par de variáveis canônicas

U2 = a′2Z(1) = −0.4945Z

(1)1 − 0.8805Z

(1)2 − 0.2870Z

(1)3 − 0.9624Z

(1)4

V2 = b′2Z(2) = −0.6936Z

(2)1 − 1.4977Z

(2)2 − 0.3155Z

(2)3 − 0.3050Z

(2)4

Correlação Canônica

Corr(U2, V2) =√

(½∗2)2 =√¸2 =

√0, 2841 = 0.5330 O segundo par de variáveis tem uma

correlação menor do que o primeiro, e assim segue se calcularmos o terceiro e o quarto par

de variáveis.

2. Considere a matriz de covariância

179

Page 180: Análise Multivariada - trabalho

Cov(X) =

⎡⎢⎢⎢⎣

Σ11 ∣ Σ12

−−− ∣ − −−Σ21 ∣ Σ22

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

100 0 ∣ 0 0

0 1 ∣ 0.95 0

−−− −−− ∣ − −− −−−0 0.95 ∣ 1 0

0 0 ∣ 0 100

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

Verifique que o primeiro par de variáveis canônicas são: U1 = X(1)2 , V1 = X

(2)1 com

correlação canônica ½∗1 = 0, 95.

Grupo 1:

>> S11=[100 0;0 1]

S11 =

100 0

0 1

>> S12=[0 0;0.95 0]

S12 =

0 0

0.9500 0

>> S21=S12’

S21 =

0 0.9500

0 0

>> S22=[1 0;0 100]

S22 =

1 0

0 100

>> S11i=inv(sqrtm(S11));

>> S22i=inv(S22);

>> S=S11i*S12*S22i*S21*S11i;

>> [e,l]=eig(S)

e =

1 0

0 1

l =

180

Page 181: Análise Multivariada - trabalho

0 0

0 0.9025

>> a1=S11i*e(:,2)

a1 =

0

1

Grupo 2:

>> S22i=inv(sqrtm(S22));

>> S11i=inv(S11);

>> S=S22i*S21*S11i*S12*S22i;

>> [f,l]=eig(S)

f =

0 1

1 0

l =

0 0

0 0.9025

>> b1=S22i*f(:,2)

b1 =

1

0

Assim,

- U1 = a′1X(1) =

(0 1

)⎛⎝ X

(1)1

X(1)2

⎞⎠ = X

(1)2

- V1 = b′1X(2) =

(1 0

)⎛⎝ X

(2)1

X(2)2

⎞⎠ = X

(2)1

- Correlação Canônica

corr(U1, V1) =a′1Σ12b1√

a′1Σ11a1√b′1Σ22b1

=√

(½∗1)2 = 0, 95

3. Considere os vetores aleatórios (2× 1): X(1) e X(2) tendo vetor de médias e matriz covar-

iância conjuntas:

181

Page 182: Análise Multivariada - trabalho

¹ =

⎡⎢⎢⎢⎣

¹(1)

−−−¹(2)

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

−3

2

−−−0

1

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

Σ =

⎡⎢⎢⎢⎣

Σ11 ∣ Σ12

−−− ∣ − −−Σ21 ∣ Σ22

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

8 2 ∣ 3 1

2 5 ∣ −1 3

−−− −−− ∣ − −− −−−3 −1 ∣ 6 −2

1 3 ∣ −2 7

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

(a) Calcule as correlações canônicas: ½∗1 e ½∗2.

Grupo 1:

>> S11=[8 2;2 5]

S11 =

8 2

2 5

>> S12=[3 1;-1 3]

S12 =

3 1

-1 3

>> S21=S12’

S21 =

3 -1

1 3

>> S22=[6 -2;-2 7]

S22 =

6 -2

-2 7

>> S11i=inv(sqrtm(S11))

S11i =

0.3667 -0.0667

-0.0667 0.4667

182

Page 183: Análise Multivariada - trabalho

>> S22i=inv(S22)

S22i =

0.1842 0.0526

0.0526 0.1579

>> S=S11i*S12*S22i*S21*S11i

S =

0.2756 -0.0322

-0.0322 0.2690

>> [e,l]=eig(S)

e =

0.7422 0.6702

-0.6702 0.7422

l =

0.3046 0

0 0.2400

A =

0.3168 0.1962

-0.3622 0.3017

Grupo 2:

>> S22i=inv(sqrtm(S22))

S22i =

0.4243 0.0645

0.0645 0.3921

>> S11i=inv(S11)

S11i =

0.1389 -0.0556

-0.0556 0.2222

>> S=S22i*S21*S11i*S12*S22i

S =

0.2946 -0.0234

-0.0234 0.2500

>> [f,l]=eig(S)

f =

183

Page 184: Análise Multivariada - trabalho

0.9193 0.3936

-0.3936 0.9193

l =

0.3046 0

0 0.2400

>> B=S22i*f

B =

0.3647 0.2263

-0.0951 0.3858

Correlação Canônica

corr(U1, V1) = (½∗1)12 =

√0, 3046 = 0, 5519

corr(U2, V2) = (½∗2)12 =

√0, 24 = 0, 4899

0,5519 Representa a maior correlação possível entre X(1) e X(2).

(b) Determine os pares de variáveis canônicas: (U1, V1) e (U2, V2).

U1 = 0, 3168X(1)1 − 0, 3622X

(1)2 V1 = 0, 3647X

(2)1 − 0, 0951X

(2)2

U2 = 0, 1962X(1)1 + 0, 3017X

(1)2 V2 = 0, 2263X

(2)1 + 0, 3858X

(2)2

4. Em um estudo sobre pobreza, crime e repressão. Parker e Smith determinaram certos

sumários estatísticos do crime em vários estados americanos para os anos de 1970 e 1973.

Uma parte da matriz de correlação amostral é dada abaixo. As variáveis são:

X(1)1 = homicídios não-primários em 1973;

X(1)2 = homicídios primários (envolvendo familiares ou conhecidos) em 1973;

X(2)1 = severidade da penalidade (mediana dos meses de pena) em 1970;

X(2)2 = certeza da penalidade (número de admissões à prisão dividido pelo número de

homicídios) em 1970.

R =

⎡⎢⎢⎢⎣

R11 ∣ R12

−−− ∣ − −−R21 ∣ R22

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

1.0 0.615 ∣ −0.111 −0.266

0.615 1.0 ∣ −0.195 −0.085

−−− −−− ∣ − −− −−−−0.111 −0.195 ∣ 1.0 −0.269

−0.266 −0.085 ∣ −0.269 1.0

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

(a) Calcule as correlações canônicas amostrais.

184

Page 185: Análise Multivariada - trabalho

Primeiro Grupo

>> R11=[1 0.615; 0.615 1];

>> R12=[-0.111 -0.266;-0.195 -0.085];

>> R22=[1 -0.269;-0.269 1];

>> R21=R12’;

>> R11i=inv(sqrtm(R11));

>> R22i=inv(R22);

>> Rx=R11i*R12*R22i*R21*R11i;

>> [e,l]=eig(Rx)

e =

0.9463 -0.3232

0.3232 0.9463

l =

0.1067 0

0 0.0293

>> a1=R11i*e(:,1)

a1 =

1.0016

-0.0026

>> A=R11i*e

A =

1.0016 -0.7779

-0.0026 1.2682

Segundo Grupo

>> R22i=inv(sqrtm(R22));

>> R11i=inv(R11);

>> Ry=R22i*R21*R11i*R12*R22i;

>> [f,l]=eig(Ry)

f =

-0.8861 0.4634

0.4634 0.8861

l =

185

Page 186: Análise Multivariada - trabalho

0.0293 0

0 0.1067

>> b1=R22i*f(:,2)

b1 =

0.6016

0.9769

>> B=R22i*f

B =

-0.8462 0.6016

0.3518 0.9769

U1 = 1.0016Z(1)1 − 0.0026Z

(1)2

V1 = 0.6016Z(2)1 + 0.9769Z

(2)2

U2 = −0.7779Z(1)1 + 1.2682Z

(1)2

V2 = −0.8462Z(2)1 + 0.3518Z

(2)2

variáveis padronizadas variáveis padronizadas

z(1)1 z

(1)2 ½∗i z

(2)1 z

(2)2

a1 1.0016 -0.7779 0.3266 b1 -0.8462 0.6016

a2 -0.0026 1.2682 0.1712 b2 0.3518 0.9769

(b) Determine o primeiro par de correlação canônica amostral U1, V1 e interprete essas

quantidades.

U1 = 1.0016X(1)1 − 0.0026X

(1)2

V1 = 0.6016X(2)1 + 0.9769X

(2)2

>> Rux1=a1’*R11

Rux1 =

1.0000 0.6134

>> Rvx2=b1’*R22

Rvx2 =

0.3388 0.8150

>> Rux2=a1’*R12

Rux2 =

-0.1107 -0.2662

>> Rvx1=b1’*R21

186

Page 187: Análise Multivariada - trabalho

Rvx1 =

-0.3266 -0.2003

X(1) variáveis canônicas X(2) variáveis canônicas

U1 V1 U1 V1

hom. não-primários 1.0000 -0.1107 sever. pen. -0.3266 0.3388

hom. primários 0.6134 -0.2662 cert. da pen. -0.2003 0.8150O valor da correlação entre U1 e V1 é baixo, pode-se inferir com isso que não é pos-

sível, através de uma combinação linear de X(1) com outra combinação linear de

X(2), identificar uma relação ou influência ou associação entre estes conjuntos de var-

iáveis. Pode-se dizer que a certeza de penalidade faz com que o número de homicídios

primários seja menor do que o número de homicídios não primários. Este, por sua

vez, aumenta quando a severidade da pena cai.

5. Uma pesquisa envolvendo uma amostra de n = 70 famílias foi utilizada para determinar a

associação entre certas variáveis “demográficas” e certas variáveis “consumo”. Sejam:

- Conjunto padrão: X(1)1 = freqüência anual de refeições em restaurantes; X(1)

2 = fre-

qüência anual de ida ao cinema.

- Conjunto preditor: X(2)1 = idade do cabeça da família; X(2)

2 = renda anual da família;

X(2)3 = nível educacional do cabeça da família.

Suponha que a amostra forneceu para as variáveis consideradas a seguinte matriz de cor-

relação amostral:

R =

⎡⎢⎢⎢⎣

R11 ∣ R12

−−− ∣ − −−R21 ∣ R22

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

1.0 ∣0.80 1.0 ∣− − − −−− ∣ − −− −−− −−−0.26 0.33 ∣ 1.0

0.67 0.59 ∣ 0.37 1.0

0.34 0.34 ∣ 0.21 0.35 1.0

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

(a) Determine as correlações canônicas amostrais.

>> R11=[1 0.8;0.8 1];

>> R21=[0.26 0.33;0.67 0.59;0.34 0.34];

>> R12=R21’;

187

Page 188: Análise Multivariada - trabalho

>> R22=[1 0.37 0.21;0.37 1 0.35; 0.21 0.35 1];

>> R11i=inv(sqrtm(R11));

>> R22i=inv(R22);

>> Rx=R11i*R12*R22i*R21*R11i;

>> [e,l]=eig(Rx)

e =

0.5872 -0.8094

-0.8094 -0.5872

l =

0.0349 0

0 0.4733

>> a1=R11i*e(:,2)

a1 =

-0.7689

-0.2721

>> A=R11i*e

A =

1.4787 -0.7689

-1.6443 -0.2721

>> R22i=inv(sqrtm(R22));

>> R11i=inv(R11);

>> Ry=R22i*R21*R11i*R12*R22i;

>> [f,l]=eig(Ry)

f =

-0.2288 -0.9001 -0.3708

-0.9105 0.3326 -0.2456

-0.3444 -0.2814 0.8956

l =

0.4733 0 0

0 0.0349 0

0 0 -0.0000

>> B=R22i*f

B =

188

Page 189: Análise Multivariada - trabalho

-0.0491 -1.0003 -0.4070

-0.8975 0.5837 -0.3561

-0.1900 -0.2956 1.0129

>> b1=R22i*f(:,1)

b1 =

-0.0491

-0.8975

-0.1900

>> C1=sqrt(0.4733)

C1 =

0.6880

>> C2=sqrt(0.0349)

C2 =

0.1868

Logo, as correlações canônicas são:

- corr(U1, V1) = 0, 688

- corr(U2, V2) = 0, 1868

(b) Calcule as variáveis canônicas e procure interpretá-las.

- U1 = −0.8094Z(1)1 − 0.5872Z

(1)2 e V1 = −0.2288Z

(2)1 − 0.9105Z

(2)2 − 0.3444Z

(2)3

- U2 = 0.5872Z(1)1 − 0.8094Z

(1)2 e V2 = −0.9001Z

(2)1 + 0.3326Z

(2)2 − 0.2814Z

(2)3

Correlações entre as variáveis canônicas e as variáveis amostrais

- U1 com X(1) =X

(1)1 −0.9866

X(1)2 −0.8872

>> Rux1=a1’*R11;

- U1 com X(2) =

X(2)1 −0.2897

X(2)2 −0.6757

X(2)3 −0.3539

>> Rux2=a1’*R12;

- V1 com X(1) =X

(1)1 −0.6787

X(1)2 −0.6104

>> Rvx1=b1’*R21;

- V1 com X(2) =

X(2)1 −0.4211

X(2)2 −0.9822

X(2)3 −0.5145

189

Page 190: Análise Multivariada - trabalho

>> Rvx2=b1’*R22;

O grupo 1 tem uma boa correlação com o grupo 2 de quase 70%. O grupo 2 recebe

influência das variáveis do grupo 1 (X(1)1 e X(2)

1 ), ou seja, idade, renda familiar e nível

educacional demonstram quem são os frequentadores de cinemas e restaurantes, en-

quanto no grupo 1, recebe uma influência grande da variávelX(2)2 , ou seja, a frequência

em restaurantes e idas ao cinema crescem quando cresce a renda familiar.

6. Uma amostra das medidas do comprimento e da largura da cabeça dos dois primeiros filhos

adultos de uma amostra de 25 famílias são fornecidos abaixo (Data from Frets, 1921):

Identificação Primeiro Filho Segundo Filho

X(1)1 X

(1)2 X

(2)1 X

(2)2

1 191 155 179 145

2 195 149 201 152

3 181 148 185 149

4 183 153 188 149

5 176 144 171 142

6 208 157 192 152

7 189 150 190 149

8 197 159 189 152

9 188 152 197 159

10 192 150 187 151

11 179 158 186 148

12 183 147 174 147

13 174 150 185 152

14 190 159 195 157

15 188 151 187 158

16 163 137 161 130

17 195 155 183 158

18 186 153 173 148

19 181 145 182 146

20 175 140 165 137

21 192 154 185 152

22 174 143 178 147

190

Page 191: Análise Multivariada - trabalho

23 176 139 176 143

24 197 167 200 158

25 190 163 187 150

Onde:

X(1)1 = comprimento da cabeça (primeiro filho)

X(1)2 = largura da cabeça (primeiro filho)

X(2)1 = comprimento da cabeça (segundo filho)

X(2)2 = largura da cabeça (segundo filho)

(a) Determinar a matriz de correlação amostral.

>> X=[];

>> Y=[];

>> R11=corr(X)

R11 =

1.0000 0.7346

0.7346 1.0000

>> R22=corr(Y)

R22 =

1.0000 0.8393

0.8393 1.0000

>> R12=corr(X,Y)

R12 =

0.7108 0.7040

0.6932 0.7086

>> R21=corr(Y,X)

R21 =

0.7108 0.6932

0.7040 0.7086

191

Page 192: Análise Multivariada - trabalho

R =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1.0000 0.7346... 0.7108 0.7040

0.7346 1.0000... 0.6932 0.7086

. . . . . . . . . . . . . . .

0.7108 0.6932... 1.0000 0.8393

0.7040 0.7086... 0.8393 1.0000

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

(b) Calcule as correlações canônicas amostrais.

>> R11i=inv(sqrtm(R11));

>> R22i=inv(R22);

>> Rx=R11i*R12*R22i*R21*R11i;

>> [e,l]=eig(Rx)

e =

0.7150 -0.6992

0.6992 0.7150

l =

0.6217 0

0 0.0029

>> a1=R11i*e(:,1)

a1 =

0.5522

0.5215

>> A=R11i*e

A =

0.5522 -1.3664

0.5215 1.3784

>> R22i=inv(sqrtm(R22));

>> R11i=inv(R11);

>> Ry=R22i*R21*R11i*R12*R22i;

>> [f,l]=eig(Ry)

f =

-0.7139 -0.7003

0.7003 -0.7139

l =

192

Page 193: Análise Multivariada - trabalho

0.0029 0

0 0.6217

>> b1=R22i*f(:,2)

b1 =

-0.5044

-0.5383

>> B=R22i*f

B =

-1.7686 -0.5044

1.7586 -0.5383

Assim, tem-se que

- corr(U1, V1) = 0.7885

- corr(U2, V2) = 0.0539

(c) Calcule as variáveis canônicas amostrais e procure interpretá-las.

- U1 = 0.5522Z(1)1 + 0.5215Z

(1)2 e V1 = −0.5044Z

(2)1 − 0.5383Z

(2)2

- U2 = −1.3664Z(1)1 + 1.3784Z

(1)2 e V2 = −1.7686Z

(2)1 + 1.7586Z

(2)2

>> Rux1=a1’*R11

Rux1 =

0.9353 0.9272

>> Rvx2=b1’*R22

Rvx2 =

-0.9562 -0.9616

>> Rux2=a1’*R12

Rux2 =

0.7540 0.7583

>> Rvx1=b1’*R21

Rvx1 =

-0.7375 -0.7311

Correlações entre as variáveis canônicas e as variáveis originais

- U1 com X(1) =X

(1)1 0.9353

X(1)2 0.9272

193

Page 194: Análise Multivariada - trabalho

- U1 com X(2) =X

(2)1 0.7540

X(2)2 0.7583

- V1 com X(1) =X

(1)1 −0.7375

X(1)2 −0.7311

- V1 com X(2) =X

(2)1 −0.9562

X(2)2 −0.9616

O primeiro par de variáveis canônicas tem uma alta correlação de quase 79%. As

variáveis do grupo 1 tem uma excelente correlação com U1 e o mesmo ocorre com as

variáveis do grupo 2 (correlação alta com V1). As cabeças dos irmãos mais velhos com

seus respectivos irmãos mais novos são bem correlacionadas, o que indica a cabeça de

irmãos serão sempre parecidas em relação ao comprimento e largura.

194


Recommended