Estatística Multivariada Pré- viali/cursos/ceea/multi/laminas/CEEA_02.pdf · Prof. Lorí Viali, Dr

  • View
    212

  • Download
    0

Embed Size (px)

Text of Estatística Multivariada Pré- viali/cursos/ceea/multi/laminas/CEEA_02.pdf · Prof. Lorí Viali,...

Prof. Lor Viali, Dr.viali@pucrs.br;viali@mat.ufrgs.br;

http://www.pucrs.br/famat/viali;http://www.mat.ufrgs.br/~viali/

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

A teoria dos mtodos estatsticos multivariados pode ser explicada razoavelmente bem somente com uso de alguma lgebra matricial. Por essa razo til, seno essencial ter pelo menos algum conhecimento nessa rea (Bryan F. J. Manly).

Estatstico Ecologista com mais de 30 anos de experincia como pesquisador, consultor e professor de Estatstica.

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Estatstica Multivariada

Pr-Requisitos

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Muitos dos procedimentos

multivariados so maximizaes ou

otimizaes. As noes de maximizao

e de combinaes lineares so

combinadas em muitos procedimentos

multivariados.

Otimizao (Maximizao)

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Na regresso mltipla uma

combinao linear dos previsores que maximiza a correlao com a varivel dependente procurado e na Anlise de Componentes Principais a Combinao Linear das variveis responsvel pela maior poro da varincia considerada.

Exemplos:

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

A idia de Combinao Linear de

variveis bsica para quase todos os

tipos de Anlise Multivariada. Uma

Combinao Linear de p variveis dada

por: Y = a1x1 + a2x2 + ... + apxp, onde a1, a2,

..., ap so os coeficientes das variveis.

Combinao Linear

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Suponha que tenhamos um grupo tratamento e controle ou um pr e um

ps teste. Se representarmos as variveis por x1 (pr-teste) e x2 (ps-teste) ento a varivel diferena pode ser escrita como Y = x2 - x1, onde a1 = -1 e a2 = 1.

Exemplo:

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Distncias

Considere dois pontos (x1, y1) e

(x2, y2) no plano. Ento a distncia

usual (Euclidiana) entre os dois

pontos obtida pela aplicao do

teorema de Pitgoras.

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Assim:

d2 = (x2 x1)2 + (y2 y1)2

Ou, tambm:

)yy()xx( 1212d22 +=

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Se os dois pontos forem (2, 3) e (4, 6), ento a distncia entre eles :

Exemplo:

61,313 1212d )36()24()yy()xx(

2222

==

=+=+=

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

As distncias entre dois pontos P =

(x1, x2, ..., xp) e Q = (y1, y2, ..., yp) no

espao p-dimensional dado por:

)yx()yx()yx( pp...2211)Q,P(d222 +++=

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Johnson e Wichern (1982) colocam

que: linhas retas e distncias euclidianas no so adequadas para muitos procedimentos estatsticos. Isso

de deve ao fato de que cada coordenada tem a mesma contribuio para o clculo da distncia.

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Quando as coordenadas

representam medidas que esto sujeitas

a flutuaes aleatrias de diferentes magnitudes, desejvel ponderar as coordenadas sujeitas a grande variabilidade com pesos menores do que

as com menor variabilidade (p. 20).Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Levar em conta:

(i) A variabilidade pode ser

diferente porque as escalas no

so as mesmas;

(ii) A correlao entre as variveis.

Fatores:

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

A distncia ao quadrado, padronizada

que se ajusta a diferentes variabilidades

dada por:

Um critrio

s)x(

s)x(

d 22

2

21

22 x22ix11i +=

Onde xi1 e xi2 representam os valores para o sujeito i na variveis 1 e 2 e ,

so as mdias das duas variveis.

x1x2

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Suponha que temos duas

variveis x1 e x2 com varincias 36 e 100 e com mdias 4 e 6. Vamos admitir que elas no esto correlacionadas. Para determinar a distncia de um

sujeito com escores (2, 3) at o vetor das mdias, isto , at (4, 6) fazemos:

Exemplo:

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Esses so os mesmos dois pontos que

foram considerados anteriormente. Note

que a maior parte da distncia devida a

varivel x2 (9). Depois de padronizada a

maior poro devida a x1 (0,11 em 0,20).

.20,009,011,010036

)63()42(d

222 =+=+=

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Suponha agora que as variveis tem uma correlao moderada, isto ,

rx1,x2 = 0,50. A distncia de Mahalanobis, que leva em conta a correlao dada por:

Correlao

+

=

ssx(x(

s)x(

s)x(

rD

21

2i1i22

2

21

2

22

)x)xr2x22ix11i1

1 21

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Prasanta ChandraMahalanobis (1893 - 1972). Fundou do ISI (Instituto de Estatstica Indiano). Lanou o peridico Sankhiana rea de Estatstica. Criou o conceito de amostra piloto.

Mahalanobis

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Note que se a correlao positiva

ento a distncia reduzida de uma

quantidade equivalente ao terceiro termo nos

colchetes. Isso ocorre porque as distncias ao

longo da segunda dimenso (da segunda

varivel) podem ser previstas pela correlao

com a outra varivel.

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Nesse caso, a distncia do ponto(2, 3) para (4, 6) supondo uma

correlao de 0,50 :

Exemplo:

13,010.6

)63)(42(5,0.2100361

1 )63()42(5,0

D22

22 =

+

=

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Se a correlao forte (por exemplo: 0,71, ento a distncia de

Mahalanobis ainda menor:

12,010.6

)63)(42(71,0.2100361

1 )63()42(71,0

D22

22 =

+

=

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Por outro lado se a correlao negativa, ento a distncia ser maior do que quando as variveis no forem

correlacionadas. Suponha que a correlao seja -0,5, ento:

40,010.6

)63)(42)(5,0.(2100361

1 )63()42(5,0

D22

22 =

+

=

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Qualquer distncia entre os pontos P e Q ser vlida desde que satisfaa as seguintes propriedades: d(P, Q) = d (Q , P)

d(P, Q) > 0 se P Q

d(P, Q) = 0 se P = Q

d(P, Q) d(P, R) + d(R, Q)

(Desigualdade triangular)

Propriedades

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

o conjunto dos reais;

n o conjunto dos vetoresn-dimensionais reais;

Os vetores em n so colunas ao menos que seja estabelecido o contrrio;

Para qualquer x n, x o vetor transposto de x, isto o vetor linha n-dimensional;

Vetores

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

O produto interno (inner product) de dois

vetores x, y n definido por: .

Quaisquer dois vetores x, y n

satisfazendo xy = 0 so ditos ortogonais.

Mdulo de um vetor

yxx in

iiy

==

1

'

. '. || xxx =

x...xx 2n2221 +++=

Mdulo e Produto Interno

|x|

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Clculo do ngulo entre dois vetores x e y.

x = [x1, x2]

y = [y1, y2]y2

y1 x1

x2x

y

21

ngulo entre dois Vetores

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Pela figura pode-se ver que o ngulo pode ser representado pela diferena entre os ngulos 1 e 2 formados pelos dois vetores e o primeiro eixo coordenado. Assim:

||)(

||)(

||)(

||)cos(

22

21

12

11

ysen e

xsen

yosc e

xyx

yx

==

==

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Ento:)(sen)(sen)cos()cos()cos()cos( 121212 +==

Substituindo vem:

|y||x|y'x

|y||x|

|y||y||x||y|)cos()cos(

yxyx

xyxy

2211

221112

=+

=

=

+

==

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Seja V = {v1, v2, ..., vn} um conjunto de

vetores com a mesma dimenso.

Uma Combinao Linear (CL) dos vetores

em V qualquer vetor v da forma:

v = c1v1 + c2v2 + ... + cnvn

onde c1, c2, ..., cn so escalares arbitrrios.

Dependncia e Independncia Linear

Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

Um conjunto V de n vetores m-

dimensionais linearmente

independente se a nica CL de vetores

em V que iguala a zero a combinao

trivial, isto