Estatística Multivariada Pré-Requisitos - mat.ufrgs.br viali/cursos/ceea/multi/laminas/CEEA_02.pdf ·

  • View
    214

  • Download
    0

Embed Size (px)

Text of Estatística Multivariada Pré-Requisitos - mat.ufrgs.br...

  • Prof. Lor Viali, Dr.viali@pucrs.br;viali@mat.ufrgs.br;

    http://www.pucrs.br/famat/viali;http://www.mat.ufrgs.br/~viali/

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    A teoria dos mtodos estatsticos multivariados pode ser explicada razoavelmente bem somente com uso de alguma lgebra matricial. Por essa razo til, seno essencial ter pelo menos algum conhecimento nessa rea (Bryan F. J. Manly).

    Estatstico Ecologista com mais de 30 anos de experincia como pesquisador, consultor e professor de Estatstica.

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Estatstica Multivariada

    Pr-Requisitos

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Muitos dos procedimentos

    multivariados so maximizaes ou

    otimizaes. As noes de maximizao

    e de combinaes lineares so

    combinadas em muitos procedimentos

    multivariados.

    Otimizao (Maximizao)

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Na regresso mltipla uma

    combinao linear dos previsores que maximiza a correlao com a varivel dependente procurado e na Anlise de Componentes Principais a Combinao Linear das variveis responsvel pela maior poro da varincia considerada.

    Exemplos:

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    A idia de Combinao Linear de

    variveis bsica para quase todos os

    tipos de Anlise Multivariada. Uma

    Combinao Linear de p variveis dada

    por: Y = a1x1 + a2x2 + ... + apxp, onde a1, a2,

    ..., ap so os coeficientes das variveis.

    Combinao Linear

  • Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Suponha que tenhamos um grupo tratamento e controle ou um pr e um

    ps teste. Se representarmos as variveis por x1 (pr-teste) e x2 (ps-teste) ento a varivel diferena pode ser escrita como Y = x2 - x1, onde a1 = -1 e a2 = 1.

    Exemplo:

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Distncias

    Considere dois pontos (x1, y1) e

    (x2, y2) no plano. Ento a distncia

    usual (Euclidiana) entre os dois

    pontos obtida pela aplicao do

    teorema de Pitgoras.

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Assim:

    d2 = (x2 x1)2 + (y2 y1)2

    Ou, tambm:

    )yy()xx( 1212d22 +=

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Se os dois pontos forem (2, 3) e (4, 6), ento a distncia entre eles :

    Exemplo:

    61,313 1212d )36()24()yy()xx(

    2222

    ==

    =+=+=

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    As distncias entre dois pontos P =

    (x1, x2, ..., xp) e Q = (y1, y2, ..., yp) no

    espao p-dimensional dado por:

    )yx()yx()yx( pp...2211)Q,P(d222 +++=

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Johnson e Wichern (1982) colocam

    que: linhas retas e distncias euclidianas no so adequadas para muitos procedimentos estatsticos. Isso

    de deve ao fato de que cada coordenada tem a mesma contribuio para o clculo da distncia.

  • Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Quando as coordenadas

    representam medidas que esto sujeitas

    a flutuaes aleatrias de diferentes magnitudes, desejvel ponderar as coordenadas sujeitas a grande variabilidade com pesos menores do que

    as com menor variabilidade (p. 20).Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Levar em conta:

    (i) A variabilidade pode ser

    diferente porque as escalas no

    so as mesmas;

    (ii) A correlao entre as variveis.

    Fatores:

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    A distncia ao quadrado, padronizada

    que se ajusta a diferentes variabilidades

    dada por:

    Um critrio

    s)x(

    s)x(

    d 22

    2

    21

    22 x22ix11i +=

    Onde xi1 e xi2 representam os valores para o sujeito i na variveis 1 e 2 e ,

    so as mdias das duas variveis.

    x1x2

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Suponha que temos duas

    variveis x1 e x2 com varincias 36 e 100 e com mdias 4 e 6. Vamos admitir que elas no esto correlacionadas. Para determinar a distncia de um

    sujeito com escores (2, 3) at o vetor das mdias, isto , at (4, 6) fazemos:

    Exemplo:

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Esses so os mesmos dois pontos que

    foram considerados anteriormente. Note

    que a maior parte da distncia devida a

    varivel x2 (9). Depois de padronizada a

    maior poro devida a x1 (0,11 em 0,20).

    .20,009,011,010036

    )63()42(d

    222 =+=+=

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Suponha agora que as variveis tem uma correlao moderada, isto ,

    rx1,x2 = 0,50. A distncia de Mahalanobis, que leva em conta a correlao dada por:

    Correlao

    +

    =

    ssx(x(

    s)x(

    s)x(

    rD

    21

    2i1i22

    2

    21

    2

    22

    )x)xr2x22ix11i1

    1 21

  • Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Prasanta ChandraMahalanobis (1893 - 1972). Fundou do ISI (Instituto de Estatstica Indiano). Lanou o peridico Sankhiana rea de Estatstica. Criou o conceito de amostra piloto.

    Mahalanobis

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Note que se a correlao positiva

    ento a distncia reduzida de uma

    quantidade equivalente ao terceiro termo nos

    colchetes. Isso ocorre porque as distncias ao

    longo da segunda dimenso (da segunda

    varivel) podem ser previstas pela correlao

    com a outra varivel.

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Nesse caso, a distncia do ponto(2, 3) para (4, 6) supondo uma

    correlao de 0,50 :

    Exemplo:

    13,010.6

    )63)(42(5,0.2100361

    1 )63()42(5,0

    D22

    22 =

    +

    =

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Se a correlao forte (por exemplo: 0,71, ento a distncia de

    Mahalanobis ainda menor:

    12,010.6

    )63)(42(71,0.2100361

    1 )63()42(71,0

    D22

    22 =

    +

    =

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Por outro lado se a correlao negativa, ento a distncia ser maior do que quando as variveis no forem

    correlacionadas. Suponha que a correlao seja -0,5, ento:

    40,010.6

    )63)(42)(5,0.(2100361

    1 )63()42(5,0

    D22

    22 =

    +

    =

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Qualquer distncia entre os pontos P e Q ser vlida desde que satisfaa as seguintes propriedades: d(P, Q) = d (Q , P)

    d(P, Q) > 0 se P Q

    d(P, Q) = 0 se P = Q

    d(P, Q) d(P, R) + d(R, Q)

    (Desigualdade triangular)

    Propriedades

  • Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    o conjunto dos reais;

    n o conjunto dos vetoresn-dimensionais reais;

    Os vetores em n so colunas ao menos que seja estabelecido o contrrio;

    Para qualquer x n, x o vetor transposto de x, isto o vetor linha n-dimensional;

    Vetores

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    O produto interno (inner product) de dois

    vetores x, y n definido por: .

    Quaisquer dois vetores x, y n

    satisfazendo xy = 0 so ditos ortogonais.

    Mdulo de um vetor

    yxx in

    iiy

    ==

    1

    '

    . '. || xxx =

    x...xx 2n2221 +++=

    Mdulo e Produto Interno

    |x|

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Clculo do ngulo entre dois vetores x e y.

    x = [x1, x2]

    y = [y1, y2]y2

    y1 x1

    x2x

    y

    21

    ngulo entre dois Vetores

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Pela figura pode-se ver que o ngulo pode ser representado pela diferena entre os ngulos 1 e 2 formados pelos dois vetores e o primeiro eixo coordenado. Assim:

    ||)(

    ||)(

    ||)(

    ||)cos(

    22

    21

    12

    11

    ysen e

    xsen

    yosc e

    xyx

    yx

    ==

    ==

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Ento:)(sen)(sen)cos()cos()cos()cos( 121212 +==

    Substituindo vem:

    |y||x|y'x

    |y||x|

    |y||y||x||y|)cos()cos(

    yxyx

    xyxy

    2211

    221112

    =+

    =

    =

    +

    ==

  • Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Seja V = {v1, v2, ..., vn} um conjunto de

    vetores com a mesma dimenso.

    Uma Combinao Linear (CL) dos vetores

    em V qualquer vetor v da forma:

    v = c1v1 + c2v2 + ... + cnvn

    onde c1, c2, ..., cn so escalares arbitrrios.

    Dependncia e Independncia Linear

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Um conjunto V de n vetores m-

    dimensionais linearmente

    independente se a nica CL de vetores

    em V que iguala a zero a combinao

    trivial, isto , se: c1 = c2 = ... = cn = 0.

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    Um conjunto V de n vetores m-

    dimensionais linearmente

    dependente se existe uma CL de

    vetores no trivial em V que iguala a

    zero.

    Prof. Lor Viali, Dr. PUCRS FAMAT: Departamento de Estatstica

    (i) Dois vetores LD (ii) Dois vetores LI

    x

    v1 = (1, 1) = ABv2 = (2, 2) = AC