10
1 ANÁLISE DE DADOS APLICADA À AGRONOMIA PÓS-GRADUAÇÃO AGRONOMIA – CIÊNCIA DO SOLO ANÁLISE DE COMPONENTES PRINCIPAIS Carlos Alberto Alves Varella 1 Introdução A análise de componentes principais é uma técnica de análise multivariada que consiste em transformar um conjunto de variáveis em outro conjunto, os componentes principais, de mesma dimensão, porém com propriedades importantes: cada componente principal é uma combinação linear de todas as variáveis originais, são independentes entre si e estimados com o propósito de reter, em ordem de estimação, o máximo de informação, em termos da variação total contida nos dados. A análise de componentes principais é associada à idéia de redução de massa de dados, com menor perda possível da informação. Procura-se redistribuir a variação observada nos eixos originais de forma a se obter um conjunto de eixos ortogonais não correlacionados. Esta técnica também pode ser utilizada para o agrupamento de indivíduos similares, mediante exame visual em gráficos de dispersão no espaço bi ou tridimensional. A análise agrupa os indivíduos de acordo com sua variação, isto é, os indivíduos são agrupados segundo suas variâncias, ou seja, segundo seu comportamento dentro da população, representado pela variação do conjunto de características que define o indivíduo, ou seja, a técnica agrupa os indivíduos de uma população segundo a variação de suas características. Segundo REGAZZI (2000), apesar das técnicas de análise multivariada terem sido desenvolvidas para resolver problemas específicos, principalmente de Biologia e Psicologia, podem ser também utilizadas para resolver outros tipos de problemas em diversas áreas do conhecimento. A análise de componentes principais é a técnica mais conhecida, contudo é importante ter uma visão conjunta de todas ou quase todas as técnicas para resolver a maioria dos problema práticos. 1 Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de Engenharia, BR 465 km 7 - CEP 23890-000 – Seropédica – RJ. E-mail: [email protected] .

Analise de Componentes Principais

Embed Size (px)

DESCRIPTION

componentes principais

Citation preview

  • 1

    ANLISE DE DADOS APLICADA AGRONOMIA PS-GRADUAO

    AGRONOMIA CINCIA DO SOLO

    ANLISE DE COMPONENTES PRINCIPAIS

    Carlos Alberto Alves Varella1

    Introduo A anlise de componentes principais uma tcnica de anlise multivariada que consiste

    em transformar um conjunto de variveis em outro conjunto, os componentes principais, de

    mesma dimenso, porm com propriedades importantes: cada componente principal uma

    combinao linear de todas as variveis originais, so independentes entre si e estimados com

    o propsito de reter, em ordem de estimao, o mximo de informao, em termos da variao

    total contida nos dados.

    A anlise de componentes principais associada idia de reduo de massa de dados,

    com menor perda possvel da informao. Procura-se redistribuir a variao observada nos

    eixos originais de forma a se obter um conjunto de eixos ortogonais no correlacionados. Esta

    tcnica tambm pode ser utilizada para o agrupamento de indivduos similares, mediante

    exame visual em grficos de disperso no espao bi ou tridimensional. A anlise agrupa os

    indivduos de acordo com sua variao, isto , os indivduos so agrupados segundo suas

    varincias, ou seja, segundo seu comportamento dentro da populao, representado pela

    variao do conjunto de caractersticas que define o indivduo, ou seja, a tcnica agrupa os

    indivduos de uma populao segundo a variao de suas caractersticas.

    Segundo REGAZZI (2000), apesar das tcnicas de anlise multivariada terem sido

    desenvolvidas para resolver problemas especficos, principalmente de Biologia e Psicologia,

    podem ser tambm utilizadas para resolver outros tipos de problemas em diversas reas do

    conhecimento. A anlise de componentes principais a tcnica mais conhecida, contudo

    importante ter uma viso conjunta de todas ou quase todas as tcnicas para resolver a maioria

    dos problema prticos.

    1 Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica RJ. E-mail: [email protected].

  • Matriz de dados Considere a situao em que observamos p caractersticas de n indivduos de uma

    populao . As caractersticas observadas so representadas pelas variveis x1, x2, x3, ..., xp.

    A matriz de dados de ordem n x p e normalmente denominada de matriz X.

    =

    np3n2n1n

    p3333231

    p2232221

    p1131211

    xxxx

    xxxxxxxxxxxx

    X

    LMOMMM

    LLL

    A estrutura de interdependncia entre as caractersticas da matriz de dados representada

    pela matriz de covarincia S ou pela matriz de correlao R. O entendimento dessa

    estrutura atravs das variveis x1, x2, x3, ..., xp, pode ser na prtica uma coisa complicada.

    Assim, o objetivo da anlise de componentes principais transformar essa estrutura

    complicada, representada pelas variveis x1, x2, x3, ..., xp, em uma outra estrutura representada

    pelas variveis y1, y2, y3, ..., yp no correlacionadas e com varincias ordenadas, para que seja

    possvel comparar os indivduos usando apenas as variveis yis que apresentam maior

    varincia. A soluo dada a partir da matriz de covarincia S ou da matriz de correlao R.

    Matriz de covarincia S A partir da matriz X de dados de ordem n x p podemos fazer uma estimativa da matriz

    de covarincia da populao que representaremos por S. A matriz S simtrica e de ordem

    p x p.

    =

    )x(arV)xx(ovC)xx(ovC)xx(ovC

    )xx(ovC)x(arV)xx(ovC)xx(ovC

    )xx(ovC)xx(ovC)x(arV)xx(ovC

    )xx(ovC)xx(ovC)xx(ovC)x(arV

    S

    p3p2p1p

    p332313

    p232212

    p131211

    LMOMMM

    LLL

    Normalmente as caractersticas so obervadas em unidades de medidas diferentes entre si,

    e neste caso, segundo REGAZZI (2000) conveniente padronizar as variveis Xj (i=1, 2, 3,

  • 3

    ..., p). A padronizao pode ser feita com mdia zero e varincia 1, ou com varincia 1 e

    mdia qualquer.

    Padronizao com mdia zero e varincia 1

    p,,2,1jen,,2,1i,)x(sxx

    zj

    jijij LL ==

    =

    Padronizao com varincia 1e mdia qualquer

    p,,2,1jen,,2,1i,)x(s

    xz

    j

    ijij LL ===

    em que, jX e )x(S j so, respectivamente, a estimativa da mdia e o desvio padro da caracterstica j:

    n

    xx

    n

    1iij

    j

    ==

    e p,2,1j,)x(arV)x(s jj L==

    ( )1n

    n

    xx

    )x(arVou1n

    xx)x(arV

    n

    1i

    2n

    1iij

    2ij

    j

    2n

    1ijij

    j

    =

    = =

    ==

    Aps a padronizao obtemos uma nova matriz de dados Z:

    =

    np3n2n1n

    p3333231

    p2232221

    p1131211

    zzzz

    zzzzzzzz

    zzzz

    Z

    LMOMMM

    LLL

    A matriz Z das variveis padronizadas zj igual a matriz de correlao da matriz de dados

    X. Para determinar os componentes principais normalmente partimos da matriz de correlao

    R. importante observar que o resultado encontrado para a anlise a partir da matriz S pode

    ser diferente do resultado encontrado a partir da matriz R. A recomendao que a

  • 4

    padronizao s dever ser feita quando as unidades de medidas das caractersticas observadas

    no forem as mesmas.

    Determinao dos componentes principais Os componentes principais so determinados resolvendo-se a equao caracterstica da

    matriz S ou R, isto :

    [ ] 0IRou0IRdet ==

    Se a matriz R for de posto completo igual a p, isto , no apresentar nenhuma coluna

    que seja combinao linear de outra, a equao 0IR = ter p razes chamadas de autovalores ou razes caractersticas da matriz R. Na montagem da matriz de dados X

    importante observar que o valor de n (indivduos, tratamentos, gentipos, etc.) dever ser pelo

    menos igual a p+1, isto , se queremos montar um experimento para analisar o

    comportamento de p caractersticas de indivduos de uma populao recomendado que o

    delineamento estatstico apresente pelo menos p+1 tratamentos.

    Sejam 1, 2, 3, ..., p as razes da equao caracterstica da matriz R ou S, ento:

    p321 , >> L .

    Para cada autovalor i existe um autovetor ia~ :

    =

    ip

    2i

    1i

    i

    a

    aa

    a~ M

    Os autovetores ia~ so normalizados, isto , a soma dos quadrados dos coeficientes igual

    a 1, e ainda so ortogonais entre si. Devido a isso apresentam as seguintes propriedades:

    ( )1a~a~1a i'ip1j

    2ij ==

    =

    e ( )kipara0a~a~0aa k'ip1j

    kjij ===

  • 5

    Sendo ia~ o autovetor correspondente ao autovalor i , ento o i-simo componente

    principal dado por:

    pip22i11ii XaXaXaY +++= L

    Os componentes principais apresentam as seguintes propriedades:

    1) A varincia do componente principal Yi igual ao valor do autovalor i.

    ( ) iiYarV =

    2) O primeiro componente o que apresenta maior varincia e assim por diante:

    )Y(arV)Y(arV)Y(arV p21 >>> L

    3) O total de varincia das variveis originais igual ao somatrio dos autovalores que igual

    ao total de varincia dos componentes principais:

    == )Y(arV)X(arV iii

    4) Os componentes principais no so correlacionados entre si: ( ) 0Y,YovC ji = Contribuio de cada componente principal

    A contribuio Ci de cada componenete principal Yi expressa em porcentagem.

    calculada dividindo-se a varincia de Yi pela varncia total. Representa a proporo de

    varincia total explicada pelo componenete principal Yi.

    ( )( ) ( )

    100Strao

    100100YarV

    YarVC ip

    1ii

    ip

    1ii

    ii =

    ====

    A importncia de um componente principal avaliada por meio de sua contribuio, isto

    , pela proporo de varincia total explicada pelo componente. A soma dos primeiros k

    autovalores representa a proporo de informao retida na reduo de p para k dimenses.

    Com essa informao podemos decidir quantos componente vamos usar na anlise, isto ,

    quantos componentes sero utilizados para diferenciar os indivduos. No existe um modelo

    estatstico que ajude nesta deciso. Segundo REGAZZI (2000) para aplicaes em diversas

  • 6

    reas do conhecimento o nmero de componentes utilizados tem sido aquele que acumula

    70% ou mais de proporo da varincia total.

    ( ) ( )( )

    pkonde%70100YarV

    YarVYarVk

    1ii

    k1

  • 7

    utilizando-se os escores desses componentes. No Quadro 1 exemplificado a organizao de

    um conjunto de dados composto por n tratamentos, p variveis e k componentes principais.

    Quadro 1. Organizao de um conjunto de dados com n tratamentos, p variveis e k componentes Tratamentos

    (Indivduos)

    Variveis Escores dos componentes principais

    X1 X2 ... Xp Y1 Y2 ... Yk

    1 X11 X12 M X1p Y11 Y12 ... Y1k 2 X21 X22 M X2p Y21 Y22 ... Y2k M M M M M M M M M n Xn1 Xn2 ... Xnp Yn1 Yn2 ... Ynk

    Assim temos que os escores do primeiro componente para os n tratamentos so:

    Trat Primeiro conponente principal

    1 p1p11212111111 XaXaXaY +++= L 2 p2p12212211121 XaXaXaY +++= L M M n npp12n121n111n XaXaXaY +++= L

    Exemplo de aplicao No Quadro 2 esto os valores originais observados (X1 e X2) e padronizados (Z1 e Z2) de

    duas variveis para cinco tratamentos (n=5).

    Quadro 2. Valores originais e padronizados de duas variveis para cinco tratamentos

    Tratamentos Variveis originais Variveis padronizadas

    X1 X2 Z1 Z2

    1 102 96 24,3827 6,9554

    2 104 87 24,8608 6,3033

    3 101 62 24,1436 4,4920

    4 93 68 22,2313 4,9268

    5 100 77 23,9046 5,5788

    Varincia 17,50 190,50 1 1

    Mdia 100,00 78,00 23,9046 5,6513

  • 8

    Os dados esto padronizados para varincia 1:

    ( ) 8608,245,17104ZXsX

    Z 12j

    ijij ===

    A matriz de correlao :

    =15456,0

    5456,01R

    A equao caracterstica : 0IR =

    015456,05456,01 =

    07023,022 =+

    Os autovalores da matriz de correlao R so:

    1 = 1,5456 e 2 = 0,4544

    A soma de 1 e 2 igual ao trao da matriz R. O trao de uma matriz a soma dos

    elementos de sua diagonal principal.

    trao(R) = 1+1=2

    Obteno dos componentes principais

    O autovetor normalizado para o primeiro componente principal :

    =

    =

    =7070,07071,0

    11

    21

    aa

    a~12

    111

    e o primeiro componente principal :

    211 Z7071,0Z7071,0Y +=

    Da mesma forma para o segundo componente principal temos:

    =

    =

    =7070,07071,0

    11

    21

    aa

    a~22

    2121

  • 9

    212 Z7071,0Z7071,0Y +=

    Quadro 3. Informaes que podem ser obtidas com a anlise de componentes principais Componente principal

    Varincia (Autovalor)

    Coeficiente de ponderao

    Correlao entre Zj eYi

    Porcentagem da varincia total

    Porcentagem acumulada de varincia dos Yi

    Z1 Z2 Z1 Z2

    Y1 1,5456 0,7071 0,7071 0,879 0,879 77,28 77,28

    Y2 0,4544 -0,7071 0,7071 -0,476 0,476 22,72 100,00 Quadro 4. Escores dos dois componentes principais para os cinco tratamentos obtidos a partir da matriz de correlao R.

    Tratamentos Escores dos componentes principais

    Y1 Y2

    1 22,16 -12,32

    2 22,04 -13,12

    3 20,25 -13,90

    4 19,20 -12,24

    5 20,85 -12,96

  • 10

    19

    20

    21

    22

    23

    -14 -13.5 -13 -12.5 -12

    Segundo componente (Y2)

    Prim

    eiro

    com

    pone

    nte

    (Y1)

    Figura 2. Disperso dos tratamentos em funo dos escores dos componentes principais. Programa SAS para obteno dos componentes principais

    BIBLIOGRAFIA REGAZZI, A.J. Anlise multivariada, notas de aula INF 766, Departamento de Informtica da

    Universidade Federal de Viosa, v.2, 2000.

    KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination with SAS software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.

    JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th ed. Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.

    12

    3

    4

    5