View
109
Download
0
Category
Preview:
DESCRIPTION
Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS. Análise de Componentes Principais. Carlos Alberto Alves Varella Doutor em Engenharia Agrícola. Novembro 2011. Introdução. É a técnica mais conhecida da estatística multivariada; - PowerPoint PPT Presentation
Citation preview
Análise de Componentes Principais
Carlos Alberto Alves VarellaDoutor em Engenharia Agrícola
Universidade Federal Rural do Rio de Janeiro
Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS
Novembro 2011
IntroduçãoÉ a técnica mais conhecida da estatística multivariada;Pode ser utilizada para geração de índices e agrupamento
de indivíduos;Cada componente principal é uma combinação linear de
todas as variáveis originais;São independentes entre si; É importante ter uma visão conjunta de todas ou quase
todas as técnicas da estatística multivariada para resolver a maioria dos problema práticos.
Construção da matriz de dados (Matriz X)Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos;Características observadas são : X1, X2, X3, ..., Xp;A matriz é de ordem n x p.
npnn
p
p
p
xxxx
xxxx
xxxx
xxxx
X
31
3333231
2232221
1131211
Matriz de Covariância, SObtida a partir da matriz X de dados de ordem ‘n x p’;É uma estimativa da matriz de covariância Σ da população
π;A matriz S é simétrica e de ordem ‘p x p’.
)(ˆ)(ˆ)(ˆ)(ˆ
)(ˆ)(ˆ)(ˆ)(ˆ
)(ˆ)(ˆ)(ˆ)(ˆ
)(ˆ)(ˆ)(ˆ)(ˆ
321
332313
232212
131211
pppp
p
p
p
xarVxxovCxxovCxxovC
xxovCxarVxxovCxxovC
xxovCxxovCxarVxxovC
xxovCxxovCxxovCxarV
S
Padronização dos dadosMédia zero e variância 1
p,,2,1jen,,2,1i,)x(s
xxz
j
jijij
Média qualquer e variância 1
p,,2,1jen,,2,1i,)x(s
xz
j
ijij
Variáveis PadronizadasA matriz Z é igual a matriz de correlação R da matriz de
dados X;
npnnn
p
p
p
zzzz
zzzz
zzzz
zzzz
Z
321
3333231
2232221
1131211
Considerações sobre a padronização Normalmente partimos da matriz padronizada; O resultado a partir da matriz S pode ser diferente do
resultado a partir da matriz R. A padronização só dever ser feita quando as unidades das
variáveis observadas não são as mesmas.
Determinação dos Componentes PrincipaisOs componentes principais são determinados resolvendo-se a
equação característica da matriz S ou R, isto é:
00det IRouIR
Autovalores da matriz R λ1, λ2, λ3, ..., λp são as raízes da equação característica da
matriz R ou S, então: λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S;
1)()()(
)(1)()(
)()(1)(
)()()(1
321
32313
23212
13121
xxrxxrxxr
xxrxxrxxr
xxrxxrxxr
xxrxxrxxr
R
ppp
p
p
p
AutovetoresPara cada autovalor λi existe um autovetor:
úúúúú
û
ù
êêêêê
ë
é
=
ip
2i
1i
i
a
a
a
a~M
Componente principal Yi
Sendo o autovalor = λi , então o i-ésimo componente principal é dado por:
pip22i11ii XaXaXaY +++= L
Propriedades dos Componentes PrincipaisA variância do componente principal Yi é igual ao valor do
autovalor λi:
O primeiro componente é o que apresenta maior variância e assim por diante:
( ) iiYarV l=
)Y(arV)Y(arV)Y(arV p21 >>> L
Propriedades dos Componentes PrincipaisTotal de variância das variáveis originais = somatório dos
autovalores = total de variância dos componentes principais:
å å å=l= )Y(arV)X(arV iii
Os componentes principais não são correlacionados entre si:
( ) 0Y,YovC ji =
Importância de cada componente principalMedida pela porcentagem de variância de cada
componente em relação ao total
( )
( ) ( )100Straço100100
YarV
YarVC i
p
1ii
ip
1ii
ii ×
l=×
l
l=×=
åå==
Número de componentesNão existe um modelo estatístico;O número de ser aquele que acumula 70% ou mais de
proporção da variância total.
( ) ( )( )
pkonde%70100YarV
YarVYarVk
1ii
k1 <³×+
å=
L
Interpretação dos componentesVerifica-se o Grau de influência que cada variável Xj tem
sobre o componente Yi.
( ) ( )) ( )j
j11
j
1j11YXj1,j
XarV
a
XarV
YarVarYXCorr )×l=×=×=
Interpretação dos componentesVerifica-se o peso ou loading de cada variável sobre o
componente
( ) ( ) ( )p
p1p
2
122
1
111
XarV
aw,
XarV
aw,
XarV
aw )L)) ===
Escores dos componentesOrganização dos dados
Trat(Indiv)
VariáveisEscores dos componentes
principais
X1 X2 ... Xp Y1 Y2 ... Yk
1 X11 X12 ... X1p Y11 Y12 ... Y1k
2 X21 X22 ... X2p Y21 Y22 ... Y2k
n Xn1 Xn2 Xnp Yn1 Yn2 ... Ynk
Escores do primeiro componente para ‘n’ tratamentos e ‘p’ variáveis O escore é o valor da cominação linear;Yn1=componente 1 do tratamento n para p variáveis.
p1p11212111111 XaXaXaY
p2p12212211121 XaXaXaY
npp12n121n111n XaXaXaY
Exemplo de AplicaçãoVariáveis originais observadas (X1 e X2) e padronizados
(Z1 e Z2). Duas variáveis para cinco tratamentos (k=5).
TratamentosVariáveis originais Variáveis padronizadas
X1 X2 Z1 Z2
1 102 96 24,3827 6,9554
2 104 87 24,8608 6,3033
3 101 62 24,1436 4,4920
4 93 68 22,2313 4,9268
5 100 77 23,9046 5,5788
Variância 17,50 190,50 1 1
Padronização da VariânciaOs dados serão padronizados para variância 1:
8608,245,17
104Z
Xs
XZ 12
j
ijij
Matriz de CorrelaçãoElementos da diagonal principal igual a 1. Significa a
correlação entre mesmas variáveis; Elementos fora da diagonal principal igual a 0,5456.
Significa a correlação entre as variáveis (X1,X2).
15456,0
5456,01R
Autovalores da matriz de correlaçãoSão os elementos fora da diagonal principal da matriz.
Significa a variância de cada componente principal.
λ1 = 1,5456 e λ2 = 0,4544
15456,0
5456,01R
Traço da matriz de correlaçãoSomatório dos elementos da diagonal da matriz. Significa
o total de variância.
Traço(R) = 1+1=2
15456,0
5456,01R
Primeiro autovetor da matriz de correlaçãoSão os coeficientes das variáveis padronizadas Z1, Z2.
7070,0
7071,0
1
1
2
1
a
aa~
12
111
211 7070,07071,0 ZZY
Y1 é a combinação linear de Z1, Z2 que denominamos de primeiro componente principal
Resultados da análiseVariância, ponderação, correlação, % de variância e % de
variância acumulada dos componentes principais.
CP Variância (λ)
Ponderação Correlação entre Zj eYi
%de variância
% de variânciaacumulada dos Yi
Z1 Z2 Z1 Z2
Y1 1,5456 0,707 0,707 0,879 0,879 77,28 77,28
Y2 0,4544 -0,707 0,707 -0,476 0,476 22,72 100,00
Escores dos componentes principais
TratamentosComponentes principais
Y1 Y2
1 22,16 -12,32
2 22,04 -13,12
3 20,25 -13,90
4 19,20 -12,24
5 20,85 -12,96
Gráfico de dispersãoPermite visualizar se os componentes principais (Yis) são
capazes de discriminar indivíduos da população () utilizando características (Xi).
19
20
21
22
23
-14 -13.5 -13 -12.5 -12
Segundo componente (Y2)
Prim
eiro
com
pone
nte
(Y1)
Aula prática com o programa computacional SAS
Material didático: http://www.ufrrj.br/institutos/it/deng/varella/multivariada.htm
Disciplina: Análise Multivariada Aplicada as Ciências Agrárias.
Aula prática: 14-17 com SAS.
FIM
Recommended