5
1 ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP 1 Procedimento para a determinação de “novas variáveis” (componentes) que expliquem a maior variabilidade possível existente em uma matriz de dados multidimensionais. Transformação linear de “p" variáveis originais em “p" novas variáveis, de tal modo que a primeira nova variável computada seja responsável pela maior variação possível existente no conjunto de dados. 2 Análise de componentes principais: maximizar a variância de uma combinação linear de variáveis. Objetivo: variáveis originais X1, X2, X3, ..., Xp, correlacionadas, são transformadas em variáveis Y1, Y2, Y3, ..., Yp, não correlacionadas e com variâncias ordenadas, para que seja possível comparar os indivíduos usando apenas as variáveis Y’i que apresentam maior variância. Variáveis medidas na mesma escala e em escalas diferentes Solução: Cálculo dos autovalores e correspondentes autovetores de uma matriz de variâncias-covariâncias [S] ou de correlações [R] entre variáveis. 3 Imagem formada por um quadrado com 2 vetores. Essa imagem sofre uma ampliação (transformação) apenas na horizontal, resultando um retângulo. Nessa condição, o vetor v2 passou a v2*, que não tem a mesma direção do original v2. O vetor v2* não pode, portanto, ser representado por v2 multiplicado por um escalar. Mas o vetor v1* tem a mesma direção de v1 e, por isso, pode ser representado por v1 multiplicado por um escalar. Diz-se então que v1 é um autovetor da transformação e que esse escalar é um autovalor associado. 4 Autovetores representam as componentes principais e são o resultado do carregamento das variaveis originais em cada um deles. Tais carregamentos podem ser considerados como uma medida da relativa importância de cada variável em relação às componentes principais e os respectivos sinais, se positivos ou negativos, indicam relações direta ou inversamente proporcionais. O primeiro autovalor a ser determinado correspondera à maior porcentagem da variabilidade total presente e, assim, sucessivamente com os demais. 5 Matriz de carregamentos de cada variavel nas componentes principais, ao ser multiplicada pela matriz original de dados, fornece a matriz de contagens (scores) de cada caso em relação às componentes principais. Esses valores dispostos num diagrama de dispersão, em que os eixos ortogonais são as duas componentes mais importantes, mostram o relacionamento entre os casos condicionados pelas variáveis medidas. 6

possível existente em uma matriz de dados multidimensionais. … · 2015-06-25 · 1 ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP 1 Procedimento para a determinação de “novas

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: possível existente em uma matriz de dados multidimensionais. … · 2015-06-25 · 1 ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP 1 Procedimento para a determinação de “novas

1

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

1

Procedimento para a determinação de “novas variáveis” (componentes) que expliquem a maior variabilidade possível existente em uma matriz de dados multidimensionais.

Transformação linear de “p" variáveis originais em “p" novas variáveis, de tal modo que a primeira nova variável computada seja responsável pela maior variação possível existente no conjunto de dados.

2

Análise de componentes principais: maximizar a variância de uma combinação linear de variáveis.

Objetivo: variáveis originais X1, X2, X3, ..., Xp, correlacionadas, são transformadas em variáveis Y1, Y2, Y3, ..., Yp, não correlacionadas e com variâncias ordenadas, para que seja possível comparar os indivíduos usando apenas as variáveis Y’i que apresentam maior variância.

Variáveis medidas na mesma escala e em escalas diferentes

Solução: Cálculo dos autovalores e correspondentes autovetores de uma matriz de variâncias-covariâncias [S] ou de correlações [R] entre variáveis.

3

•Imagem formada por um quadrado com 2 vetores.

• Essa imagem sofre uma ampliação (transformação) apenas na horizontal, resultando um retângulo.

•Nessa condição, o vetor v2 passou a v2*, que não tem a mesma direção do original v2. O vetor v2* não pode, portanto, ser representado por v2 multiplicado por um escalar.

•Mas o vetor v1* tem a mesma direção de v1 e, por isso, pode ser representado por v1 multiplicado por um escalar.

•Diz-se então que v1 é um autovetor da transformação e que esse escalar é um autovalor associado.

4

Autovetores representam as componentes principais e são o resultado do carregamento das variaveis originais em cada um deles.

Tais carregamentos podem ser considerados como uma medida da relativa importância de cada variável em relação às componentes principais e os respectivos sinais, se positivos ou negativos, indicam relações direta ou inversamente proporcionais.

O primeiro autovalor a ser determinado correspondera à maior porcentagem da variabilidade total presente e, assim, sucessivamente com os demais.

5

Matriz de carregamentos de cada variavel nas componentes principais, ao ser multiplicada pela matriz original de dados, fornece a matriz de contagens (scores) de cada caso em relação às componentes principais.

Esses valores dispostos num diagrama de dispersão, em que os eixos ortogonais são as duas componentes mais importantes, mostram o relacionamento entre os casos condicionados pelas variáveis medidas.

6

Page 2: possível existente em uma matriz de dados multidimensionais. … · 2015-06-25 · 1 ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP 1 Procedimento para a determinação de “novas

2

AUTOVALORES (EINGENVALUES) AUTOVETORES (EIGENVECTORS)

As componentes principais são determinadas resolvendo-se a equação característica da matriz S ou R:

det [R - I] = 0 ou |R - I = 0

7 8

Cálculo das raizes da equação (autovalores) para uma matriz 3 x 3:

(a11 – l)x1 + a12x2 + a13x3 = 0

a21x1 + (a22 – l)x2 + a23x3 = 0

a31x1 + a 32x2 + (a33 – l)x3 = 0

matriz de dados:

matriz de coeficientes de correlação [A]

000,1913,0980,0

913,0000,1820,0

980,0820,0000,1

]A[

9

•(variância total no sistema: 1 + 1 + 1 = 3)

(1,000 - )(1,000 - )(1,000 - ) + (0,820)

(- 0,913)(- 0,980) + (- 0,980)(0,820)(- 0,913) –

(- 0,980)(1,000 - )(- 0,980) - (1,000 - )

(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - ) =

( - 2,810)( - 0,188)( - 0,002)

autovalores: 1 = 2,810 (2,810/3*100 = 93,66%)

2 = 0,188 (0,188/3*100 = 6,27%)

3 = 0,002 (0,002/3*100 = 0,07%)

(soma = 3) 10

0

λ000,1913,0980,0

913,0λ000,1820,0

980,0820,0λ000,1

]I[λ]A[

Cálculo dos autovetores:

Componentes do autovetor V1:

(1,00 - 2,810)X1 + 0,820X2 - 0,980X3 = 0

0,820 - (1,00 - 2,810)X2 - 0,913X3 = 0

-0,980X1 - 0,913X2 - (1,00 - 2,810)X3 = 0

X1 = -1,000; X2 = -0,974; X3 = 1,032

V1 = -1,000

-0,974

1,032 11

Padronização do autovetor V1 para o tamanhao unitário

Q = -12 + (-0,974)2 + (1,032)2 = 3,012

√Q= 1,735

V1 = -1/1,735 = -0,58

V1 = - 0,974/1,735 = - 0,56

V1 = 1,032/1,734 = 0,59

12

Autovetores

F1 F2 F3 Var1 -0.58 -0.60 0.56 Var2 -0.56 0.79 0.26 Var3 0.59 0.16 0.79

Page 3: possível existente em uma matriz de dados multidimensionais. … · 2015-06-25 · 1 ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP 1 Procedimento para a determinação de “novas

3

Factor loadings (carregamento das variáveis nas componentes principais)

)dentecorresponautovaloropadronizadautovetor(

F1 F2 F3

Var1 -0.97 -0.26 0.03 Var2 -0.94 0.34 0.01 Var3 1.00 0.07 0.04

ACP: variáveis

V3

V2

V1

-1

-0.75

-0.5

-0.25

0

0.25

0.5

0.75

1

-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1

Componente I (93.66 %)

Com

pone

nte I

I (6.2

7 %

)

13

158

237

324

421

79,016,059,0

26,079,056,0

56,060,058,0

= “factor scores” *

F 1 F 2 F 3

O b s 1 2 .10 0 .4 5 0 .0 3

O b s 2 0 .9 3 -0 .3 5 -0 .0 7

O b s 3 -0 .6 9 -0 .5 1 0 .0 6

O b s 4 -2 .3 4 0 .4 1 -0 .0 2

14

ACP: observações

O4

O3

O2

O1

-1

-0.5

0

0.5

1

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Componente I (93.66 %)

Com

pone

nte I

I (6.2

7 %

)

15 16

Tradicionalmente, o coeficiente de correlação é usado, em vez do de covariância, para a matriz inicial de similaridades. Isso porque o coeficiente de correlação elimina o efeito de escala: uma variável que oscile entre 0 e 1 não pesa mais na carga fatorial do que uma variável variando entre 0 e 1000. No entanto quando as variáveis foram obtidas em escalas idênticas ou quando se quer ressaltar a variância das variáveis, que influenciam nas cargas fatoriais, a covariância é utilizada.

17 18

A escolha do número de componentes principais •Manter componentes suficientes para explicar uma determinada percentagem do total da variância, por exemplo 80%. •Manter componentes cujos auto-valores são maiores do que a média dos autovalores i/p; para uma matriz de correlações, essa média é 1. •Usar o “gráfico de declive/scree graph”, e observar a mudança de inclinação de altos autovalores para baixos autovalores. •Testar a significância das maiores componentes, ou seja, aquelas correspondentes aos maiores autovalores.

Page 4: possível existente em uma matriz de dados multidimensionais. … · 2015-06-25 · 1 ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP 1 Procedimento para a determinação de “novas

4

19

gráfico de declive/scree graph

i

CP

Exemplo

20

r=-0.11

21

valores ordenados; r= 0,98

Análise de agrupamentos e análise das componentes principais:

fornecem os mesmos resultados

mais informações em ACP

22

Óxidos em rochas magmáticas

Rochas SiO2 Al2O3 Fe2O3 FeO MgO CaO Na2O K2O

01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5

02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3

03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4

04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2

05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2

06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7

07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1

08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5

09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5

10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7

11Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2

12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7

13HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1

14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7

15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1

16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8

17SienitoAlt 50 9.9 3.5 5 11.9 8.3 2.4 5

18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7

19Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4

20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9 23 24

Page 5: possível existente em uma matriz de dados multidimensionais. … · 2015-06-25 · 1 ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP 1 Procedimento para a determinação de “novas

5

25 26

Porcentágens de empregados em nove grupos industriais em 30 países na Europa: AGR: agricultura, florestal e pesca MIN: mineração e exploração de pedreiras FAB: fabricação FEA: fornecimento de energia e água CON: construção SER: serviços FIN: finanças SSP: serviços sociais e pessoais TC: transporte e comunicações

27 28

29