30
Análise de componentes principais (PCA)

Análise de componentes principais (PCA)professor.ufabc.edu.br/~ronaldo.prati/DataMining/PCA.pdf · Análise de componentes principais (PCA) ... • PC 1 é simultaneamente a direção

  • Upload
    trinhtu

  • View
    231

  • Download
    0

Embed Size (px)

Citation preview

Análise de componentes principais (PCA)

Redução de dados • Sumarizar os dados que contém muitas variáveis (p) por um conjunto menor de (k) variáveis compostas derivadas a partir do conjunto original.

n

p

A n

k

X

Data Reduction • Variação “residual” são informações contidas em A que não estão presentes em X.

• Compromisso entre: – redução do tamanho, representação mais compacta

– supersimplificação: perda de informação relevante.

Análise de componentes principais (PCA)

•  Provavelmente o método multivariado mais usado e conhecido de redução de dados

•  Inventado por Pearson (1901) e Hotelling (1933)

Principal Component Analysis (PCA)

•  usa uma conjunto de dados representado por uma matriz de n registros por p atributos, que podem estar correlacionados, e sumariza esse conjunto por eixos não correlacionados (componentes principais) que são uma combinação linear das p variáveis originais

•  as primeiras k componentes contém a maior quantidade de variação dos dados

Raciocínio geométrico da PCA •  Objetos são representados por uma nuvem de

n pontos em um espaço multidimensional, com um eixo para cada uma dos p atributos

•  o centroide dos pontos é definido pela média de cada atributo

•  a variância de cada atributo é média dos quadrados da diferença dos n pontos com relação a média de cada atributo

Vi =1

n −1Xim − X i( )2

m =1

n

Raciocínio geométrico da PCA • Grau com que cada variável é linearmente correlacionado é representado pela sua covariância.

Sum over all n objects

Value of variable j

in object m

Mean of variable j

Value of variable i

in object m

Mean of variable i

Covariance of variables i and j

Interpretação geométrica da PCA • O objetivo da PCA é rotacionar rigidamente os eixos desse espaço p-dimensional para nova posições (eixos principais) que tem a seguinte propriedade: – Ordenado de tal maneira que o eixo principal 1 tem a maior variância, o eixo 2 tem a próxima maior variância, .... , e o último eixo tem a menor variância

– Covariância entre cada par de eixos é zero (os eixos principais não são correlacionados).

2D Example of PCA •  variáveis X1 and X2 tem covariância positiva e cada

uma delas têm variância similar.

Os dados são centralizados • Cada variável é ajustada para ter média zero (subtraindo a média para cada valor).

Componentes principais são calculadas •  PC 1 tem a maior variância possível (9.88) •  PC 2 tem variância de 3.03 •  PC 1 e PC 2 tem covariância zero.

A medida dedissimilaridade usada na PCA é a distância euclidiana

•  PCA usa a distância euclidiana calculada a partir dos p atributos como uma medida de dissimilaridade entre os n objetos

•  PCA calcula as k melhores possíveis dimensões (k < p) representandos a distância euclidiana entre os objetos

Generalização para p-dimensões • Na prática, PCA não é usada com somente 2 variables

• A algebra para encontrar os eixos pode ser facilmente extendida para p variáveis

•  PC 1 é a direção de maior variação na nuvem p-dimensional de pontos

•  PC 2 está na direção da próxima maior variância, condiciodicionada a zero covariânciancia com PC 1.

Generalização para p-dimensões •  PC 3 está na direção da próxima maior covariância, condidionada com zero covariância entre PC 1 e PC 2

•  e assim por diante... até PC p

PC 1

PC 2

•  cada eixo principal é uma combinação linear das variáveis originais

•  PCj = ai1Y1 + ai2Y2 + … ainYn •  aij’s são os coeficiente para o fator i, multiplicado pela

dimensão da variável j

PC 1

PC 2

•  os PC eixos são rotações rígidas das variáveis originais •  PC 1 é simultaneamente a direção de maior variâcia e

simultaneamente melhor reta “ajustada” que minimiza a distância média entre os pontos e PC1

Generalização para p-dimensões •  se tomarmos as primeiras k components, eles

definem um hiperplano k-dimensional que “melhor se ajusta” à nuvem de pontos

•  Da variância total dos p atributos: –  PCs 1 até k representam a proporção máximo possivel

de variância que pode ser mostrada em k dimensões

Covariancia vs Correlação •  usar covariância entre variáveis somente faz sentido se elas estão representadas na mesma unidade

• Mesmo assim, variáveis com alta variância vão dominar as componentes principais

• Esses problemas são geralmente contornados normalizando os atributos

Média de i

Desvio padrão de i

Covariance vs Correlation •  covariancias entre variáveis normalizadas são correlações correlações

• Depois da normalização, cada variável tem variância 1

• Correlações também podem ser calculadas a paritr de variâncias e covariâncias:

Covariance of variables i and j

Variance of variable j Variance

of variable i

Correlation between variables i and j

Algebra do PCA • O primeiro passo é calcular a matriz de produto vetorial de variâncias e covariâncias (ou correlações) entre cada par dos p atributos

• Matriz quadrada e assimétrica • Diagonais são covariâncias, fora, covariâncias.

X1 X2

X1 6.6707 3.4170 X2 3.4170 6.2384

X1 X2

X1 1.0000 0.5297 X2 0.5297 1.0000

Variance-covariance Matrix Correlation Matrix

Algebra da PCA • Em notação matricial:

•  onde X é a matriz n x p de dados, com cada variável centralizada

X1 X2

X1 6.6707 3.4170 X2 3.4170 6.2384

X1 X2

X1 1.0000 0.5297 X2 0.5297 1.0000

Variance-covariance Matrix Correlation Matrix

Manipulação de Matrizes • Transposição: inverte linhas e colunas

• Multiplica as matrizes

X = 10 0 4 7 1 2

X’ = 10 7 0 1 4 2

Algebra do PCA • Soma dos elementos diagonais da matriz de variância-covariância é chamado traço

• Ele representaa variância total dos dados

• É a distância média quadrada entre cada ponto e o centro no espaço p-dimensional.

X1 X2

X1 6.6707 3.4170 X2 3.4170 6.2384

X1 X2

X1 1.0000 0.5297 X2 0.5297 1.0000

Trace = 12.9091 Trace = 2.0000

Algebra do PCA • Encontrar os eixos principais envolve encontrar os auto-vetores da matriz de produto vetorial (S)

• The auto-valores de S são soluções (λ) da equação característica

Algebra do PCA •  os auto-valores, λ1, λ2, ... λp correspondem à variância representada em cada componete principal

• A soma de todos os p auto-valores é igual ao traço de S.

X1 X2

X1 6.6707 3.4170 X2 3.4170 6.2384

λ1 = 9.8783 λ2 = 3.0308

Note: λ1+λ2 =12.9091 Trace = 12.9091

Algebra do PCA • Cada auto-vetor consiste nos p valores que representam a contribuição de cada atributo para a componente principal

•  Autovetores são não correlacionaods (ortogonal) –  Seus produtos-internos são zero.

u1 u2

X1 0.7291 -0.6844

X2 0.6844 0.7291

Auto-vetores

0.7291*(-0.6844) + 0.6844*0.7291 = 0

Algebra do PCA • As coordenadas de cada objeto i na kesimo eixo principal, chamada de escores na PC k, são computadas como

•  one Z é a matriz n x k de PC escores, X é a n x p matriz centralizada de daos e U é a p x k matriz de autovetores.

Algebra da PCA •  variancia dos scores em cada PC é proporcional ao auto-valor correspondente para aquele eixo

• O autovalor representa a variância mostrada (“explicada” or “extraida”) pelo eixo k

• A soma dos primeiros k autovalores é proporcional ao total de variância explicada pelas primeiras k-dimensões da transformação

λ1 = 9.8783 λ2 = 3.0308 Trace = 12.9091

PC 1 mostra (“explica”) 9.8783/12.9091 = 76.5% of the total variance

Algebra da PCA • A matriz do produto vetorial calculada usando as p componentes principais tem uma forma simples: – Todos os elementos for a da diagonal tem valores zero

– A diagonal contém os auto-valores.

PC1 PC2

PC1 9.8783 0.0000 PC2 0.0000 3.0308 Variance-covariance Matrix

of the PC axes