69
1 INTRODU INTRODU Ç Ç ÃO ÃO À À QUIMIOMETRIA: QUIMIOMETRIA: Como explorar grandes conjuntos de dados qu Como explorar grandes conjuntos de dados qu í í micos micos Prof. Dr. Marcelo M. Sena (DQ-UFMG) [email protected] Prof. Dr. Ronei J. Poppi (IQ-UNICAMP) [email protected]

[email protected] - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

  • Upload
    doxuyen

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

1

INTRODUINTRODUÇÇÃO ÃO ÀÀ QUIMIOMETRIA:QUIMIOMETRIA:Como explorar grandes conjuntos de dados quComo explorar grandes conjuntos de dados quíímicosmicos

Prof. Dr. Marcelo M. Sena (DQ-UFMG)[email protected]

Prof. Dr. Ronei J. Poppi (IQ-UNICAMP)[email protected]

Page 2: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

2

INTRODUINTRODUÇÇÃOÃO

ÀÀ

QUIMIOMETRIAQUIMIOMETRIA

AULA 1

Page 3: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

3

Quimiometria é a disciplina química que usa métodos matemáticos e estatísticos para:

→ Planejar ou selecionar condições ótimas de medidas e experimentos, e

→ Extrair o máximo de informação de dados químicos.

INTERNATIONAL CHEMOMETRICS SOCIETY

(ICS) 1974

LISTA DE DISCUSSÃO https://listserv.umd.edu/archives/ics-l.html

Page 4: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

4

APLICAÇÃO DE MÉTODOS

DE ESTATÍSTICA

MULTIVARIADA EM

QUÍMICA

Page 5: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

5

Objetivos da QuimiometriaObjetivos da Quimiometria

Otimiza

ção

Análise Exploratória

CalibraçãoResolução de CurvasCalibraçãoCalibração

Page 6: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

6

ESTATÍSTICA MULTIVARIADA EM OUTRAS ÁREAS

1. Psicometria ( Psicologia);

2. Biometria (Biologia);

3. Econometria (Economia)

4. Geologia

5. Arqueometria (Arqueologia)

Page 7: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

7

Conhecimentos básicos necessários

- Informática/Programação

- Estatística Básica

- Álgebra Linear

- Análise Instrumental

Principais Áreas de aplicação

- Química Analítica: Espectroscopia Molecular (UV/Vis, IV

próximo e médio, Raman, Fluorescência Molecular,

Técnicas Hifenadas)

- Físico-Química teórica: QSAR (Relação quantitativa

estrutura-atividade)

Page 8: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

8

Pioneiros (início dos anos 70)

- Prof. Bruce Kowalski (Univ. Washington/Seatle/EUA)

Prof. Svante Wold (Univ. Umea/Suécia)

Page 9: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

9

O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data da 1ª metade do séc. XX. Por que a Quimiometria surgiu de forma relativamente tardia?

A partir dos anos 70, a presença de microprocessadores e

microcomputadores se popularizou nos laboratórios

químicos. Este fato impulsionou as técnicas

instrumentais analíticas, permitindo ao Químico obter

grandes quantidades de dados até então não disponíveis.

Daí, surgiu a necessidade de técnicas de tratamento de

dados mais complexas e, a partir de então, a estatística

multivariada ganhou popularidade e deu origem à

Quimiometria.

Page 10: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

10

PRINCIPAIS QUIMIOMETRISTASSteve Brown (Delaware), Karl Booksh (Arizona), Paul Gemperline (EastCarolina), John Kalivas (Idaho), Ron Schaffer (US Naval Research), PhilHopke (Clarkson), Barry Lavine (Ohio), Sarah Rutan (Virginia), Neil Gallaher e Barry Wise (Eigenvector Research).

Peter Wentzel (Dalhousie).

Roma Tauler (Barcelona), Xavier Rius, Joan Ferré e Ricard Boqué (Tarragona).

Richard Brereton (Bristol).

Age Smilde (Amsterdã), Lutgard Buydens (Nijmegen), Klass Faber.

Paul Geladi (Umea), Rolf Sundberg (Estocolmo).

D. Luc Massart (†) e Yven vander Heyden (Bruxelas).

Olaf Kvalheim e Rolf Manne (Bergen).

Rasmus Bro e Claus Andersson (Copenhague) e Kim Esbensen (Aalborg).

Kurt Varmuza (Vienna).

Beata Walczak (Katowice).

Alejandro Olivieri (Rosário).

Page 11: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

11

NO BRASIL

PIONEIRO: ROY E. BRUNS

- Prof. Ronei Poppi (IQ/UNICAMP)

- Profa. Márcia Ferreira (IQ/UNICAMP)

- Profa. Maria Fernanda Pimentel (UFPE)

- Prof. Mário Ugulino Araújo (UFPB)

- Profa. Ieda Scarminio (UEL/Londrina)

- Prof. Marcelo M. Sena (UFMG)

- Prof. Jez W. B. Braga (UnB)

- Prof. Marco F. Ferrão (UFRGS)

- Prof. Waldomiro Borges Neto (UFU)

Page 12: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

12

1) Matlab (Mathworks);

2) PLS_toolbox (Eigenvector);

3) Unscrambler (Camo);

4) Pirouette (Infometric);

5) SIMCA (Umetric);

6) Statistica (Statroft);

7) Octave (Software livre);

8) Scilab (Software livre).

SOFTWARES

Page 13: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

13

REVISTAS CIENTÍFICAS ESPECÍFICAS

CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS

Elsevier1987

JOURNAL OF CHEMOMETRICS Wiley1987

Page 14: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

14

1) Analytical Chemistry (ACS Publications);

2) The Analyst (RSC Publishing);

3) Analytica Chimica Acta (Elsevier);

4) Analytical and Bioanalytical Chemistry (Springer);

5) Talanta (Elsevier);

6) Applied Spectroscopy (Society for Applied Spectroscopy);

7) Journal of Near Infrared (NIR Publications);

REVISTAS CIENTÍFICAS de interesse

Page 15: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

15

LIVROS DIDÁTICOS

Page 16: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

16

INTRODUINTRODUÇÇÃO ÃO ÀÀ

ANANÁÁLISE LISE

EXPLORATEXPLORATÓÓRIA DE RIA DE

DADOSDADOS

Page 17: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

17

MÉTODOS DE

RECONHECIMENTO DE

PADRÕES

(Pattern Recognition)

ou

DE CLASSIFICAÇÃO

Page 18: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

18

OBJETIVO

Avaliar, interpretar e extrair o máximo de

informação de dados analíticos provenientes de

espectros, cromatogramas, eletroferogramas,

voltamogramas (ou sinais de outros métodos

eletroquímicos), perfis de profundidade, e amostras

para as quais as concentrações de diversos

constituintes químicos ou outras propriedades

tenham sido medidas.

Page 19: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

19

ARRANJO DOS DADOS• Os dados são arranjados em uma matriz Xnxp, de n

objetos, arranjados nas linhas e p variáveis, arranjadas

nas colunas.

=

npnn

p

p

xxx

xxx

xxx

X

L

MMMM

L

L

21

22221

11211

• Os objetos podem ser: amostras, moléculas, materiais, indivíduos, etc.

• As variáveis podem ser absorbâncias em diferentes comprimentos de onda, sinais analíticos em função do potencial elétrico ou do tempo de retenção, concentração de elementos ou outras propriedades físicas.

Page 20: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

20

⇒ MÉTODOS NÃO SUPERVISIONADOS: Não existe supervisão, já que não se conhece a priori a que classes pertencem os objetos (ou pelo menos essa informação não éusada na construção do modelo). É a situação mais comum em Quimiometria.

Exs: PCA, Análise de Fatores, Análise Hierárquica de Agrumpamentos (HCA).

⇒ MÉTODOS SUPERVISIONADOS: A informação sobre a que classes pertencem os objetos está disponível e é usada na construção do modelo.

Exs: Método do K-ésimo vizinho mais próximo (KNN), SIMCA, Análise Discriminante Linear (LDA).

MÉTODOS DE CLASSIFICAÇÃO

Page 21: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

21

Os métodos de classificação podem ser baseados:

1) No agrupamento dos dados baseados na distância direta entre os objetos (clustering methods).

Exs: HCA e KNN.

2) Na projeção dos dados em espaços de menor

dimensão.

Exs: PCA, Análise de Fatores e SIMCA.

MÉTODOS DE CLASSIFICAÇÃO

Page 22: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

22

HARD X SOFT MODELLING

Natureza da Modelagem dos Dados:

-Hard Modelling: A modelagem envolve fenômenos que podem ser descritos por leis físico-químicas conhecidas e claramente definidas.Ex: Tratamento de espectros, que obedecem a Lei de Beer.

-Soft Modelling: Modelagem de fenômenos, cujas as leis que os regem não são claramente descritas e conhecidas.Ex: Análise de amostras de água de um rio, buscando-se

conhecer os padrões geogênicos e antropogênciosrelacionados à sua composição.

Page 23: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

23

Análise de Componentes Principais (PCA)

• do inglês Principal Component(s) Analysis

Page 24: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

24

Correlação• É comum a presença de correlação em

qualquer tipo de dados!

18 20 22 24 26 28 3075

76

77

78

79

80

81

82

83

84

Idade (meses)

Altura (cm

)

• Exemplo: altura média vs. idade de um grupo de crianças pequenas

• Observa-se uma forte relação linear entre altura e idade.

• Para crianças pequenas, altura e idade estão correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).

Page 25: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

25

Correlação em espectroscopia

200 210 220 230 240 250 260 270 280 290 3000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Comprimento de onda (nm)

Absorbância

λ230 λ265

• Exemplo: um composto puro émedido em dois comprimentos de onda para várias concentrações

0,332

0,498

0,664

0,831

0,166

Intensidade a 230nm

0,181

0,270

0,362

0,453

0,090

Intensidade a 265nm

15

20

25

5

Conc. (MMol)

10

Page 26: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

26

Correlação em espectroscopia

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

Absorbância a 230 nm (unidades)Absorbância a 265 nm(unidades)

• As intensidades a λ230 e a λ265 são altamente correlacionadas.

• Existe apenas um fator

gerando os dados: concentraconcentraççãoão.

• Os dados não têm duas dimensões, mas apenas uma.

Aumento da concentração

Page 27: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

27

Correlação em processos químicos

• Em modernas plantas químicas, muitos variáveis do processo são medidas on-line.

Tcw,inTcw,outTvc,gasQcondFcondSagitatorXagitatorTr,topTr,middleTr,bottomTjacket,inTjacket,outLrFcwPr

Page 28: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

28

Correlação em processos químicos

• Tipicamente, 10 a 200 variáveis do processo são medidas a todo minuto, p.ex.: temperaturas, pressões, fluxos, etc.

• Essas variáveis do processo costumam ser altamente correlacionadas. Na maioria dos casos, existem apenas 2 ou 3 fatores importantes influenciando no processo -não 200!

0 50 100 150 200 250 3000

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

TempoVariáveis do processo (várias)

Page 29: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

29

A matriz de dados

• Por exemplo,– Espectroscopia: amostra × comprimento de onda

65,078,022,015,0

33,085,024,013,0

81,093,034,014,0

29,065,045,012,0

L

MOMMM

K

K

K

variáveis

objetos

• Dados podem ser representados na forma de uma matriz:

– Processo contínuo: tempo × T, P, taxa de fluxo etc.

– Análises ambientais:

amostras (em função do espaço ou do tempo) × variáveis

Page 30: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

30

Matriz de Dados

• Dados químicos multivariados (espectros) podem ser arranjados na forma de uma tabela de dados.

Variáveis

Amostras Matriz de

Dados X

Page 31: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

31

Grandes quantidades de dados

• Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes.

– Um espectro de infravermelho medido para 50 amostras pode produzir uma matriz de dados de dimensões 50 × 800 = 40.000 números!

– 100 variáveis de processo medidas a cada minuto durante um dia produzem uma matriz de dimensões 1440 × 100 = 144.000 números!!

• É necessária uma maneira de extrair a informação importante de matrizes de dados tão grandes.

Page 32: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

32

Principal Component Analysis• Redução dos dados

– A PCA transforma grandes matrizes de dados em matrizes menores, as quais podem ser mais facilmente examinadas, plotadas e interpretadas.

• Exploração dos dados – A PCA extrai os fatores mais importantes (componentes principais

- CPs) dos dados, preservando a maior parte da variância. Esses fatores descrevem as interações multivariadas entre as variáveis medidas e revelam tendências subjacentes aos dados.

• Interpretação dos dados– As CPs podem ser usadas para classificar amostras, identificar

compostos através da obtenção de seus espectros puros, determinar quais as variáveis fundamentais para um processo, etc.

Page 33: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

33

Diferentes visões da PCA

• Estatisticamente, a PCA é uma técnica de análise multivariada relacionada com– Análise de autovetores/autovalores– Decomposição em valores singulares (SVD)

• Em termos matriciais, a PCA é um método para decompor X em duas matrizes menores (T e P) mais uma matriz de resíduos (E):X = TPT + E

• Geometricamente, a PCA é uma técnica de projeção, na qual, a matriz X é projetada num sub-espaço de dimensões reduzidas.

Page 34: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

34

PCA: matemática

• A equação básica para a PCA é escrita como

onde

X (I × J) é uma matriz de dados,T (I × R) são os escores,

P (J × R) são os pesos (“loadings”) e

E (I × J) são os resíduos.

R é o número de CPs usados para descrever X.

ETP

EptptptX

+=

+++=

T

TT22

T11 ... RR

Page 35: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

35

Componentes Principais (CPs)

• As CPs descrevem o máximo de variância (= informação) e são calculadas em ordem decrescente de importância

18,1 87,63

1,3 88,94

23,9 69,52

45,6 45,61

% de X explicada

% total de X explicada

CP.

• Uma CP é definida por um par de vetores pesos e vetores escores:

rr ,pt

e assim por diante... até 100%

Page 36: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

36

PCA: matrizes

= + ... +X

escores

pesos

componente principal

+ E=

T

PT

Page 37: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

37

Escores & pesos

• Escores– T = US (SVD)– relações entre objetos

– ortogonais, TTT = matriz diagonal

• Pesos– P = V (SVD)– relações entre variáveis

– ortonormais, PTP = matriz identidade, I

• Similaridades e diferenças entre objetos (ou variáveis) podem ser vistas através de gráficos em que os escores (ou pesos) são plotados uns contra os outros.

Page 38: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

38

PCA: projeção simples

• Caso mais simples : duas variáveis correlacionadas

18 20 22 24 26 28 3075

76

77

78

79

80

81

82

83

84

Idade (meses)

Altura (cm

)

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

8

Escores CP 1 (99,77%)

Escores CP 2 (0,23%)

gráfico de escores

PCA

CP1

CP2

• A CP1 descreve 99,77% da variação total em X.

• A CP2 descreve a variação residual aleatória (0,23%).

Page 39: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

39

PCA: projeções

• A PCA é uma técnica de projeção.

– Agora, nós iremos projetar dados de J dimensões em um

espaço de duas dimensões, ou seja, um plano.

– No exemplo anterior, dados de duas dimensões foram projetados em um espaço de uma dimensão, ou seja, em uma linha.

• Cada linha de cada matriz de dados X (I × J) pode ser considerada como um ponto no espaço J-dimensional. Esses dados são projetados ortogonalmente em um sub-espaço de menor dimensionalidade.

Page 40: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

40

= +•••••••••••••••

EPTX T+=

•�

•••••••••••••••• •

• •

•••••••••••••••�•••••••••••••••�

Page 41: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

41

B

x1

x2

CP1

23

4

56

t1

t2

A

x1

x2

θ2

θ1

p1=cosθ1

p2=cosθ2

+∞

-∞

CP: reta na direção de maior variação das amostras

(A) “pesos” são os ângulos do vetor direção

(B) “escores” são as projeções nas amostras na direção de CP

Page 42: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

42

Exemplo 1:Dados Proteínas

• Estudo do consumo de proteínas em países da Europa.• 9 variáveis descrevem diferentes fontes de proteína.• Os 25 objetos são os diferentes países.

• A matriz de dados tem as dimensões 25 × 9.

Weber, A., Agrarpolitik im Spannungsfeld der internationalen

Ernaehrungspolitik, Institut fuer Agrarpolitik und Marktlehre, Kiel (1973) .

• Quais países são semelhantes?

• Quais alimentos estão correlacionados com o consumo de carne vermelha?

Page 43: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

43

Page 44: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

44

PCA nos dados de proteínas• Os dados são centrados na média e cada variável é

autoescalada para variância um. A PCA é então aplicada.

Variância Percentual Capturada pelo Modelo PCA

Número de Autovalor % Variância % Variância

Componentes de Capturada Capturada

Principais Cov(X) por este CP Total

--------- ---------- ---------- ----------

1 4,01e+000 44,52 44,52

2 1,63e+000 18,17 62,68

3 1,13e+000 12,53 75,22

4 9,55e-001 10,61 85,82

5 4,64e-001 5,15 90,98

6 3,25e-001 3,61 94,59

7 2,72e-001 3,02 97,61

8 1,16e-001 1,29 98,90

9 9,91e-002 1,10 100,00

Quantos componentes principais você quer

escolher?

4

1 2 3 4 5 6 7 8 90

0.5

1

1.5

2

2.5

3

3.5

4

4.5Autovalores vs. Número de CPs

Número de CPsAutovalores

Page 45: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

45

-3 -2 -1 0 1 2 3 4-5

-4

-3

-2

-1

0

1

2

Escores CP 1 (44,52%)

EscoresCP 2 (18,17%)

Albania

Austria

Belgium

Bulgaria

Czechoslovakia

Denmark East Germany

Finland

France

Greece

Hungary Ireland

Italy

Netherlands

Norway

Poland

Portugal

Romania

Spain

Sweden

Switzerland

UK USSR West Germany

Yugoslavia

Escores: CP1 vs CP2

PC 2

Page 46: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

46

Pesos

White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Pesos CP CP1CP2

Red meat

Page 47: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

PERMITEM VISUALIZAR OS

ESCORES E OS PESOS

SIMULTANEAMENTE

Gráficos Biplots

Page 48: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

48

-5 -4 -3 -2 -1 0 1 2 3 4 5-5

-4

-3

-2

-1

0

1

2

CP 1

CP 2

Albania

Austria

Belgium

Bulgaria

Czechoslovakia

Denmark East Germany

Finland

France

Greece

Hungary Ireland

Italy

Netherlands

Norway

Poland

Portugal

Romania

Spain

Sweden

Switzerland

UK USSR West Germany

Yugoslavia

Red meat

White meat

Eggs

Milk

Fish

Cereals

Starch

Beans/nuts/oil

Fruit & veg

Biplot: CP1 vs CP2

CP2 indica que os espanhóis e os portugueses gostam especialmente de frutas, vegetais e peixes.

Europeus do SE comem muito cereais

Page 49: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

49

-5 -4 -3 -2 -1 0 1 2 3 4 5-3

-2

-1

0

1

2

3

4

CP 1

CP 3

Albania

Austria

Belgium Bulgaria

Czechoslovakia

Denmark

East Germany

Finland

France

Greece

Hungary

Ireland Italy

Netherlands

Norway

Poland

Portugal Romania

Spain

Sweden

Switzerland

UK

USSR

West Germany

Yugoslavia

Red meat

White meat

Eggs

Milk

Fish

Cereals

Starch

Beans/nuts/oil

Fruit & veg

Escandinavos comem muito peixe!

Carne vermelha e leite estão correlacionados

Os holandeses gostam de batata…

...com maionese!?

Biplot: CP1 vs CP3

Page 50: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

50

Resíduos• Também é importante examinar os resíduos do

modelo, E.

1 2 3 4 5 6 7 8 9-1

-0.5

0

0.5

1

1.5

Número da variável

Variação Residual

• Idealmente, os resíduos não deverão conter nenhuma estrutura - apenas variação aleatória (ruído).

Page 51: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

51

Resíduos

• Os resíduos (quadrados) do modelo podem ser somados ao longo da direção dos objetos ou das variáveis:

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

Número do objeto

Q (soma dos resíduos quadrados)

∑=

=

J

j

iji eQ1

2

País 23 (URSS) se ajusta ao modelo de

maneira pior

Page 52: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

52

Exemplo 2:Efeito do Manejo no Solo

• Agricultura Alternativa (Orgânica) x Convencional

• O estudo foi conduzido em 3 fazendas, em Guaíra/SP

• Em cada fazenda foram comparadas 2 faixas Alternativas, 2 Convencionais e a Mata nativa (5 faixas)

• 8 variáveis: pH, Ac, Ce, So, Dh, Ps, MB e Sba (Ye)

• O manejo iniciou em 1995 e os dados foram coletados

em 1996 e 1997

• A matriz de dados tem as dimensões 5 ×××× 8.

Page 53: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

53

• É possível distinguir o sistema de manejo alternativo do manejo convencional e da mata nativa, através da análise de 8 variáveis relevantes?

• Quais dessas variáveis são as mais importantes para a discriminação?

Objetivo:Através de uma análise integrada usando a

PCA, responder a 2 questões

Page 54: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

54 1996 – Fazenda Macaúba

Page 55: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

55 1997 – Fazenda Macaúba

Mata x cultivadas: MB x CeAlt x Conv: MB e Ps x Ce e So

Page 56: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

56

SOIL & TILLAGE RESEARCH 67, 171-181 (2002)

M. M. Sena, R. T. S. Frighetto, P. J. Valarini, H. Tokeshi, R. J. Poppi

“Discrimination of management effects on soilparameters by using principal component analysis: a multivariate analysis case study”

Page 57: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

57

Pré-processamento dos dados

• Na maioria das vezes, nós estamos interessados nas diferenças entre os objetos, não nos seus valores absolutos.

– Dados de proteínas : diferenças entre países– Dados de solos : diferenças entre o tipo de faixa do solo

• Se diferentes variáveis são medidas em diferentes unidades, algum tipo de escalamento (normalização) é necessário para dar a cada variável a mesma chance de contribuir para o modelo.

– Dados de solos: pH & Biomassa Microbiana possuem escalas muito diferentes

Page 58: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

58

Centrando os dados na média

• Subtrair a média de cada coluna de X:

107111,387,6

105482,363,6

118575,355,6

102452,376,6

−−−

−−

3.129,350,1175,0

3,292550,0225,0

1016250,1025,0

2,595450,0075,0Centrar

na média

=x6,525 1084036,75

=x0,0 0,00,0

Page 59: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

59

Autoescalando os dados

• Dividir cada coluna de X por seu desvio padrão:

0,171 704,81,139

−−−

−−

3,129350,1175,0

3,292550.0,225,0

1016250,1025,0

2,595450,0075,0Escalamento

−−−

−−

183,0186.1,025,1

415,0483,0318,1

443.1,098,1146.0,

845,0395,0439,0

1,01,01,0=σ

Page 60: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

60

Quantos CP’s usar?

• Poucos CP’s:– alguma variação sistemática deixa de ser descrita.– O modelo não consegue descrever os dados completamente.

X = TPT + E

variação sistemática resíduo (ruído)

• Muitos CP’s:– Os últimos CP’s descrevem apenas ruído.– O modelo não é robusto quando aplicado a novos dados.

• Como selecionar o número correto de CP’s?

Page 61: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

61

Quantos CP’s usar?

• Gráfico de Autovalores

• Selecionar os componentes quando % variância explicada > nível do ruído

• Interpretar os escores e os pesos das CP’s: Eles fazem sentido?! Os resíduos têm estrutura?

• Validação cruzada

1 2 3 4 5 6 7 8 90

0.5

1

1.5

2

2.5

3

3.5

4

4.5E igenvalue vs . PC Number

PC Number

Eigenvalue

‘Saliência’ aqui selecionar 4 CP’s

Page 62: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

62

Amostras anômalas (“Outliers”)

• “Outliers” são objetos que são muito diferentes do resto dos dados. Eles podem ter um grande efeito no modelo (na CP) e devem ser removidos.

1 1.5 2 2.5 3 3.5 4 4.54

6

8

10

12

14

16

18

pH

T (oC)

1 1.5 2 2.5 3 3.5 4 4.54

6

8

10

12

14

16

18

pH

T (oC)

Remover “outlier”

Experimento

anômalo

Page 63: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

63

Amostras anômalas (“Outliers”)

• “Outliers” também podem ser encontrados no espaço do modelo ou nos resíduos.

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

Escores CP 1

EscoresCP 2

22 24 26 28 30 32 34 36 38 40 420

2

4

6

8

10

12

14

Tempo (min)

Soma-dos-quadrados dos resíduos

Page 64: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

64

Amostras anômalas (“Outliers”)• Podem ser avaliadas através dos resíduos, Qi, e do

seu peso no modelo (estimado pelo valor de T2 de Hotelling, Ti

2).

• Ti2 é a soma dos escores ao quadrado e é uma

medida da variação (da influência) de cada amostra dentro do modelo PCA.

Ti2 = tiλ

-1tiT

onde ti é o vetor escore da i-ésima amostra e λ-1 é o autovalor correspondente à CP.

• Intervalos de confiança podem ser estimados para os valores de Qi e Ti

2. Espera-se que as distribuições de Qi e Ti

2 sigam a normalidade (lembre-se do TLC).

• Amostras com altos resíduos (mal modeladas) e altos valores de T2 (alta influência no modelo) devem ser consideradas outliers.

Page 65: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

65

Page 66: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

66

A extrapolação do modelo não érecomendável

0 5 10 15 20 25 300

50

100

150

200

250

300

Idade (anos)

Altura (cm

)

…mas não éválido p/ a faixa de 30 anos!

O modelo linear foi válido para essa faixa de idade...

Page 67: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

67

Conclusões

• A análise de componentes principais (PCA) reduz grandes matrizes colineares a umas poucas matrizes de escores e de pesos:

• Componentes Principais (CP’s)

– descrevem a variação mais importante nos dados.

– são calculados em ordem de importância.

– são ortogonais.

ETP

EptptptX

+=

+++=

T

TT22

T11 ... RR

Page 68: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

68

Conclusões

• Gráficos de escores e “biplots” podem ser muito úteis para a exploração e o entendimento dos dados.

• Freqüentemente, é necessário centrar na média e escalar as variáveis antes da análise.

• A escolha do número correto de CP’s é um passo importante na construção de um modelo PCA.

Page 69: ronei@iqm.unicamp - JOINQUIjoinqui.qui.ufmg.br/2010/download/MC15-1.pdf · O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data ... (I × R) são

69

Agradecimentos

UNIVERSITY OF AMSTERDAM

Prof. Age K. Smilde

Parte desta aula é uma adaptação do material preparado pelo

Prof. Smilde