7
1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são técnicas de redução de dados. Objetivo da análise de agrupamentos é formar grupos, reduzindo o número original de elementos a poucos grupos. Objetivo da análise das componentes principais é reduzir o número original de variáveis. Ambas as análises fornecem os mesmos resultados. 2 Análise discriminante Na análise discriminante os grupos ja são conhecidos à priori. Supõe-se que as observações estão corretamente classificadas Objetivo: Verificar se os grupos estão discriminados Classificar observações desconhecidas Verificar quais variáveis são as mais importantes para a discriminação entre os grupos. 3 Função discriminante Região de recobrimento 4 Limites lineares 5 Análise Discriminante Linear Decidir à qual de dois grupos pertenceriam indivíduos Substituir o conjunto original das mensurações por um único valor Di, definido como uma combinação linear Razão mínima entre a diferença entre pares de médias multivariadas e variância multivariada dentro dos dois grupos. Para a aplicação de testes de significância: observações em cada grupo escolhidas ao acaso; probabilidade de um indivíduo desconhecido pertencer a um dos grupos ser a mesma; variáveis com distribuição normal; matrizes de variância dos grupos de mesmo tamanho; observações usadas para o cálculo das funções discriminantes classificadas sem erro. Quando matrizes de variâncias e covariâncias são diferentes escolher função discriminante quadrática. 6

Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

  • Upload
    docong

  • View
    232

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

1

ANÁLISE DISCRIMINANTE

1

Análise de agrupamentos e Análise das componentes principais

Ambas as análises são técnicas de redução de dados. Objetivo da análise de agrupamentos é formar grupos, reduzindo o número original de elementos a poucos grupos. Objetivo da análise das componentes principais é reduzir o número original de variáveis. Ambas as análises fornecem os mesmos resultados.

2

Análise discriminante

•Na análise discriminante os grupos ja são conhecidos à priori. •Supõe-se que as observações estão corretamente classificadas •Objetivo:

•Verificar se os grupos estão discriminados •Classificar observações desconhecidas •Verificar quais variáveis são as mais importantes para a discriminação entre os grupos.

3

Função discriminante

Região de recobrimento 4

Limites lineares

5

Análise Discriminante Linear

Decidir à qual de dois grupos pertenceriam indivíduos

Substituir o conjunto original das mensurações por um único valor Di, definido como uma combinação linear

Razão mínima entre a diferença entre pares de médias multivariadas e variância multivariada dentro dos dois grupos.

Para a aplicação de testes de significância: observações em cada grupo escolhidas ao acaso; probabilidade de um indivíduo desconhecido pertencer a um

dos grupos ser a mesma; variáveis com distribuição normal; matrizes de variância dos grupos de mesmo tamanho; observações usadas para o cálculo das funções discriminantes

classificadas sem erro.

Quando matrizes de variâncias e covariâncias são diferentes escolher função discriminante quadrática. 6

Page 2: Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

2

7 8

Di=1x1+ 2x2+ 3x3+.... pxp

cálculo das funções discriminantes lineares por regressão linear, onde a variável dependente consiste no vetor de diferenças entre as médias multivariadas de dois grupos e as variáveis independentes matriz de variâncias covariâncias das variáveis em estudo

A solução do sistema de equações lineares resultante pode ser resolvido, por cálculo matricial, a partir de:

[p]=[Vp2]-1[Rp]

Para o cálculo dos coeficientes p, que irão constituir a equação da função discriminante, determina-se o inverso da matriz da variâncias e covariâncias combinadas e em seguida multiplica essa matriz pelo vetor de diferenças entre médias:

9

O valor central do grupo A é determinado por

DA=AxA1+ xA2+ xA3+..... AxAp

e do grupo B por

DB =BxB1 + BxB2 + BxB3 +.....BxBp

O índice discriminante, , ou seja, o ponto na linha descrita pela função discriminante situado exatamente na metade da distância entre os centros dos grupos A e B, é encontrado segundo:

)2

xx(λ...)

2

xx(λ)

2

xx(λD

BpAp

p2B2A

21B1A

10

10

Para testar a significância da função encontrada, ou seja, verificar se os dois grupos considerados pertencem a uma única população ou à duas distintas populações, calcula-se a distância entre as duas médias multivariadas.

Esta medida de distância é conhecida como “distância generalizada de Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas expressa em unidades de variâncias combinadas.

D2= DA-DB

D² é usada na seguinte expressão para ser testada pela distribuição F:

(com "p" graus de liberdade para o numerador e " " para o denominador)

2

BA

BA

BA

BA Dnn

nn

p)2nn(

1pnn*F

A hipótese nula a ser testada, estabelece que as duas médias multivariadas são iguais, ou que a distância entre ambos os grupos é igual a zero significando que se trata de um único grupo.

11

A contribuição relativa, em percentagem, de cada variável para o distanciamento entre os dois grupos é fornecida pela expressão:

Cp=[(pRp)/D2]*100

Cp mede apenas a contribuição direta da variável, sem levar em consideração o seu inter-relacionamento com as demais existentes.

12

Page 3: Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

3

Funções discriminantes multigrupos

Discriminar entre mais de dois grupos

Análise de variância da matriz inicial parcializada em categorias ou grupos

Soma de quadrados entre grupos [E] mais a soma de quadrados dentro dos grupos [D] é igual à soma total de quadrados [T]: [T] = [E] + [D]

Razão [E]/[D] com alto valor: médias dos grupos bem diferentes entre si e os valores dentro de cada grupo bem concentrados ao redor dos respectivos centroides

13

Encontrar um conjunto de pesos lineares para as variáveis que tornem essa razão máxima

Distâncias entre grupos são

maximizadas

Distâncias dentro dos grupos são

minimizadas

14

Se o conjunto de pesos for o vetor [A1], a análise discriminante pode ser efetuada ao encontrar os valores dos elementos de [A1] de modo que a expressão {[A1]´[E] [A1]}/{[A1]´[D] [A1]}, seja maximiza

Restrição para denominador igual a 1: [A1]´[D] [A1] = 1

Razão maximizada quando [A1] for o autovetor correspondente ao maior autovalor de [D]-1 [E]

Encontrar,como na análise fatorial, eixos ortogonais [A2], [A3], etc., funções discriminantes em sucessão decrescente

15

Observações projetadas no espaço definido pelos eixos discriminantes: [Z] = [A]´[X],

onde [X] é a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas “t” são os maiores autovetores a serem usados nas funções discriminantes.

Os centroides dos g grupos podem ser projetados no espaço discriminante por [Zmk] = [A1] [Xmk],

onde [Xmk] contem as médias de todas as variáveis para cada grupo.

Escolher as duas funções discriminantes de maior peso para servir como eixos ortogonais para uma distribuição das observações dos diversos grupos e os respectivos centróides.

Uma observação multidimensional de origem desconhecida pode ser projetada nesse diagrama pela sua multiplicação pelo transposto de [A] e verificada sua distância aos diversos centróides

16

Exemplo de análise discriminante entre dois grupos

17

Exemplo de análise discriminante entre dois grupos

P:Zona

mineralizada

E: Zona

estéril

X: ?

18

Page 4: Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

4

19

Análise discriminante multigrupos. O petróleo tanto pode ter origem em carbonatos (C) e folhelhos (F)

de origem marinha, como em ambientes deltaicos (D) e para explicar a sua gênese são utilizadas diversas variáveis em conjunto.

São fornecidos dados referentes a 63 amostras de petróleo, nas quais foram obtidas as seguintes variáveis: API = densidade em unidades API S= porcentágem de enxofre Pr/Ph= razão pristâneo/fitâneo S/A= razão entre hidrocarbonetos saturados e aromáticos PCIR= razão isotópica de carbono(12C/13C) no petroleo GCIR= razão isotópica de carbono na fração gasolina G-R= diferença entre as razoes isotópicas na fração gasolina e

no resíduo 20

Amostra Ambiente API S Pr/Ph S/A PCIR GCIR G-R 1 1C 24.6 1.69 1.1 1.1 -26.23 -26.3 -0.27

2 2C 27 1.58 0.95 1.1 -26.62 -26.89 -0.33

3 3C 28.1 1.53 1.02 1.2 -26.02 -26.21 -0.39

4 4C 29.5 3.1 0.7 0.8 -26.1 -27.16 -1.42

5 5C 32.2 2.61 0.65 0.8 -26.24 -27.2 -1.09

6 6C 33.6 2.27 0.75 0.7 -26.5 -27.19 -0.93

7 7C 31.7 2.52 0.7 0.9 -26.24 -27.07 -1.12

8 8C 33 1.71 0.71 1.2 -26.27 -27 -0.97

9 9C 34 1.95 0.62 1.2 -26.3 -26.95 -0.96

10 10C 28 2.78 0.67 0.7 -26.57 -27.46 -0.83

11 11C 25.5 2.26 0.82 0.9 -25.59 -25.8 -0.6

12 12C 35.4 1.03 0.85 1.3 -25.25 -25.65 -0.5

13 13C 35.1 1.39 0.58 1.1 -25.06 -25.52 -0.54

14 14C 36.6 1.34 0.62 1.3 -25.02 -25.43 -0.53

15 15C 29 1.9 0.74 0.9 -25 -25.42 -0.59

16 16C 38.5 0.98 0.59 1.4 -24.86 -25.19 -0.41

17 17C 30.1 1.73 0.6 0.9 -24.71 -25.14 -0.59

18 18C 31.9 1.02 0.78 1.3 -24.54 -25.04 -0.72

19 19C 24.4 3.87 0.57 0.3 -26.62 -26.96 -0.71

20 20C 22.9 3.83 0.57 0.5 -26.13 -26.72 -0.73

21 21C 18.7 4.82 0.53 0.4 -25.87 -26.13 -0.35

22 1D 54.4 0 1.27 7.8 -25.33 -23.27 4.26

23 2D 54.7 0.05 1.73 14.1 -25.54 -23.75 3.66

24 3D 58.6 0.01 2.09 14.3 -25.92 -24.45 3.36

25 4D 41 0.01 3.95 4.6 -24.54 -22.52 2.82

21

Aplicando, inicialmente, análise de agrupamentos (modelo Q, método Ward, distância euclidiana e variáveis não padronizadas) verificar se esse conjunto de amostras pode ser subdividido em grupos e se esses grupos estão de acordo com os ambientes C, F e D .

22

Ward: variáveis não padronizadas

9D

8D

18

D

15

D

14

D

17

D

13

C

12

C

14

C

16

C

19

F

17

F

18

F

16

F

10

F

10

F

8F

15

F

14

F

12

F

10

C

4C

3C

2C

11

F

9F

17

C

15

C

18

C

9C

6C

8C

7C

5C

7F

4F

5F

3F

6F

1F

2F

20

C

19

C

11

C

1C

21

C

3D

2D

1D

22

D

19

D

20

D

21

D

13

D

10

D

7D

11

D

12

D

5D

13

F

16

D

6D

4D

0

1000

2000

3000

4000

5000

6000

Dis

tân

cia

eu

cli

dia

na

23

Aplicando a análise de agrupamentos (modelo Q, método Ward, distância euclidiana e variáveis padronizadas) verificar se esse conjunto de amostras pode ser subdividido em grupos e se esses grupos estão de acordo com os ambientes C, F e D .

24

Page 5: Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

5

Ward: 3 grupos

10C

4C

7C

5C

6C

9C

8C

20C

19C

21C

17C

15C

11C

3C

1C

2C

14C

13C

12C

16C

18C

10F

8F

11F

9F

18F

16F

17F

19F

10F

15F

14F

12F

13F

7F

1F

6F

2F

5F

3F

4F

11D

4D

18D

6D

13D

10D

7D

12D

5D

21D

19D

22D

20D

17D

14D

15D

16D

9D

8D

3D

2D

1D

0

20

40

60

80

100

120

140

160

180

200

Distâ

ncia e

uclideana

25

Com a padronização das variáveis os três grupos encontrados agrupam amostras segundo os ambientes carbonatos (C), folhelhos (F) e deltaicos (D).

Em seguida, aplicando análise discriminante, verificar se os grupos encontrados estão significativamente separados, segundo ambientes de deposição, e quais as variáveis mais importantes para essa discriminação.

26

27 28

29

Para verificar a relação entre amostras e variáveis e, portanto, a influência das variáveis na discriminação entre grupos sobrepor os gráficos

30

Análise de Componentes Principais

Page 6: Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

6

Análise Discriminante: XLStat Medidas cranianas foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-Oligoceno dos Estados Unidos da América). As afinidades taxonômicas entre essas espécies estão no gráfico abaixo:

Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr).

31 32

33

BC-W: largura da caixa craniana na altura da região parietal-escamosal TR-L: comprimento máximo dos dentes molariformes Bu-L: comprimento máximo da “bulla” timpânica Bu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o processo paroxipital.

Espécie

BC-W TR-L Bu-L Bu-HP

Su 47.0 99.0 26.0 15.0

Su 42.0 93.0 26.0 16.0

Su 40.0 90.0 22.0 13.0

Su 46.0 100.0 22.0 11.0

Su 46.0 96.0 24.0 16.0

Su 42.0 88.0 26.0 15.0

Su 43.0 89.0 23.0 14.0

Su 44.0 78.0 23.0 13.0

Su 44.0 90.0 25.0 11.0

Su 47.0 99.0 27.0 15.0

Su 47.0 92.0 27.0 13.0

Me 78.0 165.0 35.0 18.0

Me 77.0 165.0 37.0 19.0

34

35 36

Page 7: Análise de agrupamentos e Análise das componentes …igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise

7

37

4 grupos indicados pela Análise Discriminante: 1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni 2: Subdesmatochoerus sp 3: Desmatochoerus hatcheri + Psuedodesmatochoerus 4: Megoreodon gigas loomisi

38

39