7
1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são técnicas de redução de dados. Objetivo da análise de agrupamentos é formar grupos, reduzindo o número original de elementos a poucos grupos. Objetivo da análise das componentes principais é reduzir o número original de variáveis. Ambas as análises fornecem os mesmos resultados. 2 Análise discriminante Na análise discriminante os grupos ja são conhecidos à priori. Supõe-se que as observações estão corretamente classificadas Objetivo: Verificar se os grupos estão discriminados Classificar observações desconhecidas Verificar quais variáveis são as mais importantes para a discriminação entre os grupos. 3 Função discriminante Região de recobrimento 4 Limites lineares 5 Análise Discriminante Linear Decidir à qual de dois grupos pertenceriam indivíduos Substituir o conjunto original das mensurações por um único valor Di, definido como uma combinação linear Razão mínima entre a diferença entre pares de médias multivariadas e variância multivariada dentro dos dois grupos. Para a aplicação de testes de significância: observações em cada grupo escolhidas ao acaso; probabilidade de um indivíduo desconhecido pertencer a um dos grupos ser a mesma; variáveis com distribuição normal; matrizes de variância dos grupos de mesmo tamanho; observações usadas para o cálculo das funções discriminantes classificadas sem erro. Quando matrizes de variâncias e covariâncias são diferentes escolher função discriminante quadrática. 6

Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

Embed Size (px)

Citation preview

Page 1: Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

1

ANÁLISE DISCRIMINANTE

1

Análise de agrupamentos e Análise das componentes principais

Ambas as análises são técnicas de redução de dados.

Objetivo da análise de agrupamentos é formar grupos, reduzindo o número original de elementos a poucos grupos.

Objetivo da análise das componentes principais é reduzir o número original de variáveis.

Ambas as análises fornecem os mesmos resultados.

2

Análise discriminante

•Na análise discriminante os grupos ja são conhecidos à priori.•Supõe-se que as observações estão corretamente classificadas

•Objetivo:•Verificar se os grupos estão discriminados•Classificar observações desconhecidas•Verificar quais variáveis são as mais importantes para a discriminação entre os grupos.

3

Função discriminante

Região de recobrimento4

Limites lineares

5

Análise Discriminante Linear

Decidir à qual de dois grupos pertenceriam indivíduos

Substituir o conjunto original das mensurações por um único valor Di, definido como uma combinação linear

Razão mínima entre a diferença entre pares de médias multivariadas e variância multivariada dentro dos dois grupos.

Para a aplicação de testes de significância: observações em cada grupo escolhidas ao acaso; probabilidade de um indivíduo desconhecido pertencer a um

dos grupos ser a mesma; variáveis com distribuição normal; matrizes de variância dos grupos de mesmo tamanho; observações usadas para o cálculo das funções discriminantes

classificadas sem erro.

Quando matrizes de variâncias e covariâncias são diferentes escolher função discriminante quadrática. 6

Page 2: Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

2

7 8

Di=1x1+ 2x2+ 3x3+.... pxp

cálculo das funções discriminantes lineares por regressão linear, onde a variável dependente consiste no vetor de diferenças entre as médias multivariadas de dois grupos e as variáveis independentes matriz de variâncias covariâncias das variáveis em estudo

A solução do sistema de equações lineares resultante pode ser resolvido, por cálculo matricial, a partir de:

[p]=[Vp2]-1[Rp]

Para o cálculo dos coeficientes p, que irão constituir a equação da função discriminante, determina-se o inverso da matriz da variâncias e covariâncias combinadas e em seguida multiplica essa matriz pelo vetor de diferenças entre médias:

9

O valor central do grupo A é determinado por

DA=AxA1+ xA2+xA3+.....AxAp

e do grupo B por

DB =BxB1 + BxB2 + BxB3 +.....BxBp

O índice discriminante, , ou seja, o ponto na linha descrita pela função discriminante situado exatamente na metade da distância entre os centros dos grupos A e B, é encontrado segundo:

)2

xx(λ...)

2

xx(λ)

2

xx(λD

BpAp

p2B2A

21B1A

10

10

Para testar a significância da função encontrada, ou seja, verificar se os dois grupos considerados pertencem a uma única população ou à duas distintas populações, calcula-se a distância entre as duas médias multivariadas.

Esta medida de distância é conhecida como “distância generalizada de Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas expressa em unidades de variâncias combinadas.

D2= DA-DB

D² é usada na seguinte expressão para ser testada pela distribuição F:

(com "p" graus de liberdade para o numerador e " " para o denominador)

2

BA

BA

BA

BA Dnn

nn

p)2nn(

1pnn*F

A hipótese nula a ser testada, estabelece que as duas médias multivariadas são iguais, ou que a distância entre ambos os grupos é igual a zero significando que se trata de um único grupo.

11

A contribuição relativa, em percentagem, de cada variável para o distanciamento entre os dois grupos é fornecida pela expressão:

Cp=[(pRp)/D2]*100

Cp mede apenas a contribuição direta da variável, sem levar em consideração o seu inter-relacionamento com as demais existentes.

12

Page 3: Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

3

Funções discriminantes multigrupos

Discriminar entre mais de dois grupos

Análise de variância da matriz inicial parcializada em categorias ou grupos

Soma de quadrados entre grupos [E] mais a soma de quadrados dentro dos grupos [D] é igual à soma total de quadrados [T]: [T] = [E] + [D]

Razão [E]/[D] com alto valor: médias dos grupos bem diferentes entre si e os valores dentro de cada grupo bem concentrados ao redor dos respectivos centroides

13

Encontrar um conjunto de pesos lineares para as variáveis que tornem essa razão máxima

Distâncias entre grupos são

maximizadas

Distâncias dentro dos grupos são

minimizadas

14

Se o conjunto de pesos for o vetor [A1], a análise discriminante pode ser efetuada ao encontrar os valores dos elementos de [A1] de modo que a expressão {[A1]´[E] [A1]}/{[A1]´[D] [A1]}, seja maximiza

Restrição para denominador igual a 1: [A1]´[D] [A1] = 1

Razão maximizada quando [A1] for o autovetor correspondente ao maior autovalor de [D]-1 [E]

Encontrar,como na análise fatorial, eixos ortogonais [A2], [A3], etc., funções discriminantes em sucessão decrescente

15

Observações projetadas no espaço definido pelos eixos discriminantes: [Z] = [A]´[X],

onde [X] é a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas “t” são os maiores autovetores a serem usados nas funções discriminantes.

Os centroides dos g grupos podem ser projetados no espaço discriminante por [Zmk] = [A1] [Xmk],

onde [Xmk] contem as médias de todas as variáveis para cada grupo.

Escolher as duas funções discriminantes de maior peso para servir como eixos ortogonais para uma distribuição das observações dos diversos grupos e os respectivos centróides.

Uma observação multidimensional de origem desconhecida pode ser projetada nesse diagrama pela sua multiplicação pelo transposto de [A] e verificada sua distância aos diversos centróides

16

Exemplo de análise discriminante entre dois grupos

17

Exemplo de análise discriminante entre dois grupos

P:Zona

mineralizada

E: Zona

estéril

X: ?

18

Page 4: Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

4

19

Análise discriminante multigrupos.

O petróleo tanto pode ter origem em carbonatos (C) e folhelhos (F) de origem marinha, como em ambientes deltaicos (D) e para explicar a sua gênese são utilizadas diversas variáveis em conjunto.

São fornecidos dados referentes a 63 amostras de petróleo, nas quais foram obtidas as seguintes variáveis: API = densidade em unidades API S= porcentágem de enxofre Pr/Ph= razão pristâneo/fitâneo S/A= razão entre hidrocarbonetos saturados e aromáticos PCIR= razão isotópica de carbono(12C/13C) no petroleo GCIR= razão isotópica de carbono na fração gasolina G-R= diferença entre as razoes isotópicas na fração gasolina e

no resíduo20

21

Aplicando, inicialmente, análise de agrupamentos (modelo Q, método Ward, distância euclidiana e variáveis não padronizadas) verificar se esse conjunto de amostras pode ser subdividido em grupos e se esses grupos estão de acordo com os ambientes C, F e D .

22

23

Aplicando a análise de agrupamentos (modelo Q, método Ward, distância euclidiana e variáveis padronizadas) verificar se esse conjunto de amostras pode ser subdividido em grupos e se esses grupos estão de acordo com os ambientes C, F e D .

24

Page 5: Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

5

25

Variáveis padronizadas: x

ii

s

)xx(z

26

Com a padronização das variáveis os três grupos encontrados agrupam amostras segundo os ambientes carbonatos (C), folhelhos (F) e deltaicos (D).

Em seguida, aplicando análise discriminante, verificar se os grupos encontrados estão significativamente separados, segundo ambientes de deposição, e quais as variáveis mais importantes para essa discriminação. 27 28

29 30

Para verificar a relação entre amostras e variáveis e, portanto, a influência das variáveis na discriminação entre grupos sobrepor os gráficos

Page 6: Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

6

31

Análise de Componentes Principais Análise Discriminante: XLStat Medidas cranianas foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-Oligoceno dos Estados Unidos da América). As afinidades taxonômicas entre essas espécies estão no gráfico abaixo:

Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr).

32

33 34

BC-W: largura da caixa craniana na altura da região parietal-escamosalTR-L: comprimento máximo dos dentes molariformesBu-L: comprimento máximo da “bulla” timpânicaBu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o processo paroxipital.

Espécie

BC-W TR-L Bu-L Bu-HP

Su 47.0 99.0 26.0 15.0

Su 42.0 93.0 26.0 16.0

Su 40.0 90.0 22.0 13.0

Su 46.0 100.0 22.0 11.0

Su 46.0 96.0 24.0 16.0

Su 42.0 88.0 26.0 15.0

Su 43.0 89.0 23.0 14.0

Su 44.0 78.0 23.0 13.0

Su 44.0 90.0 25.0 11.0

Su 47.0 99.0 27.0 15.0

Su 47.0 92.0 27.0 13.0

Me 78.0 165.0 35.0 18.0

Me 77.0 165.0 37.0 19.0

35 36

Page 7: Análise de agrupamentos e Análise das componentes principais · 1 ANÁLISE DISCRIMINANTE 1 Análise de agrupamentos e Análise das componentes principais Ambas as análises são

7

37 38

4 grupos indicados pela Análise Discriminante:1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni2: Subdesmatochoerus sp3: Desmatochoerus hatcheri + Psuedodesmatochoerus4: Megoreodon gigas loomisi

39 40