33
ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Embed Size (px)

Citation preview

Page 1: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

ANÁLISE DISCRIMINANTE

LIG, 30 de outubro de 2008

Page 2: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

INTRODUÇÃO

Técnicas multivariadas que dizem respeito à “separação” de conjuntos distintos de objetos (ou observações) e à alocação de novos objetos (observações a grupos previamente definidos.

Principais objetivos: Descrever gráfica e algebricamente os aspectos que diferenciam

os grupos de objetos (observações). Determinar “discriminantes” entre grupos. (discriminação).

Alocar objetos em classes previamente definidas. A ênfase aqui está na derivação de uma regra que pode ser usada para designar de forma ótima um novo objeto às classes existentes.

Page 3: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

MÉTODO DE FISHER

Considere duas classes (populações) 1 e 2. Os objetos ou observações são ordinariamente

separados ou classificados com base nas medidas associadas à variável X de dimensão px1. Os valores observados de X diferem de uma classe para outra.

Se os valores de X não forem muito diferentes dos objetos em 1 e 2, as classes serão indistinguíveis e novos objetos poderiam ser designados aleatoriamente a qualquer uma das classes.

Page 4: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

MÉTODO DE FISHER

Estas duas populações podem ser descritas pelas respectivas funções de densidade de probabilidade f1(x) e f2(x), e conseqüentemente, podemos falar na designação de observações às populações.

A idéia de Fisher foi transformar as observações multivariadas X em observações univariadas Y tal que as Y 's obtidas a partir das populações 1 e 2 fossem o mais “separadas” possíveis.

Fisher sugeriu tomar combinações lineares das componentes de X para criar as variáveis Y 's.

Page 5: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Método de Fisher

. que talpopulações duas nas iguais

são ânciascovari de matrizes as que scomeçaremo ,Finalmente

.2,1 ,)|Var(Y e ]|E[Y

: valepopulação ésima-i a sob que temosEntão, .

defina e fixadas constantes de R em vetor um Seja

.2,1 ,)|Var( e ]|E[

que tal aleatório vetor umpor adacarcateriz população uma Suponha

21

p

iaaπaπ

XaY

a

iπXπX

Ti

Tii

TiYi

T

iiii

i

aa

a

YVar T

T

YY

2

212

21)(

)(

Fisher selecionou a tal que a distância quadrada entre 1Y e 2Y relativa à variabilidade dos Y's seja a maior possível. Isto é, selecionou a tal que a razão:

seja máxima.

Page 6: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Método de Fisher

.por dado é máximo valor cujo ,

:por dada é Schwarz-Cauchy de dedesigualda viasolução, cuja ,)a(

razão a

maximizar de problema o então temos, Fazendo

1-T1

2

21

a

aaT

T

Fisher. delinear ntediscrimina

função a como conhecida é que

temos, Fazendo

211

2111

XY

a

T

Page 7: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Função discriminante linear de Fisher

Podemos usar a função discriminante linear de Fisher como um esquema de classificação. A saber, defina Y0=(1- 2)TΣ-1x0 como o valor da função para uma nova observação x0 e considere o ponto médio entre as duas médias populacionais, dado por

21

12121 2

1

2

1 TYYm

Page 8: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Função discriminante linear de Fisher

,0

2

12

1]|[

211

21

211

2121

2120

T

TTmYE

definida. positiva é pois

,02

12

1]|[

211

21

211

2111

2110

T

TTmYE

e

Subtraindo m dos valores esperados de Y0 condicionados a cada uma das duas populações obtemos:

Page 9: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Função discriminante linear de Fisher

Assim, se Y0 provém da população 1 esperamos que ele seja superior ao ponto médio m e, caso contrário, esperamos que ele seja inferior ao ponto médio m. Desse modo a regra de classificação é dada por

Alocar a nova observação x0 em

Porém 1, 2, e Σ são geralmente desconhecidos. Portanto, a regra acima não pode ser implementada a menos que a e m possam ser estimados a partir das observações amostrais.

0y se ,

0y se ,

02

01

m

m

Page 10: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Estimação

Suponha que tenhamos amostras de tamanhos n1 e n2 de 1 e 2, respectivamente.

Sejam X1 e X2 as matrizes de dados de ordens n1 x p e n2 x p. A partir dessas matrizes, calculamos os vetores de médias amostrais e as

matrizes de covariância amostrais.

população. ésima-i da )n1,2,...,(k observação

ésima-k da p)1,2,..,(j variávelésima-j da observação a -

com,,, que tal

população da observação ésima-k a com,

que tal ordem de matriz 1,2i , Seja

:Notação

i

)(

)()(2

)(1

)(

)(

)(

)(2

)(1

ikj

ikp

ik

ik

ik

ii

k

in

i

i

i

ii

X

XXXX

πX

X

X

X

X

pnX

i

Page 11: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Notação

.2,1,1

1

2,1,1

)(

1

)(

1

)(

iXXXXn

S

iXn

X

T

ii

k

n

ki

ik

ii

n

k

ik

ii

i

i

2

)1()1(

21

2211

nn

SnSnS

Como estamos supondo covariâncias iguais nas duas populações, o estimador não tendencioso para a matrizΣ de covariância populacional é dado por:

Page 12: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Estimação

Dadas as amostras, observamos os valores

Substituímos então esses valores na regra anterior tal que a regra estimada é alocar a nova observação x0 em

Sxx e, 21

).()(2

1ˆ com ,

0ˆy se ,

0ˆy se ,21

121

02

01 xxSxxmm

m

Page 13: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Informações adicionais

Seja 2 o valor máximo da razão populacional : 2 é chamado distância quadrada entre as duas

populações. O máximo da razão amostral é D2= d'S-1d, em que

D2 é a distância quadrada amostral e d é a diferença entre os vetores de média amostrais.

Para duas populações a “separação” máxima relativa que pode ser obtida considerando-se todos os compostos lineares das observações multivariadas é igual a distância D.

aa

aT

T

2)(

Page 14: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Teste de separação

1,2

21

21

0

2

21

212

21~

)2(

1n

iguais, são populações duas das médias as que de nula hipótese aH Sob

pnnpFnnp

pn

Dnn

nn

Se a hipótese nula é rejeitada, podemos concluir que a diferençaentre as duas populações é significativa.

• A distância quadrada D2 pode ser usada para testar a diferença entre médias para as duas populações via teste T2 de Hotelling da seguinte forma sob a suposição de normalidade.

Page 15: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Comentários

Separação significativa entre populações não implica necessariamente em “boa” regra de classificação.

A eficácia de um procedimento de classificação pode ser avaliada independentemente de qualquer teste de separação.

Por outro lado, se a separação não é significativa, a busca por uma regra “boa” de classificação será provavelmente infrutífera.

Page 16: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Classificação em uma de duas populações

Regras de classificação são geralmente desenvolvidas a partir de amostras de “aprendizado”, isto é amostras para as quais sabe-se de qual das duas populações provém o objeto.

As medidas características dos objetos selecionados aleatoriamente são, então, examinadas pelas suas diferenças para os dois grupos.

Na prática: o conjunto de todos os resultados amostrais é dividido em duas regiões R1 e R2 tal que se uma nova observação ´cair em R1 ela será alocada na população 1 e, se cair em R2, ela será alocada na população 2.

Page 17: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Classificação em uma de duas populações

Deve ficar claro que as regras de classificação geralmente não fornecem um método de designação livre de erro. Isto ocorre porque pode não existir uma distinção entre as medidas características das duas populações, isto é, os grupos podem de alguma forma sobrepor-se.

É, então, possível classificar incorretamente uma observação proveniente da população 1 na população 2 e vice-versa.

Um bom procedimento de classificação deveria resultar em poucas classificações incorretas.

Em outras palavras, as chances, ou probabilidades de classificação incorreta devem ser pequenas.

Outro aspecto da classificação é o custo que pode-se estar sujeito devido a uma classificação incorreta.

Suponha que classificar um objeto de 1 em 2 represente um erro mais sério do que classificar um objeto de 2 em 1. Um procedimento de classificação ótimo deve sempre que possível levar em conta os custos associados à classificação incorreta.

Page 18: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Custo de classificação incorreta Sejam f1(x) e f2(x), as densidades de probabilidade associadas às

populações 1 e 2. Um objeto, caracterizado pelas medidas dadas pelo vetor x, deve ser

designado de forma ótima a 1 ou a 2. Seja R a coleção de todas as possíveis observações x. Sejam R1 o conjunto de valores no espaço amostral para os quais

classificamos o objeto em 1 e, R2 o conjunto dos valores restantes para os quais classificamos o objeto em 2.

Como todo objeto deve ser classificado em uma, e somente uma, das duas populações segue que os conjuntos R1 e R2 devem ser mutuamente exclusivos e exaustivos tal que R1 R2= e R1UR2=R.

A probabilidade condicional, p21, de classificar um objeto de 1 em 2 é:

2

)(121

R

xdxfp

Page 19: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Custo de classificação incorreta Similarmente, a probabilidade

condicional, p12, de classificar um objeto de 2 em 1 é:

1

)(212

R

xdxfp

Sejam 1 a probabilidade a priori de um objeto pertencer a 1 e, 2 a probabilidade a priori de um objeto pertencer a 2. A probabilidade total de classificação incorreta é então dada por:

PTCI= 1 p21 + 2 p12

As regras de classificação são freqüentemente avaliadas em termos de suas probabilidades de classificação incorreta, mas este critério não leva em consideração os custos de classificação.

Page 20: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Custo de classificação incorreta

Observação proveniente de:

Alocada em 1 Alocada em 2

1 0 C21

2 C12 0

Para qualquer regra de classificação, o custo esperado de classificação incorreta (CECI) é dado por:

CECI=C21 1 p21 + C12 2 p12

Uma regra de classificação razoável deve ter um CECI tão pequeno quanto possível.

Page 21: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Regras de alocação ótimas

Sugere-se que uma regra de classificação adequada poderia ser determinada pela minimização do custo esperado de classificação incorreta (CECI). Em outras palavras, as regiões R1 e R2 devem ser escolhidas tal que o CECI seja minimizado

Resultado: As regiões R1 e R2 que minimizam o CECI são definidas pelos valores de x para os quais as seguintes desigualdades valem:

121

212

2

12

121

212

2

11

)(

)(:

)(

)(:

C

C

xf

xfR

C

C

xf

xfR

Page 22: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Regras de alocação ótimas

A implementação dessa regra requer o cálculo da razão das funções de densidade em x0

(nova observação); a razão entre os custos de classificação incorreta C12 e

C21 e,

a razão das probabilidades de incidência a priori, 1 e 2.

Page 23: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Casos especiais:

21

12

2

12

21

12

2

11

)(

)(:

)(

)(:

C

C

xf

xfR

C

C

xf

xfR

1)(

)(:

1)(

)(:

2

12

2

11

xf

xfR

xf

xfR

1

2

2

12

1

2

2

11

)(

)(:

)(

)(:

xf

xfR

xf

xfR

1) Probabilidades de incidência a priori iguais:

2) Custos de classificação incorreta iguais:

3) Custos de classificação incorreta iguais e prioris iguais:

Page 24: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Comentários

Quando as probabilidades a priori são desconhecidas considera-se, em geral, prioris iguais.

Quando a razão entre os custos de classificação incorreta é desconhecida, toma-se, em geral, custos de classificação incorreta iguais.

Quando ambas as razões são desconhecidas, tomam-se custos e prioris iguais.

Page 25: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Exemplo

Um pesquisador dispõe de dados suficientes para estimar as funções de densidade f1(x) e f2(x), às populações 1 e 2, respectivamente.

Suponha C21=5 unidades e C12=10 unidades. Além disso, sabe-se que cerca de 20% de todos os

objetos pertencem a 2. Suponha que uma nova observação x0 resultou em

f1(x0)=0.3 e f2(x0)=0.4. Usando a regra do CECI mínimo, em qual das duas

populações você classificaria esta nova observação?

Page 26: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Exemplo - solução

. em mosclassifica então ,5,075,0)(

)( como

5,0)(

)(:

5,08,0

2,0

5

10

)(

)(:

1002

01

02

012

02

011

xxf

xf

xf

xfR

xf

xfR

Page 27: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Observações

Outros critérios diferentes do critério do CECI mínimo podem ser usados para derivar procedimentos ótimos de classificação.

Por exemplo, pode-se ignorar os custos de classificação incorreta e escolher R1 e R2 que minimizam a probabilidade total de classificação incorreta (PTCI= 1 p21 + 2 p 12).

Matematicamente, o problema aqui é equivalente ao problema de minimização do custo esperado de classificação (CECI) quando os custos C21 e C 12 são iguais.

Conseqüentemente, as regiões ótimas são

1

2

2

12

1

2

2

11

)(

)(:

)(

)(:

xf

xfR

xf

xfR

Page 28: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Probabilidade a posteriori de classificação incorreta

Podemos também alocar uma nova observação x0 à população com maior probabilidade de incidência a posteriori P(i|x0) em que

e )observar (

) |observar ()|( )()(

)(

0

10101 022011

011

xfxfxf

xP

xPxP

)observar (

) |observar ()|( )()(

)(

0

20202 022011

022

xfxfxf

xP

xPxP

)|()|( se em mosClassifica 020110 xPxPx

Page 29: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Comentários

A regra obtida usando probabilidades a posteriori de classificação é a mesma regra quando consideram-se custos de classificação incorreta iguais, mas tem a vantagem na identificação de designações menos óbvias.

Page 30: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Duas populações normais

Suponha agora que f1(x) e f2(x), sejam densidades normais p-variadas com vetores de média μ1 e μ2 e matrizes de covariância 1 e 2.

Caso 1: 1=2=.

)()()()(

2

1-exp

)(

)(2

1

21

1

12

1 xxxxxf

xf TT

Page 31: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Populações normais, covariâncias iguais

Nesse caso, as regiões de classificação são dadas por:

121

212

2

1

21

1

12

11

121

212

2

1

21

1

12

11

)()()()(2

1-exp

)(

)(:

)()()()(2

1-exp

)(

)(:

C

Cxxxx

xf

xfR

C

Cxxxx

xf

xfR

TT

TT

Page 32: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Populações normais, covariâncias iguais

Aplicando a função log na base e, em ambos os lados da desigualdade obtida obtém-se a seguinte regra de classificação simplificada:

.ln)()(2

1)(:

121

212

21

1

2101

211

C

CxR TT

Comparando a regra do CECI mínimo e essa regra com o método de Fisher observe que os procedimentos serão equivalentes de os custos e probabilidades de incidência a priori forem iguais.

Page 33: ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

Função discriminante linear no R

No R está disponível no pacote MASS a função lda (linear discriminant analysis).

Exemplo no R