View
214
Download
0
Embed Size (px)
ANLISE MULTIVARIADA APLICADA AS CINCIAS AGRRIAS
PS-GRADUAO EM AGRONOMIA CINCIA DO SOLO: CPGA-CS
ANLISE DISCRIMINANTE
Carlos Alberto Alves Varella1
NDICE
ANLISE MULTIVARIADA APLICADA AS CINCIAS AGRRIAS ............................... 1
ANLISE DISCRIMINANTE .................................................................................................. 1
INTRODUO ....................................................................................................................... 2
DISCRIMINAO E CLASSIFICAO ............................................................................. 2
REGIES DE ALOCAO ................................................................................................... 3
REGRAS DE CLASSIFICAO ........................................................................................... 3
FUNO DISCRIMINANTE LINEAR DE FISHER ........................................................... 4
EXEMPLO DE APLICAO ................................................................................................ 5
Quadro 1. Nmero mdio de cerdas primordiais (X1) e nmero mdio de cerdas distais
(X2) em duas raas de insetos .............................................................................................. 6
Estimativa das mdias das raas A e B ............................................................................... 6
Obteno da funo discriminante linear amostral de Fisher .............................................. 7
Construo da regra para alocao de novos indivduos ..................................................... 7
FUNES DISCRIMINANTES DE ANDERSON ............................................................... 9
Desenvolvimento do classificador ....................................................................................... 9
Obteno das funes discriminantes .................................................................................. 9
Teste de igualdade das matrizes de covarincias............................................................... 10
Quadro 2. Acurcia de classificao de funes discriminantes lineares e quadrticas
obtidas na classificao de amostras de teste .................................................................... 11
Estimativa da matriz comum de covarincias amostral..................................................... 11
Avaliao das funes discriminantes ............................................................................... 11
EXEMPLO DE APLICAO .............................................................................................. 13
PROGRAMAO SAS PARA ANLISE DISCRIMINANTE ....................................... 13
EXEMPLO DE APLICAO .............................................................................................. 14
OBTENO DA FUNO DISCRIMINANTE ................................................................. 14
VALIDAO NA AMOSTRA DE TESTE ......................................................................... 16
1 Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica
RJ. E-mail: varella@ufrrj.br.
mailto:varella@ufrrj.br
2
RESULTADOS DA ANLISE ............................................................................................ 17
BIBLIOGRAFIA ................................................................................................................... 33
INTRODUO
A anlise discriminante uma tcnica da estatstica multivariada utilizada para
discriminar e classificar objetos. Segundo KHATTREE & NAIK (2000) uma tcnica da
estatstica multivariada que estuda a separao de objetos de uma populao em duas ou mais
classes. A discriminao ou separao a primeira etapa, sendo a parte exploratria da anlise
e consiste em se procurar caractersticas capazes de serem utilizadas para alocar objetos em
diferentes grupos previamente definidos. A classificao ou alocao pode ser definida como
um conjunto de regras que sero usadas para alocar novos objetos (JOHNSON & WICHERN,
1999). Contudo, a funo que separa objetos pode tambm servir para alocar, e, o inverso,
regras que alocam objetos podem ser usadas para separar. Normalmente, discriminao e
classificao se sobrepem na anlise, e a distino entre separao e alocao confusa.
Segundo REGAZZI (2000) o problema da discriminao entre dois ou mais grupos, visando
posterior classificao, foi inicialmente abordado por Fisher (1936). Consiste em obter
funes matemticas capazes de classificar um indivduo X (uma observao X) em uma de
vrias populaes i, (i=1, 2, ..., g), com base em medidas de um nmero p de caractersticas,
buscando minimizar a probabilidade de m classificao, isto , minimizar a probabilidade de
classificar erroneamente um indivduo em uma populao i, quando realmente pertence a
populao j, (ij) i,j=1, 2, ..., g.
DISCRIMINAO E CLASSIFICAO
O problema consiste em se obter uma combinao linear de caractersticas observadas que
apresente maior poder de discriminao entre populaes. Esta combinao linear
denominada funo discriminante. Tal funo tem a propriedade de minimizar as
probabilidades de m classificao, quando as populaes so normalmente distribudas com
mdia e varinicia conhecidas. Entretanto, tal situao no ocorre, isto , a mdia e a
varincia das populaes normalmente no so conhecidas, portanto havendo a necessidade de
estimao desses parmetros. Podemos assumir que as populaes tm uma mesma matriz de
covarincias ou no. Conforme a seleo as funes discriminantes so denominadas de
lineares ou quadrticas. No caso particular da funo de FISHER assume-se que as matrizes
de covarincias so iguais e dita funo discriminante linear de Fisher.
3
REGIES DE ALOCAO
Regies de alocao so conjunto de valores separados por uma fronteira definida por
uma funo discriminante qualquer. Essa funo discriminante obtida a partir de amostras de
treinamento. Pode ter como base modelos estatsticos ou no, tais como redes neurais e lgica
fuzzy. Ento, uma observao pode ser alocada como sendo da populao 1 e ou da
populao 2. Contudo importante observar que no mundo real a fronteira entre regies no
est exatamente definida e sempre haver superposio, isto , erro de classificao. A Figura
1 ilustra regies de alocao para o caso de duas populaes.
Figura 1. Regies de alocao para o caso de duas populaes.
REGRAS DE CLASSIFICAO
Uma boa classificao deve resultar em pequenos erros, isto , deve haver pouca
probabilidade de m classificao. Segundo JOHNSON & WICHERN (1999) para que isso
ocorra a regra de classificao deve considerar as probabilidades a priori e os custos de m
classificao. Outro fator que uma regra de classificao deve considerar se as varincias
das popules so iguais ou no. Quando a regra de classificao assume que as varincias das
populaes so iguais, as funes discriminantes so ditas lineares e quando no so funes
discriminantes quadrticas. Regras de classificao tambm podem ser construdas com base
em modelos de redes neurais ou lgica fuzzy. Segundo GONZALEZ & WOODS (1992),
citado por KHOURY JR. (2004), em comparao com classificadores estatsticos, que
determinam planos lineares ou quadrticos, o maior benefcio da modelagem por redes neurais
sua capacidade de determinar planos no-lineares de separao de classes.
4
FUNO DISCRIMINANTE LINEAR DE FISHER
A funo discriminante linear de Fisher uma combinao linear de caractersticas
originais a qual se caracteriza por produzir separao mxima entre duas populaes.
Considerando que i e so parmetros conhecidos e respectivamente, os vetores de
mdias e a matriz de covarincias comum das populaes i. Demonstra-se que a funo linear
do vetor aleatrio X que produz separao mxima entre duas populaes dada por:
XXLXD 121
''
em que,
p
XXXX 21
e 21
,
L = vetor discriminante;
X = vetor aleatrio de caractersticas das populaes; = vetor de mdias p-variado;
= matriz comum de covarincias das populaes 1 e 2;
O valor da funo discriminante de Fisher para uma dada observao o
x :
oo
xxD 121
'
O ponto mdio entre as duas mdias populacionais univariadas 1 e 1 :
21
1
21
'
2
1 m , ou seja
21
2
1 DDm
A regra de classificao baseada na funo discriminante de Fisher :
Assumindo-se que as populaes 1 2 tm a mesma matriz de covarincias podemos
ento estimar uma matriz comum de covarincias Sc:
Alocar em 1 se
Alocar em 2 se
5
221
2
1
21
1
11
1
11
1S
nn
nS
nn
nS
c
em que,
cS = estimativa da matriz comum de covarincias ;
= nmero de observaes da populao 1;
2n = nmero de observaes da populao 2;
1S = estimativa matriz de covarincias da populao 1;
2S = estimativa matriz de covarincias da populao 2;
A funo discriminante linear amostral de Fisher obtida substituindo-se os parmetros
1, 2 e pelas respectivas quantidades amostrais 1x , 2x e cS :
xSxxxLxDc 1
21
' '
em que,
xD = funo discriminante linear amostral de Fisher; 'L = estimativa do vetor disriminant