ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS ufrrj.br/institutos/it/deng/varella/Downloads/multivariada

  • View
    214

  • Download
    0

Embed Size (px)

Text of ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS...

  • ANLISE MULTIVARIADA APLICADA AS CINCIAS AGRRIAS

    PS-GRADUAO EM AGRONOMIA CINCIA DO SOLO: CPGA-CS

    ANLISE DISCRIMINANTE

    Carlos Alberto Alves Varella1

    NDICE

    ANLISE MULTIVARIADA APLICADA AS CINCIAS AGRRIAS ............................... 1

    ANLISE DISCRIMINANTE .................................................................................................. 1

    INTRODUO ....................................................................................................................... 2

    DISCRIMINAO E CLASSIFICAO ............................................................................. 2

    REGIES DE ALOCAO ................................................................................................... 3

    REGRAS DE CLASSIFICAO ........................................................................................... 3

    FUNO DISCRIMINANTE LINEAR DE FISHER ........................................................... 4

    EXEMPLO DE APLICAO ................................................................................................ 5

    Quadro 1. Nmero mdio de cerdas primordiais (X1) e nmero mdio de cerdas distais

    (X2) em duas raas de insetos .............................................................................................. 6

    Estimativa das mdias das raas A e B ............................................................................... 6

    Obteno da funo discriminante linear amostral de Fisher .............................................. 7

    Construo da regra para alocao de novos indivduos ..................................................... 7

    FUNES DISCRIMINANTES DE ANDERSON ............................................................... 9

    Desenvolvimento do classificador ....................................................................................... 9

    Obteno das funes discriminantes .................................................................................. 9

    Teste de igualdade das matrizes de covarincias............................................................... 10

    Quadro 2. Acurcia de classificao de funes discriminantes lineares e quadrticas

    obtidas na classificao de amostras de teste .................................................................... 11

    Estimativa da matriz comum de covarincias amostral..................................................... 11

    Avaliao das funes discriminantes ............................................................................... 11

    EXEMPLO DE APLICAO .............................................................................................. 13

    PROGRAMAO SAS PARA ANLISE DISCRIMINANTE ....................................... 13

    EXEMPLO DE APLICAO .............................................................................................. 14

    OBTENO DA FUNO DISCRIMINANTE ................................................................. 14

    VALIDAO NA AMOSTRA DE TESTE ......................................................................... 16

    1 Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica

    RJ. E-mail: varella@ufrrj.br.

    mailto:varella@ufrrj.br

  • 2

    RESULTADOS DA ANLISE ............................................................................................ 17

    BIBLIOGRAFIA ................................................................................................................... 33

    INTRODUO

    A anlise discriminante uma tcnica da estatstica multivariada utilizada para

    discriminar e classificar objetos. Segundo KHATTREE & NAIK (2000) uma tcnica da

    estatstica multivariada que estuda a separao de objetos de uma populao em duas ou mais

    classes. A discriminao ou separao a primeira etapa, sendo a parte exploratria da anlise

    e consiste em se procurar caractersticas capazes de serem utilizadas para alocar objetos em

    diferentes grupos previamente definidos. A classificao ou alocao pode ser definida como

    um conjunto de regras que sero usadas para alocar novos objetos (JOHNSON & WICHERN,

    1999). Contudo, a funo que separa objetos pode tambm servir para alocar, e, o inverso,

    regras que alocam objetos podem ser usadas para separar. Normalmente, discriminao e

    classificao se sobrepem na anlise, e a distino entre separao e alocao confusa.

    Segundo REGAZZI (2000) o problema da discriminao entre dois ou mais grupos, visando

    posterior classificao, foi inicialmente abordado por Fisher (1936). Consiste em obter

    funes matemticas capazes de classificar um indivduo X (uma observao X) em uma de

    vrias populaes i, (i=1, 2, ..., g), com base em medidas de um nmero p de caractersticas,

    buscando minimizar a probabilidade de m classificao, isto , minimizar a probabilidade de

    classificar erroneamente um indivduo em uma populao i, quando realmente pertence a

    populao j, (ij) i,j=1, 2, ..., g.

    DISCRIMINAO E CLASSIFICAO

    O problema consiste em se obter uma combinao linear de caractersticas observadas que

    apresente maior poder de discriminao entre populaes. Esta combinao linear

    denominada funo discriminante. Tal funo tem a propriedade de minimizar as

    probabilidades de m classificao, quando as populaes so normalmente distribudas com

    mdia e varinicia conhecidas. Entretanto, tal situao no ocorre, isto , a mdia e a

    varincia das populaes normalmente no so conhecidas, portanto havendo a necessidade de

    estimao desses parmetros. Podemos assumir que as populaes tm uma mesma matriz de

    covarincias ou no. Conforme a seleo as funes discriminantes so denominadas de

    lineares ou quadrticas. No caso particular da funo de FISHER assume-se que as matrizes

    de covarincias so iguais e dita funo discriminante linear de Fisher.

  • 3

    REGIES DE ALOCAO

    Regies de alocao so conjunto de valores separados por uma fronteira definida por

    uma funo discriminante qualquer. Essa funo discriminante obtida a partir de amostras de

    treinamento. Pode ter como base modelos estatsticos ou no, tais como redes neurais e lgica

    fuzzy. Ento, uma observao pode ser alocada como sendo da populao 1 e ou da

    populao 2. Contudo importante observar que no mundo real a fronteira entre regies no

    est exatamente definida e sempre haver superposio, isto , erro de classificao. A Figura

    1 ilustra regies de alocao para o caso de duas populaes.

    Figura 1. Regies de alocao para o caso de duas populaes.

    REGRAS DE CLASSIFICAO

    Uma boa classificao deve resultar em pequenos erros, isto , deve haver pouca

    probabilidade de m classificao. Segundo JOHNSON & WICHERN (1999) para que isso

    ocorra a regra de classificao deve considerar as probabilidades a priori e os custos de m

    classificao. Outro fator que uma regra de classificao deve considerar se as varincias

    das popules so iguais ou no. Quando a regra de classificao assume que as varincias das

    populaes so iguais, as funes discriminantes so ditas lineares e quando no so funes

    discriminantes quadrticas. Regras de classificao tambm podem ser construdas com base

    em modelos de redes neurais ou lgica fuzzy. Segundo GONZALEZ & WOODS (1992),

    citado por KHOURY JR. (2004), em comparao com classificadores estatsticos, que

    determinam planos lineares ou quadrticos, o maior benefcio da modelagem por redes neurais

    sua capacidade de determinar planos no-lineares de separao de classes.

  • 4

    FUNO DISCRIMINANTE LINEAR DE FISHER

    A funo discriminante linear de Fisher uma combinao linear de caractersticas

    originais a qual se caracteriza por produzir separao mxima entre duas populaes.

    Considerando que i e so parmetros conhecidos e respectivamente, os vetores de

    mdias e a matriz de covarincias comum das populaes i. Demonstra-se que a funo linear

    do vetor aleatrio X que produz separao mxima entre duas populaes dada por:

    XXLXD 121

    ''

    em que,

    p

    XXXX 21

    e 21

    ,

    L = vetor discriminante;

    X = vetor aleatrio de caractersticas das populaes; = vetor de mdias p-variado;

    = matriz comum de covarincias das populaes 1 e 2;

    O valor da funo discriminante de Fisher para uma dada observao o

    x :

    oo

    xxD 121

    '

    O ponto mdio entre as duas mdias populacionais univariadas 1 e 1 :

    21

    1

    21

    '

    2

    1 m , ou seja

    21

    2

    1 DDm

    A regra de classificao baseada na funo discriminante de Fisher :

    Assumindo-se que as populaes 1 2 tm a mesma matriz de covarincias podemos

    ento estimar uma matriz comum de covarincias Sc:

    Alocar em 1 se

    Alocar em 2 se

  • 5

    221

    2

    1

    21

    1

    11

    1

    11

    1S

    nn

    nS

    nn

    nS

    c

    em que,

    cS = estimativa da matriz comum de covarincias ;

    = nmero de observaes da populao 1;

    2n = nmero de observaes da populao 2;

    1S = estimativa matriz de covarincias da populao 1;

    2S = estimativa matriz de covarincias da populao 2;

    A funo discriminante linear amostral de Fisher obtida substituindo-se os parmetros

    1, 2 e pelas respectivas quantidades amostrais 1x , 2x e cS :

    xSxxxLxDc 1

    21

    ' '

    em que,

    xD = funo discriminante linear amostral de Fisher; 'L = estimativa do vetor disriminant