Anlise de agrupamentos e Anlise das componentes igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/9.discrimin...1 ANLISE DISCRIMINANTE 1 Anlise de agrupamentos e Anlise das componentes

  • View
    216

  • Download
    4

Embed Size (px)

Text of Anlise de agrupamentos e Anlise das componentes...

  • 1

    ANLISE DISCRIMINANTE

    1

    Anlise de agrupamentos e Anlise das componentes principais

    Ambas as anlises so tcnicas de reduo de dados. Objetivo da anlise de agrupamentos formar grupos, reduzindo o nmero original de elementos a poucos grupos. Objetivo da anlise das componentes principais reduzir o nmero original de variveis. Ambas as anlises fornecem os mesmos resultados.

    2

    Anlise discriminante

    Na anlise discriminante os grupos ja so conhecidos priori. Supe-se que as observaes esto corretamente classificadas Objetivo:

    Verificar se os grupos esto discriminados Classificar observaes desconhecidas Verificar quais variveis so as mais importantes para a discriminao entre os grupos.

    3

    Funo discriminante

    Regio de recobrimento 4

    Limites lineares

    5

    Anlise Discriminante Linear

    Decidir qual de dois grupos pertenceriam indivduos

    Substituir o conjunto original das mensuraes por um nico valor Di, definido como uma combinao linear

    Razo mnima entre a diferena entre pares de mdias multivariadas e varincia multivariada dentro dos dois grupos.

    Para a aplicao de testes de significncia: observaes em cada grupo escolhidas ao acaso; probabilidade de um indivduo desconhecido pertencer a um

    dos grupos ser a mesma; variveis com distribuio normal; matrizes de varincia dos grupos de mesmo tamanho; observaes usadas para o clculo das funes discriminantes

    classificadas sem erro.

    Quando matrizes de varincias e covarincias so diferentes escolher funo discriminante quadrtica. 6

  • 2

    7 8

    Di=1x1+ 2x2+ 3x3+.... pxp clculo das funes discriminantes lineares por

    regresso linear, onde a varivel dependente consiste no vetor de diferenas entre as mdias multivariadas de dois grupos e as variveis independentes matriz de varincias covarincias das variveis em estudo

    A soluo do sistema de equaes lineares resultante pode ser resolvido, por clculo matricial, a partir de:

    [p]=[Vp2]-1[Rp]

    Para o clculo dos coeficientes p, que iro constituir a equao da funo discriminante, determina-se o inverso da matriz da varincias e covarincias combinadas e em seguida multiplica essa matriz pelo vetor de diferenas entre mdias:

    9

    O valor central do grupo A determinado por

    DA=AxA1+ xA2+ xA3+..... AxAp

    e do grupo B por

    DB =BxB1 + BxB2 + BxB3 +.....BxBp

    O ndice discriminante, , ou seja, o ponto na linha descrita pela funo discriminante situado exatamente na metade da distncia entre os centros dos grupos A e B, encontrado segundo:

    )2

    xx(...)

    2

    xx()

    2

    xx(D

    BpAp

    p2B2A

    21B1A

    10

    10

    Para testar a significncia da funo encontrada, ou seja, verificar se os dois grupos considerados pertencem a uma nica populao ou duas distintas populaes, calcula-se a distncia entre as duas mdias multivariadas.

    Esta medida de distncia conhecida como distncia generalizada de Mehalanobis, ou D, e mede a separao entre as duas mdias multivariadas expressa em unidades de varincias combinadas.

    D2= DA-DB

    D usada na seguinte expresso para ser testada pela distribuio F:

    (com "p" graus de liberdade para o numerador e " " para o denominador)

    2

    BA

    BA

    BA

    BA Dnn

    nn

    p)2nn(

    1pnn*F

    A hiptese nula a ser testada, estabelece que as duas mdias multivariadas so iguais, ou que a distncia entre ambos os grupos igual a zero significando que se trata de um nico grupo.

    11

    A contribuio relativa, em percentagem, de cada varivel para o distanciamento entre os dois grupos fornecida pela expresso:

    Cp=[(pRp)/D2]*100

    Cp mede apenas a contribuio direta da varivel, sem levar em considerao o seu inter-relacionamento com as demais existentes.

    12

  • 3

    Funes discriminantes multigrupos

    Discriminar entre mais de dois grupos

    Anlise de varincia da matriz inicial parcializada em categorias ou grupos

    Soma de quadrados entre grupos [E] mais a soma de quadrados dentro dos grupos [D] igual soma total de quadrados [T]: [T] = [E] + [D]

    Razo [E]/[D] com alto valor: mdias dos grupos bem diferentes entre si e os valores dentro de cada grupo bem concentrados ao redor dos respectivos centroides

    13

    Encontrar um conjunto de pesos lineares para as variveis que tornem essa razo mxima

    Distncias entre grupos so

    maximizadas

    Distncias dentro dos grupos so

    minimizadas

    14

    Se o conjunto de pesos for o vetor [A1], a anlise discriminante pode ser efetuada ao encontrar os valores dos elementos de [A1] de modo que a expresso {[A1][E] [A1]}/{[A1][D] [A1]}, seja maximiza

    Restrio para denominador igual a 1: [A1][D] [A1] = 1

    Razo maximizada quando [A1] for o autovetor correspondente ao maior autovalor de [D]-1 [E]

    Encontrar,como na anlise fatorial, eixos ortogonais [A2], [A3], etc., funes discriminantes em sucesso decrescente

    15

    Observaes projetadas no espao definido pelos eixos discriminantes: [Z] = [A][X],

    onde [X] a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas t so os maiores autovetores a serem usados nas funes discriminantes.

    Os centroides dos g grupos podem ser projetados no espao discriminante por [Zmk] = [A1] [Xmk],

    onde [Xmk] contem as mdias de todas as variveis para cada grupo.

    Escolher as duas funes discriminantes de maior peso para servir como eixos ortogonais para uma distribuio das observaes dos diversos grupos e os respectivos centrides.

    Uma observao multidimensional de origem desconhecida pode ser projetada nesse diagrama pela sua multiplicao pelo transposto de [A] e verificada sua distncia aos diversos centrides

    16

    Exemplo de anlise discriminante entre dois grupos

    17

    Exemplo de anlise discriminante entre dois grupos

    P:Zona

    mineralizada

    E: Zona

    estril

    X: ?

    18

  • 4

    19

    Anlise discriminante multigrupos. O petrleo tanto pode ter origem em carbonatos (C) e folhelhos (F)

    de origem marinha, como em ambientes deltaicos (D) e para explicar a sua gnese so utilizadas diversas variveis em conjunto.

    So fornecidos dados referentes a 63 amostras de petrleo, nas quais foram obtidas as seguintes variveis: API = densidade em unidades API S= porcentgem de enxofre Pr/Ph= razo pristneo/fitneo S/A= razo entre hidrocarbonetos saturados e aromticos PCIR= razo isotpica de carbono(12C/13C) no petroleo GCIR= razo isotpica de carbono na frao gasolina G-R= diferena entre as razoes isotpicas na frao gasolina e

    no resduo 20

    Amostra Ambiente API S Pr/Ph S/A PCIR GCIR G-R 1 1C 24.6 1.69 1.1 1.1 -26.23 -26.3 -0.27 2 2C 27 1.58 0.95 1.1 -26.62 -26.89 -0.33 3 3C 28.1 1.53 1.02 1.2 -26.02 -26.21 -0.39 4 4C 29.5 3.1 0.7 0.8 -26.1 -27.16 -1.42 5 5C 32.2 2.61 0.65 0.8 -26.24 -27.2 -1.09 6 6C 33.6 2.27 0.75 0.7 -26.5 -27.19 -0.93 7 7C 31.7 2.52 0.7 0.9 -26.24 -27.07 -1.12 8 8C 33 1.71 0.71 1.2 -26.27 -27 -0.97 9 9C 34 1.95 0.62 1.2 -26.3 -26.95 -0.96

    10 10C 28 2.78 0.67 0.7 -26.57 -27.46 -0.83 11 11C 25.5 2.26 0.82 0.9 -25.59 -25.8 -0.6 12 12C 35.4 1.03 0.85 1.3 -25.25 -25.65 -0.5 13 13C 35.1 1.39 0.58 1.1 -25.06 -25.52 -0.54 14 14C 36.6 1.34 0.62 1.3 -25.02 -25.43 -0.53 15 15C 29 1.9 0.74 0.9 -25 -25.42 -0.59 16 16C 38.5 0.98 0.59 1.4 -24.86 -25.19 -0.41 17 17C 30.1 1.73 0.6 0.9 -24.71 -25.14 -0.59 18 18C 31.9 1.02 0.78 1.3 -24.54 -25.04 -0.72 19 19C 24.4 3.87 0.57 0.3 -26.62 -26.96 -0.71 20 20C 22.9 3.83 0.57 0.5 -26.13 -26.72 -0.73 21 21C 18.7 4.82 0.53 0.4 -25.87 -26.13 -0.35 22 1D 54.4 0 1.27 7.8 -25.33 -23.27 4.26 23 2D 54.7 0.05 1.73 14.1 -25.54 -23.75 3.66 24 3D 58.6 0.01 2.09 14.3 -25.92 -24.45 3.36 25 4D 41 0.01 3.95 4.6 -24.54 -22.52 2.82

    21

    Aplicando, inicialmente, anlise de agrupamentos (modelo Q, mtodo Ward, distncia euclidiana e variveis no padronizadas) verificar se esse conjunto de amostras pode ser subdividido em grupos e se esses grupos esto de acordo com os ambientes C, F e D .

    22

    Ward: variveis no padronizadas

    9D

    8D

    18

    D

    15

    D

    14

    D

    17

    D

    13

    C

    12

    C

    14

    C

    16

    C

    19

    F

    17

    F

    18

    F

    16

    F

    10

    F

    10

    F

    8F

    15

    F

    14

    F

    12

    F

    10

    C

    4C

    3C

    2C

    11

    F

    9F

    17

    C

    15

    C

    18

    C

    9C

    6C

    8C

    7C

    5C

    7F

    4F

    5F

    3F

    6F

    1F

    2F

    20

    C

    19

    C

    11

    C

    1C

    21

    C

    3D

    2D

    1D

    22

    D

    19

    D

    20

    D

    21

    D

    13

    D

    10

    D

    7D

    11

    D

    12

    D

    5D

    13

    F

    16

    D

    6D

    4D

    0

    1000

    2000

    3000

    4000

    5000

    6000

    Dis

    tn

    cia

    eu

    cli

    dia

    na

    23

    Aplicando a anlise de agrupamentos (modelo Q, mtodo Ward, distncia euclidiana e variveis padronizadas) verificar se esse conjunto de amostras pode ser subdividido em grupos e se esses grupos esto de acordo com os ambientes C, F e D .

    24

  • 5

    Ward: 3 grupos

    10C

    4C

    7C

    5C

    6C

    9C

    8C

    20C

    19C

    21C

    17C

    15C

    11C

    3C

    1C

    2C

    14C

    13C

    12C

    16C

    18C

    10F

    8F

    11F

    9F

    18F

    16F

    17F