Upload
stu
View
64
Download
0
Embed Size (px)
DESCRIPTION
ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS. Análise Discriminante. Carlos A. A. Varella. Análise Discriminante. - PowerPoint PPT Presentation
Citation preview
Análise Discriminante
Carlos A. A. Varella
ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIASPÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS
Análise Discriminante Segundo KHATTREE & NAIK (2000) é uma
técnica da estatística multivariada que estuda a separação de objetos de uma população em duas ou mais classes.
A discriminação ou separação é a primeira etapa, sendo a parte exploratória da análise e consiste em se procurar características capazes de serem utilizadas para alocar objetos em diferentes grupos previamente definidos.
Discriminação
A classificação ou alocação pode ser definida como um conjunto de regras que serão usadas para alocar novos objetos (JOHNSON & WICHERN, 1999).
Classificação
A função que separa objetos pode também servir para alocar, e, o inverso, regras que alocam objetos podem ser usadas para separar.
Normalmente, discriminação e classificação se sobrepõem na análise, e a distinção entre separação e alocação é confusa.
Confusão
Segundo REGAZZI (2000), o problema da discriminação entre dois ou mais grupos, visando posterior classificação, foi inicialmente abordado por Fisher (1936).
Funções matemáticas capazes de classificar um indivíduo X em uma de várias populações i;
Com base em medidas de um número p de características, buscando minimizar a probabilidade de má classificação, isto é, minimizar a probabilidade de classificar erroneamente um indivíduo em uma população i, quando realmente pertence a população j.
Fisher, 1936
Regiões de alocação são conjunto de valores separados por uma fronteira definida por uma função discriminante qualquer.
Regiões de alocação
Função Linear Função Quadrática
Funções discriminantes podem ser modelos estatísticos, de redes neurais ou lógica fuzzy.
Os parâmetros são ajustados a partir de amostras de treinamento.
O modelo de Fisher é estatístico.
Funções discriminantes
Uma boa regra de classificação deve resultar em pequenos erros;
Deve haver pouca probabilidade de má classificação;
Segundo JOHNSON & WICHERN (1999) para que isso ocorra a regra de classificação deve considerar as probabilidades a priori e os custos de má classificação.
Regras de classificação
As regras de classificação devem considerar se as variâncias das populações são iguais ou não;
Quando as variâncias são iguais as funções discriminantes são lineares;
Quando são diferentes as funções discriminantes são quadráticas;
Redes neurais e lógica fuzzy geram planos não-lineares de separação.
Regras de classificação
É uma combinação linear de características originais que se caracteriza por produzir separação máxima entre duas populações
Função discriminante linear de Fisher
Demonstra-se que a função linear do vetor aleatório X que produz separação máxima entre duas populações é dada por:
Função discriminante linear de Fisher
XXLXD 121
''
L = vetor discriminante; X = vetor aleatório de características das populações; = vetor de médias p-variado; = matriz comum de covariâncias das populações 1 e 2;
O valor da função discriminante de Fisher para uma dada observação é:
Função discriminante linear de Fisher
oo xxD 121
'
O ponto médio entre as duas médias populacionais univariadas µ1 e µ1 é:
211
21'
21 m
2121 DDm
A regra de classificação baseada na função discriminante de Fisher é:
Função discriminante linear de Fisher
Alocar ox em 1 se mxxD oo ³ 121
'
Alocar ox em 2 se mxxD oo < 121
'
Assumimos que as populações 1 e 2 têm a mesma matriz de covariâncias .
Matriz comum de covariâncias Sc
221
21
21
1
111
111 S
nnnS
nnnSc
cS1n2n1S2S
cS = estimativa da matriz comum de covariâncias ;
1n = número de observações da população 1;
2n = número de observações da população 2;
1S = estimativa matriz de covariâncias da população 1;
2S = estimativa matriz de covariâncias da população 2;
É obtida substituindo-se os parâmetros µ1, µ2 e pelas respectivas quantidades amostrais:
A função discriminante linear amostral de Fisher
1x 2x cS xSxxxLxD c 1
21'ˆ '
xD = função discriminante linear amostral de Fisher;
'L̂ = estimativa do vetor disriminante;
1x = média amostral da população 1;
2x = média amostral da população 2.
Vamos considerar os dados de duas raças de insetos (Quadro 1), apresentados por HOEL (1966) e citado por REGAZZI (2000).
Exemplo de aplicação
Raça A Raça B
X1 X2 X1 X2
6,36 5,24 6,00 4,88
5,92 5,12 5,60 4,64
5,92 5,36 5,64 4,96
6,44 5,64 5,76 4,80
6,40 5,16 5,96 5,08
6,56 5,56 5,72 5,04
6,64 5,36 5,64 4,96
6,68 4,96 5,44 4,88
6,72 5,48 5,04 4,44
6,76 5,60 4,56 4,04
6,72 5,08 5,48 4,20
5,76 4,80
Exemplo de aplicaçãoNúmero médio de cerdas primordiais (X1) e número médio decerdas distais (X2) em duas raças de insetos
Raça A, características 1 e 2
Estimativa das médias das raças A e B
32364,546545,6
2
1
A
AA x
x
Raça B, características 1 e 2
72667,455000,5
2
1
B
BB x
x
Raça A
Estimativa das variâncias das raças A e B
Raça B
052625,0011258,0011258,0091287,0
AS
111661,0107418,0107418,0160327,0
BS
Assumindo-se que:
Matriz comum de covariâncias Sc
BA
221
1 11112
112111111 S
nnSSc
08354,006162,006162,012745,0
cS
A matriz inversa é calculada com MATLAB Função: inv(sc)
A inversa de Sc
604583,18995464,8995964,81960015,121
cS
O vetor discriminante é dado por:
Vetor discriminante
1''ˆ CBA SXXL
59697,091545,0
72667,455000,5
32364,546545,6
BA XX
59697,091545,0' BA XX
Vetor discriminante
6004583,18995464,8995964.81960015,12
59697,091545,0
''ˆ 1CBA SXXL
604583,18995464,8995964,81960015,121
cS
871023,2794819,5''ˆ 1 CBA SXXL
871023,2794819,5'ˆ L
�̂�′=[ 5,794819 2,871023 ]
Função discriminante
XLXD 'ˆ
𝐷 ( 𝑋 )= [5,794819 2,871023 ] ∙ [𝑋 1
𝑋 2]𝐷 ( 𝑋 )=5,794819 ∙ 𝑋 12,871023 ∙ 𝑋 2
Ponto médio da Raça A
Classificação de novos indivíduos
BA xDxDm 21ˆ
32364,546545,6
871023,2794819,5ˆ 'AA xLxD
750405,52AxD
Ponto médio da Raça B
Classificação de novos indivíduos
72667,455000,5
871023,2794819,5ˆ 'BB xLxD
731624,45BxD
Ponto médio das populações
Classificação de novos indivíduos
241,49731624,45750405,5221ˆ m
241,49ˆ m
Tendo-se um novo indivíduo Xo. Alocar em Raça A se
Regra de classificação
241,49³oxD
Alocar em Raça B se
241,49<oxD
241,49ˆ m
Opção pool=no|test|yesProcedimento PROC DISCRIMDetermina se será usada a matriz comum
ou não na análise discriminante. Se for pool=yes, o SAS usa a matriz comum para calcular as distâncias entre grupos e o resultado é uma função discriminante linear. Se pool=no, o SAS usa as matrizes de covariância de cada grupo individualmente para o cálculo das distâncias. Neste caso obtemos funções discriminantes quadráticas. O padrão do SAS é POOL=YES.
Prática: resolver o exercício anterior usando o SAShttp://v8doc.sas.com/sashtml/