21
Capítulo 5 - Medindo e Testando Distâncias Multivariadas Livro Métodos Estatísticos Multivariados (MANLY, 2008) Hiron Pereira Farias Talita Tanaka Fernandes Adriele Giaretta Biase Piracicaba - SP 22 de Janeiro de 2016 26 de Janeiro de 2016 (ESALQ/USP)

Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Capítulo 5 - Medindo e TestandoDistâncias Multivariadas

Livro Métodos Estatísticos Multivariados(MANLY, 2008)

Hiron Pereira FariasTalita Tanaka FernandesAdriele Giaretta Biase

Piracicaba - SP22 de Janeiro de 2016

26 de Janeiro de 2016(ESALQ/USP)

Page 2: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Distâncias multivariadas

Motivação:

1 Muitas técnicas de análise de dados multivariados empregamconceito de distância.

2 Quão longe os grupos de cães , lobos, chacais, cuons e dingosda Tabela 1.4 estão um dos outros, considerando todas asmedidas de mandíbula?

3 Com os dados da Tabela 1.3, em que se têm variáveis ambien-tais e genéticas, para 16 colônias de uma espécie de borbole-tas, dois conjuntos de distâncias podem então ser calculadosentre as colônias. [O teste de Mantel (Seção 5.6) responderáa isso!]

Uso: Análise de Agrupamento

(ESALQ/USP)

Page 3: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Distâncias entre observações individuais

Considere n objetos nos quais são medidas p variáveisX1, X2, · · · , Xp.Os valores para os i-ésimo objeto são xi1, xi2, · · · , xip e para o j-ésimo objeto são xj1, xj2, · · · ,xjp.Problema: medir a distância entre esses dois objetos.

(ESALQ/USP)

Page 4: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Figura 1 : A distância Euclidiana entre objetos i e j com p = 2variáveis

(ESALQ/USP)

Page 5: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

O teorema de Pitágoras diz então que o comprimento dij do seg-mento ligando o ponto para o objeto i ao ponto para o objeto j(a distância Euclidiana) é

dij ={((xi1 − xj1)2 + (xi2 − xj2)2

} 12 (1)

Com p = 3 variáveis, os valores podem ser tomados como ascoordenadas no espaço para marcar as posições dos indivíduos ie j (Figura 5.2)

dij ={((xi1 − xj1)2 + (xi2 − xj2)2 + (xi3 − xj3)2

} 12 (2)

(ESALQ/USP)

Page 6: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Distância Euclidiana generalizada

dij =

{p∑

k=1

(xik − xjk)2}1/2

(3)

Obs. Da Eq. 3, está claro que se uma das variáveis medidassão muito mais variável do que as outras, então isto dominará ocálculo das distâncias.

(ESALQ/USP)

Page 7: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Exemplo (MINGOTI, 2005)

Os dados da tabela a seguir representam a renda mensal (emquantidade de salários mínimos) e a idade de seis indivíduos deuma localidade.

Tabela 1 : Renda e idade de seis indivíduos.

Indivíduo Renda(X1) Idade(X2)A 9.6 28B 8.8 31C 2.4 42D 18.20 38E 3.9 25F 6.4 41

(ESALQ/USP)

Page 8: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

EXEMPLO 5.1 Distãncias entre cães e espéciesrelacionadas

Procedimento:1 Padronizar as medidas:

(valor−média)desvio padrão

(4)

Cão moderno X1:largura(9,7− 10,486)

1,697= -0,46

Chacal dourado(8,1− 10,486)

1,697= -1,41

Cão pré-histórico(10,3− 10,486)

1,697= -0,11

(ESALQ/USP)

Page 9: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Tabela 2 : Valores da variável padronizada calculados dos dadosoriginais na Tabela 1.4

Grupo X1 X2 X3 X4 X5 X6Cão moderno -0,46 -0,46 -0,68 -0,69 -0,45 -0,57Chacal dourado -1,41 -1,79 -1,04 -1,29 -0,80 -1,21Lobo chinês 1,78 1,48 1,70 1,80 1,55 1,50Lobo indiano 0,60 0,55 0,96 0,69 1,17 0,88Cuon 0,13 0,31 -0,04 0,00 -1,10 -0,37Dingo -0,52 0,03 -0,13 -0,17 0,03 0,61Cão pré-histórico -0,11 -0,12 -0,78 -0,34 -0,41 -0,83

(ESALQ/USP)

Page 10: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Distâncias entre populações

Uma desvantagem da distância euclidiana é que ela não leva emconsideração informações estatísticas como:

médias;variâncias;covariâncias ou correlações.

(ESALQ/USP)

Page 11: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Distância estatística de Penrose (1953):

Pij =

p∑k=1

(µki − µkj)2

(pVk)(5)

µki é a média da variável Xk na i-ésima população;Vk é a variância da variável Xk;

Desvantagem: Não leva em consideração as covariâncias ou cor-relações entre as p variáveis.

(ESALQ/USP)

Page 12: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Distância estatística de Mahalanobis (1948)

D2ij =

p∑r=1

p∑s=1

(µri − µrj)vrs(µsi − µsj) (6)

em vrs é o elemento na r-ésima linha e s-ésima coluna da inversada matriz de covariância populacional para as p variáveis.

(ESALQ/USP)

Page 13: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

A distância de Mahalanobis é uma forma quadrática que tambémpode ser escrita como:

D2ij = (µi − µj)

′V −1(µi − µj) (7)

Obs.: Esta medida requer que V seja a mesma para todas aspopulações

(ESALQ/USP)

Page 14: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Uso: Medir a distância de uma única observação multivariadaxi, ao centro da população (média µ)

D2 =

p∑r=1

p∑s=1

(xr − µr)vrs(xs − µs)

= (xi − µ)′V −1(xi − µ) (8)

em que xi = (xi1, xi2, . . . , xip)

(ESALQ/USP)

Page 15: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Obs.: A Distância de Mahalanobis

1 é um resíduo multivariado para a observação xi2 Se a população tem distribuição normal multivariada, então

os valores deD2 seguirão uma distribuição qui-quadrado comp gl.

3 Um valor significativamente grande de D2 significa:(a) um genuíno, mais improvável registro;(b) uma observação de outra distribuição ou população;(c) um registro contendo algum erro.

4 As equações de 5.2 à 5.4 podem ser usadas com dados amos-trais para médias, variâncias e covariâncias e V deve ser subs-tituída pela matriz de covariância combinada amostral.

5 As distância de Mahalanobis é superior a de Penrose, poisusa a informação de covariância. Para amostras pequenas émelhor usar a distância de Penrose (n < 100).

(ESALQ/USP)

Page 16: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Distâncias Baseadas em Proporções

Uma situação particular que ocorre é que as variáveis sendousadas para medir a distância entre populações ou amostrassão proporções que somam 1.

d1 =

k∑i=1

|pi − qi|2

d2 = 1−∑k

i=1 |piqi|{∑ki=1 p

2i

∑q2i

}1/2

s1 = 1− d1

(ESALQ/USP)

Page 17: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Dados Presença-Ausência

Outra situação comum é onde a similaridade ou distânciaentre dois itens precisa ser baseada em uma lista de suaspresenças e ausências.

Tabela 3 : Presenças e ausências de duas espécies em dez locais.

Local 1 2 3 4 5 6 7 8 9 10Espécie 1 0 0 1 1 1 0 1 1 1 0Espécie 2 1 1 1 1 0 0 0 0 1 1

Nota: 1=Presença, 0=Ausência

(ESALQ/USP)

Page 18: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Tabela 4 : Presenças e ausências para duas espécies em n locais.

Espécie 2Presente Ausente Total

Espécie 1Presente a b a+bAusente c d c+dTotal a+c b+d n

(ESALQ/USP)

Page 19: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Índice de empates simples =a+ d

n

Índice de Ochiai =a

{(a+ b)(a+ c)}1/2

Índice de Dice-Sorensen =2a

(2a+ b+ c)

Índice de Jaccard =a

(a+ b+ c)

(ESALQ/USP)

Page 20: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Teste de Aleatorização de Mantel(1967)

Útil para comparar duas matrizes de distâncias ou similari-dades como uma solução para o problema de detectar aglo-meração de doenças no espaço e no tempo.O teste estatístico usado é algumas vezes a correlação entreos elementos correspondentes das duas matrizes, ou simples-mente a soma dos produtos destes elementos pareados. Parao caso geral de matrizes nxn, uma estatística é então:

Z =

n∑i=2

i−1∑i=1

mijeij

(ESALQ/USP)

Page 21: Capítulo 5 - Medindo e Testando Distâncias Multivariadas€¦ · Capítulo 5 - Medindo e Testando Distâncias Multivariadas Author: Livro Métodos Estatísticos Multivariados (MANLY,

Referências

MANLY, B. J. F. Métodos estatísticos Multivariados: uma introdução, 3a ed., PortoAlegre: Bookman, 2008.

MINGOTI, S. A. Análise de dados através de métodos de estatística multivariada: Umaabordagem aplicada. Belo Horizonte, Editora UFMG, 2005.

(ESALQ/USP)