View
197
Download
0
Category
Preview:
Citation preview
ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)
Vitor Vieira Vasconcelos
BH1350 – Métodos e Técnicas de Análise da Informação para o PlanejamentoAgosto de 2016
Análise de Agrupamentos Medidas de similaridade Métodos de agrupamento
Em árvore (hierárquico) Médias K
Prática no SPSS e QGIS
Regionalização Método Skater Prática no Terraview
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
Conteúdo
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
Capítulo 9 – Análise de Agrupamentos
Referência Principal
É uma técnica analítica pra identificar subgrupos significativos de entidades homogêneas (pessoas/objetos/lugares).
O objetivo é classificar uma amostra de entidades em um número menor de grupos mutuamente excludentes, com base nas similaridades entre as entidades.
Busca por uma estrutura “natural” entre as observações com base em um perfil multivariado.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS
Os agrupamentos resultantes de entidades devem exibir elevada homogeneidade interna (dentro dos agrupamentos) e elevada heterogeneidade externa (entre agrupamentos).
ANÁLISE DE AGRUPAMENTOS
Idealmente, os objetos dentro de um agrupamento estarão próximos quando representados graficamente, e diferentes agrupamentos estarão distantes.
1. Classificar os setores censitários de acordo com as diferentes dimensões de justiça/injustiça ambiental.
2. Classificar os municípios de SP em função das diferentesdimensões de violência contra a mulher
3. Classificar os bairros do ABC de acordo com a quantidade/perfil dos lançamentos residenciais
4. Classificar os distritos de SP de acordo com as variáveis de infraestrutura e entorno dos domicílios
5. …
Exemplos “inspirados” nos trabalhos propostos pelos alunos
Conjunto de variáveis que representam as características usadas para comparar objetos da análise de agrupamentos. Deve ser especificado peloanalista.
Variável Estatística de Agrupamento
Características da Análise de Agrupamentos
1. É descritiva, não-teórica e não-inferencial
2. Sempre criará agrupamentos, independente da existência real de alguma estrutura dos dados
3. Variedade de vias e critérios para a definição dos grupos, o que possibilita a obtenção de soluções diferentes
4. Não é generalizável, pois é totalmente dependente das variáveis usadas como base para a medida de similaridade
QUESTÕES-CHAVE
1. Como medir similaridade?
2. Como formar os agrupamentos?
3. Quantos grupos formar?
1. Medição de SimilaridadeAgrupamentos são grupos de objetos semelhantes. Precisamos, portanto, definir uma medida do grau de similaridade/dissimilaridade entre os objetos.
É possível medir similaridade, por exemplo, de acordo com a distância euclidiana entre cada par de observações.
1. Medição de Similaridade• Medidas de proximidade
o Distância Euclidiana (ou Euclidiana Quadrática)
o Log da Verossimilhança (logLikelihood)Pode incluir variáveis categóricas
• Medidas de Padrões
o Coeficiente de correlação “r” de Pearson
2. Formação de Agrupamentos
Definida a medida de similaridade a ser adotada, precisamos formar agrupamentos com base nasimilaridade de cada par de observações.
Esse procedimento deve determinar a pertinência a grupo de cada observação para cada conjunto de agrupamentos formados
2. Formação de Agrupamentos• Ligação entre grupos (otimizar proximidade)
• Método Ward (agrupamentos com númerossimilares de casos)
3. Número de Agrupamentos
DILEMA
Menor nr. de agrupamentos &
Menor homogeneidade interna nos grupos
VS.
Maior nr. de agrupamentos &
Maior homogeneidade interna nos grupos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): métodoaglomerativo hierárquico
2. K-médias (k-means): método não hierárquico porrepartição
3. Duas etapas: 1º Método -> 2º Método
Agrupamento em ÁrvoreConsidere as seguintes observações:
Variável de Agrupamento
Observação
A B C D E F G
Variável 1 (V1) 3 4 4 2 6 7 6
Variável 2 (V2) 2 5 7 7 6 7 4
0
2
4
6
8
0 2 4 6 8
V2
V1
D CE
F
A
BG
Agrupamento em Árvore
Como medimos similaridade?Neste exemplo, utilizaremos a distância euclidiana (linha reta) entre cada par de observações
Matriz de Proximidade de DistânciasEuclidianas entre Observações
ObservaçãoA B C D E F G
A -B 3,162 -
C 5,099 2,000 -D 5,099 2,828 2,000 -E 5,000 2,236 2,236 4,123 -F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Matriz de Proximidade de DistânciasEuclidianas entre Observações
ObservaçãoA B C D E F G
A -B 3,162 -
C 5,099 2,000 -D 5,099 2,828 2,000 -E 5,000 2,236 2,236 4,123 -F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Menor Distância, Maior Similaridade
Agrupamento em Árvore(1) Identificar as observações mais próximas (E e F) e
combiná-las em um agrupamento
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): métodoaglomerativo hierárquico
2. K-médias (k-means): método não hierárquico porrepartição
3. Duas etapas: 1º Método -> 2º Método
K-MÉDIAS
Gera k diferentes grupos com a maior distinção possívelentre eles.
Parte de k-conjuntos aleatórios e move os objetos entre estes conjuntos com o objetivo de:
(1) Minimizar a variabilidade dentro dos conjuntos
(2) Maximizar a variabilidade entre conjuntos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): métodoaglomerativo hierárquico
2. K-médias (k-means): método não hierárquico porrepartição
3. Duas etapas: 1º Método -> 2º Método
Agrupamentos em duasetapas
Exemplo:
1. Análise de Agrupamento Hierárquica
2. Usa pontos centrais dos agrupamentos da análisehierárquica para criar os primeiros conjuntos de médias K
3. Realiza as modificações aleatórias para tentar:
• Minimizar a variabilidade dentro dos conjuntos
• Maximizar a variabilidade fora dos conjuntos
Grupos de Entropia• Grupos com poucos elementos, bastante diferentes
do restante da amostra
• Úteis para análise de valores atípicos
Prática no SPSS• Abrir arquivo: agua&rede2010_SNIS_v2.sav
• Analisar -> Classificar -> Cluster Hierárquico
Método…
Padronizar: Minimizar problemas oriundos do uso de unidades e dispersões distintas entre as variáveis.
Análise de Cluster Hierárquica
Após rodar cada análise de agrupamento, atribua um nomecompreensível ao atributo de agrupamento
Heterogeneidade por número de agrupamentos
0
2000
4000
6000
8000
10000
12000
14000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Heterogeneirdade
Refazer análise hierárquica com método Ward e intervalo por correlação de Pearson
Análise de Cluster Hierárquica
Análise de Cluster HierárquicaCorrelação de Pearson nos Agrupamentos
Par de correlação
RendaX
Rede2
RendaX
Consumo
Rede2
XConsumo
Total 0.436 0.601 0.633
Agru
pam
ento 1 0.662 0.74 0.807
2 0.891 0.934 0.8563 0.934 0.781 0.7914 0.664 0.863 0.7045 0.730 0.858 0.927
Refazer análise hierárquica com método Ligação entre grupos e intervalo por correlação de Pearson
Análise de Cluster Hierárquica
Análise hierárquica com método Ligação entre grupos e intervalo por correlação de Pearson
Análise de Cluster Hierárquica
Par de correlação
RendaX
Rede2
RendaX
Consumo
Rede2
XConsumo
Agru
pam
ento 1 0.690 0.742 0.861
2 0.892 0.958 0.8773 0.947 0.832 0.7754 0.646 0.836 0.6935 0.858 0.804 0.770
Total 0.436 0.601 0.633
Análise de Cluster Hierárquica
R2 B1 Renda(padronizado)
B2 Rede2
(padronizado)Geral 0.53 0.402 0.458
Agru
pam
ento 1 0.78 0.293 0.665
2 0.693 0.954 -0.129*3 0.921 0.863 0.1064 0.671 0.541 0.3065 0.739 0.666 0.263
Regressão pelos Agrupamentos de Correlação de Pearson, Método Ligação entre grupos
* Não significativo a 95% de confiança
Refazer análise hierárquica para distância euclidianaquadrática incluindo coordenadas geográficas X e Y com variáveis
Análise de Cluster Hierárquica
ConsumoRendaRede
XY
60%
40%
1º Passo: Criar os scores Z das váriáveis
Analisar > Estatísticas Descritivas > Descritivas
K-MÉDIAS
Podemos exportar, no formato .csv ou .dbf (Dbase IV), osresultados salvos na tabela.
Em seguida, podemos juntar esta tabela ao shapefile (União) no QGIS e visualizar os grupos espacialmente
Visualização dos agrupamentos
1º - Visualizar mapa para Análise HierárquicaMétodo Ward – Distância Euclideana ao Quadrado
Visualização dos agrupamentos
2º - Visualizar mapa para Análise Hierárquica
Ligação entre grupos– Distância Euclideana ao Quadrado
Visualização dos agrupamentos
Hierárquico X Médias K
Distânciaentre grupos
HierárquicoMétodo WardDistânciaEuclideana aoQuadrado
Médias K
5º - Visualizar mapa para análise hierárquica
Método Ward – Distância Euclideana Quadrática
Incluindo Coordenadas X e Y
Visualização dos agrupamentos
6º - Visualizar mapa para análise hierárquica
Método Ward – Correlação de Pearson
Visualização dos agrupamentos
Correlação de Pearson
Par de correlação
RendaX
Rede2
RendaX
Consumo
Rede2
XConsumo
Agru
pam
ento 1 0.662 0.74 0.807
2 0.891 0.934 0.8563 0.934 0.781 0.7914 0.664 0.863 0.7045 0.730 0.858 0.927
Total 0.436 0.601 0.633
7º - Visualizar mapa para análise hierárquica
Método de Ligação entre Grupos – Correlação de Pearson
Visualização dos agrupamentos
Par de correlação
RendaX
Rede2
RendaX
Consumo
Rede2
XConsumo
Agru
pam
ento 1 0.690 0.742 0.861
2 0.892 0.958 0.8773 0.947 0.832 0.7754 0.646 0.836 0.6935 0.858 0.804 0.770
Total 0.436 0.601 0.633
Par de correlação
RendaX
Rede2
RendaX
Consumo
Rede2
XConsumo
Agru
pam
ento 1 0.662 0.74 0.8072 0.891 0.934 0.8563 0.934 0.781 0.7914 0.664 0.863 0.7045 0.730 0.858 0.927
Total 0.436 0.601 0.633
Correlação de Pearson
Ligaçãoentre grupos
MétodoWard
Método Skater – Software Terraview
Referência:
Tutorial: Operações de Análise Espacial
Endereço: http://www.dpi.inpe.br/terraview/docs/tutorial/Aula8.pdf
Regionalização
Método Skater
Técnica:
Minimizar a variabilidade entre os agrupamentos, mas mantendo a contiguidade de todos os elementos em cada
agrupamento
Resultado:
Regiões relativamente homogêneas espacialmente contínuas
Regionalização
Inicialmente associa-se "custos" às arestas Os "custos" são calculados em função da similaridade
entre os geo-objetos Depois são eliminadas as arestas de menor "custo"
Procedimento de poda procura obter:- regiões mais homogêneas- mais equilibradas em termos de números de geo-
objetos por região.
Selecione o tema“Metrop_1980”
Para visualizar osmapas, selecione um
tema e clique emdesenhar
Regionalização
• ICV80: Índice de Condição de Vida geral, no ano de 1980. • DEM80: Defasagem escolar média (em anos) entre crianças de 7 a 14 anos, no ano de 1980. • TRAB80: Porcentagem de crianças de 10 a 14 anos que trabalham, no ano de 1980.• AAGU80: Abastecimento adequado de água, no ano de 1980. • TANALF80: Taxa de analfabetismo da população de 15 anos ou mais (%), no ano de 1980. • MANOS80: Número médio de anos de estudo (pop. de 25 anos ou mais, no ano de 1980). • ESP80: Esperança de vida ao nascer (em anos), no ano de 1980. • TMI80: Taxa de mortalidade infantil (por mil nascidos vivos), no ano de 1980. • RENDA80: Renda familiar per capita média (Cr$1000 de 01/09/91), no ano de 1980. • POBRES80: Proporção de pobres (P0), no ano de 1980.
Regionalização
Análise -> Skater
Grupos: 10
Escolher atributos emPlan.1 que terminem em“80_P” (variáveispadronizadas do ano1980)
Regionalização
Para alterar a legendado mapa, clicar com botão direito do mouse sobre o tema a servisualizado e escolher“Editar Legenda…”
Regionalização
1- Escolher o atributo“ska”, com precisão = 1
2- Selecione “Aplicar”
3- Selecione “Ok”
Regionalização
Repetir a análise para o anos de 1991
Selecione o tema“Metrop_1991”
Análise -> Skater
Grupos: 10
Nome da Coluna: ska91
Escolher atributos emPlan.2 que terminem em“91_P” (variáveispadronizadas do ano 1991)
Regionalização
Análise de 1980 com método de agregação por população
Selecione o tema“Metrop_1980”
Análise -> Skater
Grupos: 100.000 hab
Atributo: Plan1->Pop1980
Nome da Coluna: ska80pop
Escolher atributos em Plan.1 que terminem em “80_P” (variáveis padronizadas do ano1980)
Regionalização
Análise de 1980 com método de agregação por população
Selecione o tema“Metrop_1991”
Análise -> Skater
Grupos: 100.000 hab
Atributo: Plan2->TOTAL_91
Nome da Coluna: ska91pop
Escolher atributos em Plan.2 que terminem em “91_P” (variáveis padronizadas do ano1991)
Regionalização
ExercícioRealize as seguintes análises de agrupamento para os dados do seu trabalho de curso:- Método Ward
- Distância Euclideana ao Quadrado- Correlação de Pearson
- Escolha um número de agrupamentos com base na heterogeneidade dos grupos
- Realize a regressão para cada um dos agrupamentos de correlação de Pearson
- Exporte os resultados do SPSS para sua base de dados do QGIS e gere os dois mapas de agrupamento
- Interprete os resultados
Recommended