Upload
others
View
27
Download
0
Embed Size (px)
Citation preview
ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)
Flávia F. Feitosa
BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015
É uma técnica analítica pra identificar subgrupos significativos de entidades homogêneas (pessoas/objetos/lugares).
O objetivo é classificar uma amostra de entidades
em um número menor de grupos mutuamente excludentes, com base nas similaridades entre as entidades.
Busca por uma estrutura “natural” entre as
observações com base em um perfil multivariado.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS
Os agrupamentos resultantes de entidades devem exibir elevada homogeneidade interna (dentro dos agrupamentos) e elevada heterogeneidade externa (entre agrupamentos).
ANÁLISE DE AGRUPAMENTOS
Idealmente, os objetos dentro de um agrupamento estarão próximos quando representados graficamente, e diferentes agrupamentos estarão distantes.
1. Classificar os setores censitários de acordo com as diferentes dimensões de justiça/injustiça ambiental.
2. Classificar os municípios de SP em função das diferentes dimensões de violência contra a mulher
3. Classificar os bairros do ABC de acordo com a quantidade/perfil dos lançamentos residenciais
4. Classificar os distritos de SP de acordo com as variáveis de infraestrutura e entorno dos domicílios
5. …
Exemplos “inspirados” nos trabalhos propostos pelos alunos
Conjunto de variáveis que representam as características usadas para comparar objetos da análise de agrupamentos. Deve ser especificado pelo analista.
Exemplos considerando as propostas de trabalho apresentadas ???
Variável EstaFsGca de Agrupamento
CaracterísGcas da Análise de Agrupamentos
1. É descritiva, não-‐teórica e não-‐inferencial
2. Sempre criará agrupamentos, independente da existência real de alguma estrutura dos dados
3. Variedade de vias e critérios para a definição dos grupos, o que possibilita a obtenção de soluções diferentes
4. Não é generalizável, pois é totalmente dependente das variáveis usadas como base para a medida de similaridade
QUESTÕES-‐CHAVE
1. Como medir similaridade?
2. Como formar os agrupamentos?
3. Quantos grupos formar?
1. Medição de Similaridade Agrupamentos são grupos de objetos semelhantes. Precisamos, portanto, definir uma medida do grau de similaridade/dissimilaridade entre os objetos.
É possível medir similaridade, por exemplo, de acordo com a distância euclidiana entre cada par de observações.
2. Formação de Agrupamentos
Definida a medida de similaridade a ser adotada, precisamos formar agrupamentos com base na similaridade de cada par de observações.
Esse procedimento deve determinar a pertinência a grupo de cada observação para cada conjunto de agrupamentos formados
3. Número de Agrupamentos
DILEMA
Menor nr. de agrupamentos &
Menor homogeneidade interna nos grupos
VS.
Maior nr. de agrupamentos &
Maior homogeneidade interna nos grupos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico
2. K-‐médias (k-‐means): método não hierárquico por repartição
Agrupamento em Árvore Considere as seguintes observações:
Variável de
Agrupamento
Observação
A B C D E F G
Variável 1 (V1) 3 4 4 2 6 7 6
Variável 2 (V2) 2 5 7 7 6 7 4
Agrupamento em Árvore
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
Agrupamento em Árvore
Como medimos similaridade? Neste exemplo, utilizaremos a distância euclidiana (linha reta) entre cada par de observações
Matriz de Proximidade de Distâncias Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Matriz de Proximidade de Distâncias Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Menor Distância, Maior Similaridade
Agrupamento em Árvore (1) Identificar as observações mais próximas (E e F) e
combiná-‐las em um agrupamento
Agrupamento em Árvore (2) Encontrar próximos pares de observações mais semelhantes.
Dendograma
Dendograma
7 grupos 6 grupos 2 grupos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico
2. K-‐médias (k-‐means): método não hierárquico por repartição
K-‐MÉDIAS
Gera k diferentes grupos com a maior distinção possível entre eles.
Parte de k-‐conjuntos aleatórios e move os objetos entre estes conjuntos com o objetivo de:
(1) Minimizar a variabilidade dentro dos conjuntos
(2) Maximizar a variabilidade entre conjuntos
K-‐MÉDIAS MINIMIZAR VARIÂNCIAS INTRA-‐GRUPOS
MAXIMIZAR VARIÂNCIAS
INTER-‐GRUPOS
Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-‐escore).
PráGca no SPSS Dados Origem e Destino 2007 – Município de São Paulo
Estabelecer grupos de zonas semelhantes quanto à proporção de viagens do tipo:
V1: “transporte coletivo”
V2: “transporte individual”
V3: “transporte não motorizado”
Arquivo: OD2007_TipoViagem_SP.sav
Disponível em https://flaviafeitosa.wordpress.com/teaching/bpt-‐mti/
Normalização Variáveis
Valor normalizado = (v.real - MinA)/(MaxA – MinA)
Objetivo: Minimizar problemas oriundos do uso de unidades e dispersões distintas entre as variáveis.
Analyse > Classify > k-‐means cluster…
K-‐MÉDIAS
K-‐MÉDIAS
Como podemos caracterizar cada um destes grupos?
Grupos 2, 4 e 5 : outliers Grupo 6: Predominância transporte coletivo. Grupo 8: Predominância transporte coletivo e não motorizado Grupo 1: Predominância do transporte não motorizado, seguido do coletivo Grupo 3: Equivalência entre transporte coletivo e individual (motorizado), pouco não motorizado. Em relação aos demais, destaque para o individual Grupo 7: equivalência entre os 3 modos, com ligeiro predomínio do coletivo e não-‐motorizado
Podemos exportar, no formato .csv, os resultados salvos na tabela.
Em seguida, podemos juntar esta tabela ao shapefile (join) e visualizar os grupos espacialmente
K-‐MÉDIAS
K-‐MÉDIAS Grupos 2, 4 e 5 : outliers Grupo 3: Equivalência entre transporte coletivo e individual (motorizado), pouco não motorizado. Em relação aos demais, destaque para o individual Grupo 6: Predominância transporte coletivo. Grupo 8: Predominância transporte coletivo e não motorizado Grupo 7: equivalência entre os 3 modos, com ligeiro predomínio do coletivo e não-‐motorizado Grupo 1: Predominância do transporte não motorizado, seguido do coletivo
Repetição do experimento, incluindo como variáveis as coordenadas X e Y normalizadas
K-‐MÉDIAS
K-‐MÉDIAS
Analyse > Classify > Hierarchical Cluster…
AGRUPAMENTO EM ÁRVORE
ANÁLISE DESCRITIVA DAS VARIÁVEIS SALVAS
Analyse > Descriptive Statistics > Explore…
AGRUPAMENTO EM ÁRVORE
Análise de agrupamentos
04/08 -‐ Terça à Último dia para entrega das atividades (incluindo as atrasadas)
AGvidade 7