37
ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015

ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

  • Upload
    others

  • View
    27

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)

Flávia  F.  Feitosa  

BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015

Page 2: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

É  uma  técnica  analítica  pra  identificar  subgrupos  significativos  de  entidades  homogêneas  (pessoas/objetos/lugares).      

 O  objetivo  é  classificar  uma  amostra  de  entidades  

em  um  número  menor  de  grupos  mutuamente  excludentes,  com  base  nas  similaridades  entre  as  entidades.    

 Busca  por  uma  estrutura  “natural”  entre  as  

observações  com  base  em  um  perfil  multivariado.      

                                                                                                     

                                         

HAIR;  BLACK;  BABIN;  ANDERSON;  TATHAM.  Análise  Multivariada  de  Dados.  6ª  ed.,  2009.    

ANÁLISE  DE  AGRUPAMENTOS  

Page 3: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Os  agrupamentos  resultantes  de  entidades  devem  exibir  elevada  homogeneidade  interna  (dentro  dos  agrupamentos)  e  elevada  heterogeneidade  externa  (entre  agrupamentos).  

     

 

                                         

ANÁLISE  DE  AGRUPAMENTOS  

     Idealmente,  os  objetos  dentro  de  um  agrupamento  estarão  próximos  quando  representados  graficamente,  e  diferentes  agrupamentos  estarão  distantes.    

Page 4: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

1.  Classificar  os  setores  censitários  de  acordo  com  as  diferentes  dimensões  de  justiça/injustiça  ambiental.    

2.  Classificar  os  municípios  de  SP  em  função  das  diferentes  dimensões  de  violência  contra  a  mulher  

3.  Classificar  os  bairros  do  ABC  de  acordo  com  a  quantidade/perfil  dos  lançamentos  residenciais  

4.  Classificar  os  distritos  de  SP  de  acordo  com  as  variáveis  de  infraestrutura  e  entorno  dos  domicílios  

5.  …  

 

   

Exemplos  “inspirados”  nos  trabalhos  propostos  pelos  alunos  

Page 5: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Conjunto  de  variáveis  que  representam  as  características  usadas  para  comparar  objetos  da  análise  de  agrupamentos.  Deve  ser  especificado  pelo  analista.    

 

Exemplos  considerando  as  propostas  de  trabalho  apresentadas  ???  

 

   

Variável  EstaFsGca  de  Agrupamento  

Page 6: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

CaracterísGcas  da  Análise  de  Agrupamentos  

1.  É  descritiva,  não-­‐teórica  e  não-­‐inferencial  

2.  Sempre  criará  agrupamentos,  independente  da  existência  real  de  alguma  estrutura  dos  dados  

3.  Variedade  de  vias  e  critérios  para  a  definição  dos  grupos,  o  que  possibilita  a  obtenção  de  soluções  diferentes  

4.  Não  é  generalizável,  pois  é  totalmente  dependente  das  variáveis  usadas  como  base  para  a  medida  de  similaridade  

Page 7: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

QUESTÕES-­‐CHAVE  

1.  Como  medir  similaridade?    

2.  Como  formar  os  agrupamentos?    

3.  Quantos  grupos  formar?    

Page 8: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

1.  Medição  de  Similaridade  Agrupamentos  são  grupos  de  objetos  semelhantes.  Precisamos,  portanto,  definir  uma  medida  do  grau  de  similaridade/dissimilaridade  entre  os  objetos.    

É  possível  medir  similaridade,  por  exemplo,  de  acordo  com  a  distância  euclidiana    entre  cada  par  de  observações.  

Page 9: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

2.  Formação  de  Agrupamentos  

Definida  a  medida  de  similaridade  a  ser  adotada,  precisamos  formar  agrupamentos  com  base  na  similaridade  de  cada  par  de  observações.    

Esse  procedimento  deve  determinar  a  pertinência  a  grupo  de  cada  observação  para  cada  conjunto  de  agrupamentos  formados  

Page 10: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

3.  Número  de  Agrupamentos  

DILEMA  

Menor  nr.  de  agrupamentos  &    

Menor  homogeneidade  interna  nos  grupos  

VS.    

Maior  nr.  de  agrupamentos  &    

Maior  homogeneidade  interna  nos  grupos  

 

 

Page 11: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Métodos  de  Agrupamento  

1.  Agrupamento  em  árvore  (tree  clustering):  método  aglomerativo  hierárquico  

 

2.  K-­‐médias  (k-­‐means):  método  não  hierárquico  por  repartição  

Page 12: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Agrupamento  em  Árvore  Considere  as  seguintes  observações:    

Variável de

Agrupamento

Observação

A B C D E F G

Variável 1 (V1) 3 4 4 2 6 7 6

Variável 2 (V2) 2 5 7 7 6 7 4

Page 13: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Agrupamento  em  Árvore  

0

2

4

6

8

0 2 4 6 8

V2

V1

D C

E

F

A

B

G

Page 14: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

0

2

4

6

8

0 2 4 6 8

V2

V1

D C

E

F

A

B

G

Agrupamento  em  Árvore  

Como  medimos  similaridade?  Neste  exemplo,  utilizaremos  a  distância  euclidiana  (linha  reta)  entre  cada  par  de  observações  

Page 15: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Matriz  de  Proximidade  de  Distâncias  Euclidianas  entre  Observações  

Observação

A B C D E F G

A -

B 3,162 -

C 5,099 2,000 -

D 5,099 2,828 2,000 -

E 5,000 2,236 2,236 4,123 -

F 6,403 3,606 3,000 5,000 1,414 -

G 3,606 2,236 3,606 5,000 2,000 3,162 -

Page 16: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Matriz  de  Proximidade  de  Distâncias  Euclidianas  entre  Observações  

Observação

A B C D E F G

A -

B 3,162 -

C 5,099 2,000 -

D 5,099 2,828 2,000 -

E 5,000 2,236 2,236 4,123 -

F 6,403 3,606 3,000 5,000 1,414 -

G 3,606 2,236 3,606 5,000 2,000 3,162 -

Menor  Distância,    Maior  Similaridade  

Page 17: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Agrupamento  em  Árvore  (1)   Identificar  as  observações  mais  próximas  (E  e  F)  e  

combiná-­‐las  em  um  agrupamento  

Page 18: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Agrupamento  em  Árvore  (2)  Encontrar  próximos  pares  de  observações  mais  semelhantes.    

Page 19: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Dendograma

Page 20: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Dendograma

7  grupos 6  grupos 2  grupos

Page 21: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Métodos  de  Agrupamento  

1.  Agrupamento  em  árvore  (tree  clustering):  método  aglomerativo  hierárquico  

 

2.  K-­‐médias  (k-­‐means):  método  não  hierárquico  por  repartição  

Page 22: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

K-­‐MÉDIAS  

Gera  k  diferentes  grupos  com  a  maior  distinção  possível  entre  eles.    

 

Parte  de  k-­‐conjuntos  aleatórios  e  move  os  objetos  entre  estes  conjuntos  com  o  objetivo  de:    

(1)   Minimizar  a  variabilidade  dentro  dos  conjuntos  

(2)  Maximizar  a  variabilidade  entre  conjuntos  

 

 

Page 23: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

K-­‐MÉDIAS  MINIMIZAR  VARIÂNCIAS  INTRA-­‐GRUPOS

MAXIMIZAR  VARIÂNCIAS  

INTER-­‐GRUPOS

Page 24: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Dados  devem  estar  normalizados  (por  exemplo,  entre  0  e  1)  ou    padronizados  (z-­‐escore).

Page 25: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

PráGca  no  SPSS  Dados  Origem  e  Destino  2007  –  Município  de  São  Paulo  

Estabelecer  grupos  de  zonas  semelhantes  quanto  à  proporção  de  viagens  do  tipo:    

V1:  “transporte  coletivo”  

V2:  “transporte  individual”  

 V3:  “transporte  não  motorizado”  

Arquivo:  OD2007_TipoViagem_SP.sav  

Disponível  em  https://flaviafeitosa.wordpress.com/teaching/bpt-­‐mti/  

Page 26: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Normalização  Variáveis  

Valor normalizado = (v.real - MinA)/(MaxA – MinA)

Objetivo:  Minimizar  problemas  oriundos  do  uso  de  unidades  e  dispersões  distintas  entre  as  variáveis.  

Page 27: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Analyse  >  Classify  >  k-­‐means  cluster…  

K-­‐MÉDIAS  

Page 28: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

K-­‐MÉDIAS  

Page 29: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Como  podemos  caracterizar  cada  um  destes  grupos?  

Page 30: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Grupos  2,  4  e  5  :  outliers    Grupo  6:  Predominância  transporte  coletivo.    Grupo  8:  Predominância  transporte  coletivo  e  não  motorizado  Grupo  1:  Predominância  do  transporte  não  motorizado,  seguido  do  coletivo    Grupo  3:  Equivalência  entre  transporte  coletivo  e  individual  (motorizado),  pouco  não  motorizado.  Em  relação  aos  demais,  destaque  para  o  individual    Grupo  7:  equivalência  entre  os  3  modos,  com  ligeiro  predomínio  do  coletivo  e  não-­‐motorizado    

Page 31: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Podemos  exportar,  no  formato  .csv,  os  resultados  salvos  na  tabela.    

Em  seguida,  podemos  juntar  esta  tabela  ao  shapefile  (join)  e  visualizar  os  grupos  espacialmente  

K-­‐MÉDIAS  

Page 32: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

K-­‐MÉDIAS  Grupos  2,  4  e  5  :  outliers    Grupo  3:  Equivalência  entre  transporte  coletivo  e  individual  (motorizado),  pouco  não  motorizado.  Em  relação  aos  demais,  destaque  para  o  individual  Grupo  6:  Predominância  transporte  coletivo.    Grupo  8:  Predominância  transporte  coletivo  e  não  motorizado  Grupo  7:  equivalência  entre  os  3  modos,  com  ligeiro  predomínio  do  coletivo  e  não-­‐motorizado  Grupo  1:  Predominância  do  transporte  não  motorizado,  seguido  do  coletivo      

Page 33: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Repetição  do  experimento,  incluindo  como  variáveis  as  coordenadas  X  e  Y  normalizadas  

K-­‐MÉDIAS  

Page 34: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

K-­‐MÉDIAS  

Page 35: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Analyse  >  Classify  >  Hierarchical  Cluster…  

AGRUPAMENTO  EM  ÁRVORE    

Page 36: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

ANÁLISE  DESCRITIVA  DAS  VARIÁVEIS  SALVAS  

Analyse  >  Descriptive  Statistics  >  Explore…  

AGRUPAMENTO  EM  ÁRVORE    

Page 37: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para

Análise  de  agrupamentos  

 

04/08  -­‐  Terça  à  Último  dia  para  entrega  das  atividades  (incluindo  as  atrasadas)  

 

AGvidade  7