113
Prof. José Francisco Moreira Pessanha [email protected] Análise de agrupamentos Análise de agrupamentos

Prof. José Francisco Moreira Pessanha [email protected] Análise de agrupamentos

Embed Size (px)

Citation preview

Page 1: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Prof. José Francisco Moreira [email protected]

Análise de agrupamentosAnálise de agrupamentos

Page 2: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Análise de agrupamentosCluster Analysis

Abrange uma variedade de métodos que têm por objetivo fracionar um conjunto de objetos em um determinado nº de subconjuntos mutuamente exclusivos (agrupamentos ou clusters), de tal forma que os objetos em um mesmo cluster sejam semelhantes entre si, porém diferentes dos objetos dos outros clusters.

Os clusters devem exibir elevada homogeneidade interna (pequena variabilidade dentro de cada grupo) e elevada heterogeneidade externa (grande separação entre os grupos).

Os clusters não são conhecidos previamente, mas são obtidos pela análise das semelhanças ou diferenças entre os objetos do conjunto de dados.

Os métodos de análise de agrupamentos têm por objetivo determinar uma estrutura de grupos que se ajuste aos dados disponíveis, i.e., classificar os objetos de acordo com o agrupamento natural dos dados.

Page 3: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Análise de agrupamentosCluster Analysis

Clusters

Algoritmo de análise de

agrupamentos

Cada ponto representa uma empresa

Identificação dos Identificação dos clustersclusters a partir dos dados a partir dos dados

Page 4: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

O que é possível fazer com a análise de agrupamentos ?O que é possível fazer com a análise de agrupamentos ?

Formar uma taxonomia das observações Identificar grupos naturais no interior dos dados, i.e., uma

classificação empírica dos objetos.

Simplificar os dados (compressão de dados) Descrever de forma compacta um razoável volume de

dados por meio dos elementos típicos dos clusters (médias ou medianas).

Identificar relações entre objetos• Revelar similaridades e diferenças entre objetos não

reveladas de outra maneira.• Identificar observações aberrantes.

Page 5: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Características da análise de agrupamentos

É descritiva, os métodos são exploratórios e a idéia é gerar hipóteses.

Cria grupos indiferentemente a existência de alguma estrutura nos dados.

Variedade de vias e critérios para definição dos grupos o que implica na possibilidade de obter soluções diferentes variando-se um ou mais critérios.

A solução da análise de agrupamentos não é generalizável por que ela é totalmente dependente tanto das variáveis usadas como dos critérios em que ela se baseia.

Page 6: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Medidas de similaridade e de dissimilaridade

Clusters são grupos de objetos semelhantes.Clusters são grupos de objetos semelhantes.

Para formar clusters é necessário ter uma medida do grau de similaridade Para formar clusters é necessário ter uma medida do grau de similaridade entre os objetos ou de diferença (dissimilaridade) entre eles.entre os objetos ou de diferença (dissimilaridade) entre eles.

Vamos trabalhar com medidas de dissimilaridade (distâncias), por exemplo, o Vamos trabalhar com medidas de dissimilaridade (distâncias), por exemplo, o quadrado da distância euclidiana. quadrado da distância euclidiana.

Distâncias pequenas indicam objetos próximos, ou seja, semelhantes em um Distâncias pequenas indicam objetos próximos, ou seja, semelhantes em um conjunto de atributos.conjunto de atributos.

Sejam os objetos X e Y caracterizados por p atributos quantitativos: X = Sejam os objetos X e Y caracterizados por p atributos quantitativos: X = (x(x11,x,x22,...,x,...,xpp) e Y = (y) e Y = (y11,y,y22,...,y,...,ypp).).

O quadrado da distância euclidiana entre X e Y é dado por:O quadrado da distância euclidiana entre X e Y é dado por:

||X-Y||||X-Y||22 = (x = (x11 – y – y11))22 + (x + (x22 – y – y22))22 +...+ (x +...+ (xpp - y - ypp))2 2 = =

p

iii yx

1

2

Page 7: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Centro de gravidade da nuvem de pontos

objetos atributo X atributo Y#1 1 1#2 1,5 1,5#3 5 5,5#4 6 7#5 1 3#6 1,5 3,5#7 5,5 1#8 6,5 2

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

Matriz de dadosMatriz de dados Nuvem de pontos com centro de gravidade CNuvem de pontos com centro de gravidade C

CC

As coordenadas do centro de gravidade C são as médias em cada atributo:As coordenadas do centro de gravidade C são as médias em cada atributo:

Abscissa de C = (1 + 1,5 + 5 + 6 + 1 + 1,5 + 5,5 + 6,5) / 8 = 3,5Abscissa de C = (1 + 1,5 + 5 + 6 + 1 + 1,5 + 5,5 + 6,5) / 8 = 3,5Ordenada de C = (1 + 1,5 + 5,5 + 7 + 3 + 3,5 + 1 + 2) / 8 = 3,06Ordenada de C = (1 + 1,5 + 5,5 + 7 + 3 + 3,5 + 1 + 2) / 8 = 3,06

Page 8: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Inércia total, medida de dispersão da nuvem de pontos ao redor do centro de gravidade da nuvem

8

1

2||||#i

Ci

Matriz de dadosMatriz de dadosNuvem de pontos com centro de gravidade CNuvem de pontos com centro de gravidade C

A inércia total é a soma dos quadrados das distâncias entre cada objeto e o A inércia total é a soma dos quadrados das distâncias entre cada objeto e o centro de gravidade da nuvem de pontos (ponto C):centro de gravidade da nuvem de pontos (ponto C):

Inércia total = ||#1 – C||Inércia total = ||#1 – C||2 2 + ||#2 – C||+ ||#2 – C||22 +...+ ||#8 – C|| +...+ ||#8 – C||22 = 75,72 = 75,72

Quadrado da distância entre o objeto #1 e o centro de gravidade C:Quadrado da distância entre o objeto #1 e o centro de gravidade C:||#1 – C||||#1 – C||22 = (1 – 3,5) = (1 – 3,5)22+ (1 - 3,06)+ (1 - 3,06)22 = 10,1 = 10,1

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

CC

#1#1

objetos atributo X atributo Y#1 1 1#2 1,5 1,5#3 5 5,5#4 6 7#5 1 3#6 1,5 3,5#7 5,5 1#8 6,5 2

Centro de gravidade 3,50 3,06

Page 9: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

Centros de gravidade dos clusters (centróides)

objetos atributo X atributo Y#1 1 1#2 1,5 1,5#3 5 5,5#4 6 7#5 1 3#6 1,5 3,5#7 5,5 1#8 6,5 2

Matriz de dadosMatriz de dados Centros de gravidade dos clusters (centróides)Centros de gravidade dos clusters (centróides)

CC

Abscissa do centróide C1 = (1 + 1,5 + 1 + 1,5) / 4 = 1,25Abscissa do centróide C1 = (1 + 1,5 + 1 + 1,5) / 4 = 1,25Ordenada do centróide C1 = (1 + 1,5 + 3 + 3,5) / 4 = 2,25Ordenada do centróide C1 = (1 + 1,5 + 3 + 3,5) / 4 = 2,25

Abscissa do centróide C2 = (5 + 6 + 5,5 + 6,5) / 4 = 5,75Abscissa do centróide C2 = (5 + 6 + 5,5 + 6,5) / 4 = 5,75Ordenada do centróide C2 = (5,5 + 7 + 1 + 2) / 4 = 3,88Ordenada do centróide C2 = (5,5 + 7 + 1 + 2) / 4 = 3,88

O centro de gravidade de um cluster é a média dos seus objetos:O centro de gravidade de um cluster é a média dos seus objetos:

CC22CC11

Page 10: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Inércia inter-cluster medida de separação dos clusters

Contribuição do cluster 1 para a inércia inter-cluster = Contribuição do cluster 1 para a inércia inter-cluster = 4x||C4x||C11 – C|| – C||22

4x[(1,25 - 3,50)4x[(1,25 - 3,50)22 + (2,25 - 3,06) + (2,25 - 3,06)22] = 22,89] = 22,89Contribuição do cluster 2 para a inércia inter-cluster = Contribuição do cluster 2 para a inércia inter-cluster = 4x||C4x||C22 – C|| – C||22

4x[(5,75 - 3,50)4x[(5,75 - 3,50)22 + (3,88 - 3,06) + (3,88 - 3,06)22] = 22,89] = 22,89

Inércia inter-cluster = 22,89 + 22,89 = 45,78Inércia inter-cluster = 22,89 + 22,89 = 45,78

É a soma dos quadrados das É a soma dos quadrados das distâncias dos centróides dos distâncias dos centróides dos clusters ao centro de gravidade da clusters ao centro de gravidade da nuvem de pontos, ponderadas nuvem de pontos, ponderadas pelos respectivos tamanhos dos pelos respectivos tamanhos dos clusters.clusters.

4x||C4x||C11 – C|| – C||22 + 4x||C + 4x||C22 – C|| – C||220

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

CC CC22

CC11

Centro de gravidade abscissa (X) ordenada (Y)cluster 1 (C1) 1,25 2,25cluster 2 (C2) 5,75 3,88nuvem de pontos (C) 3,50 3,06

Page 11: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Inércia intra-clustermedida de heterogeneidade interna dos clusters

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

cluster 1 atributo X atributo Y#1 1 1#2 1,5 1,5#5 1 3#6 1,5 3,5

Centro de gravidade C1 1,25 2,25

CC

Inércia intra-cluster = 4,5 + 25,44 = 29,94Inércia intra-cluster = 4,5 + 25,44 = 29,94

É a soma dos quadrados das É a soma dos quadrados das distâncias dos objetos aos distâncias dos objetos aos centróides dos clusters onde estão centróides dos clusters onde estão alocados.alocados.

CC22

CC11

#1#1#2#2

#5#5#6#6

||#1 - C||#1 - C11||||22 + ||#2 - C + ||#2 - C11||||22+ ||#5 - C+ ||#5 - C11||||2 2 + ||#6 - C+ ||#6 - C11||||22 = 4,5 = 4,5

#3#3#4#4

#7#7 #8#8

||#3 - C||#3 - C22||||22+||#4 - C+||#4 - C22||||22+||#7 - C+||#7 - C22||||2 2 +||#8 - C+||#8 - C22||||22 = 25,44 = 25,44

Contribuição do cluster 1 para a inércia intra-clusterContribuição do cluster 1 para a inércia intra-cluster

Contribuição do cluster 2 para a inércia intra-clusterContribuição do cluster 2 para a inércia intra-clustercluster 2 atributo X atributo Y

#3 5 5,5#4 6 7#7 5,5 1#8 6,5 2

Cntro de gravidade C2 5,75 3,88

Page 12: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Decomposição da inércia

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

CC CC22

CC11

#1#1#2#2

#5#5#6#6

#3#3#4#4

#7#7 #8#8

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

CC CC22

CC11

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

CC

Inércia intra-clusterInércia intra-cluster

Inércia inter-clusterInércia inter-cluster

Inércia totalInércia total

29,9429,94

45,7845,78

75,7275,72

Inércia total =Inércia total =Inércia intra-cluster + Inércia inter-clusterInércia intra-cluster + Inércia inter-cluster

Page 13: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

Há várias formas de dividir um conjunto em k clusters, a melhor é aquela que produz clusters mais homogêneos

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

Inércia Intra-cluster = 29,94Inércia Inter-cluster = 45,78Inércia Total = 75,72

Inércia Intra-cluster = 52,81Inércia Inter-cluster = 22,91Inércia Total = 75,72

Inércia Intra-cluster = 71,81Inércia Inter-cluster = 3,91Inérica Total = 75,72

Melhor solução Melhor solução com 2 clusterscom 2 clusters

2 clusters2 clusters

2 clusters2 clusters

Quanto menor a Quanto menor a inércia intra-cluster, inércia intra-cluster, mais homogêneos mais homogêneos são os clusters são os clusters formadosformados

Quanto maior a Quanto maior a inércia inter-cluster, inércia inter-cluster, maior é a separação maior é a separação dos clustersdos clusters

A inércia total A inércia total permanece constante e permanece constante e independe da forma independe da forma como os objetos são como os objetos são agrupadosagrupados

Page 14: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Inércias intra e inter variam com o número de clusters (k), porém a soma é constante e independe de k

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

Inércia Intra-cluster = 29,94Inércia Inter-cluster = 45,78Inércia Total = 75,72

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

Inércia Intra-cluster = 7,13Inércia Inter-cluster = 68,59Inércia Total = 75,72

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

Inércia Intra-cluster = 3,13Inércia Inter-cluster = 72,59Inérica Total = 75,72

2 clusters2 clusters

3 clusters3 clusters

4 clusters4 clusters

A inércia intra-cluster A inércia intra-cluster diminui a medida que diminui a medida que aumentamos o nº de aumentamos o nº de clustersclusters

A inércia inter-cluster A inércia inter-cluster aumenta a medida aumenta a medida que aumentamos o que aumentamos o nº de clustersnº de clusters

A inércia total A inércia total permanece constante permanece constante e independe do nº de e independe do nº de clustersclusters

Page 15: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Etapas da análise de agrupamentos

1) Seleção dos objetos a serem agrupados. (no caso da caracterização da carga são as curvas típicas dos dias úteis da amostra de clientes e redes)

2) Definição de um conjunto de variáveis que caracterizam os indivíduos.

(no caso da caracterização da carga são as demandas da curva de carga)

3) Seleção de uma medida de similaridade ou dissimilaridade entre objetos. (em geral é utilizada a distância euclidiana ou o seu quadrado)

4) Seleção de um algoritmo de agregação dos indivíduos. (há uma enorme variedade de métodos com esta finalidade)

5) Definição do nº de clusters ou tipologias.

6) Interpretação e validação dos clusters obtidos.

Page 16: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos de análise de agrupamentos

Métodos não hierárquicos: k-Means , Nuvens dinâmicas

Métodos hierárquicos: métodos de encadeamento (linkage methods) e Método de Ward

Procuram diretamente uma partição de N objetos em um número pré-definido de k clusters que satisfaçam duas premissas básicas: coesão interna e isolamento dos clusters.

O número de agrupamentos deve ser especificado a priori

Métodos não hierárquicos Métodos hierárquicos

Particionam um conjunto com N objetos seqüencialmente em 1,2,3,4 até N clusters, obtendo no final uma estrutura em árvore, semelhante as classificações zoológicas (espécies, gêneros, famílias, ordem, etc.).

Page 17: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

Divide um conjunto de n objetos em k clusters (k é dado de entrada), de tal forma que a heterogeneidade interna dos clusters seja minimizada.

Dado um conjunto de k centróides, cada objeto xi, i=1,n, é alocado ao cluster com o centróide cj mais próximo.

2

ji cx é o quadrado da distância do objeto xi ao centróide do cluster j

Demanda pontaDemanda pontaDe

ma

nd

a f

ora

de

po

nta

De

ma

nd

a f

ora

de

po

nta

xxi

ccj

2

ji cx Distância Distância entre os dois entre os dois pontospontos

Em cada cluster j, j=1,k, a heterogeneidade interna é avaliada pela seguinte soma de quadrados ou WSS(j):

j clusterx

2

ji

i

cxjWSS

Acumulando ao longo dos k clusters temos a inércia intra-cluster ou WSS:

k

1j j clusterx

2

ji

k

1j i

cxjWSSWSS

Page 18: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

Logo, para minimizar a heterogeneidade interna dos clusters devemos minimizar a inércia intra-cluster (WSS).

k

1j j clusterx

2

ji

i

cxWSS

Quanto menor WSS(j), menor é a heterogeneidade do j-ésimo cluster.

Dado que o objetivo é dividir o conjunto de n objetos em k clusters tal que a heterogeneidade interna dos clusters seja mínima, devemos identificar os k centróides cj , j=1,k , que minimizem a inércia intra-cluster (WSS).

Menor heterogeneidade Menor heterogeneidade interna dos clustersinterna dos clusters

Menor Inércia Intra-cluster (WSS)Menor Inércia Intra-cluster (WSS)

Page 19: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

Passo 1 Especifique um conjunto de k centróides iniciais cj , j=1,K (escolhidos ou gerados aleatoriamente com base na amostra).

Passo 2 Percorra a lista de objetos, calcule o quadrado da distância de cada objeto em relação ao centróide de cada cluster e aloque cada objeto ao cluster cujo centróide é o mais próximo.

Passo 3 Calcule o valor da inércia intra-cluster (WSS). Pare se o valor da função objetivo estiver abaixo de uma tolerância ou se a melhoria em relação a iteração anterior for desprezível.

Passo 4 Atualize os centróides calculando a média dos objetos em cada cluster e volte para o passo 2.

Algoritmo do Método K MeansAlgoritmo do Método K Means

jk todo para cxcx2

ki

2

ji objeto i classificado no cluster j se

O algoritmo deve continuar até o momento que não haja realocação de objetos de um cluster para outro

k

1j j clusterx

2

ji

i

cxWSS

Page 20: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

Lebart, L., Piron, M, Morineau, A. Statistique exploratoire multidimensionnelle, Dunod, 2000 Lebart, L., Piron, M, Morineau, A. Statistique exploratoire multidimensionnelle, Dunod, 2000

Page 21: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

Objetos Coordenadas

X1 X2

A 5 3

B -1 1

C 1 -2

D -3 -2

-3

-2

-1

0

1

2

3

4

-4 -3 -2 -1 0 1 2 3 4 5 6

X1

X2A

B

CD

ExemploExemplo

Dado o conjunto de 4 objetos (Dado o conjunto de 4 objetos (nn=4), use o algoritmo k-Means =4), use o algoritmo k-Means para identificar 2 clusters (para identificar 2 clusters (kk=2)=2)

Page 22: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

Centróides iniciais (seleção aleatória)Centróide Coordenadas dos centróides dos clusters

X1 X2

C1 2 2

C2 -1 -2

||A - C1||2 = (5-2)2 + (3-2)2 = 10

||A - C2||2 = (5+1)2 + (3+2)2 =61

||B - C1||2 =(-1-2)2 + (1-2)2 = 10||B - C2||2 =(-1+1)2 + (1+2)2 = 9

A Cluster com centróide C1

ExemploExemplo

Objetos Coordenadas

X1 X2

A 5 3

B -1 1

C 1 -2

D -3 -2

||C - C1||2 =(1-2)2 + (-2-2)2 = 5||C – C2||2 =(1+1)2 + (-2+2)2 = 4

||D - C1||2 =(-3-2)2 + (-2-2)2 = 39||D – C2||2 =(-3+1)2 + (-2+2)2 = 4

B Cluster com centróide C2

C Cluster com centróide C2

D Cluster com centróide C2

Lista de objetos

Alocação dos objetos aos clusters

Page 23: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

Clusters Coordenadas dos centros de gravidade

X1 X2

A 5 3

BCD -1 -1

-3

-2

-1

0

1

2

3

4

-4 -2 0 2 4 6

X1

X2A

B

CDcentro de gravidade

ExemploExemplo

Atualiza os Atualiza os centróidescentróides

Page 24: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

-3

-2

-1

0

1

2

3

4

-4 -2 0 2 4 6

X1

X2A

B

CD

ExemploExemplo

||A - C1||2 = (5-5)2 + (3-3)2 = 0

||A - C2||2 = (5+1)2 + (3+1)2 =61

||B - C1||2 =(-1-5)2 + (1-3)2 = 40||B - C2||2 =(-1+1)2 + (1+1)2 = 4

A Cluster com centróide C1

||C - C1||2 =(1-5)2 + (-2-3)2 = 39||C – C2||2 =(1+1)2 + (-2+1)2 = 5

||D - C1||2 =(-3-2)2 + (-2-2)2 = 41||D – C2||2 =(-3+1)2 + (-2+1)2 = 5

B Cluster com centróide C2

C Cluster com centróide C2

D Cluster com centróide C2

Alocação dos objetos aos clusters

C1C1

C2C2

Não houve realocação de objetos, Não houve realocação de objetos, portanto, o algoritmo convergiu e dois portanto, o algoritmo convergiu e dois clusters foram identificados: A e B,C,Dclusters foram identificados: A e B,C,D

Page 25: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-Means

Vantagens

Tendem a maximizar a dispersão entre os centros de gravidade dos clusters (clusters bem separados).

Simplicidade de cálculo, calcula somente as distâncias entre os objetos e os centros de gravidade dos clusters.

Desvantagens

A solução é dependente dos conjuntos de sementes iniciais, principalmente se a seleção das sementes é aleatória.

Não há garantias de um agrupamento ótimo dos objetos.

Page 26: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Exemplo: definição das metas de continuidade do fornecimento de energia elétrica com o K-Means

Formação dos clusters de conjuntos

semelhantespelo K-Means

Definição das metas de

DEC e FEC em cada cluster

Clusters Metas

Cerca de 6000 conjuntos de unidades consumidoras informados pelos sistema

GESTTOR/ANEEL

A Resolução ANEEL 024/2000: introduziu a análise comparativa (yardstick competition) dos desempenhos dos conjuntos de unidades consumidoras, como meio de definição das metas dos indicadores DEC e FEC.

A idéia é estabelecer metas diferenciadas que reconhecem a diversidade física e econômica das regiões atendidas pelas distribuidoras.

A análise comparativa e a definição das metas de continuidade está implementada no ANABENCH, um sistema computacional desenvolvido pelo CEPEL.

Atributos dos conjuntos: km de rede aérea primária – ERAP área do conjunto – AREA potência instalada – PNI número de consumidores - NUC consumo médio - CMM Isolado ou interligado

PESSANHA, J.F.M., CASTELLANI, V.L.O., HASSIN, E.S., CHEBERLE, LA.D. ANABENCH – Sistema Computacional para Estabelecimento de Metas de Continuidade, XVI Seminário Nacional de Distribuição de Energia Elétrica, Brasília, 2004.

Page 27: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

85,8

90,0

91,091,7

92,292,7

93,1

79,5

88,2

75

77,5

80

82,5

85

87,5

90

92,5

95

10 20 30 40 50 60 70 80 90

Número de clusters

SQ

Inte

r %

Inércia Inter-cluster (SQInter) para diferentes níveis de agregaçãoInércia Inter-cluster (SQInter) para diferentes níveis de agregação

A inércia inter-cluster cresce com o nº de clusters.A inércia inter-cluster cresce com o nº de clusters.

Quantos clusters devem ser formados ?Quantos clusters devem ser formados ?

Uma partição em 30 cluster é razoável, pois:Uma partição em 30 cluster é razoável, pois:

• concentra mais de 80% da inércia inter-cluster (SQInter)concentra mais de 80% da inércia inter-cluster (SQInter)

• a partir deste ponto o ganho de SQInter com a adição de a partir deste ponto o ganho de SQInter com a adição de mais clusters torna-se muito pequenomais clusters torna-se muito pequeno

Exemplo: definição das metas de continuidade do fornecimento de energia elétrica com o K-Means

Page 28: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos

Particionam um conjunto com N objetos seqüencialmente em 1,2,3,4 até N clusters, obtendo no final uma estrutura em árvore, semelhante as classificações zoológicas (reino, espécies, gêneros, famílias, ordem, etc.).

Produzem uma série de partições encaixadas: o grupo formado em um determinado passo corresponde a união de grupos formados em passos anteriores.

O resultado é apresentado na forma de uma árvore de classificação conhecidapor dendrograma

Dois tipos de procedimentos hierárquicosde agrupamento: aglomerativo e divisivo

objetosobjetos

dendrogramadendrograma

distânciadistânciaO O

dendograma dendograma mostra a mostra a

sequência de sequência de agregação dos agregação dos

objetosobjetos

Page 29: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos

Aglomerativo (método mais comum) No início cada objeto forma um cluster que sucessivamente sofre uma série de fusões com outros clusters até que no final todos os objetos estejam em um único agrupamento. Um cluster formado em uma dada interação corresponde a união de clusters formados em passos anteriores.

Divisivo No início há apenas um cluster formado pelo conjunto de objetos que é dividido sucessivamente até que no final cada cluster contenha apenas um objeto. Clusters formados em uma dada interação correspondem a fragmentação de um cluster formado no passo anterior.

Exemplo:Considere 5 veículos caracterizados pelos seguintes atributos: n° de portas, autonomia (km/l), preço, cilindrada, conforto, tamanho.

Page 30: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos divisivos

Page 31: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

Page 32: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: matriz de distância

Os métodos hierárquicos dependem de uma matriz de distância entre

os objetos.

npnn

p

p

xxx

xxx

xxx

X

21

22221

11211Matriz de dados Objeto 1

Objeto n

Variável 1 Variável p

0

0

0

21

221

112

nn

n

n

dd

dd

dd

D

Matriz de distãncias

Page 33: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: matriz de distância (Reis, 2001)

Empresasnº de lojas

dimensão média das lojas m2

% da área alimentar no

total das vendas

montante da área almentar no total de

caixa ($ 1000)

Modelo 42 830 95 12.000

Pingo Doce 33 1215 92 11.500

Feira Nova 1 6000 70 18.500

Supa / Jumbo 6 5675 63 21.400

Minipreço 31 288 98 870

Continente 4 885 65 23.100

Com o objetivo de encontrar grupos estratégicos, pretende-se aplicar a análise de agrupamentos a uma amostra de seis grandes empresas comerciais portuguesas, para as quais foram medidas as seguintes dimensões estratégicas:

X1 = nº de lojasX2 = dimensão média das lojas (m)X3 = % da área alimentar no total das vendasX4 = montante da área alimentar no total de caixa ($ 1000)

Matriz de dados

Page 34: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: matriz de distância (Reis, 2001)

j

jijij s

xxz

Valor padronizado da variável j na i-ésima empresa

Empresasnº de lojas

dimensão média das lojas m2

% da área alimentar no

total das vendas

montante da área almentar no total de caixa ($ 1000)

Modelo 1,26 -0,63 0,90 -0,31

Pingo Doce 0,76 -0,48 0,71 -0,37

Feira Nova -1,04 1,34 -0,65 0,48

Supa / Jumbo -0,76 1,22 -1,08 0,83

Minipreço 0,65 -0,84 1,08 -1,66

Continente -0,87 -0,61 -0,96 1,04

Dados padronizados

Variáveis em escalas diferentes padronização

Page 35: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: matriz de distância (Reis, 2001)

Empresasnº de lojas (X1)

dimensão média das lojas m2

(X2)

% da área alimentar no

total das vendas (X3)

montante da área almentar no total

de caixa (1000 contos) (X4)

Modelo (1) 1,26 -0,63 0,90 -0,31

Pingo Doce (2) 0,76 -0,48 0,71 -0,37

Feira Nova (3) -1,04 1,34 -0,65 0,48

Supa / Jumbo (4) -0,76 1,22 -1,08 0,83

Minipreço (5) 0,65 -0,84 1,08 -1,66

Continente (6) -0,87 -0,61 -0,96 1,04

3,037,031,071,09,048,063,076,026,1 222212 d

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

0 Feira Nova (3)

0 Supa / Jumbo (4)

0 Minipreço (5)

0 Continente (6)

D =

Page 36: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: matriz de distância (Reis, 2001)

Empresasnº de lojas (X1)

dimensão média das lojas m2

(X2)

% da área alimentar no

total das vendas (X3)

montante da área almentar no total

de caixa (1000 contos) (X4)

Modelo (1) 1,26 -0,63 0,90 -0,31

Pingo Doce (2) 0,76 -0,48 0,71 -0,37

Feira Nova (3) -1,04 1,34 -0,65 0,48

Supa / Jumbo (4) -0,76 1,22 -1,08 0,83

Minipreço (5) 0,65 -0,84 1,08 -1,66

Continente (6) -0,87 -0,61 -0,96 1,04

2,1248,031,065.09,034,163,004,126,1 222213 d

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 0 Feira Nova (3)

0 Supa / Jumbo (4)

0 Minipreço (5)

0 Continente (6)

D =

Page 37: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: matriz de distância (Reis, 2001)

Empresasnº de lojas (X1)

dimensão média das lojas m2

(X2)

% da área alimentar no

total das vendas (X3)

montante da área almentar no total

de caixa (1000 contos) (X4)

Modelo (1) 1,26 -0,63 0,90 -0,31

Pingo Doce (2) 0,76 -0,48 0,71 -0,37

Feira Nova (3) -1,04 1,34 -0,65 0,48

Supa/ Jumbo (4) -0,76 1,22 -1,08 0,83

Minipreço (5) 0,65 -0,84 1,08 -1,66

Continente (6) -0,87 -0,61 -0,96 1,04

7,1283,031,008.19,022,163,076,026,1 222214 d

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 0 Feira Nova (3)

12,7 0 Supa / Jumbo (4)

0 Minipreço (5)

0 Continente (6)

D =

Page 38: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: matriz de distância (Reis, 2001)

Empresasnº de lojas (X1)

dimensão média das lojas m2

(X2)

% da área alimentar no

total das vendas (X3)

montante da área almentar no total de caixa (1000 contos)

(X4)

Modelo (1) 1,26 -0,63 0,90 -0,31

Pingo Doce (2) 0,76 -0,48 0,71 -0,37

Feira Nova (3) -1,04 1,34 -0,65 0,48

Supa/ Jumbo (4) -0,76 1,22 -1,08 0,83

Minipreço (5) 0,65 -0,84 1,08 -1,66

Continente (6) -0,87 -0,61 -0,96 1,04

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 9,2 0 Feira Nova (3)

12,7 9,9 0,4 0 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Page 39: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

Vários métodos:

Encadeamento Simples ou vizinho mais próximo (Single linkage ou nearest neighbor)

Encadeamento Completo ou vizinho mais longe (Complete linkage ou furthest neighbor)

Encadeamento Médio (Average linkage)

Método de Ward (Ward´s method) MELHOR MÉTODO HIERÁRQUICO

Método do Centróide (Centroid method)

Todos estes métodos partem de uma matriz de distâncias entre os objetos.

Os métodos diferem na maneira de como calculam as distâncias entre os objetos e clusters.

Page 40: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

ObjetosObjetos

Qual o par de objetos mais Qual o par de objetos mais próximos, ou seja, próximos, ou seja, parecidos?parecidos?

É o par E,F, logo estes É o par E,F, logo estes objetos são os primeiros a objetos são os primeiros a serem agrupadosserem agrupados

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

AABB

CC

DD

EEFF

Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)

Solução inicial Solução inicial com 6 clusters, com 6 clusters, cada um com 1 cada um com 1

objetoobjeto

Page 41: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

Solução intermediária com 5 clusters.Solução intermediária com 5 clusters.

As distâncias passam a ser calculadas em As distâncias passam a ser calculadas em relação ao cluster e não mais em relação relação ao cluster e não mais em relação aos seus objetosaos seus objetos

Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

AABB

CC

DD

EEFF

Atualiza matriz de distânciasAtualiza matriz de distâncias

Qual o par de objetos mais Qual o par de objetos mais próximos?próximos?

É o par A,B, logo estes É o par A,B, logo estes objetos são os próximos a objetos são os próximos a serem agrupadosserem agrupados

Page 42: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

AABB

CC

DD

EEFF

Atualiza matriz de distânciasAtualiza matriz de distâncias

Qual o par de objetos mais Qual o par de objetos mais próximos?próximos?

É o par (E,F),D logo estes É o par (E,F),D logo estes objetos são os próximos a objetos são os próximos a serem agrupadosserem agrupados

Solução Solução intermediária com intermediária com

4 clusters4 clusters

Page 43: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

AABB

CC

DD

EEFF

Atualiza matriz de distânciasAtualiza matriz de distâncias

Qual o par de objetos mais Qual o par de objetos mais próximos?próximos?

É o par (E,F,D),C logo estes É o par (E,F,D),C logo estes objetos são os próximos a objetos são os próximos a serem agrupadosserem agrupados

Solução Solução intermediária com intermediária com

3 clusters3 clusters

Page 44: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

Matriz de distâncias entre os clustersMatriz de distâncias entre os clusters(matriz simétrica)(matriz simétrica)

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

AABB

CC

DD

EEFF

Atualiza matriz de distânciasAtualiza matriz de distâncias

O próximo passo seria agrupar O próximo passo seria agrupar todos os objetos em um único todos os objetos em um único cluster (solução trivial).cluster (solução trivial).

27,35 é a distância entre os dois 27,35 é a distância entre os dois clustersclusters

Solução Solução intermediária com intermediária com

2 clusters2 clusters

Page 45: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

6 objetos = 6 clusters 5 clusters 4 clusters

1 cluster

Matriz de distâncias 6x6Menor distância = 0,5

Matriz de distâncias 5x5Menor distância = 1

Matriz de distâncias 4x4Menor distância = 2,667

2 clusters

Matriz de distâncias 2x2Menor distância = 27,35

3 clusters

Matriz de distâncias 3x3Menor distância = 3,02

A cada iteração o número de clusters diminui de uma unidade e os novos agrupamentos tornam-se mais heterogêneos internamente.

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

Page 46: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: dendrograma

A sequência das agregações e as distâncias em que elas ocorrem são descritas no dendrograma, um gráfico útil na definição do número de agrupamentos.

Melhor solução Melhor solução tem 2 clusters:tem 2 clusters:• Cluster ABCluster AB• Cluster CDEFCluster CDEF

Page 47: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos aglomerativos

1) Inicie com N clusters, cada um contendo apenas um objeto e construa a matriz de distâncias de ordem N.

2) Identifique o menor elemento da matriz de distâncias para encontrar o par de clusters mais similares.

3) Reúna os dois clusters identificados na etapa 2 em um único cluster e atualiza a matriz de distâncias, retirando as linhas e colunas relativas aos dois clusters identificados em 2 e incluindo a linha e coluna com as distâncias entre os demais clusters e o novo cluster formado. Note que a ordem da matriz de distâncias diminui de uma unidade a cada vez que a etapa 3 é executada

4) Repita os passos 2 e 3 até que reste apenas um cluster. A cada iteração guarde a identificação dos clusters que foram fundidos e também a distância entre eles, estas informações serão utilizadas na montagem do dendrograma.

AlgoritmoAlgoritmo

Page 48: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Em qualquer estágio, a fusão de dois clusters baseia-se na menor distância individual entre os seus elementos.

Utiliza a distância mínima entre dois objetos para definir a distância entre dois clusters.

Quando os objetos estão pobremente estruturados, o single linkage pode reunir em um cluster elementos bastante diferentes, desde que haja entre eles uma cadeia de outros elementos que sejam semelhantes entre si (efeito de cadeia).

AABB

Exemplo de como a ligação individual Exemplo de como a ligação individual pode agregar pontos distintos A e Bpode agregar pontos distintos A e B

Tende a concentrar a maior parte dos objetos em um pequeno número de clusters e formar muitos clusters com poucos objetos.

Métodos hierárquicos: encadeamento simples (single linkage)

Page 49: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Menor distância = d12 = 0,3 entre Modelo e Pingo Doce

5 clusters

ModeloPingo Doce

Feira Nova

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 9,2 0 Feira Nova (3)

12,7 9,9 0,4 0 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Continente

Supa/Jumbo

Minipreço

1ª iteração

Exemplo encadeamento simples (Reis, 2001)

Page 50: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ModeloPingo Doce

Feira Nova

Continente

Supa/Jumbo

Minipreço

Qual a distância entre Feira Nova e o cluster Modelo/Pingo Doce ?d12,3 = ?

d13 = 12,2

d23 = 9,2

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 9,2 0 Feira Nova (3)

12,7 9,9 0,4 0 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Pelo encademaneto simples = d12,3 = min(12,2 ; 9,2) = 9,2

Atualização da matriz de distâncias

Exemplo encadeamento simples (Reis, 2001)

Page 51: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Modelo (1) Pingo Doce (2)Feira Nova

(3)Supa / Jumbo

(4)Minipreço (5) Continente (6)

0 0,3 12,2 12,7 2,3 9,8 Modelo (1)

0,3 0 9,2 9,9 1,9 7,4 Pingo Doce (2)

12,2 9,2 0 0,4 15,2 4,3 Feira Nova (3)

12,7 9,9 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 13,8 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 9,2 9.9 1,9 7,4 Modelo, Pingo Doce (1,2)

9,2 0 0,4 15,2 4,3 Feira Nova (3)

9.9 0,4 0 17,1 3,4 Supa / Jumbo (4)

1,9 15,2 17,1 0 13,8 Minipreço (5)

7,4 4,3 3,4 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento simples (Reis, 2001)

Page 52: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Pingo Doce

Modelo (1,2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço

(5)Continente (6)

0 Modelo, Pingo Doce (1,2)

9,2 0 Feira Nova (3)

9.9 0,4 0 Supa / Jumbo (4)

1,9 15,2 17,1 0 Minipreço (5)

7,4 4,3 3,4 13,8 0 Continente (6)

D =

Menor distância = d34 = 0,4 entre Feira Nova e Supa/Jumbo

4 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

2ª iteração

Exemplo encadeamento simples (Reis, 2001)

Page 53: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

Pingo Doce

Modelo (1,2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço

(5)Continente (6)

0 Modelo, Pingo Doce (1,2)

9,2 0 Feira Nova (3)

9.9 0,4 0 Supa / Jumbo (4)

1,9 15,2 17,1 0 Minipreço (5)

7,4 4,3 3,4 13,8 0 Continente (6)

D =

d12,3 = 9,2

d12,4=9,9

Qual a distância entre os clusters Feira Nova/Supa/Jumbo e Modelo/Pingo Doce ?d12,34 = ?

Pelo encademaneto simples = d12,34 = min(9,2 ; 9,9) = 9,2

Atualização da matriz de distâncias

Exemplo encadeamento simples (Reis, 2001)

Page 54: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 9,2 9.9 1,9 7,4 Modelo, Pingo Doce (1,2)

9,2 0 0,4 15,2 4,3 Feira Nova (3)

9.9 0,4 0 17,1 3,4 Supa / Jumbo (4)

1,9 15,2 17,1 0 13,8 Minipreço (5)

7,4 4,3 3,4 13,8 0 Continente (6)

D =

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente (6)

0 9,2 1,9 7,4 Modelo, Pingo Doce (1,2)

9,2 0 15,2 3,4 Feira Nova, Supa/Jumbo (3,4)

1,9 15,2 0 13,8 Minipreço (5)

7,4 3,4 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento simples (Reis, 2001)

Page 55: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente

(6)

0 Modelo, Pingo Doce (1,2)

9,2 0 Feira Nova, Supa/Jumbo (3,4)

1,9 15,2 0 Minipreço (5)

7,4 3,4 13,8 0 Continente (6)

D =

Menor distância = d12,5 = 1,9 entre Minipreço e o cluster Modelo/Pingo Doce

3 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

3ª iteração

Exemplo encadeamento simples (Reis, 2001)

Page 56: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente (6)

0 9,2 1,9 7,4 Modelo, Pingo Doce (1,2)

9,2 0 15,2 3,4 Feira Nova, Supa/Jumbo (3,4)

1,9 15,2 0 13,8 Minipreço (5)

7,4 3,4 13,8 0 Continente (6)

D =

Minipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 9,2 7,4 Modelo, Pingo Doce, Minipreço (1,2,5)

9,2 0 3,4 Feira Nova, Supa/Jumbo (3,4)

7,4 3,4 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento simples (Reis, 2001)

Page 57: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Minipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 Modelo, Pingo Doce, Minipreço (1,2,5)

9,2 0 Feira Nova, Supa/Jumbo (3,4)

7,4 3,4 0 Continente (6)

D =

Menor distância = d34,6 = 3,4 entre Continente e o cluster Feira Nova/Supa/Jumbo

2 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

4ª iteração

Exemplo encadeamento simples (Reis, 2001)

Page 58: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Minipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 9,2 7,4 Modelo, Pingo Doce, Minipreço (1,2,5)

9,2 0 3,4 Feira Nova, Supa/Jumbo (3,4)

7,4 3,4 0 Continente (6)

D =

Minipreço Continente

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4,6)

0 7,4 Modelo, Pingo Doce, Minipreço (1,2,5)

7,4 0 Feira Nova, Supa/Jumbo, Continente (3,4,6)D =

Atualização da matriz de distâncias

Exemplo encadeamento simples (Reis, 2001)

Page 59: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Passo Distâncias Nº de clusters Clusters

1 d1.2 = 0,3 5 12 / 3 / 4 / 5 / 6

2 d3,4 = 0,4 4 12 / 34 / 5 / 6

3 d12,,5 = 1,9 3 125 / 34 / 6

4 d34,,6 = 3,4 2 125 / 346

5 d125,,346 = 7,4 1 123456

Processo de agrupamento das seis empresas segundo o critério do encadeamento simples

Exemplo encadeamento simples (Reis, 2001)

Page 60: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

A distância entre dois clusters é definida pela maior distância entre dois objetos, um em cada cluster.

Elimina a possibilidade do efeito de encadeamento.

MaisMais próximpróximoo Ligação Ligação

IndividualIndividualLigação Ligação CompletaCompleta

Mais Mais LongLongee

Métodos hierárquicos: encadeamento completo (complete linkage)

Page 61: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Menor distância = d12 = 0,3 entre Modelo e Pingo Doce

5 clusters

ModeloPingo Doce

Feira Nova

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 9,2 0 Feira Nova (3)

12,7 9,9 0,4 0 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Continente

Supa/Jumbo

Minipreço

1ª iteração

Exemplo encadeamento completo (Reis, 2001)

Page 62: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ModeloPingo Doce

Feira Nova

Continente

Supa/Jumbo

Minipreço

Qual a distância entre Feira Nova e o cluster Modelo/Pingo Doce ?d12,3 = ?

d13 = 12,2

d23 = 9,2

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 9,2 0 Feira Nova (3)

12,7 9,9 0,4 0 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Pelo encadeamento completo = d12,3 = max(12,2 ; 9,2) = 12,2

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 63: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Modelo (1) Pingo Doce (2)Feira Nova

(3)Supa / Jumbo

(4)Minipreço (5) Continente (6)

0 0,3 12,2 12,7 2,3 9,8 Modelo (1)

0,3 0 9,2 9,9 1,9 7,4 Pingo Doce (2)

12,2 9,2 0 0,4 15,2 4,3 Feira Nova (3)

12,7 9,9 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 13,8 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 12,2 12,7 2,3 9,8 Modelo, Pingo Doce (1,2)

12,2 0 0,4 15,2 4,3 Feira Nova (3)

12,7 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,3 15,2 17,1 0 13,8 Minipreço (5)

9,8 4,3 3,4 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 64: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo, Pingo Doce (1,2)

12,2 0 Feira Nova (3)

12,7 0,4 0 Supa / Jumbo (4)

2,3 15,2 17,1 0 Minipreço (5)

9,8 4,3 3,4 13,8 0 Continente (6)

D =

Menor distância = d34 = 0,4 entre Feira Nova e Supa/Jumbo

4 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

2ª iteração

Exemplo encadeamento completo (Reis, 2001)

Page 65: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

d12,3 = 12,2

d12,4=12,7

Qual a distância entre os clusters Feira Nova/Supa/Jumbo e Modelo/Pingo Doce ?d12,34 = ?

Pelo encadeamento completo = d12,34 = max(12,2 ; 12,7) = 12,7

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo, Pingo Doce (1,2)

12,2 0 Feira Nova (3)

12,7 0,4 0 Supa / Jumbo (4)

2,3 15,2 17,1 0 Minipreço (5)

9,8 4,3 3,4 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 66: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 12,2 12,7 2,3 9,8 Modelo, Pingo Doce (1,2)

12,2 0 0,4 15,2 4,3 Feira Nova (3)

12,7 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,3 15,2 17,1 0 13,8 Minipreço (5)

9,8 4,3 3,4 13,8 0 Continente (6)

D =

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente (6)

0 12,7 2,3 9,8 Modelo, Pingo Doce (1,2)

12,7 0 17,1 4,3 Feira Nova, Supa/Jumbo (3,4)

2,3 17,1 0 13,8 Minipreço (5)

9,8 4,3 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 67: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente (6)

0 Modelo, Pingo Doce (1,2)

12,7 0 Feira Nova, Supa/Jumbo (3,4)

2,3 17,1 0 Minipreço (5)

9,8 4,3 13,8 0 Continente (6)

D =

Menor distância = d12,5 = 2,3 entre Minipreço e o cluster Modelo/Pingo Doce

3 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

3ª iteração

Exemplo encadeamento completo (Reis, 2001)

Page 68: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

AtualizaçãoMinipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 17,1 13,8 Modelo, Pingo Doce, Minipreço (1,2,5)

17,1 0 4,3 Feira Nova, Supa/Jumbo (3,4)

13,8 4,3 0 Continente (6)

D =

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente (6)

0 12,7 2,3 9,8 Modelo, Pingo Doce (1,2)

12,7 0 17,1 4,3 Feira Nova, Supa/Jumbo (3,4)

2,3 17,1 0 13,8 Minipreço (5)

9,8 4,3 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 69: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Minipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 17,1 13,8 Modelo, Pingo Doce, Minipreço (1,2,5)

17,1 0 4,3 Feira Nova, Supa/Jumbo (3,4)

13,8 4,3 0 Continente (6)

D =

Menor distância = d34,6 = 3,4 entre Continente e o cluster Feira Nova/Supa/Jumbo

2 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

4ª iteração

Exemplo encadeamento completo (Reis, 2001)

Page 70: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Minipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 17,1 13,8 Modelo, Pingo Doce, Minipreço (1,2,5)

17,1 0 4,3 Feira Nova, Supa/Jumbo (3,4)

13,8 4,3 0 Continente (6)

D =

Minipreço Continente

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4,6)

0 17,1 Modelo, Pingo Doce, Minipreço (1,2,5)

17,1 0 Feira Nova, Supa/Jumbo, Continente (3,4,6)D =

Atualização

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 71: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Passo Distâncias Nº de clusters Clusters

1 d1.2 = 0,3 5 12 / 3 / 4 / 5 / 6

2 d3,4 = 0,4 4 12 / 34 / 5 / 6

3 d12,,5 = 2,3 3 125 / 34 / 6

4 d34,,6 = 4,3 2 125 / 346

5 d125,,346 =17,1 1 123456

Processo de agrupamento das seis empresas segundo o critério do encadeamento completo

Exemplo encadeamento completo (Reis, 2001)

Page 72: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

A distância entre dois clusters é definida como a média das distância entre os elementos dos dois grupos.

Tende a enviesar em direção à produção de grupos com aproximadamente a mesma variância

Métodos hierárquicos: encadeamento médio (average linkage)

Page 73: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Menor distância = d12 = 0,3 entre Modelo e Pingo Doce

5 clusters

ModeloPingo Doce

Feira Nova

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 9,2 0 Feira Nova (3)

12,7 9,9 0,4 0 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Continente

Supa/Jumbo

Minipreço

1ª iteração

Exemplo encadeamento médio (Reis, 2001)

Page 74: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ModeloPingo Doce

Feira Nova

Continente

Supa/Jumbo

Minipreço

Qual a distância entre Feira Nova e o cluster Modelo/Pingo Doce ?d12,3 = ?

d13 = 12,2

d23 = 9,2

Modelo (1)Pingo Doce

(2)Feira Nova

(3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 Modelo (1)

0,3 0 Pingo Doce (2)

12,2 9,2 0 Feira Nova (3)

12,7 9,9 0,4 0 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Pelo encadeamento médio = d12,3 = média(12,2 ; 9,2) = 10,7

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 75: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Modelo (1) Pingo Doce (2)Feira Nova

(3)Supa / Jumbo

(4)Minipreço (5) Continente (6)

0 0,3 12,2 12,7 2,3 9,8 Modelo (1)

0,3 0 9,2 9,9 1,9 7,4 Pingo Doce (2)

12,2 9,2 0 0,4 15,2 4,3 Feira Nova (3)

12,7 9,9 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,3 1,9 15,2 17,1 0 13,8 Minipreço (5)

9,8 7,4 4,3 3,4 13,8 0 Continente (6)

D =

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 10,7 11,3 2,1 8,6 Modelo, Pingo Doce (1,2)

10,7 0 0,4 15,2 4,3 Feira Nova (3)

11,3 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,1 15,2 17,1 0 13,8 Minipreço (5)

8,6 4,3 3,4 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 76: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Menor distância = d34 = 0,4 entre Feira Nova e Supa/Jumbo

4 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 10,7 11,3 2,1 8,6 Modelo, Pingo Doce (1,2)

10,7 0 0,4 15,2 4,3 Feira Nova (3)

11,3 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,1 15,2 17,1 0 13,8 Minipreço (5)

8,6 4,3 3,4 13,8 0 Continente (6)

D =

2ª iteração

Exemplo encadeamento completo (Reis, 2001)

Page 77: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

d12,3 = 10,7

d12,4=11,3

Qual a distância entre os clusters Feira Nova/Supa/Jumbo e Modelo/Pingo Doce ?d12,34 = ? Pelo encadeamento médio = d12,34 = média(10,7 ; 11,3) = 11

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 10,7 11,3 2,1 8,6 Modelo, Pingo Doce (1,2)

10,7 0 0,4 15,2 4,3 Feira Nova (3)

11,3 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,1 15,2 17,1 0 13,8 Minipreço (5)

8,6 4,3 3,4 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 78: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Pingo Doce

Modelo (1,2) Feira Nova (3)Supa /

Jumbo (4)Minipreço (5) Continente (6)

0 10,7 11,3 2,1 8,6 Modelo, Pingo Doce (1,2)

10,7 0 0,4 15,2 4,3 Feira Nova (3)

11,3 0,4 0 17,1 3,4 Supa / Jumbo (4)

2,1 15,2 17,1 0 13,8 Minipreço (5)

8,6 4,3 3,4 13,8 0 Continente (6)

D =

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente (6)

0 11 2,1 8,6 Modelo, Pingo Doce (1,2)

11 0 16,15 3,85 Feira Nova, Supa/Jumbo (3,4)

2,1 16,15 0 13,8 Minipreço (5)

8,6 3,85 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 79: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Menor distância = d12,5 = 2,1 entre Minipreço e o cluster Modelo/Pingo Doce

3 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente (6)

0 11 2,1 8,6 Modelo, Pingo Doce (1,2)

11 0 16,15 3,85 Feira Nova, Supa/Jumbo (3,4)

2,1 16,15 0 13,8 Minipreço (5)

8,6 3,85 13,8 0 Continente (6)

D =

3ª iteração

Exemplo encadeamento completo (Reis, 2001)

Page 80: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

AtualizaçãoMinipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 12,7 10,3 Modelo, Pingo Doce, Minipreço (1,2,5)

12,7 0 3,85 Feira Nova, Supa/Jumbo (3,4)

10,3 3,85 0 Continente (6)

D =

Pingo Doce Supa / Jumbo

Modelo (1,2)Feira Nova

(3,4)Minipreço

(5)Continente (6)

0 11 2,1 8,6 Modelo, Pingo Doce (1,2)

11 0 16,15 3,85 Feira Nova, Supa/Jumbo (3,4)

2,1 16,15 0 13,8 Minipreço (5)

8,6 3,85 13,8 0 Continente (6)

D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 81: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Menor distância = d34,6 = 3,85 entre Continente e o cluster Feira Nova/Supa/Jumbo

2 clusters

ModeloPingo Doce

Continente

Feira Nova

Supa/Jumbo

Minipreço

Minipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 12,7 10,3 Modelo, Pingo Doce, Minipreço (1,2,5)

12,7 0 3,85 Feira Nova, Supa/Jumbo (3,4)

10,3 3,85 0 Continente (6)

D =

4ª iteração

Exemplo encadeamento completo (Reis, 2001)

Page 82: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Atualização

Minipreço

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4)

Continente (6)

0 12,7 10,3 Modelo, Pingo Doce, Minipreço (1,2,5)

12,7 0 3,85 Feira Nova, Supa/Jumbo (3,4)

10,3 3,85 0 Continente (6)

D =

Minipreço Continente

Pingo Doce Supa / JumboModelo (1,2,5)

Feira Nova (3,4,6)

0 11.5 Modelo, Pingo Doce, Minipreço (1,2,5)

11.5 0 Feira Nova, Supa/Jumbo, Continente (3,4,6)D =

Atualização da matriz de distâncias

Exemplo encadeamento completo (Reis, 2001)

Page 83: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Passo Distâncias Nº de clusters Clusters

1 d1.2 = 0,3 5 12 / 3 / 4 / 5 / 6

2 d3,4 = 0,4 4 12 / 34 / 5 / 6

3 d12,,5 = 2,1 3 125 / 34 / 6

4 d34,,6 = 3,85 2 125 / 346

5 d125,,346 =11.5 1 123456

Processo de agrupamento das seis empresas segundo o critério do encadeamento médio

Exemplo encadeamento completo (Reis, 2001)

Page 84: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: Método de Ward

A cada iteração de um método hierárquico aglomerativo o número de clusters diminui de uma unidade.

Os novos agrupamentos formados agregam mais elementos diferentes e por isso tornam-se mais heterogêneos internamente

Durante a aglomeração dos clusters, a perda de qualidade da partição é inexorável.

O método de Ward atenua este efeito do processo de aglomeração, minimizando, a cada iteração, o incremento na heterogeneidade interna dos clusters.

Page 85: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: Método de Ward

Inicialmente, cada cluster é composto por apenas um objeto (N clusters).a inércia intra-cluster é nula e a inércia inter-cluster é igual a inércia total.

No final do processo de aglomeração, todos os objetos são agrupados em um único cluster. a inércia inter-cluster é nula e a inércia intra-cluster é igual a inércia total.

A cada iteração, a fusão de dois clusters transfere uma parcela da inércia inter-cluster para a inércia intra-cluster, aumentando a heterogeneidade interna dos agrupamentos, deteriorando a qualidade da partição:

O método de Ward agrupa os dois cluster que minimizam esta parcela .

2

,2

, jijjii GGjGGi dndn

Parcela resultante da agregação dos cluster i e jGij é o centro de gravidade da fusão dos clusters i e j

Inércia intra-cluster Inércia inter-clusterInércia intra-cluster Inércia inter-cluster

Page 86: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicos: Método de Ward

Para minimizar o incremento da inércia intra cluster a cada interação, o método de Ward trabalha com a seguinte métrica na matriz de distâncias.

ni = nº de elementos do cluster inj = nº de elementos do cluster jGi = centro de gravidade do cluster iGj = centro de gravidade do cluster jd2(Gi,Gj) = quadrado da distância euclidiana entre Gi e Gj

jiji

jiij GGd

nn

nnd ,2

Page 87: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

DadosMatriz de distâncias

25,95,415,3111

11, 222

CACA

CAAC GGd

nn

nnd

Exemplo

Métodos hierárquicos: Método de Ward

Page 88: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Matriz de distâncias

167,241515,512

12, 222

,

AEFAEF

AEFAEF GGd

nn

nnd

Exemplo: 1ª iteração

Menor distância entre E e FForme cluster EFCentro de gravidade do cluster EF

Atualiza matriz

5;5,52

;2

FEFE

EF

yyxxG

Métodos hierárquicos: Método de Ward

Page 89: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Matriz de distâncias

250,285,155,15,522

22, 222

,

ABEFABEF

ABEFABEF GGd

nn

nnd

Exemplo: 2ª iteração

Menor distância entre A e BForme cluster ABCentro de gravidade do cluster AB

Atualiza matriz

5,1;5,12

;2

BABA

AB

yyxxG

Métodos hierárquicos: Método de Ward

Page 90: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Matriz de distâncias

02,35,433,45,35,513

13, 222

,

CEFDCEFD

CEFDCEFD GGd

nn

nnd

Exemplo: 3ª iteração

Menor distância entre EF e DForme cluster EFDCentro de gravidade do cluster EFD

Atualiza matriz

33,4;5,53

;3

DFEDFE

EFD

yyyxxxG

Métodos hierárquicos: Método de Ward

Page 91: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Matriz de distâncias

35,275,1375,45,1524

24, 222

,

ABEFDCABEFDC

ABEFDCABEFDC GGd

nn

nnd

Exemplo: 4ª iteração

Menor distância entre EFD e CForme cluster EFDCCentro de gravidade do cluster EFDC

Atualiza matriz

375,4;54

;4

CDFECDFE

EFDC

yyyyxxxxG

Métodos hierárquicos: Método de Ward

Page 92: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Vantagens:Vantagens: Rápidos e exigem menos tempo de processamento.

Apresentam resultados para diferentes níveis de agregação.

Desvantagens:Desvantagens: A alocação de um objeto em um cluster é irrevogável, ou seja, uma vez o objeto incluído em um cluster, ele nunca será removido e ligado a outro agrupamento. Combinações anteriores indesejáveis persistem no decorrer da análise e levam a resultados artificiais. Não existe a possibilidade de realocação de objetos que possam ter sido incorretamente agrupados nos estágios anteiores.

Impacto substancial dos outliers.

Não são apropriados para analisar uma amostra muita extensa, pois a medida que o tamanho da amostra aumenta, a necessidade de armazenamento da matris de distâncias cresce drasticamente.

Métodos hierárquicos

Page 93: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos Hierárquicos são preferidos quando: Serão analisadas varias alternativas de agrupamento. O tamanho da amostra é moderado ( de 300 a 1000 objetos )

Métodos não-hierárquicos são preferidos quando: O número de grupos é conhecido. Presença dos outliers, desde que os métodos não-hierárquicos são

menos influenciados por outliers. Há um grande nº de objetos a serem agrupados.

Métodos hierárquicos x Métodos não hierárquicos

Page 94: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Método nãoHierárquico

dados

MétodoHierárquico

clusters

Perfis médios em cada clusters

MétodoHierárquico

dados

Método nãoHierárquico

clusters

Estabelece o nº de clusters e os centróides iniciais (perfis médios em cada cluster)

Aproveita as vantagens dos métodos hierárquicos e não hierárquicos.

Uso combinado de métodos hierárquico e não hierárquico

Page 95: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Quantos clusters devem ser formados ?

Não há um procedimento padrão e objetivo para determinar o “correto” número de agrupamentos.

1) O exame do dendrograma em busca de grandes alterações dos níveis de similaridade para as sucessivas fusões (só é possível nos métodos hierárquicos).

2) Análise gráfica das tipologias

3) Selecionar o número de clusters com base em um critério “a priori”, avaliação prática, senso comum e fundamentos teóricos. Por exemplo, o programa de revisão tarifária (PRT -1994) recomendava 8 tipologias

4) Escolher o menor número de clusters que satisfaça a desigualdade: inércia inter / inércia total 0,7

5) Escolher o número de cluster que minimize o coeficiente de compacidade e separação (CS)

     BRASIL, Ministério das Minas e Energia, Secretaria de Energia, DNAEE; Programa de Revisão Tarifária - PRT, Projeto 1 - Caracterização da Carga, Dezembro de 1994.

2_2__min_º centróidesentredistânciaobjetosdenSQIntraCS

Page 96: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Análise de agrupamentos no SPSSAnálise de agrupamentos no SPSS

Page 97: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Exemplo: (Fávero et al, 2009)Exemplo: (Fávero et al, 2009)

Imagine que um analista de mercado está interessado em Imagine que um analista de mercado está interessado em segmentar um conjunto de empresas que atuam no setor de segmentar um conjunto de empresas que atuam no setor de siderúrgia e metalurgia, com base em informações siderúrgia e metalurgia, com base em informações financeiras publicadas.financeiras publicadas.

Foram selecionadas 25 empresas que atuam nestes setores.Foram selecionadas 25 empresas que atuam nestes setores.

Os dados foram obtidos na revista exame – Melhores e Os dados foram obtidos na revista exame – Melhores e Maiores de 2005.Maiores de 2005.

Foram escolhidos quatro indicadores: Faturamento (US$ Foram escolhidos quatro indicadores: Faturamento (US$ milhões), Rentabilidade do patrimônio líquido (%), milhões), Rentabilidade do patrimônio líquido (%), Endividamento geral da empresa (%) e número de Endividamento geral da empresa (%) e número de empregados.empregados.

Page 98: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Base de dadosBase de dados

Page 99: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Métodos hierárquicosMétodos hierárquicos

Page 100: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Escolha a opção Analyze/Classify/Hierarchical clusterEscolha a opção Analyze/Classify/Hierarchical cluster

Page 101: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Selecione as variáveisSelecione as variáveis

Page 102: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Selecione as outras opçõesSelecione as outras opções

Page 103: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ResultadosResultados

Um critério para Um critério para identificação do número identificação do número de clusters:de clusters:

Maior diferença (salto).Maior diferença (salto).O estágio anterior ao O estágio anterior ao salto indica o ponto de salto indica o ponto de parada para novos parada para novos agrupamentos.agrupamentos.No caso a maior No caso a maior diferença está entre 23 e diferença está entre 23 e 24, o que sugere a 24, o que sugere a escolha de dois clustersescolha de dois clusters

Page 104: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ResultadosResultados

Page 105: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ResultadosResultados

cluster membership com soluções de 3 clusters salvos na planilha com

dados originais:variáveis clu3_1

clu i_ j = cluster membership na solução com i clusters na j-ésima execução de algum método hierárquico

Page 106: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

K-MeansK-Means

Page 107: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Escolha a opção Analyze/Classify/K-Means Escolha a opção Analyze/Classify/K-Means

Page 108: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Selecione as variáveisSelecione as variáveis

Page 109: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Selecione as variáveisSelecione as variáveis

Page 110: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ResultadosResultados

Page 111: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ResultadosResultados

As variáveis faturamento e empregados foram as que mais As variáveis faturamento e empregados foram as que mais discriminaram os gruposdiscriminaram os grupos

Page 112: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

ResultadosResultados

cluster membership com soluções de 3 clusters salvos na

planilha com dados originais:

variáveis qcl_1

qcl i_ j = cluster membership na solução com i clusters na j-ésima execução de algum método hierárquico

Page 113: Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Análise de agrupamentos

Bibliografia

CORRAR, L.J.; PAULO, E.; DIAS FILHO, J.M. (coordenadores) Análise Multivariada para os cursos de administração, ciências contábeis e esconomia, Editora Atlas, São Paulo, 2007.

FÁVERO, L.P.; BELFIORE, P.; SILVA, F.L.; CHAN, B.L. Análise de dados: modelagem multivariada para tomada de decisões, Campus, Rio de Janeiro, 2009.

HAIR, J.F.; ANDERSON, R.E.; TATHAM R.L.; BLACK W.O. Análise Multivariada de Dados, Bookman, 2005.

JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 5th edition, Prentice Hall, New Jersey, 2002.

LEBART, L.; MORINEAU, A.; PIRON, M. Statistique Exploratoira Multidimensionnelle, 3e édition, Dunod, Paris, 2004.

MINGOTI, S.A. Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada, Editora UFMG, Belo Horizonte, 2005.

REIS, E. Estatística multivariada aplicada, 2ª edição, Edições Sílabo, Lisboa, 2001.