7
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação DENCLUE – DENsity based CLUstEring Ivani de O. N. Lopes Seminário apresentado como parte das avaliações da disciplina Análise de Agrupamento de Dados, ministrada pelo prof. Dr. Ricardo Campello São Carlos – SP Novembro 2010 Resumo da apresentação Introdução e contextualização Conceito Função de Influência e densidade estimada por kernels O algoritmo Ilustração unidimensional DENCLUE Algoritmo 2 Algoritmo Implementação eficiente: passo a passo com exemplo Discussão dos parâmetro Considerações finais Referências bibliográficas Anexos Introdução e contextualização Fonte: Hinneburg and D. Keim (1998) PROPOSTA Ser eficiente e efetivo em bases de dados multimídia, com forte presença de ruídos. Pressuposições Pressuposições Clusters são regiões de alta densidade no espaço de dados, A influência de um objeto em sua vizinhança pode ser modelada matematicamente por uma função de influência, A densidade de um objeto é a soma das influências dele e de seus vizinhos. 3 Função de Influência e densidade Estimada por Kernels Idéia A influência de um objeto é modelada por um kernel Densidade é a soma de todos os kernels Adaptado de Hinneburg e Hans-Henning: http://videolectures.net/ida07_hinneburg_dfc/ Estimativa de Densidade Função de influência: Kernel Gaussiano 4

Resumo da apresentação Universidade de São Paulowiki.icmc.usp.br/images/e/e9/DENCLUE_IvaniLopes.pdfResumo da Etapa 2 do algoritmo DENCLUE 25 Resumo da Etapa 2 do algoritmo DENCLUE

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Resumo da apresentação Universidade de São Paulowiki.icmc.usp.br/images/e/e9/DENCLUE_IvaniLopes.pdfResumo da Etapa 2 do algoritmo DENCLUE 25 Resumo da Etapa 2 do algoritmo DENCLUE

Universidade de São PauloInstituto de Ciências Matemáticas e de Computação

DENCLUE – DENsity based CLUstEringIvani de O. N. Lopes

Seminário apresentado como parte das

avaliações da disciplina Análise de

Agrupamento de Dados, ministrada pelo

prof. Dr. Ricardo Campello

São Carlos – SPNovembro 2010

Resumo da apresentação

�Introdução e contextualização�Conceito

• Função de Influência e densidade estimada por kernels�O algoritmo

• Ilustração unidimensional DENCLUE• Algoritmo

2

• Algoritmo• Implementação eficiente: passo a passo com exemplo• Discussão dos parâmetro• Considerações finais

�Referências bibliográficas�Anexos

Introdução e contextualização

Fonte: Hinneburg and D. Keim (1998)

PROPOSTA

� Ser eficiente e efetivo em bases de dados multimídia, com forte presença deruídos.

PressuposiçõesPressuposições

� Clusters são regiões de alta densidade no espaço de dados,� A influência de um objeto em sua vizinhança pode ser modelada

matematicamente por uma função de influência,� A densidade de um objeto é a soma das influências dele e de seus vizinhos.

3

Função de Influência e densidade Estimada por

Kernels

Idéia

• A influência de um objeto é modelada por um kernel

• Densidade é a soma de todos os kernels

Adaptado de Hinneburg e Hans-Henning: http://videolectures.net/ida07_hinneburg_dfc/

Estimativa de Densidade

Função de influência: Kernel Gaussiano

4

Page 2: Resumo da apresentação Universidade de São Paulowiki.icmc.usp.br/images/e/e9/DENCLUE_IvaniLopes.pdfResumo da Etapa 2 do algoritmo DENCLUE 25 Resumo da Etapa 2 do algoritmo DENCLUE

Ilustração do conceito de Kernel e densidade em duas dimensões

©Tan, Stainbach, Kumar Introduction to data Mining 2006 5

DENCLUE – Ilustração unidimensional

Adaptado de ©Tan, Stainbach, Kumar Introduction to data Mining 20066

DENCLUE - Computacionalmente

1. Calcule a função de densidade para os objetos

2. Identifique os atratores de densidade

3. Encontre o atrator de densidade para cada objeto

4. Defina clusters que consistam de pontos associados a umatrator em particularatrator em particular

5. Descarte clusters cujo atrator possui densidade associadaabaixo do limiar especificado.

6. Combine cluster que são conectados por um caminho depontos, em que todos possuam densidade acima do limiar.

7

Computacionalmente cara - O(N2).

DENCLUE – Implementação Eficiente

Pré-agrupamento

8

Figura. Mapeamento do espaço de dados em 2D

Page 3: Resumo da apresentação Universidade de São Paulowiki.icmc.usp.br/images/e/e9/DENCLUE_IvaniLopes.pdfResumo da Etapa 2 do algoritmo DENCLUE 25 Resumo da Etapa 2 do algoritmo DENCLUE

Resumo da Etapa 1 do algoritmo DENCLUE

Dados slide 47 de Campello (2010): http://wiki.icmc.usp.br/images/2/21/Algoritmos_Particionais_II.pdf 9

Pré-agrupamento

�Descarte os hiper-cubos vazios;

Resumo da Etapa 1 do algoritmo DENCLUE

c1 c2 c3

Descartar terceiro intervalo

10

. ..

Resumo da Etapa 1 do algoritmo DENCLUE

2

18,07 4

5

8

9

10

.5

. ..

1-1,1 1

236

.4

3

9,06 7 .1

11

Resumo da Etapa 1 do algoritmo DENCLUE

12

c1 c2 c3

Page 4: Resumo da apresentação Universidade de São Paulowiki.icmc.usp.br/images/e/e9/DENCLUE_IvaniLopes.pdfResumo da Etapa 2 do algoritmo DENCLUE 25 Resumo da Etapa 2 do algoritmo DENCLUE

Resumo da Etapa 1 do algoritmo DENCLUE

13

c1 c2 c3

Agrupamento

Resumo da Etapa 2 do algoritmo DENCLUE

14

Resumo da Etapa 2 do algoritmo DENCLUE

Agrupamento

15

Agrupamento

Resumo da Etapa 2 do algoritmo DENCLUE

16

Page 5: Resumo da apresentação Universidade de São Paulowiki.icmc.usp.br/images/e/e9/DENCLUE_IvaniLopes.pdfResumo da Etapa 2 do algoritmo DENCLUE 25 Resumo da Etapa 2 do algoritmo DENCLUE

Resumo da Etapa 2 do algoritmo DENCLUE

�Calcule: a função de densidade local e o gradiente. continuação...

Agrupamento

ξ=4

17

Figura. Curva de densidade do espaço X

ξ=4

x1

Resumo da Etapa 2 do algoritmo DENCLUE

Agrupamento

18

Resumo da Etapa 2 do algoritmo DENCLUE

� Encontre os atratores de densidadecontinuação...

Agrupamento

x0 x1 x2 x3 x4 x5 x6

-1,31 3,002 -0,31 3,906 0,69 4,088 1,69 4,162 2,69 4,568 3,69 4,638 4,69 3,69

-0,43 3,839

0,34 4,082

19

0,34 4,082

3,57 4,681

2,76 4,596

0,30 4,079

9,06 1,018 8,06* 0,920

4,45 4,006 3,45 4,706 2,45 4,462

2,87 4,636

4,42 4,042

Discussão dos parâmetros

20

Page 6: Resumo da apresentação Universidade de São Paulowiki.icmc.usp.br/images/e/e9/DENCLUE_IvaniLopes.pdfResumo da Etapa 2 do algoritmo DENCLUE 25 Resumo da Etapa 2 do algoritmo DENCLUE

Considerações Finais

• Forte fundamentação matemática. É possível que o DENCLUE estimedensidades com maior acurácia do que outros algoritmos baseados em grid.

• Generaliza outros algoritmos particionais, hierárquicos e baseados emcondições locais.

• Invariante a ruídos. Encontra os mesmos atratores mesmo quando o número deobjetos ruído tende a infinito.

• Significativamente mais rápido que algoritmos baseados em densidadeexistentes.existentes.

• Permite uma descrição matemática compacta de clusters de forma arbitrária emespaços de altas dimensões.

• Requer cuidado na determinação dos parâmetros

• Encontra clusters de diferentes formas e tamanhos, mas pode ter problemascom conjuntos de alta dimensionalidade e dados que contenham clusters dedensidades muito diferentes (Tan, et al., 2006).

• Complexidade no pior caso O(Nlog2N) (Theodoridis e Koutroumbas 1999)

21

Referências Bibliográficas

Hinneburg, A. and Keim, D. An efficient approach to clustering inlarge multimedia databases with noise. In Proceedings KDD'98,pages 58-65. AAAI Press, 1998.

Tan, P.-N., Steinbach, M., and Kumar, V., Introduction to Data

Mining, Addison-Wesley, 2006.

Theodoridis, S. and Koutroumbas, K. Pattern Recognition,Academic Press, New York, 1999.

22

ANEXOS

23

Resumo da Etapa 1 do algoritmo DENCLUE

24

Page 7: Resumo da apresentação Universidade de São Paulowiki.icmc.usp.br/images/e/e9/DENCLUE_IvaniLopes.pdfResumo da Etapa 2 do algoritmo DENCLUE 25 Resumo da Etapa 2 do algoritmo DENCLUE

Agrupamento

Resumo da Etapa 2 do algoritmo DENCLUE

25

Resumo da Etapa 2 do algoritmo DENCLUE

Objeto x D=near(x)

1 -1,31

2 -0,43

Agrupamento

3 0,34

4 3,57 X

5 2,76

6 0,30

7 9,06 X-{c1, {5}, {9}}

8 4,45 X

9 2,87

10 4,42 X

26

Resumo da Etapa 2 do algoritmo DENCLUE

Objeto x

1 -1,31 3,002 2,768

Agrupamento – (obter as densidades e agrupamentos a partir da estrutura gerada da Etapa 1)

2 -0,43 3,839 1,373

3 0,34 4,082 0,168

4 3,57 4,681 -0,617

5 2,76 4,596 0,871

6 0,30 4,079 0,209

7 9,06 1,018 -0,087

8 4,45 4,006 -2,748

9 2,87 4,636 0,752

10 4,42 4,042 -2,689

ComplexidadePASSOS DENCLUE:

1. MBR←Determinar MBR(D)Minimal Bounding (hyper-)Rectangle.

2. CP ← Determinar conjunto de cubos não vazios(D, MBR, σ)Csp ← Determinar cubos altamente densos(CP, ξc)

3. map, Cr ← determinar cubos altamente densos ou que possuem conexão com algum(CP, Csp, σ)4. Agrupamento ← determinar os atratores de densidade (map, Cr, σ, ξ)

28