35
Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado em Informatica

Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Embed Size (px)

Citation preview

Page 1: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Agrupamento de Dados: uma Revisão

Data Clustering

Márcia de Oliveira AlvesJosé de Castro Neto

Maio 2006Universidade Federal de Campina Grande

Mestrado em Informatica

Page 2: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• O que é Agrupamento de Dados?• Qual a utilidade?

Niv

ela

men

to

Page 3: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Contextualização;

• Processo de Agrupamento;

• Agrupamento de Dados;

• Uma Aplicacão: Mineração de Dados;

• Considerações Finais.

• Bibliografia

Rote

iro

Page 4: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• É crescente a migração dos dados para a mídia digital;

• Na informação reside o conhecimento;

• O volume de informação é cada vez maior;

Análise Automática dos Dados

Con

textu

aliza

ção

Motivação

Page 5: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Previsão de Dados– Fluxo de Caixa Previsto

• Classificação de Dados– Relatório gerado segundo consulta

• Análise de Agrupamentos– Data Mining – Mineração de Dados

Con

textu

aliza

ção

Análise Automática de Dados

Page 6: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Objetivo

Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos

Pro

cesso d

e

Ag

rup

am

en

to

Page 7: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Seleção e tratamento dos dados;

• Agrupamento de dados;

• Análise dos resultados;

EtapasP

rocesso d

e

Ag

rup

am

en

to

Page 8: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Eliminação de dados duplicados ou corrompidos;

• Tratamento de outliers;

• Valores faltantes ou inválidos;

• Transformação dos dados;– Tratamento de Atributos:

• Adequar os diferentes tipos de atributos para o processo de agrupamento.

– Normalização: • Tratar dados com atributos de diferentes dimensões,

quando se pretende que eles tenham a mesma influência no processo.

Pro

cesso d

e

Ag

rup

am

en

toSeleção e Tratamento de Dados

Page 9: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Métodos:– Hierárquicos;– Segmentação;

• Medidas de proximidade

– Dissimilaridade– Similaridade

Pro

cesso d

e

Ag

rup

am

en

toAgrupamento de Dados

Page 10: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Métricas comuns em medidas de proximidade

Pro

cesso d

e

Ag

rup

am

en

toAgrupamento de Dados

Figura 2: Surpefícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan

Page 11: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Gráfico da Silhueta

Pro

cesso d

e

Ag

rup

am

en

toAnálise dos resultados

Figura 3: Gráfico da Silhueta

Page 12: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Análise dos resultados

• Valores da Silhueta

Pro

cesso d

e

Ag

rup

am

en

to

Tabela 1: Valores da Silhueta

Valor Descrição

0,71 – 1,00

Uma estrutura forte foi encontrada.

0,51 – 0,70

Uma estrutura razoável foi encontrada.

0,26 – 0,50

A estrutura é fraca e pode ser superficial.

≤0,25 Nenhuma estrutura substancial foi encontrada.

Page 13: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Os dados são segmentados sucessivamente, produzindo uma representação hierárquica dos agrupamentos

• Tipos:– Aglomerativos;– Divisivos;

Ag

rup

am

en

to d

e

Dad

os

Métodos Hierárquicos

Page 14: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Aglomerativos

Ag

rup

am

en

to d

e

Dad

os

Métodos Hierárquicos

Figura 3: Método Hierárquico Aglomerativo

Page 15: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Aglomerativos

– Principais desvantagens:• Os agrupamentos não podem ser

corrigidos;• Requerem muito espaço de memória e

tempo de processamento;

Ag

rup

am

en

to d

e

Dad

os

Métodos Hierárquicos

Page 16: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Divisivos

Ag

rup

am

en

to d

e

Dad

os

Métodos Hierárquicos

Figura 4: Método Hierárquico Divisivo

Page 17: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Divisivos– Principais vantagens

• Considera muitas divisões no primeiro passo;

– Principais desvantagens:• Capacidade computacional maior que os

hierárquicos aglomerativos (grande número de combinações);

• Requerem muito espaço de memória e tempo de processamento

Ag

rup

am

en

to d

e

Dad

os

Métodos Hierárquicos

Page 18: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Constroem uma única partição k grupos, isto é, classificam os dados em k grupos– Cada grupo deve conter no mínimo um

objeto;– Todo objeto foi atribuído a um grupo.

• Tipos:– Exclusivos

• Cada objeto pertence a exatamente um grupo

– Não-exclusivos• A escolha do grupo do objeto é definida com base

no grau de pertinência do mesmo

Ag

rup

am

en

to d

e

Dad

os

Métodos de Segmentação

Page 19: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Mineração de Dados

“A extração de Conhecimento de base de dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados” (Fayyad, Piatetsky-Shapiro e Smyth citado por Rezende)C

on

textu

alização

Page 20: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Motivação

• Grandes volumes de dados heterogêneos;

• Necessidade de técnicas para extrair a informação que realmente seja relevantes.

Con

textu

alização

Page 21: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Segmentação;

• Modelos de predição;

• Visualização;Min

era

ção d

e D

ad

os

e A

gru

pam

en

toAbordagem da Mineração de Dados

Page 22: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Segmentação : Os métodos de agrupamento são utilizados para segmentar bases de dados em grupos homogêneos

Min

era

ção d

e D

ad

os

e A

gru

pam

en

toAbordagem da Mineração de Dados

Page 23: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Modelos de Prediticao : Usam o agrupamento de dados para agrupar itens, a fim de inferir regras, caracterizar os grupos e sugerir modelos.

Abordagem da Mineração de DadosM

inera

ção d

e D

ad

os

e A

gru

pam

en

to

Page 24: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Visualização: o agrupamento de dados pode ser utilizado como tecnica que permite observar as informacoes em diferentes niveis e estruturas.

Abordagem da Mineração de DadosM

inera

ção d

e D

ad

os

e A

gru

pam

en

to

Page 25: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Aplicações citadas pelo autores

• Mineração em dados não estruturados WWW;

• Mineração em banco de dados geológicos;

Min

era

ção d

e D

ad

os

Page 26: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Ap

licações -

M

inera

ção d

e D

ad

os

Exemplo Banco de Dados Geológicos

• Regiao do Alasca

Page 27: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Ap

licações -

M

inera

ção d

e D

ad

os

Exemplo Banco de Dados Geológicos

• Regiao do Alasca

Page 28: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Ap

licações -

M

inera

ção d

e D

ad

os

Mineração de dados da bacia do Alaska

• Definição do contexto• Descoberta das estruturas

primitivas para agrupamento;•Definição do contexto em

termos relevantes para agrupamento homogêneos de dados;

• Aplicação do algoritmo k-medias

Page 29: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Min

era

ção d

e D

ad

os

Bacia

do A

laska

Algoritmo K-medias

Algoritmo de agrupamento que segmenta os objetos em conjuntos de elementos semelhantes, segundo algum criterio

Page 30: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Min

era

ção d

e D

ad

os

Bacia

do A

laska

Algoritmo K-medias

• Etapas• Define-se o número de

grupamentos;• Inicia-se os agrupamentos

através de atributos arbitrários ou centróides;

•Atribuição das amostras•Volta-se ao passo 3 até um

critério de convergência ser cumprido;

Page 31: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Min

era

ção d

e D

ad

os

Bacia

do A

laska

Algoritmo K-medias

Inicialização dos centróides Atribuição das amostra

Procura de Novos centróides

Page 32: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Tipo de atributos que o algoritmo opera;

• Escalabilidade para grandes conjuntos de dados;

• Definição da melhor métrica de similaridade;

• Habilidade de operar com uma dimensão grande de variáveis;

Como escolher um método?C

on

sid

era

ções

Fin

ais

Page 33: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Tratar valores discrepantes (outliers);

• Tempo de execução;

• Dependência de ordem dos dados;

• Interpretabilidade dos resultados.

Con

sid

era

ções

Fin

ais

Como escolher um método?

Page 34: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

• Ferramentas atuais• Dependência dos usuários

– Informação para início do processo– Capacidade de interpretação dos

resultados– Decisão sobre a utilização do

método adequado

ProblemasC

on

sid

era

ções

Fin

ais

Page 35: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado

Jain, A.K. & Murty, M.N. & Flynn, P.J. “Data Clustering: A Review” – ACM computing Surveys, vol. 31, nº 3, september 1999.

ComplementarVale, Marcos Neves do. “Agrupamentos de dados :

avaliação de métodos e desenvolvimento de aplicativo para análise de grupos” - Orientadores: Marley M. B. R. Vellasco, Ricardo Tanscheit. – Rio de Janeiro : PUC, Departamento de Engenharia Elétrica, 2005.

Rezende, Solange de Almeida “Mineração de Dados ”Lubia Vinhas, Gilberto Ribeiro Queiroz, Karine Reis

Ferreira, gilberto Câmara, Jão Argemiro C. Paiva – “Programação Genética Aplicada a Algoritmos Geográficos ”- INPE – São José dos Campos SP.

BásicaB

ibliog

rafi

a