30
Clustering “Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança.” - Wikipedia Fernando Machado [email protected] http://twitter.com/fmachado

Clustering

Embed Size (px)

DESCRIPTION

Apresentação feita em 29/03/2010 sobre o tema Clustering.

Citation preview

Page 1: Clustering

Clustering“Uma técnica de Data Mining para

agrupamentos de dados segundo seu grau de semelhança.”

- Wikipedia

Fernando Machado [email protected] http://twitter.com/fmachado

Page 2: Clustering

Agenda

• Por que este tema?• Data Mining

– Exemplos de casos reais– Processo de descoberta de conhecimento

(KDD)• Clustering

– Algoritmo K-means

Page 3: Clustering

Por que Clustering?

• Primeiros contatos– 1999 a 2002

• Extração de notícias da web– Versões até 2002

• Supervisão humana permanente• Manutenção constante• Alta taxa de erros• Falhas na arquitetura

Page 4: Clustering

Por que Clustering?

• Extração de notícias da web– Versão 2009 - ...

• Supervisão humana mínima– Exceto no início onde houve treinamento

• Manutenção mínima– Infraestrutura

• Taxa de erros < 5%– Inteligência Artificial básica

• Escalável e alto desempenho– Horizontal e vertical

– Seach-engine alta performance

Page 5: Clustering

www.guianews.com.brem 02/dez/2000

Page 6: Clustering

www.guianews.com.brem 19/mar/2010

Page 7: Clustering
Page 8: Clustering

Afinal, o que ée para que serve

Clustering?

Page 9: Clustering
Page 10: Clustering

Afinal, o que ée para que serve

ClusteringData Mining?

Page 11: Clustering

Data Mining

É o processo de descoberta

automática de informações úteis

em grandes depósitos de dados.

Page 12: Clustering

Data Mining

Grandes depósitosde dados?

Quão grande sãoesses depósitos?

Page 13: Clustering

Data Mining

Yahoo! Groups40 TB de dados para indexar

Page 14: Clustering

Data Mining

Possui aproximadamente 19 PB de dados transferidos através de sua rede a cada dia

Page 15: Clustering

1 petabyte = 1.024 terabytes19 petabytes = 19.456 terabytes

Page 16: Clustering

Data Mining

• Em maio de 2009, o Brasil chegou à 157.501.813 acessos no Serviço Móvel Pessoal (...).

• A Vivo ainda lidera o mercado com 29,38% de participação (...).

• Como a Vivo faz para identificar tendências ou o comportamento de seus ~45.675.525 clientes?

Page 17: Clustering

Data Mining

• Atua sobre grandes bancos de dados;

• Visa descobrir padrões úteis e recentes;

• Envolve estatística ealgoritmos sofisticados;

Page 18: Clustering

Data Mining – Padrões?

• Esta é uma compra fraudulenta?

• Que tipo de produto devo oferecer para este cliente?

• Como as mudanças nas sequências do DNA de um indivíduo afetam o risco do desenvolvimento de novas doenças?

Page 19: Clustering

Data Mining

• Data mining é uma parte integral da descoberta de conhecimento em banco de dados (KDD);

• KDD Knowledge Discovery in Database– Processo geral de conversão de dados brutos

em informações úteis.

Page 20: Clustering
Page 21: Clustering

Afinal, o que ée para que serve

Clustering?

Page 22: Clustering

Clustering

• Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança.

• Você consegue identificar visualmente agrupamentos?

Page 23: Clustering

Clustering

Page 24: Clustering

Clustering

Page 25: Clustering

Clustering

Page 26: Clustering

Clustering

Page 27: Clustering
Page 28: Clustering

Clustering

• Em Data Mining, uma das atividades obrigatórias é o pré-processamento.

• Verificação dos dados:– Ignorar registros errados?

• É possível alguém ter filhos aos 10 anos de idade?• É possível que ela esteja trabalhando nesta

empresa? – Que valores adotar quando um atributo não

estiver preenchido?

Page 29: Clustering

Clustering

Page 30: Clustering

Visualmente é fácil?Vamos ver usando matemática...