Upload
fernando-machado
View
84
Download
0
Embed Size (px)
DESCRIPTION
Apresentação feita em 29/03/2010 sobre o tema Clustering.
Citation preview
Clustering“Uma técnica de Data Mining para
agrupamentos de dados segundo seu grau de semelhança.”
- Wikipedia
Fernando Machado [email protected] http://twitter.com/fmachado
Agenda
• Por que este tema?• Data Mining
– Exemplos de casos reais– Processo de descoberta de conhecimento
(KDD)• Clustering
– Algoritmo K-means
Por que Clustering?
• Primeiros contatos– 1999 a 2002
• Extração de notícias da web– Versões até 2002
• Supervisão humana permanente• Manutenção constante• Alta taxa de erros• Falhas na arquitetura
Por que Clustering?
• Extração de notícias da web– Versão 2009 - ...
• Supervisão humana mínima– Exceto no início onde houve treinamento
• Manutenção mínima– Infraestrutura
• Taxa de erros < 5%– Inteligência Artificial básica
• Escalável e alto desempenho– Horizontal e vertical
– Seach-engine alta performance
www.guianews.com.brem 02/dez/2000
www.guianews.com.brem 19/mar/2010
Afinal, o que ée para que serve
Clustering?
Afinal, o que ée para que serve
ClusteringData Mining?
Data Mining
É o processo de descoberta
automática de informações úteis
em grandes depósitos de dados.
Data Mining
Grandes depósitosde dados?
Quão grande sãoesses depósitos?
Data Mining
Yahoo! Groups40 TB de dados para indexar
Data Mining
Possui aproximadamente 19 PB de dados transferidos através de sua rede a cada dia
1 petabyte = 1.024 terabytes19 petabytes = 19.456 terabytes
Data Mining
• Em maio de 2009, o Brasil chegou à 157.501.813 acessos no Serviço Móvel Pessoal (...).
• A Vivo ainda lidera o mercado com 29,38% de participação (...).
• Como a Vivo faz para identificar tendências ou o comportamento de seus ~45.675.525 clientes?
Data Mining
• Atua sobre grandes bancos de dados;
• Visa descobrir padrões úteis e recentes;
• Envolve estatística ealgoritmos sofisticados;
Data Mining – Padrões?
• Esta é uma compra fraudulenta?
• Que tipo de produto devo oferecer para este cliente?
• Como as mudanças nas sequências do DNA de um indivíduo afetam o risco do desenvolvimento de novas doenças?
Data Mining
• Data mining é uma parte integral da descoberta de conhecimento em banco de dados (KDD);
• KDD Knowledge Discovery in Database– Processo geral de conversão de dados brutos
em informações úteis.
Afinal, o que ée para que serve
Clustering?
Clustering
• Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança.
• Você consegue identificar visualmente agrupamentos?
Clustering
Clustering
Clustering
Clustering
Clustering
• Em Data Mining, uma das atividades obrigatórias é o pré-processamento.
• Verificação dos dados:– Ignorar registros errados?
• É possível alguém ter filhos aos 10 anos de idade?• É possível que ela esteja trabalhando nesta
empresa? – Que valores adotar quando um atributo não
estiver preenchido?
Clustering
Visualmente é fácil?Vamos ver usando matemática...