52
Área, dia/mês/ano Mineração de Dados com Apache Mahout P&D – 26/06/2013 by Fabíola Souza Fernandes Pereira

Mineração de Dados com Apache Mahout

Embed Size (px)

DESCRIPTION

Breve introdução ao tema Mineração de Dados e definição da ferramenta Apache Mahout

Citation preview

Page 1: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Mineração de Dadoscom Apache Mahout

P&D – 26/06/2013

by Fabíola Souza Fernandes Pereira

Page 2: Mineração de Dados com Apache Mahout

Área, dia/mês/anoThe Financial Times of London (1996)

Page 3: Mineração de Dados com Apache Mahout

Área, dia/mês/anoThe Financial Times of London (1996)

Page 4: Mineração de Dados com Apache Mahout

Área, dia/mês/anoThe NY Times (2012)

Page 5: Mineração de Dados com Apache Mahout

Área, dia/mês/anoThe NY Times (2012)

Page 6: Mineração de Dados com Apache Mahout

Área, dia/mês/anoScience Daily (2009)

Page 7: Mineração de Dados com Apache Mahout

Área, dia/mês/anoScience Daily (2009)

Page 8: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Page 9: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Page 10: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Roteiro

Page 11: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

O que é Mineração de Dados?

(em 6 slides)

Page 12: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Page 13: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

KDD (Knowledge Discovery on Databases)

Page 14: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Page 15: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

“É a transformação de dados em conhecimento, através da descoberta de padrões”

Page 16: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

1960 1970 1980 1990 2000

Coleç

ão d

e Dad

os e

Armaz

enam

ento

SGBDs

Sistem

as d

e BD

Avanç

ados

Min

eraç

ão d

e Dad

os

Nova

Geraç

ão d

e

Sistem

as In

tegr

ados

Histórico

Page 17: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

DM é interdisciplinar

Page 18: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Quais tipos de dados são minerados?

Page 19: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Bancos de Dados Relacionais

Análise dos dados de

clientes (idade, salário)

para prever o risco de

crédito para novos clientes

Page 20: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Bancos de Dados Espaciais

Descobrir o comportamento do clima

em áreas montanhosas

Page 21: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Bancos de Dados Temporais

Qual a melhor forma de

renovar o estoque? Quais

produtos para

determinada época do

ano?

Page 22: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Bancos de Dados de Textos

Minerar especificações,

relatórios de erros, tweets, posts, reviews

Page 23: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Bancos de Dados de Áudio, Vídeo e Imagens

Segmentação de imagens

Reconhecimento de fala

Page 24: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

“É a transformação de dados em conhecimento, através da descoberta de padrões”

Texto, áudio, imagem, relacionais, temporais,

espaciais, …

Anomalias, grupos, classes, tendências, regras, …

Page 25: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

CONHECIMENTO

Meu cliente está ansioso com a vinda da concorrência.

O Coreo está sendo utilizado para trotes.

Este cartão de crédito foi clonado.

Page 26: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Roteiro

Page 27: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Data MiningWeb

Social

HTML

Opiniões/Sentimentos

Vídeos

Áudio

Imagens

Streams

Page 28: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

BIG DATA MINING

Social

HTML

Opiniões/Sentimentos

Vídeos

Áudio

Imagens

Streams

Page 29: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Roteiro

Page 30: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

O que é o Mahout?O que é o Mahout?

Page 31: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Mahout é um software de “Machine Learning” e Mineração de Dados

Page 32: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Mahout é um software de “Machine Learning” e Mineração de Dados

Page 33: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Mahout é um software de “Machine Learning” e Mineração de Dados

Page 34: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Ficha técnica:

Projeto Apache

Open Source

Última versão: 0.7

API Java

Diversos exemplos prontos

Diversos algoritmos de DM prontos: K-Means, CF, Naïve Bayes, …

Page 35: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Técnicas de Mineração de Dados

RecomendaçãoRecomendação

ClusterizaçãoClusterização

ClassificaçãoClassificação

Page 36: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

RecomendaçãoRecomendação

Page 37: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo

Page 38: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo

Page 39: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

ClassificaçãoClassificação

Page 40: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

SPAM!!

ClassificaçãoClassificação

Page 41: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

SPAM!!

ClassificaçãoClassificação

Page 42: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

ClassificaçãoClassificação

Page 43: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

ClassificaçãoClassificação

MODELO

Classificador

Amostras Classificadas Banco de

Testes

MODELO COM REGRAS CONFIÁVEIS

Page 44: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Clusterização ou AgrupamentoClusterização ou Agrupamento

Page 45: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Clusterização ou AgrupamentoClusterização ou Agrupamento

Page 46: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Clusterização ou AgrupamentoClusterização ou Agrupamento

??

Page 47: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages-articles10.xml -o wikipedia/chunks -c 64

$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel

$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput

Na prática…

Page 48: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Roteiro

Page 49: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

PoC Mahout

Objetivo: separar textos em SPAM ou NÃO SPAM

Tipos de dados: texto

Técnica: classificação

Algoritmo: Naïve Bayes

Base: 20news group (spamassassin.apache.org/publiccorpus/20021010_spam.tar.bz2)

3050 arquivos

Page 50: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Roteiro

Page 51: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Inserir mineração de dados e machine learning no BI da

empresa

Minerar dados reais

Page 52: Mineração de Dados com Apache Mahout

Área, dia/mês/ano

Obrigada