Mineração de Dados com Apache Mahout

Preview:

DESCRIPTION

Breve introdução ao tema Mineração de Dados e definição da ferramenta Apache Mahout

Citation preview

Área, dia/mês/ano

Mineração de Dadoscom Apache Mahout

P&D – 26/06/2013

by Fabíola Souza Fernandes Pereira

Área, dia/mês/anoThe Financial Times of London (1996)

Área, dia/mês/anoThe Financial Times of London (1996)

Área, dia/mês/anoThe NY Times (2012)

Área, dia/mês/anoThe NY Times (2012)

Área, dia/mês/anoScience Daily (2009)

Área, dia/mês/anoScience Daily (2009)

Área, dia/mês/ano

Área, dia/mês/ano

Área, dia/mês/ano

Roteiro

Área, dia/mês/ano

O que é Mineração de Dados?

(em 6 slides)

Área, dia/mês/ano

Área, dia/mês/ano

KDD (Knowledge Discovery on Databases)

Área, dia/mês/ano

Área, dia/mês/ano

“É a transformação de dados em conhecimento, através da descoberta de padrões”

Área, dia/mês/ano

1960 1970 1980 1990 2000

Coleç

ão d

e Dad

os e

Armaz

enam

ento

SGBDs

Sistem

as d

e BD

Avanç

ados

Min

eraç

ão d

e Dad

os

Nova

Geraç

ão d

e

Sistem

as In

tegr

ados

Histórico

Área, dia/mês/ano

DM é interdisciplinar

Área, dia/mês/ano

Quais tipos de dados são minerados?

Área, dia/mês/ano

Bancos de Dados Relacionais

Análise dos dados de

clientes (idade, salário)

para prever o risco de

crédito para novos clientes

Área, dia/mês/ano

Bancos de Dados Espaciais

Descobrir o comportamento do clima

em áreas montanhosas

Área, dia/mês/ano

Bancos de Dados Temporais

Qual a melhor forma de

renovar o estoque? Quais

produtos para

determinada época do

ano?

Área, dia/mês/ano

Bancos de Dados de Textos

Minerar especificações,

relatórios de erros, tweets, posts, reviews

Área, dia/mês/ano

Bancos de Dados de Áudio, Vídeo e Imagens

Segmentação de imagens

Reconhecimento de fala

Área, dia/mês/ano

“É a transformação de dados em conhecimento, através da descoberta de padrões”

Texto, áudio, imagem, relacionais, temporais,

espaciais, …

Anomalias, grupos, classes, tendências, regras, …

Área, dia/mês/ano

CONHECIMENTO

Meu cliente está ansioso com a vinda da concorrência.

O Coreo está sendo utilizado para trotes.

Este cartão de crédito foi clonado.

Área, dia/mês/ano

Roteiro

Área, dia/mês/ano

Data MiningWeb

Social

HTML

Opiniões/Sentimentos

Vídeos

Áudio

Imagens

Streams

Área, dia/mês/ano

BIG DATA MINING

Social

HTML

Opiniões/Sentimentos

Vídeos

Áudio

Imagens

Streams

Área, dia/mês/ano

Roteiro

Área, dia/mês/ano

O que é o Mahout?O que é o Mahout?

Área, dia/mês/ano

Mahout é um software de “Machine Learning” e Mineração de Dados

Área, dia/mês/ano

Mahout é um software de “Machine Learning” e Mineração de Dados

Área, dia/mês/ano

Mahout é um software de “Machine Learning” e Mineração de Dados

Área, dia/mês/ano

Ficha técnica:

Projeto Apache

Open Source

Última versão: 0.7

API Java

Diversos exemplos prontos

Diversos algoritmos de DM prontos: K-Means, CF, Naïve Bayes, …

Área, dia/mês/ano

Técnicas de Mineração de Dados

RecomendaçãoRecomendação

ClusterizaçãoClusterização

ClassificaçãoClassificação

Área, dia/mês/ano

RecomendaçãoRecomendação

Área, dia/mês/ano

Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo

Área, dia/mês/ano

Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo

Área, dia/mês/ano

ClassificaçãoClassificação

Área, dia/mês/ano

SPAM!!

ClassificaçãoClassificação

Área, dia/mês/ano

SPAM!!

ClassificaçãoClassificação

Área, dia/mês/ano

ClassificaçãoClassificação

Área, dia/mês/ano

ClassificaçãoClassificação

MODELO

Classificador

Amostras Classificadas Banco de

Testes

MODELO COM REGRAS CONFIÁVEIS

Área, dia/mês/ano

Clusterização ou AgrupamentoClusterização ou Agrupamento

Área, dia/mês/ano

Clusterização ou AgrupamentoClusterização ou Agrupamento

Área, dia/mês/ano

Clusterização ou AgrupamentoClusterização ou Agrupamento

??

Área, dia/mês/ano

$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages-articles10.xml -o wikipedia/chunks -c 64

$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel

$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput

Na prática…

Área, dia/mês/ano

Roteiro

Área, dia/mês/ano

PoC Mahout

Objetivo: separar textos em SPAM ou NÃO SPAM

Tipos de dados: texto

Técnica: classificação

Algoritmo: Naïve Bayes

Base: 20news group (spamassassin.apache.org/publiccorpus/20021010_spam.tar.bz2)

3050 arquivos

Área, dia/mês/ano

Roteiro

Área, dia/mês/ano

Inserir mineração de dados e machine learning no BI da

empresa

Minerar dados reais

Área, dia/mês/ano

Obrigada