46
Mineração Livre de Dados

Mineração Livre de Dados

Embed Size (px)

DESCRIPTION

Palestra Realizada no 13° Fórum Internacional de Software Livre

Citation preview

Page 1: Mineração Livre de Dados

Mineração

Livre de Dados

Page 2: Mineração Livre de Dados

Agenda

Apresentação

Contexto e Motivação

KDD & Data Warehousing

Data Mining

Tarefas de Data Mining

Técnicas de Data Mining

Weka

OxenTI Solutions

Page 3: Mineração Livre de Dados

Apresentação

Page 4: Mineração Livre de Dados

Mauricio C. Purificação Bacharel em Ciência da Computação pela UFBA e Aluno do MBA em

Administração/Gestão de Negócios na UNIFACS;

Sócio Fundador e Diretor Administrativo Financeiro da OxenTI;

Analista de Business Intelligence da Santa Casa de Misericórdia da Bahia;

Colaborador do CEManTIKA – Grupo de Pesquisa em Sistemas Sensíveis ao Contexto LES-DCC-UFBA;

Principais Interesses de Pesquisa: Business Intelligence, Business Analytics, Cloud Computing, Métodos Ágeis, Bancos de Dados Evolutivos.

http://lattes.cnpq.br/3312807554334758

Page 5: Mineração Livre de Dados

Adewale A. D’Alcântara Bacharelando em Ciência da Computação pela Universidade Federal da

Bahia;

Sócio Fundador e Diretor Executivo da OxenTI;

Especialista no Desenvolvimento de Soluções em CakePHP;

Principais Interesses de Pesquisa: Business Intelligence, Business Analytics, Data Warehousing e Data Mining.

http://lattes.cnpq.br/5322217410560893

Page 6: Mineração Livre de Dados

A OxenTI

Somos uma empresa de Tecnologia da Informação especializada no desenvolvimento de Soluções e Sistemas para apoiar a Gestão eficaz dos ambientes de negócios.

OxenTI Solutions

Page 7: Mineração Livre de Dados

Serviços

Implantação Sistemas Integrados de Gestão

ERP, CRM

OxenTI Solutions

Page 8: Mineração Livre de Dados

Serviços

Desenvolvimento Soluções para Suporte a Decisão

BI, BA, Data Mining

OxenTI Solutions

Page 9: Mineração Livre de Dados

Contexto & Motivação

Page 10: Mineração Livre de Dados

Ponto de

Vista Comercial

Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc...

Dados de comércio eletrônico

Dados de navegação na internet

Dados de compras de clientes em grandes lojas de departamentos, supermercados

Dados de transações bancárias, ou de cartão de crédito

Computadores mais baratos e mais potentes

Pressão da competição

OxenTI Solutions

Page 11: Mineração Livre de Dados

Ponto de

Vista Científico

Dados coletados e armazenados a velocidades enormes (GB/hora)

Sensores remotos em satélites Telescópios Microarrays gerando dados de expressões de genes Simulações científicas gerando terabytes de dados

Técnicas tradicionais não apropriadas para analisar tais dados

Ruídos e grande dimensionalidade

OxenTI Solutions

Page 12: Mineração Livre de Dados

“Leis”,

Gigantes e Monstros

Lei de Moore: Capacidade de processamento dobra a cada 18 meses (CPU, memória, cache)

Capacidade de armazenamento dobra a cada 10 meses

O que estas duas “leis” combinadas produzem?

Um gap crescente entre nossa habilidade de gerar dados e nossa habilidade de fazer uso dele

OxenTI Solutions

Page 13: Mineração Livre de Dados

KDD – Knowledge

Discovery in Databases

Page 14: Mineração Livre de Dados

Conceito

& Processo

“O processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados.”

Page 15: Mineração Livre de Dados

KDD

&

Data Warehousing

Page 16: Mineração Livre de Dados

Data Mining

Page 17: Mineração Livre de Dados

Conceito

Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99] Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01]

OxenTI Solutions

Page 18: Mineração Livre de Dados

Áreas de

Aplicações Potenciais

Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais”

Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$)

Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde

OxenTI Solutions

Page 19: Mineração Livre de Dados

Data Mining

& KDD

KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”

Incorpora tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados

OxenTI Solutions

Page 20: Mineração Livre de Dados

Cases

Page 21: Mineração Livre de Dados

Exemplo (1)

Fraldas e Cervejas

O que as cervejas tem a ver com as fraldas ?

homens casados, entre 25 e 30 anos

compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa

Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas

Resultado: o consumo cresceu 30%

OxenTI Solutions

Page 22: Mineração Livre de Dados

Exemplo (2)

Lojas Brasileiras

Aplicou 1 milhão de dólares em técnicas de data mining

Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas

Exemplo de anomalias detectadas:

Roupas de inverno e guarda chuvas encalhadas no nordeste

Batedeiras 110v a venda em SC onde a corrente é 220v

OxenTI Solutions

Page 23: Mineração Livre de Dados

Exemplo (3)

Bank Of America

Selecionou entre seus 36 milhões de clientes

Aqueles com menor risco de dar calotes

Tinham filhos com idades entre 18 e 21 anos

Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.

OxenTI Solutions

Page 24: Mineração Livre de Dados

Tarefas de Data Mining

Page 25: Mineração Livre de Dados

Análise de

Regras de Associação

Exemplo: “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado

Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais

OxenTI Solutions

Page 26: Mineração Livre de Dados

Análise de

Padrões Sequenciais

Exemplo: A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca-fitas de carro

Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo

OxenTI Solutions

Page 27: Mineração Livre de Dados

Classificação

e Predição

Exemplo: Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador

Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores

OxenTI Solutions

Page 28: Mineração Livre de Dados

Classificação

e Predição

Em algumas aplicações, o usuário está mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos

Neste caso, a tarefa de mineração é denominada Predição

OxenTI Solutions

Page 29: Mineração Livre de Dados

Análise de Clusters

Exemplo: Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes

Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira

OxenTI Solutions

Page 30: Mineração Livre de Dados

Análise de Outliers

Um banco de dados pode conter dados que não apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções)

Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado

Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente

OxenTI Solutions

Page 31: Mineração Livre de Dados

Técnicas de Data Mining

Page 32: Mineração Livre de Dados

Árvore de Decisão

Técnica que constrói um classificador utilizando uma estrutura de árvore onde os nós folhas representam as classes e os nós internos representam um teste sobre um atributo

OxenTI Solutions

Page 33: Mineração Livre de Dados

Redes Neurais

Modelos matemáticos que permite aprendizado e generalização

Esse aprendizado está associado a capacidade de adaptar seus parâmetros como consequência da sua iteração com o meio externo

Estrutura similar as redes neurais biológicas

OxenTI Solutions

Page 34: Mineração Livre de Dados

Redes Neurais

OxenTI Solutions

Page 35: Mineração Livre de Dados

Waikato Environment for

Knowledge Analysis - Weka

Page 36: Mineração Livre de Dados

Weka

OxenTI Solutions

Software para data mining/machine learning

escrito em Java (distribuído sob GNU Public License)

Utilizado em pesquisa e educação

Principais características:

Extenso conjunto de rotinas para pré-processamento, esquemas de aprendizagem, além de métodos de avaliação

GUIs (inclusive para visualização dos dados)

Ambiente para comparação de algortimos de aprendizagem.

Page 37: Mineração Livre de Dados

Formato de Entrada

OxenTI Solutions

@relation heart-disease-simplified

@attribute age numeric

@attribute sex { female, male}

@attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina}

@attribute cholesterol numeric

@attribute exercise_induced_angina { no, yes}

@attribute class { present, not_present}

@data

63,male,typ_angina,233,no,not_present

67,male,asympt,286,yes,present

67,male,asympt,229,yes,present

38,female,non_anginal,?,no,not_present

...

Page 38: Mineração Livre de Dados

Interface

OxenTI Solutions

Page 39: Mineração Livre de Dados

Interface

OxenTI Solutions

Page 40: Mineração Livre de Dados

Explorer

Pré Processamento

OxenTI Solutions

Importação dos dados em vários formatos: ARFF, CSV, C4.5, binary

Dados também podem ser lidos de uma URL ou de um banco de dados (utilizando o pacote JDBC)

Rotinas de pré-processamento no Weka são chamados de filtros

Weka tem filtros para:

Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros.

Page 41: Mineração Livre de Dados

Explorer

Classificadores

OxenTI Solutions

Modelos para a previsão de classes (nominal ou númerica): Weka implementa:

Árvore de decisão, listas, classificadores baseado em instâncias, multi-layer perceptrons, regressão, redes bayesianas, ...

“Meta”-classificadores: Bagging, boosting, stacking, error-correcting output code, locally weighted learning, ...

Page 42: Mineração Livre de Dados

Explorer

Clustering

OxenTI Solutions

Metódos para variáveis numéricas e nominais:

EM k-Means CobWeb

Page 43: Mineração Livre de Dados

Explorer

Associações

OxenTI Solutions

Identificar dependências estatísticas entre grupos de atributos 3 algorítimos para aprender associações:

Apriority; PredictiveApriori; Tertius; Trabalha somente com dados nominais; Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.

Page 44: Mineração Livre de Dados

Explorer

Seleção de Atributos

OxenTI Solutions

Usado para investigar quais atributos (subconjuntos deles) são mais preditivos AttributeSelection em 2 etapas:

Um método de busca Um método de avaliação

Flexibilidade: (quase) qualquer combinação de busca/avaliação

Page 45: Mineração Livre de Dados

Explorer

Visualização

OxenTI Solutions

Ajuda a identificar a dificuldade na aprendizagem do problema Visualização 2D Difere as classes por cor

Page 46: Mineração Livre de Dados

Contato

[email protected]

[email protected]

www.oxenti.com.br