31
1 Mineração de Dados Mineração de Dados Introduç ão

1 Mineração de Dados Mineração de Dados Introdução

Embed Size (px)

Citation preview

Page 1: 1 Mineração de Dados Mineração de Dados Introdução

1

Mineração de DadosMineração de Dados

Introdução

Page 2: 1 Mineração de Dados Mineração de Dados Introdução

2

Introdução 1/Introdução 1/

Motivação Explosão de Dados

Ferramentas automáticas de coleta de dados +maturidade das tecnologias de bancos de dados

enorme quantidade de dados armazenados em bases de dados e outros meios de armazenamento

Abundancia de dados ao lado de escassez de conhecimentos

Page 3: 1 Mineração de Dados Mineração de Dados Introdução

3

Introdução 2/Introdução 2/

Motivação Explosão de Dados

Solução: data warehousing e mineração de dadosdescoberta de conhecimentos (regras,

regularidades, padrões) a partir de enormes bases de dados

Page 4: 1 Mineração de Dados Mineração de Dados Introdução

4

KDD: Descoberta de Conhecimentos a partir de bancos de dados

Limpeza de Dados

Integração de Dados

Bases de dados

Data Warehouse

Dados relevantes

Seleção

Mineração de Dados

Avaliação dos Padrões

Page 5: 1 Mineração de Dados Mineração de Dados Introdução

5

Introdução 4/Introdução 4/

Passos do Processo KDD Estudo do domínio de aplicação

conhecimento a priori relevante, objetivo da aplicação Seleção dos dados Limpeza e pre-processamento dos dados (60% do

esforço) Redução e transformação de dados

seleção de atributos, redução de dimensão

Page 6: 1 Mineração de Dados Mineração de Dados Introdução

6

Introdução 5/Introdução 5/

Passos do Processo KDD Escolha dos modelos de mineração

sumário, classificação, regressão, associação, clustering

Escolhas dos algoritmos de mineração Mineração de dados: busca de padrões de interesse

Page 7: 1 Mineração de Dados Mineração de Dados Introdução

7

Introdução 6/Introdução 6/

Passos do Processo KDD Avaliação dos padrões e apresentação do conhecimento

visualização, transformação, remoção de padrões redundantes

Uso do conhecimento descoberto

Page 8: 1 Mineração de Dados Mineração de Dados Introdução

8

Mineração de Dados e Inteligencia nos Negócios

Potencial crescentede apoio a decisõesnos negócios Usuário Final

Analista deNegócios

Analista deDados

Tomadorde Decisões

Apresentação dos Dados

Tecnicas de Visualização

Mineração de DadosDescoberta de Informação

Exploração de Dados

OLAP

Análise estatística, consultas, relatórios

Data Warehouses / Data Marts

Fontes de DadosPapeis, Arquivos, Provedores de Informação, Bases de Dados, OLTP

Page 9: 1 Mineração de Dados Mineração de Dados Introdução

9

Arquitetura de um sistema usual de mineração de dados

Data Warehouse

Limpeza e integração de dados Filtragem

Bases de dados

Servidor de base de dados ou data warehouse

Mineração de Dados

Avaliação dos Padrões

Interface Gráfica

Knowledge-base

Page 10: 1 Mineração de Dados Mineração de Dados Introdução

10

Introdução 9/Introdução 9/

Fontes de dados para a mineração Bases de dados relacionais Data warehouses Bases de dados transacionais

Page 11: 1 Mineração de Dados Mineração de Dados Introdução

11

Introdução 10/Introdução 10/

Fontes de dados para a mineração Bases de dados avançadas e repositórios de dados

bases de dados orientada objeto e bases de dados objeto-relacional

bases de dados espaciaisdados temporais e seqüenciaisbases de dados textuais e bases de dados multimídiabases de dados heterogêneas WWW

Page 12: 1 Mineração de Dados Mineração de Dados Introdução

12

Introdução 11/Introdução 11/

Funcionalidades da mineração de dados Descrição de conceitos: caracterização e discriminação

Generaliza, resume e contrasta as características dos dados

Associação: correlação e causualidadeassociação multi-dimensional versus associação uni-

dimensional idade(X, “20..29”) ^ renda(X, “20..29K”) compra(X,

“PC”) [suporte = 2%, confiancia = 60%]

Page 13: 1 Mineração de Dados Mineração de Dados Introdução

13

Introdução 12/Introdução 12/

Funcionalidades da mineração de dados Classificação e previsão

Construir modelos (funções) que descrevem e distinguem classes ou conceitos para previsões futuras

modelos: redes neurais, arvores de decisão, regras de classificação

Previsão: prever valores numéricos ausentes ou desconhecidos

Page 14: 1 Mineração de Dados Mineração de Dados Introdução

14

Introdução 13/Introdução 13/

Funcionalidades da mineração de dados Análise de cluster

os rótulos das classes são desconhecidosagrupar dados para formar novas classes

O agrupamento é baseado em: maximizar a similaridade intra-classe e minimizar a similaridade inter-classe

Page 15: 1 Mineração de Dados Mineração de Dados Introdução

15

Introdução 14/Introdução 14/

Funcionalidades da mineração de dados Análise de valores aberrantes (outliers)

Outilier : um dado que diverge do comportamento geral dos dados

Pode ser considerado ruido ou exceçãocomum em detecção de fraudes e análise de

eventos raros

Page 16: 1 Mineração de Dados Mineração de Dados Introdução

16

Introdução 15/Introdução 15/

Funcionalidades da mineração de dados Análise de tendência e evolução

tendência e desvio: análise de regressãoMineração de padrões seqüenciais: análise de

periodicidadeanálise baseada em similaridade

Page 17: 1 Mineração de Dados Mineração de Dados Introdução

17

Introdução 16/Introdução 16/

Interesse dos padrões descobertos Um sistema de mineração de dados pode gerar centenas

de padrõesnem todos são de interesse

Um padrão é interessante, se ele é facilmente entendido pelos humanos, validado em dados independentes, potencialmente útil, novo, ou valida alguma hipótese que o usuário

procurava confirmar

Page 18: 1 Mineração de Dados Mineração de Dados Introdução

18

Introdução 17/Introdução 17/

Interesse dos padrões descobertos Medidas de interesse de um padrão

objetivas: baseadas em estatísticas e estruturas dos padrões (suporte, confiança)

subjetivas: baseadas nas crenças do usuário nos dados (novidade inesperada)

Page 19: 1 Mineração de Dados Mineração de Dados Introdução

19

Mineração de Dados: Confluencia de Multiplas Disciplinas

Mineração deDados

Tecnologia deBases de Dados

Estatística

OutrasDisciplinas

Ciências daInformação

Aprendizagemde Máquina Visualização

Page 20: 1 Mineração de Dados Mineração de Dados Introdução

20

Introdução 19/Introdução 19/

Mineração de Dados: Classificação Funcionalidade geral

Mineração de dados descritivaMineração de dados preditiva

Outros critériostipo de base de dados a ser mineradatipo de conhecimento a ser descobertotipo de técnica a ser utilizadatipo de aplicações

Page 21: 1 Mineração de Dados Mineração de Dados Introdução

21

Introdução 20/Introdução 20/

Mineração de Dados: Classificação Base de dados a ser minerada

relacional, transacional, orientada objeto, objeto-relacional, espacial, temporal, textual, multimídia, heterogênea, WWW

Conhecimento a ser mineradoCaracterização, descriminação, associação,

classificação, clustering, tendência e análise de desvioFunções múltiplas e integradas e mineração a níveis

múltiplos

Page 22: 1 Mineração de Dados Mineração de Dados Introdução

22

Introdução 21/Introdução 21/

Mineração de Dados: Aplicações potenciais Análise de bases de dados e suporte a decisão

análise de mercadoalvo de campanhas, análise de compras,

segmentação do mercado, gerencia de relações com clientes, vendas cruzadas

análise de riscofidelização de clientes, controle de qualidade,

análise de competitividadedetecção de fraude

Page 23: 1 Mineração de Dados Mineração de Dados Introdução

23

Introdução 22/Introdução 22/

Mineração de Dados: Aplicações potenciais Análise de bases de dados e suporte a decisão

detecção de fraude Outras aplicações

Mineração de texto (email, documentos) e web analise

Page 24: 1 Mineração de Dados Mineração de Dados Introdução

24

Introdução 23/Introdução 23/

Análise de Mercado Fontes de dados para análise

transações de cartão, cartões de fidelidade, cupons de desconto, queixas de clientes, estudos de estilos de vida

Alvo de campanhasencontrar grupos de clientes que partilham as mesmas

características: interesse, nível de renda, hábitos de consumo

Page 25: 1 Mineração de Dados Mineração de Dados Introdução

25

Introdução 24/Introdução 24/

Análise de Mercado padrões de compras de clientes no tempo

conversão para uma conta conjunta: casamento Análise cruzada de mercado

associações/correlações entre vendas de produtosprevisão baseada nas informações de associação

Page 26: 1 Mineração de Dados Mineração de Dados Introdução

26

Introdução 25/Introdução 25/

Análise de Mercado perfil de consumidores

que tipo de consumidores compra que tipo de produto Identificação das exigências dos consumidores

identificação dos melhores produtos para diferentes tipos de clientes

encontrar que fatores atrairão novos clientes

Page 27: 1 Mineração de Dados Mineração de Dados Introdução

27

Introdução 26/Introdução 26/

Análise de Mercado sumários

relatários muti-dimensionaissumários estatísticos (medidas de tendência central e

de dispersão)

Page 28: 1 Mineração de Dados Mineração de Dados Introdução

28

Introdução 27/Introdução 27/

Análise de Risco Plano financeiro e avaliação de recursos

análise de fluxo de caixa Planificação de receitas

sumário e comparação de receitas e despesas Competição

agrupar clientes em classes e oferecer preços baseados em classes

Page 29: 1 Mineração de Dados Mineração de Dados Introdução

29

Introdução 28/Introdução 28/

Detecção de fraudes aplicações

planos de saúde, varejo, cartões de crédito, fraude em cartões telefônicos

Abordagemuso de dados históricos para construir modelos de

comportamento fraudulento e uso de mineração de dados para ajudar a identificar instancias similares

Page 30: 1 Mineração de Dados Mineração de Dados Introdução

30

Introdução 29/Introdução 29/

Detecção de fraudes Exemplos

seguro de carrostransações monetárias fraudulentasseguro de saúdedetecção de tratamento médico inapropriadodetecção de fraude telefônicavarejo

Page 31: 1 Mineração de Dados Mineração de Dados Introdução

31

Introdução 30/Introdução 30/

Tendências em Mineração metodologia de mineração e iteração com o usuário desempenho e escalabilidade diversidade de tipos de dados aplicações e impactos sociais