16
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 1 Sistemas de Apoio à Decisão 4.2. Data Mining (Mineração de Dados) Qual a motivação? “Temos tudo informatizado na empresa, mas sinto que faltam mais informações. Falta conhecimento. Parece que morro de sede (conhecimento) num oceano de dados” O Data Warehouse não consegue ter insigths durante as análises de dados SPT e SIG: apóiam tarefas rotineiras SE e DW: apóiam o processo cognitivo Data mining: apóia o processo de descoberta

Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Embed Size (px)

Citation preview

Page 1: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 1 Sistemas de Apoio à Decisão

4.2. Data Mining (Mineração de Dados)

Qual a motivação?■ “Temos tudo informatizado na empresa, mas

sinto que faltam mais informações. Falta conhecimento. Parece que morro de sede (conhecimento) num oceano de dados”

■ O Data Warehouse não consegue ter insigths durante as análises de dados

■ SPT e SIG: apóiam tarefas rotineiras■ SE e DW: apóiam o processo cognitivo■ Data mining: apóia o processo de

descoberta

Page 2: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 2 Sistemas de Apoio à Decisão

Exemplo do Wall-Mart

O que fraldas tem a ver com cerveja?Premissas dos gerentes das lojas:

■ Mães compram fraldas seção feminina e de bebês.■ Homens compram cervejas seção masculina e bebidas.

O Terada Warehouse Miner fez a seguinte sugestão:■ Coloquem a seção de fraldas ao lado da seção de cervejas.

Resultado:■ As vendas de cerveja cresceram 30%.■ As vendas de fraldas cresceram 40%.

Porque?■ Homens casados, entre 25 e 30 anos, compram fraldas e/ou

cervejas no final das tardes de sexta-feira no retorno do trabalho para casa.

Page 3: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 3 Sistemas de Apoio à Decisão

Descoberta de conhecimento em DB

“Um processo não trivial de identificação de padrões válidos, novos, úteis e implicitamente presentes em grandes volumes de dados.” (Knowledge Discovery in Database - KDD - Fayyad et al. 1996)■ Usa várias técnicas para descobrir modelos e

relações ocultas em grandes bancos de dados

■ Isto permite inferir regras de comportamento futuros e orientar a tomada de decisões

■ “Torture os dados até eles confessarem”

Page 4: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 4 Sistemas de Apoio à Decisão

Etapas do processo de KDD

Paradigmas de Data Mining:■ Árvores de decisão

■ Regras de inferência

■ Baseado em instâncias (exemplos, fatos passados)

■ Redes neurais, algoritmos estatísticos e genéticos

Page 5: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 5 Sistemas de Apoio à Decisão

KDD x Data Mining

Data Mining é o passo do processo de KDD que produz um conjunto de padrões (conhecimento) sob um custo computacional aceitável

Incorpora tarefas de escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados

O Data Mining fornece os “insights” para gerenciar oportunidades e problemas existentes ou potenciais

Page 6: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 6 Sistemas de Apoio à Decisão

Tipos de Informações do Data Mining

Associações■ Detecta eventos relacionados. Ex: Wall-Mart.

Seqüências■ Comportamento de compras de usuários de cartões.

Classificação■ Quais produtos são mais rentáveis.

Aglomeração■ Identifica agrupamentos nos dados. Ex: locais de crimes.

Prognósticos■ Previsões de vendas, taxa de ocupação de hotéis, etc.

Page 7: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 7 Sistemas de Apoio à Decisão

Tarefas básicas - Previsão

Fixa n variáveis e calcula outras k:■ Cálculo de variáveis de interesse a partir dos

valores de um conjunto de variáveis de explicação

Normalmente é usada no aprendizado de máquina ou estatística

Exemplos: classificação e regressão

Page 8: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 8 Sistemas de Apoio à Decisão

Exemplo de Previsão - Análise de Crédito

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

Legenda: x: crédito recusado

o: crédito concedido

Plano paralelo:■ Fácil interpretação:■ Se renda < t sem crédito

Exemplo:■ árvores de decisão■ indução de regras

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

Plano oblíquo:■ melhor separação

Exemplos:■ regressão linear

■ perceptron

Page 9: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 9 Sistemas de Apoio à Decisão

Exemplo de Previsão - Análise de CréditoLegenda: x: crédito recusado

o: crédito concedido

Superfície não linear:■ melhor classificação■ pior interpretação

Exemplos: ■ perceptrons multicamadas■ regressão não-linear

Baseado em exemplos Exemplos:

■ k-vizinhos mais próximos■ raciocínio baseado em

casos

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

Page 10: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 10 Sistemas de Apoio à Decisão

Exemplo de Árvore de Decisão

Sexo País Idade Compra

M França 25 Sim

M Inglaterra 21 Sim

F França 23 Sim

F Inglaterra 34 Sim

F França 30 Não

M Alemanha 21 Não

M Alemanha 20 Não

F Alemanha 18 Não

F França 34 Não

M França 55 Não

País

Idade

Não Sim

Sim Não

Alemanha Inglaterra

França

> 25< 25

Dados das vendas por mala direta do livro:

“Um guia para restaurantes franceses na Inglaterra”.

Fonte: Aurélio, Vellasco e Lopes (1999)

Page 11: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 11 Sistemas de Apoio à Decisão

Tarefas básicas - Descrição

Reportar relações entre as variáveis do modelo de forma simétrica

À princípio, está mais relacionada ao processo de KDD

Exemplos: agrupamento, sumarização (inclusive de textos), dependências, análise de desvio

Page 12: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 12 Sistemas de Apoio à Decisão

Exemplo de Descrição

renda

déb

ito

++

++

+

+

+

+

++

++

+

+

+

+

t

+

+: exemplo

Análise de crédito AgrupamentoExemplo:

■ Vector quantization

Web Mining:■ Data Mining aplicado à

servidores web■ Prevê padrões de

acesso a servidores

Page 13: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 13 Sistemas de Apoio à Decisão

Data Mining - Cases

American Express:■ Software analisa bilhões de compras para:

• Criar campanhas de marketing individuais• Detectar fraudes e roubos de cartões de crédito

Lojas Brasileiras:■ Reduziu mix de produtos de 51000 para 14000■ Otimizou a organização das gôndolas■ Exemplo de anomalias detectadas:

• Roupas de inverno e guarda chuvas encalhadas no nordeste

• Batedeiras 110V a venda em SC (lá só tem 220V)

Page 14: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 14 Sistemas de Apoio à Decisão

Data Mining - Cases

Bank of America:■ Selecionou entre seus 36 milhões de clientes

■ Aqueles com menor risco de dar calotes

■ Tinham filhos com idades entre 18 e 21 anos

■ Resultado:• Em três anos o banco lucrou 30 milhões de dólares com a

carteira de empréstimos

NASA:■ Cataloga imagem de satélites classifica eventos similares

Empresas de Telecom:■ Detecção de ligações fraudulentas e clones de celulares

Page 15: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 15 Sistemas de Apoio à Decisão

Data Mining - Produtos

Fabricantes:■ Líderes: Oracle, SPSS

e SAS■ Grandes: IBM e CA

Produtos:■ Oracle Data Mining■ SPSS■ SAS – Enterprise Miner■ IBM DB2 Inteligent Miner■ PolyAnalist■ Clementine■ WizRule e WizWhy■ Bramining■ Rule Evolver

Page 16: Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 4 – Decisões Estruturadas – Data Mining – Slide 1 4.2. Data Mining (Mineração de Dados) Qual a motivação?

Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 16 Sistemas de Apoio à Decisão

Oracle Data Mining