Upload
internet
View
115
Download
1
Embed Size (px)
Citation preview
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 1 Sistemas de Apoio à Decisão
4.2. Data Mining (Mineração de Dados)
Qual a motivação?■ “Temos tudo informatizado na empresa, mas
sinto que faltam mais informações. Falta conhecimento. Parece que morro de sede (conhecimento) num oceano de dados”
■ O Data Warehouse não consegue ter insigths durante as análises de dados
■ SPT e SIG: apóiam tarefas rotineiras■ SE e DW: apóiam o processo cognitivo■ Data mining: apóia o processo de
descoberta
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 2 Sistemas de Apoio à Decisão
Exemplo do Wall-Mart
O que fraldas tem a ver com cerveja?Premissas dos gerentes das lojas:
■ Mães compram fraldas seção feminina e de bebês.■ Homens compram cervejas seção masculina e bebidas.
O Terada Warehouse Miner fez a seguinte sugestão:■ Coloquem a seção de fraldas ao lado da seção de cervejas.
Resultado:■ As vendas de cerveja cresceram 30%.■ As vendas de fraldas cresceram 40%.
Porque?■ Homens casados, entre 25 e 30 anos, compram fraldas e/ou
cervejas no final das tardes de sexta-feira no retorno do trabalho para casa.
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 3 Sistemas de Apoio à Decisão
Descoberta de conhecimento em DB
“Um processo não trivial de identificação de padrões válidos, novos, úteis e implicitamente presentes em grandes volumes de dados.” (Knowledge Discovery in Database - KDD - Fayyad et al. 1996)■ Usa várias técnicas para descobrir modelos e
relações ocultas em grandes bancos de dados
■ Isto permite inferir regras de comportamento futuros e orientar a tomada de decisões
■ “Torture os dados até eles confessarem”
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 4 Sistemas de Apoio à Decisão
Etapas do processo de KDD
Paradigmas de Data Mining:■ Árvores de decisão
■ Regras de inferência
■ Baseado em instâncias (exemplos, fatos passados)
■ Redes neurais, algoritmos estatísticos e genéticos
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 5 Sistemas de Apoio à Decisão
KDD x Data Mining
Data Mining é o passo do processo de KDD que produz um conjunto de padrões (conhecimento) sob um custo computacional aceitável
Incorpora tarefas de escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados
O Data Mining fornece os “insights” para gerenciar oportunidades e problemas existentes ou potenciais
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 6 Sistemas de Apoio à Decisão
Tipos de Informações do Data Mining
Associações■ Detecta eventos relacionados. Ex: Wall-Mart.
Seqüências■ Comportamento de compras de usuários de cartões.
Classificação■ Quais produtos são mais rentáveis.
Aglomeração■ Identifica agrupamentos nos dados. Ex: locais de crimes.
Prognósticos■ Previsões de vendas, taxa de ocupação de hotéis, etc.
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 7 Sistemas de Apoio à Decisão
Tarefas básicas - Previsão
Fixa n variáveis e calcula outras k:■ Cálculo de variáveis de interesse a partir dos
valores de um conjunto de variáveis de explicação
Normalmente é usada no aprendizado de máquina ou estatística
Exemplos: classificação e regressão
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 8 Sistemas de Apoio à Decisão
Exemplo de Previsão - Análise de Crédito
renda
déb
ito
xx
xx
x
x
x
o
oo
oo
o
o
o
o
t
sem crédito
o
Legenda: x: crédito recusado
o: crédito concedido
Plano paralelo:■ Fácil interpretação:■ Se renda < t sem crédito
Exemplo:■ árvores de decisão■ indução de regras
renda
déb
ito
xx
xx
x
x
x
o
oo
oo
o
o
o
o
t
sem crédito
o
Plano oblíquo:■ melhor separação
Exemplos:■ regressão linear
■ perceptron
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 9 Sistemas de Apoio à Decisão
Exemplo de Previsão - Análise de CréditoLegenda: x: crédito recusado
o: crédito concedido
Superfície não linear:■ melhor classificação■ pior interpretação
Exemplos: ■ perceptrons multicamadas■ regressão não-linear
Baseado em exemplos Exemplos:
■ k-vizinhos mais próximos■ raciocínio baseado em
casos
renda
déb
ito
xx
xx
x
x
x
o
oo
oo
o
o
o
o
t
sem crédito
o
renda
déb
ito
xx
xx
x
x
x
o
oo
oo
o
o
o
o
t
sem crédito
o
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 10 Sistemas de Apoio à Decisão
Exemplo de Árvore de Decisão
Sexo País Idade Compra
M França 25 Sim
M Inglaterra 21 Sim
F França 23 Sim
F Inglaterra 34 Sim
F França 30 Não
M Alemanha 21 Não
M Alemanha 20 Não
F Alemanha 18 Não
F França 34 Não
M França 55 Não
País
Idade
Não Sim
Sim Não
Alemanha Inglaterra
França
> 25< 25
Dados das vendas por mala direta do livro:
“Um guia para restaurantes franceses na Inglaterra”.
Fonte: Aurélio, Vellasco e Lopes (1999)
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 11 Sistemas de Apoio à Decisão
Tarefas básicas - Descrição
Reportar relações entre as variáveis do modelo de forma simétrica
À princípio, está mais relacionada ao processo de KDD
Exemplos: agrupamento, sumarização (inclusive de textos), dependências, análise de desvio
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 12 Sistemas de Apoio à Decisão
Exemplo de Descrição
renda
déb
ito
++
++
+
+
+
+
++
++
+
+
+
+
t
+
+: exemplo
Análise de crédito AgrupamentoExemplo:
■ Vector quantization
Web Mining:■ Data Mining aplicado à
servidores web■ Prevê padrões de
acesso a servidores
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 13 Sistemas de Apoio à Decisão
Data Mining - Cases
American Express:■ Software analisa bilhões de compras para:
• Criar campanhas de marketing individuais• Detectar fraudes e roubos de cartões de crédito
Lojas Brasileiras:■ Reduziu mix de produtos de 51000 para 14000■ Otimizou a organização das gôndolas■ Exemplo de anomalias detectadas:
• Roupas de inverno e guarda chuvas encalhadas no nordeste
• Batedeiras 110V a venda em SC (lá só tem 220V)
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 14 Sistemas de Apoio à Decisão
Data Mining - Cases
Bank of America:■ Selecionou entre seus 36 milhões de clientes
■ Aqueles com menor risco de dar calotes
■ Tinham filhos com idades entre 18 e 21 anos
■ Resultado:• Em três anos o banco lucrou 30 milhões de dólares com a
carteira de empréstimos
NASA:■ Cataloga imagem de satélites classifica eventos similares
Empresas de Telecom:■ Detecção de ligações fraudulentas e clones de celulares
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 15 Sistemas de Apoio à Decisão
Data Mining - Produtos
Fabricantes:■ Líderes: Oracle, SPSS
e SAS■ Grandes: IBM e CA
Produtos:■ Oracle Data Mining■ SPSS■ SAS – Enterprise Miner■ IBM DB2 Inteligent Miner■ PolyAnalist■ Clementine■ WizRule e WizWhy■ Bramining■ Rule Evolver
Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 16 Sistemas de Apoio à Decisão
Oracle Data Mining