João G. Gutheil [email protected] Ciência da Computação - Feevale
Especialização em Gestão do Conhecimento e Int. Estratégica - UCS
Analista de TI – AGCO
Analista de TI – Grupo RBS
Vice-Coordenador do GUBI (Grupo de Usuários de BI) – Sucesu RS
Áreas de interesse
Ferramentas de Mineração de Dados
Ferramentas e aplicações de BI
Tecnologias NoSQL e Analytics
Yosemite
Apresentação
Qual a motivação?
Onde DM se posiciona? Afinal, é BI ou não?
Onde posso aplicar DM?
Quais aplicativos ou ferramentas?
Compras
Vendas
Financeiro
Produção
Contábil
RH
Custos
Fiscal
Logistica Engenharia
Planejamento
Marketing
Integração entre áreas de negócio Industria hipotética
CRM
Dados, informações
?
?
Dados, informações
Compras
Vendas
Financeiro
Produção
Contábil
RH
Custos
Fiscal
Logistica Engenharia
Planejamento
Marketing
Relações, padrões, tendências, exceções...
CRM
?
?
Dados, informações
Dados, informações
O que envolve? • Estatística (muita) • Bancos de dados • Inteligência artificial
O que não é? • OLAP ou análise multidimensional (Cubos) • Processamento dedutivo de consultas (Achômetro)
O que é? • Conjunto de técnicas para descoberta de padrões,
tendências e relações nos BD para apoio a tomada de decisão • Um componente da plataforma de BI
O que aconteceria se?
O que irá acontecer?
Por que aconteceu?
BI
Analytics
Relatórios e dashboards
Mineração de Dados O que aconteceu?
Informação
Análise descritiva
Análise e diagnósticos
Análise preditiva
Análise prescritiva
Simulação e IA
Mineração de Dados
Impacto sobre o business
Melhores decisões
Com
ple
xid
ade
Aprendizagem supervisionada o Estimar o preço de uma casa
Atributos: Tamanho, posição solar, material Classe: Preço (Regressão)
Aprendizagem Não-supervisionada o Dado um conjunto de itens comprados num determinado Período, identificar os padrões de compra o Dado histórico de pagamento de clientes, identificar o padrão de comportamento (perfil de bons ou maus pagadores)
Método Definição Exemplo
Associação Avaliar valores que ocorrem juntos em transações ou eventos
Case fralda & cerveja
Correlação Similaridade entre duas variáveis numéricas
Numero de promoções X aumento de clientes
Regressão e modelos de predição
Correlação entre duas ou mais variáveis
Previsão do tempo
Detecção de desvios (Outliers) Análise do que está fora dos padrões
Indícios de fraude
Séries temporais Repetições de séries numéricas ao longo do tempo
Comportamento da bolsa de valores
Classificação (Ex: Arvores de decisão, redes Bayesianas)
Categorizar elementos ; predição
Churn/cancelamento de assinantes
Agrupamento (Clustering) Identificar classes a partir de um grupo de elementos
Definir o perfil de clientes
Etapas do processo de DM CRISP-DM CRoss Industry Standard Process for Data Mining
https://pt.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining
Otimização de estoque
Pedidos/vendas, items, Geo
Ex: Categorizar períodos
Modelo de predição
Peça: Quando, onde?
Área Exemplo de Aplicação
Comércio • Qual o conjunto de produtos mais vendidos em determinado dia da semana e qual o perfil do cliente?
• Qual o perfil dos meus clientes mais rentáveis?
• Sistemas de recomendação
Planos de Saúde • Avaliar perfil da carteira de beneficiários • Detecção de fraudes
CRM • Quais eventos levam um prospect a fechar ou cancelar um negócio?
Financeiro • Análise de crédito • Previsão de fluxo de caixa • Detecção de fraudes
Database Marketing • Avaliar a qualidade de incorporações • Quais produtos oferecer para um
determinado perfil • Ações antecipativas para retenção de
clientes
Área Exemplo de Aplicação
RH • Perfil de funcionário X produtividade • Análise de absenteísmo
Transportes • Análise e otimização de rotas • Otimização de cargas
Saúde • Definição e efetividade de tratamentos • Probabilidade de diagnósticos (Ex.
Diabetes, câncer)
Segurança da informação • Detecção de intrusos • Detecção de fraudes
Text Mining • Identificar conceitos (contexto, tema ou assunto) em um texto
R Orange DM SSAS (MS) SPSS (IBM) Weka
Apache Mahout Scikit (Python) Oracle DM (Option) SAS
Knime Rapid Miner
Data Mining é automático? Não. É um processo interativo e requer supervisão
Investimentos em DM são recuperados de forma rápida?
Depende de diversos fatores. Qualidade e volume de informações, por exemplo
Data Mining pode identificar problemas no negócio?
Pode encontrar padrões, fenômenos e co-relações. Pode levar a deduções que indicam determinadas causa