1 Mineração de Dados Mineração de Dados Introdução

Embed Size (px)

Text of 1 Mineração de Dados Mineração de Dados Introdução

  • Slide 1
  • 1 Minerao de Dados Minerao de Dados Introduo
  • Slide 2
  • 2 Introduo 1/ * Motivao * Exploso de Dados * Ferramentas automticas de coleta de dados +maturidade das tecnologias de bancos de dados * enorme quantidade de dados armazenados em bases de dados e outros meios de armazenamento * Abundancia de dados ao lado de escassez de conhecimentos
  • Slide 3
  • 3 Introduo 2/ * Motivao * Exploso de Dados * Soluo: data warehousing e minerao de dados * descoberta de conhecimentos (regras, regularidades, padres) a partir de enormes bases de dados
  • Slide 4
  • 4 KDD: Descoberta de Conhecimentos a partir de bancos de dados Limpeza de Dados Integrao de Dados Bases de dados Data Warehouse Dados relevantes Seleo Minerao de Dados Avaliao dos Padres
  • Slide 5
  • 5 Introduo 4/ * Passos do Processo KDD * Estudo do domnio de aplicao * conhecimento a priori relevante, objetivo da aplicao * Seleo dos dados * Limpeza e pre-processamento dos dados (60% do esforo) * Reduo e transformao de dados * seleo de atributos, reduo de dimenso
  • Slide 6
  • 6 Introduo 5/ * Passos do Processo KDD * Escolha dos modelos de minerao * sumrio, classificao, regresso, associao, clustering * Escolhas dos algoritmos de minerao * Minerao de dados: busca de padres de interesse
  • Slide 7
  • 7 Introduo 6/ * Passos do Processo KDD * Avaliao dos padres e apresentao do conhecimento * visualizao, transformao, remoo de padres redundantes * Uso do conhecimento descoberto
  • Slide 8
  • 8 Minerao de Dados e Inteligencia nos Negcios Potencial crescente de apoio a decises nos negcios Usurio Final Analista de Negcios Analista de Dados Tomador de Decises Apresentao dos Dados Tecnicas de Visualizao Minerao de Dados Descoberta de Informao Explorao de Dados OLAP Anlise estatstica, consultas, relatrios Data Warehouses / Data Marts Fontes de Dados Papeis, Arquivos, Provedores de Informao, Bases de Dados, OLTP
  • Slide 9
  • 9 Arquitetura de um sistema usual de minerao de dados Data Warehouse Limpeza e integrao de dados Filtragem Bases de dados Servidor de base de dados ou data warehouse Minerao de Dados Avaliao dos Padres Interface Grfica Knowledge-base
  • Slide 10
  • 10 Introduo 9/ * Fontes de dados para a minerao * Bases de dados relacionais * Data warehouses * Bases de dados transacionais
  • Slide 11
  • 11 Introduo 10/ * Fontes de dados para a minerao * Bases de dados avanadas e repositrios de dados * bases de dados orientada objeto e bases de dados objeto-relacional * bases de dados espaciais * dados temporais e seqenciais * bases de dados textuais e bases de dados multimdia * bases de dados heterogneas * WWW
  • Slide 12
  • 12 Introduo 11/ * Funcionalidades da minerao de dados * Descrio de conceitos: caracterizao e discriminao * Generaliza, resume e contrasta as caractersticas dos dados * Associao: correlao e causualidade * associao multi-dimensional versus associao uni- dimensional * idade(X, 20..29) ^ renda(X, 20..29K) compra(X, PC) [suporte = 2%, confiancia = 60%]
  • Slide 13
  • 13 Introduo 12/ * Funcionalidades da minerao de dados * Classificao e previso * Construir modelos (funes) que descrevem e distinguem classes ou conceitos para previses futuras * modelos: redes neurais, arvores de deciso, regras de classificao * Previso: prever valores numricos ausentes ou desconhecidos
  • Slide 14
  • 14 Introduo 13/ * Funcionalidades da minerao de dados * Anlise de cluster * os rtulos das classes so desconhecidos * agrupar dados para formar novas classes * O agrupamento baseado em: maximizar a similaridade intra-classe e minimizar a similaridade inter-classe
  • Slide 15
  • 15 Introduo 14/ * Funcionalidades da minerao de dados * Anlise de valores aberrantes (outliers) * Outilier : um dado que diverge do comportamento geral dos dados * Pode ser considerado ruido ou exceo * comum em deteco de fraudes e anlise de eventos raros
  • Slide 16
  • 16 Introduo 15/ * Funcionalidades da minerao de dados * Anlise de tendncia e evoluo * tendncia e desvio: anlise de regresso * Minerao de padres seqenciais: anlise de periodicidade * anlise baseada em similaridade
  • Slide 17
  • 17 Introduo 16/ * Interesse dos padres descobertos * Um sistema de minerao de dados pode gerar centenas de padres * nem todos so de interesse * Um padro interessante, * se ele facilmente entendido pelos humanos, * validado em dados independentes, potencialmente til, * novo, ou valida alguma hiptese que o usurio procurava confirmar
  • Slide 18
  • 18 Introduo 17/ * Interesse dos padres descobertos * Medidas de interesse de um padro * objetivas: baseadas em estatsticas e estruturas dos padres (suporte, confiana) * subjetivas: baseadas nas crenas do usurio nos dados (novidade inesperada)
  • Slide 19
  • 19 Minerao de Dados: Confluencia de Multiplas Disciplinas Minerao de Dados Tecnologia de Bases de Dados Estatstica Outras Disciplinas Cincias da Informao Aprendizagem de Mquina Visualizao
  • Slide 20
  • 20 Introduo 19/ * Minerao de Dados: Classificao * Funcionalidade geral * Minerao de dados descritiva * Minerao de dados preditiva * Outros critrios * tipo de base de dados a ser minerada * tipo de conhecimento a ser descoberto * tipo de tcnica a ser utilizada * tipo de aplicaes
  • Slide 21
  • 21 Introduo 20/ * Minerao de Dados: Classificao * Base de dados a ser minerada * relacional, transacional, orientada objeto, objeto- relacional, espacial, temporal, textual, multimdia, heterognea, WWW * Conhecimento a ser minerado * Caracterizao, descriminao, associao, classificao, clustering, tendncia e anlise de desvio * Funes mltiplas e integradas e minerao a nveis mltiplos
  • Slide 22
  • 22 Introduo 21/ * Minerao de Dados: Aplicaes potenciais * Anlise de bases de dados e suporte a deciso * anlise de mercado * alvo de campanhas, anlise de compras, segmentao do mercado, gerencia de relaes com clientes, vendas cruzadas * anlise de risco * fidelizao de clientes, controle de qualidade, anlise de competitividade * deteco de fraude
  • Slide 23
  • 23 Introduo 22/ * Minerao de Dados: Aplicaes potenciais * Anlise de bases de dados e suporte a deciso * deteco de fraude * Outras aplicaes * Minerao de texto (email, documentos) e web analise
  • Slide 24
  • 24 Introduo 23/ * Anlise de Mercado * Fontes de dados para anlise * transaes de carto, cartes de fidelidade, cupons de desconto, queixas de clientes, estudos de estilos de vida * Alvo de campanhas * encontrar grupos de clientes que partilham as mesmas caractersticas: interesse, nvel de renda, hbitos de consumo
  • Slide 25
  • 25 Introduo 24/ * Anlise de Mercado * padres de compras de clientes no tempo * converso para uma conta conjunta: casamento * Anlise cruzada de mercado * associaes/correlaes entre vendas de produtos * previso baseada nas informaes de associao
  • Slide 26
  • 26 Introduo 25/ * Anlise de Mercado * perfil de consumidores * que tipo de consumidores compra que tipo de produto * Identificao das exigncias dos consumidores * identificao dos melhores produtos para diferentes tipos de clientes * encontrar que fatores atrairo novos clientes
  • Slide 27
  • 27 Introduo 26/ * Anlise de Mercado * sumrios * relatrios muti-dimensionais * sumrios estatsticos (medidas de tendncia central e de disperso)
  • Slide 28
  • 28 Introduo 27/ * Anlise de Risco * Plano financeiro e avaliao de recursos * anlise de fluxo de caixa * Planificao de receitas * sumrio e comparao de receitas e despesas * Competio * agrupar clientes em classes e oferecer preos baseados em classes
  • Slide 29
  • 29 Introduo 28/ * Deteco de fraudes * aplicaes * planos de sade, varejo, cartes de crdito, fraude em cartes telefnicos * Abordagem * uso de dados histricos para construir modelos de comportamento fraudulento e uso de minerao de dados para ajudar a identificar instancias similares
  • Slide 30
  • 30 Introduo 29/ * Deteco de fraudes * Exemplos * seguro de carros * transaes monetrias fraudulentas * seguro de sade * deteco de tratamento mdico inapropriado * deteco de fraude telefnica * varejo
  • Slide 31
  • 31 Introduo 30/ * Tendncias em Minerao * metodologia de minerao e iterao com o usurio * desempenho e escalabilidade * diversidade de tipos de dados * aplicaes e impactos sociais