Data Mining Paulo Abadie Guedes Eduardo Aranha. Introdução n Aplicação de processos de análise...

Preview:

Citation preview

Data Mining

Paulo Abadie Guedes

Eduardo Aranha

Introdução

Aplicação de processos de análise

inteligentes visando manipulação automática

de quantidades imensas de dados

Larga aplicação nos mais variados ramos da

indústria, comércio, medicina, governo,

administração, etc.

Mineração de Dados: Exemplo 1

Fraldas e cervejas homens casados, entre 25 e 30 anos compravam fraldas e/ou cervejas às

sextas-feiras à tarde no caminho do trabalho para casa

Wal-Mart otimizou as gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas

Resultado: o consumo cresceu 30%

Mineração de Dados: Exemplo 2

Bank of America – Selecionou entre seus 36 milhões de

clientesAqueles com menor risco de dar calotes Resultado: em três anos o banco lucrou

30 milhões de dólares com a carteira de empréstimos.

Motivação

Quantidades imensas de dados Necessidade de transformar dados em

informação útil Análise de Mercado Sistemas de Suporte à Decisão Gerência Empresarial Análise de tendências, etc.

Knowledge Discovery

Processo de filtragem de conhecimento útil Necessidade de compreender e utilizar de

forma efetiva os dados disponíveis para a tomada de decisões

Integra várias técnicas e tecnologias, incluindo estatística, visualização de dados, IA, BD / OLAP / data warehouse, processamento de sinais e supercomputação

Data Mining: Definição

Processo de explicitar o conhecimento interessante de uma grande massa de dados– Padrões e relações entre os dados– Alterações e anomalias– Estruturas significantes– Fenômenos periódicos ou desconhecidos– Apresentar de forma sucinta e compreensível o

conhecimento obtido É parte do processo de descoberta de

conhecimento

Análise de Dados X Data Mining

Análise de dados– Orientado a suposições– Formula-se uma hipótese– Esta é validada contra os dados

Data mining– Orientada a descoberta– Padrões são automaticamente extraídos– Usa técnicas de IA para reconhecimento e

análise do que é interessante ou não– Requer muito poder computacional

Knowledge Discovery Process

Data cleaning Data integration Data selection Data transformation Data mining Pattern evaluation Knowledge presentation

Pré - processamento

Data Cleaning– Eliminaçao de “ruído”:

– Dados inválidos

– Dados incompletos

– Dados irrelevantes

Data Integration– Integração de dados de múltiplas fontes

heterogêneas

Pré - processamento

Data Selection

– Dados relevantes à análise são recuperados

Data transformation

– Transformação e consolidação dos dados em um

formato apropriado para a mineração

– Operações de agregação e resumo

– Processamento analítico (OLAP)

Data Mining (ML em BD)

Algoritmos de aprendizagem de máquina (ID3, version space, Redes neurais, redes bayesianas, ...) são aplicados para extrair padrões dos dados pré-processados

Reconhecimento de grupos, propriedades, relações, estruturas, anomalias, etc.

Depende diretamente da tarefa desejada

Avaliação e Apresentação

Avaliação de Padrões– Padrões realmente interessantes são identificados– Representam o conhecimento desejado– Processo baseado em medidas de interesse

Apresentação do conhecimento obtido– Técnicas de visualização e representação– O conhecimento minerado é apresentado ao

usuário de forma compreensível e concisa

Data Mining Tasks

Class Description– Caracterização– Comparação ou discriminação– Propriedades resumidas– Quantidade, totais, médias e análise estatística

Exemplo– Comparar as vendas de uma empresa na Europa e na

Ásia, identificando fatores discriminativos importantes e expondo uma visão global da situação

Data Mining Tasks

Associação– Descoberta de relacionamentos entre um conjunto

de dados

– Expresso por regras atributo-valor de condições que ocorrem freqüentemente juntas

– x(A) y(A) se satisfaz x, tende a satisfazer y

Exemplo– cerveja(x) fraldas(x)

Data Mining Tasks

Classificação– Processa um conjunto de treinamento (classe)– Constrói um modelo para cada classe– Gera a árvore de decisão ou conjunto de regras– Usada para compreender cada classe e

classificação posterior de novos dados– Estatística, BD, redes neurais, aprendizado, etc.

Ex.: Análise de crédito, modelagem de empreendimentos, etc.

Data Mining Tasks

Previsão– Prevê os valores possíveis ou a distribuição

destes a partir de certos atributos do BD– Encontrar os atributos relevantes para o atributo

de interesse– Previsão baseada no conjunto de dados mais

similar ao escolhido– Análise de regressão, de correlação, árvores de

decisão– Algoritmos genéticos e redes neurais– Data mining preditivo

Ex.: Previsão de qualidade

Data Mining Tasks

Agregação (Clustering)– Identifica grupos escondidos nos dados

– Grupo objetos similares

– Expressa por funções de distância

– Relação de similaridade conhecida a priori por especialistas ou usuários

– Alta similaridade no grupo, baixa entre grupos

Data Mining Tasks

Análise de séries temporais– Identifica regularidades e características temporais

interessantes escondidas nos dados– Analisa padrões seqüenciais, periódicos, tendências

e desvios– Busca seqüências similares ou subseqüências

Exemplo– Previsão da tendência de variação das quantidades

em estoque de uma empresa, baseado no histórico do estoque, situação financeira, atuação da concorrência e situação do mercado

Mining Complex Data

Dados espaciais Texto Multimídia Séries temporais Dados complexos Dados heterogêneos Semi-estruturados ou desestruturados

Outras áreas de aplicação

Vendas e Marketing Identificar padrões de comportamento de

consumidores Associar comportamentos à características

demográficas de consumidores Campanhas de marketing direto (mailing

campaigns) Identificar consumidores “leais”

Áreas de aplicações potenciais

Bancos Identificar padrões de fraudes (cartões de

crédito)

Identificar características de correntistas

Mercado Financeiro

Minimizar prejuízos através de crédito a

clientes de “confiança”

Áreas de aplicações potenciais

Médica– Comportamento de pacientes

– Identificar terapias de sucessos para diferentes

tratamentos

– Fraudes em planos de saúdes

– Comportamento de usuários de planos de saúde

– Planos diferenciados por perfil

Empresas de software para Data mining:

SAS – http://www.sas.com

Information Havesting -

– http://www.convex.com

Red Brick

– http://www.redbrick.com

Oracle

– http://www.oracle.com

Sybase

– http://www.sybase.com

Informix

– http://www.informix.com

IBM

– http://www.ibm.com

Conclusão - Diretrizes

Onde o processo de descoberta de conhecimento deve ser aplicado?

– Estudo de novos experimentos– disponibilidade de dados suficientes

com nível aceitável de ruído sem problemas de ordem jurídica

– especialistas disponíveis para: avaliação do grau de interesse das descobertas obtidas seleção de atributos descrição de conhecimento a priori em geral

On-Line Analytical Processing (OLAP) OLAP descreve uma classe de tecnologia

que são designadas para livres acessos e

análises ad hoc.

OLAP tem sido considerado um sinônimo de

visões multidimensionais de dados de

negócio. Estas visões multidimensionais são

suportadas por uma tecnologia

multidimensional de bando de dados.

On-Line Analytical Processing (cont.) Aplicações OLTP (On-Line Transaction

Processing) caracterizadas por vários

usuários criando, atualizando ou acessando

registros individuais.

Aplicações OLAP são usados por analistas e

gerentes que frequentemente desejam uma

visão agregada de alto nível dos dados,

como total de vendas por produto, por região,

etc.

On-Line Analytical Processing (cont.) Aplicações OLAP usualmente atualizadas em

batch, a partir de múltiplas fontes.

Banco de dados relacionais são bons para

retornar um pequeno número de registro

rapidamente.

Regiões de venda por produtos pode levar

horas (segundos em um BD OLAP)

On-Line Analytical Processing (cont.)

On-Line Analytical Processing (cont.)

Referências

KDNuggets Directory– http://www.kdnuggets.com

The Data Mine– http://www.cs.bham.ac.uk/~anp/TheDataMine.html

Microsoft Decision Theory and Adaptive Systems– http://research.microsoft.com/dtas/

DBMiner: demonstração– http://db.cs.sfu.ca/DBMiner/dbmdemo.html

Referências

http://www.pcc.qub.ac.uk/tec/courses/datamining http://www.rio.com.br/~extended http://www.datamining.com http://www.santafe.edu/~kurt http://www.datamation.com http://www-dse.doc.ic.ac.uk/~kd http://www.cs.bham.ac.uk/~anp http://www.dbms.com/ http://www.infolink.com.br/~mpolito/mining/mining.html http://www.lci.ufrj.br/~labbd/semins/grupo1

Referências

Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill.

Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data Analysis: Issues and Examples”. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço http://research.microsoft.com/~fayyad.

Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). “From Data Mining to Knowledge Discovery: An Overview”, em Advances in Knowledge Discovery and Data Mining. AAAI Press.

Referências

Imielinski, T; Mannila, H. (1996). “A Database Perspective on Knowledge Discovery”. Communications of the ACM, volume 39, número 11.

Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). ”Selecting and Reporting What is Interesting”. Em Advances in Knowledge Discovery and Data Mining. AAAI Press.

Referências

Freitas, A. A. (1997). “On objective measures of rule surprisingness”. Em Proceedings of the 2nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço http://dainf.cefetpr.br/~alex/thesis.html.

Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço http://hss.cmu.edu/html/departments/ philosophy/TETRAD.BOOK/book.html

Recommended