32
Minera Minera ç ç ão de Dados ão de Dados Profa. Sandra de Amo Profa. Sandra de Amo Pós-Graduação em Ciência da Pós-Graduação em Ciência da Computação Computação Faculdade de Computação Faculdade de Computação Universidade Federal de Uberlândia Universidade Federal de Uberlândia

Minera ç ão de Dados

Embed Size (px)

DESCRIPTION

Minera ç ão de Dados. Profa. Sandra de Amo Pós-Graduação em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia. Contexto e Motivação. Mineração de dados: Por que ? O que é ? O processo de descoberta de conhecimento - PowerPoint PPT Presentation

Citation preview

MineraMineraçção de Dadosão de Dados

Profa. Sandra de AmoProfa. Sandra de Amo

Pós-Graduação em Ciência da ComputaçãoPós-Graduação em Ciência da Computação

Faculdade de Computação Faculdade de Computação

Universidade Federal de UberlândiaUniversidade Federal de Uberlândia

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 22

Contexto e MotivaçãoContexto e Motivação Mineração de dados: Por que ? O que é ?Mineração de dados: Por que ? O que é ?

O processo de descoberta de O processo de descoberta de conhecimentoconhecimento

Tarefas de mineração: preditivas, Tarefas de mineração: preditivas, descritivasdescritivas

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 33

Mineração de Dados: Por que ?Mineração de Dados: Por que ?

Quantidades gigantescas de dados são Quantidades gigantescas de dados são coletados e armazenados em coletados e armazenados em empresas, corporações, etcempresas, corporações, etc Dados de comércio eletrônico,Dados de comércio eletrônico, Dados de navegação na internetDados de navegação na internet Dados de compras de clientes em grandes Dados de compras de clientes em grandes

lojas de departamentos, supermercados, lojas de departamentos, supermercados, Dados de transações bancárias, ou de Dados de transações bancárias, ou de

cartão de créditocartão de crédito

Computadores mais baratos e mais Computadores mais baratos e mais potentespotentes

Pressão da Competição Pressão da Competição

Ponto de Vista ComercialPonto de Vista Comercial

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 44

Mineração de Dados: Por que ?Mineração de Dados: Por que ?

Dados coletados e armazenadosDados coletados e armazenados

a velocidades enormes (GB/hora)a velocidades enormes (GB/hora) Sensores remotos em satélitesSensores remotos em satélites

Telescópios Telescópios

Microarrays gerando dados de Microarrays gerando dados de expressões de genes expressões de genes

Simulações científicas gerando terabytes Simulações científicas gerando terabytes de dados.de dados.

Técnicas tradicionais não Técnicas tradicionais não apropriadas para analisar tais dados:apropriadas para analisar tais dados: ruídos e grande dimensionalidaderuídos e grande dimensionalidade

Ponto de Vista Cientifico : Medicina, Biologia, Engenharia

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 55

Mineração de Dados - Por que ?Mineração de Dados - Por que ?

Frequentemente existe informaFrequentemente existe informaçção ão ““escondidaescondida”” nos dados nos dados que não que não éé evidente de ser encontrada utilizando evidente de ser encontrada utilizando linguagens de consultas tradicionais. linguagens de consultas tradicionais.

Analistas humanos podem levar semanas para Analistas humanos podem levar semanas para correlacionar e descobrir alguma informacorrelacionar e descobrir alguma informaçção ão úútil dentro de til dentro de uma grande massa de dados.uma grande massa de dados.

Boa parte dos dados nunca Boa parte dos dados nunca éé analisado: analisado: ““cemitcemitéériorio”” de de dados.dados.

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 66

Mineração de Dados: Por que ?Mineração de Dados: Por que ?

Técnicas de Mineração podem ajudar Técnicas de Mineração podem ajudar analistas:analistas: Entender e prever as necessidades dos clientesEntender e prever as necessidades dos clientes Descobrir fraudesDescobrir fraudes Descobrir perfis de comportamento de clientes Descobrir perfis de comportamento de clientes

Técnicas de Mineração podem ajudar Técnicas de Mineração podem ajudar cientistascientistas:: Classificar e segmentar dadosClassificar e segmentar dados Formular hipótesesFormular hipóteses

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 77

Mineração de Dados: O que é ?Mineração de Dados: O que é ? Sim

1.Agrupar documentos similares retornados pelo Google de acordo com seu contexto.

2. Descobrir se certos nomes aparecem com mais frequência em determinadas regiões da cidade (periferia, centro, bairros abastados,…)

Não 1. Fazer uma

consulta no Google sobre “Data Mining ”

2. Procurar um nome numa lista telefônica

3. Fazer uma consulta SQL a um banco de dados.

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 88

ExemplosExemplos

Qual o perfil do cliente que consome mais ?Qual o perfil do cliente que consome mais ? Que produtos são comprados conjuntamente ? Que produtos são comprados conjuntamente ?

E em sequência ?E em sequência ? Meu site web tem uma boa estrutura ?Meu site web tem uma boa estrutura ? Como as chuvas, variação de temperatura, Como as chuvas, variação de temperatura,

aplicação de pesticidas afetam as colheitas ?aplicação de pesticidas afetam as colheitas ? Existe uma relação entre o aquecimento global Existe uma relação entre o aquecimento global

e a frequência e intensidade das perturbações e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, no ecossistema tais como secas, furacões, enchentes ? enchentes ?

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 99

Etapas do Processo de KDDEtapas do Processo de KDD

Limpeza dos DadosLimpeza dos DadosIntegração dos DadosIntegração dos DadosSeleçãoSeleçãoTransformaçãoTransformaçãoMineraçãoMineraçãoAvaliação ou Pós-ProcessamentoAvaliação ou Pós-ProcessamentoVisualização dos ResultadosVisualização dos Resultados

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1010

Mineração:Mineração: Etapa central do Etapa central do processo de processo de Descoberta de Descoberta de ConhecimentoConhecimento

Limpeza

Integração dos Dados

Banco de Dados

Data Warehouse

Dados Relevantes

Seleção

Mineração

Análise do Resultado

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1111

Tarefas de MineraçãoTarefas de Mineração

Tarefa ato de descobrir um certo Tarefa ato de descobrir um certo tipo de tipo de padrão padrão

Regras de Associação Regras de Associação Análise de SequênciasAnálise de SequênciasClassificaçãoClassificaçãoAgrupamentoAgrupamentoOutliersOutliers

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1212

Tarefas de Mineração de DadosTarefas de Mineração de Dados

Tarefas PreditivasTarefas Preditivas predizer o valor de um determinado atributo predizer o valor de um determinado atributo

baseado nos valores de outros atributosbaseado nos valores de outros atributosClassificação – PrediçãoClassificação – Predição

Tarefas DescritivasTarefas Descritivas Derivar « Derivar « padrõespadrões » : correlações, » : correlações,

tendências, anomalias, agrupamentos dentro tendências, anomalias, agrupamentos dentro de uma grande massa de dados.de uma grande massa de dados.Regras de Associação – Padrões Regras de Associação – Padrões Sequenciais – Agrupamentos - AnomaliasSequenciais – Agrupamentos - Anomalias

Técnicas de Mineração

Técnicas Estatísticas Técnicas de Inteligência Artificial

Técnicas de Gerenciamento Eficiente de Grandes Volumes de Dados

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1414

O que é Mineração ?O que é Mineração ?

Mineração de Dados Mineração de Dados

Descoberta de Conhecimento (KDD)Descoberta de Conhecimento (KDD)

KDD = Knowledge Discovery in DatabasesKDD = Knowledge Discovery in Databases

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1515

Sistemas de MineraçãoSistemas de Mineração

Intelligent Miner (IBM)Intelligent Miner (IBM)DBMiner DBMiner Enterprise MinerEnterprise MinerClementineClementineMineSetMineSetGenamics ExpressionsGenamics Expressions

Tópicos AtuaisTópicos Atuais

Mineração de Preferências Mineração de Preferências Sistemas de RecomendaçãoSistemas de Recomendação

ConsultaConsulta

Quais os pacotes turísticos de Quais os pacotes turísticos de menos de 15 dias que você menos de 15 dias que você pode me propor em 2011 ? pode me propor em 2011 ?

Resposta

Minhas Preferências ...Minhas Preferências ... Prefiro estadias mais curtas (menos de duas Prefiro estadias mais curtas (menos de duas

semanas) do que estadias longas (de duas semanas) do que estadias longas (de duas semanas ou mais).semanas ou mais).

Prefiro viajar durante as férias de verão.Prefiro viajar durante as férias de verão.

Para estadias curtas prefiro aquelas nas grandes Para estadias curtas prefiro aquelas nas grandes cidades, pois gosto de ir a museus, bons restaurantes e cidades, pois gosto de ir a museus, bons restaurantes e shows.shows.

Para minhas viagens durante as férias de verão, prefiro Para minhas viagens durante as férias de verão, prefiro viajar para a praia, viajar para a praia, caso eu viaje com a famíliacaso eu viaje com a família. . Caso Caso eu viajo sozinhoeu viajo sozinho, , je prefiro ir para uma cidade histórica.je prefiro ir para uma cidade histórica.

Problemas a resolver Problemas a resolver

1. Como modelar as preferências do usuário ? Usar regras ? Usar scores ?

2. Como obter as preferências do usuário ?

3. Como utilizar as preferências do usuáriopara “personalizar”as respostas ?

4. Como utilizar as preferências do usuáriopara “recomendar” produtos(filmes, livros, notícias, pacotesturísticos,...) aos usuários ?

1) Como modelizar preferências 1) Como modelizar preferências

Conjunto de regras Conjunto de regras

RegrasSE a viagem é durante minhas férias de verão e eu vou viajar com minha família ENTÃO eu prefiro ir para uma praia do que para uma cidade histórica.

SE a viagem é durante minhas férias de verão e eu vou viajar sozinho ENTÃO eu prefiro ir para uma cidade histórica do que para uma praia.

2) 2) Como obter as preferências do Como obter as preferências do usuário ?usuário ?

Perguntar ao usuário ?Perguntar ao usuário ?

Mostrar algumas respostas e pedir um Mostrar algumas respostas e pedir um feedback do usuário se gostou ou não ?feedback do usuário se gostou ou não ?

Utilizar métodos automáticos ? Utilizar métodos automáticos ?

Mineração de PreferênciasMineração de Preferências

33) Como colher as amostras de ) Como colher as amostras de preferências do usuáriopreferências do usuário

Sistema de Amostragem de NOTAS Sistema de Amostragem de NOTAS (scores)(scores)

Sistema de Amostragem de ParesSistema de Amostragem de Pares

Sistema de Amostragem de ListasSistema de Amostragem de Listas

20/04/2320/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 2222

ExemploExemplo

Internet Movie Database

Dados Coletados Dados Coletados

ID Genero Diretor Ano Ator Nota

1 comedy Woody Allen 80 Charlotte Rampling 8

2 comedy Woody Allen 80 Mia Farrow 7

3 romance Joel Coen 80 Charlote Rampling 7

4 drama Woody Allen 70 Charlote Rampling 5

5 comedy Woody Allen 80 Mia Farrow 3

6 romance Joel Coen 70 Charlote Rampling 6

7 comedy Woody Allen 80 Mia Farrow 3

Pequena amostragem de filmes classificados por um usuário

ID Genero Directo Ano Ator Nota

1 comedy Woody Allen 80 Charlotte Rampling 7

2 comedy Woody Allen 80 Mia Farrow 6

3 romance Joel Coen 80 Charlote Rampling  ?

4 drama Woody Allen 70 Charlote Rampling 4

5 comedy Woody Allen 80 Mia Farrow  ?

6 romance Joel Coen 70 Charlote Rampling 5

7 comedy Woody Allen 80 Mia Farrow 3

I Genre Director ANO Actor ID Genre Director' ANO Actor Pref

1 comedy W Allen 80 C.Rampling 2 comedy W. Allen 80 Mia Farrow 1

1 comedy W.Allen 80 C.Rampling 4 drama W.Allen 70 C.Rampling 1

1 comedy W. Allen 80 C.Rampling 6 romanc Joel Coen 70 C.Rampling 1

1 comedy W.Allen 80 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1

2 comedy W.Allen 80 Mia Farrow 4 drama W.Allen 70 C.Rampling 1

2 comedy W.Allen 80 Mia Farrow 6 romanc Joel Coen 70 C.Rampling 1

2 comedy W. Allen 80 Mia Farrow 7 comedy W. Allen 80 Mia Farrow 1

4 drama W.Allen 70 C. Rampling 6 romanc Joel Coen 70 C.Rampling 0

4 drama W.Allen 70 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1

6 romanc J.Coen 70 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1

Comparando dois filmes pela nota dada ...

IDGEN Diretor ANO Ator ID' GE' Diretor' ANO Ator' Pref

1 comedy

Woody Allen

80 Charlotte Rampling

3 romance Joel Coen 80 Charlote Ramplin

g

?

1 comedy

Woody Allen

80 Charlotte Rampling

5 comedy Woody Allen

80 Mia Farrow ?

2 comedy

Woody Allen

80 Mia Farrow 3 romance Joel Coen 80 Charlote Ramplin

g

?

2 comedy

Woody Allen

80 Mia Farrow 5 comedy Woody Allen

80 Mia Farrow ?

4 drama

Woody Allen

70 Charlote Rampling

3 romance Joel Coen 80 Charlote Ramplin

g

?

4 drama

Woody Allen

70 Charlote Rampling

5 comedy Woody Allen

80 Mia Farrow ?

6 romance

Joel Coen 70 Charlote Rampling

3 romance Joel Coen 80 Charlote Ramplin

g

?

6 romance

Joel Coen 70 Charlote Rampling

5 comedy Woody Allen

80 Mia Farrow ?

Temas de PesquisaTemas de Pesquisa

Como “descobrir” as preferências de um usuário Como “descobrir” as preferências de um usuário a partir de uma amostra de preferências a partir de uma amostra de preferências capturada na internet ?capturada na internet ?

Como “descobrir” as preferências comuns a um Como “descobrir” as preferências comuns a um perfil perfil de usuários ?de usuários ?

Como utilizar este conhecimento para Como utilizar este conhecimento para recomendar produtos para um novo usuário ?recomendar produtos para um novo usuário ?

Mineração de Preferências Mineração de Preferências

Pesquisa desenvolvidas no GrupoPesquisa desenvolvidas no Grupo

CprefMiner (tese de Mestrado)CprefMiner (tese de Mestrado) Otimização de Cprefminer (tese de Mestrado)Otimização de Cprefminer (tese de Mestrado) Uso de Cprefminer no desenvolvimento de um Uso de Cprefminer no desenvolvimento de um

Sistema de recomendação (tese de Mestrado)Sistema de recomendação (tese de Mestrado) FPSMining e IncFPSMining: Mineração de FPSMining e IncFPSMining: Mineração de

Preferências em Data streams (tese de Preferências em Data streams (tese de Mestrado).Mestrado).

ProfMiner (em colaboração com pesquisadores ProfMiner (em colaboração com pesquisadores da Université de Tours (França) da Université de Tours (França)

Pesquisa em DesenvolvimentoPesquisa em Desenvolvimento

Sistemas de Recomendação Sociais Dinâmicos Sistemas de Recomendação Sociais Dinâmicos (Tese de Doutorado)(Tese de Doutorado)

Sistema de Recomendação para Imagens (tese Sistema de Recomendação para Imagens (tese de Mestrado)de Mestrado)

Tarefas

Livro Introduction to Data Mining Capitulo 2: Data Capitulo 3: Exploring Data

Entrega de Exercicios no dia 14 de Abril Exercicios 16, 17, 19 e 20, Capitulo 2 Exercicios 5, 16 e 17, Capitulo 3.