CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de...

Preview:

Citation preview

CIn.ufpe.br

DATA MINING: Conceitos e Principais Técnicas

Seminário da disciplina IN940 - Banco de Dados

Estudante: João SedrazProfessores: Ana Carolina | Fernando Fonseca

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

Agenda

1. Introdução1.1. Origens da Mineração de Dados1.2. Aplicações

2. Conceitos Básicos 2.1. Descoberta de conhecimento em Banco de Dados2.2. Tarefas da Mineração de Dados

3. Principais Técnicas

4. Mineração de dados complexos5. Software para Mineração de Dados

5.1. Demonstração do Weka

2

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.1. Origens da Mineração de Dados

Anos 80 – Evolução dos BDs permitia armazenar grandes volumes

de dados.– Organizações "ricas em dados" e "pobre em

informação“.– Extrair novas informações não era trivial.

3

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.1. Origens da Mineração de Dados

Anos 80 – Evolução dos BDs permitia armazenar grandes volumes de

dados.– Organizações "ricas em dados" e "pobre em

informação“.– Extrair novas informações não era trivial.

Anos 90 – Primeiras aplicações de Mineração de Dados.– Descobertas de novas informações em termos de

padrões a partir de grande volumes de dados.4

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.1. Origens da Mineração de Dados

Anos 80 – Evolução dos BDs permitia armazenar grandes volumes de

dados.– Organizações "ricas em dados" e "pobre em

informação“.– Extrair novas informações não era trivial.

Anos 90 – Primeiras aplicações de Mineração de Dados.– Descobertas de novas informações em termos de

padrões a partir de grande volumes de dados.5

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.2. Aplicações

– Marketing: Identificação de desejos/necessidades dos clientes.

– Finanças: Análise de crédito e detecção de fraudes.– Manufatura: Apoio em projetos para a otimização de

recursos.– Saúde: Indicação de diagnósticos. – Segurança: Detecção de atividades terroristas e criminais.– Educação: Adequação dos percursos de ensino e

aprendizagem.

6

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.2. Aplicações

– Marketing: Identificação de desejos/necessidades dos clientes.

– Finanças: Análise de crédito e detecção de fraudes.– Manufatura: Apoio em projetos para a otimização de

recursos.– Saúde: Indicação de diagnósticos. – Segurança: Detecção de atividades terroristas e criminais.– Educação: Adequação dos percursos de ensino e

aprendizagem.

7

Mas, as organizações também podem usar a mineração de dados para invadir a privacidade e manipular comportamento dos clientes.

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

O KDD é um processo de descoberta do conhecimento a partir de grandes volumes de dados que envolve cinco etapas: – Seleção;– Pré-Processamento;– Transformação;– Mineração de Dados;– Avaliação.

8

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

9

Seleção: Escolha do conjunto de dados do qual se deseja extrair um novo conhecimento.

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

10

Pré-Processamento: Eliminação dados inconsistentes e integração com outras fontes de dados.

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

11

Transformação: Organização dos dados num formato apropriado para a aplicação de algoritmos de mineração.

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

12

Mineração de Dados: Aplicação de técnicas específicas para extração de padrões.

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

13

Avaliação: Identificação de padrões relevantes para o usuário.

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

14

Avaliação: Identificação de padrões relevantes para o usuário.

Processo Cíclico

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

Mineração de Dados: É uma etapa de análise dos dados e aplicação de algoritmos de descoberta, que produzem um conjunto de regras ou padrões.

15

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

Mineração de Dados: É uma etapa de análise dos dados e aplicação de algoritmos de descoberta, que produzem um conjunto de regras ou padrões.

16

Aprendizado de

MáquinaBanco de

DadosEstatística

Abordagem MultidisciplinarPrincipais áreas envolvidas

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados

Tarefa x Técnica

– Tarefa: Determina o tipo de problema que será resolvido pelo processo de mineração de dados.

– Técnica: Representa o algoritmo que pode ser empregados para a execução da mineração de dados.

17

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados (tarefas mais comuns)

– Análise de Regras de Associação: Identifica combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados. (Ex: Fraldas => Cerveja, sistemas de recomendação, antivírus)

18

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados (tarefas mais comuns)

– Análise de Regras de Associação: Identifica combinações deitens ou valores de atributos que ocorrem com frequênciasignificativa em uma base de dados.

– Análise de Padrões Sequenciais: Semelhante a associação, masleva em consideração a ordem ou data de ocorrência dos dados. (Ex: estudos de DNA, análise da sequência de cliques em um site)

19

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados (tarefas mais comuns)

– Análise de Regras de Associação: Identifica combinações deitens ou valores de atributos que ocorrem com frequênciasignificativa em uma base de dados.

– Análise de Padrões Sequenciais: Semelhante a associação, masleva em consideração a ordem ou data de ocorrência dos dados.

– Classificação: Descobre classes em um conjunto de registrosfornecidos, descritos por variáveis predefinidas, que permitemprever a classificação de um novo registro. (Ex: análise de crédito, seguros de veículos)

20

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados (tarefas mais comuns)

– Análise de Regras de Associação: Identifica combinações deitens ou valores de atributos que ocorrem com frequênciasignificativa em uma base de dados.

– Análise de Padrões Sequenciais: Semelhante a associação, masleva em consideração a ordem ou data de ocorrência dos dados.

– Classificação: Descobre classes em um conjunto de registrosfornecidos, descritos por variáveis predefinidas, que permitemprever a classificação de um novo registro.

– Agrupamento (análise de clusters): Divide um conjunto de dadosem grupos de acordo com algum de tipo de similaridade. (Ex: grupo de pacientes com reação a uma medicação A ou B).

21

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

22

Tarefa TécnicasAnálise de Regras de Associação

Apriori, FP-Growth, DCI, ECLAT, Closet.

Análise de Padrões Sequenciais GSP, PrefixSpan, BLAST.

Classificação Árvores de Decisão, Regressão, Redes Neurais, Algoritmos Genéticos, SVM, k-Nearest, Naive Bayes.

Agrupamento k-médias, Métodos Hierárquicos.

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Técnica Apriori

– Entrada: Banco de dados com m transações e um suporte mínimo.

– Saída: Itemsets frequente, L1, L2, ..., Lk.

23

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Técnica Apriori

– Entrada: Banco de dados com m transações e um suporte mínimo.

– Saída: Itemsets frequente, L1, L2, ..., Lk. Ex:

24

Id_Transação Hora Itens _Comprados100 6:35 Leite, pão, biscoito, suco101 7:38 Leite, suco102 8:05 Leite, ovos104 8:40 Pão, biscoito, café

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Técnica Apriori

– Entrada: Banco de dados com m transações e um suporte mínimo.

– Saída: Itemsets frequente, L1, L2, ..., Lk. Ex:

Para um suporte de 50%, temos:L1 = {{leite}, {pão}, {suco}, {biscoito}}L2 = {{leite, suco}, {pão, biscoito}} 25

Id_Transação Hora Itens _Comprados100 6:35 Leite, pão, biscoito, suco101 7:38 Leite, suco102 8:05 Leite, ovos104 8:40 Pão, biscoito, café

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Árvore de Decisão

– Entrada: Banco de dados, com atributos preditivos e atributo alvo.

– Saída: classificação do atributo alvo em função dos preditivos.

26

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Árvore de Decisão

– Entrada: Banco de dados, com atributos preditivos e atributo alvo.

– Saída: classificação do atributo alvo em função dos preditivos.

Ex: Banco de dados de uma locadora.

27

Id Idade Renda Carro1 >40 > 8k Importad

o2 18 – 40 0-8k Nacional3 >40 0-8k Nacional4 18 – 40 > 8k Nacional5 18 – 40 0-8k Nacional6 18 – 40 0-8k Nacional7 18 – 40 0-8k Nacional

8 >40 > 8k Importado

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Árvore de Decisão

– Entrada: Banco de dados, com atributos preditivos e atributo alvo.

– Saída: classificação do atributo alvo em função dos preditivos.

Ex: Banco de dados de uma locadora.

28

Id Idade Renda Carro1 >40 > 8k Importad

o2 18 – 40 0-8k Nacional3 >40 0-8k Nacional4 18 – 40 > 8k Nacional5 18 – 40 0-8k Nacional6 18 – 40 0-8k Nacional7 18 – 40 0-8k Nacional

8 >40 > 8k Importado

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

k-médias

– Entrada: Banco de dados e um número de k de clusters.– Saída: Clusters de dados de menor distância Euclidiana.

29

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

k-médias

– Entrada: Banco de dados e um número de k de clusters.– Saída: Clusters de dados de menor distância Euclidiana.

Cálculo da distância Euclidiana entre registros de duas dimensões.

30

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

k-médias

– Entrada: Banco de dados e um número de k de clusters.– Saída: Clusters de dados de menor distância Euclidiana.Ex: Registro de duas dimensões (Id não é considerado).

31

Id Idade Anos_de_servico

1 30 52 50 253 50 154 25 55 30 106 55 25

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

k-médias

– Entrada: Banco de dados e um número de k de clusters.– Saída: Clusters de dados de menor distância Euclidiana.Ex: Registro de duas dimensões (Id não é considerado).

32

Id Idade Anos_de_servico

1 30 52 50 253 50 154 25 55 30 106 55 25

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

4. Mineração de Estruturas Complexas

Inicialmente: mineração em repositórios estruturado de dados.

Atualmente: mineração de dados representados em diversos formatos.

33

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

4. Mineração de Estruturas Complexas

Inicialmente: mineração em repositórios estruturado de dados.

Atualmente: mineração de dados representados em diversos formatos.

–Mineração de Dados Espaciais (Ex: mapas)–Mineração de Grafos (Ex: redes biológicas, redes sociais)–Mineração de dados Multimídia (Ex: imagens, vídeos, áudios)–Mineração de dados não estruturados (Ex: textos, e-mail, artigos)–Mineração de objetos (Ex: mineração em SGBDOO)–Mineração da Internet (Ex: link, padrões de acesso)

34

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

Proprietários Intelligent Miner (IBM), Enterprise Miner (SAS), Clementine (SPSS).

Livres Weka, RapidMiner, R.

35

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

Proprietários Intelligent Miner (IBM), Enterprise Miner (SAS), Clementine (SPSS).

Livres Weka, RapidMiner, R.

36

O mais utilizado para Mineração de Dados Educacionais no contexto brasileiro

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Licença: GPL

Ponto forte: Principalmente classificação, mas também é capaz de minerar regras de associação e clusters de dados.

Desenvolvedores: Pesquisadores da Univ. de Waikato, Nova Zelândia.

Download: http://www.cs.waikato.ac.nz/ml/weka/downloading.html 37

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

38

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

39

Cabeçalho

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

40

CabeçalhoDeclaração da Relação

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

41

CabeçalhoDeclaração da Relação

Atributos Preditivos

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

42

CabeçalhoDeclaração da Relação

Atributos PreditivosAtributo alvo

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

43

Lista das instâncias

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)Passo 1: Acessar o Weka Explorer (a) e clicar em Open (b) para abrir o arquivo .arff a ser analisado.

44

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)Passo 2: Selecionar a aba “Classify” (a),escolher (b) o modelo “trees -> J48”, marca “Use training set” (c) e clica em “Start” (d).

45

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)Saída da classificação

46

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

O software possui dezenas de algoritmos implementados, que permitem fazer associação, agrupamento e classificação.

47

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

ReferênciasBERRY, Michael JA; LINOFF, Gordon. Data Mining Techniques For marketing, Sales and Customer Support. John Willey & Sons. Inc., 1997, 454 P, 1996.

CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Goiânia: Universidade Federal de Goiás, 2009.

CHEN, Ming-Syan; HAN, Jiawei; YU, Philip S. Data mining: an overview from a database perspective. Knowledge and data Engineering, IEEE Transactions on, v. 8, n. 6, p. 866-883, 1996.

DE AMO, Sandra. Técnicas de mineração de dados. Jornada de Atualizaçao em Informatica, 2004.

ELMASRI, R; NAVATHE, S.; DE OLIVEIRA MORAIS, R. Sistemas de banco de dados. 2011.

FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996.

GALVÃO, Noemi Dreyer; MARIN, Heimar de Fátima. Técnica de mineração de dados: uma revisão da literatura. Acta Paulista de Enfermagem, v. 22, n. 5, p. 686-690, 2009.

GONÇALVES, Eduardo Corrêa. Data Mining com a ferramenta Weka. Fórum de Software Livre de Duque de Caxias–2011.

RODRIGUES, R. et al. A literatura brasileira sobre mineração de dados educacionais. In: Anais do CBIE. 2014.

SANTOS, R. “Weka: um Guia para Uso do Weka em Scripts e Integração com Aplicações Java”. Instituto Nacional de Pesquisas Espaciais (INPE), 2005. 48

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015 49

Dúvidas e sugestões?

Recommended