49
CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando Fonseca

CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Embed Size (px)

Citation preview

Page 1: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

CIn.ufpe.br

DATA MINING: Conceitos e Principais Técnicas

Seminário da disciplina IN940 - Banco de Dados

Estudante: João SedrazProfessores: Ana Carolina | Fernando Fonseca

Page 2: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

Agenda

1. Introdução1.1. Origens da Mineração de Dados1.2. Aplicações

2. Conceitos Básicos 2.1. Descoberta de conhecimento em Banco de Dados2.2. Tarefas da Mineração de Dados

3. Principais Técnicas

4. Mineração de dados complexos5. Software para Mineração de Dados

5.1. Demonstração do Weka

2

Page 3: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.1. Origens da Mineração de Dados

Anos 80 – Evolução dos BDs permitia armazenar grandes volumes

de dados.– Organizações "ricas em dados" e "pobre em

informação“.– Extrair novas informações não era trivial.

3

Page 4: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.1. Origens da Mineração de Dados

Anos 80 – Evolução dos BDs permitia armazenar grandes volumes de

dados.– Organizações "ricas em dados" e "pobre em

informação“.– Extrair novas informações não era trivial.

Anos 90 – Primeiras aplicações de Mineração de Dados.– Descobertas de novas informações em termos de

padrões a partir de grande volumes de dados.4

Page 5: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.1. Origens da Mineração de Dados

Anos 80 – Evolução dos BDs permitia armazenar grandes volumes de

dados.– Organizações "ricas em dados" e "pobre em

informação“.– Extrair novas informações não era trivial.

Anos 90 – Primeiras aplicações de Mineração de Dados.– Descobertas de novas informações em termos de

padrões a partir de grande volumes de dados.5

Page 6: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.2. Aplicações

– Marketing: Identificação de desejos/necessidades dos clientes.

– Finanças: Análise de crédito e detecção de fraudes.– Manufatura: Apoio em projetos para a otimização de

recursos.– Saúde: Indicação de diagnósticos. – Segurança: Detecção de atividades terroristas e criminais.– Educação: Adequação dos percursos de ensino e

aprendizagem.

6

Page 7: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

1. Introdução

1.2. Aplicações

– Marketing: Identificação de desejos/necessidades dos clientes.

– Finanças: Análise de crédito e detecção de fraudes.– Manufatura: Apoio em projetos para a otimização de

recursos.– Saúde: Indicação de diagnósticos. – Segurança: Detecção de atividades terroristas e criminais.– Educação: Adequação dos percursos de ensino e

aprendizagem.

7

Mas, as organizações também podem usar a mineração de dados para invadir a privacidade e manipular comportamento dos clientes.

Page 8: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

O KDD é um processo de descoberta do conhecimento a partir de grandes volumes de dados que envolve cinco etapas: – Seleção;– Pré-Processamento;– Transformação;– Mineração de Dados;– Avaliação.

8

Page 9: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

9

Seleção: Escolha do conjunto de dados do qual se deseja extrair um novo conhecimento.

Page 10: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

10

Pré-Processamento: Eliminação dados inconsistentes e integração com outras fontes de dados.

Page 11: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

11

Transformação: Organização dos dados num formato apropriado para a aplicação de algoritmos de mineração.

Page 12: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

12

Mineração de Dados: Aplicação de técnicas específicas para extração de padrões.

Page 13: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

13

Avaliação: Identificação de padrões relevantes para o usuário.

Page 14: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

14

Avaliação: Identificação de padrões relevantes para o usuário.

Processo Cíclico

Page 15: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

Mineração de Dados: É uma etapa de análise dos dados e aplicação de algoritmos de descoberta, que produzem um conjunto de regras ou padrões.

15

Page 16: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD)

Mineração de Dados: É uma etapa de análise dos dados e aplicação de algoritmos de descoberta, que produzem um conjunto de regras ou padrões.

16

Aprendizado de

MáquinaBanco de

DadosEstatística

Abordagem MultidisciplinarPrincipais áreas envolvidas

Page 17: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados

Tarefa x Técnica

– Tarefa: Determina o tipo de problema que será resolvido pelo processo de mineração de dados.

– Técnica: Representa o algoritmo que pode ser empregados para a execução da mineração de dados.

17

Page 18: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados (tarefas mais comuns)

– Análise de Regras de Associação: Identifica combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados. (Ex: Fraldas => Cerveja, sistemas de recomendação, antivírus)

18

Page 19: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados (tarefas mais comuns)

– Análise de Regras de Associação: Identifica combinações deitens ou valores de atributos que ocorrem com frequênciasignificativa em uma base de dados.

– Análise de Padrões Sequenciais: Semelhante a associação, masleva em consideração a ordem ou data de ocorrência dos dados. (Ex: estudos de DNA, análise da sequência de cliques em um site)

19

Page 20: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados (tarefas mais comuns)

– Análise de Regras de Associação: Identifica combinações deitens ou valores de atributos que ocorrem com frequênciasignificativa em uma base de dados.

– Análise de Padrões Sequenciais: Semelhante a associação, masleva em consideração a ordem ou data de ocorrência dos dados.

– Classificação: Descobre classes em um conjunto de registrosfornecidos, descritos por variáveis predefinidas, que permitemprever a classificação de um novo registro. (Ex: análise de crédito, seguros de veículos)

20

Page 21: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

2. Conceitos

2.2. Tarefas da Mineração de Dados (tarefas mais comuns)

– Análise de Regras de Associação: Identifica combinações deitens ou valores de atributos que ocorrem com frequênciasignificativa em uma base de dados.

– Análise de Padrões Sequenciais: Semelhante a associação, masleva em consideração a ordem ou data de ocorrência dos dados.

– Classificação: Descobre classes em um conjunto de registrosfornecidos, descritos por variáveis predefinidas, que permitemprever a classificação de um novo registro.

– Agrupamento (análise de clusters): Divide um conjunto de dadosem grupos de acordo com algum de tipo de similaridade. (Ex: grupo de pacientes com reação a uma medicação A ou B).

21

Page 22: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

22

Tarefa TécnicasAnálise de Regras de Associação

Apriori, FP-Growth, DCI, ECLAT, Closet.

Análise de Padrões Sequenciais GSP, PrefixSpan, BLAST.

Classificação Árvores de Decisão, Regressão, Redes Neurais, Algoritmos Genéticos, SVM, k-Nearest, Naive Bayes.

Agrupamento k-médias, Métodos Hierárquicos.

Page 23: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Técnica Apriori

– Entrada: Banco de dados com m transações e um suporte mínimo.

– Saída: Itemsets frequente, L1, L2, ..., Lk.

23

Page 24: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Técnica Apriori

– Entrada: Banco de dados com m transações e um suporte mínimo.

– Saída: Itemsets frequente, L1, L2, ..., Lk. Ex:

24

Id_Transação Hora Itens _Comprados100 6:35 Leite, pão, biscoito, suco101 7:38 Leite, suco102 8:05 Leite, ovos104 8:40 Pão, biscoito, café

Page 25: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Técnica Apriori

– Entrada: Banco de dados com m transações e um suporte mínimo.

– Saída: Itemsets frequente, L1, L2, ..., Lk. Ex:

Para um suporte de 50%, temos:L1 = {{leite}, {pão}, {suco}, {biscoito}}L2 = {{leite, suco}, {pão, biscoito}} 25

Id_Transação Hora Itens _Comprados100 6:35 Leite, pão, biscoito, suco101 7:38 Leite, suco102 8:05 Leite, ovos104 8:40 Pão, biscoito, café

Page 26: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Árvore de Decisão

– Entrada: Banco de dados, com atributos preditivos e atributo alvo.

– Saída: classificação do atributo alvo em função dos preditivos.

26

Page 27: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Árvore de Decisão

– Entrada: Banco de dados, com atributos preditivos e atributo alvo.

– Saída: classificação do atributo alvo em função dos preditivos.

Ex: Banco de dados de uma locadora.

27

Id Idade Renda Carro1 >40 > 8k Importad

o2 18 – 40 0-8k Nacional3 >40 0-8k Nacional4 18 – 40 > 8k Nacional5 18 – 40 0-8k Nacional6 18 – 40 0-8k Nacional7 18 – 40 0-8k Nacional

8 >40 > 8k Importado

Page 28: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

Árvore de Decisão

– Entrada: Banco de dados, com atributos preditivos e atributo alvo.

– Saída: classificação do atributo alvo em função dos preditivos.

Ex: Banco de dados de uma locadora.

28

Id Idade Renda Carro1 >40 > 8k Importad

o2 18 – 40 0-8k Nacional3 >40 0-8k Nacional4 18 – 40 > 8k Nacional5 18 – 40 0-8k Nacional6 18 – 40 0-8k Nacional7 18 – 40 0-8k Nacional

8 >40 > 8k Importado

Page 29: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

k-médias

– Entrada: Banco de dados e um número de k de clusters.– Saída: Clusters de dados de menor distância Euclidiana.

29

Page 30: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

k-médias

– Entrada: Banco de dados e um número de k de clusters.– Saída: Clusters de dados de menor distância Euclidiana.

Cálculo da distância Euclidiana entre registros de duas dimensões.

30

Page 31: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

k-médias

– Entrada: Banco de dados e um número de k de clusters.– Saída: Clusters de dados de menor distância Euclidiana.Ex: Registro de duas dimensões (Id não é considerado).

31

Id Idade Anos_de_servico

1 30 52 50 253 50 154 25 55 30 106 55 25

Page 32: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

3. Principais Técnicas

k-médias

– Entrada: Banco de dados e um número de k de clusters.– Saída: Clusters de dados de menor distância Euclidiana.Ex: Registro de duas dimensões (Id não é considerado).

32

Id Idade Anos_de_servico

1 30 52 50 253 50 154 25 55 30 106 55 25

Page 33: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

4. Mineração de Estruturas Complexas

Inicialmente: mineração em repositórios estruturado de dados.

Atualmente: mineração de dados representados em diversos formatos.

33

Page 34: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

4. Mineração de Estruturas Complexas

Inicialmente: mineração em repositórios estruturado de dados.

Atualmente: mineração de dados representados em diversos formatos.

–Mineração de Dados Espaciais (Ex: mapas)–Mineração de Grafos (Ex: redes biológicas, redes sociais)–Mineração de dados Multimídia (Ex: imagens, vídeos, áudios)–Mineração de dados não estruturados (Ex: textos, e-mail, artigos)–Mineração de objetos (Ex: mineração em SGBDOO)–Mineração da Internet (Ex: link, padrões de acesso)

34

Page 35: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

Proprietários Intelligent Miner (IBM), Enterprise Miner (SAS), Clementine (SPSS).

Livres Weka, RapidMiner, R.

35

Page 36: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

Proprietários Intelligent Miner (IBM), Enterprise Miner (SAS), Clementine (SPSS).

Livres Weka, RapidMiner, R.

36

O mais utilizado para Mineração de Dados Educacionais no contexto brasileiro

Page 37: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Licença: GPL

Ponto forte: Principalmente classificação, mas também é capaz de minerar regras de associação e clusters de dados.

Desenvolvedores: Pesquisadores da Univ. de Waikato, Nova Zelândia.

Download: http://www.cs.waikato.ac.nz/ml/weka/downloading.html 37

Page 38: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

38

Page 39: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

39

Cabeçalho

Page 40: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

40

CabeçalhoDeclaração da Relação

Page 41: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

41

CabeçalhoDeclaração da Relação

Atributos Preditivos

Page 42: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

42

CabeçalhoDeclaração da Relação

Atributos PreditivosAtributo alvo

Page 43: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)

43

Lista das instâncias

Page 44: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)Passo 1: Acessar o Weka Explorer (a) e clicar em Open (b) para abrir o arquivo .arff a ser analisado.

44

Page 45: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)Passo 2: Selecionar a aba “Classify” (a),escolher (b) o modelo “trees -> J48”, marca “Use training set” (c) e clica em “Start” (d).

45

Page 46: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

Exemplo: Banco de dados de uma locadora (formato .arff)Saída da classificação

46

Page 47: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

5. Software para Mineração de Dados

2.2. Demonstração do WEKA

O software possui dezenas de algoritmos implementados, que permitem fazer associação, agrupamento e classificação.

47

Page 48: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015

ReferênciasBERRY, Michael JA; LINOFF, Gordon. Data Mining Techniques For marketing, Sales and Customer Support. John Willey & Sons. Inc., 1997, 454 P, 1996.

CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Goiânia: Universidade Federal de Goiás, 2009.

CHEN, Ming-Syan; HAN, Jiawei; YU, Philip S. Data mining: an overview from a database perspective. Knowledge and data Engineering, IEEE Transactions on, v. 8, n. 6, p. 866-883, 1996.

DE AMO, Sandra. Técnicas de mineração de dados. Jornada de Atualizaçao em Informatica, 2004.

ELMASRI, R; NAVATHE, S.; DE OLIVEIRA MORAIS, R. Sistemas de banco de dados. 2011.

FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996.

GALVÃO, Noemi Dreyer; MARIN, Heimar de Fátima. Técnica de mineração de dados: uma revisão da literatura. Acta Paulista de Enfermagem, v. 22, n. 5, p. 686-690, 2009.

GONÇALVES, Eduardo Corrêa. Data Mining com a ferramenta Weka. Fórum de Software Livre de Duque de Caxias–2011.

RODRIGUES, R. et al. A literatura brasileira sobre mineração de dados educacionais. In: Anais do CBIE. 2014.

SANTOS, R. “Weka: um Guia para Uso do Weka em Scripts e Integração com Aplicações Java”. Instituto Nacional de Pesquisas Espaciais (INPE), 2005. 48

Page 49: CIn.ufpe.br DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina

Data Mining: Conceitos e Principais Técnicas Disciplina IN0940 – Banco de Dados

CIn.ufpe.brRecife/PE – Junho 2015 49

Dúvidas e sugestões?