21
Prof. Heitor Silvério Lopes Prof. Heitor Silvério Lopes

Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 2: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes Colaborador: Clayton Kossoski Carga Horária: 45 horas-aula Horário: 5ª feira, ~08:20~12:00 Ementa: Motivações. O processo de descoberta do conhecimento a partir de dados.

Tipos de dados e sua análise. Preparação, limpeza e visualização de dados. Data warehouse e OLAP. Tarefas de mineração de dados: classificação, associação, agrupamento, detecção de anomalias, redução de dimensionalidade. Estudo de algoritmos para as principais tarefas de mineração de dados. Avaliação dos resultados obtidos. Tópicos avançados: Big data, Deep learning, text mining, multimidia mining

Avaliações: Trabalhos (50%) e projeto final da disciplina (50%), constituído de desenvolvimento de projeto de mineração de dados, elaboração de relatório escrito e seminário de apresentação dos trabalhos.

Bibliografia básica: P-N. Tan; M. Steinbach; V. Kumar. Introduction to Data Mining. 2nd edition

Pearson, 2018. http://www-users.cs.umn.edu/~kumar/dmbook/index.php

Mais informações: http://silverio.net.br/heitor/disciplinas/md

Page 4: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes
Page 5: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Dados X Informação X Conhecimento Dados:

• Instâncias (objetos, pessoas, instantes de tempo, etc)

• Descrevem propriedades individuais e não coletivas

• Usualmente são:o Disponíveis em grande quantidade e múltiplas formaso Fáceis de coletaro Pouco úteis para fazer predições ou tomar decisões

Informação:• Se refere a classes de instâncias (grupos de objetos, pessoas, etc)

• Descreve padrões genéricos, estruturas, leis, princípios, etc

• Usualmente são:o Pouco abundanteso Difícil de obtero Permite generalizações e predições

Conhecimento:• É a compreensão de alguma coisa (incluindo fatos, habilidades e informações), obtido por

percepção, descoberta ou aprendizado

We are drowning in information,but starving for knowledge.

John Naisbitt (1982)

We are drowning in information,but starving for knowledge.

John Naisbitt (1982)

Page 7: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Mineração de Dados eDescoberta de Conhecimento A Mineração de Dados é uma das etapas do processo de Descoberta de

Conhecimento - KDD

Definições de Mineração de Dados:1. Descoberta automática/semi-automática de padrões estruturais em

dados (Witten et al., 2000)2. Extração de conhecimento estruturado útil, previamente desconhecido,

não-trivial, compreensível e implícito a grandes massas de dados. (Fayyad et al., 1996)

Critérios desejáveis para o conhecimento descoberto:• Corretude, Generalidade, Utilidade, Compreensibilidade, Novidade

Page 8: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Mineração de dados & Descoberta de conhecimento (DM & KDD)

Dados brutos

Data warehouse

Dados filtrados

Mineração de dados

60-80% do esforço !

Padrões

Page 10: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Qual o “tamanho” da internet ? (13/09/18 15:00)

(http://www.internetlivestats.com/)

Page 11: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Qual o “tamanho” da internet ? (25/09/18 23:31)

Um ano depois !

Page 13: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Quantidade X Utilidade (de dados)A quantidade de dados gerada cresce exponencialmente

A capacidade para entender e efetivamente utilizar estes dados cresce linearmente

A mineração de dados pode nos ajudar a compreender grandes massas de dados e extrair conhecimento útil

Page 14: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Aplicabilidade de Mineração de Dados

Descobrir os interesses de consumo dos clientes para aumentar as vendas

Compreender o funcionamento dos diversos sistemas do corpo humano e projetar novos medicamentos

Descobrir como o comportamento dos eleitores é influenciado

Compreender o comportamento da matéria e do universo

Prever o comportamento do mercado de capitais e da economia

Descobrir novos conhecimentos

Page 15: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Multidisciplinaridade da Mineração de DadosA Mineração de Dados utiliza conceitos e técnicas de

diversas áreas:

Page 16: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Tarefas de mineração de dados Segundo Weiss & Indurkhia (1998):

Top-3:• Classificação: a experiência passada e rotulada é utilizada para generalizar o

conhecimento para casos futuros.• Regras de Associação: estabelecimento de relações lógicas entre atributos sob

a forma de regras de decisão• Agrupamento: análise exploratória não-supervisionada onde dados similares

são agrupados.

Predição Descoberta de ConhecimentoClassificação Detecção de anomalias

Regressão Segmentação de dados

Séries temporais Agrupamento (clustering)

Regras de associação (análise de dependências)

Sumarização

Visualização

Mineração de textos / web

Page 17: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Questões éticas em MD & KDDQuestões importantes relacionadas aos dados:• A quem pertencem os dados ?

• Quem pode permitir acesso aos dados?

• Quem pode acessar os dados?

• Para qual finalidade os dados foram coletados?

• Há informações sensíveis nos dados ?o Anonimização é importante para não identificar

pessoas/empresas/instituições, etc

Métodos de MD&KDD podem gerar resultados contestáveis quando baseados e pequenas amostras ou métodos inadequados

MD&KDD não deve ser utilizado para discriminar pessoas com base na classe social, sexo, religião, etc

Page 19: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Existe privacidade de dados ???

Page 20: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes

Dados abertos (ver página da disciplina) Iniciativa mundial que permite livre acesso a dados

colocados em domínio público

Dados abertos de Curitiba (http://www.curitiba.pr.gov.br/dadosabertos/)

Dados abertos de São Paulo (http://dados.prefeitura.sp.gov.br/)

Dados abertos do Rio de Janeiro (http://data.rio/)

Portal Brasileiro de Dados Abertos (http://dados.gov.br/)

The U.S. Government’s open data (https://www.data.gov/)

Dados científicos (https://www.pangaea.de/)

NASA open data (https://open.nasa.gov/open-data/)

Digital sky survey (http://www.sdss.org/)

Page 21: Prof. Heitor Silvério Lopes - silverio.net.brsilverio.net.br/heitor/disciplinas/md/aulas/class1a-Introduction.pdf · Mineração de Dados (CPGEI & PPGCA) Professor: Heitor S. Lopes