40
Fundamentos de Mineração de Dados Prof. Ricardo Fernandes [email protected]

Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

Fundamentos de

Mineração de Dados

Prof. Ricardo Fernandes

[email protected]

Page 2: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

2

Tipos de Dados

Estruturados:

➢ São dados organizados e armazenados em um formato

padronizado;

➢ Seus elementos são todos endereçados para facilitar a

recuperação;

➢ Esse endereçamento normalmente é feito por um ID;

➢ Tipo de dados caro

para empresas;

Page 3: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

3

Tipos de Dados

Problemas de Dados Estruturados:

➢ O que acontece se eu não souber exatamente o que procuro?

➢ Por exemplo, estou buscando uma pessoa no Facebook que vi

em uma palestra, porém:

➢ Esqueci ou cheguei atrasado na palestra e não sei o nome;

➢ Ao final da palestra vi que temos um amigo em comum;

➢ De acordo com a palestra, sei que a pessoa trabalha com

Desenvolvimento de Software em uma Startup;

Page 4: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

4

Tipos de Dados

Não-Estruturados:

➢ A dificuldade em se trabalhar com dados não-estruturados é:

➢ Organizá-los;

➢ Traduzí-los para o computador.

➢ Inclui dados como: áudio, vídeo, imagens e posts;

➢ Análises de dados não-estruturados ainda são desafios;

➢ Bases de Dados noSQL;

Page 5: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

5

Tipos de Dados

Não-Estruturados:

➢ Este tipo de dado é gerado nos seguintes formatos:

➢ Arquivos de texto (txt, doc, pdf, etc.);

➢ E-mail, Chats e Mensagens de dispositivos móveis;

➢ Websites e Posts em redes sociais;

➢ Áudios e Vídeos em distintos formatos e compactações;

➢ Exemplo: Buscas em Caixas de E-mail:

➢ Foram aprimoradas para buscar assuntos e conteúdos.

Page 6: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

6

Tipos de Dados

Exemplo Prático – Dados Não-Estruturados:

Ex-governadorCalifornia

AtorÁustria Fisiculturista

ArnoldSchwarzenegger

Page 7: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

7

Fontes de Dados – Sensores Físicos

Estação Climatológica:

➢ Volume de Dados: Aquisições a cada 5 min;

➢ Após 1 dia: 288 amostras de dados;

➢ Após 1 mês: 8.640 amostras de dados;

➢ Após 1 ano: 105.120 amostras de dados.

➢ Essa fonte de dados se encaixa em Big Data?

Page 8: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

8

Fontes de Dados – Websites

Mercado Financeiro:

➢ Volume de Dados: Aquisições a cada 1 seg.;

➢ Após 1 dia: 86.400 amostras de dados;

➢ Após 1 mês: 1.814.400 amostras de dados (21 dias úteis);

➢ Após 1 ano: 21.772.800 amostras de dados (252 dias úteis).

➢ Essa fonte de dados se encaixa em Big Data?

Page 9: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

9

Fontes de Dados – Redes Sociais

Tweets / Likes:

➢ Volume de Dados: ???

➢ Após 1 dia: ???

➢ Após 1 mês: ???

➢ Após 1 ano: ???

Page 10: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

10

Passado e Presente

➢ Nas últimas décadas, foi afirmado que a informação centralizada

seria processada de forma mais eficiente;

➢ Apenas no início dos anos 90, o termo Computação em Grid

começou a ser difundido;

➢ Somente em 2005 começou a se falar sobre Computação em

Nuvem;

➢ O termo Big Data surgiu em 2001, mas se popularizou em 2012.

Page 11: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

11

Análise Bibliométrica

➢ Produção x Ano:

0

20

40

60

80

100

120

1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 2020

Computação Paralela + Distribuída

Page 12: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

12

Análise Bibliométrica

➢ Produção x Ano:

0

100

200

300

400

500

600

700

800

2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018

Cloud Computing

Page 13: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

13

Análise Bibliométrica

➢ Produção x Ano:

0

200

400

600

800

1000

1200

1400

1600

2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018

Pro

du

ção

Anos

Big Data

Page 14: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

14

Análise Bibliométrica

➢ Produção x País:

Page 15: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

15

Análise Bibliométrica

➢ Computação em Nuvem (Ciência da Computação x Negócios):

Page 16: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

16

Análise Bibliométrica

➢ Big Data (Ciência da Computação x Negócios):

Page 17: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

17

Fundamentos – Computação Paralela

➢ A computação paralela foi criada para minimizar o tempo de

resposta para determinado processo;

➢ As tarefas a serem processadas são divididas e atribuídas a

distintas máquinas;

➢ Normalmente, estas máquinas não estavam fisicamente distantes;

➢ Há muitos problemas de concorrência de processos/threads em

computação paralela:

➢ Deadlock;

Page 18: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

18

Fundamentos – Computação Paralela

➢ Processos concorrentes compartilham memória;

➢ Memória não é escalável.

➢ Muita tecnologia foi criada para permitir a computação paralela:

➢ Hardware;

➢ Algoritmos;

➢ Modelos e outras ferramentas computacionais.

Page 19: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

19

Fundamentos – Computação Distribuída

➢ A computação distribuída corresponde a computadores autônomos

interconectados por uma rede e um middleware;

➢ Middleware é um software distribuído que controla atividades e

compartilha recursos do sistema;

➢ Usuário tem a impressão de estar operando uma máquina e não um

conjunto;

➢ Todos os acessos são transparentes, ou seja, se o acesso é local

ou remoto, os comandos são os mesmos.

Page 20: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

20

Fundamentos – Cloud Computing

➢ É um modelo de computação onde os recursos são alocados de

forma dinâmica e escalável (tudo via Internet);

➢ Normalmente, não se sabe a localização física dos dados;

➢ As Nuvens podem ser grandes repositórios de recursos

virtualizados, como: hardware, plataformas de desenvolvimento ou

serviços;

➢ Qualquer recurso virtualizado pode ser reconfigurado para

distintas cargas de trabalho.

Page 21: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

21

Fundamentos – Cloud Computing

➢ A forma de pagamento por este tipo de serviço é: On-Demand;

➢ Usuário não arca com custos de manutenção e atualização de

tecnologia;

➢ Para empresas, a Computação em Nuvem pose ser vantajosa por

reduzir despesas da área de TI;

➢ Os serviços disponibilizados pela Nuvem podem ser acessados de

qualquer local (com acesso à Internet);

➢ Dados distribuídos minimizam perda e indisponibilidade.

Page 22: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

22

Fundamentos – Cloud Computing

➢ Há 3 modelos básicos de serviços para Computação em Nuvem:

➢ SaaS – Software as a Service;

➢ PaaS – Platform as a Service;

➢ IaaS – Infrastructure as a Service.

➢ SaaS: usuário acessa aplicativos executados na nuvem, por meio

de, por exemplo, um web browser ou thin client;

➢ PaaS: usuário pode implementar, testar e gerenciar aplicativos na

nuvem. Porém, o mesmo não tem controle sobre o SO.

Page 23: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

23

Fundamentos – Cloud Computing

➢ IaaS: usuário acessa computadores virtualizados, ou seja, sistema

operacional, armazenamento de dados, etc.

➢ Ainda é importante comentar que Nuvens podem ser:

➢ Privadas – feita para atender uma organização;

➢ Públicas – feita para atender o público em geral;

➢ Comunitárias – semelhante às privadas, porém atende um

grupo de organizações com necessidades similares;

➢ Híbridas – composição de dois ou mais tipos.

Page 24: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

24

Fundamentos – Big Data

➢ Há distintos conceitos de Big Data;

➢ Há um consenso que Big Data trata de grandes volumes de dados e

de estratégias de computação para manusear estes dados;

➢ Mas, o que é um grande volume de dados???

➢ Big Data trata da velocidade de recuperação, processamento e

análise de dados;

➢ Os dados são heterogêneos, ou seja, estruturados e não

estruturados.

Page 25: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

25

Fundamentos – Big Data

➢ Devido ao grande volume de dados, eles precisam ser processados

em clusters (sistemas paralelos e distribuídos);

➢ Os dados vem de muitas fontes de informação. Dessa forma, é

necessário velocidade no fluxo de dados;

➢ Esse fluxo de dados é constante e deve lidar com coleta,

armazenamento, processamento, análise/visualização;

➢ Heterogeneidade dos dados é devida à variedade de fontes de

informação. 3 Vs

Page 26: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

26

Fundamentos – Big Data

➢ Os 3 Vs podem ser analisados de outro ponto de vista:

➢ Veracidade – garantir a veracidade dos dados de determinadas

fontes (Ex.: Fake News);

➢ Variabilidade – pode haver muita variação na qualidade dos

dados (Ex.: Missing Data);

➢ Valor – devido à complexidade de alguns sistemas, é uma

tarefa difícil extrair valor dos dados.

Page 27: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

27

Tecnologias para Big Data

➢ Essas tecnologias podem ser divididas em:

➢ Coleta e Inserção de Dados no Sistema;

➢ Armazenamento de Dados;

➢ Processamento e Análise;

➢ Visualização.

Page 28: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

28

Tecnologias para Big Data

➢ Open-Source: código em Java;

➢ Suporta aplicações distribuídas e manipula grandes volumes de

dados;

➢ Usuários de Hadoop:

➢ No Facebook, em 2011, o Hadoop manipulava 30 PBytes;

Page 29: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

29

Tecnologias para Big Data

➢ Coleta e Inserção de Dados no Sistema:

➢ O desempenho dessa ação depende da qualidade dos dados,

do formato e da distância física entre fonte e sistema;

➢ O dado pode sofrer algumas transformações e rotulações.

Page 30: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

30

Tecnologias para Big Data

➢ Armazenamento de Dados:

➢ Apesar de ser uma tarefa simples, há dificuldades em se

armazenar grandes volumes de dados distribuídos;

➢ Hadoop, Ceph e GlusterFS.

Page 31: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

31

Tecnologias para Big Data

➢ Processamento e Análise de Dados:

➢ Processamento em Lotes (Batch);

➢ Processamento em Tempo Real (Stream);

Page 32: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

32

Tecnologias para Big Data

➢ Visualização de Dados:

Page 33: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

33

Crowdsourcing

➢ Não confunda crowdsourcing com crowdfunding;

➢ No crowdsourcing, as pessoas com conhecimentos para

solucionar determinado problema se juntam;

➢ Um exemplo bem conhecido de crowdsourcing é o App Waze;

➢ Esse tipo de serviço pode garantir vantagem competitiva às

empresas;

➢ Apesar de o termo ter sido cunhado em 2005, somente após a

grande inserção de Big Data é que ganhou força.

Page 34: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

34

Análise de Sentimentos

➢ O que é Sentimento?

➢ Há subjetividade ou fatos em sentimentos?

➢ Então, o que é a Análise de Sentimento?

➢ Uso de Processamento de Línguas Naturais (PLN);

➢ Uso de Estatística;

➢ Uso de Machine Learning.

➢ Às vezes, a Análise de Sentimento é chamada de Opinion Mining.

Page 35: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

35

Análise de Sentimentos

➢ A Análise de Sentimento tenta responder questões, como:

➢ O que as pessoas acham de determinado produto/serviço?

➢ Este e-mail mostra satisfação ou insatisfação?

➢ O que as pessoas do Twitter pensam sobre candidatos à

presidência?

➢ Qual o grau de satisfação das pessoas em relação à economia

de seu país?

Page 36: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

36

Análise de Sentimentos

➢ Por meio de alguns questionamentos levantados em Análise de

Sentimentos, torna-se possível identificar:

➢ Fake News;

➢ Conteúdo impróprio ou apropriado;

➢ Falhas na produção de determinado equipamento;

➢ Melhorias no atendimento aos clientes;

➢ Nichos de mercado mais atrativos.

Page 37: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

37

Casos de Sucesso – Rolls Royce

Page 38: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

38

Casos de Sucesso – Londres

Page 39: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

39

Casos de Sucesso – Netflix

Page 40: Fundamentos de Mineração de Dados · 3 Tipos de Dados Problemas de Dados Estruturados: O que acontece se eu não souber exatamente o que procuro? Por exemplo, estou buscando uma

40

Casos de Sucesso – Harvard