40
Fundamentos de Mineração de Dados Prof. Ricardo Fernandes [email protected]

Fundamentos de Mineração de Dados

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Fundamentos de

Mineração de Dados

Prof. Ricardo Fernandes

[email protected]

2

Tipos de Dados

Estruturados:

➢ São dados organizados e armazenados em um formato

padronizado;

➢ Seus elementos são todos endereçados para facilitar a

recuperação;

➢ Esse endereçamento normalmente é feito por um ID;

➢ Tipo de dados caro

para empresas;

3

Tipos de Dados

Problemas de Dados Estruturados:

➢ O que acontece se eu não souber exatamente o que procuro?

➢ Por exemplo, estou buscando uma pessoa no Facebook que vi

em uma palestra, porém:

➢ Esqueci ou cheguei atrasado na palestra e não sei o nome;

➢ Ao final da palestra vi que temos um amigo em comum;

➢ De acordo com a palestra, sei que a pessoa trabalha com

Desenvolvimento de Software em uma Startup;

4

Tipos de Dados

Não-Estruturados:

➢ A dificuldade em se trabalhar com dados não-estruturados é:

➢ Organizá-los;

➢ Traduzí-los para o computador.

➢ Inclui dados como: áudio, vídeo, imagens e posts;

➢ Análises de dados não-estruturados ainda são desafios;

➢ Bases de Dados noSQL;

5

Tipos de Dados

Não-Estruturados:

➢ Este tipo de dado é gerado nos seguintes formatos:

➢ Arquivos de texto (txt, doc, pdf, etc.);

➢ E-mail, Chats e Mensagens de dispositivos móveis;

➢ Websites e Posts em redes sociais;

➢ Áudios e Vídeos em distintos formatos e compactações;

➢ Exemplo: Buscas em Caixas de E-mail:

➢ Foram aprimoradas para buscar assuntos e conteúdos.

6

Tipos de Dados

Exemplo Prático – Dados Não-Estruturados:

Ex-governadorCalifornia

AtorÁustria Fisiculturista

ArnoldSchwarzenegger

7

Fontes de Dados – Sensores Físicos

Estação Climatológica:

➢ Volume de Dados: Aquisições a cada 5 min;

➢ Após 1 dia: 288 amostras de dados;

➢ Após 1 mês: 8.640 amostras de dados;

➢ Após 1 ano: 105.120 amostras de dados.

➢ Essa fonte de dados se encaixa em Big Data?

8

Fontes de Dados – Websites

Mercado Financeiro:

➢ Volume de Dados: Aquisições a cada 1 seg.;

➢ Após 1 dia: 86.400 amostras de dados;

➢ Após 1 mês: 1.814.400 amostras de dados (21 dias úteis);

➢ Após 1 ano: 21.772.800 amostras de dados (252 dias úteis).

➢ Essa fonte de dados se encaixa em Big Data?

9

Fontes de Dados – Redes Sociais

Tweets / Likes:

➢ Volume de Dados: ???

➢ Após 1 dia: ???

➢ Após 1 mês: ???

➢ Após 1 ano: ???

10

Passado e Presente

➢ Nas últimas décadas, foi afirmado que a informação centralizada

seria processada de forma mais eficiente;

➢ Apenas no início dos anos 90, o termo Computação em Grid

começou a ser difundido;

➢ Somente em 2005 começou a se falar sobre Computação em

Nuvem;

➢ O termo Big Data surgiu em 2001, mas se popularizou em 2012.

11

Análise Bibliométrica

➢ Produção x Ano:

0

20

40

60

80

100

120

1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 2020

Computação Paralela + Distribuída

12

Análise Bibliométrica

➢ Produção x Ano:

0

100

200

300

400

500

600

700

800

2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018

Cloud Computing

13

Análise Bibliométrica

➢ Produção x Ano:

0

200

400

600

800

1000

1200

1400

1600

2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018

Pro

du

ção

Anos

Big Data

14

Análise Bibliométrica

➢ Produção x País:

15

Análise Bibliométrica

➢ Computação em Nuvem (Ciência da Computação x Negócios):

16

Análise Bibliométrica

➢ Big Data (Ciência da Computação x Negócios):

17

Fundamentos – Computação Paralela

➢ A computação paralela foi criada para minimizar o tempo de

resposta para determinado processo;

➢ As tarefas a serem processadas são divididas e atribuídas a

distintas máquinas;

➢ Normalmente, estas máquinas não estavam fisicamente distantes;

➢ Há muitos problemas de concorrência de processos/threads em

computação paralela:

➢ Deadlock;

18

Fundamentos – Computação Paralela

➢ Processos concorrentes compartilham memória;

➢ Memória não é escalável.

➢ Muita tecnologia foi criada para permitir a computação paralela:

➢ Hardware;

➢ Algoritmos;

➢ Modelos e outras ferramentas computacionais.

19

Fundamentos – Computação Distribuída

➢ A computação distribuída corresponde a computadores autônomos

interconectados por uma rede e um middleware;

➢ Middleware é um software distribuído que controla atividades e

compartilha recursos do sistema;

➢ Usuário tem a impressão de estar operando uma máquina e não um

conjunto;

➢ Todos os acessos são transparentes, ou seja, se o acesso é local

ou remoto, os comandos são os mesmos.

20

Fundamentos – Cloud Computing

➢ É um modelo de computação onde os recursos são alocados de

forma dinâmica e escalável (tudo via Internet);

➢ Normalmente, não se sabe a localização física dos dados;

➢ As Nuvens podem ser grandes repositórios de recursos

virtualizados, como: hardware, plataformas de desenvolvimento ou

serviços;

➢ Qualquer recurso virtualizado pode ser reconfigurado para

distintas cargas de trabalho.

21

Fundamentos – Cloud Computing

➢ A forma de pagamento por este tipo de serviço é: On-Demand;

➢ Usuário não arca com custos de manutenção e atualização de

tecnologia;

➢ Para empresas, a Computação em Nuvem pose ser vantajosa por

reduzir despesas da área de TI;

➢ Os serviços disponibilizados pela Nuvem podem ser acessados de

qualquer local (com acesso à Internet);

➢ Dados distribuídos minimizam perda e indisponibilidade.

22

Fundamentos – Cloud Computing

➢ Há 3 modelos básicos de serviços para Computação em Nuvem:

➢ SaaS – Software as a Service;

➢ PaaS – Platform as a Service;

➢ IaaS – Infrastructure as a Service.

➢ SaaS: usuário acessa aplicativos executados na nuvem, por meio

de, por exemplo, um web browser ou thin client;

➢ PaaS: usuário pode implementar, testar e gerenciar aplicativos na

nuvem. Porém, o mesmo não tem controle sobre o SO.

23

Fundamentos – Cloud Computing

➢ IaaS: usuário acessa computadores virtualizados, ou seja, sistema

operacional, armazenamento de dados, etc.

➢ Ainda é importante comentar que Nuvens podem ser:

➢ Privadas – feita para atender uma organização;

➢ Públicas – feita para atender o público em geral;

➢ Comunitárias – semelhante às privadas, porém atende um

grupo de organizações com necessidades similares;

➢ Híbridas – composição de dois ou mais tipos.

24

Fundamentos – Big Data

➢ Há distintos conceitos de Big Data;

➢ Há um consenso que Big Data trata de grandes volumes de dados e

de estratégias de computação para manusear estes dados;

➢ Mas, o que é um grande volume de dados???

➢ Big Data trata da velocidade de recuperação, processamento e

análise de dados;

➢ Os dados são heterogêneos, ou seja, estruturados e não

estruturados.

25

Fundamentos – Big Data

➢ Devido ao grande volume de dados, eles precisam ser processados

em clusters (sistemas paralelos e distribuídos);

➢ Os dados vem de muitas fontes de informação. Dessa forma, é

necessário velocidade no fluxo de dados;

➢ Esse fluxo de dados é constante e deve lidar com coleta,

armazenamento, processamento, análise/visualização;

➢ Heterogeneidade dos dados é devida à variedade de fontes de

informação. 3 Vs

26

Fundamentos – Big Data

➢ Os 3 Vs podem ser analisados de outro ponto de vista:

➢ Veracidade – garantir a veracidade dos dados de determinadas

fontes (Ex.: Fake News);

➢ Variabilidade – pode haver muita variação na qualidade dos

dados (Ex.: Missing Data);

➢ Valor – devido à complexidade de alguns sistemas, é uma

tarefa difícil extrair valor dos dados.

27

Tecnologias para Big Data

➢ Essas tecnologias podem ser divididas em:

➢ Coleta e Inserção de Dados no Sistema;

➢ Armazenamento de Dados;

➢ Processamento e Análise;

➢ Visualização.

28

Tecnologias para Big Data

➢ Open-Source: código em Java;

➢ Suporta aplicações distribuídas e manipula grandes volumes de

dados;

➢ Usuários de Hadoop:

➢ No Facebook, em 2011, o Hadoop manipulava 30 PBytes;

29

Tecnologias para Big Data

➢ Coleta e Inserção de Dados no Sistema:

➢ O desempenho dessa ação depende da qualidade dos dados,

do formato e da distância física entre fonte e sistema;

➢ O dado pode sofrer algumas transformações e rotulações.

30

Tecnologias para Big Data

➢ Armazenamento de Dados:

➢ Apesar de ser uma tarefa simples, há dificuldades em se

armazenar grandes volumes de dados distribuídos;

➢ Hadoop, Ceph e GlusterFS.

31

Tecnologias para Big Data

➢ Processamento e Análise de Dados:

➢ Processamento em Lotes (Batch);

➢ Processamento em Tempo Real (Stream);

32

Tecnologias para Big Data

➢ Visualização de Dados:

33

Crowdsourcing

➢ Não confunda crowdsourcing com crowdfunding;

➢ No crowdsourcing, as pessoas com conhecimentos para

solucionar determinado problema se juntam;

➢ Um exemplo bem conhecido de crowdsourcing é o App Waze;

➢ Esse tipo de serviço pode garantir vantagem competitiva às

empresas;

➢ Apesar de o termo ter sido cunhado em 2005, somente após a

grande inserção de Big Data é que ganhou força.

34

Análise de Sentimentos

➢ O que é Sentimento?

➢ Há subjetividade ou fatos em sentimentos?

➢ Então, o que é a Análise de Sentimento?

➢ Uso de Processamento de Línguas Naturais (PLN);

➢ Uso de Estatística;

➢ Uso de Machine Learning.

➢ Às vezes, a Análise de Sentimento é chamada de Opinion Mining.

35

Análise de Sentimentos

➢ A Análise de Sentimento tenta responder questões, como:

➢ O que as pessoas acham de determinado produto/serviço?

➢ Este e-mail mostra satisfação ou insatisfação?

➢ O que as pessoas do Twitter pensam sobre candidatos à

presidência?

➢ Qual o grau de satisfação das pessoas em relação à economia

de seu país?

36

Análise de Sentimentos

➢ Por meio de alguns questionamentos levantados em Análise de

Sentimentos, torna-se possível identificar:

➢ Fake News;

➢ Conteúdo impróprio ou apropriado;

➢ Falhas na produção de determinado equipamento;

➢ Melhorias no atendimento aos clientes;

➢ Nichos de mercado mais atrativos.

37

Casos de Sucesso – Rolls Royce

38

Casos de Sucesso – Londres

39

Casos de Sucesso – Netflix

40

Casos de Sucesso – Harvard