View
4
Download
0
Category
Preview:
Citation preview
Fundamentos de
Mineração de Dados
Prof. Ricardo Fernandes
ricardo.asf@ufscar.br
2
Tipos de Dados
Estruturados:
➢ São dados organizados e armazenados em um formato
padronizado;
➢ Seus elementos são todos endereçados para facilitar a
recuperação;
➢ Esse endereçamento normalmente é feito por um ID;
➢ Tipo de dados caro
para empresas;
3
Tipos de Dados
Problemas de Dados Estruturados:
➢ O que acontece se eu não souber exatamente o que procuro?
➢ Por exemplo, estou buscando uma pessoa no Facebook que vi
em uma palestra, porém:
➢ Esqueci ou cheguei atrasado na palestra e não sei o nome;
➢ Ao final da palestra vi que temos um amigo em comum;
➢ De acordo com a palestra, sei que a pessoa trabalha com
Desenvolvimento de Software em uma Startup;
4
Tipos de Dados
Não-Estruturados:
➢ A dificuldade em se trabalhar com dados não-estruturados é:
➢ Organizá-los;
➢ Traduzí-los para o computador.
➢ Inclui dados como: áudio, vídeo, imagens e posts;
➢ Análises de dados não-estruturados ainda são desafios;
➢ Bases de Dados noSQL;
5
Tipos de Dados
Não-Estruturados:
➢ Este tipo de dado é gerado nos seguintes formatos:
➢ Arquivos de texto (txt, doc, pdf, etc.);
➢ E-mail, Chats e Mensagens de dispositivos móveis;
➢ Websites e Posts em redes sociais;
➢ Áudios e Vídeos em distintos formatos e compactações;
➢ Exemplo: Buscas em Caixas de E-mail:
➢ Foram aprimoradas para buscar assuntos e conteúdos.
6
Tipos de Dados
Exemplo Prático – Dados Não-Estruturados:
Ex-governadorCalifornia
AtorÁustria Fisiculturista
ArnoldSchwarzenegger
7
Fontes de Dados – Sensores Físicos
Estação Climatológica:
➢ Volume de Dados: Aquisições a cada 5 min;
➢ Após 1 dia: 288 amostras de dados;
➢ Após 1 mês: 8.640 amostras de dados;
➢ Após 1 ano: 105.120 amostras de dados.
➢ Essa fonte de dados se encaixa em Big Data?
8
Fontes de Dados – Websites
Mercado Financeiro:
➢ Volume de Dados: Aquisições a cada 1 seg.;
➢ Após 1 dia: 86.400 amostras de dados;
➢ Após 1 mês: 1.814.400 amostras de dados (21 dias úteis);
➢ Após 1 ano: 21.772.800 amostras de dados (252 dias úteis).
➢ Essa fonte de dados se encaixa em Big Data?
9
Fontes de Dados – Redes Sociais
Tweets / Likes:
➢ Volume de Dados: ???
➢ Após 1 dia: ???
➢ Após 1 mês: ???
➢ Após 1 ano: ???
10
Passado e Presente
➢ Nas últimas décadas, foi afirmado que a informação centralizada
seria processada de forma mais eficiente;
➢ Apenas no início dos anos 90, o termo Computação em Grid
começou a ser difundido;
➢ Somente em 2005 começou a se falar sobre Computação em
Nuvem;
➢ O termo Big Data surgiu em 2001, mas se popularizou em 2012.
11
Análise Bibliométrica
➢ Produção x Ano:
0
20
40
60
80
100
120
1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 2020
Computação Paralela + Distribuída
12
Análise Bibliométrica
➢ Produção x Ano:
0
100
200
300
400
500
600
700
800
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
Cloud Computing
13
Análise Bibliométrica
➢ Produção x Ano:
0
200
400
600
800
1000
1200
1400
1600
2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
Pro
du
ção
Anos
Big Data
14
Análise Bibliométrica
➢ Produção x País:
15
Análise Bibliométrica
➢ Computação em Nuvem (Ciência da Computação x Negócios):
16
Análise Bibliométrica
➢ Big Data (Ciência da Computação x Negócios):
17
Fundamentos – Computação Paralela
➢ A computação paralela foi criada para minimizar o tempo de
resposta para determinado processo;
➢ As tarefas a serem processadas são divididas e atribuídas a
distintas máquinas;
➢ Normalmente, estas máquinas não estavam fisicamente distantes;
➢ Há muitos problemas de concorrência de processos/threads em
computação paralela:
➢ Deadlock;
18
Fundamentos – Computação Paralela
➢ Processos concorrentes compartilham memória;
➢ Memória não é escalável.
➢ Muita tecnologia foi criada para permitir a computação paralela:
➢ Hardware;
➢ Algoritmos;
➢ Modelos e outras ferramentas computacionais.
19
Fundamentos – Computação Distribuída
➢ A computação distribuída corresponde a computadores autônomos
interconectados por uma rede e um middleware;
➢ Middleware é um software distribuído que controla atividades e
compartilha recursos do sistema;
➢ Usuário tem a impressão de estar operando uma máquina e não um
conjunto;
➢ Todos os acessos são transparentes, ou seja, se o acesso é local
ou remoto, os comandos são os mesmos.
20
Fundamentos – Cloud Computing
➢ É um modelo de computação onde os recursos são alocados de
forma dinâmica e escalável (tudo via Internet);
➢ Normalmente, não se sabe a localização física dos dados;
➢ As Nuvens podem ser grandes repositórios de recursos
virtualizados, como: hardware, plataformas de desenvolvimento ou
serviços;
➢ Qualquer recurso virtualizado pode ser reconfigurado para
distintas cargas de trabalho.
21
Fundamentos – Cloud Computing
➢ A forma de pagamento por este tipo de serviço é: On-Demand;
➢ Usuário não arca com custos de manutenção e atualização de
tecnologia;
➢ Para empresas, a Computação em Nuvem pose ser vantajosa por
reduzir despesas da área de TI;
➢ Os serviços disponibilizados pela Nuvem podem ser acessados de
qualquer local (com acesso à Internet);
➢ Dados distribuídos minimizam perda e indisponibilidade.
22
Fundamentos – Cloud Computing
➢ Há 3 modelos básicos de serviços para Computação em Nuvem:
➢ SaaS – Software as a Service;
➢ PaaS – Platform as a Service;
➢ IaaS – Infrastructure as a Service.
➢ SaaS: usuário acessa aplicativos executados na nuvem, por meio
de, por exemplo, um web browser ou thin client;
➢ PaaS: usuário pode implementar, testar e gerenciar aplicativos na
nuvem. Porém, o mesmo não tem controle sobre o SO.
23
Fundamentos – Cloud Computing
➢ IaaS: usuário acessa computadores virtualizados, ou seja, sistema
operacional, armazenamento de dados, etc.
➢ Ainda é importante comentar que Nuvens podem ser:
➢ Privadas – feita para atender uma organização;
➢ Públicas – feita para atender o público em geral;
➢ Comunitárias – semelhante às privadas, porém atende um
grupo de organizações com necessidades similares;
➢ Híbridas – composição de dois ou mais tipos.
24
Fundamentos – Big Data
➢ Há distintos conceitos de Big Data;
➢ Há um consenso que Big Data trata de grandes volumes de dados e
de estratégias de computação para manusear estes dados;
➢ Mas, o que é um grande volume de dados???
➢ Big Data trata da velocidade de recuperação, processamento e
análise de dados;
➢ Os dados são heterogêneos, ou seja, estruturados e não
estruturados.
25
Fundamentos – Big Data
➢ Devido ao grande volume de dados, eles precisam ser processados
em clusters (sistemas paralelos e distribuídos);
➢ Os dados vem de muitas fontes de informação. Dessa forma, é
necessário velocidade no fluxo de dados;
➢ Esse fluxo de dados é constante e deve lidar com coleta,
armazenamento, processamento, análise/visualização;
➢ Heterogeneidade dos dados é devida à variedade de fontes de
informação. 3 Vs
26
Fundamentos – Big Data
➢ Os 3 Vs podem ser analisados de outro ponto de vista:
➢ Veracidade – garantir a veracidade dos dados de determinadas
fontes (Ex.: Fake News);
➢ Variabilidade – pode haver muita variação na qualidade dos
dados (Ex.: Missing Data);
➢ Valor – devido à complexidade de alguns sistemas, é uma
tarefa difícil extrair valor dos dados.
27
Tecnologias para Big Data
➢ Essas tecnologias podem ser divididas em:
➢ Coleta e Inserção de Dados no Sistema;
➢ Armazenamento de Dados;
➢ Processamento e Análise;
➢ Visualização.
28
Tecnologias para Big Data
➢ Open-Source: código em Java;
➢ Suporta aplicações distribuídas e manipula grandes volumes de
dados;
➢ Usuários de Hadoop:
➢ No Facebook, em 2011, o Hadoop manipulava 30 PBytes;
29
Tecnologias para Big Data
➢ Coleta e Inserção de Dados no Sistema:
➢ O desempenho dessa ação depende da qualidade dos dados,
do formato e da distância física entre fonte e sistema;
➢ O dado pode sofrer algumas transformações e rotulações.
30
Tecnologias para Big Data
➢ Armazenamento de Dados:
➢ Apesar de ser uma tarefa simples, há dificuldades em se
armazenar grandes volumes de dados distribuídos;
➢ Hadoop, Ceph e GlusterFS.
31
Tecnologias para Big Data
➢ Processamento e Análise de Dados:
➢ Processamento em Lotes (Batch);
➢ Processamento em Tempo Real (Stream);
32
Tecnologias para Big Data
➢ Visualização de Dados:
33
Crowdsourcing
➢ Não confunda crowdsourcing com crowdfunding;
➢ No crowdsourcing, as pessoas com conhecimentos para
solucionar determinado problema se juntam;
➢ Um exemplo bem conhecido de crowdsourcing é o App Waze;
➢ Esse tipo de serviço pode garantir vantagem competitiva às
empresas;
➢ Apesar de o termo ter sido cunhado em 2005, somente após a
grande inserção de Big Data é que ganhou força.
34
Análise de Sentimentos
➢ O que é Sentimento?
➢ Há subjetividade ou fatos em sentimentos?
➢ Então, o que é a Análise de Sentimento?
➢ Uso de Processamento de Línguas Naturais (PLN);
➢ Uso de Estatística;
➢ Uso de Machine Learning.
➢ Às vezes, a Análise de Sentimento é chamada de Opinion Mining.
35
Análise de Sentimentos
➢ A Análise de Sentimento tenta responder questões, como:
➢ O que as pessoas acham de determinado produto/serviço?
➢ Este e-mail mostra satisfação ou insatisfação?
➢ O que as pessoas do Twitter pensam sobre candidatos à
presidência?
➢ Qual o grau de satisfação das pessoas em relação à economia
de seu país?
36
Análise de Sentimentos
➢ Por meio de alguns questionamentos levantados em Análise de
Sentimentos, torna-se possível identificar:
➢ Fake News;
➢ Conteúdo impróprio ou apropriado;
➢ Falhas na produção de determinado equipamento;
➢ Melhorias no atendimento aos clientes;
➢ Nichos de mercado mais atrativos.
37
Casos de Sucesso – Rolls Royce
38
Casos de Sucesso – Londres
39
Casos de Sucesso – Netflix
40
Casos de Sucesso – Harvard
Recommended