Upload
petronio-candido
View
107
Download
4
Embed Size (px)
Citation preview
Big Data e Data Science
Admirável Mundo NovoProf. Ms. Petrônio Cândido L. Silva
1. O que são dados?
2. O que é Big Data?
3. E o poder de processamento?
4. O que é Data Science?
5. E o cientista de Dados?
6. Conclusão!
Agenda
O que são dados?
O que são dados?
DADOS ● Simples / Escalar
INFORMAÇÃO ● Combinação de dados
CONHECIMENTO ● Combinação de informações
Categorias de Dados
Estruturado Semi-Estruturado Não Estruturado
Estrutura Rígida
Atributos Fixos
Tamanhos Fixos
Integriadade e Consistencia
Estrutura Flexível Sem
Estrutura Atributos Variáveis
Tamanhos Variáveis
Tipos de Dados Estruturados
Quantitativo Qualitativo
Contínuo
Discreto
Ordinal
Cardinal
Nominal
Ordinal
Categorias de Dados
Estruturado Semi-Estruturado Não Estruturado
Bancos de Dados
Tabelas
Planilhas de Cálculo
Texto
Som
Imagem
Semântica dos Dados
Fonte: http://okfn.de/blog/2015/04/gespraechskreis-digitalisierung-open-data/
Composição da Informação
Quem ?
Onde ?
Quando ?
Como ?
Quanto ?
Por quê ?
O quê ?
O macro processo da informaçãoSistemas de
ProduçãoBD
Operacional
Data Warehouse
RelatóriosCubos
DashboardsData Mining
Clientes Funcionários
DADOS
DECISÃO
INFORMAÇÃO
DADOS
INFORMAÇÃO
CONHECIMENTO
PlanejamentoMetasPromoções
OfertasPromoçõesetc
Gerentes
Dado
Dado
Dado
Informação Informação
Dado
Dado
Dado
Conhecimento
Fonte: http://jp4.r0tt.com/l_5013ce00-5c4a-11e1-ba5f-a9c495600004.jpg
Tamanho dos DadosUnidade Conversão O que representa
Bit 0 ou 1
Byte (B) 8 bits Uma letra
Kilobyte (KB) 1024 bytes Um parágrafo de texto
Megabyte (MB) 1024 Kb Um livro, uma música de 2 min
Gigabyte (GB) 1024 Mb 40 minutos de filme em qualidade de DVD
Terabyte (TB) 1024 Gb Três semanas e meia de vídeo de alta qualidade,
Petabyte (PB) 1024 Tb ???
Exabyte (EB) 1024 Pb ???
Zetabyte (ZB) 1024 Eb ???
Custo por Tamanho dos Dados
Fonte: http://www.techtudo.com.br/artigos/noticia/2013/04/do-disquete-ao-pendrive-veja-evolucao-do-armazenamento-movel.html
Custo do Armazenamento Hoje
Mídia Custo Médio por GB (R$)
Pendrive 2,50
SSD 2,60
Disco Rígido 0,37
Cloud 0,03 (mês)
Velocidade de comunicação
Velocidade 1 Segundo 1 Minuto 1 Hora
bits por segundo (bps) 1 7.5 B 450 B
Kilobits por segundo (Kbps) 125 B 7.3 KB 439 KB
Megabits por segundo (Mbps) 122 KB 7.3 MB 439 MB
Gigabits por segundo (Gbps) 119 MB 6,9 GB 414 GB
Fonte: http://www.wu.ece.ufl.edu/links/dataRate/DataMeasurementChart.html
Velocidade dos DadosDispositivo Velocidade Segundo Ano
Modem 56 K 56 Kbps 6,8 KB 1998
ADSL Até 8 Mbps 976 KB 1999
Cable Modem Até 52 Mbps 6,3 MB 2001
Ethernet 100Mbps 12,5 MB 1995
Gigabit Ethernet 1 Gbps 125 MB 1998
Wireless 108 Mbps 13,5 MB 2003
3G 384 Kbps 48 KB 2002
Custo por Velocidade dos DadosMeio Velocidade Custo Mensal por Mbps
Celular 3G 1 Mbps 30,00
ADSL 1 Mbps 44,00
Cabo 1 Mbps 40,00
Fibra 15 Mbps 75,00
Wireless
Novas Fontes de Dados
Novas Fontes de Dados
● Por quê?○ Monitoramento da marca;
○ Monitoramento de campanhas de marketing;
○ Relacionamento com o consumidor;
○ Análise de tendências (trending topics);
○ ...
● 4 milhões de buscas no Google
● 2,5 milhões de posts no
● 300 mil posts no Twitter
Data Explosion
● 220 mil fotos no Instagram
● 72 horas de vídeo no Youtube
● 50 mil downloads de aplicativos
na Apple Store
● 200 milhões de e-mails
O que acontece em 1 minuto na Internet?
Fonte: http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
Internet das Coisas (IoT)
● Diversos sensores coletando dados
automaticamente;
● Dados são enviados para a internet e
armazenados;
● Usuário é alertado sobre os dados;
Internet das Coisas (IoT)
● Sensores ● GPS● Climáticos
○ Temperatura○ Umidade○ Precipitação○ Velocidade do Vento
● Luminosidade
● Timer● Biométricos
○ Pressão○ Temperatura
Corporal○ BPM
● Carros
Fonte: https://securityledger.com/2014/04/will-ot-big-data-create-darwinian-struggle-for-insurance-carriers/
Dados Abertos (Open Data)
Disponibilizar arquivos de dados:
● Completos● Primários● Atuais● Acessíveis
● Tratáveis por computador
● Sem discriminação● Sem propriedade● Sem licença
Dados Abertos (Open Data)
● Existência○ Os dados devem estar disponíveis e indexados na web!
● Aproveitamento○ Os dados devem estar em formato utilizável por computador!
● Utilidade○ Os dados devem estar livres de restrições jurídicas!
Dados Abertos Governamentais
● Lei de Acesso à Informação (LAI)○ http://dados.gov.br/○ http://www.portaltransparencia.gov.br/○ http://www.transparencia.mg.gov.br/○ http://www.ifnmg.edu.br/acessoainformacao/sobre-
o-acesso-a-informacao○
Dados Abertos Científicos
● http://br.okfn.org/● http://www.nature.com/sdata/● http://blog.visual.ly/data-sources/●
Novo cenário
Dados
GovernoSistemas Emp
Social Media
E-mail, arquivos, etc
Máquinas e sensores
Novo cenário
● Todos os dados○ Formatos diferentes entre si;○ Gerados em velocidades distintas;○ Validades diferentes;○ Relacionados ou não.
http://www.priv.gc.ca/information/ar/images/cartoon3.jpg
Valor e Depreciação
● Alguns dados sofrem depreciação○ Têm dada de validade○ Custo de Oportunidade
Depois de coletados e armazenados os dados devem rapidamente serem transformados em
informação para ser consumida!
Impacto da Informação
Exclusividade
Novidade
Completude
Utilidade
Visualização da Informação
● Relatórios● Gráficos● Indicadores de Desempenho● Painéis de Controle (Dashboards)● Infográficos e Data Storytelling
Business Intelligence
● Exemplos○ http://www.paraondefoiomeudinheiro.org.
br/dataset/estado-sao-paulo-2012○ http://ison.stratebi.es/aerobrasil/○ http://www.it4biz.com.br/apps/dados.gov.br/obrasdopac/○ http://www.estatisticasfutebolbrasileiro.com/○ http://dataviva.info/○
http://www.kdnuggets.com/images/big-data-cartoon-100000-warehouses.jpg
Big Data
Big Data
● Buzzword da moda...● Quando o tamanho do dados faz parte do
problema!● Alta Dimensionalidade
○ Entidades / Atributos / Instâncias
Big Data
Big Data● 4 V's (Stapleton, 2011)
○ Volume■ Terabytes para Petabytes de dados
○ Velocidade■ Fluxo contínuo e rápido de novos dados
○ Variedade■ Dados estruturados, semi e não estruturados
○ Veracidade■ Governança de dados e qualificação entre
Consistente, Inconsistente, Incompleto, Ambíguo, ...
Fonte: https://devcentral.f5.com/blogs/us/the-four-v-rsquos-of-big-data
Big Data
Fonte: http://sweetlysocial.net/big-data-better-marketing/
Big Data● Exemplos
○ Social Media○ Web Logs○ Sensor Networks○ Cadeias de DNA○ LHC
E o poder de processamento?
E o poder de processamento???
● Supercomputadores ???○ $$$ #Fail
● Multicomputadores !!!○ $$$ :-)
E o poder de processamento???
● Multicomputadores○ Cluster
■ SIMD - Single Instruction Multiple Data■ Rede Local
○ Grid■ MIMD - Multiple Instruction Multiple Data■ Distribuição geográfica
E o poder de processamento???
● Cluster = Dividir para Conquistar○ Sharding
■ Sistema de Arquivos Distribuídos■ Dividir os dados
○ Map/Reduce■ Processamento Distribuído & Paralelo■ Dividir o processamento
Cluster
● Vantagens○ Alto Desempenho
○ Alta Disponibilidade
○ Flexibilidade
○ Custo
Sharding
● Particionamento Horizontal Replicado
○ O total de dados é dividido em vários partes
pequenas (shards - cacos);
○ As partes são divididas entre vários computadores
○ Cada parte tem pelo menos 3 cópias em
computadores diferentes (segurança)
Sharding
Comp 1 Comp 2 Comp 3 Comp 4 Comp N
...
Master
Dados
Índice
AB
DadosCD
DadosAC
DadosBD
DadosAD
Map/Reduce: Processamento Distribuído
● Essas tarefas são executadas em duas
etapas:○ Mapeamento
○ Redução
Map/Reduce: Processamento Distribuído
● Etapa de Mapeamento○ O processamento total é dividido em pequenas
tarefas○ As tarefas são enviadas para os computadores
executarem nos dados locais○ Cada computador envia o resultado para o
computador central
Mapeamento
Comp 1
Proc.
Comp 2
Proc.
Comp 3
Proc.
Comp 4
Proc.
Comp N
Proc....
Master
Geren
Dados Dados Dados DadosDados
Índice
Map/Reduce: Processamento Distribuído
● Etapa de Redução
○ O computador central recebe o resultado do
processamento dos outro computadores
○ Os resultados individuais são combinados em um
resultado único
Redução
Comp 1
Proc.
Comp 2
Proc.
Comp 3
Proc.
Comp 4
Proc.
Comp N
Proc....
Master
Geren
Dados Dados Dados DadosDados
Índice
Cluster
Comp 1
Proc.
Comp 2
Proc.
Comp 3
Proc.
Comp 4
Proc.
Comp N
Proc....
Master
Geren
Dados Dados Dados DadosDados
Índice
Até aqui...
● Tenho muitos dados○ De muitos tipos○ Chegando muito rápido
● Tenho muito poder computacional○ Muitos discos○ Muitos processadores
E o que eu faço com tudo isso???
Data Science
Ciência de Dados● Objetivo
○ Encontrar PADRÕES e TENDÊNCIAS nos dados;
■ Novos
■ Potencialmente úteis
○ Desenvolver tecnologias a partir dos padrões
encontrados.
Análise
Descritiva Preditiva
Diagnóstica Prescritiva
Padrões Tendências
Causas Ações
Data Science
Bancos de DadosProgramação
Estatística
Inteligência Computacional
Cálculo
Metodologia de Pesquisa
Gestão de Projetos
Análise de Negócio
Grafos e Redes
Design
Otimização
Simulação
Álgebra Linear
Data Science
Processos
● KDD - Knowledge Discovery in Databases (Fayyad, Piatetsky-Shapiro, 1996)
● SEMMA (SAS, 2000)○ Sample, Explore, Modify, Model, Assess
● CRISP/DM (Chapman et al., 2000)○ CRoss-Industry Standard Process for Data Mining
Data Mining
(Azevedo, 2008)
Aquisição
Armazenamento
Análise Exploratória
Modelagem Descritiva
Visualização
Transformação
Modelagem Preditiva
Teste e Experimentação Validação Implantação
Seleção
Dados
Limpeza
Problema
Hipóteses
Pré
Proc
essa
men
toPr
oces
sam
ento
Pós
Proc
essa
m.
PRODUTOS
Pré Processamento
CLUSTER
FONTES
Estrut.
SemiEstrut.
NãoEstrut.
Proc.
Dados
Proc.
Dados
Proc.
Dados
Processamento Pós Processamento
Pré Processamento
PreditivoDescritivo
RegressãoAgrupamento
Associação
Séries Temporais
RecomendaçãoAnálise de Redes
Redes Bayesianas
Árvores de Decisão
Redes Neurais
Ganho de Informação
Correlação
PCA
SVD
SVM
https://community.jivesoftware.com/docs/DOC-30464
E o cientista de dados?
“Pessoa que é melhor em estatística do que um engenheiro de software e melhor em engenharia de software
do que um estatístico”
DJ Patil
Como se tornar um cientista de dados?
Conclusão
Conclusão
● Tudo está conectado!● Nunca antes tivemos tantos dados,
informações e conhecimento sobre tantas coisas;
● Há um vasto leque de possibilidades latentes...
Conclusão
● Data Science○ Mais do mesmo ou novidade?○ Uma nova renascença ou uma onda passageira?
Até onde podemos chegar?O que somos capazes de fazer?
Efeito Borboleta
"Um parafuso mal ajustado na planta de produção de uma fábrica pode causar uma
crise econômica mundial?"
"Em Deus eu confio.Todos os outros precisam
trazer dados"
William E. Deming
"Dados são o novo petróleo!"
William E. Deming
Conclusão
Data Warehouse
Big Data
NoSQL
ERP's
WebSocial Media
LogsArquivosE-mail
Intelligence
Analytics
DADOINFORMAÇÃO
CONHECIMENTO
Referências● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview.
Proceedings of the IADIS European Conference on Data Mining, Amsterdam, 2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136. Acesso em 28/01/2013.
● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July 2000. – Keynote at the ACM Symposium on Principles of Distributed Computing (PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-keynote.pdf Acesso em 27/01/2013.
● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000. Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em 27/01/2013.
● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of-the-art review and contemporary applications. In Symposium on Progress in Information & Communication Technology 2009. p. 96-101.
● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In: Communications of the ACM 13 (1970), June, No. 6, p. 377–387
● Dean, J. and Ghemawat, S. MapReduce: simplified data processing on large clusters. Communications of the ACM. p. 107-113. 2008.
Referências● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview.
In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining. AAAI Press / The MIT Press.
● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM v. 39, n. 11, p. 27-34. 1996.
● Inmon, W.H. Building the data warehouse. J. Wiley. 2002.● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5.
com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013.● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em
http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013.● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to
dimensional modelling. New York: 2002.● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas.
com/technologies/analytics/datamining/miner/semma.html. Acessado em 27/01/2013.
● Stapleton, Lisa K. Taming big data. Disponível em http://www.ibm.com/developerworks/data/library/dmmag/DMMag_2011_Issue2/BigData/index.html?cmp=dw&cpb=dwinf&ct=dwnew&cr=dwnen&ccy=zz&csr=051211. Acesso em 27/01/2013.