Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

  • View
    107

  • Download
    4

  • Category

    Science

Preview:

Citation preview

Big Data e Data Science

Admirável Mundo NovoProf. Ms. Petrônio Cândido L. Silva

1. O que são dados?

2. O que é Big Data?

3. E o poder de processamento?

4. O que é Data Science?

5. E o cientista de Dados?

6. Conclusão!

Agenda

O que são dados?

O que são dados?

DADOS ● Simples / Escalar

INFORMAÇÃO ● Combinação de dados

CONHECIMENTO ● Combinação de informações

Categorias de Dados

Estruturado Semi-Estruturado Não Estruturado

Estrutura Rígida

Atributos Fixos

Tamanhos Fixos

Integriadade e Consistencia

Estrutura Flexível Sem

Estrutura Atributos Variáveis

Tamanhos Variáveis

Tipos de Dados Estruturados

Quantitativo Qualitativo

Contínuo

Discreto

Ordinal

Cardinal

Nominal

Ordinal

Categorias de Dados

Estruturado Semi-Estruturado Não Estruturado

Bancos de Dados

Tabelas

Planilhas de Cálculo

E-mail

Texto

Som

Imagem

Semântica dos Dados

Fonte: http://okfn.de/blog/2015/04/gespraechskreis-digitalisierung-open-data/

Composição da Informação

Quem ?

Onde ?

Quando ?

Como ?

Quanto ?

Por quê ?

O quê ?

O macro processo da informaçãoSistemas de

ProduçãoBD

Operacional

Data Warehouse

RelatóriosCubos

DashboardsData Mining

Clientes Funcionários

DADOS

DECISÃO

INFORMAÇÃO

DADOS

INFORMAÇÃO

CONHECIMENTO

PlanejamentoMetasPromoções

OfertasPromoçõesetc

Gerentes

Dado

Dado

Dado

Informação Informação

Dado

Dado

Dado

Conhecimento

Fonte: http://jp4.r0tt.com/l_5013ce00-5c4a-11e1-ba5f-a9c495600004.jpg

Tamanho dos DadosUnidade Conversão O que representa

Bit 0 ou 1

Byte (B) 8 bits Uma letra

Kilobyte (KB) 1024 bytes Um parágrafo de texto

Megabyte (MB) 1024 Kb Um livro, uma música de 2 min

Gigabyte (GB) 1024 Mb 40 minutos de filme em qualidade de DVD

Terabyte (TB) 1024 Gb Três semanas e meia de vídeo de alta qualidade,

Petabyte (PB) 1024 Tb ???

Exabyte (EB) 1024 Pb ???

Zetabyte (ZB) 1024 Eb ???

Custo por Tamanho dos Dados

Fonte: http://www.techtudo.com.br/artigos/noticia/2013/04/do-disquete-ao-pendrive-veja-evolucao-do-armazenamento-movel.html

Custo do Armazenamento Hoje

Mídia Custo Médio por GB (R$)

Pendrive 2,50

SSD 2,60

Disco Rígido 0,37

Cloud 0,03 (mês)

Velocidade de comunicação

Velocidade 1 Segundo 1 Minuto 1 Hora

bits por segundo (bps) 1 7.5 B 450 B

Kilobits por segundo (Kbps) 125 B 7.3 KB 439 KB

Megabits por segundo (Mbps) 122 KB 7.3 MB 439 MB

Gigabits por segundo (Gbps) 119 MB 6,9 GB 414 GB

Fonte: http://www.wu.ece.ufl.edu/links/dataRate/DataMeasurementChart.html

Velocidade dos DadosDispositivo Velocidade Segundo Ano

Modem 56 K 56 Kbps 6,8 KB 1998

ADSL Até 8 Mbps 976 KB 1999

Cable Modem Até 52 Mbps 6,3 MB 2001

Ethernet 100Mbps 12,5 MB 1995

Gigabit Ethernet 1 Gbps 125 MB 1998

Wireless 108 Mbps 13,5 MB 2003

3G 384 Kbps 48 KB 2002

Custo por Velocidade dos DadosMeio Velocidade Custo Mensal por Mbps

Celular 3G 1 Mbps 30,00

ADSL 1 Mbps 44,00

Cabo 1 Mbps 40,00

Fibra 15 Mbps 75,00

Wireless

Novas Fontes de Dados

Novas Fontes de Dados

● Por quê?○ Monitoramento da marca;

○ Monitoramento de campanhas de marketing;

○ Relacionamento com o consumidor;

○ Análise de tendências (trending topics);

○ ...

● 4 milhões de buscas no Google

● 2,5 milhões de posts no

Facebook

● 300 mil posts no Twitter

Data Explosion

● 220 mil fotos no Instagram

● 72 horas de vídeo no Youtube

● 50 mil downloads de aplicativos

na Apple Store

● 200 milhões de e-mails

O que acontece em 1 minuto na Internet?

Fonte: http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/

Internet das Coisas (IoT)

● Diversos sensores coletando dados

automaticamente;

● Dados são enviados para a internet e

armazenados;

● Usuário é alertado sobre os dados;

Internet das Coisas (IoT)

● Sensores ● GPS● Climáticos

○ Temperatura○ Umidade○ Precipitação○ Velocidade do Vento

● Luminosidade

● Timer● Biométricos

○ Pressão○ Temperatura

Corporal○ BPM

● Carros

Fonte: https://securityledger.com/2014/04/will-ot-big-data-create-darwinian-struggle-for-insurance-carriers/

Dados Abertos (Open Data)

Disponibilizar arquivos de dados:

● Completos● Primários● Atuais● Acessíveis

● Tratáveis por computador

● Sem discriminação● Sem propriedade● Sem licença

Dados Abertos (Open Data)

● Existência○ Os dados devem estar disponíveis e indexados na web!

● Aproveitamento○ Os dados devem estar em formato utilizável por computador!

● Utilidade○ Os dados devem estar livres de restrições jurídicas!

Dados Abertos Governamentais

● Lei de Acesso à Informação (LAI)○ http://dados.gov.br/○ http://www.portaltransparencia.gov.br/○ http://www.transparencia.mg.gov.br/○ http://www.ifnmg.edu.br/acessoainformacao/sobre-

o-acesso-a-informacao○

Dados Abertos Científicos

● http://br.okfn.org/● http://www.nature.com/sdata/● http://blog.visual.ly/data-sources/●

Novo cenário

Dados

GovernoSistemas Emp

Social Media

E-mail, arquivos, etc

Máquinas e sensores

Novo cenário

● Todos os dados○ Formatos diferentes entre si;○ Gerados em velocidades distintas;○ Validades diferentes;○ Relacionados ou não.

http://www.priv.gc.ca/information/ar/images/cartoon3.jpg

Valor e Depreciação

● Alguns dados sofrem depreciação○ Têm dada de validade○ Custo de Oportunidade

Depois de coletados e armazenados os dados devem rapidamente serem transformados em

informação para ser consumida!

Impacto da Informação

Exclusividade

Novidade

Completude

Utilidade

Visualização da Informação

● Relatórios● Gráficos● Indicadores de Desempenho● Painéis de Controle (Dashboards)● Infográficos e Data Storytelling

http://www.kdnuggets.com/images/big-data-cartoon-100000-warehouses.jpg

Big Data

Big Data

● Buzzword da moda...● Quando o tamanho do dados faz parte do

problema!● Alta Dimensionalidade

○ Entidades / Atributos / Instâncias

Big Data

Big Data● 4 V's (Stapleton, 2011)

○ Volume■ Terabytes para Petabytes de dados

○ Velocidade■ Fluxo contínuo e rápido de novos dados

○ Variedade■ Dados estruturados, semi e não estruturados

○ Veracidade■ Governança de dados e qualificação entre

Consistente, Inconsistente, Incompleto, Ambíguo, ...

Fonte: https://devcentral.f5.com/blogs/us/the-four-v-rsquos-of-big-data

Big Data

Fonte: http://sweetlysocial.net/big-data-better-marketing/

Big Data● Exemplos

○ Social Media○ Web Logs○ Sensor Networks○ Cadeias de DNA○ LHC

E o poder de processamento?

E o poder de processamento???

● Supercomputadores ???○ $$$ #Fail

● Multicomputadores !!!○ $$$ :-)

E o poder de processamento???

● Multicomputadores○ Cluster

■ SIMD - Single Instruction Multiple Data■ Rede Local

○ Grid■ MIMD - Multiple Instruction Multiple Data■ Distribuição geográfica

E o poder de processamento???

● Cluster = Dividir para Conquistar○ Sharding

■ Sistema de Arquivos Distribuídos■ Dividir os dados

○ Map/Reduce■ Processamento Distribuído & Paralelo■ Dividir o processamento

Cluster

● Vantagens○ Alto Desempenho

○ Alta Disponibilidade

○ Flexibilidade

○ Custo

Sharding

● Particionamento Horizontal Replicado

○ O total de dados é dividido em vários partes

pequenas (shards - cacos);

○ As partes são divididas entre vários computadores

○ Cada parte tem pelo menos 3 cópias em

computadores diferentes (segurança)

Sharding

Comp 1 Comp 2 Comp 3 Comp 4 Comp N

...

Master

Dados

Índice

AB

DadosCD

DadosAC

DadosBD

DadosAD

Map/Reduce: Processamento Distribuído

● Essas tarefas são executadas em duas

etapas:○ Mapeamento

○ Redução

Map/Reduce: Processamento Distribuído

● Etapa de Mapeamento○ O processamento total é dividido em pequenas

tarefas○ As tarefas são enviadas para os computadores

executarem nos dados locais○ Cada computador envia o resultado para o

computador central

Mapeamento

Comp 1

Proc.

Comp 2

Proc.

Comp 3

Proc.

Comp 4

Proc.

Comp N

Proc....

Master

Geren

Dados Dados Dados DadosDados

Índice

Map/Reduce: Processamento Distribuído

● Etapa de Redução

○ O computador central recebe o resultado do

processamento dos outro computadores

○ Os resultados individuais são combinados em um

resultado único

Redução

Comp 1

Proc.

Comp 2

Proc.

Comp 3

Proc.

Comp 4

Proc.

Comp N

Proc....

Master

Geren

Dados Dados Dados DadosDados

Índice

Cluster

Comp 1

Proc.

Comp 2

Proc.

Comp 3

Proc.

Comp 4

Proc.

Comp N

Proc....

Master

Geren

Dados Dados Dados DadosDados

Índice

Até aqui...

● Tenho muitos dados○ De muitos tipos○ Chegando muito rápido

● Tenho muito poder computacional○ Muitos discos○ Muitos processadores

E o que eu faço com tudo isso???

Data Science

Ciência de Dados● Objetivo

○ Encontrar PADRÕES e TENDÊNCIAS nos dados;

■ Novos

■ Potencialmente úteis

○ Desenvolver tecnologias a partir dos padrões

encontrados.

Análise

Descritiva Preditiva

Diagnóstica Prescritiva

Padrões Tendências

Causas Ações

Data Science

Bancos de DadosProgramação

Estatística

Inteligência Computacional

Cálculo

Metodologia de Pesquisa

Gestão de Projetos

Análise de Negócio

Grafos e Redes

Design

Otimização

Simulação

Álgebra Linear

Data Science

Processos

● KDD - Knowledge Discovery in Databases (Fayyad, Piatetsky-Shapiro, 1996)

● SEMMA (SAS, 2000)○ Sample, Explore, Modify, Model, Assess

● CRISP/DM (Chapman et al., 2000)○ CRoss-Industry Standard Process for Data Mining

Data Mining

(Azevedo, 2008)

Aquisição

Armazenamento

Análise Exploratória

Modelagem Descritiva

Visualização

Transformação

Modelagem Preditiva

Teste e Experimentação Validação Implantação

Seleção

Dados

Limpeza

Problema

Hipóteses

Pré

Proc

essa

men

toPr

oces

sam

ento

Pós

Proc

essa

m.

PRODUTOS

Pré Processamento

CLUSTER

FONTES

Estrut.

SemiEstrut.

NãoEstrut.

Proc.

Dados

Proc.

Dados

Proc.

Dados

Processamento Pós Processamento

Pré Processamento

PreditivoDescritivo

RegressãoAgrupamento

Associação

Séries Temporais

RecomendaçãoAnálise de Redes

Redes Bayesianas

Árvores de Decisão

Redes Neurais

Ganho de Informação

Correlação

PCA

SVD

SVM

https://community.jivesoftware.com/docs/DOC-30464

E o cientista de dados?

“Pessoa que é melhor em estatística do que um engenheiro de software e melhor em engenharia de software

do que um estatístico”

DJ Patil

Como se tornar um cientista de dados?

Conclusão

Conclusão

● Tudo está conectado!● Nunca antes tivemos tantos dados,

informações e conhecimento sobre tantas coisas;

● Há um vasto leque de possibilidades latentes...

Conclusão

● Data Science○ Mais do mesmo ou novidade?○ Uma nova renascença ou uma onda passageira?

Até onde podemos chegar?O que somos capazes de fazer?

Efeito Borboleta

"Um parafuso mal ajustado na planta de produção de uma fábrica pode causar uma

crise econômica mundial?"

"Em Deus eu confio.Todos os outros precisam

trazer dados"

William E. Deming

"Dados são o novo petróleo!"

William E. Deming

Conclusão

Data Warehouse

Big Data

NoSQL

ERP's

WebSocial Media

LogsArquivosE-mail

Intelligence

Analytics

DADOINFORMAÇÃO

CONHECIMENTO

Referências● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview.

Proceedings of the IADIS European Conference on Data Mining, Amsterdam, 2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136. Acesso em 28/01/2013.

● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July 2000. – Keynote at the ACM Symposium on Principles of Distributed Computing (PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-keynote.pdf Acesso em 27/01/2013.

● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000. Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em 27/01/2013.

● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of-the-art review and contemporary applications. In Symposium on Progress in Information & Communication Technology 2009. p. 96-101.

● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In: Communications of the ACM 13 (1970), June, No. 6, p. 377–387

● Dean, J. and Ghemawat, S. MapReduce: simplified data processing on large clusters. Communications of the ACM. p. 107-113. 2008.

Referências● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview.

In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining. AAAI Press / The MIT Press.

● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM v. 39, n. 11, p. 27-34. 1996.

● Inmon, W.H. Building the data warehouse. J. Wiley. 2002.● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5.

com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013.● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em

http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013.● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to

dimensional modelling. New York: 2002.● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas.

com/technologies/analytics/datamining/miner/semma.html. Acessado em 27/01/2013.

● Stapleton, Lisa K. Taming big data. Disponível em http://www.ibm.com/developerworks/data/library/dmmag/DMMag_2011_Issue2/BigData/index.html?cmp=dw&cpb=dwinf&ct=dwnew&cr=dwnen&ccy=zz&csr=051211. Acesso em 27/01/2013.