91
Treinamento Hadoop

Treinamento hadoop - dia1

Embed Size (px)

DESCRIPTION

Hadoop

Citation preview

Page 1: Treinamento hadoop - dia1

Treinamento Hadoop

Page 2: Treinamento hadoop - dia1

Alexandre Uehara

● Analista Desenvolvedor (E-commerce)

● Coordenador Trilha Big Data (TDC 2013

São Paulo, TDC 2014 Florianópolis)

http://www.thedevelopersconference.com.

br/tdc/2013/saopaulo/trilha-bigdata#programacao

● Geek e nerd, trabalha com Python,

Java, C, BigData, NoSQL, e outras

coisas mais que aparecem no dia a dia

Page 3: Treinamento hadoop - dia1

NossaAgenda:

Page 4: Treinamento hadoop - dia1

7 dias!!!

Page 5: Treinamento hadoop - dia1

Dia 1:IntroduçãoConceitos Básicos Big Data→ O que é?→ 4 V's→ Por que agora?→ Onde Usar?

→ Desafio→ BI x Big Data→Profissional de Big Data→ Ferramentas→ Dicas

Page 6: Treinamento hadoop - dia1

Dia 2 e 3:Map Reduce e Hadoop→ História (Google)→ ConceitoMapReduce→ Hadoop→ Cases

Page 7: Treinamento hadoop - dia1

Dia 4Outras

Ferramentas→ Ecossistema→ Ferramentas → Distribuições Hadoop→ Hadoop na Nuvem

→ NoSQL Tipos → NoSQL Exemplos → Data Science → Machine Learning

Page 8: Treinamento hadoop - dia1

Dia 5, 6 e 7Hands-on

→ Python→ Hadoop

Page 9: Treinamento hadoop - dia1

Por favor

Perguntem…

Não fiquem com dúvidas

Aproveitem!!!

Page 10: Treinamento hadoop - dia1
Page 11: Treinamento hadoop - dia1
Page 12: Treinamento hadoop - dia1
Page 13: Treinamento hadoop - dia1

E, o que é Big Data?

Page 14: Treinamento hadoop - dia1
Page 15: Treinamento hadoop - dia1

"Das 65 empresas brasileiras

entrevistadas, três em cada

quatro organizações têm

atividades em andamento e uma

em cada quatro ou está com um

projeto piloto ou em

implementação de projeto,

enquanto as restantes ainda

lutam para entender a

tecnologia e suas aplicações."

IBM and Oxford University

Page 16: Treinamento hadoop - dia1
Page 17: Treinamento hadoop - dia1

Antes de mais nada:

"Big Data não é

nenhuma ferramenta,

nenhuma tecnologia

é um CONCEITO."

Page 18: Treinamento hadoop - dia1

“Big data se trata de um conceito, no

qual o foco é o grande armazenamento de

dados e maior velocidade. Podemos dizer

que o big data se baseia em 4V’s

velocidade, volume, variedade e valor”

Wikipediahttp://pt.wikipedia.org/wiki/Big_data

Page 19: Treinamento hadoop - dia1
Page 20: Treinamento hadoop - dia1
Page 21: Treinamento hadoop - dia1

VOLUME:

O Big Data envolve

modelos de

persistência da

ordem de petabytes ou

zetabytes de dados

geralmente não

estruturados

Page 22: Treinamento hadoop - dia1
Page 23: Treinamento hadoop - dia1

VELOCIDADE

Processamento

de dados

Armazenamento

Análise de

dados

Page 24: Treinamento hadoop - dia1
Page 25: Treinamento hadoop - dia1

VARIEDADE:

Dados não estruturados

Dados semi-estruturados

Diferentes fontes

Diferentes formatos

Page 26: Treinamento hadoop - dia1
Page 27: Treinamento hadoop - dia1

VALOR

Objetivo do

Negócio

Benefício

Tomada de

decisão

Page 28: Treinamento hadoop - dia1
Page 29: Treinamento hadoop - dia1

Por que agora?

Page 30: Treinamento hadoop - dia1
Page 31: Treinamento hadoop - dia1
Page 32: Treinamento hadoop - dia1

90% dos dados

disponíveis no

mundo foram

gerados apenas

nos dois anos

anteriores.

IDC Digital Universe

Page 33: Treinamento hadoop - dia1

8 bits:

IDC Digital Universe

Page 34: Treinamento hadoop - dia1

8 bits: 1 byte

IDC Digital Universe

Page 35: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes:

IDC Digital Universe

Page 36: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

IDC Digital Universe

Page 37: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes:

IDC Digital Universe

Page 38: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

IDC Digital Universe

Page 39: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes:

IDC Digital Universe

Page 40: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

IDC Digital Universe

Page 41: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes:

IDC Digital Universe

Page 42: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

IDC Digital Universe

Page 43: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes:

IDC Digital Universe

Page 44: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

IDC Digital Universe

Page 45: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes:

IDC Digital Universe

Page 46: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes: 1 exabyte

IDC Digital Universe

Page 47: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes: 1 exabyte

1024 exabytes:

IDC Digital Universe

Page 48: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes: 1 exabyte

1024 exabytes: 1 zetabyte

IDC Digital Universe

Page 49: Treinamento hadoop - dia1

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes: 1 exabyte

1024 exabytes: 1 zetabyte

Ou seja até 2015:

quase 8 zetabytes

IDC Digital Universe

Page 50: Treinamento hadoop - dia1
Page 51: Treinamento hadoop - dia1
Page 52: Treinamento hadoop - dia1

• Processadores mais

rápidos

• Alta capacidade de

memória acessível

• Novas tecnologias de

armazenamento e

processamento desenhadas

especialmente para grandes

volumes de dados,

incluindo dados não

estruturados

• Processamento paralelo,

clustering, virtualização,

grandes ambientes de grid,

alta conectividade e

grandes resultados.

• Computação em nuvem e

outras alocações de

recursos flexíveis

Tecnologia

Page 53: Treinamento hadoop - dia1

O que é Big Data...

Page 54: Treinamento hadoop - dia1

O que é Big Data...

Page 55: Treinamento hadoop - dia1

Mas onde

usar?

Page 56: Treinamento hadoop - dia1

Sistema de

Recomendações

Page 57: Treinamento hadoop - dia1

GPS

Page 58: Treinamento hadoop - dia1

GPS

Page 60: Treinamento hadoop - dia1

Internet of

Things

Page 61: Treinamento hadoop - dia1

Redes Sociais

Page 62: Treinamento hadoop - dia1

Mercado Financeiro:

conhecer o consumidor,

análise de dados para identificar os riscos de

mercado

Page 63: Treinamento hadoop - dia1

Google Flu Trends - http://www.google.org/flutrends/br/#BR

Page 64: Treinamento hadoop - dia1
Page 65: Treinamento hadoop - dia1
Page 66: Treinamento hadoop - dia1

Big Data:

capturar,

armazenar,

buscar,

compartilhar,

analisar e

visualizar

Page 67: Treinamento hadoop - dia1

Maior desafio:

Page 68: Treinamento hadoop - dia1

Maior desafio:

Privacidade

Page 69: Treinamento hadoop - dia1

Maior desafio:

"Ao mesmo tempo em que estamos animados com

as novas perspectivas de negócio

possibilitadas pela coleta exaustiva de

dados, também estamos preocupados com o

fato de muitas empresas armazenarem grande

quantidade de dados pessoais

desnecessariamente. Defendemos que as

empresas adotem uma atitude de

“datensparsamkeit” e armazenem apenas o

mínimo de informações pessoais necessárias

sobre seus clientes."

http://thoughtworks.fileburst.com/assets/technology-radar-

jan-2014-pt.pdf

Page 70: Treinamento hadoop - dia1
Page 71: Treinamento hadoop - dia1

BI x Big Data

Page 72: Treinamento hadoop - dia1

"O Big Data é uma evolução do

BI, e ambos devem caminhar

juntos no futuro."

Carlos Tunes, líder de soluções de SW

para Business Analytics da IBM Brasil

Page 73: Treinamento hadoop - dia1

"A diferença é o dinamismo,

multiplicidade e o tamanho"

Page 74: Treinamento hadoop - dia1

Big Data

não vai "matar"

o BI

Page 75: Treinamento hadoop - dia1

'Data Warehouse' será

necessário para armazenar

dados estruturados

Page 76: Treinamento hadoop - dia1

Previsão:

BI servirá para casos

específicos, enquanto o Big

Data permitirá uma leitura

mais geral da situação

Page 77: Treinamento hadoop - dia1

Ou seja:

Como se BI fosse a foto e o Big

Data o filme – algo mais completo,

que permite agregar todos os bancos de

dados estruturados e os não

estruturados, como vídeos, imagens e

textos.

Page 78: Treinamento hadoop - dia1

Quem é o profissional de Big Data?

Page 79: Treinamento hadoop - dia1

Cientista de Dados

(Data Scientist)

Page 80: Treinamento hadoop - dia1

Que

ferramenta

preciso

aprender?

Page 81: Treinamento hadoop - dia1
Page 82: Treinamento hadoop - dia1
Page 83: Treinamento hadoop - dia1

E se eu quiser saber mais?

Page 84: Treinamento hadoop - dia1

IBM Big Data Univeristy

http://bigdatauniversity.com/courses/

Coursera

https://www.coursera.org/

● Big Data in Education,

● Web Intelligence and Big Data,

● Machine Learning,

● Introduction to Recommender Systems, etc...

EDX

https://www.edx.

org/course/caltechx/cs1156x/learning-data/1120

Learning From Data

Page 86: Treinamento hadoop - dia1

Alguns links

● http://www.thedevelopersconference.com.br/tdc/2013/saopaulo/trilha-bigdata#programacao

● http://www.infoq.com/bigdata/

● http://www.infoq.com/br/bigdata

● http://blog.matthewrathbone.com/2013/01/05/a-quick-guide-to-hadoop-map-reduce-frameworks.html

● http://developer.yahoo.com/hadoop/tutorial/

● http://blog.mortardata.com/post/40602271238/7-books-to-supercharge-your-data-education

● http://hortonworks.com/hadoop-training/register-for-hadoop-training/

● https://education.emc.com/guest/campaign/data_science.aspx

Page 87: Treinamento hadoop - dia1

Resumo, Big Data...

Page 88: Treinamento hadoop - dia1

E, mais 2

dicas...

Page 89: Treinamento hadoop - dia1
Page 90: Treinamento hadoop - dia1
Page 91: Treinamento hadoop - dia1

Alexandre Uehara

@AleUehara

linkedin.com/in/aleuehara

[email protected]

slideshare.net/aleuehara