Treinamento hadoop - dia1

Preview:

DESCRIPTION

Hadoop

Citation preview

Treinamento Hadoop

Alexandre Uehara

● Analista Desenvolvedor (E-commerce)

● Coordenador Trilha Big Data (TDC 2013

São Paulo, TDC 2014 Florianópolis)

http://www.thedevelopersconference.com.

br/tdc/2013/saopaulo/trilha-bigdata#programacao

● Geek e nerd, trabalha com Python,

Java, C, BigData, NoSQL, e outras

coisas mais que aparecem no dia a dia

NossaAgenda:

7 dias!!!

Dia 1:IntroduçãoConceitos Básicos Big Data→ O que é?→ 4 V's→ Por que agora?→ Onde Usar?

→ Desafio→ BI x Big Data→Profissional de Big Data→ Ferramentas→ Dicas

Dia 2 e 3:Map Reduce e Hadoop→ História (Google)→ ConceitoMapReduce→ Hadoop→ Cases

Dia 4Outras

Ferramentas→ Ecossistema→ Ferramentas → Distribuições Hadoop→ Hadoop na Nuvem

→ NoSQL Tipos → NoSQL Exemplos → Data Science → Machine Learning

Dia 5, 6 e 7Hands-on

→ Python→ Hadoop

Por favor

Perguntem…

Não fiquem com dúvidas

Aproveitem!!!

E, o que é Big Data?

"Das 65 empresas brasileiras

entrevistadas, três em cada

quatro organizações têm

atividades em andamento e uma

em cada quatro ou está com um

projeto piloto ou em

implementação de projeto,

enquanto as restantes ainda

lutam para entender a

tecnologia e suas aplicações."

IBM and Oxford University

Antes de mais nada:

"Big Data não é

nenhuma ferramenta,

nenhuma tecnologia

é um CONCEITO."

“Big data se trata de um conceito, no

qual o foco é o grande armazenamento de

dados e maior velocidade. Podemos dizer

que o big data se baseia em 4V’s

velocidade, volume, variedade e valor”

Wikipediahttp://pt.wikipedia.org/wiki/Big_data

VOLUME:

O Big Data envolve

modelos de

persistência da

ordem de petabytes ou

zetabytes de dados

geralmente não

estruturados

VELOCIDADE

Processamento

de dados

Armazenamento

Análise de

dados

VARIEDADE:

Dados não estruturados

Dados semi-estruturados

Diferentes fontes

Diferentes formatos

VALOR

Objetivo do

Negócio

Benefício

Tomada de

decisão

Por que agora?

90% dos dados

disponíveis no

mundo foram

gerados apenas

nos dois anos

anteriores.

IDC Digital Universe

8 bits:

IDC Digital Universe

8 bits: 1 byte

IDC Digital Universe

8 bits: 1 byte

1024 bytes:

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes:

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes:

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes:

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes:

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes:

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes: 1 exabyte

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes: 1 exabyte

1024 exabytes:

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes: 1 exabyte

1024 exabytes: 1 zetabyte

IDC Digital Universe

8 bits: 1 byte

1024 bytes: 1 kilobyte

1024 kilobytes: 1 megabyte

1024 megabytes: 1 gigabyte

1024 gigabytes: 1 terabyte

1014 terabytes: 1 petabyte

1024 petabytes: 1 exabyte

1024 exabytes: 1 zetabyte

Ou seja até 2015:

quase 8 zetabytes

IDC Digital Universe

• Processadores mais

rápidos

• Alta capacidade de

memória acessível

• Novas tecnologias de

armazenamento e

processamento desenhadas

especialmente para grandes

volumes de dados,

incluindo dados não

estruturados

• Processamento paralelo,

clustering, virtualização,

grandes ambientes de grid,

alta conectividade e

grandes resultados.

• Computação em nuvem e

outras alocações de

recursos flexíveis

Tecnologia

O que é Big Data...

O que é Big Data...

Mas onde

usar?

Sistema de

Recomendações

GPS

GPS

Internet of

Things

Redes Sociais

Mercado Financeiro:

conhecer o consumidor,

análise de dados para identificar os riscos de

mercado

Google Flu Trends - http://www.google.org/flutrends/br/#BR

Big Data:

capturar,

armazenar,

buscar,

compartilhar,

analisar e

visualizar

Maior desafio:

Maior desafio:

Privacidade

Maior desafio:

"Ao mesmo tempo em que estamos animados com

as novas perspectivas de negócio

possibilitadas pela coleta exaustiva de

dados, também estamos preocupados com o

fato de muitas empresas armazenarem grande

quantidade de dados pessoais

desnecessariamente. Defendemos que as

empresas adotem uma atitude de

“datensparsamkeit” e armazenem apenas o

mínimo de informações pessoais necessárias

sobre seus clientes."

http://thoughtworks.fileburst.com/assets/technology-radar-

jan-2014-pt.pdf

BI x Big Data

"O Big Data é uma evolução do

BI, e ambos devem caminhar

juntos no futuro."

Carlos Tunes, líder de soluções de SW

para Business Analytics da IBM Brasil

"A diferença é o dinamismo,

multiplicidade e o tamanho"

Big Data

não vai "matar"

o BI

'Data Warehouse' será

necessário para armazenar

dados estruturados

Previsão:

BI servirá para casos

específicos, enquanto o Big

Data permitirá uma leitura

mais geral da situação

Ou seja:

Como se BI fosse a foto e o Big

Data o filme – algo mais completo,

que permite agregar todos os bancos de

dados estruturados e os não

estruturados, como vídeos, imagens e

textos.

Quem é o profissional de Big Data?

Cientista de Dados

(Data Scientist)

Que

ferramenta

preciso

aprender?

E se eu quiser saber mais?

IBM Big Data Univeristy

http://bigdatauniversity.com/courses/

Coursera

https://www.coursera.org/

● Big Data in Education,

● Web Intelligence and Big Data,

● Machine Learning,

● Introduction to Recommender Systems, etc...

EDX

https://www.edx.

org/course/caltechx/cs1156x/learning-data/1120

Learning From Data

Alguns links

● http://www.thedevelopersconference.com.br/tdc/2013/saopaulo/trilha-bigdata#programacao

● http://www.infoq.com/bigdata/

● http://www.infoq.com/br/bigdata

● http://blog.matthewrathbone.com/2013/01/05/a-quick-guide-to-hadoop-map-reduce-frameworks.html

● http://developer.yahoo.com/hadoop/tutorial/

● http://blog.mortardata.com/post/40602271238/7-books-to-supercharge-your-data-education

● http://hortonworks.com/hadoop-training/register-for-hadoop-training/

● https://education.emc.com/guest/campaign/data_science.aspx

Resumo, Big Data...

E, mais 2

dicas...

Alexandre Uehara

@AleUehara

linkedin.com/in/aleuehara

uehara.alexandre@gmail.com

slideshare.net/aleuehara

Recommended