21
Hadoop: [ Aquele título chato, longo… ] (aka “Hadoop para DBAs”) Aldrin Leal, <[email protected]>

Hadoop - TDC FLN 2013

Embed Size (px)

Citation preview

Page 1: Hadoop - TDC FLN 2013

Hadoop: [ Aquele título chato, longo… ]

(aka “Hadoop para DBAs”)

Aldrin Leal, <[email protected]>

Page 2: Hadoop - TDC FLN 2013

Globalcode – Open4education

Agenda

Introdução

Motivação para o Hadoop

Hadoop: Passado Presente e Futuro

Conceituando Hadoop

O Ecosistema Hadoop

Mas e ai?

Page 3: Hadoop - TDC FLN 2013

Globalcode – Open4education

Introdução

Aldrin Leal

Protroll

Projetos / Experiência em Hadoop

Outras Áreas:

Cloud

ALM

Page 4: Hadoop - TDC FLN 2013

Globalcode – Open4education

Motivação para o Hadoop

Fontes de Informação Esparsas, não estruturada

Documentos

Recibos

Volume de Coleta de Dados

Page 5: Hadoop - TDC FLN 2013

Globalcode – Open4education

Motivação para o Hadoop

Aspectos-Chave:

Lei de Moore

Preço

Latência

Largura de Banda

Seek Time

Page 6: Hadoop - TDC FLN 2013

Globalcode – Open4education

Motivação para o Hadoop

Outros Aspectos-Chave:

Computação Distribuída

Tolerância a Falha

Page 7: Hadoop - TDC FLN 2013

Globalcode – Open4education

Motivação para o Hadoop

Limitações:

Volume de Dados

Online

Storm / YARN / Impala

Modelo

Sawzall / BigTable

Page 8: Hadoop - TDC FLN 2013

Globalcode – Open4education

Hadoop: Passado

Presente e Futuro

Doug Cutting

Altavista

Yahoo

Lucene / Solr, e…

Nutch

Papers:

MapReduce

GFS

Page 9: Hadoop - TDC FLN 2013

Globalcode – Open4education

Hadoop: Passado

Presente e Futuro

Distros Hadoop:

Hortonworks (Microsoft)

Cloudera

Amazon Web Services

Intel

Hadoop as a Service

MRv1 vs YARN

YARN:

Impala

MPICH

Storm

Page 10: Hadoop - TDC FLN 2013

Globalcode – Open4education

Conceituando Hadoop

Plataforma

Separa funções:

Armazenagem (Namenode, Datanode)

Processamento (Tasktracker)

Coordenação (JobTracker)

Tolerância a Falha:

Fator de Replicação

Task Attempts

Page 11: Hadoop - TDC FLN 2013

Globalcode – Open4education

Conceituando Hadoop

Otimização

Vários Botões

Execução Especulativa

Divisão de Responsabilidades

Page 12: Hadoop - TDC FLN 2013

Globalcode – Open4education

Conceituando Hadoop

MapReduce

Mappers

Reducers

Combiners / Partitioners

Page 13: Hadoop - TDC FLN 2013

Globalcode – Open4education

Conceituando Hadoop

Page 14: Hadoop - TDC FLN 2013

Globalcode – Open4education

Conceituando Hadoop

Modelo Flexível

Vários Cases Implementáveis (leia a veja!)

“Corrida do Big Data”

Page 15: Hadoop - TDC FLN 2013

Globalcode – Open4education

Demo

Um pequeno job mapreduce (parte I)

Mapper

Reducer

OutputCollector

Driver, Tool, Configurable

Job, JobConf

FileSystem

sudo (apt-get|yum) install mercurial

&& hg clone

http://bitbucket.org/ingenieux/hadoop-filesystem-

indexer-demo

Page 16: Hadoop - TDC FLN 2013

Globalcode – Open4education

Ecosistema Hadoop

Distros

Hadoop Streaming (Scripting)

HBase

K/V Distribuído, com SLA

Valores Esparsos, Alta Performance

Hive / Pig / HCatalog

SQL e Perl

Schema Unificado

Page 17: Hadoop - TDC FLN 2013

Globalcode – Open4education

Demo

Um job mapreduce um pouco maior

Page 18: Hadoop - TDC FLN 2013

Globalcode – Open4education

Mas e ai? Como começar

Gestão de Clusters (“Hadoop Operations”)

Whirr

Chef / puppet

OpsWorks

Desenvolvimento (“Hadoop Definitive Guide”)

Scripting

Java / Cascading

Hive / Pig

Ciência de Dados (“Coursera ”)

Page 19: Hadoop - TDC FLN 2013

Globalcode – Open4education

Conclusão:

É faroeste!

Mas tem uns pontos para se nortear

Muitas mudanças, ritmo rápido

Diversas Oportunidades

Page 20: Hadoop - TDC FLN 2013

Globalcode – Open4education

Dúvidas?

Page 21: Hadoop - TDC FLN 2013

Globalcode – Open4education

Obrigado