Big Data na Nuvem da AWS

Preview:

DESCRIPTION

Apresentação introdutória sobre Big Data feita como webinar em 31/10/2012

Citation preview

Big Data na AWS

José Papo

AWS Tech Evangelist

@josepapo

A análise de grandes volumes de dados está se

tornando a grande barreira para

inovação, competição e

produtividade.

O que é Big Data?Gerados por computador – estruturados, semi-estruturados ou não-estruturados Logs (web sites, jogos) Sensores (tempo, água) Imagens/vídeos (cameras, segurança)

Gerados por pessoas Blogs/Resenhas/Emails/Fotos

Redes Sociais Facebook, Linkedin, Twitter

Onde se vê Big Data

Mídia/

Propaganda

Anuncios Dirigidos

Processa-mento de vídeos e imagens

Óleo e Gás

Análise Sismica

Varejo

Recomen-dações

Análise de Transações

Telecom

Cobrança

Log de Ligações

Uso dos Produtos

Instituições Financeiras

Simulações de Monte

Carlo

Análise de Riscos

Segurança

Anti-virus

Detecção de Fraudes

Reconheci-mento de Imagens

Marketing e Jogos

(sobretudo social)

Analise Comporta-

mental

Análise de Uso

Métricas “In-game”

O que é Hadoop?

Apache Hadoop Sistema de storage distribuído e tolerante a falhas

(HDFS) Usa um algoritmo chamado MapReduce para realizar

análises estatísticas exaustivas sobre um grande conjunto de dados distribuídos

Benefícios-chave Custo mais baixo – Escala linearmente Provado em escala– Petabytes em milhares de nós Flexível – Dados podem ser armazenados com ou sem schema

"Hadoop é um storage confiável e um sistema analítico"

HDFS MapReduce

RDBMS MapReduce (Hadoop)

Schema definido Schema não requerido

Explora índices para recuperação rápida

Análises rápidas de dados e performance uniforme de

queries

SQL apenas Suporta SQL + outras linguagens

Não escala linearmente Escalabilidade linear para reads + writes

Implantar um cluster hadoop é difícil

http://eddie.niese.net/20090313/dont-pity-incompetence/

Big Data requer infraestrutura flexível

Infraestrutura física leva a hardware e software estático e planejado para atender picos…

…e muitas vezes acaba gerando longas filas de processamento

+

Data Warehouse Elástico

Aumenta para 25

instancias

Data Warehouse(Estável)

Data Warehouse(Processo Batch)

Diminui para

9 instancias

Data Warehouse(Estável)

Input data

S3

UNDERTHE

HOOD

ii

Elastic MapReduce

Code

Input data

S3

UNDERTHE

HOOD

ii

Elastic MapReduce

Code Name node

Input data

S3

UNDERTHE

HOOD

ii

Elastic MapReduce

Code Name node

Input data

S3

Elastic cluster

UNDERTHE

HOOD

ii

Elastic MapReduce

Code Name node

Input data

S3

Elastic cluster

HDFS

UNDERTHE

HOOD

ii

Elastic MapReduce

Code Name node

Input data

S3

Elastic cluster

HDFSQueries+ BI

Via JDBC, Pig, Hive

UNDERTHE

HOOD

ii

Elastic MapReduce

Code Name node

OutputS3 + SimpleDB

Input data

S3

Elastic cluster

HDFSQueries+ BI

Via JDBC, Pig, Hive

UNDERTHE

HOOD

ii

OutputS3 + SimpleDB

Input data

S3

UNDERTHE

HOOD

ii

AWS MarketplaceInformatica, MapR, Karmasphere, Marketshare, Acunu Cassandra, Metamarkets, Aspera e mais.

aws.amazon.com/marketplace

OBRIGADO!aws.typepad.com/brasil

slideshare.net/AmazonWebServicesLATAM

José Papo

AWS Tech Evangelist

@josepapo