Big Data na Nuvem

Preview:

DESCRIPTION

Big Data na Nuvem da AWS

Citation preview

Big Data na AWS Eduardo Horai

AWS Solutions Architect

Vários Tutoriais , treinamentos e mentoria em

português

Inscreva-se agora !!

http://awshub.com.br

Agenda

1. Introdução a Big Data

2. Transformando dado em informação

3. Analítico e Computação nas nuvens

4. Ecossistema Big Data

5. Infraestrutura tecnológica para Big Data

Introdução a Big Data

1

Uma das definições de Big Data

Quando a quantidade de dados começa a ficar tão grande que você tem

que começar a inovar no jeito de coletar, armazenar, organizar, analisar

e compartilhar a informação.

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

O custo da geração de dados está caindo…

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

custo baixo,

alta transferência

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

custo baixo,

alta transferência

extremamente

limitado

Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011

IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

Dados gerados

Disponivel para análise

Volume de dados

Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011

IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

Elasticidade e alta escalabilidade

+

Sem capital adiantado

+

Paga apenas por uso

+

Disponível por demanda

Remove

todos os

limites

=

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

custo baixo,

alta transferência

extremamente

limitado

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

Acelerado

Big Data

Tecnologias e técnicas para

trabalhar de forma produtiva com

dados, em qualquer escala

Transformando dado

em informação

2

Operador Nacional do

Sistema Elétrico Sérgio Mafra

Gerente de Inovação em TI

• O Operador Nacional do Sistema Elétrico (ONS) é uma empresa privada, responsável pelo planejamento e operação da geração e transmissão de energia elétrica no Sistema Interligado Nacional (SIN).

• Com cerca de 800 funcionários, em 5 localidades (Rio de Janeiro, Recife, Florianópolis e Brasília), o ONS é uma empresa intensiva em informações com uso contínuo de modelos matemáticos que requer HPC (High Performance Computing e Big Data)

“A Amazon Web Services permitiu provisionar clusters de alto

desempenho em minutos, rodando em paralelo, reduzindo

significantemente o tempo total de processamento”.

“Com isso, percebemos

que a AWS é

magicamente, muito

mais rápida, elástica e barata que nossos blades

atuais” - Sérgio Mafra

• Prover ao ONS uma plataforma de maior capacidade de processamento, permitindo obter uma redução no tempo de solução dos modelos matemáticos, com custo adequado ao tempo de utilização, de fácil gestão do ambiente em cluster e que fosse transparente para a organização.

• Permitir o “time-to-market” para a área de TI, detendo o conhecimento e a responsividade às demandas inesperadas provenientes das áreas da organização.

O Desafio

“Scotty, We Need More Power”

• Redução de cerca de 40% no tempo de resolução dos modelos matemáticos de planejamento eletro-energéticos, com custo 30% inferior.

• Condição de analisar 5 estratégias de utilização dos modelos Newave/Decomp em prazo recorde (1 semana), com a execução de 600 casos. O prazo on-premises seria de 3 semanas, incompatível com o compromisso acordado com o MME.

Sobre a o Papel da AWS e Benefícios

alcançados

Big Data Corp. Thoran Rodrigues

CEO

• MercadoPago é a plataforma de pagamentos do Mercado Livre, utilizada em mais de cem mil sites de toda a América Latina.

• O MercadoPago precisava de uma visão real do e-commerce no Brasil, tanto no âmbito estratégico quanto no tático. Para alcançar essa visão, a tecnologia tem um papel fundamental.

“Com o AWS, conseguimos montar uma

visão inédita do e-commerce brasileiro”.

“Sem o AWS, teria sido

financeiramente inviável executar

esse projeto”

O Desafio

• O mercado de e-commerce no Brasil sofre da falta de informação. Não existem números precisos sobre a quantidade de sites, muito menos da participação de mercado dos diferentes prestadores de serviço (plataformas, meios de pagamento, etc.)

• Para se obter essas informações de maneira efetiva, é necessário um processo massivo de coleta e processamento de informações.

Sobre o Papel da AWS e Benefícios

alcançados

PARAGRAFO RESUMO CASO _ KEY WORDS

de BENEFICIO, DESAFIO VENCIDO –

RESUMO DO CASO EM UM PARAGRAFO

• Com o AWS, foi possível montar um processo escalável que visita quase todos os sites da internet brasileira (2.5 Milhões) 1x por semana.

• Do ínico do projeto até hoje, já foram mais de 16 bilhões de páginas visitadas, mais de 700TB de dados processados, e já poupamos mais de R$ 250 mil com a AWS.

• Montamos o 1º mapa compreensivo da web brasileira.

Analítico e

computação nas nuvens

3

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

HBase

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

EC2 &

Elastic MapReduce

Geração

Coleta e Armazenamento

Análise e processamento

EC2 & S3,

CloudFormation,

Elastic MapReduce,

RDS, DynamoDB, Redshift

Compartilhamento

Geração

Coleta e Armazenamento

Análise e processamento

AWS Data Pipeline

EC2 & S3,

CloudFormation,

Elastic MapReduce,

RDS, DynamoDB, Redshift

EC2 &

Elastic MapReduce

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

HBase

Compartilhamento

Geração

Coleta e Armazenamento

Análise e processamento

AWS Data Pipeline

EC2 & S3,

CloudFormation,

Elastic MapReduce,

RDS, DynamoDB, Redshift

EC2 &

Elastic MapReduce

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

HBase

Compartilhamento

Elastic Map Reduce

Hadoop gerenciado,

processamento analítico

Input data

S3, DynamoDB, Redshift

Elastic

MapReduce

Código

Input data

S3, DynamoDB, Redshift

Elastic

MapReduce

Código Name

node

Input data

S3, DynamoDB, Redshift

Elastic

MapReduce

Código

Name

node

Input data

Elastic

cluster

S3, DynamoDB, Redshift

S3/HDFS

Elastic

MapReduce

Código

Name

node

Input data

S3/HDFS Queries

+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic

cluster

Elastic

MapReduce

Código

Name

node

Output

Input data

Queries

+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic

cluster

S3/HDFS

Output

Input data

S3, DynamoDB, Redshift

1. Clusters elásticos

10 horas

6 horas

Capacidade máxima

2. Rápido, provisionamento dinâmico

(muito) fácil.

Parte pesada e difícil é

removida...

3. E ainda o mesmo Hadoop

Ecosystem robusto. Databases, machine learning, segmentation,

clustering, analytics, metadata stores,

exchange formats, and so on...

4. Agilidade para experimentos

Tipos de instâncias Flexibilidade no tipo da instância & número.

5. Otimização de custo

Feito para Spot. Computação baseada no seu preço.

1. Clusters elásticos

2. Rápido, provisionamento dinâmico

3. Mesmo Hadoop

4. Agilidade para experimentos

5. Otimização de custos

Ecossistema Big Data

4

Dados, dados, (espalhados) em todo lugar... dados em silos (isolados)

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

“Como eu transfiro meus dados para a nuvem?”

Mobilidade dos dados

Gerados e armazenados na AWS

Transferência de dados entrante é gratuito

Multipart upload para S3

Media física (EUA apenas)

AWS Direct Connect

Replicação de AMIs e snapshots

“Como eu integro meus dados para

melhores resultados?”

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

Pedidos

do dia

Acesso do

usuário

ERP/Prod

utos

Histórico de

compras

Recomendações

de compra Analítico de

recomendação

AWS Data Pipeline Orquestração de muitos dados

Esqueleto de um pipeline

Pipelines complexos

aws.amazon.com/datapipeline

aws.amazon.com/big-data

Infraestrutura tecnológica

para Big Data

5

Bruno Domingues

Arquiteto de Soluções Senior, Intel

Analysis of Data Can Transform Society

Create new business

models and improve

organizational

processes.

Enhance scientific

understanding, drive

innovation, and

accelerate medical cures.

Increase public safety

and improve

energy efficiency with

smart grids.

Democratizing Analytics gets Value out of Big Data

Unlock Value in

Silicon

Support Open

Platforms

Deliver Software Value

Intel at the Intersection of Big Data

Enabling exascale computing on massive data

sets

Helping enterprises build open

interoperable clouds

Contributing code and fostering ecosystem

HPC Cloud Open Source

Intel at the Heart of the Cloud

Server

Storage

Network

Reinventing Supercomputing

On Demand

Scale-Out Platform Optimizations for Big Data

Cost-effective performance

•Intel® Advanced Vector Extension Technology

•Intel® Turbo Boost Technology 2.0

•Intel® Advanced Encryption Standard New

Instructions Technology

Intel® Advanced Vector Extensions Technology

1 : Performance comparison using Linpack benchmark. See backup for configuration details. For more legal information on performance forecasts go to http://www.intel.com/performance

81

• Newest in a long line of

processor instruction

innovations

• Increases floating point

operations per clock up to

2X1 performance

Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark,

are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should

consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other

products.

Intel® Turbo Boost Technology 2.0

More Performance Higher turbo speeds maximize

performance for single and

multi-threaded applications

Intel® Advanced Encryption

Standard New Instructions

• Processor assistance for performing AES encryption 7 new instructions

• Makes enabled encryption software faster and stronger

Power of the Platform built by Intel

Richer

user

experiences

4HRS

50% Reduction

10MIN

80% Reduction 50%

Reduction 40% Reduction

TeraSort for

1TB sort

Intel®

Xeon®

Processor

E5 2600

Solid-State

Drive 10G

Ethernet Intel® Apache

Hadoop

Previous

Intel®

Xeon®

Processor

Cloud

Intelligent Systems

Clients

Virtuous Cycle of Data-Driven Experience

Get 600 Hours of Free

Supercomputing Time!

www.powerof60.com

What can you

do in 60 minutes?

Resumo

1. Introdução a Big Data

2. Transformando dado em informação

3. Analítico e Computação nas nuvens

4. Ecossistema Big Data

5. Infraestrutura tecnológica para Big Data

Obrigado!

ehorai@amazon.com

aws.amazon.com/elasticmapreduce

aws.amazon.com/datapipeline

aws.amazon.com/big-data