89
Big Data na AWS Eduardo Horai AWS Solutions Architect

Big Data na Nuvem

Embed Size (px)

DESCRIPTION

Big Data na Nuvem da AWS

Citation preview

Page 1: Big Data na Nuvem

Big Data na AWS Eduardo Horai

AWS Solutions Architect

Page 2: Big Data na Nuvem

Vários Tutoriais , treinamentos e mentoria em

português

Inscreva-se agora !!

http://awshub.com.br

Page 3: Big Data na Nuvem

Agenda

1. Introdução a Big Data

2. Transformando dado em informação

3. Analítico e Computação nas nuvens

4. Ecossistema Big Data

5. Infraestrutura tecnológica para Big Data

Page 4: Big Data na Nuvem

Introdução a Big Data

1

Page 5: Big Data na Nuvem

Uma das definições de Big Data

Quando a quantidade de dados começa a ficar tão grande que você tem

que começar a inovar no jeito de coletar, armazenar, organizar, analisar

e compartilhar a informação.

Page 6: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

Page 7: Big Data na Nuvem

O custo da geração de dados está caindo…

Page 8: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

custo baixo,

alta transferência

Page 9: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

custo baixo,

alta transferência

extremamente

limitado

Page 10: Big Data na Nuvem

Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011

IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

Dados gerados

Disponivel para análise

Volume de dados

Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011

IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

Page 11: Big Data na Nuvem
Page 12: Big Data na Nuvem

Elasticidade e alta escalabilidade

+

Sem capital adiantado

+

Paga apenas por uso

+

Disponível por demanda

Remove

todos os

limites

=

Page 13: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

custo baixo,

alta transferência

extremamente

limitado

Page 14: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

Acelerado

Page 15: Big Data na Nuvem

Big Data

Tecnologias e técnicas para

trabalhar de forma produtiva com

dados, em qualquer escala

Page 16: Big Data na Nuvem

Transformando dado

em informação

2

Page 17: Big Data na Nuvem

Operador Nacional do

Sistema Elétrico Sérgio Mafra

Gerente de Inovação em TI

Page 18: Big Data na Nuvem

• O Operador Nacional do Sistema Elétrico (ONS) é uma empresa privada, responsável pelo planejamento e operação da geração e transmissão de energia elétrica no Sistema Interligado Nacional (SIN).

• Com cerca de 800 funcionários, em 5 localidades (Rio de Janeiro, Recife, Florianópolis e Brasília), o ONS é uma empresa intensiva em informações com uso contínuo de modelos matemáticos que requer HPC (High Performance Computing e Big Data)

“A Amazon Web Services permitiu provisionar clusters de alto

desempenho em minutos, rodando em paralelo, reduzindo

significantemente o tempo total de processamento”.

“Com isso, percebemos

que a AWS é

magicamente, muito

mais rápida, elástica e barata que nossos blades

atuais” - Sérgio Mafra

Page 19: Big Data na Nuvem

• Prover ao ONS uma plataforma de maior capacidade de processamento, permitindo obter uma redução no tempo de solução dos modelos matemáticos, com custo adequado ao tempo de utilização, de fácil gestão do ambiente em cluster e que fosse transparente para a organização.

• Permitir o “time-to-market” para a área de TI, detendo o conhecimento e a responsividade às demandas inesperadas provenientes das áreas da organização.

O Desafio

“Scotty, We Need More Power”

Page 20: Big Data na Nuvem

• Redução de cerca de 40% no tempo de resolução dos modelos matemáticos de planejamento eletro-energéticos, com custo 30% inferior.

• Condição de analisar 5 estratégias de utilização dos modelos Newave/Decomp em prazo recorde (1 semana), com a execução de 600 casos. O prazo on-premises seria de 3 semanas, incompatível com o compromisso acordado com o MME.

Sobre a o Papel da AWS e Benefícios

alcançados

Page 21: Big Data na Nuvem
Page 22: Big Data na Nuvem

Big Data Corp. Thoran Rodrigues

CEO

Page 23: Big Data na Nuvem

• MercadoPago é a plataforma de pagamentos do Mercado Livre, utilizada em mais de cem mil sites de toda a América Latina.

• O MercadoPago precisava de uma visão real do e-commerce no Brasil, tanto no âmbito estratégico quanto no tático. Para alcançar essa visão, a tecnologia tem um papel fundamental.

“Com o AWS, conseguimos montar uma

visão inédita do e-commerce brasileiro”.

“Sem o AWS, teria sido

financeiramente inviável executar

esse projeto”

Page 24: Big Data na Nuvem

O Desafio

• O mercado de e-commerce no Brasil sofre da falta de informação. Não existem números precisos sobre a quantidade de sites, muito menos da participação de mercado dos diferentes prestadores de serviço (plataformas, meios de pagamento, etc.)

• Para se obter essas informações de maneira efetiva, é necessário um processo massivo de coleta e processamento de informações.

Page 25: Big Data na Nuvem

Sobre o Papel da AWS e Benefícios

alcançados

PARAGRAFO RESUMO CASO _ KEY WORDS

de BENEFICIO, DESAFIO VENCIDO –

RESUMO DO CASO EM UM PARAGRAFO

• Com o AWS, foi possível montar um processo escalável que visita quase todos os sites da internet brasileira (2.5 Milhões) 1x por semana.

• Do ínico do projeto até hoje, já foram mais de 16 bilhões de páginas visitadas, mais de 700TB de dados processados, e já poupamos mais de R$ 250 mil com a AWS.

• Montamos o 1º mapa compreensivo da web brasileira.

Page 26: Big Data na Nuvem
Page 27: Big Data na Nuvem

Analítico e

computação nas nuvens

3

Page 28: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

Page 29: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

HBase

Page 30: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

EC2 &

Elastic MapReduce

Page 31: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

EC2 & S3,

CloudFormation,

Elastic MapReduce,

RDS, DynamoDB, Redshift

Compartilhamento

Page 32: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

AWS Data Pipeline

EC2 & S3,

CloudFormation,

Elastic MapReduce,

RDS, DynamoDB, Redshift

EC2 &

Elastic MapReduce

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

HBase

Compartilhamento

Page 33: Big Data na Nuvem

Geração

Coleta e Armazenamento

Análise e processamento

AWS Data Pipeline

EC2 & S3,

CloudFormation,

Elastic MapReduce,

RDS, DynamoDB, Redshift

EC2 &

Elastic MapReduce

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

HBase

Compartilhamento

Page 34: Big Data na Nuvem

Elastic Map Reduce

Hadoop gerenciado,

processamento analítico

Page 35: Big Data na Nuvem

Input data

S3, DynamoDB, Redshift

Page 36: Big Data na Nuvem

Elastic

MapReduce

Código

Input data

S3, DynamoDB, Redshift

Page 37: Big Data na Nuvem

Elastic

MapReduce

Código Name

node

Input data

S3, DynamoDB, Redshift

Page 38: Big Data na Nuvem

Elastic

MapReduce

Código

Name

node

Input data

Elastic

cluster

S3, DynamoDB, Redshift

S3/HDFS

Page 39: Big Data na Nuvem

Elastic

MapReduce

Código

Name

node

Input data

S3/HDFS Queries

+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic

cluster

Page 40: Big Data na Nuvem

Elastic

MapReduce

Código

Name

node

Output

Input data

Queries

+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic

cluster

S3/HDFS

Page 41: Big Data na Nuvem

Output

Input data

S3, DynamoDB, Redshift

Page 42: Big Data na Nuvem

1. Clusters elásticos

Page 43: Big Data na Nuvem

10 horas

Page 44: Big Data na Nuvem

6 horas

Page 45: Big Data na Nuvem

Capacidade máxima

Page 46: Big Data na Nuvem

2. Rápido, provisionamento dinâmico

Page 47: Big Data na Nuvem

(muito) fácil.

Page 48: Big Data na Nuvem

Parte pesada e difícil é

removida...

Page 49: Big Data na Nuvem

3. E ainda o mesmo Hadoop

Page 50: Big Data na Nuvem

Ecosystem robusto. Databases, machine learning, segmentation,

clustering, analytics, metadata stores,

exchange formats, and so on...

Page 51: Big Data na Nuvem

4. Agilidade para experimentos

Page 52: Big Data na Nuvem

Tipos de instâncias Flexibilidade no tipo da instância & número.

Page 53: Big Data na Nuvem

5. Otimização de custo

Page 54: Big Data na Nuvem

Feito para Spot. Computação baseada no seu preço.

Page 55: Big Data na Nuvem

1. Clusters elásticos

2. Rápido, provisionamento dinâmico

3. Mesmo Hadoop

4. Agilidade para experimentos

5. Otimização de custos

Page 56: Big Data na Nuvem

Ecossistema Big Data

4

Page 57: Big Data na Nuvem

Dados, dados, (espalhados) em todo lugar... dados em silos (isolados)

Page 58: Big Data na Nuvem

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

Page 59: Big Data na Nuvem

“Como eu transfiro meus dados para a nuvem?”

Page 60: Big Data na Nuvem

Mobilidade dos dados

Gerados e armazenados na AWS

Transferência de dados entrante é gratuito

Multipart upload para S3

Media física (EUA apenas)

AWS Direct Connect

Replicação de AMIs e snapshots

Page 61: Big Data na Nuvem

“Como eu integro meus dados para

melhores resultados?”

Page 62: Big Data na Nuvem

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

Page 63: Big Data na Nuvem

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

Page 64: Big Data na Nuvem

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

Page 65: Big Data na Nuvem

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

Page 66: Big Data na Nuvem

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

Page 67: Big Data na Nuvem

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

Page 68: Big Data na Nuvem

S3

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

Pedidos

do dia

Acesso do

usuário

ERP/Prod

utos

Histórico de

compras

Recomendações

de compra Analítico de

recomendação

Page 69: Big Data na Nuvem

AWS Data Pipeline Orquestração de muitos dados

Page 70: Big Data na Nuvem

Esqueleto de um pipeline

Page 71: Big Data na Nuvem

Pipelines complexos

Page 72: Big Data na Nuvem

aws.amazon.com/datapipeline

Page 73: Big Data na Nuvem

aws.amazon.com/big-data

Page 74: Big Data na Nuvem

Infraestrutura tecnológica

para Big Data

5

Bruno Domingues

Arquiteto de Soluções Senior, Intel

Page 75: Big Data na Nuvem

Analysis of Data Can Transform Society

Create new business

models and improve

organizational

processes.

Enhance scientific

understanding, drive

innovation, and

accelerate medical cures.

Increase public safety

and improve

energy efficiency with

smart grids.

Page 76: Big Data na Nuvem

Democratizing Analytics gets Value out of Big Data

Unlock Value in

Silicon

Support Open

Platforms

Deliver Software Value

Page 77: Big Data na Nuvem

Intel at the Intersection of Big Data

Enabling exascale computing on massive data

sets

Helping enterprises build open

interoperable clouds

Contributing code and fostering ecosystem

HPC Cloud Open Source

Page 78: Big Data na Nuvem

Intel at the Heart of the Cloud

Server

Storage

Network

Page 79: Big Data na Nuvem

Reinventing Supercomputing

On Demand

Page 80: Big Data na Nuvem

Scale-Out Platform Optimizations for Big Data

Cost-effective performance

•Intel® Advanced Vector Extension Technology

•Intel® Turbo Boost Technology 2.0

•Intel® Advanced Encryption Standard New

Instructions Technology

Page 81: Big Data na Nuvem

Intel® Advanced Vector Extensions Technology

1 : Performance comparison using Linpack benchmark. See backup for configuration details. For more legal information on performance forecasts go to http://www.intel.com/performance

81

• Newest in a long line of

processor instruction

innovations

• Increases floating point

operations per clock up to

2X1 performance

Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark,

are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should

consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other

products.

Page 82: Big Data na Nuvem

Intel® Turbo Boost Technology 2.0

More Performance Higher turbo speeds maximize

performance for single and

multi-threaded applications

Page 83: Big Data na Nuvem

Intel® Advanced Encryption

Standard New Instructions

• Processor assistance for performing AES encryption 7 new instructions

• Makes enabled encryption software faster and stronger

Page 84: Big Data na Nuvem

Power of the Platform built by Intel

Richer

user

experiences

4HRS

50% Reduction

10MIN

80% Reduction 50%

Reduction 40% Reduction

TeraSort for

1TB sort

Intel®

Xeon®

Processor

E5 2600

Solid-State

Drive 10G

Ethernet Intel® Apache

Hadoop

Previous

Intel®

Xeon®

Processor

Page 85: Big Data na Nuvem

Cloud

Intelligent Systems

Clients

Virtuous Cycle of Data-Driven Experience

Page 86: Big Data na Nuvem

Get 600 Hours of Free

Supercomputing Time!

www.powerof60.com

What can you

do in 60 minutes?

Page 87: Big Data na Nuvem
Page 88: Big Data na Nuvem

Resumo

1. Introdução a Big Data

2. Transformando dado em informação

3. Analítico e Computação nas nuvens

4. Ecossistema Big Data

5. Infraestrutura tecnológica para Big Data

Page 89: Big Data na Nuvem

Obrigado!

[email protected]

aws.amazon.com/elasticmapreduce

aws.amazon.com/datapipeline

aws.amazon.com/big-data