Upload
amazon-web-services-latam
View
705
Download
3
Embed Size (px)
Citation preview
© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Thiago Paulino, Solutions Architect
03 Março, 2016
Introdução a Big DataOpções de analytics na AWS & Casos de uso
Conteúdo
• Introdução de Big Data em AWS• Big Data Analytics Opções na AWS
• Padrões de uso e anti-padrões• Performance & Custos• Durabilidade & Escalabilidade• Interfaces
• Construindo soluções Big Data – Abordagem AWS
• Cenários de exemplo
Big Data na AWS
Disponibilidade Imediata. Deploy instantâneo. Sem compra de hardware, sem infra-estrutura para manter e escalar.
Seguro e confiável. Desenhado para atender requisitos rigorosos de segurança. Auditoria continua, incluindo certificações : ISO 27001, FedRAMP, DoD CSM, and PCI DSS.
Capilaridade de serviços. Mais de 50 serviços e centenas de funcionalidades para suportar virtualmente qualquer workload de big data.
Centenas de parceiros e soluções. Obtenha ajuda de nossos parceiros de consultoria ou escolha entre centenas de ferramentas em nosso marktplace
Real-timeAmazon Kinesis Firehose
Object StorageAmazon S3
RDBMSAmazon RDS
NoSQLDynamoDB
Hadoop EcosystemAmazon EMR
Real-timeAWS Lambda
Amazon Kinesis Analytics
Data WarehousingAmazon Redshift
Machine LearningAmazon Machine
Learning
Business Intelligence & Data VisualizationAmazon QuickSight
Real-timeAmazon Kinesis Streams
Elastic Search AnalyticsAmazon ElasticSearch
Coleta Armazenamento Análise & Processamento
Visualização
Data ImportAmazon Import/Export
Snowball
IoTAmazon IoT
Ampla capacidade e integração
Petabyte (capacidade)
Processamento paralelo
Relacional data warehouse
Gerenciado, zero admin
Menos de $1,000/TB/Year
RápidoBaratoSimples
Amazon Redshift
Amazon Redshift• Padrões de uso
• Dados de vendas• Dado históricos• Dados de jogos• Dados de redes sociais• Dados de campanha de publicidade
• Performance• Processamento paralelo massivo• Armazenamento colunar• Compressão de dados• Mapeamento • Discos diretamente conectados
• Modelo de custo• Sem investimento inicial ou contratos• Backup gratuíto (storage equivalente a 100% do
storage provisionado)
Com armazenamento colunar, você acessa apenas o dado que você precisa.
Amazon Redshift
• Escalabilidade & Elasticidade• Aumentar ou Diminuir - Número ou tipo de
node com alguns clicks
• Durabilidade e disponibilidade• Replicação• Backup • Automated recovery para falhas de discos &
nodes• Interfaces
• JDBC/ODBC interface com ferramentas de BI/ETL
• Amazon S3 ou DynamoDB
• Anti-padrões• Pequenos datasets• OLTP• Dados não estruturados• Blob Data
10 GigE(HPC)
IngestionBackupRestore
SQL Clients/BI Tools
128GB RAM
16TB disk
16 cores
Amazon S3
JDBC/ODBC
128GB RAM
16TB disk
16 coresCompute Node
128GB RAM
16TB disk
16 coresCompute Node
128GB RAM
16TB disk
16 coresCompute Node
LeaderNode
streaming de dados
Processamento em tempo real
Armazene terabytes de dados
por hora
Amazon Kinesis
Amazon Kinesis Streams• Padrões de uso – Streaming de
dados, ingestão e processamento• Data analytics em tempo real• Ingestão de dados e processamento ex.
logs• Métricas e reports em tempo real
• Performance• Throughput baseado em shards
• Modelo de custo• Sem investimento inicial ou contratos
•Pague pelo que usar•Custo hora por shard•Cobrança por 1 million de transações
PUT
Amazon Kinesis Streams
• Escalabilidade e Elasticidade•Aumente o número de shards
• Durabilidade e Disponibilidade• Replicação• Cursor preservation
• Interfaces•Input – data in•Output – data out•Kinesis Firehose
• Anti-padrões•Pequenas taxas de transferência•Armazenamento de longo prazo
Inicie cluster em minutos
Pague por hora e economize com
instâncias spot
MapReduce, Apache Spark, Presto
Amazon EMR
Amazon EMR• Padrões de uso
• Processamento de log and analytics • Grande ETL e movimentacao de dados• Risk modeling and threat analytics• Sucesso de publicidade and click stream
analytics• Genoma• Análise preditiva• Ad-hoc data mining and analytics
• Performance • Tipo de instância• Número de instâncias
• Cost model• Pague pelas horas de execução• EC2 instance e EMR
Amazon EMR
• Escalabilidade e Elasticidade• Resize de cluster• Adicione instâncias core ou task
• Durabilidade e Disponibilidade• Tolerância a falha slave node (HDFS) • Backup com S3 para resiliência do master
node• Interfaces
• Hive, Pig, Spark, Hbase, Impala, Hunk, Presto, etc..
• Anti-padrões• Pequenos data sets• ACID (Atomicity, Consistency, Isolation and
Durability)
NoSQL database totalmente
gerenciado
Um dígito de Millisecond de latência
para escalar
Suporte a documento e chave-valor
AmazonDynamoDB
Amazon DynamoDB• Padrões de uso
• Mobile apps, jogos, digital ad serving, votaçao em tempo real, rede de sensores, ingestão de logs
• Controle de acesso a conteudo web, carrinho de compras para e-commerce
• Gerenciamento de sessões web• Performance
• SSD• Provisione throughput por tabela
• Escalabilidade e Elasticidade•Sem limite de dados armazenados•Aumentar ou diminuir a capacidade de leitura e
escrita por tabela• Modelo de custo
• Pague pelo que usar• Provisione throughput (por hora)• Indexe dados armazenados (por GB por mês)• Data transfer in or out (por GB por mês)
Provisioned read/write performance per table. Predictable high performance scaled via console or API
Amazon DynamoDB
• Durabilidade e Disponibilidade• Três Availability Zones (AZ)
• Interfaces• AWS Console• API’s• SDK’s
• Anti-padrões• Applicação de bancos de dados relacional• Joins e/ou transações complexas• BLOB data• Muitos dados com pouco I/O
AZ-A
AZ-B
AZ-C
Serviço gerenciado projetado para tornar mais fácil para os desenvolvedores o uso de machine learning
Baseado na mesma tecnologia ML usado há anos por cientistas de dados internos da Amazon
Amazon Machine Learning é altamente escalavel e utiliza padrões de ML. (Análise preditiva)
Amazon Machine Learning
Amazon Machine Learning
• Padrões de uso• Alertas de transações suspeitas• Personalize application content• Predição de atividade do usuário• Analise rede social
• Modelo de custo• Pague pelo que usar• Sem gerenciamento de instâncias, apenas
serviço• Performance
• Predições em tempo real Real-time predictions projetado para responder em pelo menos 100ms
• 200 transações por segundo
Amazon Machine Learning• Durabilidade e Disponibilidade
• Sem janela de manutençao• Desenhado para multiplas AZ’s
• Escalabilidade e Elasticidade• Modelo de treino de ate100GB• Multiplo jobs simultâneos
• Interfaces• Origem de dados a partir do S3, RDS e
Redshift• Intereção ML via console, SDKs, e ML
API• Anti-padrões
• Grandes Data Sets > 100GB• Sequência de predição ou tasks não
supervisionada
Orientado a eventos, computaçao 100% gerenciada
Sem gestão de infra-estrutura
Escalabilidade automática
AWS Lambda
AWS Lambda• Padrões de uso
• Procesamento de arquivos em tempo real• Extract, Transform, Load (ETL)
• Performance• Processamento de eventos em milliseconds
• Modelos de custo• Pague pelo que usar• Sem gerênciamento de instâncias, pague
apenas pelo serviço• Lambda free tier incluí 1Milhão de
requisições gratuitas
AWS Lambda• Durabilidade e Disponibilidade
• Sem janelas de manutenção ou downtime agendado
• Funções Async são executadas até 3 times caso falhem
• Escalabilidade e Elasticidade• Alta concorrência de execuções
simultânea• AWS Lambda Aloca dinamicamente
capacidade para executar os eventos.• Interfaces
• Lambda suportas Java, Node.js, e Python
• Execução por evento ou agendas• Anti-padrões
• Execuções longas de aplicações• Aplicações Stateful no Lambda
Instale um cluster de Elasticsearch em
minutos
Integrado com Logstash and Kibana
Escale o seu cluster Elasticsearch
perfeitamente
Amazon Elasticsearch
Service
Amazon Elasticsearch• Padrões de uso
• Análise de logs• Análise de stream de dados e/ou updates de
outros serviços AWS• Prover uma busca rica e uma boa experiência de
uso/navegação• Monitorar o uso de aplicações mobile
• Performance• Depende de multiplos fatores, incluindo tipo de
instância, workload, index, número de shards no cluster, replicas de leitura
• Configurações de disco – instance storage ou EBS storage
• Modelos de custo• Pague pelo que usar• Pague somente pela instância de elasticsearch e
disco utilizado
Amazon Elasticsearch• Durabilidade e Disponibilidade
• Zone Awareness• Snapshots automático e manual.
• Escalabilidade e Elasticidade• Adicione e remova instâncias• Altere os volumes EBS conforme
crescimento• Interfaces
• AWS Console• API’s• SDK’s• Kibana and Logstash (ELK Stack)
• Anti-padrões• OLTP• Workloads que precisam de mais de 5TB de
armazenamento
Elasticsearch + Logstash + Kibana = real-time analytics & visualization
Construa visualizações
Performance para processamento ad-hoc
Compartilhamento de dasboards(storyboards)
Acesso nativo com as principais
plataformas mobile
Amazon QuickSight
Introdução Amazon QuickSight
Serviço em Cloud de Business Intelligence com 1/10th do custo de um software de BI tradicional
Sem esforço de TI. Sem modelagem dimensional
Auto-discovery de fonte de dados (AWS)
Rapido, processamento paralelo, Calculos em
memória
100% gerenciado
Available in Previewaws.amazon.com/quicksight
Aumente ou diminua conforme
necessidade.
Pague somente pelo que usar.
Multipla opções.
Construa sua própria aplicação big
data.
Amazon EC2
Abordagem AWS
• Flexivel. Use a melhor ferramenta para cada tarefa• Estrutura de dados, latência, alta capacidade de rede, padrões
de acesso.
• Escalável. Imutável (Tarefa única)• Execuções Batch/velocidade (Camadas)
• Mínimo de administração. Serviços AWS gerenciados• Sem ou com administração mínima
• Baixo custo. Big data ≠ big cost
Scenario 1: Enterprise Data Warehouse
Scenario 2: Capture e analise dados de sensores
Scenario 3: Análise de sentimento de rede social
Big Data Cenários
Cenário 1: Enterprise Data Warehouse
Data Warehouse Architecture
Data Sources
AmazonS3
AmazonEMR
AmazonS3
AmazonRedshift
AmazonQuickSight
Cenário 2: Capture e analise dados de sensores
Data Sources
AmazonS3
AmazonRedshift
AmazonQuickSight
AmazonKinesisEnabled
App
AmazonKinesisEnabled
App
AmazonDynamoDB
RepostingDashboard
Customer Access
AmazonKinesis
1
2 3 4 5
6 7 8 9
Cenário 3: Análise de sentimento Rede social
Social Media Data
AmazonEC2
AmazonLambda
AmazonML
AmazonKinesis
AmazonS3
AmazonSNS
1 2 4 5 6
3 7
Próximos passos• Assine o feed do AWS Big Data Blog
blogs.aws.amazon.com/bigdata
• Leia mais sobre o assunto, tutoriais, guias e laboratórios aws.amazon.com/big-data
• Registre-se para os próximos Webinarsaws.amazon.com/about-aws/events/monthlywebinarseries