Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Allan Oliveira | [email protected]
Sai Hadoop, entra SparkDomando o Big Data no dia a dia
tópico 1Emails personalizados
CampanhaReduçãode Preço
CampanhaIndecisos
O Desafio dos Emails Personalizados
+600milhões
Pageviews
Usuários
+42milhões
Evolução de uma arquitetura de emails personalizados
tópico 2
Evolução da arquiteturaA base de tudo
Evolução da arquiteturaA base de tudo
Evolução da arquiteturaA base de tudo
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaO início da história
Evolução da arquiteturaQuando o Hadoop chegou
Evolução da arquiteturaQuando o Hadoop chegou
Evolução da arquiteturaQuando o Hadoop chegou
Evolução da arquiteturaQuando o Hadoop chegou
Evolução da arquiteturaQuando o Hadoop chegou
Evolução da arquiteturaQuando o Hadoop chegou
gasmtópico 3
Sparkgasm!Uma só plataforma para todos os seus problemas
Sparkgasm!Uma só plataforma para todos os seus problemas
Sparkgasm!Uma só plataforma para todos os seus problemas
Sparkgasm!Uma só plataforma para todos os seus problemas
Sparkgasm!Uma só plataforma para todos os seus problemas
Sparkgasm!Como Spark é mais rápido que Hadoop
1
6.75
11
82.5
As dificuldades ao seusar o Spark
tópico 4
Hadoop-clientO presente de grego para o Spark
Bugs do Spark
Bugs do Spark
operação necessitainvestimento
Ignition: o nosso aprendizadotópico 5
Ignition-Template
Job Runner:Advanced ClusterControl
Job/SetupOrganization Examples
Ignition-CoreCluster Management &Job Execution
Multi-SetupRunner
UtilitaryFunctions
Projetos open-source da Chaordic
github.com/chaordic/ignition-template
github.com/chaordic/ignition-core
http://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-templatehttp://github.com/chaordic/ignition-template
montando um cluster robusto
Algoritmo
● Escolher a melhor máquina na melhor AZ cujo preço spot não é muito volátil;
● Levantar o cluster;
● Fazer um teste de sanidade no cluster;
● Rodar o Job (1 ou infinitas vezes);
● Quando falhar, refazer teste de sanidade;
● Recriar cluster caso teste de sanidade falhe, usando uma AZ/máquina diferente.
organizandoprojetos
Puro I/O
Setups
Mail Builder Setup
Non-realtime Setup
RealtimeSetup
Sem efeitos colaterais!
Puro I/O
Setups
Jobs
Mail Builder Setup
Non-realtime Setup
RealtimeSetup
Mail Builder Job
User History
Job
Entities Update Job
Campaign A Job
Sem efeitos colaterais!
Puro I/O
Setups
Jobs
Reusable Libraries
Mail Builder Setup
Non-realtime Setup
RealtimeSetup
Mail Builder Job
User History
Job
Entities Update Job
Campaign A Job
Mail-team library Chaordic library RealtimeSetupIgnition-core
como a não-saídaé tão importante quanto a saída
Success!(Email)
ValidatedRec Products
ValidatedBase Products Success Product
Success Product
Failed Product Reason
Failed Product Reason
SuccessProduct
SuccessProduct
SuccessProduct
Failed Product Reason
Failure(Email Reason)
Validated Rec Products Reference
Validated Base Products Reference
Failed Product Reason
Failed Product Reason
Failed Product Reason
Failed Product Reason
Success Product
Success Product
Failed Product Reason
Failed Product Reason
Reason: numberOfValidRecommendationsIsLessThanMinimum
lidando com dadosmal-comportados
Dado normal
Dados enviesados
Outliers: os vilões
Tratando outliers
rdd.groupByKey()
Tratando outliers
rdd.groupByKey()
Tratando outliers
rdd.groupByKey()
rdd.groupByKeyAndTake(max)
Batches near-realtimecom Secor, Kafka e S3
S3
http://github.com/pinterest/secor
http://github.com/pinterest/secorhttp://github.com/pinterest/secor
Venha aprender junto com a gente!
monkeys.chaordic.com.br
github.com/chaordic
#QCONBIGDATA