48

Big data

Embed Size (px)

Citation preview

Page 1: Big data
Page 2: Big data

Objetivo

Page 3: Big data

Recomendação de conteúdo

Page 4: Big data

Em 2010...

Page 5: Big data

Arquitetura tradicional

Page 6: Big data

Artesanato de paralelismo

página visitada Papalog

página visitada Papalog

página visitada Papalog

Page 7: Big data

Artesanato de paralelismo

página visitada GloboSocial

página visitada GloboSocial

Page 8: Big data

Machine Learning

Page 9: Big data

Revolução industrial

yarn

Page 10: Big data

Abstração: Foco no valor

df.groupBy(df("user"), df("object")) .agg(first("user"), first("object"), max("scroll")) .where(df("scroll") > 50)

Page 11: Big data

Coleta de atividades

página visitada

tempo assistindo video

compartilhamento

comentário

tempo lendo matéria

HorizonGateway

porcentagem de scroll

Page 12: Big data

Iterativo e incremental

Page 13: Big data

Resultados

Page 14: Big data

Globo Esporte

Page 15: Big data

BUG :(

Globo Esporte

Page 16: Big data

GShow

Page 17: Big data

75% a mais de conversão em mobile que outras ofertas automáticas

173% a mais de conversão em desktop que outras ofertas automáticas

GShow

Page 18: Big data

TechTudo

Page 19: Big data

TechTudo

+195%

na partipação na retenção do usuárioem 2014

Page 20: Big data

TechTudo: Home

Page 21: Big data

TechTudo: Home50% a mais de conversão em mobile que outras ofertas automáticas

32% a mais de conversão em desktop que outras ofertas automáticas

Page 22: Big data

GlobosatPlay

Page 23: Big data

GlobosatPlay

45% de melhoria de conversão

Page 24: Big data

Data Science

Page 25: Big data

@timotta

Page 26: Big data

Algoritmos de Machine Learning

Page 27: Big data

Content based

Page 28: Big data

Preferências do usuário

Page 29: Big data

TF-IDF

Importância do termo no documento

Quão incomum é o termo no acervo

Page 30: Big data

Entidades semânticas

Page 31: Big data

Encontrando a notícia certa

+BBB

+Edredon

Notícia c

Notícia B

Notícia AUsuário

Page 32: Big data

User based

Page 33: Big data

Collaborative filtering

Page 34: Big data

Matriz de preferências

Page 35: Big data

Preferências implícitas

Porcentagem de scroll

Temo de página visivel

Page 36: Big data

Matriz de preferências implícitas

0,9 0,8

0,8

Page 37: Big data

Fatores latentes

Page 38: Big data

Previsão n-dimensional

Duas dimensões:f(x) = a + bx

Três dimensões:f(x) = a + bx'1 + cx'2

N dimensões:f(x) = a + bx'1 + cx'1 + … nx'n

Page 39: Big data

Validação

Page 40: Big data

Cross validation

Page 41: Big data

K-fold cross validation

Page 42: Big data

Força bruta

for (maxIter <- Array(5, 10, 15, 20)) { for (feature <- Array(10, 20, 30, 40)) { for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) { for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {

Page 43: Big data

Root mean square error

Page 44: Big data

Precision and recallQuanto dos documentos recomendados acertamos

Quanto dos documentos relevantes acertamos

Page 45: Big data

F-measure

Page 46: Big data

Métricas por algoritmo

Page 47: Big data

Baseada em testes AB

Page 48: Big data

@timotta