Big data

Preview:

Citation preview

Objetivo

Recomendação de conteúdo

Em 2010...

Arquitetura tradicional

Artesanato de paralelismo

página visitada Papalog

página visitada Papalog

página visitada Papalog

Artesanato de paralelismo

página visitada GloboSocial

página visitada GloboSocial

Machine Learning

Revolução industrial

yarn

Abstração: Foco no valor

df.groupBy(df("user"), df("object")) .agg(first("user"), first("object"), max("scroll")) .where(df("scroll") > 50)

Coleta de atividades

página visitada

tempo assistindo video

compartilhamento

comentário

tempo lendo matéria

HorizonGateway

porcentagem de scroll

Iterativo e incremental

Resultados

Globo Esporte

BUG :(

Globo Esporte

GShow

75% a mais de conversão em mobile que outras ofertas automáticas

173% a mais de conversão em desktop que outras ofertas automáticas

GShow

TechTudo

TechTudo

+195%

na partipação na retenção do usuárioem 2014

TechTudo: Home

TechTudo: Home50% a mais de conversão em mobile que outras ofertas automáticas

32% a mais de conversão em desktop que outras ofertas automáticas

GlobosatPlay

GlobosatPlay

45% de melhoria de conversão

Data Science

@timotta

Algoritmos de Machine Learning

Content based

Preferências do usuário

TF-IDF

Importância do termo no documento

Quão incomum é o termo no acervo

Entidades semânticas

Encontrando a notícia certa

+BBB

+Edredon

Notícia c

Notícia B

Notícia AUsuário

User based

Collaborative filtering

Matriz de preferências

Preferências implícitas

Porcentagem de scroll

Temo de página visivel

Matriz de preferências implícitas

0,9 0,8

0,8

Fatores latentes

Previsão n-dimensional

Duas dimensões:f(x) = a + bx

Três dimensões:f(x) = a + bx'1 + cx'2

N dimensões:f(x) = a + bx'1 + cx'1 + … nx'n

Validação

Cross validation

K-fold cross validation

Força bruta

for (maxIter <- Array(5, 10, 15, 20)) { for (feature <- Array(10, 20, 30, 40)) { for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) { for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {

Root mean square error

Precision and recallQuanto dos documentos recomendados acertamos

Quanto dos documentos relevantes acertamos

F-measure

Métricas por algoritmo

Baseada em testes AB

@timotta