Upload
tiago-albineli-motta
View
477
Download
0
Embed Size (px)
Citation preview
Objetivo
Recomendação de conteúdo
Em 2010...
Arquitetura tradicional
Artesanato de paralelismo
página visitada Papalog
página visitada Papalog
página visitada Papalog
Artesanato de paralelismo
página visitada GloboSocial
página visitada GloboSocial
Machine Learning
Revolução industrial
yarn
Abstração: Foco no valor
df.groupBy(df("user"), df("object")) .agg(first("user"), first("object"), max("scroll")) .where(df("scroll") > 50)
Coleta de atividades
página visitada
tempo assistindo video
compartilhamento
comentário
tempo lendo matéria
HorizonGateway
porcentagem de scroll
Iterativo e incremental
Resultados
Globo Esporte
BUG :(
Globo Esporte
GShow
75% a mais de conversão em mobile que outras ofertas automáticas
173% a mais de conversão em desktop que outras ofertas automáticas
GShow
TechTudo
TechTudo
+195%
na partipação na retenção do usuárioem 2014
TechTudo: Home
TechTudo: Home50% a mais de conversão em mobile que outras ofertas automáticas
32% a mais de conversão em desktop que outras ofertas automáticas
GlobosatPlay
GlobosatPlay
45% de melhoria de conversão
Data Science
@timotta
Algoritmos de Machine Learning
Content based
Preferências do usuário
TF-IDF
Importância do termo no documento
Quão incomum é o termo no acervo
Entidades semânticas
Encontrando a notícia certa
+BBB
+Edredon
Notícia c
Notícia B
Notícia AUsuário
User based
Collaborative filtering
Matriz de preferências
Preferências implícitas
Porcentagem de scroll
Temo de página visivel
Matriz de preferências implícitas
0,9 0,8
0,8
Fatores latentes
Previsão n-dimensional
Duas dimensões:f(x) = a + bx
Três dimensões:f(x) = a + bx'1 + cx'2
N dimensões:f(x) = a + bx'1 + cx'1 + … nx'n
Validação
Cross validation
K-fold cross validation
Força bruta
for (maxIter <- Array(5, 10, 15, 20)) { for (feature <- Array(10, 20, 30, 40)) { for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) { for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {
Root mean square error
Precision and recallQuanto dos documentos recomendados acertamos
Quanto dos documentos relevantes acertamos
F-measure
Métricas por algoritmo
Baseada em testes AB
@timotta