Gamification
e Big Data
Apoio:
• Pesquisa Cientifica (LHC, Genética, Meteorologia) • Mercado Financeiro • Cultura (Literatura,Jornais, Netflix) • Processos industriais • … e a internet! !Alguns números: - LHC: 70 TB/dia de dados - NYSE: 1 TB/dia de trading data - Facebook: 1.5 bilhão de likes em marcas por mês - Apontador: 50 milhões de pageviews por mês - Maplink: 1.8 bilhões de coordenadas processadas por mês
age of data
:
-
hum?• O usuário realiza ações em um site.
• Ações podem indicar preferências
• Entender ações dos usuários aumenta o grau de informação sobre
ele.
• Customização e experiência do usuário.
Smartphones
Social Media
Big Data
+
+= GAMIFICATION
GAME ≠ GAMIFICATIONGAME
Games
Gamification
Games
Gamification• 70% Global 2000 em 2015!• Crescimento de 11x em 2013!!
!
• Engajamento!• Marketing
premios status
achievements
competitividade
diversão desafio
então quais as vantagens?
• novas/melhores informações sobre os usuários
• maior tempo de uso
•
• preço do cpu
• preço do GB
• custo inicial
porque nunca foi feito?
• Baixa do preço do Teraflop
• Criação do MapReduce
o que mudou?
Processamento:
Armazenamento:• Baixa do preço do MB
• Invenção do NoSQL
• Volume de dados gigante
• Dados indicam informações sobre os usuários
• Faz tempo que existe uma avalanche de dados, que eram em geral
sumarizados.
• Hoje existem ferramentas que permitem armazenar e processar esses
dados em sua forma bruta.
BIG Data
• Dados são armazenados de maneira estruturada
• Uma pequena parcela dos dados são armazenados
!
como trabalhamos até hoje
Fonte: Maplink -
Dados
Saída
Principal
Worker
Worker
Worker
11 de 21
“Estou na Campus Party”
“Campus Party esse mês”“O campus da USP é no Butanta”
Estou 1 na 1 Campus 1 Party 1
Campus 2 Party 2 esse 2 mês 2
O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3
Estou 1 na 1 Campus 1,2,3
Party 1,2 esse 2 Mes 2
o 3 da 3 USP 3 e 3
no 3 butanta 3
10 de 21
Exemplo Map Reduce
• Facilmente escalável (embarrassingly parallel) a milhares de TB.
• Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
• Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
• Programação de baixo nível de abstração.
• Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
• Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
13 de 21
Desvantagens do Map Reduce
• Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar
• O que eu quero saber?
Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação) !!
!
furacão francis
• Operadora de cartão
Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes
• O que posso usar?
Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering) !
!
precificação do cartão de crédito
• Medidas de trânsito
Veiculos enviam informação a cada instante. • O que eu quer saber?
Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão) !
!
19 de 21
estimativa de trânsito
SOBRE O ROTEIRIZADORo que recebemos
<Route><Category>1</Category><DateTime>0001-01-01T00:00:00</DateTime><Destination xmlns:a="http://schemas.datacontract.org/2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin xmlns:a="http://schemas.datacontract.org/2004/07/SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</a:Lng></Origin>
SOBRE O ROTEIRIZADORo padrão da marginal pinheiros
“Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?”
• O que conheço do usuário?
Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora
• O que quero saber?
Que produto recomendar? Que desconto oferecer?
!
sr david steps, dono da loja virtual velhogeek:
Pid descrição categoria preço
1 Notebook Pear Informatica R$3000.00
2 Notebook HAL Informatica R$2000.00
3 Celular Pear youPhone Telefonia R$1800.00
4 Celular Blue Robot Telefonia R$1600.00
5 Celular youClone com 8 chips Telefonia R$800.00
6 Celular EscritórioFone for Businessmen Telefonia R$1000.00
7 Tênis Mike Roupas e Acessórios R$300.00
8 Tênis Rei Roupas e Acessórios R$150.00
9 Fone de Ouvido youPhone original Acessórios de Informática R$90.00
10 Mouse CheapJunk Systems Acessórios de Informática R$5.00
11 Mouse MacroHard sem fio Acessórios de Informática R$90.00
12 CD: Boy Band do Ano "Live Acustico" Música R$25.00
13 CD: Cool Jazz Collection Música R$25.00
14 Fraldas Pimpolho -‐ 200 unidades Bebê R$50.00
15 Carrinho de Bebê Bebê R$150.00
16 Cerveja -‐ 6 pack Alimentos R$12.00
live demo!
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada.
O MODELO statístico
Caio C. Gomes Diretor Big Data e Inovação [email protected]