Upload
miguel-galves
View
237
Download
4
Embed Size (px)
DESCRIPTION
Análise de algumas ferramentas para data mining em redes sociais
Citation preview
Data mining em redes sociais
SigaSeuTime (BREAKING NEWS)
Uso de taxa de cliques por minuto em notícias enviadas
para o Twitter para determinar notícias
importantes / urgentes.
Primeiro experimento:
SigaSeuTime (BREAKING NEWS)
Aprendizado:O tempo de reação de
informações enviadas em redes sociais é muito rápido, e portanto permite análises
em tempo real bastante úteis.
Primeiro experimento:
Uso de streaming real time Twitter para determinar a
“temperatura” de torcedores de futebol em tempo real
Tuitômetro das torcidas
Segundo experimento:
Na (trágica) eliminação do Corinthians pelo Tolima,
capturamos5500 tweets / minuto
(e depois o servidor caiu…)
Tuitômetro das torcidas
Segundo experimento:
Aprendizado 1:O fenômeno de second
screen é real, e permite que se analise em tempo real a
opinião das pessoas em relação a eventos.
“IBOPE SOCIAL”
Tuitômetro das torcidas
Segundo experimento:
Aprendizado 2:O Streaming real time
gratuito do Twitter é uma fonte de informações
valiosíssima e muito rápida. 4MM tweets / dia
Tuitômetro das torcidas
Segundo experimento:
Experimento cujo objetivo é verificar se o valor de uma marca se reflete no buzz
online que ela gera.
http://mosttweetedbrands.com
Most Tweeted Brands
Terceiro experimento:
Em média, 2MM de Tweets / dia
A marca mais citada no Twitter é….O Facebook
Most Tweeted Brands
Terceiro experimento:
BrandMagz
Quarto experimento:
Revista digital que mede o pulso de uma marca /
celebridade / tema nas redes sociais
Quais as fontes de dados?APIs, APIs, APIs…
• Palavras chave
• Regras de exclusão
• Hints
Como os dados são coletados?
Detecção de lingua: • CLD (chromium compact language detector)• https://code.google.com/p/chromium-
compact-language-detector/
Wordcloud• NLTK (Natural Language Toolkit)• http://www.nltk.org/
Quais dados são extraídos?Texto
• 50% dos tweets geolocalizados–Minoria adiciona informação de lat/long
no tweet (-5%)– Análise de texto livre • Base de dados própria com nomes de
cidades em diversas linguas– 3744 nomes de cidades– 1900 nomes de países– 90 provincias
Quais dados são extraídos?Geolocalização
• Fotos– Instagram–Facebook–Twitter
• Video–Facebook–Vine–Youtube–Vimeo
Quais dados são extraídos?Mídia
• Links externos encontrados em posts são tratados separadamente
• Conteúdos de blogs e notícias são processados por algoritmo de “limpeza” de HTML– Heurísticas para extração do conteúdo que
realmente importa de uma página web– Fork próprio do readability-lxml
• https://github.com/mgalves/python-readability
Quais dados são extraídos?Links externos
Quais tecnologias são utilizadas?
Youtube
Vimeo
Vine
CELERY BROKER
REDIS
MySQL
CeleryWorker
CeleryWorker
CeleryWorker
CeleryWorker
Qual a arquitetura?
WEB
• Amazon AWS• Duas instâncias EC2 m3.large – 7.5GB RAM, 2vCPU, 6.5 ECU
• RDS MySQL• OpsWork + Chef • S3 para armazenamento de arquivos
estáticos• CloudWatch • Apenas um devops: eu.
Como é feito o deploy?
• Em média, 400 tweets / minuto
• Em 24h:– 150k posts– 5.5k links de conteúdo– 23k imagens– 3k videos
Qual o volume de dados processados?
• Em dia de jogo do Barça, Neymar recebe em média 150k menções.
• Quando o Corinthians foi campeão da Libertadores, foram 2MM de menções em 3 horas.
Algumas curiosidades
Obrigado!