24
Data mining em redes sociais

Data Mining em redes sociais

Embed Size (px)

DESCRIPTION

Análise de algumas ferramentas para data mining em redes sociais

Citation preview

Page 1: Data Mining em redes sociais

Data mining em redes sociais

Page 2: Data Mining em redes sociais

SigaSeuTime (BREAKING NEWS)

Uso de taxa de cliques por minuto em notícias enviadas

para o Twitter para determinar notícias

importantes / urgentes.

Primeiro experimento:

Page 3: Data Mining em redes sociais

SigaSeuTime (BREAKING NEWS)

Aprendizado:O tempo de reação de

informações enviadas em redes sociais é muito rápido, e portanto permite análises

em tempo real bastante úteis.

Primeiro experimento:

Page 4: Data Mining em redes sociais

Uso de streaming real time Twitter para determinar a

“temperatura” de torcedores de futebol em tempo real

Tuitômetro das torcidas

Segundo experimento:

Page 5: Data Mining em redes sociais

Na (trágica) eliminação do Corinthians pelo Tolima,

capturamos5500 tweets / minuto

(e depois o servidor caiu…)

Tuitômetro das torcidas

Segundo experimento:

Page 6: Data Mining em redes sociais

Aprendizado 1:O fenômeno de second

screen é real, e permite que se analise em tempo real a

opinião das pessoas em relação a eventos.

“IBOPE SOCIAL”

Tuitômetro das torcidas

Segundo experimento:

Page 7: Data Mining em redes sociais

Aprendizado 2:O Streaming real time

gratuito do Twitter é uma fonte de informações

valiosíssima e muito rápida. 4MM tweets / dia

Tuitômetro das torcidas

Segundo experimento:

Page 8: Data Mining em redes sociais

Experimento cujo objetivo é verificar se o valor de uma marca se reflete no buzz

online que ela gera.

http://mosttweetedbrands.com

Most Tweeted Brands

Terceiro experimento:

Page 9: Data Mining em redes sociais
Page 10: Data Mining em redes sociais
Page 11: Data Mining em redes sociais

Em média, 2MM de Tweets / dia

A marca mais citada no Twitter é….O Facebook

Most Tweeted Brands

Terceiro experimento:

Page 12: Data Mining em redes sociais

BrandMagz

Quarto experimento:

Revista digital que mede o pulso de uma marca /

celebridade / tema nas redes sociais

Page 13: Data Mining em redes sociais

Quais as fontes de dados?APIs, APIs, APIs…

Page 14: Data Mining em redes sociais

• Palavras chave

• Regras de exclusão

• Hints

Como os dados são coletados?

Page 15: Data Mining em redes sociais

Detecção de lingua: • CLD (chromium compact language detector)• https://code.google.com/p/chromium-

compact-language-detector/

Wordcloud• NLTK (Natural Language Toolkit)• http://www.nltk.org/

Quais dados são extraídos?Texto

Page 16: Data Mining em redes sociais

• 50% dos tweets geolocalizados–Minoria adiciona informação de lat/long

no tweet (-5%)– Análise de texto livre • Base de dados própria com nomes de

cidades em diversas linguas– 3744 nomes de cidades– 1900 nomes de países– 90 provincias

Quais dados são extraídos?Geolocalização

Page 17: Data Mining em redes sociais

• Fotos– Instagram–Facebook–Twitter

• Video–Facebook–Vine–Youtube–Vimeo

Quais dados são extraídos?Mídia

Page 18: Data Mining em redes sociais

• Links externos encontrados em posts são tratados separadamente

• Conteúdos de blogs e notícias são processados por algoritmo de “limpeza” de HTML– Heurísticas para extração do conteúdo que

realmente importa de uma página web– Fork próprio do readability-lxml

• https://github.com/mgalves/python-readability

Quais dados são extraídos?Links externos

Page 19: Data Mining em redes sociais

Quais tecnologias são utilizadas?

Page 20: Data Mining em redes sociais

Twitter

Youtube

Vimeo

Vine

Facebook

Instagram

CELERY BROKER

REDIS

MySQL

CeleryWorker

CeleryWorker

CeleryWorker

CeleryWorker

Qual a arquitetura?

WEB

Page 21: Data Mining em redes sociais

• Amazon AWS• Duas instâncias EC2 m3.large – 7.5GB RAM, 2vCPU, 6.5 ECU

• RDS MySQL• OpsWork + Chef • S3 para armazenamento de arquivos

estáticos• CloudWatch • Apenas um devops: eu.

Como é feito o deploy?

Page 22: Data Mining em redes sociais

• Em média, 400 tweets / minuto

• Em 24h:– 150k posts– 5.5k links de conteúdo– 23k imagens– 3k videos

Qual o volume de dados processados?

Page 23: Data Mining em redes sociais

• Em dia de jogo do Barça, Neymar recebe em média 150k menções.

• Quando o Corinthians foi campeão da Libertadores, foram 2MM de menções em 3 horas.

Algumas curiosidades

Page 24: Data Mining em redes sociais

[email protected]

Obrigado!