14
Universidade Federal de Santa Catarina UFSC Departamento de Informática e Estatística INE Sistemas de Informação Data Mining Data Mining em Redes Sociais Augusto Pacheco dos Santos 10101169 Felipe Duarte Silveira 10103190 Mateus Maso 10101199 Vanoir Guarezi Zacaron 10101212 1

Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

Embed Size (px)

Citation preview

Page 1: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

Universidade Federal de Santa Catarina ­ UFSC

Departamento de Informática e Estatística ­ INE

Sistemas de Informação ­ Data Mining

Data Mining em Redes Sociais

Augusto Pacheco dos Santos ­ 10101169

Felipe Duarte Silveira ­ 10103190

Mateus Maso ­ 10101199

Vanoir Guarezi Zacaron ­ 10101212

1

Page 2: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

Sumário

1. INTRODUÇÃO2. DATA MINING3. REDES SOCIAIS4. MINERAÇÃO EM REDES SOCIAIS

4.1 IDENTIFICAÇÃO DE RELACIONAMENTOS5. PROBLEMAS DE MINERAÇÃO EM REDES SOCIAIS

5.1 ANÁLISE COMUNITÁRIA5.2 ANÁLISE SUBJETIVA5.3 RECOMENDAÇÃO SOCIAL5.4 MODELAGEM INFLUENCIAL5.5 ORIGEM E DIFUSÃO DA INFORMAÇÃO5.6 PRIVACIDADE, SEGURANÇA E CONFIABILIDADE

6. APLICAÇÃO DAS INFORMAÇÕES E EXEMPLOS7. CONCLUSÃO8. REFERÊNCIAS

2

Page 3: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

1. INTRODUÇÃO

Qualquer organização precisa saber qual o seu público alvo e como ele se comporta, o                           

que pensa, quais os seus interesses, seus desinteresses, informações que possam ajudar a                       

empresa a traçar um perfil que auxilie no direcionamento de qual produto deve ser desenvolvido                           

ou qual abordagem deve ser adotada para se chegar ao cliente e com isso conquistá­lo a ponto                               

de se tornar um cliente ativo.

Coletar e avaliar esses dados, geralmente, demanda um certo esforço. Se for de forma                         

manual demanda um esforço cansativo, que exige um investimento considerável, um tempo                     

considerável e um alcance um tanto quanto limitado. Automatizar o processo de coleta seria                         

mais do que o ideal nesses casos.

As redes sociais estão ai para isso. Um ambiente no qual o usuário dispõe suas                           

informações de maneira natural, por vontade própria na maioria das vezes, sem ter que                         

necessariamente passar por um questionário por exemplo.

Conseguir a informação por meio das redes sociais é uma tarefa relativamente simples,                       

guardar e analisar apresentam com um grau de dificuldade maior.

As técnicas de mineração de dados possuem uma extensa gama de casos em que                         

podem ser utilizadas, um desses casos seria analisar o perfil de públicos.

O objetivo desse trabalho é explorar um pouco de como as técnicas de mineração de                           

dados aliadas as informações dispostas pelas redes sociais, fornecem um material de grande                       

interesse para qualquer empresa que esteja interessada em analisar e descobrir o                     

comportamento do público e com base nelas tomar medidas para evoluir.

3

Page 4: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

2. DATA MINING

A mineração de dados percorre uma grande quantidade de dados e busca verificar                       

padrões e relacionamento entre dados que são gerados pelos diversos setores de uma                       

empresa e se agrupadas por algum tipo de relacionamento podem gerar novos grupos de                         

dados.

Esses novos grupos de dados são submetidos a algoritmos baseados em sistemas de                       

redes neurais resultando em uma nova informação que está associada a outro grupo de dados                           

que pode ser totalmente independente e gerado em um contexto diferente, gerando                     

comparações estatísticas entre eles.

O resultado deve mostrar que separados são apenas dados, mas depois da utilização                       

de alguma técnica de mineração de dados, a junção e comparação desses dois grupos gera                           

uma informação que talvez nunca fosse notada e que pode ser utilizado pelo usuário para                           

auxiliar no processo de tomadas de decisão pois com essas informações se tem o subsídio                           

necessário para determinar um padrão, um comportamento de certos grupos de dados.

4

Page 5: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

3. REDES SOCIAIS

Uma mídia social é uma aplicação para a internet construída com tecnologias da Web                         

2.0, que permitem a criação e troca de conteúdo entre os usuários. A mídia social como um                               

todo é um conglomerado de diferentes tipos, incluindo meios tradicionais como jornal, rádio,                       

televisão e meios não tradicionais como Facebook, Linkedin, Twitter, etc.

As mídias sociais fornecem aos usuários uma forma fácil de se comunicar e se                         

conectar com os outros usuários, em uma escala e frequência sem precedentes nos meios                         

tradicionais. A expansão das mídias sociais é constante, resultando na evolução das redes                       

sociais, blogs, microblogs, e demais gerenciadores de conteúdo. O Facebook, um site de rede                         

social, registra mais de 1.11 bilhão de usuários ativos, segundo dados de Março de 2013 .1

Existem alguns tipos de mídias sociais, sendo as principais:

● Rede social online: São serviços web que permitem aos indivíduos e                   

comunidades se conectarem com amigos do mundo real e virtuais. Os usuários                     

interagem uns com os outros através de atualizações, comentários,               

compartilhamento de mídia, mensagens, participação em grupos de discussão,               

etc. Exemplos: Facebook, Linkedin.

● Blog: São websites ao estilo de jornais que permitem aos usuários (autores do                       

blog) contribuírem de forma textual (multimídia).

● Microblog: Possuem as mesmas características dos blogs, mas com limitação                 

de conteúdo. Exemplos: Twitter, Tumblr.

● Wiki: São portais colaborativos que permitem que os usuários contribuam com o                     

conteúdo. Exemplos: Wikipedia, Wikihow.

● Respostas: São sites que fornecem uma plataforma para usuários que                 

busquem por conselhos, sugestões, conhecimento, etc. possam realizar             

perguntas. Os outros usuários da comunidade podem responder estas questões                 

baseando­se em suas próprias experiências ou em bases mais concretas.                 

Exemplos: Yahoo! Respostas, StackOverflow, WikiAnswers

4. MINERAÇÃO EM REDES SOCIAIS

1 Dados retirados dehttp://news.yahoo.com/number­active­users­facebook­over­230449748.html

5

Page 6: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

Enormes quantidades de conteúdo são geradas diariamente pelos usuários de mídias                   

sociais. Como esta quantidade tende a crescer, é essencial que os produtores, consumidores,                       

e fornecedores de serviços descubram maneiras de gerenciar e utilizar todos estes dados. O                         

crescimento das mídias sociais é guiado pelas seguintes questões: Como um usuário pode ser                         

ouvido? Qual fonte de informação um usuário deve usar? Como a experiência do usuário pode                           

ser aprimorada? As respostas para estas questões estão escondidas nos dados da mídia                       

social. Todos estes desafios e questões pendentes representam uma grande oportunidade para                     

a mineração de dados, visando o desenvolvimento de novos algoritmos e métodos com o foco                           

nas mídias sociais.

Os dados gerados nas mídias sociais são diferentes do tradicional formato de dados na                         

mineração de dados clássica. Estes dados são em sua maioria gerados por usuário de sites de                             

mídia social. Portanto, estes dados são extensos, distribuídos, não estruturados e dinâmicos.                     

Estas características fomentam o desafio para a criação de novas técnicas e algoritmos para a                           

mineração de dados voltada a este contexto.

Dependendo da mídia social, os dados podem ser bastante ruidosos. Remover este                     

ruído dos dados é essencial antes de executar a mineração em si. Os dados em mídias sociais                               

são distribuídos porque não existe uma autoridade central que retém os dados de todas os sites                             

de mídias sociais. Existe uma grande dificuldade, portanto, na identificação do fluxo desta                       

informação. Os dados das mídias sociais também não são estruturadas, fazendo com que se                         

torne um grande desafio realizar observações significativas quando estes dados, além de não                       

estruturados, vem de tantas fontes diferentes. Esta dificuldade fica ainda maior, quando se leva                         

em conta que os diferentes sites de mídias sociais podem possuir propósitos e públicos                         

extremamente diferentes.

Além disto, estes dados podem ajudar a entender o comportamento humano, e também                       

auxiliar empresas na divulgação de seus produtos ou serviços, fornecendo formas de encontrar                       

seu público alvo e maximizar o alcance de seus produtos.

4.1 IDENTIFICAÇÃO DE RELACIONAMENTOS

Para a realização desta mineração de dados em mídias sociais, um dos focos que                         

6

Page 7: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

podem ser abordados é referente a identificação de relacionamentos entre os usuários destas                       

mídias sociais. Desta forma, é possível calcular o nível de relacionamento entre estas pessoas,                         

levando em conta, por exemplo, o número de mensagens que estas pessoas trocam entre si.                           

Todo este processo pode ser realizado de forma automatizada, respeitando as seguintes                     

etapas:

● Descobertas de nós: Identificar as relações entre as pessoas analisando as                   

referências entre elas, como citações em textos do nome ou e­mail. A                     

comparação pode ser feita termo a termo, identificando similaridades para                 

localizar estas referências dentro dos textos.

● Identificação de coreferências: Possui o objetivo de identificar todas as formas                   

nas quais uma pessoa é referenciada, criando assim uma identidade pessoal                   

para cada pessoa. Esta técnica ajuda a diferenciar duas pessoas que possuem                     

o mesmo nome, por exemplo. Para tal, utiliza­se de técnica de aprendizagem de                       

máquina, que buscam por sintagmas nominais nos textos que possam                 

“individualizar” o nome de cada pessoa, identificando nomes de organizações e                   

objetos que teoricamente são particulares de cada pessoa. Também podem ser                   

analisadas semelhanças léxicas, semânticas, e outras características que             

ajudem a criar esta identidade. Outra abordagem, seria analisar o contexto em                     

que os nomes das pessoas estão inseridos, partindo da premissa que pessoas                     

diferentes terão seus nomes citados em contextos diferentes.

● Descoberta de conexões: Após a descoberta dos nós e a resolução de                     

pseudônimos (separação em nós únicos para cada pessoa), é realizada a                   

descoberta das reais conexões sociais entre cada uma destas pessoas (nós).                   

Para este objetivo, existem dois algoritmos principais e amplamente utilizados:                 

similaridade dos perfis e similaridade semântica.

○ Similaridade dos perfis: É uma comparação básica entre os pontos em                   

comum de cada perfil. Assim, são contabilizados os pontos em comum                   

entre cada nó, dando um “grau de afinidade” para cada relacionamento.

○ Similaridade semântica: É uma análise dos termos e frases existentes                 

em cada perfil. Dado um certo nível pré­definido de similaridade                 

semântica, duas pessoas podem estar relacionadas quando a             

similaridade semântica entre elas estiver acima deste nível. Ou seja, os                   

perfis são analisados textualmente de forma semântica, buscando             

7

Page 8: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

semelhanças entre estas informações. Quanto maior o número de               

semelhanças entre os textos, maior o nível de similaridade semântica.

5. QUESTÕES DE MINERAÇÃO EM REDES SOCIAIS

5.1 ANÁLISE COMUNITÁRIA

De acordo com a definição, uma comunidade é formada por indivíduos que interagem                       

frequentemente entre si, criando assim um circulo de interesses. Comunidades ou grupos                     

podem ser observadas através de conexões em redes sociais, uma vez que o foco destas                           

redes é permitir ao máximo esta expansão entre os usuários. É possível conectar com amigos                           

e encontrar novos usuários similares, além de outros grupos de pessoas. Estes grupos podem                         

ser classificados em implícitos e explícitos. Um grupo explícito possui identidade e pode ser                         

administrado de várias maneiras (público, moderado, privado). Já grupos implícitos emergem                   

naturalmente através de interações, ou seja, nem sempre possuem algum tipo de "rótulo".

Detecção, formação e evolução são problemas comuns durante a análise de um grupo.                       

Outro grande desafio está relacionado a subjetividade de uma comunidade, uma vez que a falta                           

de confiança pode dificultar na avaliação.

Há 4 métodos para detecção de comunidades e que permitem a análise de redes com                           

diferentes resoluções:

● Centrado ao nó: onde cada nó satisfaz certas propriedades como um mutualidade                     

completa, alcançabilidade, grau de nó e frequência de ligações entre eles.

● Centrado ao grupo: onde cada grupo precisa satisfazer certas propriedades.● Centrado a rede: onde grupos são formados baseado na partição da rede em                       

conjuntos disjuntos.

● Centrado a hierarquia: onde o objetivo é criar uma estrutura hierárquica de                     

comunidade.

Redes sociais são altamente dinâmicas e seus grupos podem expandir, encolher e até                       

se dissolver. Desta forma, foi possível perceber padrões ao longo do tempo durante a evolução                           

8

Page 9: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

de comunidades.

Um exemplo é em relação aos seus relacionamentos na rede. Quanto mais amigos                       

você tem em um grupo que não o pertence, mais propenso estará de entrar nele. Além de                               

grupos casuais crescem mais lentamente que aquelas que já estão altamente conectados.

5.2 ANÁLISE SUBJETIVA

Analise subjetiva tem como objetivo extrair automaticamente opiniões expressadas em                 

um conteúdo gerado pelo um usuário. Ferramentas de análise subjetiva permitem que                     

organizações entendam o feedback dos produtos, percepção de logo, percepção de um novo                       

produto, assim como reputação da própria empresa. Essas ferramentas ajudam a                   

compreender a opinião ou sentimento do usuário sobre os produtos em uma escala global. Há                           

vários sites de rede social exportando opiniões de usuários sobre produtos em diferentes                       

formatos. Monitorar essas opiniões relacionado a uma companhia em particular ou produto em                       

redes sociais é um novo desafio.

Este tipo de análise é difícil porque as linguagens usadas para criar conteúdo podem ser                           

ambiguas.  Por isso, para se iniciar este tipo de análise é preciso:

● Encontrar documentos relevantes.

● Encontrar seções relevantes.

● Encontrar opiniões em comum.

● Quantificar as opiniões.

● Formar uma visão global.

Objetos podem ser alvo de opiniões, estes são geralmente representados como um                     

conjunto finito de características, onde cada uma representa um grupo finito de sinônimos entre                         

palavras e frases. Podemos executar a mineração em vários níveis deste objeto, como o de                           

documento, sentença ou característica.

Extrair opiniões expressadas em sentenças comparativas pode ser uma tarefa difícil. Já                     

a avaliação de performance durante a análise de um conteúdo onde a veracidade não é                           

comprovada pode causar complicações também.

9

Page 10: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

5.3 RECOMENDAÇÃO SOCIAL

Sistemas tradicionais de recomendação tentam recomendar produtos baseado na               

classificação de produtos anteriores comprados pelos usuários. Um sistema de recomendação                   

social faz uso das informações sociais baseando­se na hipótese de que pessoas estão                       

socialmente conectadas e propensas a compartilhar interesses similares. Estes usuários                 

podem ser influenciados por amigos, onde preferem seguir as recomendações no seu                     

"newsfeed" ao invés de algo gerado randômico pelo site sem nenhum algoritmo de afinidade.                         

Os objetivos de uma recomendação social é melhorar a qualidade e eliminar o problema de                           

bombardeio de informações irrelevantes. Um exemplo de sistema de recomendação social é a                       

recomendação de livros baseado na preferência dos seus amigos. Quais livros já leram? Quais                         

estão lendo? Quais não gostaram? Estas informações podem ser encontradas através de                     

compartilhamentos no Twitter ou Facebook referenciando produtos da Amazon.

5.4 MODELAGEM INFLUENCIAL

Pesquisadores estiveram explorando a influência de interesses em comum entre                 

usuários de uma rede social. É importante saber a diferença entre uma rede social que é                             

dirigido por influência ou homofilia. Por exemplo, na indústria de propaganda, se uma rede social                           

é influente, então os usuários influentes deverão ser identificados e incentivados a promover                       

produtos ou serviços de membros da rede social. Entretanto, se a rede social é baseado em                             

homofilia, então estes grupos de usuários com o mesmo interesse deveriam ser diretamente                       

focado a promover vendas. A maioria das redes sociais tem a mistura dos dois. Por isso,                             

distinguir eles é desafiador.

5.5 ORIGEM E DIFUSÃO DA INFORMAÇÃO

Pesquisadores estudaram como a informação é difundida e exploraram diferentes                 

modelos de difusão de informação. Dentre eles há o modelo independente de cascata, limiar,                         

suscetível, contagiado, entre outros. Todos estes modelos foram estudados e aplicados para                     

analisar a propagação de rumores e vírus de computador por exemplo. Dois importantes                       

problemas do ponto de vista das redes sociais são como as informações propagam na rede e                             

quais fatores afetam sua dispersão. O primeiro problema continua aberto e é reconhecido como                         

10

Page 11: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

chave  para diferenciar rumores da verdade.

5.6 PRIVACIDADE, SEGURANÇA E CONFIABILIDADE

Barreiras fracas e o uso exagerado das mídias sociais trouxeram o aumento da                       

preocupação relacionada a privacidade e problemas de segurança entre os usuários. Com                     

esses desafios, novos perfis de usuários começaram a surgir:

● Usuário liberal: gostaria de ter vários amigos e compartilhar o máximo possível para se                         

tornar influente na rede.

● Usuário ideal: usa a rede apenas entre um circulo pequeno de usuários e não se                           

importa muito com a privacidade, mas também não se expõem na rede de forma                         

frequente.

● Usuário radical: não gostaria que ninguém acessasse seus conteúdos e se limita a                       

interagir com pessoas desconhecidas.

Cada rede social tenta encorajar e facilitar que seus usuários encontrem uns aos outros                         

e expandam seus relacionamentos. Por isso que estas medidas geram novas ameaças a                       

segurança dessas empresas, pois para alcançar estes relacionamentos as pessoas precisam                   

expor diversas informações pessoais sucessivas a ataques.

Estas informações podem ser usadas para ataques indesejados feitos pelos próprios                   

usuários como stalking, cyberbulling, phishing, spamming, scamming, clickjacking, entre outros.

Outro fato interessante sobre o Facebook é que poucos usuários mudam a configuração                       

padrão de privacidade. Vários perfis de usuários estão completamente públicos sem os mesmo                       

os donos saberem disso.

Confiança social depende de vários fatores que não podem ser facilmente modelados                     

em um sistema computacional. Foi observado a confiança entre duas pessoas e concluiu                       

fatores como experiências passadas, opiniões expressadas e motivos de ganhar algo extra                     

influenciaram no resultado. Outro aspecto de confiabilidade está relacionado ao conteúdo                   

produzido pelo o usuário.

11

Page 12: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

6. APLICAÇÃO DAS INFORMAÇÕES E EXEMPLOS

Com o crescimento das redes sociais e de suas aplicações cada vez mais informações                         

valiosas estão “escondidas” nos dados das redes sociais, estes se apresentam de forma vasta,                         

ruidosa, desestruturada, distribuída e dinâmica, portanto somente com uma mineração eficiente                   

é possível aproveitar ao máximo estas informações. A análise dos dados das redes sociais                         

possui meios/modelagens diferentes dependendo de qual domínio na rede social está sendo                     

explorado.

O uso tradicional da mineração em redes sociais está associado a campanhas                     

publicitarias, onde é estudado o perfil do usuário afim de se obter maior sucesso na oferta de                               

um produto ou serviço. Entretanto também é possível usar as redes sociais para outros fins,                           

um dos novos usos das redes sociais são as campanhas políticas, onde é buscado entender o                             

perfil dos eleitores e suas opiniões, dados chaves para o desenvolvimento de uma campanha.                         

Redes sociais também vem sendo usadas para organizar e promover movimentos sociais em                       

todo o mundo, analisando os dados é possível entender melhor estes movimentos, prever                       

quando acontecerão manifestações e até mesmo identificar elementos chaves dos                 

movimentos. Outro uso interessante de redes sociais é para recolher informações durante e                       

depois de crises ou desastres naturais, ferramentas como ASU Coordination Tracker e                     

TweetTracker se baseiam em palavras­chave, hashtags e na localização dos usuários para                     

minerar a rede, assim entendendo melhor o que está acontecendo em cada região e por                           

exemplo, identificando recursos que estão em falta e regiões mais afetadas.

12

Page 13: Data Mining em Redes Sociais - inf.ufsc.bralvares/INE5644/G8_RedesSociais.pdf · 2. DATA MINING A mineração de dados percorre uma grande quantidade de dados e busca verificar padrões

7. CONCLUSÃO

As redes sociais vem se tornando cada vez mais importantes e populares no dia a dia                             

da sociedade, toda nova funcionalidade e aplicação das redes sociais criam um novo mar de                           

informações e interações que podem ser aproveitados de diversas maneiras. Neste trabalho                     

analisamos a mineração de dados aplicada a obtenção de conhecimento das redes sociais,                       

apresentando seus principais conceitos, métodos, problemas e diferenças.

Apesar das adversidades, a mineração de dados em redes sociais é uma area                       

consolidada que já gerou muitos resultados positivos, conforme as redes sociais vão se                       

desenvolvendo, as metodologias de mineração tendem a acompanhar o ritmo trazendo                   

resultados mais precisos e analises diferenciadas, como é o caso do ASU Coordination Tracker                         

e TweetTracker, que utilizam os dados das redes sociais de forma humanitária e não para fins                             

restritamente comerciais.

13