24
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas Uma Revisão Sistemática Orlando da Silva Junior Dra. Ana Carolina Lorena

Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Embed Size (px)

DESCRIPTION

Como fazer aplicações em redes incompletas? Por que esses nós não estão conectados? Esses nós poderiam se conectar no futuro? Objetivo: investigar como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas. Como? Utilizando Revisão Sistemática.

Citation preview

Page 1: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Aprendizado de Máquina Supervisionado na Predição de Links

em Redes Complexas Uma Revisão Sistemática

Orlando da Silva Junior Dra. Ana Carolina Lorena

Page 2: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Contexto

• Redes Complexas são estudadas em diversas áreas do conhecimento – Pesquisa em ciências humanas

– Pesquisa em ciências exatas

• Avanços na pesquisa – Proposição de novas tarefas

– Proposição de novas aplicações

– Proposição de novos estudos

PREDIÇÃO DE LINKS

Page 3: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Contexto

• Predição de Links – Trata do problema das ligações nas redes

• Como fazer aplicações em redes incompletas?

• Por que esses nós não estão conectados?

• Esses nós poderiam se conectar no futuro?

– Técnicas para solucionar esses problemas • Aprendizado de Máquina

– Não-Supervisionado

– Supervisionado

Page 4: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Objetivo do Trabalho

• Investigar como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas

• Como? Utilizando Revisão Sistemática

– Processo sistemático para realização de revisão bibliográfica

Page 5: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática

• Estudo secundário

– Auxilia na definição de uma metodologia para identificar, analisar e interpretar todas as evidências disponíveis em questão de pesquisa específica

• Identificação das

necessidades da revisão

• Definição do protocolo de revisão

Planejamento

• Aplicação do protocolo

• Extração de informações

Condução

• Formato da publicação

• Meios de divulgação

Publicação

Page 6: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática

• Objetivos da revisão

– Identificar uma teoria geral sobre Predição de Links;

– Buscar como a abordagem supervisionada é utilizada para resolver o problema da Predição de Links;

– Encontrar bases de dados para benchmarking;

– Identificar a forma como a Predição de Links colabora para a Teoria das Redes.

Page 7: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Necessidade: nenhuma outra publicação semelhante encontrada

• Questões de pesquisa

– Como o paradigma da aprendizagem supervisionada resolve o problema da Predição de Links?

– Como funciona a Predição de Links?

Page 8: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Pergunta 1: Como o paradigma da aprendizagem supervisionada resolve o problema da Predição de Links?

– Quais são as principais técnicas de Aprendizado Supervisionado utilizadas na

Predição de Links?

– Qual é o tipo de problema supervisionado na Predição de Links?

– Como os conjuntos de dados são estruturados?

– Quais são os principais atributos e métricas utilizados?

– Qual é a metodologia experimental adotada?

– Quais são os algoritmos base usados na comparação de resultados?

Page 9: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Pergunta 2: Como funciona a Predição de Links?

– Quais são as bases de dados comumente usadas?

– Que tipo de aplicações tratam do problema da Predição de Links?

Page 10: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Aprendizado de Máquina Supervisionado – supervised machine learning – supervised learning – pattern recognition – data mining

• Predição de Links – link prediction – link mining – link analysis

• Redes Complexas – network – networks

Portais de Referências Bibliográficas escolhidos • Portal ACM (ACM Digital Library) • Portal IEEE (IEEE Xplore) • Science Direct • Web of Science • CiteSeerX

• Scopus

Expressão geral de busca

Page 11: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Critérios de exclusão – Publicações que não tratam de Predição de Links

• Aplicação ou utilização no tema

– Publicações restritas • Acesso não limitado à UFABC ou UNIFESP

– Publicações com idioma inacessível • Português, inglês ou espanhol

– Restrição por tipo de publicação • Conferências ou periódicos

Page 12: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

Título do Trabalho

• Relação com os tópicos de pesquisa

Resumo

• Referência a Predição de Links

Texto

• Leitura parcial

• Predição de Links com Aprendizado Supervisionado

Extração de Informações • Título do Trabalho • Autores • Tipo de publicação • Local e ano • Portal bibliográfico • Observações

Page 13: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Condução

• Aplicação do protocolo anterior

– Adaptação da expressão de busca aos portais escolhidos

Portal Bibliográfico Quantidade

Scopus 107

Portal IEEE 76

Web of Science 36

CiteSeerX 25

Portal ACM 12

Science Direct 3

Final: 33

Trabalhos

Page 14: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Condução

• Pesquisa entre 07/novembro/2012 e 17/novembro/2012

Publicações por ano

Page 15: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados e Discussão

Page 16: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados |Modelagem

• 𝑮(𝒕) é um grafo que sumariza de algum modo a sequência temporal 𝑮 = (𝑮(𝟏), … , 𝑮(𝒕))

• Toda rede em G é do tipo 𝑮 = (𝑽, 𝑬): – 𝑽 é o conjunto de vértices – 𝑬 é o conjunto de arestas, com 𝒆 = (𝒖, 𝒗)

• 𝑮(𝒕 + 𝟏) é rotulado

– Presença de links +1 – Ausência de links -1

• Os vértices u e v pertencem aos grafos 𝑮(𝒕) e 𝑮(𝒕 + 𝟏), mas o par (𝒖, 𝒗) – aresta – só existe em 𝑮(𝒕 + 𝟏)

Problema Binário

Page 17: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados |Conjuntos de Dados

Tipo de Rede Tipo ou Fonte de Dados

Rede Social

DBLP

Facebook

arXiv

Rede de Informação

Enron

CiteSeer

Wikipedia

Rede Biológica KEGG PATHWAY

Proteína-proteína

Rede Tecnológica Chamadas Telefônicas

Utilizadas como Redes Sociais

Principal

Page 18: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Métricas

• As métricas são as medidas de Análise de Redes Complexas

– Qualificam a topologia e definem as configurações da rede

• Análise da estrutura da rede sem necessidade de representações gráficas

– Cálculos estatísticos

Rede de interações proteína-proteína em Saccharomyces cerevisiae

(http://www.visualcomplexity.com)

Page 19: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Métricas

Métrica Quantidade

+

Vizinhos Comuns (VC) 18

Coeficiente de Adamic-Adar (AA) 16

Coeficiente de Jaccard (JC) 16

Conexão Preferencial (CP) 14

Katz (K) 13

- Caminho Mais Curto (CMC) 9

Graus do Nó (g) 8

𝚪(𝐱) é o conjunto de vizinhos do nó x.

𝑉𝐶 𝑢, 𝑣 = |Γ 𝑢 ∩ Γ 𝑣 |

𝐴𝐴 𝑢, 𝑣 = 1

log |Γ 𝑤 | 𝑤 ∈ Γ(u,v)

𝐽𝐶 𝑢, 𝑣 =|Γ 𝑢 ∩ Γ 𝑣 |

|Γ 𝑢 ∪ Γ 𝑣 |

𝐶𝑃 𝑢, 𝑣 = |Γ 𝑢 | ∙ |Γ 𝑣 | 𝐾 𝑢, 𝑣 = 𝛽𝑙 ∙ 𝑝𝑎𝑡ℎ𝑠 𝑙 𝑢,𝑣

𝑙=1

𝑔 𝑢 = |Γ 𝑢 |

Page 20: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Métodos

Técnica Quantidade

Árvore de Decisão 10

SVM 9

Naive Bayes 5

Regressão 6

Rede Neural 3

k-NN 3

Técnica Quantidade

Modelos probabilísticos 7

Ensembles 8

Outras técnicas 5

Proposições 5

Principais

Bons Resultados

Bons Resultados

C4.5

Page 21: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Algoritmos de Base

• São algoritmos não-supervisionados utilizados pelos trabalhos a fim de comparar com os algoritmos supervisionados.

• Quais foram os algoritmos? – Comparação entre predidores – Classificador aleatório – Medidas de rede: Katz e Coeficiente de Adamic-Adar

• Mas: nem todos os trabalhos realizaram essa

comparação ou não deixaram claro – Deficiência na literatura de Predição de Links

Page 22: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Metodologia

• Como conduzir e avaliar os experimentos? – Amostragem – Avaliação

• Amostragem – Validação Cruzada – 10 subconjuntos

• Avaliação – Área Abaixo da Curva ROC (AUC); ou – Precisão, Acurácia e Revocação

Abordagem Mais Frequente

Alto Desbalanceamento De Classes

Page 23: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Aplicações

Aplicações de Segurança

Segurança física

Segurança virtual Academia e Pesquisa

Coautoria

Citações Sistemas de Recomendação

Recomendação de produtos

Recomendação de especialistas

Mineração de Links

Classificação de Objetos

Entity Resolution

Page 24: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Conclusão

• O trabalho investigou como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas – Revisão Sistemática

• Formulação de questões de pesquisa • Elaboração e execução de protocolo de pesquisa

• Os resultados da pesquisa mostram: – Vantagens e desvantagens da abordagem supervisionada – Método padrão de construção de conjuntos de dados – Principais métricas de redes – Principais bases para benchmarking – Algoritmos mais frequentemente utilizados – Abordagens experimentais mais adotadas

• Trabalhos futuros: redes dinâmicas e métodos de avaliação experimental