41
Aprendizado de Representações Aprendizado de Representações para Mineração de Eventos para Mineração de Eventos Ricardo M. Marcacini [email protected]

Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de RepresentaçõesAprendizado de Representaçõespara Mineração de Eventospara Mineração de Eventos

Ricardo M. [email protected]

Page 2: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 2

Agenda

Motivação

Definição do Problema

Aplicações em Clustering

Desafios de Pesquisa Método Proposto Resultados Experimentais

Considerações Finais

Page 3: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 3

Motivação

Método tradicional

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Page 4: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 4

Motivação

Método tradicional Método alternativo

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar Dataset

Page 5: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 5

Motivação

Método tradicional Método alternativo

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar

(Representação)Modelo

Espaço-Vetorial

Dataset

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Page 6: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 6

Motivação

Método tradicional Método alternativo

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar

(Representação)Modelo

Espaço-Vetorial

Dataset

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Modelo ConsensualModelo Consensual

Page 7: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 7

Motivação

Método tradicional Método alternativo

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar

(Representação)Modelo

Espaço-Vetorial

Dataset

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Modelo ConsensualModelo Consensual

Marcacini, R. M. (2014). Machine learning with privileged information:approaches for hierarchical text clustering.

Doctoral Thesis, Institute of Mathematics and Computer Sciences,University of São Paulo, São Carlos.

Marcacini, R. M. (2014). Machine learning with privileged information:approaches for hierarchical text clustering.

Doctoral Thesis, Institute of Mathematics and Computer Sciences,University of São Paulo, São Carlos.

Page 8: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 8

Motivação

Método tradicional Método alternativo

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar

(Representação)Modelo

Espaço-Vetorial

Dataset

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Modelo ConsensualModelo Consensual

Page 9: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 9

Motivação

Método tradicional Método alternativo

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar

(Representação)Modelo

Espaço-Vetorial

Dataset

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Modelo ConsensualModelo Consensual

Page 10: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 10

Motivação

Método tradicional Método alternativo

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar

(Representação)Modelo

Espaço-Vetorial

Dataset

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Modelo ConsensualModelo Consensual

Page 11: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 11

Motivação

Método tradicional Método alternativo

(Representação)Modelo

Espaço-Vetorial

Dataset Pré-processamento

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar

(Representação)Modelo

Espaço-Vetorial

Dataset

Aprendizado de Máquina(Classificação, Clustering, Regressão)

Modelo ConsensualModelo Consensual

Page 12: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 12

Motivação

Método tradicional Método alternativo

Dataset Pré-processamento

Problema(Task)

Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar Dataset

Como generalizar o método para uma grande variedadede problemas de aprendizado de máquina?

Conhecimento externo de diferentesdomínios de aplicação?

Como generalizar o método para uma grande variedadede problemas de aprendizado de máquina?

Conhecimento externo de diferentesdomínios de aplicação?

Page 13: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 13

Motivação

Projeto Websensors: mapear eventos que ocorrem na web (mundo virtual) para o nosso mundo real e assim monitorar fenômenos, identificar tendências e realizar tarefas preditivas.

Page 14: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 14

Motivação

Extração de Conhecimento em Redes de Eventos Classificação Clustering Link Prediction

Page 15: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 15

Motivação

Extração de Conhecimento em Redes de Eventos

Aprendizado deMáquina

Page 16: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 16

Motivação

Extração de Conhecimento em Redes de Eventos

Aprendizado deMáquina

Aprendizado de Representações emRedes de Eventos faz parte de uma tarefa

de Aprendizado de Máquina

Page 17: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 17

Motivação

Extração de Conhecimento em Redes de Eventos

Aprendizado de Representações

Page 18: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 18

Definição do Problema

Aprendizado de Representações Rede de informação: Aprender uma função de mapeamento:

Modelo espaço-vetorial m-dimensional Cada objeto na rede possui um vetor de características

Page 19: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 19

Agenda

Motivação

Definição do Problema

Aplicações em Clustering

Desafios de Pesquisa Método Proposto Resultados Experimentais

Considerações Finais

Page 20: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 20

Desafio de Pesquisa

Agrupamento de Redes de Eventos Analisa a matriz de adjacência da rede Proximidade entre vértices da rede Custo computacional

Page 21: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 21

Ideia Geral

Aprendizado de Representações Modelos de embedding space Redução da dimensionalidade Habilita o uso de métodos tradicionais de agrupamento

EmbeddingSpace

HierarchicalClustering

Page 22: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 22

Ideia Geral

DeepWalk para Redes de Eventos Aprendizado de embedding space usando deep learning

Escalabilidade: aprendizado “online” que processa a matriz de adjacência de forma incremental

Resultados promissores em modelos de linguagem:Word2Vec (Google 2013), Glove (Stanford 2014), FastText (Facebook 2017)

Page 23: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 23

Trabalhos Relacionados

Baseado em DeepWalkDeepwalk: Online learning of social representations.Knowledge Discovery and Data Mining (KDD’2014)

Node2Vec: Scalable Feature Learning for NetworksKnowledge Discovery and Data Mining (KDD’2016)

Baseado em Fatoração de MatrizesNetMF: Network embedding as matrix factorization.ACM International Conference on Web Search and Data Mining (WSDM’2018)

Baseado em Reconstrução de ArestasLine: Largescale information network embedding.International Conference on World Wide Web (WWW ’15)

Page 24: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 24

Proposta

Extensão do Framework do DeepWalk

Deep Learning

Page 25: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 25

Deep Learning

Proposta

Extensão do Framework do DeepWalk

Page 26: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 26

Proposta

Random Walk para gerar sequências de vértices da rede de eventos

Conhecimento de domínio pode ser utilizado para enviesar a caminhada (Biased Random Walk)

1. [(Event1), (Us Army), (Missiles), (Kabul), (Event2)]

2. [(Event1), (bombard), (Event2), (kill), (Afghan)]

...

n. [(1/2/1987), (Event1), (Event2), (Weapons), (Troops)]

Exemplo:

Page 27: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 27

Deep Learning

Proposta

Framework

Page 28: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 28

Proposta

Representation Mapping

Page 29: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 29

Deep Learning

Proposta

Framework

Page 30: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 30

Proposta

Aprendizado Profundo

30

Exemplo: se a entrada é o vértice wi, possíveis saídas são wi-2,wi-1,wi+1,wi+2 janela de tamanho 2.

[(Event1), (Us Army), (Missiles), (Kabul), (Event2)]wiwi-1wi-2 wi+1 wi+2

Page 31: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 31

Deep Learning

Proposta

Framework

Page 32: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 32

Proposta

Embedding Space

Codifica a nova representação

Page 33: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 33

Avaliação Experimental

Datasets (Redes de Eventos)

Page 34: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 34

Avaliação Experimental

Configuração dos Experimentos Embedding Spaces

DeepWalk NetMF LINE (1st e 2st) Proposta

Tradicional: agrupamento via matriz de adjacências Spectral Clustering

Critério de Avaliação Macro-F1

Page 35: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 35

Avaliação Experimental

Macro-F1 do agrupamento usando Embedding Space com d=300.

Page 36: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 36

Avaliação Experimental

Macro-F1 do agrupamento usando Embedding Space com d=2.

Page 37: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 37

Considerações Finais

Aprendizado de Representações é uma forma de extrair conhecimento da rede de eventos Novos atributos para o problema Permite uso de modelos de aprendizado conhecidos

Conhecimento pode ser combinado com informações originais do problema Informações originais (atributos do problema) Informação externa / complementar (eventos)

Page 38: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 38

Considerações Finais

Framework em desenvolvimento… Modelo FaaS: Feature-as-a-service

Page 39: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 39

Conclusões

Graph Embedding é promissor para análise de eventos via agrupamento Todos os métodos de graph embedding obtiveram

resultados superiores aos spectral clustering

O modelo proposto é competitivo com o DeepWalk e apresenta algumas vantagens Permite empregar Biased Random Walk para incluir

informação de domínio (bias)

Page 40: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de Representações para Mineração de Eventos 40

Conclusões

Experimentos preliminares em Clustering Promissor para tarefas de agrupamento Resultados superiores aos spectral clustering

Trabalhos futuros e em andamento Avaliar o framework em diferentes domínios Mineração de Opinições e Análise de Sentimentos Tarefas de Regressão Tarefas de Classificação

Page 41: Aprendizado de Representações para Mineração de Eventossites.labic.icmc.usp.br/semantics2020/marcacini.pdfAprendizado de Representações para Mineração de Eventos 23 Trabalhos

Aprendizado de RepresentaçõesAprendizado de Representaçõespara Mineração de Eventospara Mineração de Eventos

Ricardo M. [email protected]