UNIVERSIDADE DE SÃO PAULO · 2019-08-09 · dados abertos conectados, partida fria. ABSTRACT FRESSATO, E. P. Incorporation of semantic metadata for recommendation in the cold start

UN

IVER

SID

AD

E D

E SÃ

O P

AULO

Inst

ituto

de

Ciên

cias

Mat

emát

icas

e d

e Co

mpu

taçã

o

Incorporação de metadados semânticos para recomendaçãono cenário de partida fria

Eduardo Pereira FressatoDissertação de Mestrado do Programa de Pós-Graduação em Ciênciasde Computação e Matemática Computacional (PPG-CCMC)

SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP

Data de Depósito:

Assinatura: ______________________

Eduardo Pereira Fressato

Incorporação de metadados semânticos pararecomendação no cenário de partida fria

Dissertação apresentada ao Instituto de CiênciasMatemáticas e de Computação – ICMC-USP,como parte dos requisitos para obtenção do títulode Mestre em Ciências – Ciências de Computação eMatemática Computacional. VERSÃO REVISADA

Área de Concentração: Ciências de Computação eMatemática Computacional

Orientador: Prof. Dr. Marcelo Garcia Manzato

USP – São CarlosMaio de 2019

Ficha catalográfica elaborada pela Biblioteca Prof. Achille Bassi e Seção Técnica de Informática, ICMC/USP,

com os dados inseridos pelo(a) autor(a)

Bibliotecários responsáveis pela estrutura de catalogação da publicação de acordo com a AACR2: Gláucia Maria Saia Cristianini - CRB - 8/4938 Juliana de Souza Moraes - CRB - 8/6176

P436iPereira Fressato, Eduardo Incorporação de metadados semânticos pararecomendação no cenário de partida fria / EduardoPereira Fressato; orientador Marcelo GarciaManzato. -- São Carlos, 2019. 105 p.

Dissertação (Mestrado - Programa de Pós-Graduaçãoem Ciências de Computação e MatemáticaComputacional) -- Instituto de Ciências Matemáticase de Computação, Universidade de São Paulo, 2019.

1. Sistemas de recomendação. 2. Filtragemcolaborativa. 3. Fatoração de matrizes. 4. Dadosabertos conectados. 5. Partida fria. I. GarciaManzato, Marcelo, orient. II. Título.

Eduardo Pereira Fressato

Incorporation of semantic metadata for recommendation inthe cold start scenario

Dissertation submitted to the Institute of Mathematicsand Computer Sciences – ICMC-USP – inaccordance with the requirements of the Computerand Mathematical Sciences Graduate Program, forthe degree of Master in Science. FINAL VERSION

Concentration Area: Computer Science andComputational Mathematics

Advisor: Prof. Dr. Marcelo Garcia Manzato

USP – São CarlosMay 2019

Dedico este trabalho primeiramente a Deus, por ser essencial em minha vida. À minha família,

aos meus amigos e a todas as pessoas que direta ou indiretamente contribuíram na minha

formação pessoal, acadêmica e profissional. Em especial, aos pesquisadores do Instituto de

Ciências Matemáticas e de Computação (ICMC).

AGRADECIMENTOS

A realização deste trabalho de mestrado e confecção desta dissertação é a realização deum grande sonho em minha vida. Agradeço aqui a todos que de algum modo estão envolvidosna concretização deste trabalho.

À Universidade de São Paulo, especialmente ao Instituto de Ciências Matemáticas e deComputação (ICMC), apresento meus agradecimentos pela oportunidade de desenvolvimentodeste trabalho e por todos os meios colocados à disposição. Agradeço igualmente a excelênciada formação prestada e conhecimentos transmitidos.

Ao professor Marcelo Manzato pela disponibilidade, colaboração, conhecimentos trans-mitidos, capacidade de compreensão e estímulo ao longo de todo o trabalho.

Aos professores do Programa de Pós-Graduação em Computação do ICMC e aos profes-sores do Curso de Ciência da Computação da PUC Minas, pela oportunidade de crescimento,aprendizado e pela confiança em mim depositada.

À todos os meus amigos que sempre estiveram presentes me aconselhando e incentivandocom carinho e dedicação, em especial a Arthur Fortes e Rafael D’addio, pelas sugestões,esclarecimentos de diversas dificuldades do projeto, pelas colaborações em trabalhos e pelaamizade.

Manifesto um grande reconhecimento à minha família pelo apoio incondicional ao longodestes anos e por tornar possível a realização do meu grande objetivo.

Finalmente, à todos que, direta ou indiretamente, contribuíram para concretização destetrabalho, meu muito obrigado!

“Se você pode sonhar,

você pode fazer.”

(Walt Disney)

RESUMO

FRESSATO, E. P. Incorporação de metadados semânticos para recomendação no cenáriode partida fria. 2019. 105 p. Dissertação (Mestrado em Ciências – Ciências de Computação eMatemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidadede São Paulo, São Carlos – SP, 2019.

Com o propósito de auxiliar os usuários no processo de tomada de decisão, diversos tipos desistemas Web passaram a incorporar sistemas de recomendação. As abordagens mais utilizadassão a filtragem baseada em conteúdo, que recomenda itens com base nos seus atributos, afiltragem colaborativa, que recomenda itens de acordo com o comportamento de usuáriossimilares, e os sistemas híbridos, que combinam duas ou mais técnicas. A abordagem baseadaem conteúdo apresenta o problema de análise limitada de conteúdo, o qual pode ser reduzidocom a utilização de informações semânticas. A filtragem colaborativa, por sua vez, apresentao problema da partida fria, esparsidade e alta dimensionalidade dos dados. Dentre as técnicasde filtragem colaborativa, as baseadas em fatoração de matrizes são geralmente mais eficazesporque permitem descobrir as características subjacentes às interações entre usuários e itens.Embora sistemas de recomendação usufruam de diversas técnicas de recomendação, a maioriadas técnicas apresenta falta de informações semânticas para representarem os itens do acervo.Estudos na área de sistemas de recomendação têm analisado a utilização de dados abertosconectados provenientes da Web dos Dados como fonte de informações semânticas. Dessamaneira, este trabalho tem como objetivo investigar como relações semânticas computadas apartir das bases de conhecimentos disponíveis na Web dos Dados podem beneficiar sistemas derecomendação. Este trabalho explora duas questões neste contexto: como a similaridade de itenspode ser calculada com base em informações semânticas e; como semelhanças entre os itenspodem ser combinadas em uma técnica de fatoração de matrizes, de modo que o problema dapartida fria de itens possa ser efetivamente amenizado. Como resultado, originou-se uma métricade similaridade semântica que aproveita a hierarquia das bases de conhecimento e obteve umdesempenho superior às outras métricas na maioria das bases de dados. E também o algoritmoItem-MSMF que utiliza informações semânticas para amenizar o problema de partida fria eobteve desempenho superior em todas as bases de dados avaliadas no cenário de partida fria.

Palavras-chave: Sistemas de recomendação, filtragem colaborativa, fatoração de matrizes,dados abertos conectados, partida fria.

ABSTRACT

FRESSATO, E. P. Incorporation of semantic metadata for recommendation in the coldstart scenario. 2019. 105 p. Dissertação (Mestrado em Ciências – Ciências de Computação eMatemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidadede São Paulo, São Carlos – SP, 2019.

In order to assist users in the decision-making process, several types of web systems startedto incorporate recommender systems. The most commonly used approaches are content-basedfiltering, which recommends items based on their attributes; collaborative filtering, whichrecommends items according to the behavior of similar users; and hybrid systems that combineboth techniques. The content-based approach presents the problem of limited content analysis,which can be reduced by using semantic information. The collaborative filtering, presents theproblem of cold start, sparsity and high dimensionality of the data. Among the techniques ofcollaborative filtering, those based on matrix factorization are generally more effective becausethey allow us to discover the underlying characteristics of interactions between users and items.Although recommender systems have several techniques, most of them lack semantic informationto represent the items in the collection. Studies in this area have analyzed linked open data fromthe Web of data as source of semantic information. In this way, this work aims to investigatehow semantic relationships computed from the knowledge bases available in the Data Web canbenefit recommendation systems. This work explores two questions in this context: how thesimilarity of items can be calculated based on semantic information and; as similarities betweenitems can be combined in a matrix factorization technique, so that the cold start problem ofitems can be effectively softened. As a result, a semantic similarity metric was developed thatleverages the knowledge base hierarchy and outperformed other metrics in most databases. Alsothe Item-MSMF algorithm that uses semantic information to soften the cold start problem andobtained superior performance in all databases evaluated in the cold start scenario.

Keywords: Recommender systems, collaborative filtering, matrix factorization, linked opendata, cold start.

LISTA DE ILUSTRAÇÕES

Figura 1 – Classificação das técnicas de recomendação. . . . . . . . . . . . . . . . . . 30Figura 2 – Matriz de avaliações de usuários atribuídas aos itens. . . . . . . . . . . . . 33Figura 3 – Caneca das 5 estrelas de dados conectados. . . . . . . . . . . . . . . . . . . 47Figura 4 – Nuvem LOD visualizada em 2011. . . . . . . . . . . . . . . . . . . . . . . 48Figura 5 – Grafo descrevendo um conjunto de triplas. . . . . . . . . . . . . . . . . . . 49Figura 6 – Representação do grafo RDF em matrizes. . . . . . . . . . . . . . . . . . . 53Figura 7 – Visão geral da arquitetura do cálculo de similaridade semântica proposto. . . 62Figura 8 – Visão geral da arquitetura similaridade semântica proposta Meta Distância

LDSD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64Figura 9 – Grafo com as ligações skos:broade e dct:subject utilizado na métrica Meta

Distância LDSD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Figura 10 – Visão geral da arquitetura do sistema de recomendação proposto. . . . . . . 68Figura 11 – Divisão do conjunto de dados para simular partida fria. . . . . . . . . . . . 77Figura 12 – Exemplo da página do filme Toy Story na DBpedia. . . . . . . . . . . . . . 78Figura 13 – Avaliação completa utilizando NDCG na base de dados MovieLens 100k. . 84Figura 14 – Avaliação completa utilizando NDCG na base de dados Yahoo Music. . . . 86Figura 15 – Avaliação completa utilizando NDCG na base de dados MovieLens 20M. . . 87Figura 16 – Comparação dos modelos relacionados utilizando RMSE na base de dados

MovieLens 100k. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90Figura 17 – Comparação dos modelos relacionados utilizando RMSE na base de dados

Yahoo Music. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90Figura 18 – Comparação dos modelos relacionados utilizando RMSE na base de dados

MovieLens 20M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

LISTA DE ALGORITMOS

Algoritmo 1 – Item-MSMF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

LISTA DE TABELAS

Tabela 1 – Informações sobre os dados extraídos da base de conhecimento. . . . . . . . 79Tabela 2 – Avaliação Preliminar. Movielens 100k. MAP. . . . . . . . . . . . . . . . . 81Tabela 3 – Avaliação Preliminar. Movielens 100k. NDCG. . . . . . . . . . . . . . . . 81Tabela 4 – Avaliação Completa - Movielens 100k. MAP. . . . . . . . . . . . . . . . . 83Tabela 5 – Avaliação Completa - Movielens 100k. NDCG. . . . . . . . . . . . . . . . 83Tabela 6 – Avaliação Completa - Yahoo Music. MAP. . . . . . . . . . . . . . . . . . . 84Tabela 7 – Avaliação Completa - Yahoo Music. NDCG. . . . . . . . . . . . . . . . . . 85Tabela 8 – Avaliação Completa - Movielens 20M. MAP. . . . . . . . . . . . . . . . . . 85Tabela 9 – Avaliação Completa - Movielens 20M. NDCG. . . . . . . . . . . . . . . . . 86Tabela 10 – Comparação do RMSE do Item-MSMF nos três conjuntos de dados, usando

três diferentes números de vizinhos. . . . . . . . . . . . . . . . . . . . . . 88Tabela 11 – Comparação do RMSE do ItemAttrP nos três conjuntos de dados, usando

três diferentes números de vizinhos. . . . . . . . . . . . . . . . . . . . . . 89Tabela 12 – Comparação dos modelos relacionados utilizando RMSE. . . . . . . . . . . 89Tabela 13 – Comparação do tempo computacional do cálculo das similaridades em se-

gundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91Tabela 14 – Comparação do tempo computacional dos algoritmos em segundos. . . . . . 92Tabela 15 – Comparação do RMSE nos dois conjunto de dados. . . . . . . . . . . . . . 93

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.1 Contextualização e Motivação . . . . . . . . . . . . . . . . . . . . . . 231.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.3 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2 CONCEITOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 292.1 Sistemas de Recomendação . . . . . . . . . . . . . . . . . . . . . . . . 292.1.1 Filtragem Baseada em Conteúdo . . . . . . . . . . . . . . . . . . . . . 302.1.2 Filtragem Colaborativa . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.1.2.1 Métodos Baseados em Vizinhança . . . . . . . . . . . . . . . . . . . . . . 362.1.2.2 Modelos de Fatoração de Matrizes . . . . . . . . . . . . . . . . . . . . . . 382.1.3 Avaliação de Sistemas de Recomendação . . . . . . . . . . . . . . . . 412.1.3.1 Avaliação da Predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.1.3.2 Avaliação da Recomendação . . . . . . . . . . . . . . . . . . . . . . . . . 432.2 Dados Abertos Conectados . . . . . . . . . . . . . . . . . . . . . . . . 452.2.1 Representação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . 472.2.2 Ontologias e Representação de Conhecimento . . . . . . . . . . . . . 502.2.3 Bases de conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.2.4 Similaridade semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . 512.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 553.1 Trabalhos que incorporam informações semânticas . . . . . . . . . . 553.2 Trabalhos que utilizam Fatoração de Matrizes incorporada com in-

formações sobre itens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4 PROPOSTA DE SOLUÇÃO . . . . . . . . . . . . . . . . . . . . . . 614.1 Cálculo da similaridade semântica . . . . . . . . . . . . . . . . . . . . 624.1.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.1.2 Modelo de espaço vetorial - VSM . . . . . . . . . . . . . . . . . . . . 634.1.3 Co-ocorrência - COO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.1.4 Distância Semântica em Dados Conectados - LDSD . . . . . . . . . 63

4.1.5 Distância Entre Atributos Semânticos Combinada com LDSD - MetaDistância LDSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.2 Sistema de Recomendação Baseado em Fatoração de Matrizes paraPartida Fria de Itens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.2.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.2.1.1 Encontra os Itens Mais Similares . . . . . . . . . . . . . . . . . . . . . . . 684.2.1.2 Criação e Substituição do novo vetor de fatores latentes . . . . . . . . . . 694.2.1.3 Predição de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.2.2 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5 AVALIAÇÃO DO SISTEMA . . . . . . . . . . . . . . . . . . . . . . 735.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745.1.1 Plataforma e Recursos Auxiliares . . . . . . . . . . . . . . . . . . . . . 745.1.2 Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.1.2.1 MovieLens 100k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.1.2.2 Yahoo Music . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.1.2.3 MovieLens 20M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.1.3 Simulando Partida Fria Pura . . . . . . . . . . . . . . . . . . . . . . . 765.1.4 Base de Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.1.4.1 Informações extraídas da LOD . . . . . . . . . . . . . . . . . . . . . . . . 795.2 Métodos Avaliativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 805.3.1 Similaridade Meta Distância LDSD . . . . . . . . . . . . . . . . . . . 805.3.1.1 Avaliação Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 805.3.1.2 Avaliação Completa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 825.3.2 Item-MSMF com Similaridade Semântica entre Items . . . . . . . . 875.3.3 Item-MSMF com Similaridade Baseada em Análise de Sentimento 935.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6 CONCLUSÕES E TRABALHOS FUTUROS . . . . . . . . . . . . . 956.1 Resumo do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 956.2 Contribuições da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . 966.2.1 Conclusões e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . 966.2.2 Trabalhos Submetidos e Publicados . . . . . . . . . . . . . . . . . . . 976.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

23

CAPÍTULO

1INTRODUÇÃO

1.1 Contextualização e Motivação

Atualmente, há uma grande sobrecarga de informações advinda do surgimento da Webque foi intensificada com a chegada da Web 2.0, na qual os usuários, além de serem merosconsumidores de informações, também se tornaram amplos geradores de informações. Comoconsequência da quantidade de informações disponibilizada na Web, o grande desafio está emidentificar e apresentar conteúdo relevante que atenda aos interesses e preferências do usuário.Uma alternativa para solucionar esse problema é o uso das recomendações. Sistemas de reco-mendação são utilizados pois, geralmente, quando um usuário deseja consumir determinado itemdesconhecido, ele solicita opiniões de conhecidos ou mesmo de especialistas sobre determinadoitem (RICCI; ROKACH; SHAPIRA, 2011; AGGARWAL, 2016).

Neste contexto, sistemas de recomendação surgem com o propósito de auxiliar os usuáriosnas suas escolhas. De acordo com Ricci, Rokach e Shapira (2011), sistemas de recomendaçãosão ferramentas e técnicas de software que fornecem sugestões de itens a serem usados pordeterminado usuário. Essas sugestões estão ligadas a processos de tomada de decisão, tais como:que itens comprar, o que ouvir e a qual filme assistir. Como exemplo desses processos de tomadade decisão pode-se citar alguns serviços como Amazon1, Spotify2 e Netflix3.

As vantagens de se utilizar sistemas de recomendação são tanto para o provedor deconteúdo quanto para o usuário final. O provedor de conteúdo poderá ter um aumento de itensvendidos ou acessados, aumento na satisfação do usuário, melhor compreensão de seus interessese maior fidelidade, pois o indivíduo recebe sugestões de seu interesse (RICCI; ROKACH;SHAPIRA, 2011). Dentre as vantagens para o usuário, destaca-se uma maior facilidade naprocura por itens, desse modo, o usuário ganhará tempo na escolha do item e possibilidade de

1 https://www.amazon.com/2 https://www.spotify.com/3 https://www.netflix.com/

24 Capítulo 1. Introdução

descobrir itens novos e interessantes.

Para a criação de sistemas de recomendação várias técnicas podem ser empregadas,dentre as mais utilizadas estão a filtragem colaborativa, a filtragem baseada em conteúdo e ossistemas híbridos.

A primeira depende do comportamento de outros usuários, por exemplo, produtos com-prados e classificações de produtos. Dessa maneira, não exige a criação explícita de perfil deusuário. A filtragem colaborativa analisa as relações entre itens ou usuários para identificar novasassociações entre eles. As duas principais áreas da filtragem colaborativa são os métodos basea-dos em vizinhança e os modelos de fatores latentes. Os métodos de vizinhança são centradosno cálculo das relações entre itens ou entre usuários. A abordagem orientada a itens avalia apreferência de um usuário por um item de acordo com as classificações de itens vizinhos. Osvizinhos de um item são outros itens que tendem a receber classificações similares. Alternati-vamente, tem-se o modelo de fatores latentes, também conhecido como modelo de fatoraçãode matrizes. Esse modelo tenta explicar as classificações que os usuários atribuíram aos itens,caracterizando itens e usuários por meio de suas características subjacentes. Para os filmes, porexemplo, tais fatores podem medir dimensões óbvias como comédia versus drama, quantidadede ação ou se o filme é recomendado para crianças. Alternativamente, também podem medirdimensões não interpretáveis pelos humanos. Para os usuários, os fatores podem medir o quantoo usuário gosta de filmes com pontuação alta por exemplo (KOREN; BELL; VOLINSKY, 2009).Os métodos que utilizam fatoração de matrizes são mais escaláveis e eficientes, uma vez que osmétodos que utilizam inferências de associação têm uma complexidade de tempo muito alta eescalabilidade ruim. O uso da fatoração de matrizes permite a utilização de uma ampla gama dealgoritmos, enquanto os métodos baseados em vizinhança são simples e intuitivos. As técnicas defatoração de matrizes são geralmente mais eficazes porque permitem descobrir as característicassubjacentes às interações entre usuários e itens (BOKDE; GIRASE; MUKHOPADHYAY, 2015).

A filtragem baseada em conteúdo gera recomendações considerando os atributos (me-tadados) dos itens que o usuário acessou anteriormente, esses atributos devem ser similares aoitem que será recomendado. Os sistemas híbridos utilizam duas ou mais abordagens combinadas.Por exemplo, os sistemas híbridos se beneficiam das vantagens de ambas abordagens descritasacima com o objetivo de gerarem recomendações melhores (BOBADILLA et al., 2013).

Alguns problemas são encontrados nas técnicas de recomendação. A filtragem colabora-tiva apresenta o problema de partida fria (do Inglês, cold start), devido à sua incapacidade derecomendar novos produtos e gerar recomendações para novos usuários do sistema. Os novosprodutos são difíceis de serem recomendados por não terem recebidos classificações. Os novosusuários, como não classificaram muitos produtos, não têm um histórico suficiente de classi-ficações (KOREN; BELL; VOLINSKY, 2009). Além da partida fria, a filtragem colaborativatambém apresenta o problema de esparsidade, em que o número de classificações é pequenocomparado ao número de classificações que precisam ser preditas. Ainda há o problema de

1.1. Contextualização e Motivação 25

cobertura limitada, na qual os usuários só estão relacionados se classificaram itens em comum(DESROSIERS; KARYPIS, 2011). Por fim, há o problema de dimensionalidade dos dados,em que a matriz de avaliações tem uma grande dimensionalidade. Dentre esses problemas dafiltragem colaborativa, a cobertura limitada, esparsidade e alta dimensionalidade podem seramenizados com o método de fatoração de matrizes (BOKDE; GIRASE; MUKHOPADHYAY,2015).

A filtragem baseada em conteúdo apresenta dificuldades na aquisição de informaçõessobre os itens e usuários para a construção dos perfis do item e usuário (BOBADILLA et al.,2013), as quais podem ser reduzidas com a utilização de informações advindas das bases deconhecimento. Além disso, apresenta a super especialização, que acontece quando o sistemarecomenda somente itens semelhantes aos avaliados positivamente pelo usuário. Desse modo, ositens que não combinam com o perfil do usuário não serão recomendados (LOPS; GEMMIS;SEMERARO, 2011).

Além dos problemas clássicos mencionados acima, um desafio que abrange a maioria dastécnicas de recomendação existentes é a necessidade de se considerar informações semânticassobre itens e usuários a fim de que a filtragem dos itens possa ser realizada de maneira maissignificativa para os usuários. Estudos na área de sistemas de recomendação têm analisado apossibilidade de utilização de bases de conhecimento provenientes da Web dos Dados como fontede informações, com o objetivo de reduzir a falta de informações semânticas (PASSANT, 2010a;NOIA et al., 2012; JúNIOR; MANZATO, 2015; PIAO; BRESLIN, 2016; PESKA; VOJTAS,2015).

A nuvem LOD (Dados Abertos Conectados, do Inglês, Linked Open Data) disponibilizadiversos conjuntos de dados semânticos gratuitamente na Web em formato compreensível pormáquinas, tais dados estão relacionados a diversos domínios. Os dados abertos conectadosforam adotados em sistemas de recomendação para trazer uma carga semântica com o propósitode melhorar o desempenho de tais sistemas, bem como reduzir o problema de partida fria dafiltragem colaborativa (PIAO; BRESLIN, 2016; MUSTO et al., 2016; PESKA; VOJTAS, 2015).

A utilização de informações semânticas em sistemas de recomendação pode proporcionarum melhor conhecimento dos itens e usuários, permitindo uma representação mais rica de dados,além de facilitar a adoção da mesma abordagem para outros domínios (PIAO; BRESLIN, 2016).O uso de dados abertos conectados para recuperar as informações referentes aos itens facilita asetapas de pré-processamento, que são executadas pela abordagem baseada em conteúdo paraextrair as informações relevantes das descrições dos itens e para representá-las como um vetorde palavras-chave. Essa etapa não é necessária com o uso de dados semânticos, uma vez queas informações já estão estruturadas de maneira ontológica. Além disso, há disponibilidade dedados relacionados a diversos domínios do conhecimento (NOIA et al., 2012). Dessa maneira, ouso de dados semânticos atenua o problema da aquisição de informações sobre o item.

Adicionalmente, a incorporação de tais dados semânticos em abordagens eficientes de

26 Capítulo 1. Introdução

recomendação, como a fatoração de matrizes, é capaz de alavancar a precisão da filtragemde acordo com os interesses do usuário. Nesse sentido, foram encontrados alguns trabalhosque incorporam informações semânticas advindas das bases de conhecimento em modelos defatoração de matrizes (PESKA; VOJTAS, 2015; ROWE, 2014).

Entretanto, ainda há alguns pontos a serem investigados, como computar a similaridadeentre os itens da base de dados explorando as relações entre os recursos, aproveitando a hierarquiadas bases de conhecimento. As relações hierárquicas entre os recursos permitem descobrir o quãolonge uma categoria está de um item, desse modo, a similaridade entre os itens pode ser melhorcomputada por meio dessas relações. Além de investigar maneiras mais precisas de reduzir oproblema de partida fria nos modelos de fatoração de matrizes utilizando os dados das basesde conhecimento. Embora diversos algoritmos abordam o problema de partida fria utilizandometadados dos itens, muitos desses trabalhos utilizam os metadados de maneira incorporada nomodelo de fatoração. Desse modo, o treinamento é realizado sobre as interações dos usuários eos metadados dos itens, que podem ser computacionalmente caros.

1.2 Objetivo

O objetivo principal deste trabalho de pesquisa é investigar como relações semânticascomputadas a partir das bases de conhecimento disponíveis na Web dos Dados, podem beneficiarsistemas de recomendação. Em particular, este trabalho explora duas questões neste contexto: i)como a similaridade de itens pode ser calculada com base em informações semânticas coletadasdas bases de conhecimento para explorar a hierarquia das categorias nessas bases; e ii) comosemelhanças entre os itens podem ser combinadas em uma técnica de fatoração de matrizes, demodo que o problema da partida fria de itens possa ser efetivamente amenizado.

Para isso, são propostos dois sistemas de recomendação, o primeiro é baseado em con-teúdo que propõe uma métrica de similaridade para computar as relações entre itens, utilizandoinformações advindas das bases de conhecimento para explorar a hierarquia das categoriassemânticas. Esse sistema de recomendação é capaz de realizar a construção de representaçõessemânticas de itens, e posteriormente utiliza tais informações para calcular as similaridades entreos itens do acervo. Explora-se especialmente o impacto que diferentes técnicas de cálculo desimilaridades que utilizam informações da nuvem LOD causam em sistemas de recomendação.

O segundo sistema proposto é um sistema de recomendação híbrido, que é um sistemade filtragem colaborativa baseado na fatoração de matrizes, que incorpora similaridades de itensque são calculadas com base em descrições semânticas advindas das bases de conhecimento,com o objetivo de amenizar o problema da partida fria de itens. Dessa maneira, as similaridadessemântica são integradas com o modelo de recomendação baseado em fatoração de matrizes, pormeio de uma representação vetorial de fator latente compartilhado entre os itens semelhantes,com base nos itens que possuem interações suficientes com os usuários, possibilitando gerar

1.3. Estrutura do Trabalho 27

uma recomendação dos itens novos do acervo com melhor precisão.

Neste trabalho, o métodos propostos são aplicados nos domínios de recomendação defilmes e músicas, entretanto, outros domínios podem ser facilmente considerados a partir de umapequena adaptação no sistema.

1.3 Estrutura do TrabalhoEste trabalho está dividido em cinco capítulos. Neste primeiro capítulo são apresentados a

motivação e os objetivos deste trabalho. No Capítulo 2 são apresentados os fundamentos básicossobre sistemas de recomendação e fornece uma visão geral sobre essa área de pesquisa. Nelesão apresentados os principais paradigmas de recomendação e suas diversas abordagens, bemcomo as vantagens e desavantagens de cada paradigma. Além disso, são abordados os métodosavaliativos de sistemas de recomendação. Ainda no Capítulo 2 são apresentados conceitosrelacionados aos dados abertos conectados, os quais são explorados neste trabalho para se obterinformações semântica dos itens. Em seguida, são apresentadas maneiras de representar dadosna Web Semântica, assim como as bases de conhecimento e maneiras de calcular a similaridadesemântica entre os recursos. No Capítulo 3 são apresentados os trabalhos relacionados a esteprojeto. O Capítulo 4 expõe como maiores detalhes os objetivos deste trabalho e apresenta aarquitetura dos sistemas propostos detalhando-se cada um dos módulos presentes. No Capítulo 5descrevem-se todos os experimentos realizados, detalhando-se a metodologia, bases de dados erecursos auxiliares utilizados; além disso, os resultados obtidos em cada um dos experimentossão apresentados e discutidos. Por fim, no Capítulo 6 conclui-se este documento apresentandoas principais contribuições geradas por este trabalho e são apresentados os possíveis trabalhosfuturos.

29

CAPÍTULO

2CONCEITOS RELACIONADOS

Como apresentado no Capítulo 1, o objetivo deste trabalho é especificar sistemas derecomendação que incorporam informações semânticas extraídas das bases de conhecimento daWeb dos dados, de modo a explorar a hierarquia das categorias e amenizar o problema de partidafria de itens. Desse modo, neste capítulo será apresentada uma visão geral sobre sistemas derecomendação, aprofundando nas abordagens da filtragem colaborativa e fatoração de matrizes.Além disso serão apresentadas as formas de avaliação de sistemas de recomendação. Na sequênciaserão apresentados os conceitos gerais sobre os dados abertos conectados, mostrando como osdados são representados na Web Semântica e apresentando suas bases de conhecimento. Tambémserão apresentadas as métricas de similaridade semântica entre os recursos disponibilizados nasbases de conhecimento.

2.1 Sistemas de Recomendação

Sistemas de recomendação podem ser divididos em sistemas não personalizados epersonalizados. Sistemas não personalizados são mais simples, exemplos típicos incluem listados produtos mais vendidos de um determinado site online. Por gerarem recomendações idênticaspara todos os usuários, esses sistemas são chamados de não personalizados. Apesar de serem úteise eficazes em determinadas situações, recomendações não personalizadas não são normalmenteabordadas, uma vez que a grande maioria dos sistemas são personalizados. Nessa abordagem,as recomendações são oferecidas diretamente para um usuário específico com base nas suaspreferências e restrições. Ao realizar essas recomendações, os sistemas tentam prever quais sãoos produtos ou serviços mais adequados (RICCI; ROKACH; SHAPIRA, 2011).

Para que seja possível gerar as recomendações de maneira personalizada é necessárioter um conhecimento sobre o usuário, dado que, para uma correta geração da recomendação,é imprescindível a coleta de informações e definição de seu perfil de interesse. Desse modo,é possível coletar esses dados de modo explícito ou implícito. Na maneira explícita o sistema

30 Capítulo 2. Conceitos Relacionados

demanda que o usuário informe espontaneamente o que lhe é importante, por exemplo, coletaravaliações de produtos ou comentários. Já na modalidade implícita, o sistema armazena asações dos usuários, inferindo informações sobre suas necessidades e preferências, por exemplo,armazenando-se dados de navegação do usuário, como páginas consultadas, produtos visitados eoutros. O modo implícito permite conhecer melhor as preferências dos usuários sem a necessidadedo mesmo fornecer essas informações explicitamente (CAZELLA; NUNES; REATEGUI, 2010).

A maior parte dos sistemas de recomendação se restringe a recomendar um tipo deitem, dentre eles, livros, CDs, filmes e músicas. Dessa maneira, toda sua estrutura, interfacegráfica e técnica de recomendação são definidas de acordo com aquele domínio específico,garantindo assim maior precisão nas recomendações, e aumentando a satisfação do usuário(RICCI; ROKACH; SHAPIRA, 2011).

Atualmente, existem diversos métodos para inferir a preferência de um usuário emrelação a itens desconhecidos. Na Figura 1 está ilustrada a classificação das diferentes técnicasde recomendação (ISINKAYE; FOLAJIMI; OJOKOH, 2015). Tais técnicas são dividas em trêsgrandes grupos, filtragem baseada em conteúdo, filtragem colaborativa e a abordagem híbrida.

Figura 1 – Classificação das técnicas de recomendação.

Fonte: Adaptada de Isinkaye, Folajimi e Ojokoh (2015).

As seções a seguir detalham o estado-da-arte dos paradigmas e descrevem as métricas eetapas de avaliação de sistemas de recomendação.

2.1.1 Filtragem Baseada em Conteúdo

Os sistemas que implementam uma abordagem de recomendação baseada em conteúdoanalisam um conjunto de documentos e descrições de itens previamente classificados por umusuário para a construção de um modelo ou perfil de interesse do usuário, com base nos atributos

2.1. Sistemas de Recomendação 31

(metadados) dos itens classificados por esse usuário. O perfil é uma representação estruturadados interesses do usuário, utilizado para recomendar novos itens interessantes. O processo derecomendação consiste basicamente em combinar os atributos do perfil do usuário com osatributos de um item. Para obter eficácia no processo de recomendação, é necessário que o perfildo usuário reproduza com precisão suas preferências (LOPS; GEMMIS; SEMERARO, 2011).

De acordo com Lops, Gemmis e Semeraro (2011) o processo de recomendação daabordagem baseada em conteúdo é realizado em três etapas ou módulos principais, cada umasendo tratada por um componente separado, sendo eles:

∙ Analisador de conteúdo: quando a informação não está estruturada (por exemplo, texto),é necessário algum tipo de pré-processamento para extrair informações relevantes. Aprincipal responsabilidade deste componente é representar o conteúdo em uma formaadequada para que os módulos de geração de perfis e de filtragem sejam capazes deprocessá-las. Tais informações recuperadas podem ser atributos (metadados) dos itens,como diretores, atores ou gêneros de filmes, dentre outros.

∙ Gerador de perfis: é responsável por realizar a construção do perfil do usuário de acordocom os dados que representem seus interesses. Geralmente esses dados são obtidos a partirde itens previamente avaliados pelo usuário.

∙ Componente de filtragem: esse componente é responsável por explorar o perfil do usuá-rio, para assim, combinar a representação do perfil com a dos itens a serem recomendados.Essa combinação gera uma lista de itens ranqueados pela similaridade que são potencial-mente interessantes. A similaridade pode ser medida pelo ângulo do cosseno quando operfil do usuário e as características dos itens forem representadas por vetores.

A escolha do paradigma baseado em conteúdo tem várias vantagens quando comparadacom a filtragem colaborativa. Dentre as vantagens apresentam-se as principais (LOPS; GEMMIS;SEMERARO, 2011):

∙ Independência de usuários: os recomendadores baseados em conteúdo exploram so-mente as avaliações fornecidas pelo usuário ativo (podendo ser da forma implícita ouexplícita) para criar seu perfil e buscar itens similares. Alternativamente os métodos defiltragem colaborativa necessitam de avaliações de outros usuários, pois dependem dessasavaliações para encontrar os “vizinhos” mais próximos do usuário ativo, ou seja, outrosusuários que têm gostos mais semelhantes. Posteriormente somente os itens que são maisrelevantes para os vizinhos serão recomendados.

∙ Transparência: o sistema pode listar as características que determinaram a recomendaçãode um item, fornecendo, assim, explicações sobre como o sistema recomendador funciona.


Na filtragem colaborativa isso não é possível, pois a única explicação para uma recomen-dação é que usuários desconhecidos com gostos semelhantes têm preferência naqueleitem.

∙ Novo item: para que um item seja recomendado em sistemas baseados em conteúdo,ele necessita somente que suas características sejam similares às do perfil do usuário.Sendo assim, é possível recomendar itens ainda não avaliados por qualquer usuário. Emconsequência disso, recomendadores baseados em conteúdo não sofrem com o problemado novo item, que afeta os recomendadores que utilizam a filtragem colaborativa, nosquais, dependem apenas das avaliações de outros usuários para realizar as recomendaçõesdos itens. Portanto, até que exista uma quantidade significativa de avaliações, o sistemanão poderá recomendá-lo.

No entanto, os sistemas que utilizam a abordagem baseada em conteúdo têm algumaslimitações (ADOMAVICIUS; TUZHILIN, 2005):

∙ Análise de conteúdo limitada: as técnicas baseadas em conteúdo dependem das ca-racterísticas associadas aos itens. Portanto, para se ter uma quantidade significativa decaracterísticas, o conteúdo deve estar em uma forma que pode ser analisada automatica-mente por um computador (por exemplo, texto) ou podem ser atribuídas manualmente.Alguns domínios têm problemas inerentes à extração automática de recursos (por exem-plo, dados multimídia), e, muitas vezes não é uma tarefa fácil atribuir tais característicasmanualmente. Além desse problema, os itens podem ser indistinguíveis se eles possuemas mesmas características. Por exemplo, documentos em texto que são representados porpalavras-chave mais importantes, se dois artigos usarem as mesmas palavras o sistema nãoconsegue distinguir qual artigo está melhor escrito. Esse problema pode ser amenizadoutilizando informações das bases de conhecimento, uma vez que as informações já estãoestruturadas de maneira ontológica; além disso, os dados disponibilizados são relacionadosa diversos domínios (NOIA et al., 2012).

∙ Sobre especialização: acontece quando o sistema está limitado a recomendar somenteitens que casam com o perfil do usuário, isto é, itens que têm alta semelhança com operfil. Consequentemente, o sistema recomendará apenas itens parecidos com os acessadosanteriormente, limitando o sistema a recomendar itens com apenas um certo nível denovidade. Por exemplo, um usuário que assiste somente a filmes de ação, somente receberárecomendações de filmes de ação, e não de romance.

∙ Novo usuário: o sistema baseado em conteúdo precisa de um número suficiente deavaliações de itens para realmente entender as preferências do usuário e apresentar reco-mendações confiáveis. Desta forma, um novo usuário ou um usuário que avaliou poucositens não será capaz de receber recomendações relevantes.


2.1.2 Filtragem Colaborativa

Diferente da abordagem baseada em conteúdo, na filtragem colaborativa a recomendaçãode um item para um determinado usuário é feita com base nas preferências de outros usuáriosque são semelhantes a ele, isto é, usuários que têm preferências similares ao usuário alvo(BOBADILLA et al., 2013). A essência dos sistemas colaborativos está no compartilhamento deexperiências entre as pessoas que possuem interesses em comum. Esses sistemas são os maisfrequentes, uma vez que superam boa parte dos problemas encontrados na abordagem baseadaem conteúdo.

A técnica de filtragem colaborativa não possui informações referentes às descrições dositens (por exemplo, gêneros e atores de filmes), tendo conhecimento somente das avaliações dosusuários atribuídas aos itens, as quais são estruturadas em uma matriz.

Geralmente, a avaliação de um item é definida por uma nota, que reflete o quanto umusuário se interessa por um item. Define-se como ru,i uma nota dada por um usuário u a umitem i. O conjunto de pares (u, i) são as avaliações conhecidas, no qual cada usuário u avaliou oitem i. As notas preditas para um usuário u a um item i são definidas como rui. Dessa maneira,o objetivo da filtragem colaborativa é predizer tal nota. Na Figura 2 apresenta-se um exemplode matriz de avaliações de usuários atribuídas aos itens considerando um modelo de notas de 1a 5, em que as notas dos itens estão representadas em colunas e as dos usuários nas linhas. Asavaliações que precisam ser preditas são representadas pelos espaços em branco na matriz.

Figura 2 – Matriz de avaliações de usuários atribuídas aos itens.

Mais formalmente, a filtragem colaborativa procura estimar a função de utilidade r(u, i)

de um item i para um usuário u com base nas utilidades r(v, i) atribuída para o item i pelosusuários v ∈ U , que são similares ao usuário u. Por exemplo, em recomendações de filmes,para recomendar filmes ao usuário u, o sistema tenta encontrar os “vizinhos” do usuário u, ouseja, usuários que têm preferências semelhantes (classificaram os filmes da mesma forma). Emseguida, somente os filmes que os “vizinhos” gostaram serão recomendados para o usuário u

(ADOMAVICIUS; TUZHILIN, 2005).

Uma vez que os sistemas colaborativos utilizam recomendações de outros usuários (ava-


liações), é possível suportar qualquer tipo de conteúdo, ou seja, não possui a restrição da análiselimitada de conteúdo da filtragem baseada em conteúdo (ADOMAVICIUS; TUZHILIN, 2005).Além dessa vantagem, a filtragem colaborativa possibilita aos usuários receberem recomendaçõesinesperadas de itens que não estavam sendo consumidos de forma ativa. Por exemplo, usuáriosque assistem somente a filmes de ação também podem receber recomendações de filmes deromance. Outra contribuição importante se refere à possibilidade de formação de comunidadesde usuários, identificando-os pelo seus gostos e interesses semelhantes (CAZELLA; NUNES;REATEGUI, 2010).

Os sistemas de recomendação puramente colaborativos não enfrentam a maioria dosproblemas da abordagem baseada em conteúdo. No entanto, os sistemas colaborativos têm suaspróprias limitações:

∙ Partida fria: o problema de partida fria pode ser subdividido em dois, dificuldade pararecomendação de conteúdo para um novo usuário, bem como recomendar novos itens.O problema do novo usuário é o mesmo da abordagem baseada em conteúdo. Coma finalidade de fazer recomendações precisas, o sistema precisa primeiro aprender aspreferências do usuário, a partir das avaliações atribuídas aos itens. Em relação aos novositens, o sistema depende unicamente das avaliações atribuídas aos itens para realizar asrecomendações. Portanto, até que o item tenha uma quantidade substancial de usuárioso sistema não poderá gerar as recomendações. Uma das alternativas para resolver estesproblemas é utilizar abordagens híbridas, que combinam as técnicas baseada em conteúdoe a colaborativa (BOBADILLA et al., 2013).

∙ Esparsidade: a quantidade de avaliações obtidas é geralmente muito pequena em compa-ração com a quantidade de avaliações que precisam ser preditas, pois cada usuário tende aavaliar um número pequeno de itens quando comparado com a quantidade total de itenscadastrados no sistema. Por exemplo, em um sistema de recomendação de filmes, podehaver muitos filmes que tiveram poucas avaliações, os quais, por sua vez, serão raramenterecomendados. Para tratar matrizes de avaliações esparsas uma técnica de redução dedimensionalidade pode ser utilizada, a decomposição de valor singular. Esta técnica é bemconhecida no modelo de fatoração de matrizes (ADOMAVICIUS; TUZHILIN, 2005).

∙ Cobertura limitada: principalmente nos métodos baseados em vizinhança, usuáriossó possuem gostos similares se eles avaliaram o mesmo item. Essa suposição é muitolimitativa, uma vez que os usuários que avaliaram alguns ou nenhum item em comumainda podem ter preferências similares. Além do mais, a cobertura pode ser limitada, umavez que somente itens avaliados pelos vizinhos podem ser recomendados (KOREN; BELL,2011).


Além desses problemas, usuários podem ter gostos que variam do normal. Isso acontecequando usuários têm tendências sistemáticas de atribuírem avaliações mais elevadas do queoutros usuários, ou também usuários que são criteriosos e tendem a avaliarem os itens comnotas baixas. Em relação aos itens, alguns podem receber avaliações mais positivas ou menospositivas do que outros. Dessa maneira, é usual ajustar os dados por conta dessas variações,isso é encapsulado nas estimativas de referência (do Inglês, baseline estimates). A estimativa deuma avaliação de um usuário u para um item i é conhecida como bui, e é calculada da seguintemaneira:

bui = µ +bu +bi, (2.1)

o parâmetro µ representa a avaliação média de todas as avaliações conhecidas, o parâmetro bu

indica o desvio observável do usuário u em relação a média global, e o parâmetro bi indica odesvio observável do item i (KOREN, 2010). Por exemplo, em um sistema de recomendaçãocom avaliações de 1 a 5 estrelas, considere que a média de todas as notas conhecidas (µ) seja3.5 estrelas, além disso, a avaliação de um filme i é melhor do que um filme médio, por issotende a ser avaliado como 0.6 estrelas acima da média (bi). Por outro lado, o usuário u é muitocrítico, que tende a avaliar os filmes assistidos 0.4 estrelas abaixo da média global (bu). Sendoassim, a estimativa de referência (bui) para a avaliação do filme i pelo usuário u seria 3.7 estrelas,calculando 3.5 - 0.4 + 0.6.

Uma das formas para estimar bu e bi é resolvendo o problema dos quadrados mínimos:

minb*

∑(u,i)∈K

(rui−µ−bu−bi)2 +λ1

(∑u

b2u +∑

ib2

i

), (2.2)

onde K representa conjunto de avaliações conhecidas. O primeiro termo, ∑(u,i)∈K(rui−µ−bu−bi)

2, procura encontrar bu e bi que se encaixam as avaliações atribuídas. O termo de regularização,λ1(∑u b2

u +∑i b2i ), evita a sobrecarga, penalizando as magnitudes dos parâmetros. Existe uma

maneira mais simples para estimar bu e bi, na qual o cálculo é realizado separadamente. Primeiroo cálculo é realizado para cada item i do conjunto:

bi =∑u:(u,i)∈K(rui−µ)

λ2 + |{u|(u, i) ∈ K}|, (2.3)

e depois é ajustado para cada usuário u:

bu =∑i:(u,i)∈K(rui−µ−bi)

λ3 + |{i|(u, i) ∈ K}|, (2.4)

os parâmetros λ2 e λ3 são definidos através de experimentação (KOREN, 2010).

O paradigma da filtragem colaborativa apresenta duas abordagens principais, que sãoos métodos baseados em vizinhança e os modelos de fatores latentes. Os métodos baseados emvizinhança são centrados no cálculo dos relacionamentos dos itens ou usuários. A abordagem demodelos de fatores latentes tenta dar sentido às avaliações, caracterizando tanto os itens quanto


os usuários inferindo fatores latentes das avaliações conhecidas (KOREN; BELL; VOLINSKY,2009). As duas subseções a seguir apresentam um maior detalhamento dessas duas abordagens.

2.1.2.1 Métodos Baseados em Vizinhança

Ainda que investigações recentes apresentem que às abordagens baseadas em modelossão superiores as abordagens baseadas em memória, existe um entendimento emergente que a boaprecisão de predição não garante sozinha a satisfação da experiência do usuário. As principaisvantagens de um sistema empregar os métodos baseados em vizinhança são (DESROSIERS;KARYPIS, 2011):

∙ Simplicidade: os métodos baseados em vizinhança são intuitivos e sua implementação ébastante simples. Existem várias formas para implementação, na sua forma mais simplesapenas um parâmetro requer ajustes, o número de vizinhos usados na predição.

∙ Justificabilidade: esses métodos permitem justificar de forma concisa e intuitiva as predi-ções computadas. Por exemplo, na recomendação baseada em itens, é possível apresentara lista de itens vizinhos, bem como suas avaliações. Isso pode auxiliar o usuário a entendermelhor a recomendação gerada, e também pode servir de base para um sistema interativo,no qual os usuários são responsáveis por selecionar seus vizinhos.

∙ Eficiência: a eficiência é um dos pontos mais fortes nessa abordagem. Os sistemas basea-dos em modelos requerem treinamento, os métodos baseados em vizinhos, ao contrário,não requerem essas fases de treinamento, que costumam ser caras e precisam ser realizadasem intervalos frequentes em grandes aplicações comerciais. Embora na fase de recomen-dação os métodos baseados em vizinhança sejam geralmente mais caros, os vizinhos maispróximos podem ser pré-calculados anteriormente em uma fase offline, assim, fornecendoas recomendações de maneira mais rápida. Além disso, requerem pouca memória paraarmazenar os vizinhos mais próximos, tornando essa abordagem escalar para grandesaplicações.

∙ Estabilidade: esses sistemas são poucos afetados pela adição constante de usuários, itense avaliações. Sendo assim, não há necessidade de treinar o sistema frequentemente.

Os sistemas de recomendação baseados em vizinhança automatizam o princípio comumda indicação boca-a-boca, no qual as pessoas confiam nas opiniões de pessoas com gostossemelhantes ou outras fontes confiáveis (por exemplo, opinião de um especialista) para avaliar ovalor de um item de acordo com suas próprias preferências (DESROSIERS; KARYPIS, 2011).

A implementação dos métodos baseados em vizinhança podem ser de duas formasdistintas, baseada em usuário ou baseada em item, dependendo ainda, do tipo de avaliaçãofornecida, podendo usar regressão ou classificação. A escolha entre a implementação de um


método de regressão ou de classificação depende da escala de avaliação do sistema. Se a escalafor contínua, por exemplo, um sistema de avaliação de 5 estrelas, no qual os valores possíveissão de 1 a 5 estrelas, então o método de regressão é mais apropriado. Entretanto, se a escala deavaliação tiver apenas valores discretos, por exemplo, bom ou ruim, ou se os valores não puderemser ordenados de forma óbvia, então é preferível o método de classificação (DESROSIERS;KARYPIS, 2011).

Os métodos baseados em usuário predizem a avaliação rui de um usuário u para umnovo item i utilizando as avaliações atribuídas a i pelos usuários semelhantes com u, chamadosde vizinhos mais próximos. Para cada usuário u = v, há um peso wuv que representa o quãosimilares eles são (DESROSIERS; KARYPIS, 2011). Existem várias abordagens para calcularos pesos de similaridade, na maioria das abordagens, a similaridade pode ser calculada com basenas avaliações dos itens que ambos usuários avaliaram. As duas abordagens mais utilizadas sãomedidas de correlação, como similaridade de cosseno (ADOMAVICIUS; TUZHILIN, 2005) oua correlação de Pearson (DESROSIERS; KARYPIS, 2011).

Denota-se por N(u) os vizinhos mais próximos semelhantes de u. Entretanto, somenteos usuários que avaliaram o item i podem participar do cálculo de predição. Consideram-se osk usuários mais semelhantes a u que avaliaram o item i, esse conjunto é denotado como Ni(u)

(DESROSIERS; KARYPIS, 2011).

Para calcular a predição de uma nota que o usuário u daria para o item i utilizando aregressão, computa-se a média das notas normalizadas h(rvi) multiplicadas pelos pesos wuv

normalizados:

rui = h−1

(∑v∈Ni(u)wuvh(rvi)

∑v∈Ni(u) |wuv|

), (2.5)

sendo que o parâmetro h−1 é responsável por converter a classificação predita na escala original.

A classificação por outro lado faz com que os usuários que são vizinhos de u votem emuma faixa de nota referente ao item i. A votação pode ser obtida como a soma dos pesos desimilaridade dos vizinhos que avaliaram o item i:

vir = ∑v∈Ni(u)

δ (rvi = r)wuv, (2.6)

sendo que o parâmetro δ (rvi = r) é igual a 1 se rvi = r, e 0 caso contrário. Assim que este foicalculado para os valores de avaliação possíveis, a avaliação predita é simplesmente o valor r

para o maior valor de vir (DESROSIERS; KARYPIS, 2011).

Além do método baseado em usuário, tem-se o método baseado em item. As abordagensbaseadas em itens consideram avaliações dos itens que são atribuídas aos itens similares. Oprocesso de recomendação é o mesmo da abordagem baseada em usuário, ou seja, utiliza-seo conjunto dos itens mais similares avaliados pelo usuário, ao invés de utilizar o conjunto dosvizinhos mais próximos. Desse modo, são consideradas as notas que o usuário u atribui paraoutros itens, e não considera notas de outros usuários.


2.1.2.2 Modelos de Fatoração de Matrizes

As abordagens de vizinhança que são baseadas nas similaridades medidas por correlação,como apresentado na subseção 2.1.2.1, apresentam falhas importantes como a cobertura limitadae esparsidade dos dados; tais deficiências foram abordadas na Seção 2.1.2. Quando os dadosde avaliação são esparsos existe um número muito limitado de vizinhos, isso ocorre devidoaos usuários e itens não terem avaliações em comuns. Além disso, pode haver recomendaçõestendenciosas, em consequência dos pesos de similaridade, que podem ser calculados somentecom um pequeno número de avaliações (DESROSIERS; KARYPIS, 2011). Esta subseçãoapresenta os modelos de fatores latentes, uma alternativa aos métodos baseados em vizinhançaque visa tratar tais problemas.

Os modelos de fatores latentes têm objetivo holístico de descobrir as característicaslatentes que explicam as avaliações atribuídas aos itens. Geralmente, os modelos de fatoraçãode matrizes são precisos, têm boa escalabilidade e sugerem uma modelagem direta apenas nasavaliações, evitando a superalimentação. No modelo de fatoração de matrizes são mapeadostanto os usuários como os itens em um espaço latente de dimensionalidade f . Tais espaçoslatentes caracterizam os itens e usuários sobre as avaliações atribuídas pelos usuários aos itens,isso é feito para tentar explicar as avaliações (KOREN; BELL, 2011). Em um cenário de filmepor exemplo, os fatores podem medir dimensões óbvias como terror contra romance e tambémdimensões completamente desconhecidas.

Cada item i está associado a um vetor qi ∈R f e cada usuário u está associado a um vetorpu ∈ R f . Cada componente do vetor do item (qi) representa o grau de relevância do fator noitem i, essa relevância se dá na presença ou ausência de determinado fator para o item i. Paraos componentes do vetor do usuário (pu), cada fator representa o grau de interesse (apreciaçãoou depreciação) que o usuário u tem no fator. Dessa maneira, a predição da avaliação é criada apartir do produto da transposta do vetor do item qi com o vetor do usuário pu. Também é possíveladicionar as estimativas de referência, abordadas na Seção 2.1.2, no cálculo da predição da nota,como segue (KOREN; BELL, 2011):

rui = µ +bu +bi +qTi pu. (2.7)

Os parâmetros devem ser treinados e ajustados para obter uma melhor acurácia napredição. Para ajustar os parâmetros do modelo é minimizado o erro quadrático. O treinamento érealizado tipicamente através de gradiente descendente estocástico:

minp*,q*,b*

∑(u,i)∈K

(rui−µ−bu−bi−qTi pu)

2 +λ (b2u +b2

i + ||qi||2 + ||pu||2) , (2.8)

sendo que λ é o parâmetro de regularização, em geral definido por validação cruzada (KOREN;BELL, 2011).


Existe uma maneira mais simples de calcular o gradiente descendente estocástico que sepopularizou por Simon Funk1. Esse modo se resume em fixar um vetor para atualizar o outro. Porexemplo, fixa o vetor pu e atualiza os valores do vetor qi. Quando um vetor é fixado o problemapode ser otimamente resolvido. O algoritmo passa por todos os pares de usuários e avaliações(u, i) que são conhecidos. Assim, para cada rui é realizada a predição e o erro da predição écalculado. O erro da predição consiste em subtrair a nota predita da nota real (KOREN; BELL,2011):

eui = rui− rui. (2.9)

Em seguida, para cada avaliação conhecida (rui) são modificados os parâmetros por umamagnitude proporcional a γ na direção oposta ao gradiente, como segue (KOREN; BELL, 2011):

bu← bu + γ(eui−λbu), (2.10)

bi← bi + γ(eui−λbi), (2.11)

qi← qi + γ(eui−λqi), (2.12)

pu← pu + γ(eui−λ pu), (2.13)

o parâmetro γ é responsável pela taxa de aprendizado e λ é o parâmetro de regularização.

Em sistemas de recomendação, a quantidade de informações que o sistema tem sobreo usuário influencia diretamente na geração da recomendação. Dessa maneira, nos modelosde fatoração de matrizes, é possível adicionar informações de coleta de dados implícitas, alémdas avaliações explícitas já utilizadas. Isso é especialmente útil para aqueles usuários quenão atribuíram muitas notas aos itens. Além disso, é possível adicionar informações sobre oconteúdo do item (metadados), permitindo reduzir o problema de partida fria. Nesse contexto,será apresentado o algoritmo SVD++, que utiliza dados implícitos, mas possibilita a substituiçãoda matriz de dados implícitos por uma matriz de metadados de maneira simples. Também seráapresentado o algoritmo gSVD++, que combina método da filtragem colaborativa com a filtragembaseada em conteúdo, tentando se beneficiar de ambas fontes de informação.

O algoritmo SVD++ (KOREN; BELL; VOLINSKY, 2009) integra a coleta de dadosexplícita e implícita em um modelo de fatoração que representa as preferências do usuário.Koren, Bell e Volinsky (2009) estenderam o modelo de fatoração da matriz para considerar ainformação implícita. Na verdade, ele usou um vetor de fatores adicionais yi ∈ R f , e também

1 http://sifter.org/ simon/journal/20061211.html


considerou o conjunto M(u) que contém todos os itens para os quais u forneceu uma preferênciaimplícita. Assim, o modelo SVD++ é definido como:

rui = bui +qTi

(pu + |M(u)|−

12 ∑

j∈M(u)y j

). (2.14)

Desta maneira, as preferências de um usuário u são representadas por uma combinaçãodas informações explícita e implícita. O vetor de fatores de usuário pu é aprendido a partir dasclassificações explícitas dadas. Este vetor é complementado pela soma de y j, que representa acoleta de dados implícita. Novamente, os parâmetros são aprendidos minimizando a função deerro quadrático associada através do gradiente descendente estocástico. Dessa maneira, ocorrea modificação no treinamento do vetor qi, o treinamento dos vetores pu,bi e bu não tiveramalterações em relação ao treinamento do modelo de fatoração de matrizes, também é adicionadoo treinamento para y j, como segue:

qi← qi + γ(eui(pu + |M(u)|−12 ∑

j∈M(u)y j)−λqi), (2.15)

∀ j ∈M(u) : y j← y j + γ(eui|M(u)|−12 qi−λy j), (2.16)

onde γ é a taxa de aprendizado e λ é o parâmetro de regularização (KOREN; BELL, 2011).

Combinando um método colaborativo com um método baseado em conteúdo, o algoritmogSVD++ (MANZATO, 2013) explora a coleta de dados implícita, considerando os metadadosdisponíveis associados ao conteúdo do item, além de considerar o espaço de fatores latentesque descrevem o usuário e o item. As informações associadas ao item são uma fonte importantepra construir um perfil de usuário que contém informações da sua preferência. Manzato (2013)estende o modelo SVD++ para incorporar o conhecimento de metadados ao modelo de reco-mendação, dessa maneira, descrições como gêneros de filmes, lista de atores, palavras-chave,entre outras, podem ser consideradas. O algoritmo utiliza um vetor adicional de descrições(metadados) do item xg ∈ R f , considerando o conjunto G(i) que contém as descrições de algumtipo associado ao item i, por exemplo, gêneros de filme. Dessa maneira, teria um conjunto G(i)

armazenando as categorias relacionadas ao item (por exemplo, ação, aventura, comédia). Assim,o modelo gSVD++ é definido como:

rui = bui +

(qi + |G(i)|−α

∑g∈G(i)

xg

)T (pu + |M(u)|−

12 ∑

j∈M(u)y j

). (2.17)

Desse modo, tanto os fatores de usuário quanto os fatores do item são aprimorados comcoleta de dados implícita. O SVD++ proposto por Koren, Bell e Volinsky (2009) considera ovetor y j para representar as informações indiretas do usuário; estendendo este modelo, Manzato(2013) adiciona outro vetor de fatores xg para representar os metadados do item. Para ajustar


a importância de cada gênero g que é representado por um vetor de fatores, o conjunto dedescrições G(i) de cada item é responsável por auxiliar tal ajuste. Para determinar os pesos dosvetores, são observadas as classificações conhecidas durante o treino. Define-se a constante deregularização α como 1 quando existe metadados associados ao item i, e 0, caso contrário. Osparâmetros podem ser aprendidos minimizando a função do erro quadrático associada atravésdo gradiente descendente estocástico. Sendo assim, em relação ao algoritmo SVD++, existemmodificações somente no treinamento dos vetores pu, y j e xg, como segue:

pu← pu + γ(eui(qi + |G(i)|−α∑

g∈G(i)xg)−λ pu), (2.18)

∀g ∈ G(i) : xg← xg + γ(eui|G(i)|−α(pu + |M(u)|−12 ∑

j∈M(u)y j)−λxg), (2.19)

∀ j ∈M(u) : y j← y j + γ(eui|M(u)|−12 (qi + |G(i)|−α

∑g∈G(i)

xg)−λy j), (2.20)

onde γ é a taxa de aprendizado e λ é o parâmetro de regularização (MANZATO, 2013).

Entretanto, tanto a fatoração de matrizes como o SVD++ apresenta problemas, como oproblema da inserção de um novo item ou novo usuário no sistema, conhecido como partida fria.O gSVD++ pode reduzir o problema do novo item devido à inserção de metadados no modelo,porém, tais metadados não consideram informações semânticas e na sua aquisição apresentam oproblema da análise limitada de conteúdo (descrito na Seção 2.1.1). Além disso, caso o conjuntode treinamento for maior que o conjunto de validação e teste, os modelos de fatoração de matrizespodem sofrer o sobreajuste (do Inglês, overfitting) (KOREN; BELL; VOLINSKY, 2009).

2.1.3 Avaliação de Sistemas de Recomendação

A avaliação em sistemas de recomendação tem a finalidade de medir o quão eles sãoeficientes em um conjunto de propriedades. Grande parte dos recomendadores são avaliadose classificados considerando sua capacidade de prever com precisão as escolhas do usuário.Contudo, atualmente somente predições precisas não garantem a qualidade da recomendação.Outras características que podem ser abordadas para a avaliação de um sistema de recomendaçãosão: descobertas de itens, possibilidade de explorar rapidamente o acervo, privacidade do usuário,resposta rápida do sistema, além de outras propriedades de interação com o mecanismo de reco-mendação. Portanto, é importante identificar o conjunto de propriedades que podem influenciarcada aplicação de recomendação (SHANI; GUNAWARDANA, 2011).

De acordo com Shani e Gunawardana (2011) existem três tipos de avaliação para sistemasde recomendação: 1) avaliação offline: geralmente, é mais fácil realizar avaliação utilizandoconjunto de dados pré-coletados e um protocolo que modela o comportamento do usuário paraestimar medidas recomendadas de desempenho, como a exatidão da predição; 2) estudo com


usuários: é uma opção mais cara que a avaliação offline e necessita que um grupo de pessoasrealize um conjunto de tarefas utilizando o sistema de recomendação; e 3) avaliação online:essa abordagem pode ser executada em larga escala em um sistema implantado. Essa avaliaçãoavalia o desempenho dos recomendadores em usuários reais que não sabem sobre a condução doexperimento.

Os sistemas de recomendação requerem medidas de qualidade e métricas de avaliaçãopara saber a qualidade das técnicas, métodos e algoritmos para recomendação. Tais métricasfacilitam a comparação de várias soluções para o mesmo problema. Devido às medidas deavaliação, as recomendações têm sido testadas e melhoradas. Dessa maneira, as medidas dequalidade mais utilizadas são as seguintes: 1) avaliação da predição de notas; 2) avaliação deconjuntos de recomendações; e 3) avaliação de recomendações de um ranking (BOBADILLA et

al., 2013).

As próximas subseções apresentam em detalhes as medidas de qualidade mencionadase suas respectivas métricas. Desta maneira, a Subseção 2.1.3.1 apresenta a avaliação prediçãode notas e a Subseção 2.1.3.2 apresenta as avaliações de um conjunto de recomendações erecomendações de um ranking.

2.1.3.1 Avaliação da Predição

A propriedade mais utilizada em sistemas de recomendação é a precisão da prediçãode uma nota que o usuário daria a itens desconhecidos. A grande maioria dos sistemas derecomendação utiliza um mecanismo de predição. Este mecanismo pode predizer opiniõesdos usuários sobre itens ou a probabilidade de uso. Supõe-se que um sistema que fornecerecomendações mais precisas será preferido pelos usuários (SHANI; GUNAWARDANA, 2011).Dessa maneira, para se medir a precisão da predição é necessário calcular o erro em cadapredição, o erro da predição é o quanto a predição diverge da nota real atribuída pelo usuário.Pode-se utilizar várias métricas de avaliação para treinar iterativamente o modelo, almejando aredução do erro.

Segundo (BOBADILLA et al., 2013), as métricas mais utilizadas são: o MAE (ErroMédio Absoluto, do Inglês, Mean Absolute Error) e o RMSE (Raiz do Erro Quadrático Médio,do Inglês, Root Mean Square Error), apresentadas a seguir:

MAE =1|U | ∑u∈U

(1|Ou| ∑

i∈Ou

|rui− rui|

), (2.21)

RMSE =1|U | ∑u∈U

√1|Ou| ∑

i∈Ou

(rui− rui)2, (2.22)

onde U é o conjunto dos usuários do sistema, Ou é o conjunto de itens preditos que o usuáriou avaliou. À medida que ambas as métricas têm como objetivo verificar o erro de predição,


a magnitude do erro é a principal diferença entre as métricas. Além disso, o RMSE penalizamaiores discrepâncias ao elevar ao quadrado a diferença entre a nota real (rui) e a predita (rui).

2.1.3.2 Avaliação da Recomendação

Em muitos sistemas de recomendação as preferências dos usuários em relação aos itens(por exemplo, avaliações de filmes) não são preditas, por outro lado, os sistemas recomendamitens aos usuários que eles podem usar. Neste caso o interesse está em prever corretamentequais itens o usuário irá usar dentre os itens do acervo, e não o quanto a nota predita foi precisa(SHANI; GUNAWARDANA, 2011). Desse modo, a confiança dos usuários em um sistema derecomendação não depende diretamente da precisão da predição. Um usuário confia em umsistema quando ele concorda com um conjunto reduzido de recomendações feitas (BOBADILLAet al., 2013).

De acordo com Bobadilla et al. (2013), para analisar este cenário, três medidas dequalidades são amplamente utilizadas: 1) precisão, indica a proporção de itens relevantes emrelação aos itens recomendados, ou seja, representa a probabilidade de um item selecionado serrelevante; 2) revocação, indica a proporção entre os itens relevantes que foram recomendadoscom todos os itens relevantes do acervo; e 3) medida F1, é uma média harmônica entre precisão erevocação, que visa equilibrar a precisão e revocação, pois um sistema pode recomendar muitositens e desse modo ter uma revocação alta, mas uma precisão baixa. Alternativamente, poderecomendar poucos itens e assim ter uma precisão alta, mas a revocação será baixa. As equaçõesdas medidas de qualidade são apresentadas a seguir:

Precisao =|RR∩R|

R, (2.23)

Revocaçao =|RR∩R|

RR, (2.24)

F1 =2×Precisao×Revocaçao

Precisao+Revocaçao, (2.25)

onde RR representa o conjunto de itens disponíveis relevantes para o usuário, e R representa oconjunto de itens recomendados.

Por outro lado, em muitos casos, o sistema de recomendação apresenta uma lista derecomendações ordenada de acordo com a previsão do sistema sobre o gosto do usuário (porexemplo, filmes mais relevantes). Tais listas de recomendações podem ser extensas, fazendo ousuário navegar por várias páginas até que a lista seja percorrida inteiramente. Nesses sistemas,o interesse não está em predizer uma nota ou selecionar um conjunto de itens, como avaliadopela precisão, revocação e medida F1. Essa abordagem visa ordenar os itens de acordo com aspreferências do usuário (SHANI; GUNAWARDANA, 2011).


Geralmente os usuários dão mais importância para os primeiros itens da lista de reco-mendações, os itens não relevantes que ocupam as posições no início da lista são consideradoscomo erros mais graves que aqueles que estão no final da lista. Uma medida de classificação queestá entre as mais utilizadas é o DCG (Ganho Acumulado Descontado, do Inglês, Discounted

Cumulative Gain), essa métrica assume uma decomposição logarítmica no interesse dos usuáriosa medida que se afastam do topo da lista de recomendações, apresentada a seguir (BOBADILLAet al., 2013):

DCGk =1|U | ∑u∈U

(ru,p1 +

k

∑i=2

ru,pi

log2(i)

), (2.26)

onde de p1 a pk representa os itens da lista de recomendações, ru,pi representa a avaliação realdo usuário u para o item pi, k é a quantidade de itens da lista.

Em seguida, o NDCG (Ganho Acumulado Descontado Normalizado, do Inglês, Nor-

malized Discounted Cumulative Gain) é definido como a relação entre o Ganho AcumuladoDescontado e seu valor ideal, que também é referido como IDCG (Ganho Acumulado Descon-tado Ideal, do Inglês, Ideal Discounted Cumulative Gain), dessa maneira, o NDCG é definidocomo segue:

NDCG =DCGIDCG

, (2.27)

o IDCG é calculado repetindo o cálculo para o DCG, exceto que as avaliações reais dos usuáriossão usadas no cálculo (AGGARWAL, 2016).

Outra métrica para avaliar uma lista ranqueada é a MAP (Média de Precisão, do Inglês,Mean Average Precision). Essa medida fornece uma única medida de qualidade em todos osníveis de revocação. Para cada lista de recomendações, a precisão é calculada para cada itemrelevante encontrado na lista, considerando o item encontrado e os anteriores. Dessa maneira,calcula-se a Média de Precisão após percorrer os k primeiros itens da lista, a Média de Precisão écomputada a partir da média aritmética dos valores de precisão obtidos. Finalmente, é calculadaa MAP, na qual é a média aritmética das Médias de Precisão de cada lista de recomendação(MANNING; RAGHAVAN; SCHüTZE, 2008):

MAP(Q) =1|Q|

|Q|

∑j=1

1m j

m j

∑k=1

precisão(R jk) (2.28)

onde q j ∈ Q é a lista de recomendações j, m representa os itens relevantes da lista de recomen-dações j, e R jk é cada item relevante do conjunto de itens relevantes da lista de recomendaçõesj.

2.2. Dados Abertos Conectados 45

2.2 Dados Abertos Conectados

A Web pode ser considerada uma enorme comunidade, na qual qualquer usuário podecontribuir com seus conhecimentos, sendo disponibilizados para outros usuários. Dessa maneira,a Web resulta em um surpreendente e diversificado acervo de informações. Tais informaçõessurgem de diversas fontes de dados e sobre qualquer domínio. Conforme aumenta o interesseda comunidade sobre determinado assunto, as informações crescem simultaneamente. Emconsequência desse grande acervo, é necessária a disponibilização de ferramentas de busca paraencontrar informações sobre os assuntos de interesse, uma vez que muitas informações não sãobem estruturadas e aprofundadas (ALLEMANG; HENDLER, 2011).

O compartilhamento de informações na Web se dá por meio de documentos, os quais sãoligados através de hipertexto, permitindo que os usuários percorram esse espaço de informaçõesusando navegadores da Web. Apesar dos benefícios que a Web oferece, os princípios que fizerama Web de documentos evoluir não foram aplicados aos dados. Tais dados foram disponibilizadosna Web em formatos como CSV (do Inglês, Comma Separated Values), XML (do Inglês,eXtensible Markup Language), PDF (do Inglês, Portable Document Format) ou HTML (doInglês, HyperText Markup Language), assim, deixando de lado as informações semânticas(BIZER; HEATH; BERNERS-LEE, 2009). Esses tipos de dados são formatados apenas parao consumo humano, e geralmente requerem um utilitário especializado para realizar a leitura.Dessa maneira, não é fácil processar os dados de maneira automatizada, realizar pesquisas ereutilizá-los (WOOD et al., 2014).

A Web passou por um processo de evolução, em que evoluiu de um espaço de informaçõesde documentos ligados para um espaço onde documentos e dados estão conectados. Tal evoluçãoreúne um conjunto de práticas para publicar e conectar dados estruturados na Web usando padrõesinternacionais recomendados pela W3C2 (do Inglês, World Wide Web Consortium), conhecidoscomo dados conectados (do Inglês, Linked Data) (BIZER; HEATH; BERNERS-LEE, 2009).Tais práticas são fundamentadas em tecnologias como HTTP (do Inglês, Hypertext Transfer

Protocol) e URI (do Inglês, Uniform Resource Identifier) visando a leitura desses dados demaneira automática por máquinas. Na Web de documentos, os hipertextos são utilizados paranavegar entre as páginas, no entanto, na Web dos dados essas ligações são utilizadas para acessaros dados de diversas fontes (ISOTANI; BITTENCOURT, 2015).

A descrição Web dos dados pode ser melhor representada como a Web de coisas nomundo. Para que esses dados possam fazer parte de um único espaço de dados global, TimBerners-Lee3 esboçou um conjunto de regras para publicar dados conectados (BIZER; HEATH;BERNERS-LEE, 2009):

1. Usar URIs para nomear as coisas;

2 https://www.w3.org/3 https://www.w3.org/DesignIssues/LinkedData.html


2. Usar HTTP URIs para que usuários possam encontrar nomes;

3. Fornecer informações úteis, usando os padrões (RDF e SPARQL, serão apresentados naspróximas subseções);

4. Incluir links para outros URIs, possibilitando assim descobrir mais coisas.

Essas regras tornaram-se conhecidas como os princípios de dados conectados, dessamaneira, fornecem uma receita básica para publicar e conectar dados na Web.

Existem algumas vantagens quando se utiliza dados conectados, destaca-se a combinaçãode dados, na qual diversas fontes de dados podem ser combinadas facilmente para formar novosconhecimentos. Outra característica vantajosa é a auto-documentação, que permite descobrir osignificado de um termo instantaneamente na Web, tornando os dados conectados uma ótimatécnica para compartilhamento de dados (WOOD et al., 2014).

É importante destacar que dados conectados não podem ser considerados dados abertosconectados (do Inglês, Linked Open Data), dado que, uma empresa pode conectar dados enão deixá-los abertos. No entanto, muitas iniciativas estão voltadas para dados conectados deforma aberta, isso fica bem claro ao observar os princípios propostos por Tim Berners-Lee. Osprincípios propostos são pontuados em um sistema de cinco estrelas, apresentado na Figura 3, demaneira que, quanto mais aberto, maior a quantidade de estrelas para o dado. Dessa maneira,terá mais facilidade para ser conectado (ISOTANI; BITTENCOURT, 2015). A pontuação decinco estrelas para dados conectados são (WOOD et al., 2014):

1. Os dados estão disponíveis na Web em qualquer formato (por exemplo, arquivo PDF);

2. Os dados disponíveis na Web estão estruturados de maneira que estão legíveis por máquina(por exemplo, planilha do Excel);

3. Estes dados estruturados estão disponíveis em formato não proprietário (por exemplo, nolugar do Excel utilizar o formato CSV);

4. Os dados são publicados utilizando as regras anteriores, além de utilizar os padrões dedados abertos do World Wide Web Consortium (RDF e SPARQL);

5. Todas as regras anteriores se aplicam, além de ligações (do Inglês, links) para outros dados.

O exemplo mais visível de adoção e aplicação dos princípios de dados abertos conectadosé o The Linked Open Data (LOD) Project, um projeto iniciado pelo Grupo de Interesse4 do W3Cda comunidade de Web Semântica, iniciado em 2007. O objetivo do projeto é disponibilizardados gratuitos para todos. Esta coleção de dados conectados publicados na Web é conhecida4 W3C Semantic Web Education and Outreach (SWEO) Interest Group


Figura 3 – Caneca das 5 estrelas de dados conectados.

Fonte: Isotani e Bittencourt (2015).

como a nuvem LOD. A Figura 4 apresenta a visualização da nuvem gerada pelo LOD Project. Oscírculos representam os conjuntos de dados disponíveis e as setas as ligações entre os conjuntos.Observa-se que o nó central na nuvem LOD equivale à DBPedia5, esse conjunto de dados foiextraído da Wikipédia6 e disponibilizado em formato RDF para todos se conectarem. (ISOTANI;BITTENCOURT, 2015)(WOOD et al., 2014). Outra base que se destaca é a Wikidata7, que nãoestá inclusa na visualização pois sua criação se deu em 2012. Esse projeto fornece uma base dedados editada colaborativamente por qualquer pessoa (VRANDEcIc; KRöTZSCH, 2014).

2.2.1 Representação dos dados

Dados conectados seguem os princípios da Web, em que os elementos de dados sãonomeados utilizando HTTP URIs, que podem ser usados para encontrar mais informações. Éimportante frisar que dados conectados devem conter ligações para outros dados. Os dadosconectados usam como modelo de dados a linguagem RDF (do Inglês, Resource Description

Framework), que foi projetado para descrever recursos na Web, no entando, é preciso identificartais recursos de maneira única, dessa maneira, cada recurso tem um identificador único e global(URI). Um URI (do Inglês, Uniform Resource Identifier) pode ser classificado como URL (doInglês, Uniform Resource Location) e URN (do Inglês, Uniform Resource Name). O URL defineo localizador para um determinado recurso a partir de um protocolo e, o URN representa um nome

5 http://wiki.dbpedia.org/6 https://www.wikipedia.org/7 https://www.wikidata.org


Figura 4 – Nuvem LOD visualizada em 2011.

Fonte: Wood et al. (2014).

para um determinado recurso, garantindo unicidade e persistência de forma global. Além disso,destaca-se também o IRI (do Inglês, International Resource Identifier), que é uma generalizaçãodo URI. O URI é baseado nos caracteres ASCII, já o IRI amplia o número desses caracteres,permitindo caracteres chineses e japoneses, dentre outros (ISOTANI; BITTENCOURT, 2015).

O modelo RDF é representado por uma tripla que descreve duas coisas e uma relaçãoentre elas. A tripla é composta por entidade, atributo e valor, no entanto, também pode serchamada por sujeito, predicado e objeto, os quais se correlacionam diretamente. Um sujeito poderepresentar qualquer coisa que pode ser nomeada por um URI (por exemplo, carro, livro e filme),o URI identifica este sujeito de maneira única. O predicado relaciona o sujeito com o objetoou fornece informações sobre o sujeito, desse modo, o predicado pode ser uma propriedade


do sujeito. Por fim, o objeto representa a informação que está sendo associada pelo predicadoao sujeito (WOOD et al., 2014). Conforme apresentada na Figura 5, essa estrutura pode serrepresentada por um grafo, no qual os sujeitos e objetos são os vértices e os predicados são asarestas. Os grafos RDF normalmente contêm várias triplas que irão compor um documento RDF.

Figura 5 – Grafo descrevendo um conjunto de triplas.

Fonte: Isotani e Bittencourt (2015).

O RDF fornece meios que possibilitam a modelagem das informações, porém isso nãoé suficiente para incorporar a semântica necessária aos recursos. O esquema RDF (do Inglês,RDF Schema) é uma extensão do RDF conhecida como RDF-S, que é um vocabulário paramodelagem de dados que amplia a expressividade do RDF para fornecer mecanismo de descriçãode taxonomias entre recursos e suas propriedades. Dessa maneira, O RDF-S permite a definiçãode classes, possibilitando relações hierárquicas e hereditárias entre os recursos, além de fornecerconfigurações de restrições de existências e relacionamentos, definição de intervalos de valores eespecificação de tipos de dados (ISOTANI; BITTENCOURT, 2015).

Para permitir a troca de informações entre aplicações é necessário serializar os dados,realizando a conversão de uma forma abstrata (grafo) para uma concreta (documento) (HEBELERet al., 2009). A serialização pode ser realizada em diversos formatos, como RDFa, RDF/XML,JSON-LD, N-Triples, Turtle, TriG e N-Quads. O RDFa é utilizado para embutir código RDFem estruturas HTML e XML. O RDF/XML tem todos os seus elementos dentro do XML. Jáo JSON-LD é utilizado para transformar código JSON para RDF com o mínimo de esforçopossível. Parte da família de formatos Turtle, o N-Triples é o formato de serialização maissimples e intuitivo existente, o Turtle foi criado para apliar as possibilidades de descrição de umdocumento N-Triples. Além disso, o TriG herda a mesma simplicidade e facilidade do Turtle efoi criado para representar múltiplos grafos. Finalmente o N-Quads é utilizado para o intercâmbiode catálogo de dados, sendo uma extensão do N-Triples (ISOTANI; BITTENCOURT, 2015).


2.2.2 Ontologias e Representação de Conhecimento

Com o objetivo de amenizar o problema de interpretação das representações dos dados, épreciso utilizar mecanismos e linguagens de representação/modelagem, como UML (do Inglês,Unified Modeling Language) e o OWL (do Inglês, Web Ontology Language), que tem o propósitode explicar as relações entre os conceitos de maneira formal. Dessa maneira, tanto máquinaquanto pessoas compreendem os conceitos que representam os dados disponíveis. Uma dasformas de representação mais robusta é utilizando ontologia e OWL (ISOTANI; BITTENCOURT,2015).

Na área da Ciência da Computação, pode-se definir ontologia como uma especificaçãoexplícita de uma conceitualização. A conceitualização diz respeito ao significado de conceitos esuas relações em determinado contexto do domínio. E a especificação define uma representaçãoformal, declarativa e explícita dos mesmos conceitos e relações. O uso de ontologias na área dedados abertos conectados se deve principalmente por dois motivos: i) fornecem uma estruturaconceitual comum sobre a qual podem ser desenvolvidas bases de conhecimento compartilhá-veis e reutilizáveis e, ii) facilitam a interoperabilidade e a fusão das informações (ISOTANI;BITTENCOURT, 2015).

Para ser compreendida por pessoas e máquinas as ontologias são representadas de duasmaneiras, a representação gráfica e a formal respectivamente. A representação gráfica pode serrepresentada de diversas maneiras, pois, é composta de conceitos e suas relações. Algumas formascomuns pra representar ontologias são grafos, UML, estrutura em árvore, dentre outras. Por outrolado, existem algumas linguagens para representação formal de ontologias, as linguagens maisutilizadas são RDF, RDF-S e OWL. A linguagem RDF possui algumas limitações, principalmentepara apoiar o raciocínio lógico computacional dos dados disponíveis na Web. Sendo assim, alinguagem OWL foi desenvolvida e aprovada pelo W3C (ISOTANI; BITTENCOURT, 2015).A OWL estende o vocabulário do RDF-S com recursos adicionais que possibilitam à criaçãode ontologias mais complexas para a Web (HEBELER et al., 2009). São incluídas restriçõesem relação a estrutura e conteúdo de documentos RDF, possibilitando computadores realizareminferências precisas, sem que todas as ligações sejam descritas. Sendo assim, a OWL é capaz deresolver problemas de inferências como: equivalência e consistência de classes, classificação deelementos, dentre outros.

2.2.3 Bases de conhecimento

As bases de conhecimento são aplicações da Web Semântica responsáveis por armazenare recuperar informações descritas no formato RDF, além disso realizam interpretações semânticasdeterminadas por OWL. A possibilidade de ligação com outras ontologias é uma das grandesvantagens da estruturação ontológica das bases de conhecimento. As boas práticas de estruturaçãoe publicação de conteúdo dos dados conectados permitem que as bases de conhecimento sejamconectadas com facilidade. O maior exemplo de dados conectados é a nuvem LOD, abordada na


Seção 2.2 (ISOTANI; BITTENCOURT, 2015).

Para realizar consultas nas bases de conhecimento, é utilizada a linguagem SPARQL(do Inglês, Protocol and RDF Query Language), que é um acrônimo recursivo para ProtocoloSPARQL e linguagen de consulta RDF. SPARQL reconhece a sintaxe utilizada nos documentosRDF e fornece suporte a recursos disponíveis em linguagens baseadas em RDF, como a OWL(HEBELER et al., 2009). Essa linguagem é recomendada pelo W3C8, além disso, é a linguagemmais utilizada nos endpoints disponíveis. O endpoint é um serviço que aceita e processa consultasSPARQL, e dependendo do formato da consulta, pode retornar o resultado em diversos formatos.

2.2.4 Similaridade semântica

Embora a característica mais importante da nuvem LOD seja fornecer dados brutos,outro cenário importante é o das medidas de similaridade semântica entre os recursos paracalcular a relação entre eles. Tais medidas são utilizadas em diversas aplicações, como detecçãode comunidades em redes sociais, sugestões de páginas Web e na recomendação de recursos(itens). Pode-se dizer o quão semelhantes são dois recursos por meio de medidas de similaridadesemântica, a qual se baseia na semelhança do seu conteúdo semântico. Assume-se que doisitens compartilham informações (por exemplo no domínio de filmes, gêneros, atores e diretores),logo eles estão relacionados uns com os outros. (PASSANT, 2010b; NOIA et al., 2012; PIAO;BRESLIN, 2016). Existem várias medidas de similaridade semântica, serão apresentadas medidasde distâncias semânticas entre os recursos e a métrica que utiliza o modelo de espaço vetorialpra computar a similaridade.

Para calcular a similaridade semântica Passant (2010b) define um conjunto de medidasde distâncias semânticas, denominada LDSD (Distância Semântica em Dados Conectados, doInglês, Linked Data Semantic Distance). A LDSD depende das ligações entre os recursos paracalcular a distância entre eles, mas possui variações dependendo do tipo da ligação, podendo serdireta ou indireta. Também podem ser atribuídos pesos diferentes das ligações dependendo dafrequência com que ocorrem no conjunto de dados. A distância calculada varia entre 0 e 1, sendoque os recursos mais semelhantes se aproximam de 0. São definidas funções que contabilizamos diferentes tipos de ligações li entre dois recursos. Para contabilizar uma ligação direta edistinta utiliza-se Cd(li,ra,rb), onde ra e rb são recursos, se houver uma ligação direta entre elesatravés de li contabiliza como 1, caso contrário como 0. Para contabilizar as ligações indiretasutilizam-se duas outras funções Cio e Cii, a primeira calcula ligação indireta de saída, e a segundaligação indireta de entrada. Cio será igual a 1 se ambos ra e rb possuem ligações li direcionadaspara outro recurso rn, caso contrário será 0. E Cii será igual a 1 se houver um recurso rn quepossui ligações li direcionadas aos recursos ra e rb.

Com o propósito de dar menos impacto para as ligações mais populares, Passant (2010b)também define uma versão ponderada das medidas em que o número de vezes que cada liga-8 https://www.w3.org/2009/sparql/wiki


ção aparece influencia o peso, dessa maneira, essa versão atribui mais peso às ligações menospopulares, considerando que dois recursos são mais semelhantes se compartilham uma caracte-rística particular. Por fim, Passant (2010b) define a LDSD ponderada, combinando o cálculo dasrelações diretas e indiretas:

LDSD(ra,rb) =

1

1+∑iCd(li,ra,rb)

1+log(Cd(li,ra,n))+∑i

Cd(li,rb,ra)1+log(Cd(li,rb,n))

+∑iCii(li,ra,rb)

1+log(Cii(li,ra,n))+∑i

Cio(li,ra,rb)1+log(Cio(li,ra,n))

.(2.29)

Outras medidas de similaridades semânticas também exploram a estrutura hierárquicada base de conhecimento. Métricas implementadas em cima da ontologia do WordNet9 podemser utilizadas para computar as distâncias entre os recursos (nós) de um grafo RDF. Métricasque apresentaram resultados mais comportados e dentro de uma faixa de valores de 0 a 1 foramselecionadas.

A métrica PATH considera a similaridade entre dois nós ao considerar os nós que estãono menor caminho possível entre os dois na hierarquia. A distância entre os dois nós denota asimilaridade entre eles, que é calculada da seguinte maneira:

PAT H(nó1,nó2) =1

menorCaminho(nó1,nó2). (2.30)

A métrica proposta por Wu e Palmer (1994) mais conhecida como Wu-Palmer, consideraa profundidade dos nós e de seu primeiro ancestral em comum LCS (do Inglês, Least Common

Subsumer) na hierarquia, é computada como segue:

Wu−Palmer(nó1,nó2) =2* pro f undidade(LCS(nó1,nó2))

pro f undidade(nó1)+ pro f undidade(nó2). (2.31)

Lin (1998) propõem uma métrica que utiliza o conceito de conteúdo da informação IC(do Inglês, Information Content) de dois nós e seu LCS. O IC é calculado como uma medida deespecificidade de um nó e é diretamente relacionado com sua frequência. A métrica é computadado seguinte modo:

Lin(nó1,nó2) =2* IC(LCS(nó1,nó2))

IC(nó1)+ IC(nó2). (2.32)

Com o objetivo de computar as semelhanças entre os recursos, Noia et al. (2012) adapta-ram para uma configuração baseada em LOD um dos modelos mais populares da recuperaçãode informações, o modelo de espaço vetorial (VSM, do Inglês, Vector Space Model). No VSM,9 https://wordnet.princeton.edu/


pesos não binários são atribuídos a termos de índice em consultas e em documentos e sãoutilizados para calcular o grau de similaridade entre cada documento na coleção e na consulta.Os autores adaptaram esse modelo para lidar com grafos RDF. O modelo proposto representa ografo em uma matriz tridimensional em que cada fatia se refere a uma propriedade da ontologiae representa sua adjacência. Dada uma propriedade, cada item é visto como um vetor, cujoscomponentes referem-se ao termo TF-IDF (Frequência do termo–inverso da frequência nosdocumentos, do Inglês, Term frequency–inverse document frequency). Para cada propriedade,o grau de similaridade é a correlação entre os dois vetores dos itens, medido pelo ângulo docosseno. A matriz tridimensional pode ser decomposta em matrizes menores (Figura 6), em quecada matriz refere-se a uma propriedade RDF específica. As linhas de cada matriz representam odomínio (sujeito) da propriedade, e as colunas representam o intervalo (objeto).

Figura 6 – Representação do grafo RDF em matrizes.

Fonte: Noia et al. (2012).

Com relação a uma propriedade p, um filme m é representado por um vetor de pesos w

contendo todos os termos (objetos) relacionados a m através de p. Os termos são representadospor n, e t é o número total de termos para uma propriedade. Sendo assim, o grau de similaridadeentre dois itens mi e m j é computado (NOIA et al., 2012):

simp(mi,m j) =∑

tn=1 wn,i,p ·wn, j,p√

∑tn=1 w2

n,i,p ·√

∑tn=1 w2

n,i,p

. (2.33)

Em sistemas de recomendação, o cálculo da similaridade semântica entre recursos émuito útil pois, dado um item de referência, buscam-se itens similares no acervo para recomendarao usuário, ou seja, quanto mais semelhante é o item, mais relevante será a recomendação. Alémdisso, todos os itens da base de conhecimento possuem informações valiosas que podem serutilizadas para construir interfaces de usuário relacionadas. Por exemplo, no cenário de filmes, épossível extrair atores, gêneros, diretores, ano de produção, dentre outras características. Outracaracterística são os vários idiomas que as informações estão disponíveis (PASSANT, 2010b;NOIA et al., 2012).


2.3 Considerações FinaisOs algoritmos da filtragem colaborativa são os mais utilizados em sistemas de reco-

mendação. Tais algoritmos enfrentam alguns problemas como grandes conjuntos de dados ematrizes esparsas. O modelo de fatoração de matrizes é capaz de lidar com esses problemas, alémde descobrir as características latentes subjacentes às interações entre usuários e itens. Dessamaneira, os modelos de fatoração de matrizes são geralmente mais eficazes que os modelosbaseados em vizinhança, além de oferecerem flexibilidade para modelar várias aplicações davida real. Entretanto, essa abordagem apresenta o problema conhecido como partida fria, o qualpode ser atenuado com o uso de metadados sintáticos, porém o uso de tais metadados apresentao problema da análise limitada de conteúdo.

Uma tendência nesta área é a utilização de informações semânticas, advindas das basesde conhecimento para enriquecer tanto os perfis de usuário quanto as descrições dos itensdo acervo. Dessa maneira, pode-se reduzir o problema da análise limitada de conteúdo. Talproblema pode ser reduzido com a utilização de informações semânticas, uma vez que as basesde conhecimento contém informações referentes a diversos domínios. Sendo assim, as bases deconhecimento podem ser utilizadas para suprir a falta de informações e, auxiliar na criação derelacionamentos entre as propriedades dos itens, desse modo, pode-se utilizar as medidas desimilaridade semântica para obter as semelhanças entre os recursos.

Esta proposta visa apresentar uma métrica de similaridade que explora tais informaçõessemânticas das bases de conhecimentos, além de fornecer um modelo de fatoração de matrizesque utilizará informações semânticas para incorporar o modelo de recomendação, tais informa-ções semânticas irão auxiliar na redução de problemas como a partida fria. No próximo capítuloserão apresentados os trabalhos relacionados sobre sistemas de recomendação que utilizaminformações semânticas.

55

CAPÍTULO

3TRABALHOS RELACIONADOS

Nesta seção são apresentados trabalhos que se relacionam com sistemas de recomendaçãoque utilizam informações semânticas advindas dos dados abertos conectados e trabalhos baseadosem fatoração de matrizes que utilizam de alguma maneira metadados em seus modelos.

Trabalhos recentes incorporam as bases de conhecimento nos cálculos de recomendação,dessa maneira, sistemas de recomendação exploram tais bases calculando o grau de similaridadeentre os itens que estão ligados a recursos da ontologia (PASSANT, 2010a; JúNIOR; MANZATO,2015; PIAO; BRESLIN, 2016). Além disso, podem utilizar as bases de conhecimento para extrairinformações semânticas dos itens (metadados semânticos) para serem utilizadas no cálculo derecomendação (NOIA et al., 2012; OSTUNI et al., 2013).

Ainda, a fim de minimizar o problema da partida fria, vários estudos incorporam in-formações auxiliares sobre o conteúdo dos itens em modelos de fatoração de matrizes. Taisinformações geralmente são utilizadas como descrições que são incorporadas e fatoradas nomesmo modelo de predição (FORBES; ZHU, 2011; MANZATO, 2013; PESKA; VOJTAS, 2015;ROWE, 2014); ou similaridades de itens são incorporadas na fatoração (KOREN, 2008; LIANGet al., 2016).

3.1 Trabalhos que incorporam informações semânticas

Passant (2010a) apresenta um sistema de recomendação de músicas baseado em dadosconectados (dbrec), utilizando em particular a DBpedia. Um dos componentes centrais dodbrec é seu recurso de explicação da recomendação, tal recurso é um efeito da utilização dedados conectados para calcular as recomendações. O sistema proposto recomenda músicas deartistas e bandas semelhantes às preferências dos usuários, utilizando uma abordagem baseadaem conteúdo e uma ontologia para a descrição dos artistas e bandas. Os artistas e bandasrelacionados no sistema são definidos por entidades descritas no DBpedia por meio de um URI.

56 Capítulo 3. Trabalhos Relacionados

Para construção do sistema foram seguido quatro passos: (i) identificar o subconjunto relevantena base; (ii) reduzir o conjunto de dados para otimizar a consulta; (iii) calcular as distânciassemânticas e representá-las utilizando sua ontologia e (iv) construir a interface de usuário paraapresentar as recomendações. Dessa maneira, para retornar a lista de recomendação ao usuário,é calculada a similaridade entre os artistas ou bandas de preferências com os demais artistas ebandas do acervo, explorando-se as propriedades de relacionamentos. A similaridade semânticado sistema proposto é calculada com base na distância semântica LDSD (descrita na Seção2.2.4). Por fim, o sistema apresenta uma lista ranqueada com as músicas dos artistas e bandasmais semelhantes às preferências do usuário alvo.

Observando as limitações da LDSD proposta por Passant (2010b), alguns trabalhos re-centes propõem extensões à métrica e incorporam em sistemas de recomendação. Utilizando umaextensão da distância semântica, Júnior e Manzato (2015) propõem um sistema de recomendaçãoque utiliza metadados semânticos para a representação dos itens do acervo, utilizando algoritmosda filtragem colaborativa baseados no modelo de vizinhança para recomendar itens aos usuários.Basicamente, é utilizada ontologia de uma ou mais bases de conhecimento para construir arepresentação dos itens com maior carga semântica. O trabalho é voltado para a recomendaçãode filmes, mas se adapta a qualquer domínio, necessitando apenas de uma base de conhecimentoadequada. Para a construção do sistema são necessárias algumas tarefas, primeiramente sãoextraídas das bases de conhecimento as categorias semânticas dos filmes. Com as categoriassemânticas extraídas são calculadas as distâncias semânticas por meio da extensão da LDSD,a qual permite que as funções indiretas possam levar em consideração caminhos maiores queapenas entre pais e filhos no grafo. É proposta a contagem de quantos relacionamentos indiretosexistem entre dois recursos para calcular a distância semântica entre eles. Essa extensão permiteque cada ancestral comum entre os dois recursos possam ser contabilizados como ligações indi-retas, contudo, dependendo do nível em que se encontram na hierarquia terão pesos diferentes.Após o cálculo das distâncias, calcula-se a similaridade semântica, em que é gerada uma matrizde similaridades item por item e são calculadas as similaridades entre todos os itens do acervo.O cálculo é realizado com base nas distâncias semânticas previamente calculadas, além de levarem consideração o número de categorias que cada item possui, de modo que, quanto menoscategorias um item tem, mais significativas elas se tornam. Por fim, os autores aplicam taissimilaridades semânticas em uma abordagem da filtragem colaborativa baseada em itens, o k-NN(k Vizinhos mais Próximos, do Inglês, k-Nearest-neighbors). Em vez de utilizar a matriz desimilaridades entre itens, calculadas por medidas de correlação (por exemplo, similaridade decosseno ou Pearson), é utilizada a matriz de similaridade semântica calculada com base nasdistâncias semânticas. Na avaliação do sistema, os autores comparam sua abordagem contra adistância LDSD original, e contra o algoritmo de vizinhança, que utiliza a similaridade por meiodas notas. Os experimentos foram realizados em um cenário de predição de notas, e mostramque a função LDSD estendida produz resultados melhores que a função LDSD original, contudo,não superam o algoritmo de vizinhança original. Esta proposta tem a desvantagem de utilizar

3.1. Trabalhos que incorporam informações semânticas 57

duas matrizes de similaridades, além da matriz de similaridade semântica (Si j), outra matriz desimilaridade (Wi j) é aprendida por meio dos dados da matriz Si j no momento do aprendizado domodelo.

Com base nos conceitos básicos da LDSD, Piao e Breslin (2016) propõem quatromedidas de distância semântica estendendo a medida LDSD original. Dessa maneira, foramincorporados vários aspectos de relacionamento entre dois recursos. As medidas não estãovinculadas ao conjunto de dados utilizado no trabalho. Tais medidas podem ser adotadas paraquaisquer conjuntos de dados conectados. A primeira extensão modifica as funções de contagemde ligações indiretas, essa medida calcula o número de recursos ligados por meio de umaligação li ao par de recurso que se está calculando a distância, dessa maneira, dois recursossão mais semelhantes se houver um número maior de recursos ligados através da propriedadeli. A segunda extensão modifica a primeira incluindo normalizações nas funções de ligaçõesindiretas. A normalização é realizada pela média das ligações (li) entre os dois recursos. Aterceira extensão utiliza normalizações globais, em vez de utilizar normalizações locais como asduas primeiras extensões. Sendo assim, as funções de ligações diretas e indiretas penalizam aimportância que uma ligação tem de acordo com sua ocorrência na base de conhecimento inteira.Por fim, a quarta extensão adota uma abordagem estatística log-verossimilhança para medir adistância semântica entre dois recursos. Os valores de similaridade são ordenados em um ranquefinal, disponibilizado para o usuário. Para a realização dos experimentos foi utilizado o conjuntode dados coletado a partir de perfis do Facebook sobre as preferências pessoais no domínio demúsica. O sistema de recomendação fornece as recomendações com base na semelhança de umperfil de usuário com um item do acervo. Para avaliação do sistema é adotado o LDSD originalcomo referência, além de uma abordagem baseada em modelo para dados RDF com VSM(Modelo de Espaço Vetorial, do Inglês, Vector Space Model). Além disso, foi adicionada umaabordagem da filtragem colaborativa baseada em itens. Os autores avaliam seu trabalho em umcenário de recomendações de itens em ranques de tamanhos 1, 5, 10 e 20, através das métricas deprecisão, revocação e MRR. Ao compararem as métricas, todas as medidas propostas apresentamum desempenho significativamente melhor do que o modelo VSM com medida de similaridadede cosseno. Além disso, em termos de MRR, com exceção da quarta extensão, as extensõestêm desempenho semelhantes e apresentam melhores resultados (mas não significativos) que oLDSD original e a abordagem da filtragem colaborativa.

Noia et al. (2012) exploram o uso de metadados semânticos em um sistema de reco-mendação baseado em conteúdo, dessa maneira, os autores aproveitam os dados disponíveisna nuvem LOD (DBpedia, Freebase e LinkedMDB) para realizar recomendações de filmes. Omodelo proposto é uma abordagem do modelo de espaço vetorial para calcular as similaridadesentre os recursos das bases de conhecimento. Os autores modificaram o VSM clássico para lidarcom grafos RDF, dessa maneira, todo o grafo é representado como uma matriz tridimensional,em que cada fatia refere-se a uma propriedade da ontologia, por exemplo, atores, diretores,gêneros, dentre outras propriedades. Para uma dada fatia, o grau de similaridade entre dois filmes


é a correlação entre os dois vetores, quantificado pelo ângulo do cosseno entre eles. O uso dessesrecursos tornou mais fácil a realização da fase de pré-processamento das informações sobre ositens, visto que os dados já estão estruturados em uma ontologia.

Ostuni et al. (2013) propõem um sistema de recomendação baseado em conteúdo,orientado para o contexto, para sugestões de filmes e peças de teatro. O módulo que desempenhaa função de recomendação é alimentado com informações extraídas da DBpedia para construiras descrições dos filmes. Então, a similaridade entre os filmes e o perfil do usuário é computadautilizando vetores de características. Desse modo, a semelhança entre os filmes é calculada pormeio de uma adaptação do modelo de espaço vetorial (VSM). A principal hipótese por trás dessaabordagem é que se dois filmes compartilham informações (por exemplo, parte do elenco, diretor,gêneros, categorias), então eles estão relacionados uns com os outros. Sendo assim, quanto maisrecursos dois filmes têm em comum, mais semelhantes são. O sistema ainda coleta dados do siteTrovacinema sobre cinemas, teatros e suas respectivas programações, e a geolocalização dosusuários por meio da Google Geocoding API. Com essas informações, filmes e peças de teatroem cartaz são recomendados ao usuário, conforme seus interesses, posição atual e horário.

3.2 Trabalhos que utilizam Fatoração de Matrizes incor-porada com informações sobre itens

Por outro lado, a fim de amenizar o problema de partida fria, alguns trabalhos incorporamtais informações dos itens em seus modelos de recomendação. Combinando um método colabora-tivo com um método baseado em conteúdo, Forbes e Zhu (2011) propõem o algoritmo CBMF (doInglês, Content-Boosted Matrix Factorization) para incorporar metadados de itens diretamentena abordagem MF. O CBMF baseia-se no pressuposto de que o vetor de fator latente de cada itemé uma função de seus atributos, gerando três matrizes que são usadas para calcular as previsõesfinais: matriz de atributo vs. atributo, matriz de fator atributo x matriz latente e usuário vs. matrizde fatores latentes. Uma abordagem semelhante é o algoritmo gSVD++ (MANZATO, 2013), quetambém considera o feedback implícito dos usuários para aprimorar as representações de itens eusuários, que foi abordado na Seção 2.1.2.2. Nessas abordagens, espera-se que as descriçõesestejam disponíveis, o que pode não ser o caso de determinados domínios. Tal problema éconhecido como análise de conteúdo limitado, que consiste na dificuldade de extrair informaçõessobre o conteúdo dos itens.

Observando essa limitação, Peska e Vojtas (2015) propuseram uma extensão do modeloCBMF que usa metadados semânticos, que são coletados da nuvem LOD. Os autores propõemum sistema de recomendação sobre o domínio de comércio eletrônico utilizando dados adicionaiscoletados da nuvem LOD, visando aprimorar os atributos dos itens do sistema. Para isso, astriplas RDF são transformadas em atributos booleanos para serem incorporados nos modelosde recomendação. São utilizados dois métodos de recomendação: i) uma abordagem puramente

3.2. Trabalhos que utilizam Fatoração de Matrizes incorporada com informações sobre itens 59

baseada em conteúdo que utiliza o VSM, em que a similaridade foi medida pelo cosseno;ii) e uma abordagem híbrida, que utiliza o algoritmo CBMF. Nos dois algoritmos substitui-se a matriz de metadados normais por metadados semânticos. Embora utilizem informaçõesbaseadas em conteúdo, os algoritmos são independentes de domínio. Para a avaliação dosdois algoritmos, foram utilizados conjuntos de dados com metadados normais, conjunto commetadados semânticos e outro conjunto que combinou os dois anteriores. Foram avaliadosatravés da métrica nDCG e P@top-k. Os resultados mostram que com uso de dados adicionais danuvem LOD, a qualidade da recomendação pode melhorar. Em geral, o método VSM produziumelhores resultados do que o CBMF, que por sua vez, apresentou como desvantagem o tempode computação, limitando tanto a capacidade de conduzir pesquisas de hiperparâmetros maiscomplexas quanto a exploração de relações entre recursos.

Uma abordagem mais robusta que também explora informações semânticas é propostapor Rowe (2014), que é uma extensão do modelo SVD++ (KOREN; BELL; VOLINSKY, 2009).Nesta abordagem, o autor propõe uma abordagem para resolver o problema de inconsistência dofator por meio da utilização das categorias semânticas dos itens. Na primeira etapa o autor modelaa evolução dos gostos dos usuários para as categorias semânticas dos itens ao longo do tempo,e depois incorpora tais informações dentro de uma extensão do SVD++. O modelo proposto édefinido como SemanticSVD++ (S-SVD++), o qual incorpora categorias semânticas e a evoluçãodo gosto dos usuários. O SemanticSVS++ considera três componentes: i) o primeiro apresentaas estimativas de referência (bui); ii) o segundo componente apresenta os vieses das categorias,que inclui viés em relação às categorias com um comportamento geral de classificação e viés emrelação as categorias por um usuário específico; iii) e o terceiro é o componente de personalização.O autor estende o SVD++ definindo um novo vetor de fator latente de dimensionalidade f paracada categoria semântica extraída das bases de conhecimento. A inclusão desse vetor é baseadana noção de que as categorias semânticas têm uma afinidade mais forte com determinadosfatores. Para aprender os parâmetros do modelo de recomendação, foi minimizado o erro pormeio do gradiente descendente estocástico. Na avaliação do sistema proposto, o autor comparao S-SVD++ com o SVD++, e com uma versão do S-SVD++ que não utiliza o vetor de fatoreslatentes das categorias (SB-SVD++). Os conjuntos de dados utilizados nos testes foram oMovieLens e o MovieTweetings. Para a base da MovieLens houve uma redução acentuadano erro, o modelo S-SVD++ foi o modelo ótimo, e na base MovieTweetings o S-SVD++ eSB-SVD++ têm resultados parecidos, mas apresentam um efeito claro sobre a redução do erro aocomparar com o SVD++ padrão. Esta proposta tem a desvantagem de não explorar as relaçõesentre as categorias semânticas, as quais foram exploradas por trabalhos descritos anteriormente eque serão consideradas na presente proposta.

Em relação as similaridades dos itens em um modelo de fatoração, Koren (2008) propôsum modelo de recomendação que integra duas abordagens para filtragem colaborativa: fatoraçãode matrizes e vizinhança. No módulo de vizinhança, um novo modelo é proposto, cujos parâme-tros são aprendidos resolvendo-se o problema dos mínimos quadrados. No módulo MF, a regra


de previsão do SVD++ é incorporada. Desta forma, o modelo integrado resumirá as previsõesdas abordagens de fatoração de matriz e vizinhança, permitindo que elas se enriquecem. Outrotrabalho que inclui a similaridade entre itens no MF é o CoFactor, proposto por Liang et al.

(2016). O trabalho propõe uma co-fatoração, que decompõe a matriz de interação juntamentecom uma matriz de co-ocorrência do item, a co-ocorrência entre dois itens codifica o número deusuários que consumiram os dois itens. Essa matriz de co-ocorrência pode ser considerada umamatriz de similaridade entre itens. A decomposição das matrizes utiliza os fatores latentes dositens de forma compartilhada.

3.3 Considerações FinaisEste capítulo apresentou os trabalhos que se relacionam com sistemas de recomendação

que utilizam informações semânticas advindas das bases de conhecimento e trabalhos baseadosem fatoração de matrizes que utilizam de alguma maneira metadados dos itens em seus mode-los. Ao analisar esses trabalhos, é possível observar algumas limitações que ainda não foramexploradas.

A métrica de similaridade proposta nesse trabalho visa explorar algumas dessas limi-tações. A principal lacuna dos trabalhos é a falta de exploração da hierarquia das categoriassemânticas disponível na nuvem LOD, o que implica em não utilizar as relações entre as ca-tegorias dos itens disponibilizadas pela base de conhecimento. As relações hierárquicas entreos recursos permitem descobrir o quão longe uma categoria está de um item, desse modo, asimilaridade entre os itens pode ser melhor computada por meio dessas relações. Além disso,a métrica proposta visa explorar a influência da utilização de todas as categorias da base dedados para calcular a similaridade, incluindo também as categorias que não estão associadasdiretamente ao item.

Embora diversos algoritmos abordam o problema de partida fria utilizando metadadosdos itens, muitos desses trabalhos utilizam os metadados de maneira incorporada no modelode fatoração. Desse modo, o treinamento é realizado sobre as interações dos usuários e osmetadados dos itens, que podem ser computacionalmente caros. Outros trabalhos utilizam assemelhanças entre os itens, mas não são explicitamente destinados ao problema de partida friado item. Dessa maneira, itens sem interação não podem ser correlacionados a menos que osmetadados estejam disponíveis. Além disso, esses trabalhos adicionam complexidade à regra depredição para modelar tais semelhanças.

Em nossa proposta de algoritmo para minimizar o problema de partida fria, a similaridadeentre itens é incorporada diretamente na predição, mantendo o treinamento igual ao modelotradicional e realizando a predição o mais simples possível, de modo que o custo computacionalé reduzido sem adicionar complexidade no treinamento e na predição.

61

CAPÍTULO

4PROPOSTA DE SOLUÇÃO

Os capítulos anteriores apresentaram conceitos e técnicas sobre sistemas de recomen-dação e dados abertos conectados que fornecem suporte à proposta de solução apresentadaneste capítulo. Além disso, foram apresentados alguns trabalhos relacionados a esta proposta,explicitando as diferenças desta em relação aos demais. Neste Capítulo, por sua vez, será apresen-tado o processo de construção do sistema de recomendação proposto, detalhando cada móduloseparadamente.

A proposta visa investigar como relações semânticas computadas a partir das bases deconhecimento disponíveis na Web dos Dados podem beneficiar sistemas de recomendação. Emparticular, este trabalho explora duas questões neste contexto: i) como a similaridade de itenspode ser calculada com base em informações semânticas coletadas das bases de conhecimentopara explorar a hierarquia das categorias nessas bases; e ii) como semelhanças entre os itenspodem ser combinadas em uma técnica de fatoração de matrizes, de modo que o problema dapartida fria de itens possa ser efetivamente amenizado. A proposta é adaptável para sistemas dequalquer domínio, necessitando apenas encontrar uma base de conhecimento adequada.

Este Capítulo está organizado da seguinte maneira: na Seção 4.1 apresenta-se o métodopara calcular a similaridade semântica. Além disso, apresenta-se a arquitetura geral desse módulo,detalha-se como é feita a extração das informações semânticas e como a similaridade semânticaé computada neste trabalho. Na Seção 4.2 apresenta-se o sistema de recomendação baseado emfatoração de matrizes para amenizar o problema da partida fria de itens, detalha-se a arquiteturageral do sistema de recomendação e apresenta-se cada etapa do processo de recomendação.Finalmente, na Seção 4.3 apresentam-se as considerações finais deste capítulo.

62 Capítulo 4. Proposta de solução

4.1 Cálculo da similaridade semânticaEste trabalho propõe utilizar a similaridade semântica entre os itens do sistema, considera-

se similaridade semântica as técnicas de similaridades que utilizam os metadados dos itens quesão extraídos das bases de conhecimento. Para facilitar o entendimento, nas próximas seções, otermo metadados dos itens será nomeado como atributos dos itens. Na próxima subseção seráapresentada a arquitetura de como é realizado o cálculo da similaridade semântica.

4.1.1 Arquitetura

A arquitetura proposta para cumprir os objetivos mencionados anteriormente está ilus-trada na Figura 7. Nesta proposta, uma lista de similaridades entre itens pode ser gerada apósalgumas etapas que estão numeradas na Figura 7.

Figura 7 – Visão geral da arquitetura do cálculo de similaridade semântica proposto.

Na etapa 1 da Figura 7, dada uma base de dados com informações sobre os itensdisponíveis para serem recomendados, o primeiro passo é a extração das informações sintáticasdesses itens. São extraídos por exemplo, os nomes dos itens, nome de um filme ou nome de umabanda de música; além disso, também são extraídos o ano e gênero/categorias sintáticas dos itens.Tais metadados são insuficientes e com pouca carga semântica para se analisar e calcular comprecisão a similaridade entre dois itens. Além disso, tais informações como gênero/categoriaspodem não estar presentes na base de dados.

Nesse contexto, para suprir essa necessidade, a proposta apresentada nesse capítulosugere identificar uma representação dos itens do acervo em uma base de conhecimento. Da

4.1. Cálculo da similaridade semântica 63

maneira que cada item tem seu correspondente na base de conhecimento, desse modo, o sistematem acesso aos dados estruturados de cada item. O vínculo entre o item e seu correspondentena base de conhecimento é realizado por meio das IRI’s, que podem ser obtidas através deconsultas SPARQL. Tais consultas são construídas com as descrições sintáticas fornecidas pelabase de dados. A extração das informações semânticas dos itens acontece na etapa 2. Para quetodos os itens sejam correspondidos por IRI’s, as bases de conhecimento escolhidas devem serabrangentes, caso contrário, os itens serão representados somente pelas descrições sintáticas.

Após as informações dos itens serem extraídas da base de conhecimento, na etapa 3os atributos semânticos são utilizados como entrada para calcular as similaridades semânticasentre os itens do acervo. Nas próximas subseções, serão detalhados os cálculos das similaridadessemânticas utilizadas.

4.1.2 Modelo de espaço vetorial - VSM

Neste trabalho, utiliza-se um Modelo de Espaço Vetorial (do Inglês, Vector Space Mo-

del(VSM)), que foi adaptado por Noia et al. (2012) para uma configuração baseada em LOD.Como foi abordado na Subseção 2.2.4, esse modelo utiliza o ângulo do cosseno para calcular asimilaridade entre os dois vetores de atributos semânticos.

4.1.3 Co-ocorrência - COO

A métrica de similaridade de co-ocorrência (COO) é uma extensão de Liang et al. (2016),que visa explicar os padrões de co-ocorrência para o consumo de itens através do feedbackimplícito disponível no conjunto de dados. Neste, essa métrica foi adaptada para calcular asimilaridade entre dois vetores de atributos semânticos. A semelhança entre dois itens é calculadapor:

Similaridade-COO(i, j) =#(i, j)

log(#i)log(# j), (4.1)

onde #(i, j) é o número de atributos pertencentes a ambos items i e j, #(i) = ∑ j∈I#(i, j), #( j) =

∑ i∈I#(i, j), e I é o conjunto de todos os itens da coleção.

4.1.4 Distância Semântica em Dados Conectados - LDSD

Neste trabalho, utliza-se a métrica de distância semântica em dados conectados, denomi-nada LDSD (do Inglês, Linked Data Semantic Distance), que foi proposta por Passant (2010b).Essa métrica depende das ligações entre os recursos para calcular a distância semântica entreeles, podendo ter ligações diretas e indiretas, como foi abordado na Subseção 2.2.4.


4.1.5 Distância Entre Atributos Semânticos Combinada com LDSD- Meta Distância LDSD

A distância entre atributos semânticos combinada com a LDSD, denominada Meta Dis-tância LDSD, propõe calcular a distância entre itens usando todos os recursos dos atributosdisponíveis na base de dados. Após tais distâncias serem calculadas, a similaridade entre osvetores de distâncias de cada item é computada utilizando a correlação de Pearson. Posterior-mente, a similaridade gerada é combinada com a similaridade da LDSD proposta por Passant(2010b). A arquitetura da métrica proposta é apresentada na Figura 8. Nessa proposta, uma listade similaridades pode ser gerada após algumas etapas, conforme detalhado a seguir.

Figura 8 – Visão geral da arquitetura similaridade semântica proposta Meta Distância LDSD.

Na etapa 1a da Figura 8, uma matriz de atributos semânticos previamente extraídos dabase de conhecimento é usada como entrada da métrica de similaridade. Além disso, na etapa 1bé necessário um grafo contendo todos os itens da base de dados e todos os recursos de atributosda base de conhecimento.

O grafo é criado utilizando duas ligações (links) entre recursos disponíveis na DBpedia.

4.1. Cálculo da similaridade semântica 65

Para os itens disponíveis na base de dados, foram extraídos da base de conhecimento os atributoscom a ligação dct:subject. Através dessa propriedade, o sistema obtém as categorias associadas acada item. Além desse atributos, também foram extraídos todos os recursos que têm a ligaçãodo tipo skos:broader entre si, sendo essa propriedade a responsável por estruturar a hierarquiadas categorias. Os recursos das ligações skos:broader são os mesmos das ligações dct:subject,dessa maneira, os itens são interligados com todas as outras categorias da base de dados, mesmonão tendo a ligação dct:subject direta com tais recursos. Por fim, o grafo é criado utilizando taisrecursos e ligações, como pode ser melhor visualizado na Figura 9.

Figura 9 – Grafo com as ligações skos:broade e dct:subject utilizado na métrica Meta Distância LDSD.

A propriedade skos:broader revela os relacionamentos do tipo hiperônimo entre doisrecursos. Dessa maneira, tal propriedade é utilizada para encontrar as categorias mais genéricasde cada categoria associada a um item, a fim de encontrar a distância do item para todas ascategorias da base de dados. Sendo assim, o cálculo da distância entre o item e cada categoria dabase de dados aproveita a hierarquia da base de conhecimento, Dessa maneira, uma propriedadepode não estar relacionada diretamente com um item através da propriedade dct:subject, maspode ter uma pequena distância através da propriedade skos:broader. Assim, pode-se aumentara precisão do cálculo de similaridade entre os itens que podem ter essa categoria relacionadadiretamente.

Na etapa 2, dado o grafo com os recursos dos atributos e a matriz de atributos semânticos,a distância do item para cada atributo semântico conhecido da base de dados é calculada. Osatributos conhecidos da base de dados é a união de todos atributos dos itens existentes na basede dados. Por exemplo, se o filme 1 conter os atributos comédia e romance, e o filme 2 conter oatributo terror, o conjunto de atributos conhecidos da base de dados será comédia, romance eterror. Dessa maneira, seria calculada a distância do filme 1 para os 3 atributos e, esse processoé repetido para todos os itens do acervo. A distância entre dois recursos do grafo é o menorcaminho entre eles. Nesse trabalho, para computar o menor caminho entre dois recursos foi


utilizado o método shortest_path do pacote de códigos NetworkX1, que é um pacote Pythonpara a criação e manipulação de redes complexas.

A etapa 3 é responsável por preencher a matriz de atributos semânticos com as distânciascalculadas na etapa anterior. Quando um caminho não é encontrado entre o item e um atributo, ovalor de preenchimento é a maior distância encontrada de um item para um atributo no grafoelevada ao quadrado, indicando que não existe um caminho entre os dois recursos. A distânciamínima de um item para um atributo no grafo é 2, que é contabilizada pelo número de nósencontrados do item para o atributo. Dessa maneira, a distância máxima elevada ao quadradosempre irá aumentar consideravelmente essa distância, atribuindo para um valor de distância altoquando não existe caminho entre esses dois recursos.

A etapa 4 é responsável por calcular a similaridade entre todos os vetores de distânciassemânticas, que será denominada Meta distância. Para calcular a similaridade utiliza-se acorrelação de Pearson (DESROSIERS; KARYPIS, 2011), que é computada da seguinte maneira:

Meta_distancia(x,y) = Pearson(x,y) =∑

ni=1(xi− x) · (yi− y)√

∑ni=1(xi− x)2 ∑

ni=1(yi− y)2

, (4.2)

onde xi e yi são os valores dos respectivos vetores dos itens x e y, e x e y são, respectivamente, asmédias das distâncias dos vetores x e y.

Na etapa 5, a Meta distância gerada anteriormente na etapa 4 é combinada com a LDSD.Tal combinação visa explorar a relação do item com todos os atributos conhecidos da base dedados. Portanto, a combinação explora o fato da LDSD não calcular a distância do item paratodos os atributos conhecidos da base de dados, pois a LDSD calcula a distância somente paraos atributos do próprio item. Além disso, a LDSD explora a hierarquia da base de conhecimentosomente entre pais e filhos dos recursos, sendo assim, um atributo que esteja a uma distânciamaior que essa não é considerado no cálculo. As duas similaridades são combinadas como segue:

Meta_distancia_LDSD(a,b) = Meta_distancia(a,b) ·LDSD(a,b)2, (4.3)

onde a e b são os respectivos itens da matriz de similaridades. Uma vez que os valores das duasmétricas estão entre 0 e 1, o valor da similaridade LDSD é elevado ao quadrado com objetivode dar mais significância para o valor da Meta Distância, pois, quando eleva-se um valor desseintervalo ao quadrado, o mesmo é reduzido. Dessa maneira, a Equação 4.3 dá mais peso para aMeta Distância.

Após essas etapas, uma lista de similaridades semânticas entre os itens da base de dadosé gerada na etapa 6.

1 https://networkx.github.io

4.2. Sistema de Recomendação Baseado em Fatoração de Matrizes para Partida Fria de Itens 67

4.2 Sistema de Recomendação Baseado em Fatoração deMatrizes para Partida Fria de Itens

Como abordado na Seção 2.1.2.2, dado que os algoritmos de fatoração de matrizestradicionais constroem representações de itens com base nas avaliações dos usuários, seusfatores latentes são representados como características baseadas no comportamento dos usuários.Tais pontuações representam a apreciação ou depreciação geral dos usuários em relação aesses itens. Se um item não tem classificações suficientes, sua representação será fraca, entãoquando o algoritmo tenta predizer uma avaliação para um usuário em particular, a precisão darecomendação será baixa.

A fim de reduzir este problema, este trabalho propõe o Item-MSMF (Itens Mais Similaresbaseado na Fatoração de Matrizes) (FRESSATO; COSTA; MANZATO, 2018), que é umaextensão do processo de predição em modelos de fatoração de matrizes. O algoritmo consisteem uma técnica de pós-processamento, que é aplicada após o processo de treinamento dasrepresentações do usuário (pu) e itens (qi).

Ao contrário dos algoritmos de fatoração de matrizes bem conhecidos que tentam aliviaro problema da partida fria por meio da complexidade adicional do modelo, a abordagem propostasó muda na etapa de predição do sistema, substituindo o vetor de fatores latentes do item novopor um novo vetor de fatores latentes, esse novo vetor é calculado com base nos vizinhos maissemelhantes do item novo. Isso é uma vantagem porque é adicionada apenas uma etapa no finalda abordagem de fatoração de matriz.

A arquitetura da proposta está ilustrada na Figura 10, que será detalhada na próximasubseção. Na Subseção 4.2.1.1 detalha-se o processo de encontrar os vizinhos mais similares doitem; na Subseção 4.2.1.3 detalha-se o processo de predição para novos itens; na Subseção 4.2.2é descrito o algoritmo completo da proposta.

4.2.1 Arquitetura

A arquitetura proposta para cumprir os objetivos mencionados anteriormente está ilus-trada na Figura 10. Nessa proposta, uma lista de predições de avaliações para os itens pode sergerada após algumas etapas, conforme apresentado a seguir.

Primeiramente, na etapa 1, uma matriz de similaridade entre itens é usada como entradapara a proposta. O algoritmo aceita qualquer tipo de similaridade entre itens, desde que talsimilaridade seja calculada utilizando outras informações que não sejam as avaliações dosusuários. Nesse trabalho, são utilizadas as similaridades calculadas com base nas informaçõesextraídas das bases de conhecimento, como apresentado na Subseção 4.1. Além das similaridadessemânticas, para comprovar a eficácia da proposta, também serão utilizadas similaridadesbaseadas em avaliações descritivas dos usuários para os itens propostas por D’Addio et al.


Figura 10 – Visão geral da arquitetura do sistema de recomendação proposto.

(2018). Os autores propõem quatro representações ricas de itens, baseadas em três tipos desemântica: análise de sentimento, integrações de sentido e semelhanças. Além disso, o modelode recomendação proposto também necessita das avaliações de usuários como entrada do sistemana etapa 1b.

4.2.1.1 Encontra os Itens Mais Similares

A etapa 2 é responsável por encontrar os itens mais semelhantes de um item novo dabase de dados. Com base nas similaridades de entrada do sistema, para cada item novo sãoencontrados os itens vizinhos mais semelhantes ao item i que não seja considerado um itemnovo do sistema, ou seja, tais itens já receberam avaliações de usuários. A proposta de selecionarvários itens para compor o vetor de fator latente do item novo visa ter uma maior correspondênciacom a representação do item novo que está sendo representado pelos seus vizinhos. Caso fosseselecionado somente um único mais similar, o vetor de fator latentes poderia não representar oconteúdo do item novo de forma eficaz, pois um determinado item pode ter vários itens com omesmo grau de similaridade ou com um grau de similaridade que varia muito pouco.

4.2. Sistema de Recomendação Baseado em Fatoração de Matrizes para Partida Fria de Itens 69

4.2.1.2 Criação e Substituição do novo vetor de fatores latentes

Na etapa anterior são calculados e identificados os itens mais similares dos itens novosselecionados. Em seguida, a etapa 3 é responsável por calcular o novo vetor de fatores latentespara o item novo da base de dados. O novo vetor de fatores latentes é criado a partir docalculo da média ponderada dos fatores latentes dos vizinhos mais similares ao item, usandocomo ponderação a similaridade entre o novo item i e os itens relacionados j. Para realizar asubstituição, considere que os itens mais semelhantes não podem ser novos, isto é, devem estarno conjunto de treinamento. A substituição do item novo é computada da seguinte maneira:

qi⇐∑ j∈Ik

iq j · sim(i, j)

∑ j∈Iki

sim(i, j), (4.4)

onde qi é o vetor do item novo a ser substituído, k é o número de vizinhos, q j é cada item similara i e Ii é o conjunto de itens mais similares ao item i.

Este processo visa gerar uma representação precisa dos itens novos do sistema. Por fim,na etapa 4, substitui-se o vetor de fatores latentes dos novos itens que são inicializados com zeroou aleatoriamente pelos respectivos vetores gerados a partir dos itens mais semelhantes ao itemnovo.

4.2.1.3 Predição de Avaliação

Com os vetores de fatores latentes dos itens novos atualizados, na etapa 5, é realizada apredição das avaliações baseada no conjunto de itens não vistos pelos usuários no modelo defatoração da matriz. A predição da avaliação é realizada da mesma maneira que no modelo defatoração de matrizes, como segue:

rui = bui +qTi pu, (4.5)

onde bui é a estimativa de referência do usuário u e item i, qi é o vetor de fator latentes do item epu é o vetor de fatores latentes do usuário.

Todo o processo do algoritmo proposto Item-MSMF é realizado no estágio de predição,tendo um baixo custo computacional ao contrário de outros algoritmos conhecidos de fatoraçãode matrizes que tentam aliviar o problema de partida fria do item. Além disso o Item-MSMFmantém o mesmo modelo de treinamento e predição do modelo de fatoração de matrizes.

4.2.2 Algoritmo

Todas as etapas do Item-MSMF são apresentadas no Algoritmo 1. Como entrada domodelo, são necessárias as avaliações dos usuários, que são dividas em treino e teste, além deuma lista de similaridades entre os itens da base de dados (Linha 1). Como saída são geradas


as predições para cada par de usuário x item (u, i) do conjunto de teste (Linha 2). A seleçãode novos itens (Linhas 3 a 6) e o cálculo da similaridade entre itens (Linha 8) são realizadosantes da etapa de treinamento da fatoração de matrizes. Como pode ser visto, no processo inicialnão removemos os pares (u, i) que contêm os itens novos, apenas selecionamos os itens parao processo de predição. Assim, geralmente os fatores latentes são treinados com o modelotradicional de fatoração de matrizes e utiliza-se o vetor para a etapa de predição. Na etapa depredição de classificação (Linhas 10 a 14), é verificado se o item é novo e, em caso afirmativo,altera-se o seu vetor de fatores latentes pela média ponderada dos vetores de fatores latentes dosvizinhos mais semelhantes. Após este processo, a predição é usualmente realizada por meio daEquação 4.5.

Algoritmo 1 – Item-MSMF1: Input: train set, test set, similarity matrix2: Output: predicted ratings of test set3: para i ∈ test set faça4: se i ∈ train set então5: new_items_vector⇐ i6: fim se7: fim para8: M⇐ Similarity matrix9: Train pu and qi according to Section 2.1.2.2

10: para (u, i) ∈ test set faça11: se i ∈ new_items_vector então

12: qi⇐∑ j∈Ik

iq j·sim(i, j)

∑ j∈Iki

sim(i, j)

13: fim se14: Calculate rui with Equation (4.5)15: fim para

4.3 Considerações FinaisEste capítulo apresentou como atributos semânticos dos itens de uma base de dados

podem ser extraídos de bases de conhecimento e utilizados em sistemas de recomendação paracalcular a similaridade entre tais itens. Dessa maneira, é possível encontrar itens mais similaresa um item que ainda não foram avaliados por nenhum usuário do sistema. Essas informaçõesobtidas das bases de conhecimento podem ser utilizadas em diversas métricas de similaridades.Dentre as métricas apresentas, a Meta Distância LDSD propõe combinar distâncias do item comos atributos semânticos com a LDSD, a proposta visa adicionar informações de hierarquia dabase de conhecimento.

Além disso, é apresentado um modelo de sistema de recomendação que ameniza oproblema da partida fria de itens. O modelo combina informações de similaridades entre itens comum modelo de fatoração de matrizes da filtragem colaborativa. Assim, tomamos como referência

4.3. Considerações Finais 71

uma das abordagens mais comuns de sistema de recomendação para realizar a adaptação domodelo proposto. O modelo proposto aceita qualquer tipo de similaridades entre itens, desde quenão sejam baseados em informações de avaliações dos usuários.

No próximo capítulo detalha-se a metodologia empregada nos experimentos, apresentam-se as bases de dados e bases de conhecimento utilizadas, os métodos avaliativos e os resultadosobtidos pela proposta da métrica de similaridade semântica e pela proposta do algoritmo derecomendação Item-MSMF, que minimiza o problema de partida fria.

73

CAPÍTULO

5AVALIAÇÃO DO SISTEMA

Nos capítulos anteriores, foram apresentados conceitos sobre sistemas de recomendaçãoe dados abertos conectados que estão inteiramente relacionados com o escopo deste projeto demestrado. Apresentou-se também um detalhamento sobre a proposta, descrevendo-se cada umdos seus módulos separadamente. Neste capítulo, por sua vez, detalham-se os experimentos rea-lizados, apresentando-se conceitos como fonte de dados e ferramentas utilizadas, configuraçõese, especialmente os resultados obtidos.

Conforme mencionado anteriormente, este trabalho explora como relações semânticascomputadas a partir das bases de conhecimento disponíveis na Web dos Dados podem beneficiarsistemas de recomendação. Em particular, este trabalho explora duas questões neste contexto: i)como a similaridade de itens pode ser calculada com base em informações semânticas coletadasdas bases de conhecimento para explorar a hierarquia das categorias nessas bases; e ii) comosemelhanças entre os itens podem ser combinadas em uma técnica de fatoração de matrizes, demodo que o problema da partida fria de itens possa ser efetivamente amenizado. Desse modo, osprincipais objetivos deste capítulo são:

∙ Avaliar, por meio de experimentação, os resultados produzidos pela métrica de similaridadeMeta Distância LDSD no cenário de geração de ranques;

∙ Analisar e definir, a partir dos resultados obtidos, qual métrica de similaridade baseadaem dados extraídos de bases de conhecimento apresenta melhor precisão em sistemas derecomendação.

∙ Avaliar, por meio de experimentação, os resultados produzidos pelo algoritmo Item-MSMFno cenário de predição de notas, em base de dados preparadas para simular o problema dapartida fria.

∙ Analisar se o algoritmo Item-MSMF acarreta uma melhoria na predição de notas em umcenário de partida fria.

74 Capítulo 5. Avaliação do Sistema

Este capítulo está organizado da seguinte maneira: na Seção 5.1 apresentam-se detalhesda metodologia usada para o desenvolvimento e avaliação deste trabalho, informações sobreplataformas e recursos auxiliares utilizados durante os experimentos, além de apresentar as basesde dados e suas configurações em cada experimento; na Seção 5.2 detalham-se os métodosavaliativos utilizados em cada experimento; na Seção 5.3 detalham-se os experimentos realizadosem ordem cronológica; por fim, na Seção 5.4 apresentam-se as considerações finais.

5.1 Metodologia

5.1.1 Plataforma e Recursos Auxiliares

Para o desenvolvimento desse trabalho, foram selecionados frameworks de código abertoexclusivos para sistemas de recomendação. Dentre as opções disponíveis foram selecionadoso MyMediaLite e o Case Recommender por terem implementações de algoritmos da filtragemcolaborativa e vários cenários de avaliações.

O Case Recommender é implementado em Python. Esse framework possui vários algo-ritmos da abordagem baseada em conteúdo e da filtragem colaborativa, que utilizam coleta dedados explícita e implícita. O Case Recommender fornece um conjunto de componentes a partirdos quais os desenvolvedores podem construir um sistema personalizado. O framework aborda ocenário de predição de notas e recomendações de itens, disponilizando várias rotinas de avaliaçãoconhecidas, como RMSE, MAE, precisão em k, MAP, NDCG, precisão e revocação (COSTA;MANZATO, 2016; COSTA et al., 2018). O algoritmo proposto Item-MSMF foi implementadonesse framework e seu código está disponível no repositório do GitHub do Case Recommender1.

O MyMediaLite2 é implementando na linguagem .NET e é exclusivo para sistemas derecomendação. Esse framework é voltado para a filtragem colaborativa, porém é possível utilizaralgoritmos em sistemas baseados em conteúdo. O MyMediaLite aborda o cenário de predição deavaliações (por exemplo, escala de 1 a 5 estrelas) e recomendação de itens (por exemplo, açõesde compra). Sendo assim, o framework disponibiliza as rotinas de avaliações mais conhecidasna área, como MAE (Erro Médio Absoluto, do Inglês, Mean Absolute Error), RMSE (Raiz doErro Quadrático Médio, do Inglês, Root Mean Square Error), precisão em k, MAP (Média dePrecisão, do Inglês, Mean Avegare Precision), entre outras.

Neste trabalho são utilizados endpoints que são mantidos pelas bases de conhecimento,que são responsáveis por processar as instruções SPARQL enviadas pelo sistema e retornamos resultados em vários formatos, como XML, RDF/XML, Turtle, entre outros. Para facilitar oacesso a endpoints e a manipulação dos dados retornados, foi utilizado o SPARQLWrapper3,uma interface SPARQL Endpoint para Python. Esse wrapper de serviço SPARQL ajuda na

1 https://github.com/caserec/CaseRecommender2 http://www.mymedialite.net/3 https://github.com/RDFLib/sparqlwrapper

5.1. Metodologia 75

criação da consulta, além disso, permite a conversão do resultado em formato mais gerenciável,facilitando a manipulação dos resultados das consultas SPARQL.

5.1.2 Base de Dados

Para avaliar o sistema proposto, realizaram-se experimentos em três bases de dados, duasbases referentes ao domínio de filmes, gerada a partir do web site MovieLens, e outra base dedados referente ao domínio de músicas gerada a partir do web site do Yahoo. As bases de dadoscontêm informações mínimas que irão auxiliar a obter informações semânticas nas bases deconhecimento, além de compor o conjunto de teste e treinamento do modelo proposto. Nestaseção, apresentam-se informações sobre tais bases de dados.

5.1.2.1 MovieLens 100k

O conjunto de dados da MovieLens 100k4 foi coletado pelo projeto de pesquisa Grou-pLens na Universidade de Minnesota. Cada usuário avaliou pelo menos 20 filmes, e contéminformações demográficas simples a respeito dos usuários, como idade, sexo, ocupação e CEP.Informações sobre os filmes também estão disponíveis, como título, ano de lançamento e gêneros.Os dados forma coletados entre 1997 e 1998. Os usuários que tinham menos de 20 avaliações ounão tinham dados demográficos completos foram removidos da base. A base de dados consisteem 100.000 avaliações (entre 1 a 5) a 943 usuários e 1.682 filmes (HARPER; KONSTAN,2015). Como informação explícita, usamos as classificações atribuídas pelos usuários aos itens.Em nosso experimento, usamos um subconjunto de 1.621 itens que tiveram seus metadadosencontrados, portanto, o subconjunto é composto por 99.432 avaliações de 943 usuários.

5.1.2.2 Yahoo Music

O conjunto de dados R1-Yahoo! Music5 contém classificações de usuários para artistasmusicais (versão 1.0). As preferências da comunidade de música para vários artistas musicaisforam extraídas durante o período de um mês antes de março de 2004. Os usuários são repre-sentados com identificações aleatórias de modo que nenhuma informação de identificação érevelada. O conjunto de dados consiste em 115.579.440 avaliações de 98.213 artistas de músicapor 1.948.882 usuários anônimos. As avaliações são números inteiros de 0 a 100. A partir desseconjunto de dados, filtramos um subconjunto de itens que tiveram seus metadados encontrados.Assim, o subconjunto consiste de 36.456.966 avaliações, de 1.713.158 usuários a 8.486 itens.As avaliações foram convertidas para uma escala de 0,5 a 5. Em nosso experimento, pela basecompleta demandar um grande poder computacional na execução dos algoritmos, usamos umaamostra desse conjunto de dados, que consiste em 217.370 avaliações aplicadas por 10.000usuários em 3.678 itens.

4 https://grouplens.org/datasets/movielens/100k/5 https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


5.1.2.3 MovieLens 20M

O conjunto de dados MovieLens 20M6 descreve as avaliações de 5 estrelas de um serviçode recomendação de filmes. O conjunto de dados foi gerado em 31 de março de 2015 e atualizadoem 17 de outubro de 2016. Os usuários foram selecionados de maneira aleatória. Todos osusuários selecionados avaliaram pelo menos 20 filmes no conjunto de dados. A base contém20.000.263 avaliações de 27.278 filmes. Tais dados foram criados por 138.493 usuários entre09 de janeiro de 1995 e 31 de março de 2015 (HARPER; KONSTAN, 2015). A partir desseconjunto de dados, foi filtrado um subconjunto de itens que tiveram seus metadados encontrados.Dessa maneira, o subconjunto consiste em 4.272.649 avaliações, de 138.309 usuários a 7.756itens. Em nosso experimento, utilizamos uma amostra desse conjunto de dados, que consiste em657.808 avaliações aplicadas em 5.702 itens por 10.000 usuários.

5.1.3 Simulando Partida Fria Pura

Para executar os experimentos do algoritmo proposto Item-MSMF abordado na Seção4.2, é necessário simular o problema de partida fria da filtragem colaborativa. Dessa maneira, ositens pertencentes ao conjunto de teste não podem pertencer ao conjunto de treinamento, já queo algoritmo não pode ter conhecimento de nenhuma avaliação realizada pelos usuários nos itensque estão no conjunto de teste.

A fim de simular a partida fria pura, os itens disponíveis nos conjuntos de dados foramdivididos aleatoriamente em 10 partições diferentes (por exemplo, em um conjunto de dadoscom 1.000 itens, cada partição terá 100 itens distintos). Desta forma, cada partição será compostapelas triplas (u, i,ru,i) dos seus respectivos itens. Na etapa seguinte, criamos os conjuntosde treinamento e teste, cujo conjunto de testes é composto por uma partição e o conjuntode treinamento pelas outras nove partições, como pode ser melhor visualizado na Figura 11.Portanto, os itens presentes no conjunto de teste não estarão presentes no conjunto de treinamento.Essas partições são trocadas 10 vezes, obtendo 10 diferentes, que são usadas em um protocolode validação cruzada.

5.1.4 Base de Conhecimento

Para este trabalho, utiliza-se uma base de conhecimento disponibilizada gratuitamentepara uso comercial e acadêmico. Por representar um domínio de conhecimento global a basede conhecimento DBpedia7 foi selecionada para os experimentos. Além disso, ela ofereceampla cobertura em vários domínios, facilitando a replicação de nossos experimentos em váriosconjuntos de dados.

6 https://grouplens.org/datasets/movielens/20m/7 http://wiki.dbpedia.org

5.1. Metodologia 77

Figura 11 – Divisão do conjunto de dados para simular partida fria.

A DBpedia é um projeto que extrai informações estruturadas da Wikipédia8 disponibilizando-as gratuitamente em diversos idiomas na Web. A DBpedia tem uma vasta cobertura sobre diversosdomínios, e suas informações RDF apontam para IRIs de outras bases de conhecimento, assimcomo outras bases apontam para IRIs da DBpedia. Essa base de conhecimento tem a vantagemde evoluir automaticamente à medida que a Wikipédia muda. A Figura 12 apresenta como umitem é visualizado no site da DBpedia9, nessa URI pode-se encontrar todas as informaçõessemânticas dos itens presentes no acervo.

A partir dessa base de conhecimento, usamos a propriedade dcterms: subject, pois é umapropriedade geral presente na maioria dos recursos. Esta propriedade relaciona um recurso àssuas categorias. Essas categorias são usadas na Wikipédia para ajudar os usuários a estruturar abase de conhecimento (NOIA et al., 2012).

Para realizar consultas na DBpedia, foi utilizada a ferramenta SPARQLWrapper10. Taisconsultas foram realizadas usando o endpoint11 disponível na DBpedia. A busca do item na basede conhecimento foi realizada utilizando o nome disponível no conjunto de dados, conforme aconsulta SPARQL:

8 https://www.wikipedia.org9 http://dbpedia.org/page/Toy_Story10 https://github.com/RDFLib/sparqlwrapper11 http://dbpedia.org/sparql


Figura 12 – Exemplo da página do filme Toy Story na DBpedia.

SELECT DISTINCT ?uri_item WHERE{

?uri_item a dbo:Film.?uri_item rdfs:label ?name.FILTER(REGEX(?name, ’^name_of_item$|

^name_of_item ’, "i"))FILTER(lang(?name) = ’en’)

}

Além de filtrar por nome, na consulta usamos rdf: type para filtrar os tipos de recursosretornados. Para filmes da base MovieLens, usamos o dbo: Film e para os artistas musicais dabase Yahoo, o dbo: Band. Além disso, foram considerados somente os resultados que estão noidioma Inglês, representado por ’en’ na consulta. Depois de extrair os IRIs dos itens, extraímosos metadados utilizando a propriedade dcterms: subject, da seguinte maneira:

SELECT DISTINCT ?subject WHERE{

<uri_item> dct:subject ?subject}

Sendo assim, para cada item do conjunto de dados encontramos seu correspondente nabase de conhecimento.

5.2. Métodos Avaliativos 79

5.1.4.1 Informações extraídas da LOD

Após realizada a extração das informações semânticas da base de conhecimento, tem-seas seguintes informações a respeito de cada base de dados, como podem serem visualizadas naTabela 1. Dessa maneira, tem-se uma matriz de itens x metadados para serem utilizados noscálculos de similaridade semântica.

Tabela 1 – Informações sobre os dados extraídos da base de conhecimento.

Base de dados Qtd. de itens Qtd. de categorias Média de categorias por item

MovieLens 100k 1.621 4.905 16,29Yahoo Music 3.678 4.555 6,67MovieLens 20M 5.702 11.650 11,24

∙ Movielens 100k: Da base de dados da MoviLens 100k, utiliza-se 1621 itens, desses itens,foram encontradas 4.905 categorias na base de conhecimento. A quantidade de categoriasrepresenta a quantidade de categorias únicas encontradas. A média de categorias por itemé 16,29.

∙ Yahoo Music: Da base de dados Yahoo Music, foram extraídas 4.555 categorias de 3.678itens. A média de categorias por item é 6,67.

∙ MovieLens 20M: Foram extraídas 11.650 categorias da base de dados Movielens 20M de5.702 itens. A média de categorias por item é 11,24.

5.2 Métodos AvaliativosNeste trabalho são utilizadas as métricas de avaliação apresentadas na Seção 2.1.3, cujo

objetivos visa avaliar a predição de notas e a recomendação dos itens. Para avaliar a prediçãode notas foi utilizada a métrica de avaliação RMSE (Raiz do Erro Quadrático Médio, do Inglês,Root Mean Square Error). E para avaliar as recomendações dos itens, foram utilizadas métricasde precisão em k, como o MAP (Média de Precisão, do Inglês, Mean Avegare Precision e o DCG(Ganho Acumulado Descontado, do Inglês Discounted Cumulative Gain).

O método de amostragem utilizado em todos os experimentos foi de validação cruzadaem 10-folds, o método foi utilizado devido sua ampla utilização para validar sistemas derecomendação. Na validação cruzada, a base de dados é dividida em dez partições, e utiliza-senove para o treinamento e uma para testes. Tal procedimento é repetido dez vezes, de modoque cada uma das partições seja utilizada como conjunto de testes. Essa divisão da base dedados será nomeada nos experimentos como base de dados normal (cenário normal). Navalidação cruzada normal, as unidades são separadas pelas triplas (u, i,ru,i), mas tal separaçãonão garante que cada partição de triplas possua somente itens únicos. Dessa maneira, foi utilizado


um modo de divisão para simular a partida fria de itens que garante essa divisão de itens únicosem cada partição, que foi abordado na Subseção 5.1.3. A divisão da base de dados preparadapara simular a partida fria, será nomeada nos experimentos como base de dados partida fria(cenário partida fria).

Para se observar se cada abordagem proposta é estatisticamente diferente dos baselines

comparados, foram feitos estudos estatísticos para comparar os resultados entre os modelosexistentes. Para isso, utilizou-se o teste t de Wilcoxon, o qual é um método não paramétrico paracomparação de duas amostras pareadas (FAY; PROSCHAN, 2010).

5.3 Resultados

Nesta seção são apresentados os resultados obtidos durante a realização dos experimentos.Os resultados desse trabalho se dividem em duas maneiras, primeiro avalia-se a métrica desimilaridade proposta, denominada Meta Distância LDSD e, posteriormente avalia-se o algoritmoproposto Item-MSMF. A proposta da métrica de similaridade é avaliada no cenário normal e aproposta do algoritmo é avaliado no cenário de partida fria.

5.3.1 Similaridade Meta Distância LDSD

Com o objetivo de avaliar a similaridade proposta e compará-la com as métricas baselines,utiliza-se uma abordagem baseada em conteúdo (JANNACH et al., 2010), que usa uma matriz desimilaridade baseada em atributos de itens para fazer predições, denominada ItemAttr em nossosexperimentos. Os experimentos foram realizados no cenário de ranques de itens, de maneira queé gerada uma lista de itens personalizada para cada usuário do sistema de recomendação. Osranques de itens foram avaliados com tamanho de 5, 10, 50 e 100 itens. Dessa maneira é possívelidentificar quais métricas possuem melhores precisões em tamanhos de ranques distintos.

Em relação à abordagem utilizada para realizar os experimentos, utilizam-se os vizinhos(k) mais similares para computar a pontuação de um determinado item para para um usuário. Éutilizado o número de vizinhos 10, 20 e 40 para computar a pontuação de cada item. Para avaliaro desempenho dos ranques gerados, são utilizadas a métrica de avaliação MAP e NDCG, queforam abordadas na Seção 2.1.3.

5.3.1.1 Avaliação Preliminar

Os primeiros experimentos investigaram qual é a melhor versão da métrica de simila-ridade proposta. Assim foram utilizadas três versões da métrica, a Versão 1 representa MetaDistância, isso é, a similaridade proposta na Seção 4.1.5 ainda não foi combinada com a si-milaridade LDSD. A Versão 2 utiliza a Versão 1 combinada com a métrica LDSD, mas semutilizar a ponderação da métrica LDSD elevada ao quadrado. E a versão final, denonimada Meta

5.3. Resultados 81

Distância LDSD, utiliza a Versão 2 realizando a ponderação da métrica LDSD ao quadrado,dando maior significância para o valor da Meta Distância.

Os experimentos preliminares foram avaliados na base de dados da MovieLens 100kpor questões de custo computacional. Foram utilizadas as métricas MAP e NDCG como podeser visualizado nas Tabelas 2 e 3 no cenário normal. Nos resultados, observa-se que quando amétrica Meta Distância é combinada com a LDSD (Versão 2 e Meta Distância LDSD) obtém-se um melhor desempenho que a métrica sem a combinação (Versão 1), esse desempenho éestatisticamente significativo comparando as métricas combinadas com a métrica sem utilizar acombinação. Os resultados evidenciam que a ponderação da LDSD elevada ao quadrado melhorao desempenho da métrica proposta em todos os valores de k e em ambas as métricas de avaliação.

Tabela 2 – Avaliação Preliminar. Movielens 100k. MAP.

MAP@5 MAP@10

Recomendador k = 10 k = 20 k = 40 k = 10 k = 20 k = 40

Versão 1 0.14309 0.14930 0.14682 0.14794 0.15451 0.15368Versão 2 0.23610 0.24381 0.23576 0.23064 0.23956 0.23276Meta Distância LDSD 0.24641 0.24389 0.23740 0.24085 0.24089 0.23650

MAP@50 MAP@100



Em negrito indica o melhor desempenho.

Tabela 3 – Avaliação Preliminar. Movielens 100k. NDCG.

NDCG@5 NDCG@10



NDCG@50 NDCG@100




A métrica Meta Distância (Versão 1) tem um resultado inferior quando comparado comas métricas combinadas, esse desempenho é esperado, pois essa métrica não utiliza apenas


as categorias diretamente relacionadas ao item para realizar o cálculo da similaridade. Dessaforma, a diferença das similaridades não são tão relevantes sozinhas, por isso a necessidade decombinação com uma outra métrica, que utiliza somente as categorias diretamente associadas aoitem para computar a similaridade.

Os resultados revelam a importância da proposta de similaridade Meta Distância, semconsiderar a combinação com a LDSD. Pois, ao combinar tal métrica com a LDSD, obtém-seum desempenho superior à métrica sem combinação, mas quando a LDSD é ponderada para daruma importância maior para a Meta Distância, obtêm-se um desempenho superior à métrica sema ponderação. Isso evidencia que a similaridade entre todas as categorias da base de dados temimportância no cálculo da similaridade entre os itens. Essas categorias se mostram importantesmesmo se elas não estão associadas diretamente ao item. Mas elas podem estar a uma distânciapequena do item no grafo de todas as categorias. Dessa maneira, a métrica proposta MetaDistância LDSD tem um desempenho superior quando a base de dados contém uma média maiorde categorias por item.

5.3.1.2 Avaliação Completa

Os experimentos da avaliação completa investigaram qual métrica de similaridade queutiliza informações semânticas tem melhor desempenho. Nessa avaliação, compara-se a métricaproposta Meta Distância LDSD, como descrito na Seção 4.1.5, com as métricas baselines:Modelo de Espaço Vetorial - VSM, descrita na Seção 4.1.2, Co-ocorrência - COO, descrita naSeção 4.1.3 e Distância Semântica em Dados Conectados - LDSD, descrita na Seção 4.1.4.

Os experimentos foram avaliados nas três bases propostas, e utilizando as métricas MAPe NDCG. Os resultados podem ser visualizados nas seguintes tabelas: MovieLens 100k naTabelas 4 e 5, apresentando as métricas avaliativas MAP e NDCG respectivamente, Yahoo Musicnas Tabelas 6 e 7 e MovieLens 20M nas Tabelas 8 e 9.

Na base de dados MovieLens 100k, a métrica proposta Meta Distância LDSD obtém omelhor desempenho que as métricas baselines em todos os valores de k, em todos os tamanhosde ranques e em ambas as métricas avaliativas. Os resultados da Meta Distância LDSD sãoestatisticamente significativos em p < 0,01. Como pode ser visualizado na Tabela 4, o melhordesempenho para MAP@5 foi com k=10, para ranques maiores de 10, 50 e 100 itens avaliados,o melhor desempenho foi para k=20. Para o NDCG, apresentado na Tabela 5, o valor de vizinhosque obteve melhor desempenho foi k=20 para todos os tamanhos de ranques. Nos gráficos daFigura 13, que apresenta a avaliação utilizando NDCG, pode se observar o melhor desempenhoda métrica de similaridade proposta em todos os cenários avaliados.

Na base de dados Yahoo Music, a métrica de Co-ocorrência - COO obtém o melhordesempenho que a métrica proposta e as métricas VSM e LDSD nos valores pra k=40. Nosgráficos da Figura 14 pode-se observar que a métrica proposta obtém um desempenho bempróximo da métrica COO nesse valor de k=40, e nos valores para k=10 e k=20, a métrica Meta

5.3. Resultados 83

Tabela 4 – Avaliação Completa - Movielens 100k. MAP.

MAP@5 MAP@10


VSM 0.20343 0.21357 0.20401 0.20170 0.20980 0.20333COO 0.22464 0.22877 0.22828 0.22343 0.22803 0.22916LDSD 0.22622 0.22166 0.23000 0.22289 0.22074 0.22957Meta Distância LDSD 0.24641* 0.24389 0.23740 0.24085 0.24089* 0.23650

MAP@50 MAP@100


VSM 0.15723 0.16101 0.15670 0.13208 0.13580 0.13188COO 0.17302 0.17437 0.17742 0.14656 0.14822 0.14983LDSD 0.17079 0.17018 0.17677 0.14353 0.14477 0.14922Meta Distância LDSD 0.18235 0.18271* 0.18124 0.15350 0.15447** 0.15279

Em negrito indica o melhor desempenho. * indica significância estatística em p < 0,01, ** indicasignificância estatística em p < 0,05, em comparação com os outros resultados do mesmo

número de k.

Tabela 5 – Avaliação Completa - Movielens 100k. NDCG.

NDCG@5 NDCG@10


VSM 0.26704 0.27193 0.26216 0.27955 0.28512 0.28042COO 0.29653 0.29673 0.29963 0.31452 0.31740 0.32310LDSD 0.29520 0.29205 0.30205 0.31066 0.31126 0.32257Meta Distância LDSD 0.31021 0.31329* 0.30742 0.32635 0.33115* 0.32908

NDCG@50 NDCG@100


VSM 0.28808 0.29425 0.29438 0.29002 0.29680 0.29779COO 0.32324 0.32765 0.33360 0.32419 0.32945 0.33450LDSD 0.32011 0.32419 0.33514 0.32157 0.32685 0.33607Meta Distância LDSD 0.33351 0.33863* 0.33772 0.33281 0.33809* 0.33739

Em negrito indica o melhor desempenho. * indica significância estatística em p < 0,01, emcomparação com os outros resultados do mesmo número de k.

Distância LDSD obtém melhor desempenho que todas as métricas baselines.

Na base de dados MovieLens 20M, a métrica Meta Distância LDSD obtém o melhordesempenho comparando com as métricas baselines em todos os valores de k, e também paratodos valores de ranques e métricas avaliativas, com desempenho estatisticamente significativo.O melhor desempenho da métrica de similaridade para avaliação MAP foi com o valor de k=10para todos os tamanhos de ranques avaliados, como pode ser visto na Tabela 8. A avaliaçãoconsiderando a métrica NDCG, apresentada na Tabela 9, teve o melhor desempenho com o valor


Figura 13 – Avaliação completa utilizando NDCG na base de dados MovieLens 100k.

Tabela 6 – Avaliação Completa - Yahoo Music. MAP.

MAP@5 MAP@10


VSM 0.03235 0.04040 0.04488 0.03840 0.04704 0.05269COO 0.09561 0.11050 0.12287* 0.10257 0.11774 0.12920*LDSD 0.10450 0.11405 0.10560 0.11076 0.12099 0.11357Meta Distância LDSD 0.10790 0.11772 0.11566 0.11531 0.12447 0.12326

MAP@50 MAP@100




de k=10 para ranques de 5, 10 e 50, e para ranques de 100 itens, o melhor k foi 20, como podeser melhor visualizado nos gráficos da Figura 15.

Os resultados revelam que a métrica Meta Distância LDSD tem desempenho superiornas bases de dados MovieLens 100k e MovieLens 20M, considerando todos os valores de k, e

5.3. Resultados 85

Tabela 7 – Avaliação Completa - Yahoo Music. NDCG.

NDCG@5 NDCG@10



NDCG@50 NDCG@100


VSM 0.10534 0.12178 0.13809 0.11965 0.13627 0.15308COO 0.18707 0.20932 0.22189* 0.19283 0.21501 0.22802*LDSD 0.19287 0.21036 0.21010 0.19906 0.21595 0.21774Meta Distância LDSD 0.20150 0.21637 0.21946– 0.20656 0.22154 0.22592–

Em negrito indica o melhor desempenho. * indica significância estatística em p < 0,01, emcomparação com os outros resultados do mesmo número de k. – indica que não teve

significância estatística comparado com o melhor resultado.

Tabela 8 – Avaliação Completa - Movielens 20M. MAP.

MAP@5 MAP@10


VSM 0.09405 0.09491 0.08957 0.09972 0.10102 0.09620COO 0.11301 0.11524 0.12106 0.12212 0.12358 0.12901LDSD 0.16024 0.14815 0.13556 0.16450 0.15318 0.14157Meta Distância LDSD 0.17044* 0.16805 0.15998 0.17404* 0.17176 0.16452

MAP@50 MAP@100




tamanhos de ranques e nas duas métricas avaliativas. Conforme apresentado na Seção 5.1.4.1,essas duas bases de dados são do domínio de filmes, e possuem uma média de categorias poritem relativamente maior do que a base de dados Yahoo Music, que é do domínio de artistasmusicais. A média de categorias por item é 16,29 para a base da MovieLens 100k, 6,67 para abase da Yahoo Music e 11,24 para a base da MovieLens 20M. Tais categorias estão relacionadasdiretamente com o item e, a partir dos resultados obtidos, pode-se observar que a quantidadede categorias por item influencia no cálculo das distâncias semânticas das similaridades. Dessamaneira, a proposta de combinar uma métrica de distância semântica que utiliza somente as


Figura 14 – Avaliação completa utilizando NDCG na base de dados Yahoo Music.

Tabela 9 – Avaliação Completa - Movielens 20M. NDCG.

NDCG@5 NDCG@10



NDCG@50 NDCG@100


VSM 0.17122 0.17606 0.17309 0.18056 0.18455 0.18241COO 0.21462 0.21676 0.22413 0.22026 0.22196 0.22861LDSD 0.24497 0.23808 0.22900 0.24692 0.24157 0.23356Meta Distância LDSD 0.25338* 0.25227 0.24697 0.25377 0.25390* 0.24925Em negrito indica o melhor desempenho. * indica significância estatística em p < 0,01, em

comparação com os outros resultados do mesmo número de k.

categorias associadas diretamente com uma métrica que realiza o cálculo da distância para todasas categorias da base obtém um resultado superior que as métricas utilizadas separadamente namaioria dos casos.

Na maioria dos experimentos, a métrica proposta Meta Distância LDSD obteve um

5.3. Resultados 87

Figura 15 – Avaliação completa utilizando NDCG na base de dados MovieLens 20M.

desempenho superior às métricas consideradas baselines para esse trabalho. A métrica propostatem alguns diferenciais em relação às métricas baselines, dentre eles: a) a Meta Distância LDSDfaz uso de todas as categorias da base de dados para realizar o cálculo da similaridade, dessamaneira, todas as categorias influenciam para o cálculo, até as categorias que não têm relaçãonenhuma com o item podem auxiliar o cálculo da similaridade, e b) a métrica utiliza a hierarquiada base de conhecimento para computar as distâncias semânticas entre o item e suas respectivascategorias, dessa maneira, o nível hierárquico que a categoria está localizada no grafo da base deconhecimento também auxilia o cálculo.

5.3.2 Item-MSMF com Similaridade Semântica entre Items

Com a finalidade de avaliar o algoritmo proposto e compará-lo com os baselines, osexperimentos investigaram o desempenho dos algoritmos em um cenário de partida fria. Comobaselines foram selecionados o algoritmo fatoração de matrizes (MF) padrão, o algoritmo defatoração de matrizes gSVD++, abordado na Seção 2.1.2.2, e uma abordagem baseada emconteúdo, denominado nos experimentos como ItemAttrP, que utiliza a matriz de atributos paracomputar a similaridade entre os itens.

Em relação aos parâmetros dos algoritmos, definimos um conjunto de valores combom desempenho para todos os conjuntos de dados. Para algoritmos de fatoração de matriz, osexperimentos foram executados para fatores iguais a 10, 30, 50 e foi escolhido 10, uma vez


que forneceu os melhores resultados em todos os conjuntos de dados. Para outros parâmetros,utilizam-se valores padrão de cada ferramenta de recomendação e biblioteca escolhida.

A Tabela 10 apresenta os resultados do algoritmo proposto Item-MSMF para os conjuntosde dados MovieLens 100k, Yahoo Music e MoviLens 20M, usando três valores diferentes devizinhos k, para avaliar o comportamento desse parâmetro para escolher o melhor deles paracomparar com os outros baselines. Para o conjunto de dados MovieLens 100k, o melhor valorde k foi 10, para o Yahoo Music também foi 10, enquanto para a base de dados MovieLens 20M

foi 20.

Tabela 10 – Comparação do RMSE do Item-MSMF nos três conjuntos de dados, usando três diferentesnúmeros de vizinhos.

Recomendador k = 10 k = 20 k = 40

Movielens 100k

Item-MSMF - VSM 1.01031 1.01228 1.01981Item-MSMF - COO 0.97893 0.98355 0.99402Item-MSMF - LDSD 0.97895 0.98368 0.99240Item-MSMF - Meta Distância LDSD 0.99051 0.99316 1.00176

R1 - Yahoo Music

Item-MSMF - VSM 0.95730 0.95476 0.95464Item-MSMF - COO 0,94273 0,94247 0,94482Item-MSMF - LDSD 0.94354 0.94240 0.944574Item-MSMF - Meta Distância LDSD 0.94192 0.94213 0.944577

Movielens 20M

Item-MSMF - VSM 0.97147 0.96807 0.96940Item-MSMF - COO 0.96406 0.96381 0.96511Item-MSMF - LDSD 0.96893 0.96864 0.96907Item-MSMF - Meta Distância LDSD 0.96849 0.96559 0.96562


A Tabela 11 apresenta os resultados do algotitmo baseline ItemAttrP para os conjuntosde dados MovieLens 100k, Yahoo Music e MoviLens 20M, usando três valores diferentes devizinhos. Para o conjunto de dados MovieLens 100k, o melhor valor de k foi 40, para o YahooMusic foi 20, enquanto para a base de dados MovieLens 20M foi 40.

Na Tabela 12, podemos notar uma redução considerável no erro do algoritmo Item-MSMFproposto quando comparado com os baselines, usando os melhores valores de k, apresentados naTabela 10. A melhoria na predição é clara para os novos itens em todos os conjuntos de dados. Nabase MovieLens 100k, como pode ser melhor visualizado no gráfico da Figura 16, o Item-MSMFalcançou a maior redução de erros com uma redução de até 9,95% em comparação com o MFtradicional. Na base Yahoo Music, apresentada no gráfico da Figura 17, nota-se uma granderedução do erro do Item-MSMF em comparação com o ItemAttrP, além disso, tem desempenho

5.3. Resultados 89

Tabela 11 – Comparação do RMSE do ItemAttrP nos três conjuntos de dados, usando três diferentesnúmeros de vizinhos.

Recommender k = 10 k = 20 k = 40

Movielens 100k

ItemAttrP - VSM 1.08622 1.07851 1.07846ItemAttrP - COO 1.09293 1.08500 1.08577ItemAttrP - LDSD 1.09613 1.08818 1.08946ItemAttrP - Meta Distância LDSD 1.09309 1.08407 1.08373

R1 - Yahoo Music

ItemAttrP - VSM 1.21416 1.20871 1.20898ItemAttrP - COO 1,21923 1,21269 1,21199ItemAttrP - LDSD 1.22219 1.21499 1.21394ItemAttrP - Meta Distância LDSD 1.22598 1.21865 1.21680

Movielens 20M

ItemAttrP - VSM 1.05411 1.04897 1.04844ItemAttrP - COO 1.05341 1.04892 1.04919ItemAttrP - LDSD 1.05505 1.05062 1.05090ItemAttrP - Meta Distância LDSD 1.05538 1.05030 1.04987


melhor estatisticamente significativo que os algoritmos baselines baseados em fatoração dematrizes. Na base da Movielens 20M, o algortimo Item-MSMF também tem desempenho melhorque os baselines, como pode ser melhor visualizado no gráfico da Figura 18.

Tabela 12 – Comparação dos modelos relacionados utilizando RMSE.

Recomendador Movielens 100k Yahoo Music Movielens 20M

MF 1,08714 1,02921 0.99494**

gSVD++ 1,04975 1,02958 0.98186***

ItemAttrP - VSM 1.07846 1.20871 1.04844ItemAttrP - COO 1.08577 1,21269 1.04919ItemAttrP - LDSD 1.08946 1.21499 1.05090ItemAttrP - Meta Distância LDSD 1.08373 1.21865 1.04987

Item-MSMF - VSM 1.01031 0.95730 0.96807Item-MSMF - COO 0.97893* 0,94273 0.96381*Item-MSMF - LDSD 0.97895 0.94354 0.96864Item-MSMF - Meta Distância LDSD 0.99051 0.94192* 0.96559Em negrito indica o melhor desempenho. * indica significância estatística em p < 0,01, em

comparação com os baselines MF, gSVD++ e ItemAttrP. ** indica significância estatística em p< 0,05, em comparação entre o melhor resultado e MF. *** indica significância estatística em p

< 0,10, em comparação entre o melhor resultado e gSVD++.

A Tabela 13 apresenta uma comparação do cálculo das similaridades em termos de tempo


Figura 16 – Comparação dos modelos relacionados utilizando RMSE na base de dados MovieLens 100k.

Figura 17 – Comparação dos modelos relacionados utilizando RMSE na base de dados Yahoo Music.

computacional, enquanto que a Tabela 14 apresenta uma comparação do melhor desempenho dosalgoritmos em termos de tempo computacional usando as três bases de dados. Tais resultadosforam obtidos usando um computador pessoal com um processador Intel Core i7 6800K rodandoa 3.40GHz e com 32 GB de RAM DDR4, com o sistema operacional Microsoft Windows 10.

Com base na Tabela 13, nota-se que as similaridades VSM, COO e LDSD têm um custocomputacional equivalente nas três bases de dados. Por outro lado, a similaridade Meta DistânciaLDSD necessita de um alto poder computacional para computar as similaridades. Todas assimilaridades foram implementadas de maneira sequencial, desse modo, utilizaram somenteum núcleo de processamento da máquina. A similaridade Meta Distância LDSD requer maistempo de processamento porque realiza o cálculo da distância de todos os itens para todas ascategorias da base de dados. Dessa maneira, quanto mais categorias uma base possui, mais

5.3. Resultados 91

Figura 18 – Comparação dos modelos relacionados utilizando RMSE na base de dados MovieLens 20M.

Tabela 13 – Comparação do tempo computacional do cálculo das similaridades em segundos.

Similaridade Movielens 100k Yahoo Music MovieLens 20M

VSM 6,3709 30,7133 395.6788COO 14,5957 72,4976 361.0015LDSD 14,9405 60,6891 395.4113Meta Distância LDSD 1106.6551 3923.6814 95000.7611

tempo de processamento a similaridade irá demandar. Mas todo o processamento de cálculo desimilaridades pode ser realizado offline.

Para avaliar o custo computacional dos algoritmos Item-MSMF e ItemAttrP necessita-sedo tempo computacional das similaridades, que foi apresentado anteriormente na Tabela 13.Dessa maneira, a partir da Tabela 14, notamos que tanto o Item-MSMF quanto o MF têm temposequivalentes para treinamento e previsão, mostrando que nenhum custo adicional é imposto pararecomendações de novos itens. No entanto, o Item-MSMF precisa de uma matriz de similaridadepré-computada, que requer tempo adicional antes do treinamento. Além disso, podemos notaruma diferença significativa entre o Item-MSMF e o gSVD ++, porque o modelo proposto nãousa metadados na etapa de treinamento. Finalmente, comparando os tempos computacionais deambos, Item-MSMF e ItemAttrP, nota-se que o ItemAttrP demanda o menor custo computacionalentre as abordagens avaliadas, por outro lado é o algoritmo que apresenta o pior desempenhoentre os modelos avaliados nesse trabalho.

Os experimentos mostram que o Item-MSMF obteve melhores resultados do que o usodos recomendadores baseados no modelo de fatoração de matriz tradicional nos três conjuntosde dados. Isso porque podemos inferir a representatividade de novos itens por itens semelhantes,agregando mais poder preditivo ao sistema de recomendação. Nossa abordagem melhora con-sistentemente o desempenho da predição para itens que não receberam nenhuma interação do


Tabela 14 – Comparação do tempo computacional dos algoritmos em segundos.

Recomendador Tempo de Treinamento Tempo de Predição Total s/ Sim. Usa Sim.

Movielens 100k

MF 42,2271 0,0241 42,2512 NãogSVD++ 4099,1318 0,5072 4099,639 NãoItemAttrP 2,6709 2,0335 4,7044 SimItem-MSMF 42,6888 0,1705 42,8593 Sim

Yahoo Music


Movielens 20M


usuário em todos os conjuntos de dados. Isso ocorre porque os vetores de fatores latentes dosnovos itens não são bem treinados, pois não recebem interações, ou seja, os vetores de fatoreslatentes dos novos itens não são ajustados para gerar corretamente a predição. Assim, quandosubstituímos o vetor do novo item pela média ponderada dos vetores dos itens mais similares,obtemos melhor precisão na predição.

Além de comparar nossa abordagem com a abordagem tradicional de MF, tambéma comparamos com o gSVD++, que incorpora os metadados dos itens em seu modelo derecomendação. Podemos observar que nossa abordagem obtém melhores resultados em todos osconjuntos de dados. Como o gSVD++ incorpora metadados em seu modelo, ele pode amenizar oproblema de partida fria em alguns casos, mas há situações em que alguns metadados podem terpoucas interações, resultando em um treinamento impreciso.

Em relação ao algoritmo ItemAttrP baseado em conteúdo, embora tenhamos usado amesma matriz de similaridade de itens para o baseline e proposta, podemos ver que nossaabordagem atinge melhor precisão em todas as métricas e conjuntos de dados. Isso mostra aeficácia do uso de um modelo de fatoração de matriz modificado para abordar o problema departida fria.

5.3. Resultados 93

5.3.3 Item-MSMF com Similaridade Baseada em Análise de Senti-mento

Nesta seção, serão apresentados os resultados que o algoritmo obteve sendo experimen-tado com outros tipos de similaridades entre itens, comprovando assim a eficácia do Item-MSMFcom outras similaridades, além da similaridade que utiliza informações extraídas da nuvem LOD,como foi apresentado na seção anterior. Os experimentos foram publicados em um trabalho adici-onal cujo objetivo era propor quatro representações de itens baseadas em diferentes informaçõessemânticas, como análise de sentimento, desambiguação e vetores densos D’Addio et al. (2018).O trabalho aplica essas quatro representações dos itens no algoritmo Item-MSMF com o objetivode amenizar o problema da partida fria. A comparação é feita com o algoritmo MF padrão.

No trabalho, foram utilizados dois conjuntos de dados, o primeiro é o MovieLens 100k(ML-100k) já utilizados anteriormente, e o segundo é um dos conjuntos de dados da Amazonextraídos por McAuley, Pandey e Leskovec (2015). Para os experimentos, foram selecionados oconjunto de dados do Google Apps para Android, que é o quinto maior conjunto de dados dacoleção. O conjunto de dados original tem 2.638.172 aplicações de 1.323.884 usuários por 61.275itens. Desse conjunto de dados, foi filtrado um subconjunto mantendo apenas classificaçõesque contêm comentários e eliminando itens e usuários que tiveram menos de 10 interações,resultando em 16.201 usuários e 4.869 itens, totalizando 2.640.047 interações (D’ADDIO et al.,2018).

Para avaliação dos experimentos, foi utilizado o RMSE. Para avaliar o Item-MSMF,o valor de k=10 foi escolhido para os experimentos, esse valor foi selecionado devido aomelhor desempenho na experimentação entre os valores 10, 20 e 40 vizinhos. Os resultadossão apresentados na Tabela 15, que compara as diferentes representações dos itens utilizandoo Item-MSMF contra o algoritmo de fatoração de matrizes padrão (MF). Os experimentosevidenciam o ótimo desempenho do Item-MSMF em comparação com a abordagem tradicionalMF. Dessa maneira, esse experimento comprova ainda mais a eficácia do algoritmo propostopara amenizar o problema de partida fria.

Tabela 15 – Comparação do RMSE nos dois conjunto de dados.

Recomendador Representação do Item ML-100k Amazon Apps

MF - 1.0664 1.2497

Item-MSMF Sentiment concepts 1.0118* 1.2171*Item embeddings 1.0311* 1.2387Full similarity 1.0404* 1.2368**Mentioned similarity 1.0159* 1.2153*

Em negrito indica o melhor desempenho. * indica significância estatística em p < 0.01, e **indica significância estatística em p < 0.05, em comparação com o resultado de MF.

No trabalho, os autores propuseram quatro representações de itens ricos que usam três


tipos de semântica. As representações foram aplicadas em dois sistemas de recomendação paraajudar a suavizar o problema de partida a frio do item, um dos algoritmos experimentados foi oalgoritmo proposto nesse trabalho, o Item-MSMF. Os resultados mostram que as descrições dositens ajudam a minimizar o erro de predição para novos itens.

5.4 Considerações FinaisNeste capítulo apresentaram-se todos os experimentos realizados na confecção deste

trabalho. Os resultados foram divididos em três subseções, a primeira apresentou os resultados damétrica de similaridade proposta, a Meta Distância LDSD, que teve sua avaliação considerandoo cenário normal de avaliações. A segunda e a terceira subseções apresentaram os resultados doalgoritmo proposto para amenizar o problema de partida fria, o Item-MSMF, que foram avaliadosno cenário preparado para simular o problema de partida fria.

Os resultados foram avaliados em três bases de dados, que diferem principalmente emtamanho e características dos metadados dos itens, além disso, são bases de domínios diferentes,sendo duas bases de dados do domínio de filmes e uma do domínio de artistas musicais.

De modo geral, os experimentos evidenciaram que a inclusão de informações semânticasadvindas das bases de conhecimento podem beneficiar sistemas de recomendação de diversasmaneiras. Neste trabalho foram utilizadas tais informações semânticas para a proposta de métricade similaridade, que obteve um desempenho superior às outras métricas na maioria das basesde dados. Além de serem utilizadas no algoritmo Item-MSMF, que utilizou as informaçõessemânticas para amenizar o problema de partida fria e obteve desempenho superior em todas asbases de dados avaliadas.

No próximo capítulo conclui-se este documento, listando-se as principais contribuições,trabalhos publicados e algumas direções para trabalhos futuros.

95

CAPÍTULO

6CONCLUSÕES E TRABALHOS FUTUROS

No capítulo anterior foram apresentados todos os experimentos realizados neste trabalho,juntamente com uma discussão dos resultados obtidos. Neste capítulo, por sua vez, conclui-seeste documento, apresentando-se novamente um resumo do trabalho, suas contribuições, osartigos gerados e publicados até o período e, finalmente, algumas direções para trabalhos futuros.

6.1 Resumo do Trabalho

Este trabalho teve como objetivo investigar como relações semânticas computadas apartir das bases de conhecimento disponíveis na Web dos Dados podem beneficiar sistemas derecomendação. Em particular, este trabalho explorou duas questões neste contexto: i) como asimilaridade de itens pode ser calculada com base em informações semânticas coletadas das basesde conhecimento para explorar a hierarquia das categorias nessas bases de conhecimento, alémde influenciar na resolução de problemas provenientes da ausência de semântica na descriçõesdos itens; e ii) como semelhanças entre os itens podem ser combinadas em uma técnica defatoração de matrizes, de modo que o problema da partida fria de itens possa ser efetivamenteamenizado.

O projeto se dividiu em duas arquitetura distintas, a primeira arquitetura representa omódulo de similaridade semântica, que é responsável pela extração das categorias semânticas dabase de conhecimento e, posteriormente, realizar o cálculo das similaridades entre os itens dabase de dados. Além disso, tem-se a arquitetura que representa o módulo de recomendação parao algoritmo Item-MSMF, que visa gerar predições para os novos itens do sistema, amenizando oproblema da partida fria.

Durante o desenvolvimento desse trabalho, foram realizados experimentos que compara-ram o desempenho das propostas com baselines. Os experimentos foram executados de modo apossibilitar a análise do desempenho da métrica de similaridade proposta Meta Distância LDSD

96 Capítulo 6. Conclusões e trabalhos futuros

no cenário normal de avaliações e a análise do algoritmo proposto Item-MSMF no cenário departida fria.

De modo geral, verificou-se que a métrica Meta Distância LDSD obteve melhor desem-penho na maioria das bases e dados avaliadas, mostrando a importância de utilizar a hierarquiadas categorias das bases de conhecimento no cálculo da semelhança dos itens, além de utilizartodas as categorias da base de dados, trazendo assim uma maior carga semântica para os itens.

Para o algoritmo Item-MSMF, verificou-se que o mesmo ameniza o problema de partidafria com precisão, obtendo melhor desempenho em todas as bases de dados avaliadas. Isso mostraa eficácia do uso de um modelo de fatoração de matriz modificado para abordar o problema departida fria incorporado com informações semânticas.

Os resultados de ambas as propostas geram expectativas positivas em relação ao uso dedescrições semânticas em sistemas de recomendação para amenizar o problema de partida fria emelhorar a precisão das recomendações.

6.2 Contribuições da Pesquisa

As principais contribuições desta pesquisa são:

∙ Avaliação de diferentes técnicas de similaridades entre itens e comparação em sistemas derecomendação;

∙ Apresentação de uma nova métrica de similaridade entre itens, que explora as descriçõessemânticas dos itens na base de conhecimento, explorando sua estrutura hierárquica;

∙ Apresentação de uma nova técnica baseada em fatoração de matrizes para amenizar oproblema de partida fria de itens.

Nas seções seguintes apresentam-se as conclusões finais e possíveis aplicações para oproduto deste trabalho, e as publicações realizadas durante seu desenvolvimento.

6.2.1 Conclusões e Aplicações

Durante os experimentos realizados neste trabalho, foram analisadas técnicas de similari-dade semântica e algoritmos de sistemas de recomendação baseado em fatoração de matrizes.

Os experimentos analisaram quatro métricas de similaridade que utilizam informaçõesadvindas das bases de conhecimento. As métricas foram comparadas entre si utilizando trêsconjunto de dados de diferentes domínio. A partir da análise dos resultados, observou-se que autilização de todas as categorias da base de dados no cálculo da similaridade produziu um melhordesempenho na maioria das vezes, além da utilização da hierarquia das categorias para calcular a

6.2. Contribuições da Pesquisa 97

distância semântica entre elas e o item. Também, foi observado que a técnica de similaridadeMeta Distância LDSD funciona bem em bases de dados que possuem mais categorias associadasdiretamente ao item. A métrica de similaridade apresentada funciona para qualquer tipo dedomínio, bastando apenas selecionar a base de conhecimento que possui tais informações sobreo domínio.

Além disso, este trabalho apresentou o Item-MSMF, uma abordagem baseada na fatora-ção de matrizes que explora as semelhanças entre os itens para substituir os vetores de fatoreslatentes de novos itens, os quais, em abordagens tradicionais de MF, são geralmente descon-siderados. Foi comparado o método proposto com diferentes baselines, usando três conjuntosde dados de diferentes domínios. Os resultados mostraram a eficiência de nossa abordagemno cenário de partida fria. A principal vantagem da abordagem proposta é a possibilidade defornecer um vetor de fatores latentes mais representativo baseado em itens vizinhos semelhantes,reduzindo consequentemente, os efeitos da partida fria. Além disso, a abordagem calcula assimilaridades dos itens com base nas descrições semânticas, que são reunidas a partir das basesde conhecimento disponíveis. De fato, com pouco esforço, o Item-MSMF pode ser estendido aqualquer algoritmo de fatoração de matrizes e usar diferentes tipos de métricas de similaridadebaseadas em metadados para calcular as correlações dos itens.

Diante das análises realizadas, é possível concluir que sistemas de recomendação podemse beneficiar do uso de informações semânticas extraídas das bases de conhecimento de diversasmaneiras, produzindo métricas de similaridades mais robustas, melhorando a qualidade dasrecomendações, além de auxiliar a amenizar o problema de partida fria da filtragem colaborativa.Sendo assim, a partir dos resultados, observa-se que os ganhos mais perceptíveis desse trabalhoestão na proposta do algoritmo Item-MSMF que ameniza o problema da partida fria utilizandoas relações entre os itens

6.2.2 Trabalhos Submetidos e Publicados

Nesta seção, apresentam-se os trabalhos publicados e submetidos neste período.

∙ Publicação de artigo completo:

Título: Similarity-based Matrix Factorization for Item Cold-Start in Recommender Sys-tems.

Autores: Eduardo P. Fressato, Arthur F. da Costa and Marcelo G. Manzato.

Conferência: The 7th Brazilian Conference on Intelligent Systems (BRACIS).

Data: 22 a 25 de outubro de 2018.

Local: São Paulo, SP, Brasil.

Abstract: In recommender systems (RS) one of the most used approaches is collaborativefiltering (CF), which recommends items according to the behavior of similar users. Among

98 Capítulo 6. Conclusões e trabalhos futuros

CF approaches, those based on matrix factorization are generally more effective becausethey allow the system to discover the underlying characteristics of interactions betweenusers and items. However, this approach presents the cold-start problem, which occursbecause of the system’s inability to recommend new items and/or accurately predict newusers’ preferences. This paper proposes a novel matrix factorization approach, whichincorporates similarity of items using their metadata, in order to improve the ratingprediction task in an item cold-start scenario. For this purpose, we explore semanticdescriptions of items which are gathered from knowledge bases available online. Ourapproach is evaluated in two different and publicly available datasets and compared againstcontent-based and collaborative algorithms. The experiments show the effectiveness of ourapproach in the item cold-start scenario.

∙ Publicação de artigo completo (com prêmio de melhor artigo da conferência):

Título: Incorporating Semantic Item Representations to Soften the Cold Start Problem.

Autores: Rafael M. D’Addio, Eduardo P. Fressato, Arthur F. da Costa, and Marcelo G.Manzato.

Conferência: The 24th Brazilian Symposium on Multimedia and the Web (WebMedia’18).

Data: 16 a 19 de outubro de 2018.

Local: Salvador, BA, Brasil.

Abstract: Recommender systems have been extensively used to provide meaningfuland personalized content to users. A recurring issue, especially in collaborative filteringmethods, is the cold-start problem, which can be related to new items or new users. Thisproblem can be smoothed by aggregating item information into the recommender calcula-tion, thus the semantics behind these items representations are important. In this paper, wepropose four rich item representations, based on three kinds of semantics: sentiment analy-sis, sense embeddings and similarities. The items’ features are disambiguated conceptsextracted from textual users’ reviews, which are known for possessing a great informationload with both item descriptions and user preferences. We apply these four representationsin two classic collaborative filtering algorithms, which were adapted to be attribute aware.We compare our approach against the original recommenders, and evaluate our results intwo very different datasets to show the generality of our approach. Results show a verypositive influence of the item representations to reduce prediction error.

∙ Publicação de demonstração de ferramenta:

Título: Case recommender: a flexible and extensible python framework for recommendersystems.

Autores: Arthur da Costa, Eduardo Fressato, Fernando Neto, Marcelo Manzato, andRicardo Campello.

6.3. Trabalhos Futuros 99

Conferência: The 12th ACM Conference on Recommender Systems (RecSys ’18).

Data: 02 de outubro de 2018.

Local: Vancouver, British Columbia, Canada.

Abstract: This paper presents a polished open-source Python-based recommender fra-mework named Case Recommender, which provides a rich set of components from whichdevelopers can construct and evaluate customized recommender systems. It implementswell-known and state-of-the-art algorithms in rating prediction and item recommendationscenarios. The main advantage of the Case Recommender is the possibility to integrateclustering and ensemble algorithms with recommendation engines, easing the developmentof more accurate and efficient approaches.

6.3 Trabalhos FuturosFinalizada a realização deste trabalho, ainda há espaço para a sua contribuição e aper-

feiçoamento. Registram-se nesta seção, portanto, algumas sugestões de trabalhos futuros quepodem dar prosseguimento a esta pesquisa.

Para o algoritmo Item-MSMF:

∙ Aplicar a técnica do algoritmo Item-MSMF em diferentes tipos de metadados e métricasde similaridade.

∙ Aplicar a técnica de substituição dos vetores em algoritmos de fatoração de matrizes maisrobustos, uma vez que é uma técnica flexível e aplicável em diversas abordagens.

∙ Estender o modelo Item-MSMF para amenizar também o problema de partida fria deusuários.

Para a métrica de similaridade Meta Distância LDSD:

∙ Utilizar outras métricas de similaridades de distâncias para computar as similaridadesentre os vetores de distâncias do item para as categorias.

∙ Estender a métrica de similaridade para ponderar o caminho da distância entre o item e ometadado.

∙ Estudar técnicas para filtrar as categorias mais relevantes de cada item para calcular asdistâncias para o item, para assim, reduzir o custo computacional.

101

REFERÊNCIAS

ADOMAVICIUS, G.; TUZHILIN, A. Toward the next generation of recommender systems: Asurvey of the state-of-the-art and possible extensions. IEEE Trans. on Knowl. and Data Eng.,IEEE Educational Activities Department, Piscataway, NJ, USA, v. 17, n. 6, p. 734–749, jun.2005. ISSN 1041-4347. Disponível em: <http://dx.doi.org/10.1109/TKDE.2005.99>. Citadonas páginas 32, 33, 34 e 37.

AGGARWAL, C. C. Recommender Systems - The Textbook. Springer, 2016. ISBN 978-3-319-29657-9. Disponível em: <https://doi.org/10.1007/978-3-319-29659-3>. Citado nas páginas 23e 44.

ALLEMANG, D.; HENDLER, J. Semantic Web for the Working Ontologist: Effective Mo-deling in RDFS and OWL. 2. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.,2011. ISBN 9780123859655, 9780123859662. Citado na página 45.

BIZER, C.; HEATH, T.; BERNERS-LEE, T. Linked data-the story so far. Semantic Services,Interoperability and Web Applications: Emerging Concepts, p. 205–227, 2009. Citado napágina 45.

BOBADILLA, J.; ORTEGA, F.; HERNANDO, A.; GUTIÉRREZ, A. Recommender systemssurvey. Know.-Based Syst., Elsevier Science Publishers B. V., Amsterdam, The Netherlands,The Netherlands, v. 46, p. 109–132, jul. 2013. ISSN 0950-7051. Disponível em: <http://dx.doi.org/10.1016/j.knosys.2013.03.012>. Citado nas páginas 24, 25, 33, 34, 42, 43 e 44.

BOKDE, D.; GIRASE, S.; MUKHOPADHYAY, D. Matrix factorization model in collaborative fil-tering algorithms: A survey. Procedia Computer Science, v. 49, p. 136 – 146, 2015. ISSN 1877-0509. Disponível em: <http://www.sciencedirect.com/science/article/pii/S1877050915007462>.Citado nas páginas 24 e 25.

CAZELLA, S. C.; NUNES, M.; REATEGUI, E. B. A ciência da opinião: Estado da arteem sistemas de recomendação. In: XXX Congresso da Sociedade Brasileira de Computa-ção—Jornada de Atualização em Informática (JAI). Belo Horizonte, MG, Brasil: [s.n.],2010. p. 161–216. Citado nas páginas 30 e 34.

COSTA, A. da; FRESSATO, E.; NETO, F.; MANZATO, M.; CAMPELLO, R. Case recom-mender: A flexible and extensible python framework for recommender systems. In: Proce-edings of the 12th ACM Conference on Recommender Systems. New York, NY, USA:ACM, 2018. (RecSys ’18), p. 494–495. ISBN 978-1-4503-5901-6. Disponível em: <http://doi.acm.org/10.1145/3240323.3241611>. Citado na página 74.

COSTA, A. F. da; MANZATO, M. G. Case recommender: A recommender framework. 2016.Citado na página 74.

D’ADDIO, R. M.; FRESSATO, E. P.; COSTA, A. F. da; MANZATO, M. G. Incorporating seman-tic item representations to soften the cold start problem. In: Proceedings of the 24th BrazilianSymposium on Multimedia and the Web. New York, NY, USA: ACM, 2018. (WebMedia ’18),

102 Referências

p. 157–164. ISBN 978-1-4503-5867-5. Disponível em: <http://doi.acm.org/10.1145/3243082.3243112>. Citado nas páginas 68 e 93.

DESROSIERS, C.; KARYPIS, G. A comprehensive survey of neighborhood-based recommen-dation methods. In: RICCI, F.; ROKACH, L.; SHAPIRA, B.; KANTOR, P. B. (Ed.). Recom-mender Systems Handbook. New York, NY, USA: Springer US, 2011. p. 107–144. ISBN978-0-387-85819-7. Citado nas páginas 25, 36, 37, 38 e 66.

FAY, M. P.; PROSCHAN, M. A. Wilcoxon-mann-whitney or t-test? on assumptions for hypothe-sis tests and multiple interpretations of decision rules. Statistics surveys, NIH Public Access,v. 4, p. 1, 2010. Citado na página 80.

FORBES, P.; ZHU, M. Content-boosted matrix factorization for recommender systems: Ex-periments with recipe recommendation. In: Proceedings of the Fifth ACM Conference onRecommender Systems. New York, NY, USA: ACM, 2011. (RecSys ’11), p. 261–264. ISBN978-1-4503-0683-6. Disponível em: <http://doi.acm.org/10.1145/2043932.2043979>. Citadonas páginas 55 e 58.

FRESSATO, E. P.; COSTA, A. F. da; MANZATO, M. G. Similarity-based matrix factorizationfor item cold-start in recommender systems. In: 2018 7th Brazilian Conference on IntelligentSystems (BRACIS). Sao Paulo, Brazil: IEEE, 2018. p. 342–347. ISBN 978-1-5386-8023-0.Disponível em: <https://doi.org/10.1109/BRACIS.2018.00066>. Citado na página 67.

HARPER, F. M.; KONSTAN, J. A. The movielens datasets: History and context. ACM Trans.Interact. Intell. Syst., ACM, New York, NY, USA, v. 5, n. 4, p. 19:1–19:19, dez. 2015. ISSN2160-6455. Disponível em: <http://doi.acm.org/10.1145/2827872>. Citado nas páginas 75 e 76.

HEBELER, J.; FISHER, M.; BLACE, R.; PEREZ-LOPEZ, A. Semantic Web Programming.[S.l.]: Wiley Publishing, 2009. ISBN 047041801X, 9780470418017. Citado nas páginas 49, 50e 51.

ISINKAYE, F.; FOLAJIMI, Y.; OJOKOH, B. Recommendation systems: Principles, methodsand evaluation. Egyptian Informatics Journal, v. 16, n. 3, p. 261 – 273, 2015. ISSN 1110-8665. Disponível em: <http://www.sciencedirect.com/science/article/pii/S1110866515000341>.Citado na página 30.

ISOTANI, S.; BITTENCOURT, I. Dados Abertos Conectados: Em busca da Web do Conhe-cimento. NOVATEC, 2015. ISBN 9788575224496. Disponível em: <https://books.google.com.br/books?id=TC9jCgAAQBAJ>. Citado nas páginas 45, 46, 47, 48, 49, 50 e 51.

JANNACH, D.; ZANKER, M.; FELFERNIG, A.; FRIEDRICH, G. Recommender Systems:An Introduction. 1st. ed. New York, NY, USA: Cambridge University Press, 2010. ISBN0521493366, 9780521493369. Citado na página 80.

JúNIOR, S. M.; MANZATO, M. G. Collaborative filtering based on semantic distance amongitems. In: Proceedings of the 21st Brazilian Symposium on Multimedia and the Web. NewYork, NY, USA: ACM, 2015. (WebMedia ’15), p. 53–56. ISBN 978-1-4503-3959-9. Disponívelem: <http://doi.acm.org/10.1145/2820426.2820466>. Citado nas páginas 25, 55 e 56.

KOREN, Y. Factorization meets the neighborhood: A multifaceted collaborative filtering model.In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Dis-covery and Data Mining. New York, NY, USA: ACM, 2008. (KDD ’08), p. 426–434. ISBN

Referências 103

978-1-60558-193-4. Disponível em: <http://doi.acm.org/10.1145/1401890.1401944>. Citadonas páginas 55 e 59.

. Factor in the neighbors: Scalable and accurate collaborative filtering. ACM Trans. Knowl.Discov. Data, ACM, New York, NY, USA, v. 4, n. 1, p. 1:1–1:24, jan. 2010. ISSN 1556-4681.Disponível em: <http://doi.acm.org/10.1145/1644873.1644874>. Citado na página 35.

KOREN, Y.; BELL, R. Advances in collaborative filtering. In: RICCI, F.; ROKACH, L.; SHA-PIRA, B.; KANTOR, P. B. (Ed.). Recommender Systems Handbook. New York, NY, USA:Springer US, 2011. p. 145–186. ISBN 978-0-387-85819-7. Citado nas páginas 34, 38, 39 e 40.

KOREN, Y.; BELL, R.; VOLINSKY, C. Matrix factorization techniques for recommendersystems. Computer, IEEE Computer Society Press, Los Alamitos, CA, USA, v. 42, n. 8, p.30–37, ago. 2009. ISSN 0018-9162. Disponível em: <http://dx.doi.org/10.1109/MC.2009.263>.Citado nas páginas 24, 36, 39, 40, 41 e 59.

LIANG, D.; ALTOSAAR, J.; CHARLIN, L.; BLEI, D. M. Factorization meets the item embed-ding: Regularizing matrix factorization with item co-occurrence. In: Proceedings of the 10thACM Conference on Recommender Systems. New York, NY, USA: ACM, 2016. (RecSys’16), p. 59–66. ISBN 978-1-4503-4035-9. Disponível em: <http://doi.acm.org/10.1145/2959100.2959182>. Citado nas páginas 55, 60 e 63.

LIN, D. An information-theoretic definition of similarity. In: Proceedings of the FifteenthInternational Conference on Machine Learning. San Francisco, CA, USA: Morgan Kauf-mann Publishers Inc., 1998. (ICML ’98), p. 296–304. ISBN 1-55860-556-8. Disponível em:<http://dl.acm.org/citation.cfm?id=645527.657297>. Citado na página 52.

LOPS, P.; GEMMIS, M. de; SEMERARO, G. Content-based recommender systems: Stateof the art and trends. In: RICCI, F.; ROKACH, L.; SHAPIRA, B.; KANTOR, P. B. (Ed.).Recommender Systems Handbook. New York, NY, USA: Springer US, 2011. p. 73–105.ISBN 978-0-387-85819-7. Citado nas páginas 25 e 31.

MANNING, C. D.; RAGHAVAN, P.; SCHüTZE, H. Introduction to Information Retrieval.New York, NY, USA: Cambridge University Press, 2008. ISBN 0521865719, 9780521865715.Citado na página 44.

MANZATO, M. G. gsvd++: Supporting implicit feedback on recommender systems with me-tadata awareness. In: Proceedings of the 28th Annual ACM Symposium on Applied Com-puting. New York, NY, USA: ACM, 2013. (SAC ’13), p. 908–913. ISBN 978-1-4503-1656-9.Disponível em: <http://doi.acm.org/10.1145/2480362.2480536>. Citado nas páginas 40, 41, 55e 58.

MCAULEY, J.; PANDEY, R.; LESKOVEC, J. Inferring networks of substitutable and comple-mentary products. In: Proceedings of the 21th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining. New York, NY, USA: ACM, 2015. (KDD ’15), p.785–794. Citado na página 93.

MUSTO, C.; NARDUCCI, F.; LOPS, P.; GEMMIS, M. D.; SEMERARO, G. Explod: Aframework for explaining recommendations based on the linked open data cloud. In: Pro-ceedings of the 10th ACM Conference on Recommender Systems. New York, NY, USA:ACM, 2016. (RecSys ’16), p. 151–154. ISBN 978-1-4503-4035-9. Disponível em: <http://doi.acm.org/10.1145/2959100.2959173>. Citado na página 25.

104 Referências

NOIA, T. D.; MIRIZZI, R.; OSTUNI, V. C.; ROMITO, D.; ZANKER, M. Linked open data tosupport content-based recommender systems. In: Proceedings of the 8th International Confe-rence on Semantic Systems. New York, NY, USA: ACM, 2012. (I-SEMANTICS ’12), p. 1–8.ISBN 978-1-4503-1112-0. Disponível em: <http://doi.acm.org/10.1145/2362499.2362501>.Citado nas páginas 25, 32, 51, 52, 53, 55, 57, 63 e 77.

OSTUNI, V. C.; GENTILE, G.; NOIA, T. D.; MIRIZZI, R.; ROMITO, D.; SCIASCIO, E. D.Mobile Movie Recommendations with Linked Data. 2013. Citado nas páginas 55 e 58.

PASSANT, A. Dbrec: Music recommendations using dbpedia. In: Proceedings of the 9thInternational Semantic Web Conference on The Semantic Web - Volume Part II. Berlin,Heidelberg: Springer-Verlag, 2010. (ISWC’10), p. 209–224. ISBN 3-642-17748-4, 978-3-642-17748-4. Disponível em: <http://dl.acm.org/citation.cfm?id=1940334.1940349>. Citado naspáginas 25 e 55.

. Measuring semantic distance on linking data and using it for resources recommendations.In: AAAI Spring Symposium: Linked Data Meets Artificial Intelligence. AAAI, 2010. Dis-ponível em: <http://dblp.uni-trier.de/db/conf/aaaiss/aaaiss2010-7.html#Passant10>. Citado naspáginas 51, 52, 53, 56, 63 e 64.

PESKA, L.; VOJTAS, P. Using linked open data in recommender systems. In: Proceedings ofthe 5th International Conference on Web Intelligence, Mining and Semantics. New York,NY, USA: ACM, 2015. (WIMS ’15), p. 17:1–17:6. ISBN 978-1-4503-3293-4. Disponível em:<http://doi.acm.org/10.1145/2797115.2797128>. Citado nas páginas 25, 26, 55 e 58.

PIAO, G.; BRESLIN, J. G. Measuring semantic distance for linked open data-enabled recommen-der systems. In: Proceedings of the 31st Annual ACM Symposium on Applied Computing.New York, NY, USA: ACM, 2016. (SAC ’16), p. 315–320. ISBN 978-1-4503-3739-7. Disponívelem: <http://doi.acm.org/10.1145/2851613.2851839>. Citado nas páginas 25, 51, 55 e 57.

RICCI, F.; ROKACH, L.; SHAPIRA, B. Introduction to recommender systems handbook.In: RICCI, F.; ROKACH, L.; SHAPIRA, B.; KANTOR, P. B. (Ed.). Recommender SystemsHandbook. New York, NY, USA: Springer US, 2011. p. 1–35. ISBN 978-0-387-85819-7. Citadonas páginas 23, 29 e 30.

ROWE, M. Semanticsvd++: Incorporating semantic taste evolution for predicting ratings. In:Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelli-gence (WI) and Intelligent Agent Technologies (IAT) - Volume 01. Washington, DC, USA:IEEE Computer Society, 2014. (WI-IAT ’14), p. 213–220. ISBN 978-1-4799-4143-8. Disponívelem: <http://dx.doi.org/10.1109/WI-IAT.2014.36>. Citado nas páginas 26, 55 e 59.

SHANI, G.; GUNAWARDANA, A. Evaluating recommendation systems. In: RICCI, F.; RO-KACH, L.; SHAPIRA, B.; KANTOR, P. B. (Ed.). Recommender Systems Handbook. NewYork, NY, USA: Springer US, 2011. p. 257–297. ISBN 978-0-387-85819-7. Citado nas páginas41, 42 e 43.

VRANDEcIc, D.; KRöTZSCH, M. Wikidata: A free collaborative knowledgebase. Commun.ACM, ACM, New York, NY, USA, v. 57, n. 10, p. 78–85, set. 2014. ISSN 0001-0782. Disponívelem: <http://doi.acm.org/10.1145/2629489>. Citado na página 47.

WOOD, D.; ZAIDMAN, M.; RUTH, L.; HAUSENBLAS, M. Linked Data: Structured dataon the web. 1st. ed. Greenwich, CT, USA: Manning Publications Co., 2014. 302 p. ISSN00010782. ISBN 9781617290398. Citado nas páginas 45, 46, 47, 48 e 49.

Referências 105

WU, Z.; PALMER, M. Verbs semantics and lexical selection. In: Proceedings of the 32NdAnnual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA:Association for Computational Linguistics, 1994. (ACL ’94), p. 133–138. Disponível em:<http://dx.doi.org/10.3115/981732.981751>. Citado na página 52.

UN

IVER

SID

AD

E D

E SÃ

O P

AULO

Inst

ituto

de

Ciên

cias

Mat

emát

icas

e d

e Co

mpu

taçã

o

Documents

UNIVERSIDADE DE SÃO PAULO · 2019-08-09 · dados abertos conectados, partida fria. ABSTRACT FRESSATO, E. P. Incorporation of semantic metadata for recommendation in the cold start