22
Modelo Vetorial Eveline Alonso Veloso PUC-MINAS

Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Embed Size (px)

Citation preview

Page 1: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Modelo Vetorial

Eveline Alonso VelosoPUC-MINAS

Page 2: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Referências

BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.

Page 3: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Modelo Vetorial Modelo algébrico. Reconhece que o uso de pesos

binários para os termos de indexação da coleção; é muito limitador.

Propõe um arcabouço em que casamento parcial entre o documento e a consulta é possível. Conseqüência:

o conjunto de documentos recuperados; responde melhor a necessidade de informação

do usuário.

Page 4: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Modelo Vetorial Funciona adequadamente para

coleções gerais. Em geral, o conjunto resposta

do modelo vetorial; é melhor ou pelo menos quase tão

bom quanto as respostas de outras alternativas conhecidas.

Modelo muito popular; especialmente para a web.

Page 5: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Termos de Indexação t:

número de termos distintos da coleção.

Cada termo de indexação identificado na coleção; é um eixo do espaço de termos onde

documentos e consultas são representados.

Os pesos dos termos nos documentos e na consulta; não são binários.

Page 6: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Representação dos Documentos e das Consultas

Os documentos da coleção e a consulta qi; são representados como

vetores no espaço t-dimensional.

O grau de similaridade do documento dj com a consulta qi; é determinado como a

correlação entre os vetores dj e qi.

t1

t2

d2q

d1

12

Page 7: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Ordenação dos Documentos Ordena os documentos em ordem

decrescente de seu grau de similaridade com a consulta.

Um documento pode ser retornado; mesmo que ele “case” apenas

parcialmente com a consulta. É possível também estabelecer um

limite para esse grau de similaridade; são recuperados apenas documentos cujo

grau de similaridade com a consulta; seja maior do que esse limite.

Page 8: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Pesos dos Termos de Indexação

wti,dj = peso do termo ti para o documento dj.

wti,dj = tf x idf; De forma análoga, também

são atribuídos pesos aos termos de indexação da consulta.

Page 9: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

tf – Freqüência do Termo no Documento

Mede quanto o termo de indexação descreve o conteúdo do documento.

Caracterização intra-documento.

Page 10: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

tf – Freqüência do Termo no Documento

dj

dj,ti

freqmax

freqtf

Onde: freqti,dj indica a freqüência do termo ti

no documento dj; max freqdj indica a freqüência do termo

de maior freqüência no documento dj; calculado considerando-se todos os termos

que ocorrem em dj.

Page 11: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

idf – Freqüência Invertida do Termo na Coleção

Mede a dissimilaridade entre os documentos da coleção.

Termos que aparecem em muitos documentos da coleção; não são muito úteis para distinguir um

documento relevante de outro não-relevante.

Page 12: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

idf – Freqüência Invertida do Termo na Coleção

Onde: N é o número total de documentos da

coleção; nti é o número de documentos da coleção

que contêm o termo de indexação ti.

tin

Nlogidf

Page 13: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Função de Ranking

Os pesos dos termos são utilizados para computar o grau de similaridade entre cada documento da coleção e a consulta.

Page 14: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Função de Ranking

t1

t2

d2q

d1

w1q

w2q

12

w1q

w2q

R(qi, dj) = sim (qi, dj) = cos j

Seu valor varia entre 0 e 1.

q*d

)w*w(cos

j

t

iq,tidj,ti

j

1

t

iq,ti

t

idj,ti

t

iq,tidj,ti

j

w*w

)w*w(cos

1

2

1

2

1

Page 15: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Vantagens

Sua estratégia de atribuição de pesos não-binários aos termos de indexação; melhora o resultado do processo de

recuperação de informação. Processamento da consulta utilizando-

se o modelo vetorial é rápido. É um modelo simples de ser

implementado.

Page 16: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Vantagens Ao invés de julgar se um documento é

relevante ou não para uma consulta; indica o grau de similaridade do

documento com a consulta. Conseqüências:

considera como possivelmente relevantes;

documentos que “casam” apenas parcialmente com a consulta do usuário.

Possibilita a ordenação dos documentos por relevância;

de acordo com o grau de similaridade dos documentos com a consulta.

Page 17: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Desvantagens

Considera que os termos de indexação são independentes.

Page 18: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Exercício 1 – Coleção Considere uma coleção composta

pelos seguintes documentos: d1: Sistemas. Sistemas, sistemas. d2: informação d3: sistemas de informação. d4: informação. Sistemas e

INFORMAÇÃO.

Page 19: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Exercício 1 – Consulta

Construa o arquivo invertido correspondente a essa coleção e responda a seguinte consulta utilizando o modelo vetorial: q: sistemas. Sistemas de

informação.

Page 20: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Exercício 2 – Arquivo Invertido Considere o arquivo invertido

mostrado a seguir. Nesse arquivo invertido são apresentados, para cada termo do vocabulário da coleção indexada, os documentos em que esse termo aparece e os pesos desse termo para os documentos (wti,dj), calculados de acordo com o modelo vetorial.

Page 21: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Exercício 2 – Arquivo Invertido

vocabulário ocorrências

título d1-0,125 d2-0,125 d3-0,0625

eleitor d1-0,0625 d3-0,125 d4-0,125

Page 22: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New

Exercício 2 – Consulta

Utilizando o modelo vetorial e o arquivo invertido apresentado, indique qual é o documento, dessa coleção, mais relevante para a consulta: q = título eleitor.