27
CIn-UFPE 1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros

Recuperação de Informação

  • Upload
    caesar

  • View
    34

  • Download
    4

Embed Size (px)

DESCRIPTION

Recuperação de Informação. Modelos de Recuperação de Documentos Flávia Barros. Roteiro. Resumo da aula passada Modelos de Recuperação de Documentos Modelo baseados em teoria dos conjuntos. Relembrando… Sistemas de Recuperação de Informação. Etapas principais de um sistema de RI: - PowerPoint PPT Presentation

Citation preview

Page 1: Recuperação de Informação

CIn-UFPE 1

Recuperação de Informação

Modelos de Recuperação de Documentos

Flávia Barros

Page 2: Recuperação de Informação

CIn-UFPE

2

RoteiroResumo da aula passada

Modelos de Recuperação de Documentos Modelo baseados em teoria dos

conjuntos

Page 3: Recuperação de Informação

CIn-UFPE

3Relembrando…

Sistemas de Recuperação de Informação

Etapas principais de um sistema de RI: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do

usuário) Ordenação dos documentos recuperados

Page 4: Recuperação de Informação

CIn-UFPE

4

Modelos Clássicos de Recuperação de Documentos

Veremos inicialmente os seguintes modelos: Modelo Booleano - OK Modelo Espaço Vetorial - OK Modelos Probabilistas

Para cada modelo, veremos: A representação do documento A representação da consulta A noção de relevância dos documentos em

relação à consulta utilizada na recuperação pode ser binária (sim/não) ou ordenada depende do modelo de recuperação utilizado

Page 5: Recuperação de Informação

CIn-UFPE

5Modelos Clássicos Conceitos Básicos

Considere uma base qualquer de documentos

Cada documento na base é representado por um conjunto de n termos (ou palavras isoladas) k1, k2,...,kn

Esses termos são escolhidos a partir da base de documentos completa cada base terá seu conjunto de termos

representativos seu “vocabulário”

Page 6: Recuperação de Informação

CIn-UFPE

6Modelos Clássicos Conceitos Básicos

Cada documento (dj) é representado por termos da base associados a pesos d = k1 (w1), k2 (w2),..., kn (wn)

Cada modelo de recuperação define pesos de uma maneira diferente

As consultas podem ser representadas pelo mesmo conjunto de termos da base Alguns modelos permitem associar

pesos aos termos da consulta

Page 7: Recuperação de Informação

CIn-UFPE

7

Modelo Booleano

Dado o conjunto de termos representativos para a base em questão K = {k1, k2,...,kn}

Os documentos e as consultas são representados como vetores de pesos binários de tamanho n A consulta pode conter operadores

lógicos

Relevância binária Termo esta ou não no documento Não e possível ordenar a lista de

documentos recuperados

Page 8: Recuperação de Informação

CIn-UFPE

8

Modelo Espaço Vetorial

Dado o conjunto de termos representativos para a base em questão K = {k1, k2,...,kn} cada termo de K é um eixo de um espaço vetorial

Consultas (q) e documentos (d) são representados como vetores nesse espaço n-dimensional

Relevância Medida mais usada = co-seno do ângulo entre q e d O usuário recebe um conjunto ordenado de

documentos como resposta à sua consulta

Existem várias técnicas para calcular pesos TF-IDF = mais usada

Page 9: Recuperação de Informação

CIn-UFPE

9

Aula de hoje

Modelos de RI baseados em teoria dos conjuntos Objetivo: possibilitar casamento parcial

e ordenação dos documentos recuperados Modelo booleano estendido Modelos difusos (fuzzy sets)

Page 10: Recuperação de Informação

CIn-UFPE

10

Modelo Booleano Estendido

No modelo booleano original, uma consulta com conjunção só retorna documentos que contenham todos os seus termos A ausência de um termo da consulta no

documento é igual à ausência de todos os termos da consulta

Este modelo estende o modelo booleano incluindo a noção de casamento parcial e termos com pesos Combina características do modelo vetorial

com propriedades da álgebra booleana

Page 11: Recuperação de Informação

CIn-UFPE

11

Modelo Booleano EstendidoRepresentação do documento

Como no modelo EV, aqui cada termo que representa a base de documentos é um eixo de um espaço vetorial

Considere o documento dj = {kx (wxj), ky (wyj)} Por simplicidade, representaremos dj = (x,y) dj é um ponto no espaço formado pelos eixos kx e ky

djy = wyj

x = wxj(0,0) kx

ky(1,1)

• Obs.: iremos assumir que os pesos do documento estão entre 0 e 1

Page 12: Recuperação de Informação

CIn-UFPE

12

Modelo Booleano Estendido

Este modelo interpreta conjunções e disjunções em termos de distância euclidiana dividida pelo número de termos da consulta Uma medida de dissimilaridade - ver aula

passada

Conjunções e disjunções são tratadas de forma diferenciada

Para a consulta q = kx ky (conjunção) O ponto (1,1) é o mais desejável

Para a consulta q = kx ky (disjunção) O ponto (0,0) é o menos desejável

Page 13: Recuperação de Informação

Modelo Booleano Estendido

Consulta com “and” qand = kx ky dj = (x,y)

sim(qand,dj) = 1 - sqrt( (1-x) + (1-y) ) 2

2 2

dj

dj+1y = wyj

x = wxj(0,0)

(1,1)

kx

ky

AND

Page 14: Recuperação de Informação

Modelo Booleano EstendidoConsulta com “or” qor = kx ky dj = (x,y)

sim(qor,dj) = sqrt( x + y ) 2

22

dj

dj+1

y = wyj

x = wxj(0,0)

(1,1)

kx

ky

OR

Page 15: Recuperação de Informação

CIn-UFPE

15

Modelo Booleano Estendido

Considere o documento dj = {kx (wxj), ky (wyj)}

Os pesos podem ser Booleanos Numéricos, calculados com TF * IDF

porém devem ser normalizados, para facilitar o calculo da similaridade com a consulta

wxj = fxj * idfx maxi(idfi)

Nni

IDF = idfi= logfreqxj

maxi freqij

TF = fxj=

Page 16: Recuperação de Informação

CIn-UFPE

16

Modelo Booleano Estendido Exemplo

Cálculo da similaridade para pesos normalizados w {1,0}

Claramente, documentos (1,0) e (0,1) têm maior similaridade com a consulta qor em comparação com a consulta qand

sim(qand, (1,1)) = 1sim(qand, (1,0)) 0.3sim(qand, (0,1)) 0.3sim(qand, (0,0)) = 0

sim(qor, (1,1)) = 1sim(qor, (1,0)) 0.7sim(qor, (0,1)) 0.7sim(qor, (0,0)) = 0

Page 17: Recuperação de Informação

CIn-UFPE

17

Modelo Booleano Estendido Conclusões

Este modelo é mais sofisticado que o booleano clássico

O modelo pode lidar com consultas com mais de 2 termos Porém, a computacao envolvida é mais

complexa

Page 18: Recuperação de Informação

CIn-UFPE

18

Modelo Difuso

Este modelo oferece um framework para a representação de classes cujas fronteiras não são bem definidas

Um conjunto difuso representa algum conceito difuso

Ex. conceito ALTO é caracterizado por uma função de pertinência

per-ALTO(Oscar-Schmidt) = 0.9 per-ALTO(Flavia) = 0.3

Nos conjuntos clássicos, a função der pertinência é binária O elemento pertence ou não ao conjunto

Page 19: Recuperação de Informação

CIn-UFPE

19

Modelo Difuso para RI

Idéia central grau de pertinência de documentos em

relação aos termos da base esse grau de pertinência varia entre 0 e 1

noção gradual de pertinência em contraste com a noção binária da lógica

booleana

Page 20: Recuperação de Informação

CIn-UFPE

20

Conjuntos Difusos

Um conjunto difuso que representa o conceito A em U (universo de elementos considerados) é caracterizado por uma função de pertinência

: U [0,1] que associa a cada elemento u U um valor (u) no

intervalo [0,1]

No nosso caso: U é a base de documentos Elemento u é um documento Cada termo ki de K é associado a um conceito,

representado por um conjunto difuso com função de pertinência i

Cada documento dj tem um grau de pertinência i,j em relação ao termo ki

Esse grau de pertinência determina a importância do termo na recuperação do documento

Page 21: Recuperação de Informação

CIn-UFPE

21

Modelo Difuso de RI

Considere documento abaixo e as consultas q1 = “honesto” e q2=“filósofo” No modelo booleano

Sim(dj,q1) = 1 Sim(dj,q2) = 0

No modelo difuso Sim(dj,q1) = 1,j

Sim(dj,q2) = 2,j

1,j = 0.92,j = 0.1

honesto desonesto soubesse vantagemseria menos desonestidadesocrates

RepresentaçãoDoc : www.filosofia.com

Obs.: Termo “filósofo” não aparece no documento, porém sua relevância é maior que 0 pois o documento contém palavras relacionadas a esse termo.

Page 22: Recuperação de Informação

CIn-UFPE

22Modelo Difuso Relevância

A pertinência i,j mede o quão relevante o termo ki é para recuperar o documento dj Quanto maior próximo de 1, mais relevante é o

termo Mesmo que o termo apareça no documento, sua

relevância pode ser baixa por não conter outros termos relacionados

Menos que o termo não apareça no documento, ele pode ser relevante!

Similaridade entre documento e consulta é medida pela função de pertinência

A função de pertinência mais comum é construída a partir do conceito de correlação entre termos

Page 23: Recuperação de Informação

CIn-UFPE

23

Modelo Difuso

Matriz de correlação termo-a-termo c: matriz de correlação n X n ci,l: correlação entre termos ki,kl:

ci,l = ni,l ni + nl - ni,l

ni: número de docs que contêm termo ki nl: número de docs que contêm termo kl ni,l: número de docs que contêm ambos os

termos ki e kl

A partir daí, temos a noção de proximidade entre termos

Page 24: Recuperação de Informação

CIn-UFPE

24

Modelo Difuso

A correlação pode ser usada para definir uma função de pertinência fuzzy para o termo ki:

i,j = 1 - (1 - ci,l) kl dj

i,j: pertinência do documento dj ao conjunto fuzzy associado ao termo ki (i.e. relevância do termo)

Page 25: Recuperação de Informação

CIn-UFPE

25

O documento dj pertence ao conjunto de ki se seus demais termos são correlacionados a ki Quanto maiores os valores das correlações, maior o

valor da pertinência

Se um documento dj contém um termo kl que é fortemente correlacionado a ki, então: ci,l ~ 1 i,j ~ 1 termo ki é um bom índice representativo

mesmo que não apareça no documento!!!

Modelo Difuso

Page 26: Recuperação de Informação

CIn-UFPE

26

q = ka (kb kc)

qdnf = (1,1,1) (1,1,0) (1,0,0)

= cc1 cc2 cc3

q,dj = cc1,j+ cc1,j + cc1,j

= 1 - (1 - a,j b,j c,j) *

(1 - a,j b,j (1- c,j)) * (1 - a,j (1- b,j) (1- c,j))

Modelo Difuso de RIUm exemplo

Page 27: Recuperação de Informação

CIn-UFPE

27

Modelo Difuso de RI

Modelos difusos de RI têm sido discutidos principalmente na literatura associada com teoria fuzzy

Experimentos com um corpus de referência não estão disponíveis

É difícil de comparar este modelo com os outros