Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Preview:

Citation preview

Modelos de Recuperação de Informação

Eveline Alonso VelosoPUC-MINAS

Referências

BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.

Indexação

Sistemas de recuperação de informação tradicionais; utilizam termos de

indexação para; representar; e posteriormente recuperar

documentos.

Indexação termo de indexação:

palavra-chave ou grupo de palavras relacionadas;

que possui(possuem) algum significado.

Seu significado ajuda a identificar;

os principais temas tratados pelos documentos onde o termo aparece.

Recuperação de Informação

Recuperação baseada em termos de indexação é simples; porém apresenta algumas

questões relacionadas com a tarefa de recuperação de informação.

Recuperação de Informação – Dificuldades Recuperação de informação

utilizando termos de indexação adota como base fundamental a idéia de que; a semântica de documentos e da

necessidade de informação do usuário;

pode naturalmente ser expressa através de um conjunto de termos de indexação.

Recuperação de Informação – Dificuldades Claramente essa é uma

simplificação do problema de recuperação de informação; porque muita da semântica do

documento e da necessidade de informação do usuário;

é perdida quando os representamos por um conjunto de termos.

Recuperação de Informação – Dificuldades Encontrar documentos que atendam à

consulta do usuário; é uma tarefa difícil em um espaço

impreciso de termos de indexação. Além disso, a maioria dos usuários não

tem nenhum treinamento em como formular apropriadamente sua consulta.

Em conseqüência, freqüentemente são retornados documentos não relevantes; em resposta a uma consulta expressa por

um conjunto de palavras-chave.

Ordenação de Documentos Problema central relacionado à

recuperação de informação; determinar quais são os

documentos relevantes; e aqueles que não são; para uma determinada consulta.

Esse problema é tratado por um mecanismo de ranking; que estabelece uma ordenação

entre os documentos recuperados.

Ordenação de Documentos Documentos que aparecem no

topo da lista de documentos retornados; são considerados como tendo

maior chance de serem mais relevantes para o usuário.

Mecanismos de ordenação; são o núcleo de um sistema de

recuperação de informação.

O Processo de Recuperação de Informação

* Figura adaptada de BAEZA-YATES & RIBEIRO-NETO

necessidade de informação

documentos recuperados e ranqueados

consulta

Coleta

Operações sobre a consulta

Busca

Ordenação

ColeçãoIndexação

Índice

Operações sobre o texto

documento

Modelos de Recuperação de Informação Um mecanismo de ordenação, ou

ranking; opera de acordo com um conjunto de

premissas; relacionadas com a idéia de relevância do

documento. Conjuntos distintos de premissas;

relacionadas com uma medida da relevância do documento;

estabelecem diferentes modelos de recuperação de informação.

Modelos de Recuperação de Informação

O modelo de recuperação de informação adotado pelo sistema; determina a idéia utilizada no

sistema para considerar um documento relevante ou não para uma consulta.

Taxonomia dos Modelos de Recuperação de InformaçãoTare

fa d

o

Usu

ári

o BuscaFiltragem

Navegação

Modelos Estruturais

Navegação

Modelos Clássicos

Taxonomia dos Modelos de Recuperação de Informação

Modelos ClássicosBooleanoVetorialProbabilístico

Teoria de ConjuntosFuzzyBooleano EstendidoAlgébricosIndexação por Semântica LatenteVetorial Generalizado

Teoria de ProbabilidadesRedes de InferênciaRedes de Crenças

Taxonomia dos Modelos de Recuperação de Informação

Modelos EstruturaisNodos PróximosListas que não se Sobrepõem

Taxonomia dos Modelos de Recuperação de Informação

NavegaçãoFlatGuiado por EstruturaHipertexto

Caracterização Formal de Modelos de Recuperação de Informação

D: conjunto de documentos; coleção.

dj: cada um dos diversos

documentos da coleção.

Q: conjunto composto de

representações das necessidades de informação dos usuários;

conjunto de consultas. qi:

cada uma das consultas desse conjunto.

Caracterização Formal de Modelos de Recuperação de Informação

F: um arcabouço para

representação de: documentos; consultas; e suas relações.

Esse arcabouço está relacionado com a forma como a função de ranking será construída.

Caracterização Formal de Modelos de Recuperação de Informação

R(qi, dj): função de ranking que associa

um número real a cada par qi Q e dj D.

Essa função de ranking define uma ordenação entre os documentos com relação a uma consulta qi.

Caracterização Formal de Modelos de Recuperação de Informação

Recommended