21
Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Embed Size (px)

Citation preview

Page 1: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Modelos de Recuperação de Informação

Eveline Alonso VelosoPUC-MINAS

Page 2: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Referências

BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.

Page 3: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Indexação

Sistemas de recuperação de informação tradicionais; utilizam termos de

indexação para; representar; e posteriormente recuperar

documentos.

Page 4: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Indexação termo de indexação:

palavra-chave ou grupo de palavras relacionadas;

que possui(possuem) algum significado.

Seu significado ajuda a identificar;

os principais temas tratados pelos documentos onde o termo aparece.

Page 5: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Recuperação de Informação

Recuperação baseada em termos de indexação é simples; porém apresenta algumas

questões relacionadas com a tarefa de recuperação de informação.

Page 6: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Recuperação de Informação – Dificuldades Recuperação de informação

utilizando termos de indexação adota como base fundamental a idéia de que; a semântica de documentos e da

necessidade de informação do usuário;

pode naturalmente ser expressa através de um conjunto de termos de indexação.

Page 7: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Recuperação de Informação – Dificuldades Claramente essa é uma

simplificação do problema de recuperação de informação; porque muita da semântica do

documento e da necessidade de informação do usuário;

é perdida quando os representamos por um conjunto de termos.

Page 8: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Recuperação de Informação – Dificuldades Encontrar documentos que atendam à

consulta do usuário; é uma tarefa difícil em um espaço

impreciso de termos de indexação. Além disso, a maioria dos usuários não

tem nenhum treinamento em como formular apropriadamente sua consulta.

Em conseqüência, freqüentemente são retornados documentos não relevantes; em resposta a uma consulta expressa por

um conjunto de palavras-chave.

Page 9: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Ordenação de Documentos Problema central relacionado à

recuperação de informação; determinar quais são os

documentos relevantes; e aqueles que não são; para uma determinada consulta.

Esse problema é tratado por um mecanismo de ranking; que estabelece uma ordenação

entre os documentos recuperados.

Page 10: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Ordenação de Documentos Documentos que aparecem no

topo da lista de documentos retornados; são considerados como tendo

maior chance de serem mais relevantes para o usuário.

Mecanismos de ordenação; são o núcleo de um sistema de

recuperação de informação.

Page 11: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

O Processo de Recuperação de Informação

* Figura adaptada de BAEZA-YATES & RIBEIRO-NETO

necessidade de informação

documentos recuperados e ranqueados

consulta

Coleta

Operações sobre a consulta

Busca

Ordenação

ColeçãoIndexação

Índice

Operações sobre o texto

documento

Page 12: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Modelos de Recuperação de Informação Um mecanismo de ordenação, ou

ranking; opera de acordo com um conjunto de

premissas; relacionadas com a idéia de relevância do

documento. Conjuntos distintos de premissas;

relacionadas com uma medida da relevância do documento;

estabelecem diferentes modelos de recuperação de informação.

Page 13: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Modelos de Recuperação de Informação

O modelo de recuperação de informação adotado pelo sistema; determina a idéia utilizada no

sistema para considerar um documento relevante ou não para uma consulta.

Page 14: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Taxonomia dos Modelos de Recuperação de InformaçãoTare

fa d

o

Usu

ári

o BuscaFiltragem

Navegação

Modelos Estruturais

Navegação

Modelos Clássicos

Page 15: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Taxonomia dos Modelos de Recuperação de Informação

Modelos ClássicosBooleanoVetorialProbabilístico

Teoria de ConjuntosFuzzyBooleano EstendidoAlgébricosIndexação por Semântica LatenteVetorial Generalizado

Teoria de ProbabilidadesRedes de InferênciaRedes de Crenças

Page 16: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Taxonomia dos Modelos de Recuperação de Informação

Modelos EstruturaisNodos PróximosListas que não se Sobrepõem

Page 17: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Taxonomia dos Modelos de Recuperação de Informação

NavegaçãoFlatGuiado por EstruturaHipertexto

Page 18: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Caracterização Formal de Modelos de Recuperação de Informação

D: conjunto de documentos; coleção.

dj: cada um dos diversos

documentos da coleção.

Page 19: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

Q: conjunto composto de

representações das necessidades de informação dos usuários;

conjunto de consultas. qi:

cada uma das consultas desse conjunto.

Caracterização Formal de Modelos de Recuperação de Informação

Page 20: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

F: um arcabouço para

representação de: documentos; consultas; e suas relações.

Esse arcabouço está relacionado com a forma como a função de ranking será construída.

Caracterização Formal de Modelos de Recuperação de Informação

Page 21: Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS

R(qi, dj): função de ranking que associa

um número real a cada par qi Q e dj D.

Essa função de ranking define uma ordenação entre os documentos com relação a uma consulta qi.

Caracterização Formal de Modelos de Recuperação de Informação