17
Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais

Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

Embed Size (px)

DESCRIPTION

Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação. Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais. Motivação. Quantas versões de indexadores temos para cada uma dos grupos presentes? - PowerPoint PPT Presentation

Citation preview

Page 1: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

Biblioteca de suporte para desenvolvimento de sistemas

de Recuperação de Informação

Bruno Augusto Vivas e Pôssas

09/04/2003

Departamento de Ciência da Computação

Universidade Federal de Minas Gerais

Page 2: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

2

Motivação

Quantas versões de indexadores temos para cada uma dos grupos presentes?

Esses indexadores eram o foco inicial de investigação?

Quanto tempo foi gasto na criação da infra-estrutura para a investigação em questão?

Page 3: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

3

Objetivo

Fomentar a pesquisa em recuperação de informação direcionando todos os esforços de

implementação diretamente no foco de investigação

disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados

facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos

Page 4: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

4

Biblioteca: Composição

Módulos: Coleta Processamento Indexação Classificação Filtragem Busca ...

Page 5: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

5

Biblioteca: Composição

Módulos: Validação e avaliação dos resultados Coleções de referência Visualização ...

Page 6: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

6

Metodologia de Desenvolvimento

Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos

Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software

Documentação e testes de regressão de cada módulo implementado

Page 7: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

7

Decisões de Projeto

Ambiente de desenvolvimento: Qualquer ambiente integrado ao savannah

Ambiente de execução: Multi-plataforma

Linguagem de programação: Ansi C/C++ Java ...

Page 8: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

8

Decisões de Projeto

Módulo de Coleta: capaz de coletar documentos, imagens,

áudio, vídeo, ... implementação baseada no software wget

(http://www.wget.org)

Page 9: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

9

Decisões de Projeto

Módulo de Processamento: capaz de processar e extrair o conteúdo de

documentos nos seguintes formatos:• SGML, HTML e XML• coleções de referência

Page 10: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

10

Decisões de Projeto

Módulo de Indexação: capaz de indexar grandes coleções de

documentos• técnicas de compressão• informação posicional• informação de links• determinação de passagens

Page 11: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

11

Decisões de Projeto

Módulo de Busca: capaz de recuperar documentos a partir da

necessidade de informação dos usuários para cada um dos modelos clássicos

• booleano• vetorial• probabilístico

extensão dos modelos implementados através da análise de links

Page 12: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

12

Decisões de Projeto

Módulo de Validação e Avaliação dos Resultados: capaz de validar e avaliar os resultados dos

modelos de recuperação de informação a partir das métricas usuais:

• revocação (recall)• precisão (precision)• tempo de resposta• recursos utilizados (memória, etc)• ...

Page 13: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

13

Decisões de Projeto

Módulo para Coleções de Referência: capaz de extrair e processar os documentos,

tópicos e conjuntos resposta das principais coleções de referência

• TReC, CACM, CFC, CISI, MEDL, etc

capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST

• pool de respostas

Page 14: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

14

Decisões de Projeto

Módulo de Visualização: capaz de apresentar os documentos

retornados a partir de uma consulta• simples lista ordenada de documentos baseados

na similaridade com a consulta

Page 15: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

15

Prova de Conceito

Combinação dos módulos implementados para a criação de uma máquina de busca simplificada

Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação mg, smart, ...

Page 16: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

16

Decisões de Projeto

Módulo de Classificação: capaz de acessar e navegar sobre uma

ontologia representada por um thesaurus capaz de determinar a partir de passagens e

do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento

Page 17: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

17

Decisões de Projeto

Módulo de Filtragem: capaz de determinar a relevância de um novo

documento a partir de uma consulta