Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

Preview:

Citation preview

Recuperação de Informação

Mariana Lara Neves(mln@di.ufpe.br)

2

Conteúdo da apresentação

Introdução Técnicas de IR Aspectos relevantes em IR Busca na Web Agentes + IR Conclusões Referências

3

Introdução

Crescimento das coleções de textos digitais(bibliotecas digitais, Internet, Intranets, ...)

Crescimento exponencial da World Wide Web

Novas técnicas de recuperação de informações (IR)

+

4

Introdução

OBJETIVO:

Encontrar (de forma eficiente) osmelhores documentos que

satisfaçam a query do usuário.

5

Técnicas de IR

Sistema de indexação baseado em palavras-chave:

Constróem (ou atualizam) o IndexBase (IB)

robôs

queries: lista de palavras-chave, expressões booleanas, etc.

6

Técnicas de IR

Sistema de indexação baseado em palavras-chave:

Desvantagens: retorna uma grande quantidade de documentos irrelevantes; classificação estática (manual e/ou automática).

Exemplos: Yahoo!, AltaVista, HotBot, Lycos, Infoseek, Cadê.

7

Técnicas de IR

Sistema baseado em ontologias:

Classificação dinâmica de páginas, podendo variar de acordo com as necessidades atuais do usuário.

Utilizando-se ontologias, o usuário pode selecionar os conceitos para construir seu contexto em cada query.

Objetivo: aumentar a precisão da busca.

Vantagens: flexibilidade e transparência.

8

Técnicas de IR

Sistema baseado em ontologias:

Aplicação:

pesquisa realizada no DI-UFPE para o sistema Bright!

Sistema de busca para uma intranet de uma empresa de grande porte: ontologias criadas por um especialista para um domínio restrito e conhecido.

9

Técnicas de IR

Term Frequency-Inverse Document Frequency (TFIDF): atribui pesos às palavras de um documento. TF(w): frequência da palavra w (número de vezes que w aparece no documento. DF(w): frequência de documentos com a palavra w (número de documentos em que a palavra ocorre).

)(log)()(

DF

DTFTFIDF

D = número total de documentos.

10

Aspectos Relevantes em IR

1. Integração de Soluções

Banco de dadosdas empresas

Sistema de IR

Mudanças nas técnicas de indexação e otimização dasqueries (novas linguagens). Capacidade de

multimídia

11

Aspectos Relevantes em IR 2. IR Distribuída

Solução: sistema multi-agente. Exemplo: Miner.

searchengine

searchengine

searchengine

ranking dedocumentos

ranking dedocumentos

ranking dedocumentos

Rankingúnico

dedocumentos

12

Aspectos Relevantes em IR 3. Eficiência na Indexação

• tempo de resposta da query;• velocidade de indexação.

Pesquisas na área: novos algoritmos para solucionar estes problemas; algoritmos de compressão de textos (diminuindo o tempo de armazenamento e de manipulação); capacidade de lidar com vários tipos de arquivos (SGML, HTML, Acrobat, etc.).

13

Aspectos Relevantes em IR 4. Expansão do Vocabulário

A informação buscada pode ser expressada pordiferentes palavras nos documentos relevantes.

Latent Semantic Indexing (LSI): transforma o documento e a representação da query; utilizando-se um dicionário de sinônimos..

14

Aspectos Relevantes em IR 5. Interface do sistema

As interfaces devem tornar o sistema de fácil uso e compreensão.

Devem suportar funções tais como: formulação de queries; apresentação da informação recuperada; feedback; browsing.

15

Aspectos Relevantes em IR 6. Filtragem da Informação

Processo de identificar documentos relevantes em um conjunto de informações, baseando-se no profile do usuário.

usuários + profiles

comparação

um documentoindividualverdadeiro

documento

16

Aspectos Relevantes em IR 6. Filtragem da Informação

Deve lidar com um grande volume de documentos (± 10 MB/hora) e muitos usuários (± 10.000).

Eficiência

Algoritmos que fazem uma “podagem”, para separar os documentos relevantes dos não-relevantes.

Eficácia

17

Aspectos Relevantes em IR 7. Eficácia da Recuperação

Relação entre o n° de documentos relevantes retornados e o n° total de documentos relevantes.

Recall

Relação entre o n° de documentos relevantes retornados e n° total de documentos retornados.

Precisão

18

Aspectos Relevantes em IR 7. Eficácia da Recuperação

Todos os documentos

Documentos relevantes

Documentos retornados

Relevantes retornados

Recall = Precisão =

19

Aspectos Relevantes em IR 8. Recuperação Multimídia

Refere-se às técnicas em desenvolvimento para que se possa indexar e acessar imagens, vídeos e sons sem uma descrição para texto.

Soluções gerais para a indexação de de multimídia são difíceis (soluções específicas).

Reconhecimento de faces

Indexação de imagens peladistribuição de cores

20

Aspectos Relevantes em IR 9. Extração de Informação

Extrai dados relevantes (para um determinado objetivo) a partir de documentos digitais.

Etapas: reconhecimento do trecho de informação; extração da informação.

Exemplo (projeto de mestrado de Carla):

BD (CNCT):

Autor: .... Ano: ....

Título: .... Local: ....

21

Aspectos Relevantes em IR 9. Extração de Informação

22

Aspectos Relevantes em IR 10. Feedback

Processo em que o usuário identifica os documentos relevantes retornados em uma lista

inicial, para em seguida o sistema criar uma nova query baseada nesta amostra de

documentos.

23

Busca na Web

Opções de busca

Resultado das pesquisas

Facilidade de uso

Fonte: Info Exame (nov/99)

Gerais

24

Busca na Web

Opções de busca

Resultado das pesquisas

Facilidade de uso

Brasileiros

25

Busca na Web

Sites em querealiza busca

Qualidade dapesquisa

Facilidade de uso

Organizaçãodos resultados

Metabusca

26

Agentes + IR

Agente

documentos

queries

documentos

queries

feedback

27

Agentes + IR

IR se encaixa no modelo de agente;

necessidade de acesso a múltiplas fontes de informação;

necessidade de distribuição.

Por quê?

28

Conclusões

Fato: grande volume de informação; necessidade de novas técnicas para buscar

toda esta informação.

O que se pode melhorar? Tempo de resposta da busca; aumentar a eficiência da busca.

29

Referências

Barros, Flávia; Gonçalves, Pedro; Ontologies for Enhacing Web Searches’ Precision and Recall (1998).

Croft, Bruce; What Do People Want from Information Retrieval? (1995).

Lewis, David D., Representation and Learning in Information Retrieval (1992).

Ramos, Tagil Oliveira; Irrelevância mata! Ou não? (1999) InfoExame n° 164 ano 14.

Ribeiro, Juliana N.; Categorização de Textos usando Redes Neurais (1997).

30

Referências - WWW

Universidade de Marylandhttp://www.cs.umbc.edu/abir

Searching the Webhttp://www.esrl.lib.md.us/refdesk/searching.html

Center for Intelligent Information Retrievalhttp://ciir.cs.umass.edu/

Information Retrievalhttp://www.dcs.gla.ac.uk/ir/new/pages/IR_Home.html

Recommended