30
Recuperação de Informação Mariana Lara Neves ([email protected])

Recuperação de Informação Mariana Lara Neves ([email protected])

Embed Size (px)

Citation preview

Page 1: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

Recuperação de Informação

Mariana Lara Neves([email protected])

Page 2: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

2

Conteúdo da apresentação

Introdução Técnicas de IR Aspectos relevantes em IR Busca na Web Agentes + IR Conclusões Referências

Page 3: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

3

Introdução

Crescimento das coleções de textos digitais(bibliotecas digitais, Internet, Intranets, ...)

Crescimento exponencial da World Wide Web

Novas técnicas de recuperação de informações (IR)

+

Page 4: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

4

Introdução

OBJETIVO:

Encontrar (de forma eficiente) osmelhores documentos que

satisfaçam a query do usuário.

Page 5: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

5

Técnicas de IR

Sistema de indexação baseado em palavras-chave:

Constróem (ou atualizam) o IndexBase (IB)

robôs

queries: lista de palavras-chave, expressões booleanas, etc.

Page 6: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

6

Técnicas de IR

Sistema de indexação baseado em palavras-chave:

Desvantagens: retorna uma grande quantidade de documentos irrelevantes; classificação estática (manual e/ou automática).

Exemplos: Yahoo!, AltaVista, HotBot, Lycos, Infoseek, Cadê.

Page 7: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

7

Técnicas de IR

Sistema baseado em ontologias:

Classificação dinâmica de páginas, podendo variar de acordo com as necessidades atuais do usuário.

Utilizando-se ontologias, o usuário pode selecionar os conceitos para construir seu contexto em cada query.

Objetivo: aumentar a precisão da busca.

Vantagens: flexibilidade e transparência.

Page 8: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

8

Técnicas de IR

Sistema baseado em ontologias:

Aplicação:

pesquisa realizada no DI-UFPE para o sistema Bright!

Sistema de busca para uma intranet de uma empresa de grande porte: ontologias criadas por um especialista para um domínio restrito e conhecido.

Page 9: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

9

Técnicas de IR

Term Frequency-Inverse Document Frequency (TFIDF): atribui pesos às palavras de um documento. TF(w): frequência da palavra w (número de vezes que w aparece no documento. DF(w): frequência de documentos com a palavra w (número de documentos em que a palavra ocorre).

)(log)()(

DF

DTFTFIDF

D = número total de documentos.

Page 10: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

10

Aspectos Relevantes em IR

1. Integração de Soluções

Banco de dadosdas empresas

Sistema de IR

Mudanças nas técnicas de indexação e otimização dasqueries (novas linguagens). Capacidade de

multimídia

Page 11: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

11

Aspectos Relevantes em IR 2. IR Distribuída

Solução: sistema multi-agente. Exemplo: Miner.

searchengine

searchengine

searchengine

ranking dedocumentos

ranking dedocumentos

ranking dedocumentos

Rankingúnico

dedocumentos

Page 12: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

12

Aspectos Relevantes em IR 3. Eficiência na Indexação

• tempo de resposta da query;• velocidade de indexação.

Pesquisas na área: novos algoritmos para solucionar estes problemas; algoritmos de compressão de textos (diminuindo o tempo de armazenamento e de manipulação); capacidade de lidar com vários tipos de arquivos (SGML, HTML, Acrobat, etc.).

Page 13: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

13

Aspectos Relevantes em IR 4. Expansão do Vocabulário

A informação buscada pode ser expressada pordiferentes palavras nos documentos relevantes.

Latent Semantic Indexing (LSI): transforma o documento e a representação da query; utilizando-se um dicionário de sinônimos..

Page 14: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

14

Aspectos Relevantes em IR 5. Interface do sistema

As interfaces devem tornar o sistema de fácil uso e compreensão.

Devem suportar funções tais como: formulação de queries; apresentação da informação recuperada; feedback; browsing.

Page 15: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

15

Aspectos Relevantes em IR 6. Filtragem da Informação

Processo de identificar documentos relevantes em um conjunto de informações, baseando-se no profile do usuário.

usuários + profiles

comparação

um documentoindividualverdadeiro

documento

Page 16: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

16

Aspectos Relevantes em IR 6. Filtragem da Informação

Deve lidar com um grande volume de documentos (± 10 MB/hora) e muitos usuários (± 10.000).

Eficiência

Algoritmos que fazem uma “podagem”, para separar os documentos relevantes dos não-relevantes.

Eficácia

Page 17: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

17

Aspectos Relevantes em IR 7. Eficácia da Recuperação

Relação entre o n° de documentos relevantes retornados e o n° total de documentos relevantes.

Recall

Relação entre o n° de documentos relevantes retornados e n° total de documentos retornados.

Precisão

Page 18: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

18

Aspectos Relevantes em IR 7. Eficácia da Recuperação

Todos os documentos

Documentos relevantes

Documentos retornados

Relevantes retornados

Recall = Precisão =

Page 19: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

19

Aspectos Relevantes em IR 8. Recuperação Multimídia

Refere-se às técnicas em desenvolvimento para que se possa indexar e acessar imagens, vídeos e sons sem uma descrição para texto.

Soluções gerais para a indexação de de multimídia são difíceis (soluções específicas).

Reconhecimento de faces

Indexação de imagens peladistribuição de cores

Page 20: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

20

Aspectos Relevantes em IR 9. Extração de Informação

Extrai dados relevantes (para um determinado objetivo) a partir de documentos digitais.

Etapas: reconhecimento do trecho de informação; extração da informação.

Exemplo (projeto de mestrado de Carla):

BD (CNCT):

Autor: .... Ano: ....

Título: .... Local: ....

Page 21: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

21

Aspectos Relevantes em IR 9. Extração de Informação

Page 22: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

22

Aspectos Relevantes em IR 10. Feedback

Processo em que o usuário identifica os documentos relevantes retornados em uma lista

inicial, para em seguida o sistema criar uma nova query baseada nesta amostra de

documentos.

Page 23: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

23

Busca na Web

Opções de busca

Resultado das pesquisas

Facilidade de uso

Fonte: Info Exame (nov/99)

Gerais

Page 24: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

24

Busca na Web

Opções de busca

Resultado das pesquisas

Facilidade de uso

Brasileiros

Page 25: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

25

Busca na Web

Sites em querealiza busca

Qualidade dapesquisa

Facilidade de uso

Organizaçãodos resultados

Metabusca

Page 26: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

26

Agentes + IR

Agente

documentos

queries

documentos

queries

feedback

Page 27: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

27

Agentes + IR

IR se encaixa no modelo de agente;

necessidade de acesso a múltiplas fontes de informação;

necessidade de distribuição.

Por quê?

Page 28: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

28

Conclusões

Fato: grande volume de informação; necessidade de novas técnicas para buscar

toda esta informação.

O que se pode melhorar? Tempo de resposta da busca; aumentar a eficiência da busca.

Page 29: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

29

Referências

Barros, Flávia; Gonçalves, Pedro; Ontologies for Enhacing Web Searches’ Precision and Recall (1998).

Croft, Bruce; What Do People Want from Information Retrieval? (1995).

Lewis, David D., Representation and Learning in Information Retrieval (1992).

Ramos, Tagil Oliveira; Irrelevância mata! Ou não? (1999) InfoExame n° 164 ano 14.

Ribeiro, Juliana N.; Categorização de Textos usando Redes Neurais (1997).

Page 30: Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

30

Referências - WWW

Universidade de Marylandhttp://www.cs.umbc.edu/abir

Searching the Webhttp://www.esrl.lib.md.us/refdesk/searching.html

Center for Intelligent Information Retrievalhttp://ciir.cs.umass.edu/

Information Retrievalhttp://www.dcs.gla.ac.uk/ir/new/pages/IR_Home.html