Operações sobre as Consultas Eveline Alonso Veloso PUC-MINAS

Preview:

Citation preview

Operações sobre as Consultas

Eveline Alonso VelosoPUC-MINAS

Referências

BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 5.

Motivação Usuários comuns de sistemas de

recuperação de informação não possuem conhecimento detalhado; sobre a coleção de documentos que

serão recuperados; nem sobre a estratégia de busca

utilizada pelo sistema. Conseqüência:

a maioria dos usuários encontra dificuldades para formular consultas adequadas;

para fins de recuperação de informação.

Motivação

Em máquinas de busca disponíveis atualmente na Web; em geral, usuários gastam muito

tempo reformulando suas consultas diversas vezes;

até conseguirem recuperar eficazmente documentos relevantes para sua necessidade de informação.

Motivação

Esta dificuldade sugere que: a primeira consulta formulada

pelo usuário deve ser tratada como uma tentativa inicial;

que precisa ser aprimorada.

Abordagens para Expansão da Consulta

Abordagens mais comumente utilizadas para expandir a consulta original do usuário:

realimentação de relevantes;

expansão global;

expansão local.

Realimentação de Relevantes

Estratégia mais popular

de reformulação de

consultas.

Realimentação de Relevantes – Procedimento

A partir da consulta original; formulada pelo usuário do sistema de

recuperação de informação; um conjunto de documentos é recuperado.

O usuário então inspeciona este conjunto de documentos recuperados; a procura de documentos relevantes.

Na prática, apenas os primeiros documentos melhor ranqueados precisam ser inspecionados pelo usuário.

Realimentação de Relevantes – Procedimento Após esta inspeção, o usuário

marca os documentos que ele considerou relevantes.

O sistema então seleciona bons descritores para os documentos marcados pelo usuário. Em geral, são selecionados como

descritores do documento; os termos que possuem alto tf x idf

para o documento.

Realimentação de Relevantes – Procedimento

O sistema reformula a consulta original do usuário; com base nos termos identificados

como bons descritores dos documentos selecionados pelo usuário;

e processa esta nova consulta. A expectativa é que a resposta

desta nova consulta; seja melhor do que a resposta obtida

para a consulta original.

Realimentação de Relevantes – Idéia Fundamental

Os documentos conhecidamente relevantes; ou seja, aqueles que foram

indicados pelo usuário como relevantes;

possuem termos que podem ser utilizados para descrever um conjunto maior de documentos relevantes.

Realimentação de Relevantes – Vantagens

O usuário não precisa explicitamente reformular sua consulta. Ele só precisa indicar os

documentos que ele considerou relevantes.

É uma estratégia interativa de expansão de consulta.

Realimentação de Relevantes – Exemplo

Estratégias de Expansão Global e Local

Expandem a consulta original formulada pelo usuário; tentando obter uma melhor

descrição do conjunto de documentos relevantes;

sem a intervenção do usuário.

Estratégias de Expansão Global e Local

Para esta expansão pode-se utilizar: um tesauros construído

manualmente; estruturas semelhantes a

tesauros; construídas automaticamente.

Tesauros São ferramentas de vocabulário

específicas para um domínio do conhecimento; construídas por especialistas para

representar conceitos de tal domínio; e especificar seus relacionamentos.

Os termos do vocabulário da coleção são tratados como conceitos; e o tesauros é visto como uma estrutura

de relação conceitual.

Tesauros – Relacionamentos

Os relacionamentos entre conceitos mais comumente representados em um tesauros são: equivalência; hierarquia; associatividade.

Tesauros – Exemplo

laranja TG1 fruta TE1 laranja bahia TE1 laranja pêra TR laranjeira

Estruturas Semelhantes a Tesauros Todos os documentos da coleção, e

os termos de seu vocabulário, podem ser utilizados para construir uma estrutura semelhante a um tesauros; que define as relações entre os termos

do vocabulário da coleção. Podem ser considerados termos

relacionados: sinônimos; variações sintáticas; etc.

Expansão Global

Expansão baseada em

informação global; derivada de toda a coleção

de documentos.

Expansão Global – Procedimento Verifica-se;

com a utilização de um tesauros ou de uma estrutura semelhante;

todos os termos semelhantes àqueles empregados na consulta original formulada pelo usuário.

A consulta original é expandida; utilizando-se todos os termos

semelhantes aos termos presentes nesta consulta original.

A consulta expandida é processada; e seu resultado é apresentado ao usuário.

Expansão Local

Expansão baseada em

informações derivadas; do conjunto de documentos

inicialmente recuperados.

Expansão Local – Procedimento Inicialmente, processa-se a consulta

originalmente formulada pelo usuário.

Os documentos recuperados para esta consulta são examinados automaticamente; durante o processamento da consulta; para a determinação dos termos que

serão utilizados para a expansão da consulta original.

Assim, esta estratégia opera apenas sobre os documentos recuperados para a consulta original do usuário.

Expansão Local – Procedimento Verifica-se;

com a utilização de um tesauros ou de uma estrutura semelhante;

todos os termos semelhantes àqueles empregados na consulta original formulada pelo usuário;

que estão presentes em algum documento originalmente recuperado.

A consulta original é expandida; com a utilização destes termos.

Pode-se considerar somente os primeiros documentos recuperados para a consulta original.

Expansão Local – Desvantagem

É necessário acessar o texto dos documentos recuperados para a consulta original do usuário; o que pode afetar muito o

tempo de resposta do sistema de recuperação de informação.

Exercício 1 – Coleção Considere a seguinte coleção de

documentos: d1: Domicílio eleitoral. Zona eleitoral.

d2: Título de eleitor. Eleitor.

Domicílio eleitoral. d3: Voto. Título de eleitor.

d4: Eleição. Voto.

d5: Eleição. Direito de votar.

Exercício 1 – Tesauros

Termo TR TR

Eleitor Direito de votar Domicílio eleitoral

Título de eleitor Eleição

Direito de votar Eleitor

Domicílio eleitoral

Eleitor Zona eleitoral

Título de eleitor Eleitor Voto

Eleição Eleitor Voto

Voto Eleição Título de eleitor

Zona eleitoral Domicílio eleitoral

Considere também o seguinte trecho extraído do Tesauros Jurídico do Conselho de Justiça Federal:

Exercício 1 – Consulta

Mostre como um sistema de recuperação de informação que utiliza o modelo Booleano processa a consulta q1 = eleitor: utilizando a estratégia de

expansão global da consulta; utilizando a estratégia de

expansão local da consulta.

Exercício 2 – Consulta Mostre agora como este

mesmo sistema de recuperação de informação processa a consulta q2 = eleição: utilizando a estratégia de

expansão global da consulta; utilizando a estratégia de

expansão local da consulta.

Exercício 3 – Coleção Considere a seguinte coleção de

documentos: d1: Crime contra o meio ambiente.

Poluição. Dano ecológico. d2: Floresta. Instituto Brasileiro de

Defesa Florestal. d3: Meio ambiente.

d4: Desmatamento: dano ecológico.

d5: Poluição.

Exercício 3 – Tesauros Considere também o seguinte trecho extraído do Tesauros Jurídico do Conselho de Justiça Federal:

Termo TR TRDano ecológico PoluiçãoCrime contra o meio ambiente

Dano ecológico Meio ambiente desmatamentoDesmatamento Dano ecológico FlorestaCrime contra o meio ambiente Poluição Meio ambienteInstituto Brasileiro de Defesa Florestal Floresta

Floresta DesmatamentoInstituto Brasileiro de Defesa Florestal

PoluiçãoCrime contra o meio ambiente Meio ambiente

Meio ambiente

Exercício 3 – Consulta Mostre como um sistema de

recuperação de informação que utiliza o modelo Booleano processa a consulta q3 = desmatamento: utilizando a estratégia de

expansão global da consulta; utilizando a estratégia de

expansão local da consulta.

Exercício 4 – Consulta Mostre agora como este

mesmo sistema de recuperação de informação processa a consulta q4 = poluição: utilizando a estratégia de

expansão global da consulta; utilizando a estratégia de

expansão local da consulta.

Recommended