39
Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Embed Size (px)

Citation preview

Page 1: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Operações sobre o Texto

Eveline Alonso VelosoPUC-MINAS

Page 2: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Referências

BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 7.

Page 3: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Motivação Nem todas as palavras são

igualmente significantes; para representar a semântica de um

documento. Substantivos são as palavras mais

representativas do conteúdo de um documento; “carregam” mais significado.

O pré-processamento dos documentos da coleção é realizado; com o objetivo de determinar os termos

que serão utilizados como termos de indexação.

Page 4: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Indexação do Texto Completo dos Documentos Representar documentos utilizando como

termos de indexação todos os seus termos;

promove uma representação imprecisa da semântica dos documentos da coleção.

Há termos que não possuem um significado muito forte;

não sendo muito representativos do conteúdo do documento;

artigos, preposições, conjunções, etc. A utilização então de todas as palavras da

coleção para indexar seus documentos; gera muito “ruído” na tarefa de recuperar

informação.

Page 5: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Pré-processamento dos Documentos da Coleção Maneira de reduzir esse “ruído”:

reduzir o conjunto de palavras que podem ser utilizadas para indexar os documentos da coleção.

Pré-processamento dos documentos da coleção; pode ser visto como um processo

para controlar e selecionar o vocabulário utilizado para indexar os documentos.

Page 6: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Potencial Prejuízo do Pré-processamento dos Documentos Normalmente não é do conhecimento

dos usuários dos sistemas de recuperação de informação; a realização desse pré-processamento

nos documentos da coleção. Como resultado, um usuário pode

ficar surpreso com alguns dos documentos retornados; e com a ausência de outros que ele

esperava.

Page 7: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Conclusão As transformações realizadas sobre o

texto original dos documentos; potencialmente podem melhorar o

processo de recuperação de informação; mas podem também tornar mais difícil

para o usuário interpretar a tarefa de recuperação.

Por causa disso, algumas máquinas de busca estão optando por indexar o texto completo de seus documentos; apesar do índice ter mais “ruído”; a tarefa de recuperação de informação é

mais simples e intuitiva para o usuário.

Page 8: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Transformações Análise léxica do texto;

com o objetivo de identificar candidatos a termos de indexação;

tratando dígitos, hífens, sinais de pontuação, acentuação, caracteres especiais e letras maiúsculas e minúsculas.

Eliminação de stopwords; com o objetivo de retirar palavras

que possuem um baixo valor de discriminação para o processo de recuperação de informação.

Page 9: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Transformações Radicalização;

com o objetivo de remover sufixos e prefixos;

e permitir a recuperação de documentos contendo variações sintáticas dos termos da consulta.

Seleção de termos de indexação; determinando quais palavras poderão ser

utilizadas para indexar os documentos da coleção.

Essa escolha está relacionada com a natureza sintática da palavra;

substantivos geralmente “carregam” mais semântica do que adjetivos e advérbios.

Page 10: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Análise Léxica do Texto

Identificação das palavras candidatas a termos de indexação; tratando dígitos, hífens, sinais

de pontuação, acentuação, caracteres especiais e letras maiúsculas e minúsculas.

Page 11: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Conversão de Letras Maiúsculas em Minúsculas ou Vice-versa Considerar se a palavra está

escrita em letras maiúsculas ou minúsculas; não é importante para a identificação

dos termos de indexação; nem para aspectos de recuperação

de informação. Normalmente, durante a análise

léxica, todas as palavras identificadas; são convertidas para letras

maiúsculas ou minúsculas.

Page 12: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 13: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Sinais de Pontuação

Em geral, os sinais de pontuação são totalmente removidos; durante a análise léxica do

texto dos documentos da coleção.

Page 14: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 15: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Sinais de Pontuação No entanto, há contextos em

que esses sinais podem ser importantes. Exemplo:

sistema de recuperação de informação para a área médica;

códigos CID como J30.2

Page 16: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Caracteres Especiais

Em geral, também são eliminados durante a análise léxica do texto dos documentos da coleção; e desconsiderados caso

apareçam na consulta do usuário.

Page 17: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 18: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Caracteres Especiais No entanto, há contextos em que os

caracteres especiais podem ser importantes. Exemplo:

e-mails. Assim, muitos sistemas de

recuperação de informação estão optando por dar um tratamento diferente dependendo do caracter especial; e do local onde ele aparece;

no termo identificado; e na consulta do usuário.

Page 19: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 20: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 21: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Hífens Eliminar os hífens, separando os termos

das palavras que foram escritas utilizando-os;

considerando então mais de um termo de indexação;

pode ser útil devido a inconsistências de uso; a mesma palavra escrita com e sem hífen em

documentos diferentes. No entanto, existem palavras que são

realmente escritas com hífen e sua separação em mais de um termo de indexação pode prejudicar o processo de recuperação de informação;

interpretando incorretamente a necessidade de informação do usuário.

Page 22: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 23: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Hífens Uma solução parece ser:

separar os termos das palavras que foram escritas utilizando-se hífens;

considerando então mais de um termo de indexação;

durante a indexação do documento. caso o usuário especifique sua consulta

utilizando hífens; os hífens são desconsiderados;

permitindo recuperar tanto documentos onde a palavra aparece com hífen quanto documentos em que ela aparece sem hífen.

mas a consulta é processada como uma consulta por frase exata;

recuperando apenas documentos onde os termos especificados aparecem próximos e na ordem indicada.

Page 24: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 25: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Dígitos Dígitos não são geralmente bons

termos de indexação; porque sem estarem inseridos e

associados a um contexto bem-definido; são muito vagos.

Por isso, muitas vezes, opta-se por eliminar dígitos do conjunto de termos de indexação.

No entanto, associados a palavras, ou seja, inseridos em um determinado contexto, podem ser muito importantes. Exemplo:

datas como 7 de setembro de 1822.

Page 26: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Acentuação Eliminar os acentos;

pode ser útil devido a inconsistências de uso; a mesma palavra escrita com e sem acento

em documentos diferentes. No entanto, na língua portuguesa,

existem palavras com significados completamente diferentes;

mas que são escritas com as mesmas letras; diferenciando-se apenas pela presença ou

ausência do acento. Nesse caso, a eliminação da acentuação

pode causar uma interpretação incorreta da necessidade de informação do usuário.

Page 27: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 28: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Stopwords Palavras que são muito freqüentes em

muitos dos documentos da coleção; não são bons discriminadores dos

documentos relevantes para uma consulta. Por isso, são pouco úteis para objetivos de

recuperação de informação. Essas palavras são conhecidas como

stopwords: artigos, preposições, conjunções. Verbos e advérbios muito comuns também

podem ser incluídos na lista de stopwords: são, está, é, etc.

Page 29: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Stopwords Em geral, as stopwords são eliminadas

durante o processo de indexação dos documentos.

Benefícios da eliminação de stopwords: redução do tamanho do índice da coleção; aumento da velocidade de processamento

da consulta. No entanto, esse procedimento pode

prejudicar o processo de recuperação de informação; especialmente para consultas por frase

exata.

Page 30: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Stopwords

Page 31: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Eliminação de Stopwords Uma solução para esse problema tem

sido: desconsiderar as stopwords em consultas

que não são por frase exata; o que diminui o número de termos de

indexação e de ocorrências a serem considerados;

diminuindo também o tempo de processamento da consulta.

mas considerá-las em consultas por frase exata;

cerca de apenas 10% das consultas submetidas às máquinas de busca disponíveis na Web.

Page 32: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 33: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 34: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Radicalização – Stemming Freqüentemente, o usuário

especifica uma palavra em uma consulta; mas apenas uma variação sintática

dessa palavra está presente em um documento relevante.

Esse problema pode ser resolvido com a substituição de palavras pelos seus respectivos radicais; a porção de uma palavra que resta;

após a remoção de prefixos e sufixos.

Page 35: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Radicalização – Stemming A radicalização é útil para melhorar o

processo de recuperação de informação porque reduz variantes que apresentam a mesma raiz; e são relacionadas a um conceito comum. Exemplo:

a palavra no singular, no plural, na forma do verbo correspondente, o verbo no gerúndio ou em algum tempo verbal são reduzidos ao mesmo radical.

A literatura da área ainda é controversa em relação aos benefícios da radicalização.

Page 36: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 37: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS
Page 38: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Seleção de Termos de Indexação Pode-se utilizar todas as palavras de

um texto; para representá-lo.

Pode-se também utilizar uma estratégia mais abstrata; em que nem todas as palavras são

usadas como termos de indexação. Isso significa que o conjunto de

termos de indexação deve ser controlado e selecionado; essa seleção pode ser feita por um

especialista ou automaticamente.

Page 39: Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Seleção de Termos de Indexação Substantivos “carregam” mais semântica

do que verbos, adjetivos e advérbios. Uma estratégia para selecionar

automaticamente os termos de indexação; é selecionar apenas os substantivos que

aparecem na coleção. Além disso, como é comum combinarmos

dois ou mais substantivos para denotar um único conceito;

como sistemas de informação; podemos também agrupar substantivos que

aparecem próximos no texto em um único termo de indexação;

que representa um único conceito.