Indexação Automática de Teses e Dissertações da UFPE

INDEXAÇÃO AUTOMÁTICA DE TESES E DISSERTAÇÕES DA UFPE

Remi Correia LapaRenato Fernandes Corrêa

INTRODUÇÃO

REVISÃO DE LITERATURA: INDEXAÇÃO

• Santos e Ribeiro (2003), a indexação é uma ação que descreve e identifica um documento de acordo com seu assunto, extraindo os conceitos através de um processo de análise.

Indexação Manual Indexação Automática

REVISÃO DE LITERATURA: INDEXAÇÃO AUTOMÁTICA

O documento é indexado por um programa que:• Extração - adota critérios de freqüência, posição

e contexto com que as palavras aparecem no decorrer do texto para então extraí-las como descritores.

• Atribuição - desenvolve, para cada termo a ser indexado, um “perfil” de palavras ou expressões que costumam ocorrer freqüentemente nos documentos.

REVISÃO DE LITERATURA: FERRAMENTAS

• Parsing - É um mecanismo usado para extrair os termos de um texto com base na análise léxica.

• Taggers (Etiquetadores) - é um sistema que serve para identificar a categoria gramatical de cada item lexical do texto analisado.

• Stopwords (Palavras Irrelevantes) - são palavras que não são consideradas bons descritores.

• Stemmers (Radicalizadores) - atua nas palavras congêneres de um documento substituindo-as por uma representação única através do seu radical.

METODOLOGIA

• A pesquisa das stoplists e stemmers ocorreu através da busca de páginas com tais palavras na URL (“endereço” na internet), em seguida foram elaboradas dois tipos de planilhas:

Lista de todas URL´s encontradas, juntamente com as respectivas stoplists ou stemmers.

Pesquisa mais detalhada sobre as URL´s, procurando obter informações mais precisas.

METODOLOGIA

• Utilizar o programa OGMA, uma ferramenta de análise de texto que permite a identificação e pontuação de sintagmas nominais bem como a indexação por termos isolados em todas as stoplists obtidas.

• Estudo do padrão de metadados MTD-BR e a identificação dos campos mais interessantes para a operação de indexação automática.

RESULTADOS

• Foi constatado um grande número de stoplists, e a dificuldade em localizar os stemmers.

• É apresentado um quadro contendo a URL, o NÚMERO DE TERMOS e uma DESCRIÇÃO sobre a URL.

• Cada lista contém grupos de palavras em comum, porém são muitas as palavras que as diferenciam.

RESULTADOS

Ocorrência de Palavras

Núm

ero de Palavras

RESULTADOS

• As palavras derivadas dos verbos: ter, estar e ser, são as que ocorrem mais.

• Presença de palavras escritas com sua grafia de forma errada, como nas palavras: dezassete e promeiro.

• Grande parte das palavras que compõem o grupo de baixa freqüência tem que ser vistas com cautela quanto a sua utilização como stopwords, pois muitas não são irrelevantes para a busca de uma tese ou dissertação.

INDEXAÇÃO DE METADADOS• MTD-BR - Padrão Brasileiro de Metadados de Teses e Dissertações.

• Os campos interessantes do MTD-BR para indexação das teses de dissertações são:

Tipo – tipo da fonte de informação; Identificação Documento – código que identifica a tese ou dissertação no acervo da Biblioteca Digital; Título – título da tese ou dissertação; Idioma – idioma da tese ou dissertação; Grau – grau acadêmico associado à tese ou dissertação; Titulação – nome do grau acadêmico associado à tese ou dissertação; Resumo – resumo da tese ou dissertação; Assunto – tópicos tratados na tese ou dissertação e a tabela de onde estes tópicos foram extraídos (quando for o caso); Autor – autor da tese ou dissertação; Contribuidor – contribuidor da tese ou dissertação e forma de participação (papel); Nome – nome do programa de pós-graduação; Área – área do conhecimento de programa de pós-graduação.

INDEXAÇÃO DE METADADOS

• Pode-se observar que a BDTD da UFPE atualmente realiza a indexação dos documentos obtendo como produto final uma lista de termos que possuem o mesmo peso semântico para recuperá-lo. Este procedimento torna o processo de busca menos eficiente, pois os descritores são tratados como palavras isoladas.

CONCLUSÃO

• A importância de uma boa indexação como forma de se obter uma recuperação da informação de maior qualidade e eficácia

• Percebemos uma quantidade grande de ferramentas desenvolvidas para tornar a indexação automática cada vez mais eficiente melhorando desta forma o problema da recuperação da informação

CONCLUSÃO

• Chegamos à conclusão que cada instituição adota a lista de stopwords e stemmers que melhor se adéquam a sua necessidade, ou seja, uma palavra que pode ser entendida como mal descritor para uma instituição pode vir a ser um importante descritor para outra instituição que atua em uma realidade diferente.

AGRADECIMENTOS

• A UFPE pela bolsa PIBIC. • A FACEP pelo fomento ao Projeto Mapeador

de Teses e Dissertações.• A Renato Fernandes Corrêa pelas

orientações.• A meus pais pelo incentivo ao estudo.

Documents

Indexação Automática de Teses e Dissertações da UFPE