Upload
barney
View
26
Download
0
Embed Size (px)
DESCRIPTION
Indexação Automática de Teses e Dissertações da UFPE. Remi Correia Lapa Renato Fernandes Corrêa. INTRODUÇÃO. Investimento: Tratamento Armazenamento Recuperação* *Indexação Automática *Ferramentas. REVISÃO DE LITERATURA: INDEXAÇÃO. - PowerPoint PPT Presentation
Citation preview
INDEXAÇÃO AUTOMÁTICA DE TESES E DISSERTAÇÕES DA UFPE
Remi Correia LapaRenato Fernandes Corrêa
INTRODUÇÃO
REVISÃO DE LITERATURA: INDEXAÇÃO
• Santos e Ribeiro (2003), a indexação é uma ação que descreve e identifica um documento de acordo com seu assunto, extraindo os conceitos através de um processo de análise.
Indexação Manual Indexação Automática
REVISÃO DE LITERATURA: INDEXAÇÃO AUTOMÁTICA
O documento é indexado por um programa que:• Extração - adota critérios de freqüência, posição
e contexto com que as palavras aparecem no decorrer do texto para então extraí-las como descritores.
• Atribuição - desenvolve, para cada termo a ser indexado, um “perfil” de palavras ou expressões que costumam ocorrer freqüentemente nos documentos.
REVISÃO DE LITERATURA: FERRAMENTAS
• Parsing - É um mecanismo usado para extrair os termos de um texto com base na análise léxica.
• Taggers (Etiquetadores) - é um sistema que serve para identificar a categoria gramatical de cada item lexical do texto analisado.
• Stopwords (Palavras Irrelevantes) - são palavras que não são consideradas bons descritores.
• Stemmers (Radicalizadores) - atua nas palavras congêneres de um documento substituindo-as por uma representação única através do seu radical.
METODOLOGIA
• A pesquisa das stoplists e stemmers ocorreu através da busca de páginas com tais palavras na URL (“endereço” na internet), em seguida foram elaboradas dois tipos de planilhas:
Lista de todas URL´s encontradas, juntamente com as respectivas stoplists ou stemmers.
Pesquisa mais detalhada sobre as URL´s, procurando obter informações mais precisas.
METODOLOGIA
• Utilizar o programa OGMA, uma ferramenta de análise de texto que permite a identificação e pontuação de sintagmas nominais bem como a indexação por termos isolados em todas as stoplists obtidas.
• Estudo do padrão de metadados MTD-BR e a identificação dos campos mais interessantes para a operação de indexação automática.
RESULTADOS
• Foi constatado um grande número de stoplists, e a dificuldade em localizar os stemmers.
• É apresentado um quadro contendo a URL, o NÚMERO DE TERMOS e uma DESCRIÇÃO sobre a URL.
• Cada lista contém grupos de palavras em comum, porém são muitas as palavras que as diferenciam.
RESULTADOS
Ocorrência de Palavras
Núm
ero de Palavras
RESULTADOS
• As palavras derivadas dos verbos: ter, estar e ser, são as que ocorrem mais.
• Presença de palavras escritas com sua grafia de forma errada, como nas palavras: dezassete e promeiro.
• Grande parte das palavras que compõem o grupo de baixa freqüência tem que ser vistas com cautela quanto a sua utilização como stopwords, pois muitas não são irrelevantes para a busca de uma tese ou dissertação.
INDEXAÇÃO DE METADADOS• MTD-BR - Padrão Brasileiro de Metadados de Teses e Dissertações.
• Os campos interessantes do MTD-BR para indexação das teses de dissertações são:
Tipo – tipo da fonte de informação; Identificação Documento – código que identifica a tese ou dissertação no acervo da Biblioteca Digital; Título – título da tese ou dissertação; Idioma – idioma da tese ou dissertação; Grau – grau acadêmico associado à tese ou dissertação; Titulação – nome do grau acadêmico associado à tese ou dissertação; Resumo – resumo da tese ou dissertação; Assunto – tópicos tratados na tese ou dissertação e a tabela de onde estes tópicos foram extraídos (quando for o caso); Autor – autor da tese ou dissertação; Contribuidor – contribuidor da tese ou dissertação e forma de participação (papel); Nome – nome do programa de pós-graduação; Área – área do conhecimento de programa de pós-graduação.
INDEXAÇÃO DE METADADOS
• Pode-se observar que a BDTD da UFPE atualmente realiza a indexação dos documentos obtendo como produto final uma lista de termos que possuem o mesmo peso semântico para recuperá-lo. Este procedimento torna o processo de busca menos eficiente, pois os descritores são tratados como palavras isoladas.
CONCLUSÃO
• A importância de uma boa indexação como forma de se obter uma recuperação da informação de maior qualidade e eficácia
• Percebemos uma quantidade grande de ferramentas desenvolvidas para tornar a indexação automática cada vez mais eficiente melhorando desta forma o problema da recuperação da informação
CONCLUSÃO
• Chegamos à conclusão que cada instituição adota a lista de stopwords e stemmers que melhor se adéquam a sua necessidade, ou seja, uma palavra que pode ser entendida como mal descritor para uma instituição pode vir a ser um importante descritor para outra instituição que atua em uma realidade diferente.
AGRADECIMENTOS
• A UFPE pela bolsa PIBIC. • A FACEP pelo fomento ao Projeto Mapeador
de Teses e Dissertações.• A Renato Fernandes Corrêa pelas
orientações.• A meus pais pelo incentivo ao estudo.