Upload
internet
View
102
Download
0
Embed Size (px)
Citation preview
PUCRS
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Desenvolvimento e Avaliação de umaEstrutura Multitesauro para
Recuperação de Informações
Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima [email protected] [email protected]
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Introdução
Desenvolvimento e Avaliação de uma Estrutura Multitesauro para
Recuperação de Informações
• Tesauro • Estrutura Multitesaural• Recuperação de Informações (RI)• Resultados obtidos
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Tesauro?
"É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999)
Caminhoneiro -> Caminhão, Motorista, CargaCobra -> Animal, Réptil, Cobra VenenosaComputador -> Processador, CPU, Processamento
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Relações Semânticas da ISO 2788
• Relação de Equivalência – Sinonímia, Quase-sinonímia, Equivalentes Lexicais
• Computação USE Informática
• Relações Hierárquicas– Hiponímia (Narrower Term)
• Mamífero NT Leão
– Hiperonímia (Broader Term)• Leão BT Mamífero
• Relações Associativas– Termos Relacionados
• Passageiro RT Automóvel
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Multitesauro
• LDPUCRS – Lista de descritores da Biblioteca Ir. José Otão – PUCRS;
• VCUSP– Vocabulário Controlado da USP – Tesauro em CDROM;
• VCBS– Vocabulário Controlado Básico do Senado;
• LTOCSS– Tesauro construído automaticamente através do corpus do NILC
da “Folha de São Paulo” do ano de 1994. – Relações obtidas por cálculo de similaridade sintática através das
técnicas descritas por Grefenstette (1994), adaptadas ao português por Gasperin (2001).
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Características
• Tesauros LDPUCRS, VCUSP e VCBS: – São facilmente convertidos para a uma estrutura baseada na ISO
2788;– Apresentam informações que podem podem ser descartadas
• Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática
• Tesauro LTOCSS– Como os significados das relações não são conhecidos, elas são
associadas à relação RT da ISO 2788.– As relações semânticas apresentam uma medida de similaridade
entre os termos.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
LTOCSS
ISO 2788
<THESAURUS><TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”><UF term=“TV”/><RT term=“Audiência”/><RT term=“Telespectador” value=“0.99”/>
</TERM><NT term=“Videocassete”/>
</TERM><TERM term=“Videocassete”>
<SN>Utilize este termo quando for um aparelho
com mídia em fita magnética.</SN><BT term=“Eletroeletrônicos”/>
</TERM><TERM term=“Audiência”/>
</THESAURUS>
Estrutura Multitesauro
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Recuperação de Informações
• Desenvolvimento de uma Heurística de Expansão de Consultas– Utilizar a estrutura em uma aplicação de RI;– Demonstrar que, através de uma estrutura padrão é
possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Expansão de consulta?
• A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original.
DocumentosRelevantes
Termo A
Termo B
Termo C
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão.
O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux.
O que é o QET?
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Heurística de Expansão de Consultas
Acidente de Carro
Automóvel
UF (0.8)
Relação Semântica com pesos em [0,1)
Acidente de Trânsito
RT (0.2)
β = 0.8
β = 0.16
Direção Perigosa
RT (0.2)β = 0.032 < σ (0.1)
XXXXXXXXX
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Heurística de Expansão de Consultas
Acidente de Carro
Automóvel
UF (0.8)
Acidente de Trânsito
RT (0.2)
β = 0.6
β = 0.16NT (0.6)
δ = 0.76 > λ (0.7)
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Medidas de avaliação
• Precisão:
• Recall:
• F-Measure:
c
bP
Corpus
a cb
Documentos Relevantes
Documentos Recuperados
a
bR
RP
PRF
2
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
• Testes em corpus– Corpus do NILC de artigos diversos da folha de São
Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente.
– Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI.
• Verificação manual de relevância.• Geração semi-automática de estatísticas.
– Marcação de relevância para 13 assuntos.
Avaliação
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Definição dos pesos para as relações
Peso de RT altos diminuem a precisão
Peso de BT elevado aumenta o recall mas reduz a precisão
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Ab
ran
gê
nci
a
Consulta Original Consulta Expandida
Recall
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Pre
cis
ão
Consulta Original Consulta Expandida
Precisão
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Me
did
a-F
Consulta Original Consulta Expandida
F-Measure
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Avaliação
• Médias das 13 consultas
Médias Precisão Recall F-Measure
Consulta Normal 0,4563 0,2336 0,3090
Consulta Expandida 0,3867 0,5247 0,4452
-15,25% +124,61% +44,08%
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Considerações
• A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido.
• O método de expansão apresenta bons resultados (F-Measure) e melhora a RI.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Trabalhos Futuros
• Indexação e recuperação de documentos no QET;
• Utilizar outros tipos de tesauros construídos automaticamente;
• Descobrir melhores valores para os parâmetros da heurística;
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
• O desenvolvimento da estrutura multitesauro;• A heurística utilizada na expansão de consulta
implementada na ferramenta QET.• Uma avaliação da utilização da estrutura na RI.
Foco do estudo
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Agradecimentos
• Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS
• Conselho Nacional de Pesquisa Científica
• Departamento Técnico do Sistema Integrado de Bibliotecas da USP
• Subsecretaria de Biblioteca do Senado Federal
• Biblioteca Ir. José Otão da PUCRS
• Núcleo Interinstitucional de Lingüística Computacional
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001.
GREFENSTETTE, Gregory. Explorations in Automatic Thesaurus Discovery. EUA: Kluwer Academic Publishers. 1994. 305 p.
ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.
RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.
Referências
PUCRS
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Desenvolvimento e Avaliação de uma Estrutura Multitesauro para
Recuperação de Informações
Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima
[email protected] [email protected]
http://www.inf.pucrs.br/~pizzato