Porto Alegre, 8 de Janeiro de 2003
PUCRS
Estrutura Multitesauro para Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Dissertação de Mestrado
Orientação: Vera Lúcia Strube de Lima
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
2/37
Introdução
Estrutura Multitesauro para Recuperação de Informações
Tesauro Recuperação de Informações (RI) Estrutura Multitesauro Método para validação da estrutura na RI Resultados obtidos
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
3/37
Tesauro?
"É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999)
Caminhoneiro -> Caminhão, Motorista, CargaCobra -> Animal, Réptil, Cobra VenenosaComputador -> Processador, CPU, Processamento
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
4/37
Relações Semânticas da ISO 2788
Relação de Equivalência Sinonímia, Quase-sinonímia, Equivalentes Lexicais
Computação USE Informática
Relações Hierárquicas Hiponímia (Narrower Term)
Mamífero NT Leão Hiperonímia (Broader Term)
Leão BT Mamífero
Relações Associativas Termos Relacionados
Passageiro RT Automóvel
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
5/37
Recuperação de Informações (RI)?
Problema: Como encontrar os documentos que o usuário necessita? Pesquisa em base de documentos através de
uma consulta de usuário
DocumentosRelevantes
DocumentosEncontrados
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
6/37
RI e Linguagem Natural
Documentos e consultas estão em linguagem natural Linguagem Natural é bastante ambígua
cachorro
cachorro
cão
cão
cachorro
cachorro
canalha
canalha
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
7/37
Expansão de consulta?
A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original.
DocumentosRelevantes
Termo A
Termo B
Termo C
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
8/37
Multitesauro
LDPUCRS Lista de descritores da Biblioteca Ir. José Otão – PUCRS;
VCUSP Vocabulário Controlado da USP – Tesauro em CDROM;
VCBS Vocabulário Controlado Básico do Senado;
LTOCSS Tesauro construído automaticamente através do corpus do
NILC da “Folha de São Paulo” do ano de 1994. Relações obtidas por cálculo de similaridade sintática
através das técnicas descritas por Grefenstette (1994), adaptadas ao português por Gasperin (2001).
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
9/37
Características
Tesauros LDPUCRS, VCUSP e VCBS: São facilmente convertidos para a uma estrutura
baseada na ISO 2788; Apresentam informações que podem podem ser
descartadas Scope Note (Notas de Escopo) são úteis para bibliotecários,
mas não aparentam utilidade na RI automática
Tesauro LTOCSS Como os significados das relações não são
conhecidos, elas são associadas à relação RT da ISO 2788.
As relações semânticas apresentam uma medida de similaridade entre os termos.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
10/37
LTOCSS
ISO 2788
Estrutura Multitesauro Inicial
<THESAURUS><TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”><UF term=“TV”/><RT term=“Audiência”/><RT term=“Telespectador”
value=“0.99”/></TERM><NT term=“Videocassete”/>
</TERM><TERM term=“Videocassete”>
<SN>Utilize este termo quando for um aparelho
com mídia em fita magnética.</SN><BT term=“Eletroeletrônicos”/>
</TERM><TERM term=“Audiência”/>
</THESAURUS>
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
11/37
<THESAURUS><TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”><ET term=“TV”/><RT term=“Audiência”/><SY term=“Telespectador”
value=“0.99”/></TERM><NT term=“Videocassete”/>
</TERM><TERM term=“Videocassete”>
<BT term=“Eletroeletrônicos”/></TERM><TERM term=“Audiência”/>
</THESAURUS>
Estrutura Multitesauro
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
12/37
Estrutura na RI
Desenvolvimento de uma Heurística de Expansão de Consultas Utilizar a estrutura em uma aplicação de RI; Demonstrar que, através de uma estrutura
padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
13/37
É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão.
O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux.
O que é o QET?
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
14/37
Heurística de Expansão de Consultas
Acidente de Carro
Automóvel
UF (0.8)
Relação Semântica com pesos em [0,1)
Acidente de Trânsito
RT (0.2)
β = 0.8
β = 0.16
Direção Perigosa
RT (0.2)β = 0.032 < σ (0.1)
XXXXXXXXX
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
15/37
Heurística de Expansão de Consultas
Acidente de Carro
Automóvel
UF (0.8)
Acidente de Trânsito
RT (0.2)
β = 0.6
β = 0.16NT (0.6)
δ = 0.76 > λ (0.7)
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
16/37
Medidas de avaliação
Precisão:
Abrangência:
Medida-F:
c
bP
Corpus
a cb
Documentos Relevantes
Documentos Recuperados
a
bR
RP
PRF
2
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
17/37
Testes em corpus Corpus do NILC de artigos diversos da folha
de São Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente.
Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI.
Verificação manual de relevância. Geração semi-automática de estatísticas.
Marcação de relevância para 13 assuntos.
Validação
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
18/37
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Ab
ran
gê
nci
a
Consulta Original Consulta Expandida
Abrangência
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
19/37
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Pre
cis
ão
Consulta Original Consulta Expandida
Precisão
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
20/37
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Me
did
a-F
Consulta Original Consulta Expandida
Medida-F
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
21/37
Validação
Médias das 13 consultas
Médias Precisão Abrangência Medida-F
Consulta Normal 0,4499 0,2389 0,3121
Consulta Expandida 0,3778 0,5010 0,4307
-16,02% +109,71% +38,00%
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
22/37
Definição dos pesos para as relações
Peso de RT altos diminuem a precisão
Peso de BT elevado aumenta o recall mas reduz a precisão
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
23/37
Definição de λ
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
24/37
Utilização conjunta de tesauros
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
25/37
Validação na Internet
Analisados os 50 primeiros documentos retornados pelo portal Alta Vista Brasil para 14 consultas nas formas originais e expandidas
Observou-se duas medidas de relevância: Documentos Relevantes na RI e na WWW
(DRRI e DRWWW)
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
26/37
Abrangência
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Consultas
Ab
ran
gên
cia
Normal DRRI Expandida DRRI Normal Web Expandida Web
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
27/37
Precisão
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Consultas
Pre
cis
ão
Normal DRRI Expandida DRRI Normal WWW Expandida WWW
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
28/37
Medida-F
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Consultas
Me
did
a-F
Normal DRRI Expandida DRRI Normal WWW Expandida WWW
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
29/37
Médias na Internet
Médias das 14 consultas
Médias DRRI Precisão Abrangência Medida-F
Consulta Normal 0,8677 0,5836 0,6978
Consulta Expandida 0,7387 0,5384 0,6228
-14,87% -7,75% -10,75%
Médias DRWWW Precisão Abrangência Medida-F
Consulta Normal 0,7770 0,5181 0,6216
Consulta Expandida 0,6600 0,4814 0,5567
-15,06% -7,08% -10,45%
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
30/37
Estimando a Abrangência na Internet
Médias das 14 consultas
Médias Recuperados Precisão Abrangência Estimada
Medida-F
Consulta Normal 16864 0,8677 0,2577 0,3190
Consulta Expandida 29319 0,7387 0,5384 0,6114
+73,85% -14,87% +108,90% +91,69%
MédiasMédias PrecisãoPrecisão AbrangênciaAbrangência Medida-FMedida-F
Consulta NormalConsulta Normal 0,44990,4499 0,23890,2389 0,31210,3121
Consulta Consulta ExpandidaExpandida
0,37780,3778 0,50100,5010 0,43070,4307
-16,02%-16,02% +109,71%+109,71% +38,00%+38,00%
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
31/37
Considerações sobre os resultados
A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido.
O método de expansão apresenta bons resultados (F-Measure) e melhora a RI`em corpus estático.
Descobrir melhores valores para os parâmetros da heurística é um trabalho árduo e deve ser realizado no futuro, para que melhores resultados possam ser obtidos.
Testes na Internet demonstraram que, o acréscimo de termos em um portal de busca acarreta em uma degradação na precisão. Contudo, quando poucos resultados são obtidos na consulta original, sempre é válida a realização da expansão de consulta.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
32/37
Trabalhos Relacionados
Sintichakis & Constantopoulus (1997) apresentam um método de efetuar a junção de tesauros monolíngües;
Robin & Ramalho (2001) realizam a expansão de consultas com as relações de sinonímia e hiperonímia da WordNet.
Tudhope et al. (2001) propõem uma técnica para medir a distância semântica entre termos utilizando diferentes pesos para as diferentes relações semânticas.
Mandala et al. (1999) utilizam a WordNet, junto ao tesauro de Roget e outros tesauros gerados automaticamente, na expansão de consultas.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
33/37
Trabalhos publicados em eventos
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações. In: XXVIII Conferencia Latinoamericana de Informática (CLEI 2002). Proceedings... . Montevideo, Uruguay.25-29 Novembro 2002.
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações In: XVI Brazilian Symposium on Artificial Intelligence (SBIA'02), I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA). Proceedings... . Porto de Galinhas, PE, Brazil. 11-14 Novembro 2002.
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Estrutura Multitesauro para Recuperação de Informações. In: XIII Simpósio Brasileira em Informática na Educação (SBIE'02), Workshop de Ontologias (WONTO). Proceedings... . São Leopoldo, RS, Brazil. 12-14 Novembro 2002.
PIZZATO, L. A. S., STRUBE DE LIMA, V.L.. Query Expansion based on Thesaurus Relations: Evaluation over Internet In: CICLing-2003, Computational Linguistics and Intelligent Text Processing, 2003, Cidade do México, México. Lecture Notes in Computer Science N 2588. Berlin, Alemanha: Springer-Verlag, 2003 (a ser publicado)
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
34/37
Trabalhos Futuros
Indexação e recuperação de documentos no QET; Utilizar outros tipos de tesauros construídos
automaticamente; Descobrir melhores valores para os parâmetros da
heurística;
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
35/37
O desenvolvimento da estrutura multitesauro; A heurística utilizada na expansão de consulta
implementada na ferramenta QET. Uma avaliação da utilização da estrutura na RI.
Foco do estudo
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
36/37
Agradecimentos
Mestrado foi financiado pelo convênio DELL/PUCRS
Conselho Nacional de Pesquisa Científica
Departamento Técnico do Sistema Integrado de Bibliotecas da USP
Subsecretaria de Biblioteca do Senado Federal
Biblioteca Ir. José Otão da PUCRS
Núcleo Interinstitucional de Lingüística Computacional
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de MestradoPontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
37/37
GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001.
ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpus-based thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The Association For Computational Linguistics (EACL'99), 1999. Proceedings ... . 1999. p.94-101.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of thesaurus for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research And Development In Information Retrieval, 1999. Proceedings .... ACM Press, 1999. p.191-197.
ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine setting. In: IR'2001, 2001,Oulu, Finland. Proceedings … . 2001.
RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.
SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th International Conference On Research And Development In Information Retrieval, 1997. Proceedings ... . 1997. p.129-138.
TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for retrieval. Journal of Digital Information, v.1, n.8, Fevereiro 2001.
Referências
Porto Alegre, 8 de Janeiro de 2003
PUCRS
Estrutura Multitesauro para Recuperação de Informações
Luiz Augusto Sangoi [email protected]@inf.pucrs.br
Dissertação de Mestrado
Orientação: Vera Lúcia Strube de Lima