Upload
xenia
View
24
Download
0
Embed Size (px)
DESCRIPTION
Busca de Informação Multilingue. Bibliotecas Digitais Engenharia Biomédica Universidade do Minho. Sumário. Introdução Processamento de Texto multilingue Busca de texto multilingue Busca de voz em várias línguas Avaliação de Sistemas Algumas aplicações Futuras direcções. O problema. - PowerPoint PPT Presentation
Citation preview
Busca de Busca de Informação Multilingue Informação Multilingue
Bibliotecas DigitaisEngenharia BiomédicaUniversidade do Minho
Sumário
Introdução Processamento de Texto multilingue Busca de texto multilingue Busca de voz em várias línguas Avaliação de Sistemas Algumas aplicações Futuras direcções
O problema
Pressão crescente para aceder à informação sem as barreiras tradicionais da cultura e da língua, implica a necessidade de ser capaz de : Encontrar informação em língua estrangeira Ler e interpretar essa informação Juntá-la com informação noutras línguas
É necessário o Acesso a Informação Multilingue
Acesso a Informação Multilingue
Ocupa-se da investigação para o armazenamento, acesso, busca e apresentação de informação em qualquer língua falada no mundo.
Duas áreas de interesse principais: Acesso, navegação, visualização Busca e descoberta de informação em várias
línguas
Processamento de texto em várias línguas
A tecnologia de base
Codificação de caracteres Requisitos específicos de cada língua Localização e apresentação
Busca de Informação Multilingue
Cruzar a fronteira da língua …
Interrogar uma colecção multilingue numa língua e buscar documentos relevantes noutras línguas
Filtrar seleccionar e pontuar os documentos devolvidos
BIM é multidisciplinar
Envolve investigadores das seguintes áreas:
Recuperação de Informação (IR), Processamento de Linguagem Natural, Tradução automática, Sumarização, Processamento de Voz, interpretação de imagens, Interacção H/M
Recursos de língua como dicionánrios, thesauri, corpora e colecções de teste.
Porquê que o BIM é importante?
Internacionalização– Países multilingues(Suiça, Canadá)– Áreas de Cooperação Económica (EU, EFTA, NAFTA)
Globalização da economia– multinacionais– Empregados falam línguas diferentes– Clientes falam línguas diferentes– Documentos precisam de ser acedidos em várias línguas
Sociedade de Informação Global
Larga gama de aplicações em que a informação tem que estar disponível aos utilizadores indepentemente da língua:
– Comércio electrónico– Entretimento– Educação
Sociedade de Informação Global
WWW como plataforma para disseminação do conhecimento
– Ensino à distância – Bibliotecas Digitais…..
Fornecedores e consumidores de informação devem ter igualdade de oportunidade Preservação das línguas nacionais…
WWW e Internet
A Internet ja não está só em Inglês e
O perfil dos utilizadores está mudar drasticamente – Usada inicialmente só por académicos, agora está
ser para publicidade, divertimento, educação, etc....
WWWe Internet
Internacionalização da Internet
– O grupo das pessoas que não falam inglês é o que regista maior crescimento como novos utilizadores da Internet
Em1997, 8.1 milhões utilizadores de língua espanhola
Em 2000, 37 milhões……..
83M Utilizadores da Internet de língua não inglesa
Japonês 17.4%
Espanhol17.1%
Alemão16.8%
Francês10%
Chinês 7.7%
Holandês 5.3%
Sueco 4.3%
Coreano 4.4%
Italiano 4%
Português 2.2%
Mudanças na Internet
Em 2005, 68% dos utilizadores falarão uma língua diferente do inglês
Total dos utilizadores passará de 171 milhões para 345 milhões em 2005
Portanto … 270 milhões não falantes de inglês (dos 83M actuais)
Inglês
12%
6%
4%
8%
2%5%5%
40%
68% não falantes de inglês em 20058%
2%6%2%
Espanhol Japonês Alemão Francês
Chinês Escandinavo Italiano Holandês
Coreano Português Outros Inglês
Línguas Mais Faladas
0
200
400
600
800
Nº
de
Pes
soas
(M
ilh
ões)
Ch
inês
Ingl
ês
Hin
di-
Urd
u
Esp
anho
l
Por
tugu
ês
Ben
gali
Ru
sso
Ára
be
Japa
nês
Fonte: http://www.g11n.com/ faq .html
Tamanho do Web: Crescimento Exponensial
0
1
10
100
1.000
10.000O
ut-
96
Ou
t-9
7
Ou
t-9
8
Ou
t-9
9
Ou
t-0
0
Ou
t-0
1
Ou
t-0
2
Ou
t-0
3
Ou
t-0
4
Ou
t-0
5
Bil
hõ
es
de
pa
lav
ras
Inglês Outras Europeias
Fonte: Extrapolado de Grefenstette e Nioche, RIAO 2000
História: objectivos
1978: ISO Standard 5964 thesauri multilingue disponível. Versão revista em 1985
1991: Publicada a norma Unicode, Versão 1.0 1993: ISO/IEC 10646 publicado como
"Universal Multiple-Octet Coded Character Set” (UCS).
História: objectivos
1995: TANGO um web browser multilingue
Netscape/Explorer suportam UNICODE e fontes para outras línguas
História: primeiras abordagens
1970: thesaurus (Salton)
1991-94: Projecto EMIR –1º projecto BIM na CE - busca de texto em inglês, francês, alemão
1994: 1ª tese de doutoramento em BIM por Khaled Radwan (França)
História: primeiras abordagens
1996 Busca baseada em dicionário (Umass & XEROX Grenoble)
1996 Abordagem baseada em Corpus (ETH Zurich)
1997 Modelo do Espaço Vectorial Generalizado (CMU)
História: Objectivos da Comunidade de I&D
1996: 1st Workshop on “Cross-Lingual Information Retrieval” no SIGIR ’96. A comunidade começa a ser identificada à volta desta área.
1997: AAAI Spring Symposium on Cross-Language Text and Speech Retrieval
AAAI – O grande desafio
• Dada uma interrogação em qualquer media e língua, selecionar itens relevantes duma colecção multimedia e multilingue, e apresentá-los ao utilizador da forma mais adequada, com os objectos idênticos ou bastante parecidos nos diferentes média ou língua identificados convenientemente.
[AAAI Stanford Symposium 1997]
História: Objectivos da Comunidade de I&D
1997: EU-NSF Working Group em Acesso a Informação Multilingue (Multilingual Information Access).
1999: Disponível Relatório NSF/EC/DARPA em Gestão de Informação Multilingue.
Cursos/Workshops em MLIA/CLIR comuns em Conferências de Information Retrieval, Computational Linguistics e Digital Libraries em vários pontos do mundo.
História: Objectivos de Avaliação
1997: 1st Cross-Language IR track no TREC (Text REtrieval Conferences)
1998-99: Amaryllis inclui avaliação multilingue em inglês e francês
1999: 1º Workshop Japonês em IR inclui linha em CLIR (BIM)
História: Objectivos de Avaliação
1999: começa nos EUA o projecto TIDES (Translingual Information Detection, Extraction, and Summarization).
2000: é iniciado CLEF – Cross-Language Evaluation Forum for European Languages
Desafios
Suportar o acesso à informação multilingue em vários média (texto, voz e video)
Indexar informação em língua estrangeira Buscar informação em várias línguas com uma
única interrogação Permitir a navegação na informação devolvida
na língua do utilizador
Processamento de texto multilingue
Codificação de caracteres Detecção da língua Extracção de palavras Remoção de palavras muito frequentes Radicalização (Stemming) Etiquetagem POS Identificação de frases
Processamento de texto multilingue
A representação do texto implica: Conversão de caracteres Extracção de palavras (tokenization) Remoção de palavras comuns Radicalização de palavras
Necessidade de conhecimento específico da língua
Codificação de caracteres
Representação binária do alfabeto da língua Texto normalmente codificado numa forma
dependente da língua Codificação em um ou dois bytes Norma UNICODE standard para representação
de todas as línguas Suportar os códigos nativos ou transformar em
UNICODE para processamento ou busca?
Codificação de caracteres
Codificação específica da língua (alfabeto) :– Chinês GB, Big5, – Europa Ocidental ISO-8859-1 (Latin1)– Russo KOI-8, ISO-8859-5, CP-1251
UNICODE (ISO/IEC 10646)– UTF-8 comprimento variável em bytes– UTF-16, UCS-2 comprimento fixo de 2 bytes
UNICODE / ISO 10646
Codificação de 16-bit (2-byte) concebida para contemplar todas línguas escritas
16 bits permitem à volta de 65,000 characteres UNICODE especifica actualmente 38,887 characters Cobre línguas das Americas, Europa, Médio Oriente,
Africa, India, Asia Há espaco para novos caracteres ou caracteres
específicos para aplicações
O WorldWide Web multilingue
Codificação dos caracteres especificado no campo do cabeçalho HTTP Content-Type – “Content-type: text/html; charset=iso-2022-JP”
Atributo HTML “Lang” pode ser incluído na maioria dos elementos HTML – <TEXT Lang=es>
O WorldWide Web multilingue
Outros aspectos – Texto Bidirectional – onde se mistura
texto lido da direita para esquerda e lido da esquerda para a direita
– Formatos e unidades usados para mostar tempos, datas, pesos, etc.
O WorldWide Web multilingue
Visualização de material em língua estrangeira… Utilização de um browser multilingue como TANGO… Instalar as fontes localmente na máquina usada… Download fontes para o Browser WWW… Os browsers estão a tentar suportar de forma nativa
fontes para todas as línguas (Explorer) Problemas na composição de texto noutras línguas…
Identificação de língua
Definição do problema I: Dado um documento
monolingue duma colecção multilingue
identificar a língua em que está escrito
Definição do Problema II: Dado um documento
multilingue identificar a língua de cada
parágrafo ou frase
Identificação de língua
Baseado na codificação específica da língua
Usa modelos estatísticos de N-Gramas ou palavras
Reconhece caracteres específicos da língua
Usa listas de stopwords
Usar a língua do último parágrafo ou uma por defeito
Extracção de palavras
Pontuação separada das palavras.
“The train stopped.” “The”, “train”, “stopped”, “.”
Palavras separadas em unidades léxicas - incl. Segmentação(Chinese) e separação de formas compostas (Alemão)
Segmentação do Chinês
Estratégias de Segmentação
Escolher um modelo – Strings únicas , strings plausíveis , interpretações
palusíveis
Combinar evidências– Lexicons, corpora, algoritmos, conhecimento do
utilizador
Escolher um critério de preferência– String mais longa, detecção de nomes próprios, etc.
Segmentação do Alemão
Palavras compostas sem restrição– Abendnachrichtensendungsblock
Usar análise de composição conjuntamente com o dicionário alemão CELEX (360,000 palavras)
– Treuhandanstalt { treuhand, anstalt }– Washington { * was, hing, ton }
É crucial a manutenção do dicionário
Remoção de Stop Words
stop words frequentes (ex.. “o”, “um”, …) não-stop words frequentes (ex. “medicina” em
informação médica) stop words não frequentes (ex. “todavia”) stop Words dependentes e não dependentes
do domínio (ex. “computer science” na colecção do ACM)
Normalização dos índices
Radicalização baseada em regras (e.g. Porter)
Análise morfológica (e.g. InXight)
Algoritmo de Stemming de Porter
Remoção de sufixos baseada em regras 65 regras aplicadas em 5 iterações Correcção linguística dos radicais não é
necessária 36% redução do índices (Inglês) Versões escritas para muitas línguas
Porter Stemming
Regra Exemplo
(True)IES I
(m > 0)IVITI IVE
(m > 1)IVE
sensitivities
sensitiviti
sensitive
sensit
Stemming Francês (ETH)
84 regras de sufixo em 8 grupos
RegraGrupo sufixo Exemplo
er(s), ère(s)
teur(s), trice(s)
(*)ère er
(*)trice teur
dernière dernier
éducatrice éducateur
Stemming Italiano (ETH)
220 regras (plural singular, género, tempos e formas verbais)
Regra Stemming Exemplo
(*c)e ia
(*l)cissim[aeio] ce
(*e)sse re
province provincia
dolcissima dolce
volesse volere
Análise Morfológica
Analisador Inxight LinguistX produz lemas em vez de stems (ao contrário do algoritmo de Porter)
Morfologia: flexionar (concordância sem diferença semântica) versus Derivar (pode haver modificação semântica)
As decisões para análise morfológica ou stemming é dependente da língua
Part-of-Speech Tagging (Etiquetagem da Fala)
Atribuir etiquetas POS de um conjunto normalizado– comprimisso entre # de etiquetas e complexidade
Inglês – conjunto de etiquetas típica 50 Francês – conjunto grande 264 pequeno 56
– AFS adjectivo feminino singular – NFS nome feminino singular– V1SPI verbo 1ª pessoa singular presente indicativo
Reduzir o conjunto por truncagem da direita para a esquerda
Etiquetagem da Fala
Estatísticas - Church 1988 Baseadas em Regras
– Manuais (Voutilainen 1993)– Aprendizagem (Brill 1992)
Combinações - Bell Labs, Xerox- Grenoble
Para acesso a informação multilingue, etiquetagem robusta reduz ambiguidade
Identificação de Frases
Frases não decomponíveis – o significado não é apenas a soma dos significados
das componentes) – “Fast food” “comida rápida”
Eficácia da busca é aumentada com uma identificação efectiva das frases
O recurso de tradução deve incluir traduções correctas para frases não decomponíveis
Identificação de frases
Métodos estatísticos – Eliminar stopwords– Aglomerar por contexto e frequência– Pares de palavras que co-ocorrem >25 vezes
Métodos simbólicos – Etiquetar texto como POS– Utilização de regras para identificação
Reconhecimento de Nomes de Entidades
Um caso particular de reconhecimento de frases Os termos para nomeação de entidades são bastante
produtivos Técnicas de processamento precisas não podem
depender dum dicionário de termos estável Reconhecimento baseado em regras gramaticais e interpretação
Classificação de Nomes de Entidade
3. Busca de Texto Multilingue
Abordagens
Dificuldades
Recursos
O problema
Como podem conceitos representados na interrogação numa dada língua ser unificados com a informação contida em documentos noutras línguas?
O problema
Interrogação Documento
Barreira da língua
Representação da interrogação
Representação do documento
CLIR - Abordagens
Tradução AutomáticaThesauri multilingueDicionário bilingueCorpora Paralelos/ComparáveisConceptual Interlingua
Tradução automática
Traduzir todos documentos para cada um das possíveis línguas de interrogaçãoNão viável para colecções grandes Não viável para muitas línguas de
interrogação
É uma abordagem muito redundante e dispendiosa para o BIM(CLIR)
Tradução automática
Traduzir a interrogação para a língua do conteúdo que se procura Nao há contexto para uma tradução precisaO sistema selecciona o termo preferido
A tradução de interrogações é inadequada para o CLIR
Utilização de Thesauri
Busca com vocabulário controlado Definição dum conjunto de conceitos para
indexação e busca representados por conjuntos de termos em cada língua
Eliminação de ambiguidade Alguns resultados garantidos
Utilização de Thesauri
Problemas Os thesauri são difíceis de construir e manter Atribuir manualmente termos a documentos é
dispendioso Estabelecer correspondência entre thesauri em
línguas diferentes é complicado! Os utilizadores têm dificuldade em utilizar
dicionários na busca de informação
Utilização de Dicionários
Dicionários em computador bilingues (feitos à medida ou comerciais)
Busca dos termos da interrogação e substituir pela sua tradução na língua dos documentos
– Tradução automática da interrogação tem 50% da precisão da busca monolingue
– Expansão automática da interrogação reduzem a ambiguidade e aumentam a cobertura
Utilização de Dicionários
ProblemasAmbiguidadeMuitos termos nao constam do dicionárioFalta de termos com várias palavrasIdentificação de frases É necessário um dicionário bilingue para
cada par de língua interrogação/documento
Utilização Corpora
Disponibilizar equivalências léxicas em várias línguas
Corpora Paralelo – Equivalência transacional– Exemplo: Corpus ONU em francês, inglês e alemão.
Corpora Comparável – Similar para tópico,tempo, etc...– Exemplo: Notícias da Lusa em inglês e português
Utilização Corpora
Tradução de interrogações usando Corpora Paralelo– Alinhar textos usando informação estatística
ou dicionários bilingue– Encontrar correspondências entre palavras
na língua fonte e na língua objecto– Extrair informação para traduzir a
interrogação para busca na língua objecto
Utilização Corpora
Tradução de interrogações usando corpora paralelo– Alinha documentos relacionados através de
datas, palavras chave , nomes próprios
– Constrói um léxico de co-ocorrências– Termos em línguas diferentes relacionados com o
mesmo tópico co-ocorrem no mesmo documento– Usa a correspondência para pseudo-traduzir
interrogações
Abordagens baseadas em Copora
Modelo do Espaço Vectorial Generalizado (GVSM) – Usa um corpus bilingue de treino para construir matrizes de
documentos & termos ponderados em cada língua– Usa um copora paralelo para cada par de línguas
Latent Semantic Indexing – reduz ainda mais o GVSM– requer corpura comparável ou paralelo– dispendioso computacionalmente
Abordagens baseadas em Copora
Thesauri de similaridade– Extrai termos equivalentes dum copora
multilingue alinhado– Regista equivalências num thesauri externo– Qualidade dependente da qualidade do
corpora
Documentosem alemão
Documentos em francês
Construção do ThesaurusMultilingue de Similaridade
Alinhar documentos comparáveis
Documentos bilingues Francês /Alemão
Nordirland
irland irlandais ulster protestant
Thesaurus de Similaridade
Utilização de Corpora
Problemas– corpora apropriado é difícil de obter – O corpora de treino tem que ser bastante
grande– O corpora tende a ser dependente do
domínio e da aplicação
Conceptual Interlingua
Termos e frases de várias línguas que referenciam o mesmo conceito são colocados em correspondência num esquema independente da língua
Permite a unificação de termos equivalentes e sinónimos em todas as línguas
Conceptual Interlingua
Espaço de conceitosVocabulário 1
Francês
Vocabulário 2
Espanhol
Vocabulário 3
PortuguêsConceitos genéricos da línguaConceitos genéricos da língua
Vantagens
BIM para qualquer combinação de línguas – não apenas bidireccional (Exemplo Português-Japonês)
Busca independente da língua baseado em conceitos da linguagem natural
Povoar com terminologia um ambiente de conceitos Ambiente bem compreendido para eliminar a
ambiguidade do sentido das palavras
Desvantagens
Dispendiosos de construir
Problemas de cobertura do vocabulário
Conceitos dependentes da linguagem
Mestrado em Sistemas de Informação
Busca de Informação MultilingueBusca de Informação Multilingue
Estado da Arte
Tradução automática80% eficácia monolingue em domínio genérico
• Técnicas baseadas em dicionário 80% eficácia monolingue em domínio genérico
Técnicas baseadas em Corpus Comparável e Paralelo 80% eficácia monolingue em domínio genérico
90% monolingue em domínio específico
Principais dificuldades da BIM (I)
Tradução– ambiguidade– Tradução errada– Identificaçção de frases
Reduzir Ambiguidade
Pré-processamento sintático Análise estatística
– Co-ocorrência de termosTermos relacionados tendem a o ocorrer em
conjunto Desambiguar as traduções usando as
estatísticas de co-ocorrência Realimentação do utilizador Pseudo-Realimentação de relevância
Pseudo-Realimentação de Relevância
Colocar a interrogação na língua fonte Num corpus paralelo ou comparável , fazer a
busca para encontrar documentos na língua Usar os documentos equivalentes aos
devolvidos para derivar a interrogação na língua objecto
Usar a interrogação para obter documentos na língua objecto
q q’
Língua A
Língua B
Pseudo Realimentação de Relevância
Principais Dificuldades na BIM (II)
Recursos Sistemas de Acesso a Informação Multilingue
necessitam de recursos bem concebidos e – Ferramentas de Processamento da Língua– Recursos da Língua
Os recursos são bastante caros de adquirir manter actualizar
Recursos – Principais problemas
disponibilidade extensibilitdade custo cobertura qualidade normas
Ferramentas de Processamento da Língua
Ferramentas de identificação da línguaConversão de conjuntos de caracteresExtracção e segmentação de palavrasFerramentas de radicalização/análise
morfológica
Ver ACL Natural language Software Registryhttp://registry/dfki/de/
Recursos de língua
DicionáriosCorporaLéxicos e terminologiaThesauri e ontologias
Ver ELRA - European Language Resources Association - http://www.icp.grenet.f/ELRA/
Ver LDC - Linguistic Data Consortium http://www.ldc.upenn.edu
4. Busca de Fala Multilingue
Pouco trabalho realizado
Estado bastante experimental
Processamento da Fala Multilingue
Reconhecedores de voz são normalmente treinados muitas horas usando um corpus de voz etiquetado
– Reconhecimento de voz visto como uma caixa preta com saídas fonémica ou léxica
– Saída usada como entrada na indexação- o objectivo é indexar o melhor possível documentos falados
– Investigação actual principalmente em inglês, com algum trabalho em chinês, japonês e algumas línguas europeias (alemão, francês, italiano, holandês)
Busca da Fala Multilingue
Uma experiência no ETH-Zurich Buscar documentos falados em alemão a partir de
interrogações escritas em francês (ETH) Construir uma thesaurus de similaridade Francês-
Alemão usando um corpus de notícias da Agência Suíça de Notícias
Indexar notícias de rádio em alemão como trigramas de fonemas a partir duma saída de reconhecimento da Fala
Busca de Fala Multilingue
Aceita uma interrogação escrita em francês pelo utilizador
Utiliza um thesaurus de similaridade para pseudo-traduzir a interrogação para alemão
Usa um dicionário de fonemas para converter o texto na fala correspondente
Unifica a interrogação falada com uma coleção de notícias faladas em alemão
Devolve os documentos faladosDesempenho ~50% do monolingue
Direcções Actuais
Workshop Johns Hopkins Busca da Fala em várias línguas, verão 2000
Programa DARPA Automatic Content Extraction deve envolver fala em várias línguas
Grupo de Trabalho EU-NSF Working Group para estudar o arquivo e busca de documentos falados
Grupo de Trabalho DELOS WG para avaliar sistemas de documentos falados em várias línguas
Avaliação de Sistemas BIM
Porque é importante a avaliação de sistemas
O que é que a avaliação implica
Programas da avaliação
Um Exemplo
Porque necessitamos da avaliação?
A avaliação implica a compreensão de requisitos e objectivos
A avaliação permite que as hipóteses sejam validades e progressos confirmados
A avaliação permite a análise de diferentes abordagens e tecnologias
A avaliação de sistemas é complexa!
Os sistemas BIM consistem na integração de componentes e tecnologias
Precisa de se avaliar componentes singulares
Precisa de se avaliar o desempenho global do sistema
A avaliação de sistemas é complexa!
Necessidade de distinguir aspectos metodológicas de aspectos de conhecimento da língua
Idealmente, um protocolo de avaliação requer a distinção entre a arquitectura, programa e dados linguísticos
Avaliação da Tecnologia e da Usabilidade
Avaliação da utilidade: Mostrar o valor da tecnologia para o utilizador Determinar os níveis de tecnologia indispensáveis
para uma utilização específica Disponibilizar direcções para escolha de critérios
para avaliação da tecnologia
Influência da língua e cultura na usabilidade das tecnologias precisa de ser compreendido
Organização duma actividade de avaliação
Selecionar as tarefas de controlo Disponibilizar dados para testar a afinar os sistemas Definir protocolo e métricas a usar na validação dos
resultados
O objectivo é uma comparação objectiva entre sistemas e abordagens
Principais projectos de avaliação em BIM
TIDES: patrocinadores TREC (Text REtrieval Conferences) e TDT (Topic Detection and Tracking) – linha Chinês-Inglês em 2000; TREC focará em Inglês/Frnacês - Árabe in 2001
NTCIR: Nat.Inst. for Informatics, Tokyo. Chinês-Inglês ; Japonês-Inglês C-L tracks
AMARYLLIS: focagem em Francês; 2da campanha 98-99 inclui linha BIM ; 3ªa campanha início Set 2001.
CLEF: Cross Language Evaluation Forum – Avaliação BIM para línguas europeias
Cross-Language Evaluation Forum (CLEF)
Fundada pela DELOS Network of Excellence for Digital Libraries e US National Institute for Standards and Technology (NIST)
Extensão da linha BIM no TREC (1997-1999)
Coordenação distribuída – sites nacionais para cada língua na colecção multilingue
CLEF – Principais objectivos
Promove a investigação, disponibilizando uma infra-estrutura para:
Avaliação, teste e afinação de sistemas BIMComparação e discussão de resultados Construção de plataformas de teste para
desenvolvimento de sistemas
CLEF 2001 – Descrição da Tarefa
4 linhas principais de avaliação no CLEF 2001: Busca de informação multilingue Busca de informação bilingue Busca de informação monolingue(sem ser Inglês) Busca de informação em domínios específicos
Linha experimental para sistemas multilingue interactivos
CLEF 2001 – Colecção de Dados
Corpus Multilingue comparável com documentos de jornais e agências de notícias para 6 línguas (DE,EN,FR,IT,NL,SP). Acima de um milhão de documentos
Conjunto de 50 tópicos comuns (dos quais são extraídas as interrogações) criados em 9 línguas europeias (DE,EN,FR,IT,NL,SP+FI,RU,SV)
e 3 línguas asiáticas (JP,TH,ZH)
Tópicos em DE,EN,FR,IT FI,NL,SP,SV,RU,ZH,JP,TH
Inglês Alemão Francês Italiano
Sistema de BIM dos participantes
Documentos em
CLEF 2001 – Busca de Informação Multilingue
Uma lista de documentos em DE, EN, FR,IT e SP ordenados por ordem
decrescente de relevância estimada
Espanhol
CLEF 2001 – Busca de Informação Bilingue
Tarefa:interrogar colecções em Inglês ou Alemão
Objectivo: encontrar documentos na língua objecto, apresentando os resultados por ordem de relevância
Tarefa simples para principiantes !
CLEF 2001 – Busca de Informação Monolingue
Tarefa: interrogar colecções de documentos em FR|DE|IT|NL|SP
Objectivo: compreender melhor os problemas da busca de informação dependentes da língua
Línguas diferentes apresentam problemas diferentes
Aspectos envolvidos incluem a ordem das palavras, morfologia, caracteres diacríticos, variantes da língua
CLEF 2001 - Domain-Specific IR
Tarefa: interrogar uma base de dados estruturada dum domínio vertical (ciências sociais) em alemão
Thesaurus Alemão/Inglês /Russo e tradução para inglês dos títulos dos documentos
Tarefa monolingue ou multilingue
Objectivo: compreender as implicações de interrogar em domínios específicos
CLEF 2001 – BIM Interactivo
Tarefa: selecção interactiva de documento numa língua “desconhecida”
Objectivo: avaliação da apresentação dos resultados em vez do desempenho do sistema
CLEF2000 - Abordagens
Sistemas de Tradução Comercial (Systran, Lernout e Hauspie Power Translator)
Consulta de dicionários bilingue Corpora paralelo alinhado (derivado do Web) Thesaurus de similaridade(usando corpora comparável)
Experimentadas diferentes abordagens para expansão de interrogações e fusão de resultados
CLEF2000 – Técnicas Testadas
Testes de avaliação parcial Dicionário de termos derivado de copora paralelo
versus tradução automática Utilização de métodos de PLN, isto é identificação
de frases, processamento de formas compostas e análise morfológica e sintática
Técnicas de radicalização independentes da língua Desambiguar termos de interrogação interactiva Triangulação léxica (Ballestreros)
Síntese da Avaliação
Não é uma competição para descobrir o melhor Cria a oportunidade para testar, afinar e
comparar abordagens no sentido de aumentar o desempenho dos sistemas
Uma campanha de avaliação cria uma comunidade interessada em avaliar os mesmos aspectos e comparar ideias e experiências.
6. Aplicações
Sistemas que foram construídos para experiências em IR (TREC, CLEF, NTCIR)
– Suportam indexação de documentos em larga escala– Suportam processamento em batch de interrogações longas
Sistemas que foram construídos para uso comercial– Disponibilizam resposta rápida às interrogações do utilizador– Suportam actualização dinâmica do conteúdo
CINDOR
Aceita a interrogação em linguagem natural na língua nativa do utilizador
Faz as correspondências da interrogação usando o Conceptual Interlingua
Disponibiliza uma lista de documentos ordenados por ranking, agrupados por língua
Traduz opcionalmente os documentos em língua estrangeira para a língua nativa do utilizador
I would like information
about the possible
employment of
NATO
ground troops
in the Kosovo
conflict.
possible (E)conceivable (E)
possible (F)concevable (F)imaginable (F)
factible (S)concebible (S)posibilidad (S)
ground troups (E)ground forces (E)
armées de terre (F)troupes (F)
fuerzas terrestres (S)tropas terrestres (S)
soldados (S)tropas (S)
ejército (S)
Kosovo (E)Kosovo (F)Kosovo (S)
conflict (E)discord (E)conflit (F)
désaccord (F)dissension (F)conflicto (S)discordia (S)
enfrentamiento (S)crisis (S)
employment (E)engagement (E)
commissioning (E)engagement (F)
envoyé (F)empleo (S)
uso (S)envío (S)
NATO (E)North Atlantic Treaty
Organization (E)OTAN (F)
Organisation du Traité de l’Atlantique Nord (F)
OTAN (S)Organizacion del Tratado del Atlantico Norte (S)
English Document Excerpt:
WASHINGTON, March 29 (AFP) -
The United States and Britain beefed
up NATO forces as the bombing
campaign against Yugoslavia entered a
24-hour phase and US officials warned
ground troups in Kosovo were “no
magic bullet.”
French Document Excerpt:
PARIS, 30 mars (AFP) - 25 MARS: Le
président américain Bill Clinton
déclare ne pas avoir l’intention “d’
envoyer de troupes.”
Spanish document Excerpt:
BRUSELAS, Mar 28 (AFP) - De
enviarse tropas terrestres,
posibilidad que decartan actualmente
todos los países de la organización, las
pérdidas serían considerables, según
los estrategas de la OTAN.
Interrogação em Inglês Conceptual Interlingua Documents Multilingue
Demo… Introdução da Interrogação
Demo… Ver resultados
Demo… Traduzir para inglês
Demo… Ver documento
Aplicações em Biliotecas Digitais (DL)
Não muitas a reportar Maior focagem no processamento de texto
multilingue em vez de funcionalidades multilingue.
Projectos de DL em Pisa
ETRDL
SCHOLNET
ECHO
ETRDL
Interfaces Multilingue (6 languages)– Escolha da língua da interface– Seleccionar a língua da colecção de documentos
processamento de texto multilingue
Acesso a Informação Multilingue
SCHOLNET
ETRDL mais a funcionalidade BIM
Thesaurus multilingue– Mecanismos para manutenção e actualização do
thesaurus
Busca em texto livre (abstracts) via pseudo-realimentação de relevância
ECHO
Arquivos de filmes em 4 línguas– Busca Multilingue através dum vocabulário
controlado– Experiências numa abordagem baseada em
corpus para reconhecimento de voz
9. Alguns URLs úteis
W3C - WINTER - http://www.w3.org/International/ Cross-Language Information Retrieval -
http://www.clis.umd.edu/dlrg/clir/ Cross-Language Evaluation Forum -
http://www.iei.pi.cnr.it/DELOS/CLEF Multilingual Metadata -
http://purl.org/DC/groups/languages.htm EC - Multilingual Information Society -
http://www2.echo.lu/mlis/ DARPA - Translingual Information Detection, Extraction and
Summarization - http://www.darpa.mil/ito/research/tides/
Mestrado em Sistemas de Informação
Busca de Informação MultilingueBusca de Informação Multilingue
Créditos
Esta apresentação é baseada numa realizada pela Carol Peters na Escola de Verão em Bibliotecas Digitais em Pisa, Julho de 2001
Referências
Peters, C., Sheridan, P. (2001). "Multilingual Information Access". In M. Agosti, F. Crestani, G. Pasi (eds.) "Lectures on Information Retrieval", Lecture Notes in Computer Science 1980, Springer Verlag, pp51-80