Busca de Informação Multilingue

Preview:

DESCRIPTION

Busca de Informação Multilingue. Bibliotecas Digitais Engenharia Biomédica Universidade do Minho. Sumário. Introdução Processamento de Texto multilingue Busca de texto multilingue Busca de voz em várias línguas Avaliação de Sistemas Algumas aplicações Futuras direcções. O problema. - PowerPoint PPT Presentation

Citation preview

Busca de Busca de Informação Multilingue Informação Multilingue

Bibliotecas DigitaisEngenharia BiomédicaUniversidade do Minho

Sumário

Introdução Processamento de Texto multilingue Busca de texto multilingue Busca de voz em várias línguas Avaliação de Sistemas Algumas aplicações Futuras direcções

O problema

Pressão crescente para aceder à informação sem as barreiras tradicionais da cultura e da língua, implica a necessidade de ser capaz de : Encontrar informação em língua estrangeira Ler e interpretar essa informação Juntá-la com informação noutras línguas

É necessário o Acesso a Informação Multilingue

Acesso a Informação Multilingue

Ocupa-se da investigação para o armazenamento, acesso, busca e apresentação de informação em qualquer língua falada no mundo.

Duas áreas de interesse principais: Acesso, navegação, visualização Busca e descoberta de informação em várias

línguas

Processamento de texto em várias línguas

A tecnologia de base

Codificação de caracteres Requisitos específicos de cada língua Localização e apresentação

Busca de Informação Multilingue

Cruzar a fronteira da língua …

Interrogar uma colecção multilingue numa língua e buscar documentos relevantes noutras línguas

Filtrar seleccionar e pontuar os documentos devolvidos

BIM é multidisciplinar

Envolve investigadores das seguintes áreas:

Recuperação de Informação (IR), Processamento de Linguagem Natural, Tradução automática, Sumarização, Processamento de Voz, interpretação de imagens, Interacção H/M

Recursos de língua como dicionánrios, thesauri, corpora e colecções de teste.

Porquê que o BIM é importante?

Internacionalização– Países multilingues(Suiça, Canadá)– Áreas de Cooperação Económica (EU, EFTA, NAFTA)

Globalização da economia– multinacionais– Empregados falam línguas diferentes– Clientes falam línguas diferentes– Documentos precisam de ser acedidos em várias línguas

Sociedade de Informação Global

Larga gama de aplicações em que a informação tem que estar disponível aos utilizadores indepentemente da língua:

– Comércio electrónico– Entretimento– Educação

Sociedade de Informação Global

WWW como plataforma para disseminação do conhecimento

– Ensino à distância – Bibliotecas Digitais…..

Fornecedores e consumidores de informação devem ter igualdade de oportunidade Preservação das línguas nacionais…

WWW e Internet

A Internet ja não está só em Inglês e

O perfil dos utilizadores está mudar drasticamente – Usada inicialmente só por académicos, agora está

ser para publicidade, divertimento, educação, etc....

WWWe Internet

Internacionalização da Internet

– O grupo das pessoas que não falam inglês é o que regista maior crescimento como novos utilizadores da Internet

Em1997, 8.1 milhões utilizadores de língua espanhola

Em 2000, 37 milhões……..

83M Utilizadores da Internet de língua não inglesa

Japonês 17.4%

Espanhol17.1%

Alemão16.8%

Francês10%

Chinês 7.7%

Holandês 5.3%

Sueco 4.3%

Coreano 4.4%

Italiano 4%

Português 2.2%

Mudanças na Internet

Em 2005, 68% dos utilizadores falarão uma língua diferente do inglês

Total dos utilizadores passará de 171 milhões para 345 milhões em 2005

Portanto … 270 milhões não falantes de inglês (dos 83M actuais)

Inglês

12%

6%

4%

8%

2%5%5%

40%

68% não falantes de inglês em 20058%

2%6%2%

Espanhol Japonês Alemão Francês

Chinês Escandinavo Italiano Holandês

Coreano Português Outros Inglês

Línguas Mais Faladas

0

200

400

600

800

de

Pes

soas

(M

ilh

ões)

Ch

inês

Ingl

ês

Hin

di-

Urd

u

Esp

anho

l

Por

tugu

ês

Ben

gali

Ru

sso

Ára

be

Japa

nês

Fonte: http://www.g11n.com/ faq .html

Tamanho do Web: Crescimento Exponensial

0

1

10

100

1.000

10.000O

ut-

96

Ou

t-9

7

Ou

t-9

8

Ou

t-9

9

Ou

t-0

0

Ou

t-0

1

Ou

t-0

2

Ou

t-0

3

Ou

t-0

4

Ou

t-0

5

Bil

es

de

pa

lav

ras

Inglês Outras Europeias

Fonte: Extrapolado de Grefenstette e Nioche, RIAO 2000

História: objectivos

1978: ISO Standard 5964 thesauri multilingue disponível. Versão revista em 1985

1991: Publicada a norma Unicode, Versão 1.0 1993: ISO/IEC 10646 publicado como

"Universal Multiple-Octet Coded Character Set” (UCS).

História: objectivos

1995: TANGO um web browser multilingue

Netscape/Explorer suportam UNICODE e fontes para outras línguas

História: primeiras abordagens

1970: thesaurus (Salton)

1991-94: Projecto EMIR –1º projecto BIM na CE - busca de texto em inglês, francês, alemão

1994: 1ª tese de doutoramento em BIM por Khaled Radwan (França)

História: primeiras abordagens

1996 Busca baseada em dicionário (Umass & XEROX Grenoble)

1996 Abordagem baseada em Corpus (ETH Zurich)

1997 Modelo do Espaço Vectorial Generalizado (CMU)

História: Objectivos da Comunidade de I&D

1996: 1st Workshop on “Cross-Lingual Information Retrieval” no SIGIR ’96. A comunidade começa a ser identificada à volta desta área.

1997: AAAI Spring Symposium on Cross-Language Text and Speech Retrieval

AAAI – O grande desafio

• Dada uma interrogação em qualquer media e língua, selecionar itens relevantes duma colecção multimedia e multilingue, e apresentá-los ao utilizador da forma mais adequada, com os objectos idênticos ou bastante parecidos nos diferentes média ou língua identificados convenientemente.

[AAAI Stanford Symposium 1997]

História: Objectivos da Comunidade de I&D

1997: EU-NSF Working Group em Acesso a Informação Multilingue (Multilingual Information Access).

1999: Disponível Relatório NSF/EC/DARPA em Gestão de Informação Multilingue.

Cursos/Workshops em MLIA/CLIR comuns em Conferências de Information Retrieval, Computational Linguistics e Digital Libraries em vários pontos do mundo.

História: Objectivos de Avaliação

1997: 1st Cross-Language IR track no TREC (Text REtrieval Conferences)

1998-99: Amaryllis inclui avaliação multilingue em inglês e francês

1999: 1º Workshop Japonês em IR inclui linha em CLIR (BIM)

História: Objectivos de Avaliação

1999: começa nos EUA o projecto TIDES (Translingual Information Detection, Extraction, and Summarization).

2000: é iniciado CLEF – Cross-Language Evaluation Forum for European Languages

Desafios

Suportar o acesso à informação multilingue em vários média (texto, voz e video)

Indexar informação em língua estrangeira Buscar informação em várias línguas com uma

única interrogação Permitir a navegação na informação devolvida

na língua do utilizador

Processamento de texto multilingue

Codificação de caracteres Detecção da língua Extracção de palavras Remoção de palavras muito frequentes Radicalização (Stemming) Etiquetagem POS Identificação de frases

Processamento de texto multilingue

A representação do texto implica: Conversão de caracteres Extracção de palavras (tokenization) Remoção de palavras comuns Radicalização de palavras

Necessidade de conhecimento específico da língua

Codificação de caracteres

Representação binária do alfabeto da língua Texto normalmente codificado numa forma

dependente da língua Codificação em um ou dois bytes Norma UNICODE standard para representação

de todas as línguas Suportar os códigos nativos ou transformar em

UNICODE para processamento ou busca?

Codificação de caracteres

Codificação específica da língua (alfabeto) :– Chinês GB, Big5, – Europa Ocidental ISO-8859-1 (Latin1)– Russo KOI-8, ISO-8859-5, CP-1251

UNICODE (ISO/IEC 10646)– UTF-8 comprimento variável em bytes– UTF-16, UCS-2 comprimento fixo de 2 bytes

UNICODE / ISO 10646

Codificação de 16-bit (2-byte) concebida para contemplar todas línguas escritas

16 bits permitem à volta de 65,000 characteres UNICODE especifica actualmente 38,887 characters Cobre línguas das Americas, Europa, Médio Oriente,

Africa, India, Asia Há espaco para novos caracteres ou caracteres

específicos para aplicações

O WorldWide Web multilingue

Codificação dos caracteres especificado no campo do cabeçalho HTTP Content-Type – “Content-type: text/html; charset=iso-2022-JP”

Atributo HTML “Lang” pode ser incluído na maioria dos elementos HTML – <TEXT Lang=es>

O WorldWide Web multilingue

Outros aspectos – Texto Bidirectional – onde se mistura

texto lido da direita para esquerda e lido da esquerda para a direita

– Formatos e unidades usados para mostar tempos, datas, pesos, etc.

O WorldWide Web multilingue

Visualização de material em língua estrangeira… Utilização de um browser multilingue como TANGO… Instalar as fontes localmente na máquina usada… Download fontes para o Browser WWW… Os browsers estão a tentar suportar de forma nativa

fontes para todas as línguas (Explorer) Problemas na composição de texto noutras línguas…

Identificação de língua

Definição do problema I: Dado um documento

monolingue duma colecção multilingue

identificar a língua em que está escrito

Definição do Problema II: Dado um documento

multilingue identificar a língua de cada

parágrafo ou frase

Identificação de língua

Baseado na codificação específica da língua

Usa modelos estatísticos de N-Gramas ou palavras

Reconhece caracteres específicos da língua

Usa listas de stopwords

Usar a língua do último parágrafo ou uma por defeito

Extracção de palavras

Pontuação separada das palavras.

“The train stopped.” “The”, “train”, “stopped”, “.”

Palavras separadas em unidades léxicas - incl. Segmentação(Chinese) e separação de formas compostas (Alemão)

Segmentação do Chinês

Estratégias de Segmentação

Escolher um modelo – Strings únicas , strings plausíveis , interpretações

palusíveis

Combinar evidências– Lexicons, corpora, algoritmos, conhecimento do

utilizador

Escolher um critério de preferência– String mais longa, detecção de nomes próprios, etc.

Segmentação do Alemão

Palavras compostas sem restrição– Abendnachrichtensendungsblock

Usar análise de composição conjuntamente com o dicionário alemão CELEX (360,000 palavras)

– Treuhandanstalt { treuhand, anstalt }– Washington { * was, hing, ton }

É crucial a manutenção do dicionário

Remoção de Stop Words

stop words frequentes (ex.. “o”, “um”, …) não-stop words frequentes (ex. “medicina” em

informação médica) stop words não frequentes (ex. “todavia”) stop Words dependentes e não dependentes

do domínio (ex. “computer science” na colecção do ACM)

Normalização dos índices

Radicalização baseada em regras (e.g. Porter)

Análise morfológica (e.g. InXight)

Algoritmo de Stemming de Porter

Remoção de sufixos baseada em regras 65 regras aplicadas em 5 iterações Correcção linguística dos radicais não é

necessária 36% redução do índices (Inglês) Versões escritas para muitas línguas

Porter Stemming

Regra Exemplo

(True)IES I

(m > 0)IVITI IVE

(m > 1)IVE

sensitivities

sensitiviti

sensitive

sensit

Stemming Francês (ETH)

84 regras de sufixo em 8 grupos

RegraGrupo sufixo Exemplo

er(s), ère(s)

teur(s), trice(s)

(*)ère er

(*)trice teur

dernière dernier

éducatrice éducateur

Stemming Italiano (ETH)

220 regras (plural singular, género, tempos e formas verbais)

Regra Stemming Exemplo

(*c)e ia

(*l)cissim[aeio] ce

(*e)sse re

province provincia

dolcissima dolce

volesse volere

Análise Morfológica

Analisador Inxight LinguistX produz lemas em vez de stems (ao contrário do algoritmo de Porter)

Morfologia: flexionar (concordância sem diferença semântica) versus Derivar (pode haver modificação semântica)

As decisões para análise morfológica ou stemming é dependente da língua

Part-of-Speech Tagging (Etiquetagem da Fala)

Atribuir etiquetas POS de um conjunto normalizado– comprimisso entre # de etiquetas e complexidade

Inglês – conjunto de etiquetas típica 50 Francês – conjunto grande 264 pequeno 56

– AFS adjectivo feminino singular – NFS nome feminino singular– V1SPI verbo 1ª pessoa singular presente indicativo

Reduzir o conjunto por truncagem da direita para a esquerda

Etiquetagem da Fala

Estatísticas - Church 1988 Baseadas em Regras

– Manuais (Voutilainen 1993)– Aprendizagem (Brill 1992)

Combinações - Bell Labs, Xerox- Grenoble

Para acesso a informação multilingue, etiquetagem robusta reduz ambiguidade

Identificação de Frases

Frases não decomponíveis – o significado não é apenas a soma dos significados

das componentes) – “Fast food” “comida rápida”

Eficácia da busca é aumentada com uma identificação efectiva das frases

O recurso de tradução deve incluir traduções correctas para frases não decomponíveis

Identificação de frases

Métodos estatísticos – Eliminar stopwords– Aglomerar por contexto e frequência– Pares de palavras que co-ocorrem >25 vezes

Métodos simbólicos – Etiquetar texto como POS– Utilização de regras para identificação

Reconhecimento de Nomes de Entidades

Um caso particular de reconhecimento de frases Os termos para nomeação de entidades são bastante

produtivos Técnicas de processamento precisas não podem

depender dum dicionário de termos estável Reconhecimento baseado em regras gramaticais e interpretação

Classificação de Nomes de Entidade

3. Busca de Texto Multilingue

Abordagens

Dificuldades

Recursos

O problema

Como podem conceitos representados na interrogação numa dada língua ser unificados com a informação contida em documentos noutras línguas?

O problema

Interrogação Documento

Barreira da língua

Representação da interrogação

Representação do documento

CLIR - Abordagens

Tradução AutomáticaThesauri multilingueDicionário bilingueCorpora Paralelos/ComparáveisConceptual Interlingua

Tradução automática

Traduzir todos documentos para cada um das possíveis línguas de interrogaçãoNão viável para colecções grandes Não viável para muitas línguas de

interrogação

É uma abordagem muito redundante e dispendiosa para o BIM(CLIR)

Tradução automática

Traduzir a interrogação para a língua do conteúdo que se procura Nao há contexto para uma tradução precisaO sistema selecciona o termo preferido

A tradução de interrogações é inadequada para o CLIR

Utilização de Thesauri

Busca com vocabulário controlado Definição dum conjunto de conceitos para

indexação e busca representados por conjuntos de termos em cada língua

Eliminação de ambiguidade Alguns resultados garantidos

Utilização de Thesauri

Problemas Os thesauri são difíceis de construir e manter Atribuir manualmente termos a documentos é

dispendioso Estabelecer correspondência entre thesauri em

línguas diferentes é complicado! Os utilizadores têm dificuldade em utilizar

dicionários na busca de informação

Utilização de Dicionários

Dicionários em computador bilingues (feitos à medida ou comerciais)

Busca dos termos da interrogação e substituir pela sua tradução na língua dos documentos

– Tradução automática da interrogação tem 50% da precisão da busca monolingue

– Expansão automática da interrogação reduzem a ambiguidade e aumentam a cobertura

Utilização de Dicionários

ProblemasAmbiguidadeMuitos termos nao constam do dicionárioFalta de termos com várias palavrasIdentificação de frases É necessário um dicionário bilingue para

cada par de língua interrogação/documento

Utilização Corpora

Disponibilizar equivalências léxicas em várias línguas

Corpora Paralelo – Equivalência transacional– Exemplo: Corpus ONU em francês, inglês e alemão.

Corpora Comparável – Similar para tópico,tempo, etc...– Exemplo: Notícias da Lusa em inglês e português

Utilização Corpora

Tradução de interrogações usando Corpora Paralelo– Alinhar textos usando informação estatística

ou dicionários bilingue– Encontrar correspondências entre palavras

na língua fonte e na língua objecto– Extrair informação para traduzir a

interrogação para busca na língua objecto

Utilização Corpora

Tradução de interrogações usando corpora paralelo– Alinha documentos relacionados através de

datas, palavras chave , nomes próprios

– Constrói um léxico de co-ocorrências– Termos em línguas diferentes relacionados com o

mesmo tópico co-ocorrem no mesmo documento– Usa a correspondência para pseudo-traduzir

interrogações

Abordagens baseadas em Copora

Modelo do Espaço Vectorial Generalizado (GVSM) – Usa um corpus bilingue de treino para construir matrizes de

documentos & termos ponderados em cada língua– Usa um copora paralelo para cada par de línguas

Latent Semantic Indexing – reduz ainda mais o GVSM– requer corpura comparável ou paralelo– dispendioso computacionalmente

Abordagens baseadas em Copora

Thesauri de similaridade– Extrai termos equivalentes dum copora

multilingue alinhado– Regista equivalências num thesauri externo– Qualidade dependente da qualidade do

corpora

Documentosem alemão

Documentos em francês

Construção do ThesaurusMultilingue de Similaridade

Alinhar documentos comparáveis

Documentos bilingues Francês /Alemão

Nordirland

irland irlandais ulster protestant

Thesaurus de Similaridade

Utilização de Corpora

Problemas– corpora apropriado é difícil de obter – O corpora de treino tem que ser bastante

grande– O corpora tende a ser dependente do

domínio e da aplicação

Conceptual Interlingua

Termos e frases de várias línguas que referenciam o mesmo conceito são colocados em correspondência num esquema independente da língua

Permite a unificação de termos equivalentes e sinónimos em todas as línguas

Conceptual Interlingua

Espaço de conceitosVocabulário 1

Francês

Vocabulário 2

Espanhol

Vocabulário 3

PortuguêsConceitos genéricos da línguaConceitos genéricos da língua

Vantagens

BIM para qualquer combinação de línguas – não apenas bidireccional (Exemplo Português-Japonês)

Busca independente da língua baseado em conceitos da linguagem natural

Povoar com terminologia um ambiente de conceitos Ambiente bem compreendido para eliminar a

ambiguidade do sentido das palavras

Desvantagens

Dispendiosos de construir

Problemas de cobertura do vocabulário

Conceitos dependentes da linguagem

Mestrado em Sistemas de Informação

Busca de Informação MultilingueBusca de Informação Multilingue

Estado da Arte

Tradução automática80% eficácia monolingue em domínio genérico

• Técnicas baseadas em dicionário 80% eficácia monolingue em domínio genérico

Técnicas baseadas em Corpus Comparável e Paralelo 80% eficácia monolingue em domínio genérico

90% monolingue em domínio específico

Principais dificuldades da BIM (I)

Tradução– ambiguidade– Tradução errada– Identificaçção de frases

Reduzir Ambiguidade

Pré-processamento sintático Análise estatística

– Co-ocorrência de termosTermos relacionados tendem a o ocorrer em

conjunto Desambiguar as traduções usando as

estatísticas de co-ocorrência Realimentação do utilizador Pseudo-Realimentação de relevância

Pseudo-Realimentação de Relevância

Colocar a interrogação na língua fonte Num corpus paralelo ou comparável , fazer a

busca para encontrar documentos na língua Usar os documentos equivalentes aos

devolvidos para derivar a interrogação na língua objecto

Usar a interrogação para obter documentos na língua objecto

q q’

Língua A

Língua B

Pseudo Realimentação de Relevância

Principais Dificuldades na BIM (II)

Recursos Sistemas de Acesso a Informação Multilingue

necessitam de recursos bem concebidos e – Ferramentas de Processamento da Língua– Recursos da Língua

Os recursos são bastante caros de adquirir manter actualizar

Recursos – Principais problemas

disponibilidade extensibilitdade custo cobertura qualidade normas

Ferramentas de Processamento da Língua

Ferramentas de identificação da línguaConversão de conjuntos de caracteresExtracção e segmentação de palavrasFerramentas de radicalização/análise

morfológica

Ver ACL Natural language Software Registryhttp://registry/dfki/de/

Recursos de língua

DicionáriosCorporaLéxicos e terminologiaThesauri e ontologias

Ver ELRA - European Language Resources Association - http://www.icp.grenet.f/ELRA/

Ver LDC - Linguistic Data Consortium http://www.ldc.upenn.edu

4. Busca de Fala Multilingue

Pouco trabalho realizado

Estado bastante experimental

Processamento da Fala Multilingue

Reconhecedores de voz são normalmente treinados muitas horas usando um corpus de voz etiquetado

– Reconhecimento de voz visto como uma caixa preta com saídas fonémica ou léxica

– Saída usada como entrada na indexação- o objectivo é indexar o melhor possível documentos falados

– Investigação actual principalmente em inglês, com algum trabalho em chinês, japonês e algumas línguas europeias (alemão, francês, italiano, holandês)

Busca da Fala Multilingue

Uma experiência no ETH-Zurich Buscar documentos falados em alemão a partir de

interrogações escritas em francês (ETH) Construir uma thesaurus de similaridade Francês-

Alemão usando um corpus de notícias da Agência Suíça de Notícias

Indexar notícias de rádio em alemão como trigramas de fonemas a partir duma saída de reconhecimento da Fala

Busca de Fala Multilingue

Aceita uma interrogação escrita em francês pelo utilizador

Utiliza um thesaurus de similaridade para pseudo-traduzir a interrogação para alemão

Usa um dicionário de fonemas para converter o texto na fala correspondente

Unifica a interrogação falada com uma coleção de notícias faladas em alemão

Devolve os documentos faladosDesempenho ~50% do monolingue

Direcções Actuais

Workshop Johns Hopkins Busca da Fala em várias línguas, verão 2000

Programa DARPA Automatic Content Extraction deve envolver fala em várias línguas

Grupo de Trabalho EU-NSF Working Group para estudar o arquivo e busca de documentos falados

Grupo de Trabalho DELOS WG para avaliar sistemas de documentos falados em várias línguas

Avaliação de Sistemas BIM

Porque é importante a avaliação de sistemas

O que é que a avaliação implica

Programas da avaliação

Um Exemplo

Porque necessitamos da avaliação?

A avaliação implica a compreensão de requisitos e objectivos

A avaliação permite que as hipóteses sejam validades e progressos confirmados

A avaliação permite a análise de diferentes abordagens e tecnologias

A avaliação de sistemas é complexa!

Os sistemas BIM consistem na integração de componentes e tecnologias

Precisa de se avaliar componentes singulares

Precisa de se avaliar o desempenho global do sistema

A avaliação de sistemas é complexa!

Necessidade de distinguir aspectos metodológicas de aspectos de conhecimento da língua

Idealmente, um protocolo de avaliação requer a distinção entre a arquitectura, programa e dados linguísticos

Avaliação da Tecnologia e da Usabilidade

Avaliação da utilidade: Mostrar o valor da tecnologia para o utilizador Determinar os níveis de tecnologia indispensáveis

para uma utilização específica Disponibilizar direcções para escolha de critérios

para avaliação da tecnologia

Influência da língua e cultura na usabilidade das tecnologias precisa de ser compreendido

Organização duma actividade de avaliação

Selecionar as tarefas de controlo Disponibilizar dados para testar a afinar os sistemas Definir protocolo e métricas a usar na validação dos

resultados

O objectivo é uma comparação objectiva entre sistemas e abordagens

Principais projectos de avaliação em BIM

TIDES: patrocinadores TREC (Text REtrieval Conferences) e TDT (Topic Detection and Tracking) – linha Chinês-Inglês em 2000; TREC focará em Inglês/Frnacês - Árabe in 2001

NTCIR: Nat.Inst. for Informatics, Tokyo. Chinês-Inglês ; Japonês-Inglês C-L tracks

AMARYLLIS: focagem em Francês; 2da campanha 98-99 inclui linha BIM ; 3ªa campanha início Set 2001.

CLEF: Cross Language Evaluation Forum – Avaliação BIM para línguas europeias

Cross-Language Evaluation Forum (CLEF)

Fundada pela DELOS Network of Excellence for Digital Libraries e US National Institute for Standards and Technology (NIST)

Extensão da linha BIM no TREC (1997-1999)

Coordenação distribuída – sites nacionais para cada língua na colecção multilingue

CLEF – Principais objectivos

Promove a investigação, disponibilizando uma infra-estrutura para:

Avaliação, teste e afinação de sistemas BIMComparação e discussão de resultados Construção de plataformas de teste para

desenvolvimento de sistemas

CLEF 2001 – Descrição da Tarefa

4 linhas principais de avaliação no CLEF 2001: Busca de informação multilingue Busca de informação bilingue Busca de informação monolingue(sem ser Inglês) Busca de informação em domínios específicos

Linha experimental para sistemas multilingue interactivos

CLEF 2001 – Colecção de Dados

Corpus Multilingue comparável com documentos de jornais e agências de notícias para 6 línguas (DE,EN,FR,IT,NL,SP). Acima de um milhão de documentos

Conjunto de 50 tópicos comuns (dos quais são extraídas as interrogações) criados em 9 línguas europeias (DE,EN,FR,IT,NL,SP+FI,RU,SV)

e 3 línguas asiáticas (JP,TH,ZH)

Tópicos em DE,EN,FR,IT FI,NL,SP,SV,RU,ZH,JP,TH

Inglês Alemão Francês Italiano

Sistema de BIM dos participantes

Documentos em

CLEF 2001 – Busca de Informação Multilingue

Uma lista de documentos em DE, EN, FR,IT e SP ordenados por ordem

decrescente de relevância estimada

Espanhol

CLEF 2001 – Busca de Informação Bilingue

Tarefa:interrogar colecções em Inglês ou Alemão

Objectivo: encontrar documentos na língua objecto, apresentando os resultados por ordem de relevância

Tarefa simples para principiantes !

CLEF 2001 – Busca de Informação Monolingue

Tarefa: interrogar colecções de documentos em FR|DE|IT|NL|SP

Objectivo: compreender melhor os problemas da busca de informação dependentes da língua

Línguas diferentes apresentam problemas diferentes

Aspectos envolvidos incluem a ordem das palavras, morfologia, caracteres diacríticos, variantes da língua

CLEF 2001 - Domain-Specific IR

Tarefa: interrogar uma base de dados estruturada dum domínio vertical (ciências sociais) em alemão

Thesaurus Alemão/Inglês /Russo e tradução para inglês dos títulos dos documentos

Tarefa monolingue ou multilingue

Objectivo: compreender as implicações de interrogar em domínios específicos

CLEF 2001 – BIM Interactivo

Tarefa: selecção interactiva de documento numa língua “desconhecida”

Objectivo: avaliação da apresentação dos resultados em vez do desempenho do sistema

CLEF2000 - Abordagens

Sistemas de Tradução Comercial (Systran, Lernout e Hauspie Power Translator)

Consulta de dicionários bilingue Corpora paralelo alinhado (derivado do Web) Thesaurus de similaridade(usando corpora comparável)

Experimentadas diferentes abordagens para expansão de interrogações e fusão de resultados

CLEF2000 – Técnicas Testadas

Testes de avaliação parcial Dicionário de termos derivado de copora paralelo

versus tradução automática Utilização de métodos de PLN, isto é identificação

de frases, processamento de formas compostas e análise morfológica e sintática

Técnicas de radicalização independentes da língua Desambiguar termos de interrogação interactiva Triangulação léxica (Ballestreros)

Síntese da Avaliação

Não é uma competição para descobrir o melhor Cria a oportunidade para testar, afinar e

comparar abordagens no sentido de aumentar o desempenho dos sistemas

Uma campanha de avaliação cria uma comunidade interessada em avaliar os mesmos aspectos e comparar ideias e experiências.

6. Aplicações

Sistemas que foram construídos para experiências em IR (TREC, CLEF, NTCIR)

– Suportam indexação de documentos em larga escala– Suportam processamento em batch de interrogações longas

Sistemas que foram construídos para uso comercial– Disponibilizam resposta rápida às interrogações do utilizador– Suportam actualização dinâmica do conteúdo

CINDOR

Aceita a interrogação em linguagem natural na língua nativa do utilizador

Faz as correspondências da interrogação usando o Conceptual Interlingua

Disponibiliza uma lista de documentos ordenados por ranking, agrupados por língua

Traduz opcionalmente os documentos em língua estrangeira para a língua nativa do utilizador

I would like information

about the possible

employment of

NATO

ground troops

in the Kosovo

conflict.

possible (E)conceivable (E)

possible (F)concevable (F)imaginable (F)

factible (S)concebible (S)posibilidad (S)

ground troups (E)ground forces (E)

armées de terre (F)troupes (F)

fuerzas terrestres (S)tropas terrestres (S)

soldados (S)tropas (S)

ejército (S)

Kosovo (E)Kosovo (F)Kosovo (S)

conflict (E)discord (E)conflit (F)

désaccord (F)dissension (F)conflicto (S)discordia (S)

enfrentamiento (S)crisis (S)

employment (E)engagement (E)

commissioning (E)engagement (F)

envoyé (F)empleo (S)

uso (S)envío (S)

NATO (E)North Atlantic Treaty

Organization (E)OTAN (F)

Organisation du Traité de l’Atlantique Nord (F)

OTAN (S)Organizacion del Tratado del Atlantico Norte (S)

English Document Excerpt:

WASHINGTON, March 29 (AFP) -

The United States and Britain beefed

up NATO forces as the bombing

campaign against Yugoslavia entered a

24-hour phase and US officials warned

ground troups in Kosovo were “no

magic bullet.”

French Document Excerpt:

PARIS, 30 mars (AFP) - 25 MARS: Le

président américain Bill Clinton

déclare ne pas avoir l’intention “d’

envoyer de troupes.”

Spanish document Excerpt:

BRUSELAS, Mar 28 (AFP) - De

enviarse tropas terrestres,

posibilidad que decartan actualmente

todos los países de la organización, las

pérdidas serían considerables, según

los estrategas de la OTAN.

Interrogação em Inglês Conceptual Interlingua Documents Multilingue

Demo… Introdução da Interrogação

Demo… Ver resultados

Demo… Traduzir para inglês

Demo… Ver documento

Aplicações em Biliotecas Digitais (DL)

Não muitas a reportar Maior focagem no processamento de texto

multilingue em vez de funcionalidades multilingue.

Projectos de DL em Pisa

ETRDL

SCHOLNET

ECHO

ETRDL

Interfaces Multilingue (6 languages)– Escolha da língua da interface– Seleccionar a língua da colecção de documentos

processamento de texto multilingue

Acesso a Informação Multilingue

SCHOLNET

ETRDL mais a funcionalidade BIM

Thesaurus multilingue– Mecanismos para manutenção e actualização do

thesaurus

Busca em texto livre (abstracts) via pseudo-realimentação de relevância

ECHO

Arquivos de filmes em 4 línguas– Busca Multilingue através dum vocabulário

controlado– Experiências numa abordagem baseada em

corpus para reconhecimento de voz

9. Alguns URLs úteis

W3C - WINTER - http://www.w3.org/International/ Cross-Language Information Retrieval -

http://www.clis.umd.edu/dlrg/clir/ Cross-Language Evaluation Forum -

http://www.iei.pi.cnr.it/DELOS/CLEF Multilingual Metadata -

http://purl.org/DC/groups/languages.htm EC - Multilingual Information Society -

http://www2.echo.lu/mlis/ DARPA - Translingual Information Detection, Extraction and

Summarization - http://www.darpa.mil/ito/research/tides/

Mestrado em Sistemas de Informação

Busca de Informação MultilingueBusca de Informação Multilingue

Créditos

Esta apresentação é baseada numa realizada pela Carol Peters na Escola de Verão em Bibliotecas Digitais em Pisa, Julho de 2001

Referências

Peters, C., Sheridan, P. (2001). "Multilingual Information Access". In M. Agosti, F. Crestani, G. Pasi (eds.) "Lectures on Information Retrieval", Lecture Notes in Computer Science 1980, Springer Verlag, pp51-80

Recommended