134
Busca de Busca de Informação Informação Multilingue Multilingue Bibliotecas Digitais Engenharia Biomédica Universidade do Minho

Busca de Informação Multilingue

  • Upload
    xenia

  • View
    24

  • Download
    0

Embed Size (px)

DESCRIPTION

Busca de Informação Multilingue. Bibliotecas Digitais Engenharia Biomédica Universidade do Minho. Sumário. Introdução Processamento de Texto multilingue Busca de texto multilingue Busca de voz em várias línguas Avaliação de Sistemas Algumas aplicações Futuras direcções. O problema. - PowerPoint PPT Presentation

Citation preview

Page 1: Busca de   Informação Multilingue

Busca de Busca de Informação Multilingue Informação Multilingue

Bibliotecas DigitaisEngenharia BiomédicaUniversidade do Minho

Page 2: Busca de   Informação Multilingue

Sumário

Introdução Processamento de Texto multilingue Busca de texto multilingue Busca de voz em várias línguas Avaliação de Sistemas Algumas aplicações Futuras direcções

Page 3: Busca de   Informação Multilingue

O problema

Pressão crescente para aceder à informação sem as barreiras tradicionais da cultura e da língua, implica a necessidade de ser capaz de : Encontrar informação em língua estrangeira Ler e interpretar essa informação Juntá-la com informação noutras línguas

É necessário o Acesso a Informação Multilingue

Page 4: Busca de   Informação Multilingue

Acesso a Informação Multilingue

Ocupa-se da investigação para o armazenamento, acesso, busca e apresentação de informação em qualquer língua falada no mundo.

Duas áreas de interesse principais: Acesso, navegação, visualização Busca e descoberta de informação em várias

línguas

Page 5: Busca de   Informação Multilingue

Processamento de texto em várias línguas

A tecnologia de base

Codificação de caracteres Requisitos específicos de cada língua Localização e apresentação

Page 6: Busca de   Informação Multilingue

Busca de Informação Multilingue

Cruzar a fronteira da língua …

Interrogar uma colecção multilingue numa língua e buscar documentos relevantes noutras línguas

Filtrar seleccionar e pontuar os documentos devolvidos

Page 7: Busca de   Informação Multilingue

BIM é multidisciplinar

Envolve investigadores das seguintes áreas:

Recuperação de Informação (IR), Processamento de Linguagem Natural, Tradução automática, Sumarização, Processamento de Voz, interpretação de imagens, Interacção H/M

Recursos de língua como dicionánrios, thesauri, corpora e colecções de teste.

Page 8: Busca de   Informação Multilingue

Porquê que o BIM é importante?

Internacionalização– Países multilingues(Suiça, Canadá)– Áreas de Cooperação Económica (EU, EFTA, NAFTA)

Globalização da economia– multinacionais– Empregados falam línguas diferentes– Clientes falam línguas diferentes– Documentos precisam de ser acedidos em várias línguas

Page 9: Busca de   Informação Multilingue

Sociedade de Informação Global

Larga gama de aplicações em que a informação tem que estar disponível aos utilizadores indepentemente da língua:

– Comércio electrónico– Entretimento– Educação

Page 10: Busca de   Informação Multilingue

Sociedade de Informação Global

WWW como plataforma para disseminação do conhecimento

– Ensino à distância – Bibliotecas Digitais…..

Fornecedores e consumidores de informação devem ter igualdade de oportunidade Preservação das línguas nacionais…

Page 11: Busca de   Informação Multilingue

WWW e Internet

A Internet ja não está só em Inglês e

O perfil dos utilizadores está mudar drasticamente – Usada inicialmente só por académicos, agora está

ser para publicidade, divertimento, educação, etc....

Page 12: Busca de   Informação Multilingue

WWWe Internet

Internacionalização da Internet

– O grupo das pessoas que não falam inglês é o que regista maior crescimento como novos utilizadores da Internet

Em1997, 8.1 milhões utilizadores de língua espanhola

Em 2000, 37 milhões……..

Page 13: Busca de   Informação Multilingue

83M Utilizadores da Internet de língua não inglesa

Japonês 17.4%

Espanhol17.1%

Alemão16.8%

Francês10%

Chinês 7.7%

Holandês 5.3%

Sueco 4.3%

Coreano 4.4%

Italiano 4%

Português 2.2%

Page 14: Busca de   Informação Multilingue

Mudanças na Internet

Em 2005, 68% dos utilizadores falarão uma língua diferente do inglês

Total dos utilizadores passará de 171 milhões para 345 milhões em 2005

Portanto … 270 milhões não falantes de inglês (dos 83M actuais)

Page 15: Busca de   Informação Multilingue

Inglês

12%

6%

4%

8%

2%5%5%

40%

68% não falantes de inglês em 20058%

2%6%2%

Espanhol Japonês Alemão Francês

Chinês Escandinavo Italiano Holandês

Coreano Português Outros Inglês

Page 16: Busca de   Informação Multilingue

Línguas Mais Faladas

0

200

400

600

800

de

Pes

soas

(M

ilh

ões)

Ch

inês

Ingl

ês

Hin

di-

Urd

u

Esp

anho

l

Por

tugu

ês

Ben

gali

Ru

sso

Ára

be

Japa

nês

Fonte: http://www.g11n.com/ faq .html

Page 17: Busca de   Informação Multilingue

Tamanho do Web: Crescimento Exponensial

0

1

10

100

1.000

10.000O

ut-

96

Ou

t-9

7

Ou

t-9

8

Ou

t-9

9

Ou

t-0

0

Ou

t-0

1

Ou

t-0

2

Ou

t-0

3

Ou

t-0

4

Ou

t-0

5

Bil

es

de

pa

lav

ras

Inglês Outras Europeias

Fonte: Extrapolado de Grefenstette e Nioche, RIAO 2000

Page 18: Busca de   Informação Multilingue

História: objectivos

1978: ISO Standard 5964 thesauri multilingue disponível. Versão revista em 1985

1991: Publicada a norma Unicode, Versão 1.0 1993: ISO/IEC 10646 publicado como

"Universal Multiple-Octet Coded Character Set” (UCS).

Page 19: Busca de   Informação Multilingue

História: objectivos

1995: TANGO um web browser multilingue

Netscape/Explorer suportam UNICODE e fontes para outras línguas

Page 20: Busca de   Informação Multilingue

História: primeiras abordagens

1970: thesaurus (Salton)

1991-94: Projecto EMIR –1º projecto BIM na CE - busca de texto em inglês, francês, alemão

1994: 1ª tese de doutoramento em BIM por Khaled Radwan (França)

Page 21: Busca de   Informação Multilingue

História: primeiras abordagens

1996 Busca baseada em dicionário (Umass & XEROX Grenoble)

1996 Abordagem baseada em Corpus (ETH Zurich)

1997 Modelo do Espaço Vectorial Generalizado (CMU)

Page 22: Busca de   Informação Multilingue

História: Objectivos da Comunidade de I&D

1996: 1st Workshop on “Cross-Lingual Information Retrieval” no SIGIR ’96. A comunidade começa a ser identificada à volta desta área.

1997: AAAI Spring Symposium on Cross-Language Text and Speech Retrieval

Page 23: Busca de   Informação Multilingue

AAAI – O grande desafio

• Dada uma interrogação em qualquer media e língua, selecionar itens relevantes duma colecção multimedia e multilingue, e apresentá-los ao utilizador da forma mais adequada, com os objectos idênticos ou bastante parecidos nos diferentes média ou língua identificados convenientemente.

[AAAI Stanford Symposium 1997]

Page 24: Busca de   Informação Multilingue

História: Objectivos da Comunidade de I&D

1997: EU-NSF Working Group em Acesso a Informação Multilingue (Multilingual Information Access).

1999: Disponível Relatório NSF/EC/DARPA em Gestão de Informação Multilingue.

Cursos/Workshops em MLIA/CLIR comuns em Conferências de Information Retrieval, Computational Linguistics e Digital Libraries em vários pontos do mundo.

Page 25: Busca de   Informação Multilingue

História: Objectivos de Avaliação

1997: 1st Cross-Language IR track no TREC (Text REtrieval Conferences)

1998-99: Amaryllis inclui avaliação multilingue em inglês e francês

1999: 1º Workshop Japonês em IR inclui linha em CLIR (BIM)

Page 26: Busca de   Informação Multilingue

História: Objectivos de Avaliação

1999: começa nos EUA o projecto TIDES (Translingual Information Detection, Extraction, and Summarization).

2000: é iniciado CLEF – Cross-Language Evaluation Forum for European Languages

Page 27: Busca de   Informação Multilingue

Desafios

Suportar o acesso à informação multilingue em vários média (texto, voz e video)

Indexar informação em língua estrangeira Buscar informação em várias línguas com uma

única interrogação Permitir a navegação na informação devolvida

na língua do utilizador

Page 28: Busca de   Informação Multilingue

Processamento de texto multilingue

Codificação de caracteres Detecção da língua Extracção de palavras Remoção de palavras muito frequentes Radicalização (Stemming) Etiquetagem POS Identificação de frases

Page 29: Busca de   Informação Multilingue

Processamento de texto multilingue

A representação do texto implica: Conversão de caracteres Extracção de palavras (tokenization) Remoção de palavras comuns Radicalização de palavras

Necessidade de conhecimento específico da língua

Page 30: Busca de   Informação Multilingue

Codificação de caracteres

Representação binária do alfabeto da língua Texto normalmente codificado numa forma

dependente da língua Codificação em um ou dois bytes Norma UNICODE standard para representação

de todas as línguas Suportar os códigos nativos ou transformar em

UNICODE para processamento ou busca?

Page 31: Busca de   Informação Multilingue

Codificação de caracteres

Codificação específica da língua (alfabeto) :– Chinês GB, Big5, – Europa Ocidental ISO-8859-1 (Latin1)– Russo KOI-8, ISO-8859-5, CP-1251

UNICODE (ISO/IEC 10646)– UTF-8 comprimento variável em bytes– UTF-16, UCS-2 comprimento fixo de 2 bytes

Page 32: Busca de   Informação Multilingue

UNICODE / ISO 10646

Codificação de 16-bit (2-byte) concebida para contemplar todas línguas escritas

16 bits permitem à volta de 65,000 characteres UNICODE especifica actualmente 38,887 characters Cobre línguas das Americas, Europa, Médio Oriente,

Africa, India, Asia Há espaco para novos caracteres ou caracteres

específicos para aplicações

Page 33: Busca de   Informação Multilingue

O WorldWide Web multilingue

Codificação dos caracteres especificado no campo do cabeçalho HTTP Content-Type – “Content-type: text/html; charset=iso-2022-JP”

Atributo HTML “Lang” pode ser incluído na maioria dos elementos HTML – <TEXT Lang=es>

Page 34: Busca de   Informação Multilingue

O WorldWide Web multilingue

Outros aspectos – Texto Bidirectional – onde se mistura

texto lido da direita para esquerda e lido da esquerda para a direita

– Formatos e unidades usados para mostar tempos, datas, pesos, etc.

Page 35: Busca de   Informação Multilingue

O WorldWide Web multilingue

Visualização de material em língua estrangeira… Utilização de um browser multilingue como TANGO… Instalar as fontes localmente na máquina usada… Download fontes para o Browser WWW… Os browsers estão a tentar suportar de forma nativa

fontes para todas as línguas (Explorer) Problemas na composição de texto noutras línguas…

Page 36: Busca de   Informação Multilingue

Identificação de língua

Definição do problema I: Dado um documento

monolingue duma colecção multilingue

identificar a língua em que está escrito

Definição do Problema II: Dado um documento

multilingue identificar a língua de cada

parágrafo ou frase

Page 37: Busca de   Informação Multilingue

Identificação de língua

Baseado na codificação específica da língua

Usa modelos estatísticos de N-Gramas ou palavras

Reconhece caracteres específicos da língua

Usa listas de stopwords

Usar a língua do último parágrafo ou uma por defeito

Page 38: Busca de   Informação Multilingue

Extracção de palavras

Pontuação separada das palavras.

“The train stopped.” “The”, “train”, “stopped”, “.”

Palavras separadas em unidades léxicas - incl. Segmentação(Chinese) e separação de formas compostas (Alemão)

Page 39: Busca de   Informação Multilingue

Segmentação do Chinês

Page 40: Busca de   Informação Multilingue

Estratégias de Segmentação

Escolher um modelo – Strings únicas , strings plausíveis , interpretações

palusíveis

Combinar evidências– Lexicons, corpora, algoritmos, conhecimento do

utilizador

Escolher um critério de preferência– String mais longa, detecção de nomes próprios, etc.

Page 41: Busca de   Informação Multilingue

Segmentação do Alemão

Palavras compostas sem restrição– Abendnachrichtensendungsblock

Usar análise de composição conjuntamente com o dicionário alemão CELEX (360,000 palavras)

– Treuhandanstalt { treuhand, anstalt }– Washington { * was, hing, ton }

É crucial a manutenção do dicionário

Page 42: Busca de   Informação Multilingue

Remoção de Stop Words

stop words frequentes (ex.. “o”, “um”, …) não-stop words frequentes (ex. “medicina” em

informação médica) stop words não frequentes (ex. “todavia”) stop Words dependentes e não dependentes

do domínio (ex. “computer science” na colecção do ACM)

Page 43: Busca de   Informação Multilingue

Normalização dos índices

Radicalização baseada em regras (e.g. Porter)

Análise morfológica (e.g. InXight)

Page 44: Busca de   Informação Multilingue

Algoritmo de Stemming de Porter

Remoção de sufixos baseada em regras 65 regras aplicadas em 5 iterações Correcção linguística dos radicais não é

necessária 36% redução do índices (Inglês) Versões escritas para muitas línguas

Page 45: Busca de   Informação Multilingue

Porter Stemming

Regra Exemplo

(True)IES I

(m > 0)IVITI IVE

(m > 1)IVE

sensitivities

sensitiviti

sensitive

sensit

Page 46: Busca de   Informação Multilingue

Stemming Francês (ETH)

84 regras de sufixo em 8 grupos

RegraGrupo sufixo Exemplo

er(s), ère(s)

teur(s), trice(s)

(*)ère er

(*)trice teur

dernière dernier

éducatrice éducateur

Page 47: Busca de   Informação Multilingue

Stemming Italiano (ETH)

220 regras (plural singular, género, tempos e formas verbais)

Regra Stemming Exemplo

(*c)e ia

(*l)cissim[aeio] ce

(*e)sse re

province provincia

dolcissima dolce

volesse volere

Page 48: Busca de   Informação Multilingue

Análise Morfológica

Analisador Inxight LinguistX produz lemas em vez de stems (ao contrário do algoritmo de Porter)

Morfologia: flexionar (concordância sem diferença semântica) versus Derivar (pode haver modificação semântica)

As decisões para análise morfológica ou stemming é dependente da língua

Page 49: Busca de   Informação Multilingue

Part-of-Speech Tagging (Etiquetagem da Fala)

Atribuir etiquetas POS de um conjunto normalizado– comprimisso entre # de etiquetas e complexidade

Inglês – conjunto de etiquetas típica 50 Francês – conjunto grande 264 pequeno 56

– AFS adjectivo feminino singular – NFS nome feminino singular– V1SPI verbo 1ª pessoa singular presente indicativo

Reduzir o conjunto por truncagem da direita para a esquerda

Page 50: Busca de   Informação Multilingue

Etiquetagem da Fala

Estatísticas - Church 1988 Baseadas em Regras

– Manuais (Voutilainen 1993)– Aprendizagem (Brill 1992)

Combinações - Bell Labs, Xerox- Grenoble

Para acesso a informação multilingue, etiquetagem robusta reduz ambiguidade

Page 51: Busca de   Informação Multilingue

Identificação de Frases

Frases não decomponíveis – o significado não é apenas a soma dos significados

das componentes) – “Fast food” “comida rápida”

Eficácia da busca é aumentada com uma identificação efectiva das frases

O recurso de tradução deve incluir traduções correctas para frases não decomponíveis

Page 52: Busca de   Informação Multilingue

Identificação de frases

Métodos estatísticos – Eliminar stopwords– Aglomerar por contexto e frequência– Pares de palavras que co-ocorrem >25 vezes

Métodos simbólicos – Etiquetar texto como POS– Utilização de regras para identificação

Page 53: Busca de   Informação Multilingue

Reconhecimento de Nomes de Entidades

Um caso particular de reconhecimento de frases Os termos para nomeação de entidades são bastante

produtivos Técnicas de processamento precisas não podem

depender dum dicionário de termos estável Reconhecimento baseado em regras gramaticais e interpretação

Page 54: Busca de   Informação Multilingue

Classificação de Nomes de Entidade

Page 55: Busca de   Informação Multilingue

3. Busca de Texto Multilingue

Abordagens

Dificuldades

Recursos

Page 56: Busca de   Informação Multilingue

O problema

Como podem conceitos representados na interrogação numa dada língua ser unificados com a informação contida em documentos noutras línguas?

Page 57: Busca de   Informação Multilingue

O problema

Interrogação Documento

Barreira da língua

Representação da interrogação

Representação do documento

Page 58: Busca de   Informação Multilingue

CLIR - Abordagens

Tradução AutomáticaThesauri multilingueDicionário bilingueCorpora Paralelos/ComparáveisConceptual Interlingua

Page 59: Busca de   Informação Multilingue

Tradução automática

Traduzir todos documentos para cada um das possíveis línguas de interrogaçãoNão viável para colecções grandes Não viável para muitas línguas de

interrogação

É uma abordagem muito redundante e dispendiosa para o BIM(CLIR)

Page 60: Busca de   Informação Multilingue

Tradução automática

Traduzir a interrogação para a língua do conteúdo que se procura Nao há contexto para uma tradução precisaO sistema selecciona o termo preferido

A tradução de interrogações é inadequada para o CLIR

Page 61: Busca de   Informação Multilingue

Utilização de Thesauri

Busca com vocabulário controlado Definição dum conjunto de conceitos para

indexação e busca representados por conjuntos de termos em cada língua

Eliminação de ambiguidade Alguns resultados garantidos

Page 62: Busca de   Informação Multilingue

Utilização de Thesauri

Problemas Os thesauri são difíceis de construir e manter Atribuir manualmente termos a documentos é

dispendioso Estabelecer correspondência entre thesauri em

línguas diferentes é complicado! Os utilizadores têm dificuldade em utilizar

dicionários na busca de informação

Page 63: Busca de   Informação Multilingue

Utilização de Dicionários

Dicionários em computador bilingues (feitos à medida ou comerciais)

Busca dos termos da interrogação e substituir pela sua tradução na língua dos documentos

– Tradução automática da interrogação tem 50% da precisão da busca monolingue

– Expansão automática da interrogação reduzem a ambiguidade e aumentam a cobertura

Page 64: Busca de   Informação Multilingue

Utilização de Dicionários

ProblemasAmbiguidadeMuitos termos nao constam do dicionárioFalta de termos com várias palavrasIdentificação de frases É necessário um dicionário bilingue para

cada par de língua interrogação/documento

Page 65: Busca de   Informação Multilingue

Utilização Corpora

Disponibilizar equivalências léxicas em várias línguas

Corpora Paralelo – Equivalência transacional– Exemplo: Corpus ONU em francês, inglês e alemão.

Corpora Comparável – Similar para tópico,tempo, etc...– Exemplo: Notícias da Lusa em inglês e português

Page 66: Busca de   Informação Multilingue

Utilização Corpora

Tradução de interrogações usando Corpora Paralelo– Alinhar textos usando informação estatística

ou dicionários bilingue– Encontrar correspondências entre palavras

na língua fonte e na língua objecto– Extrair informação para traduzir a

interrogação para busca na língua objecto

Page 67: Busca de   Informação Multilingue

Utilização Corpora

Tradução de interrogações usando corpora paralelo– Alinha documentos relacionados através de

datas, palavras chave , nomes próprios

– Constrói um léxico de co-ocorrências– Termos em línguas diferentes relacionados com o

mesmo tópico co-ocorrem no mesmo documento– Usa a correspondência para pseudo-traduzir

interrogações

Page 68: Busca de   Informação Multilingue

Abordagens baseadas em Copora

Modelo do Espaço Vectorial Generalizado (GVSM) – Usa um corpus bilingue de treino para construir matrizes de

documentos & termos ponderados em cada língua– Usa um copora paralelo para cada par de línguas

Latent Semantic Indexing – reduz ainda mais o GVSM– requer corpura comparável ou paralelo– dispendioso computacionalmente

Page 69: Busca de   Informação Multilingue

Abordagens baseadas em Copora

Thesauri de similaridade– Extrai termos equivalentes dum copora

multilingue alinhado– Regista equivalências num thesauri externo– Qualidade dependente da qualidade do

corpora

Page 70: Busca de   Informação Multilingue

Documentosem alemão

Documentos em francês

Construção do ThesaurusMultilingue de Similaridade

Alinhar documentos comparáveis

Documentos bilingues Francês /Alemão

Nordirland

irland irlandais ulster protestant

Thesaurus de Similaridade

Page 71: Busca de   Informação Multilingue

Utilização de Corpora

Problemas– corpora apropriado é difícil de obter – O corpora de treino tem que ser bastante

grande– O corpora tende a ser dependente do

domínio e da aplicação

Page 72: Busca de   Informação Multilingue

Conceptual Interlingua

Termos e frases de várias línguas que referenciam o mesmo conceito são colocados em correspondência num esquema independente da língua

Permite a unificação de termos equivalentes e sinónimos em todas as línguas

Page 73: Busca de   Informação Multilingue

Conceptual Interlingua

Espaço de conceitosVocabulário 1

Francês

Vocabulário 2

Espanhol

Vocabulário 3

PortuguêsConceitos genéricos da línguaConceitos genéricos da língua

Page 74: Busca de   Informação Multilingue

Vantagens

BIM para qualquer combinação de línguas – não apenas bidireccional (Exemplo Português-Japonês)

Busca independente da língua baseado em conceitos da linguagem natural

Povoar com terminologia um ambiente de conceitos Ambiente bem compreendido para eliminar a

ambiguidade do sentido das palavras

Page 75: Busca de   Informação Multilingue

Desvantagens

Dispendiosos de construir

Problemas de cobertura do vocabulário

Conceitos dependentes da linguagem

Page 76: Busca de   Informação Multilingue

Mestrado em Sistemas de Informação

Busca de Informação MultilingueBusca de Informação Multilingue

Estado da Arte

Tradução automática80% eficácia monolingue em domínio genérico

• Técnicas baseadas em dicionário 80% eficácia monolingue em domínio genérico

Técnicas baseadas em Corpus Comparável e Paralelo 80% eficácia monolingue em domínio genérico

90% monolingue em domínio específico

Page 77: Busca de   Informação Multilingue

Principais dificuldades da BIM (I)

Tradução– ambiguidade– Tradução errada– Identificaçção de frases

Page 78: Busca de   Informação Multilingue

Reduzir Ambiguidade

Pré-processamento sintático Análise estatística

– Co-ocorrência de termosTermos relacionados tendem a o ocorrer em

conjunto Desambiguar as traduções usando as

estatísticas de co-ocorrência Realimentação do utilizador Pseudo-Realimentação de relevância

Page 79: Busca de   Informação Multilingue

Pseudo-Realimentação de Relevância

Colocar a interrogação na língua fonte Num corpus paralelo ou comparável , fazer a

busca para encontrar documentos na língua Usar os documentos equivalentes aos

devolvidos para derivar a interrogação na língua objecto

Usar a interrogação para obter documentos na língua objecto

Page 80: Busca de   Informação Multilingue

q q’

Língua A

Língua B

Pseudo Realimentação de Relevância

Page 81: Busca de   Informação Multilingue

Principais Dificuldades na BIM (II)

Recursos Sistemas de Acesso a Informação Multilingue

necessitam de recursos bem concebidos e – Ferramentas de Processamento da Língua– Recursos da Língua

Os recursos são bastante caros de adquirir manter actualizar

Page 82: Busca de   Informação Multilingue

Recursos – Principais problemas

disponibilidade extensibilitdade custo cobertura qualidade normas

Page 83: Busca de   Informação Multilingue

Ferramentas de Processamento da Língua

Ferramentas de identificação da línguaConversão de conjuntos de caracteresExtracção e segmentação de palavrasFerramentas de radicalização/análise

morfológica

Ver ACL Natural language Software Registryhttp://registry/dfki/de/

Page 84: Busca de   Informação Multilingue

Recursos de língua

DicionáriosCorporaLéxicos e terminologiaThesauri e ontologias

Ver ELRA - European Language Resources Association - http://www.icp.grenet.f/ELRA/

Ver LDC - Linguistic Data Consortium http://www.ldc.upenn.edu

Page 85: Busca de   Informação Multilingue

4. Busca de Fala Multilingue

Pouco trabalho realizado

Estado bastante experimental

Page 86: Busca de   Informação Multilingue

Processamento da Fala Multilingue

Reconhecedores de voz são normalmente treinados muitas horas usando um corpus de voz etiquetado

– Reconhecimento de voz visto como uma caixa preta com saídas fonémica ou léxica

– Saída usada como entrada na indexação- o objectivo é indexar o melhor possível documentos falados

– Investigação actual principalmente em inglês, com algum trabalho em chinês, japonês e algumas línguas europeias (alemão, francês, italiano, holandês)

Page 87: Busca de   Informação Multilingue

Busca da Fala Multilingue

Uma experiência no ETH-Zurich Buscar documentos falados em alemão a partir de

interrogações escritas em francês (ETH) Construir uma thesaurus de similaridade Francês-

Alemão usando um corpus de notícias da Agência Suíça de Notícias

Indexar notícias de rádio em alemão como trigramas de fonemas a partir duma saída de reconhecimento da Fala

Page 88: Busca de   Informação Multilingue

Busca de Fala Multilingue

Aceita uma interrogação escrita em francês pelo utilizador

Utiliza um thesaurus de similaridade para pseudo-traduzir a interrogação para alemão

Usa um dicionário de fonemas para converter o texto na fala correspondente

Unifica a interrogação falada com uma coleção de notícias faladas em alemão

Devolve os documentos faladosDesempenho ~50% do monolingue

Page 89: Busca de   Informação Multilingue

Direcções Actuais

Workshop Johns Hopkins Busca da Fala em várias línguas, verão 2000

Programa DARPA Automatic Content Extraction deve envolver fala em várias línguas

Grupo de Trabalho EU-NSF Working Group para estudar o arquivo e busca de documentos falados

Grupo de Trabalho DELOS WG para avaliar sistemas de documentos falados em várias línguas

Page 90: Busca de   Informação Multilingue

Avaliação de Sistemas BIM

Porque é importante a avaliação de sistemas

O que é que a avaliação implica

Programas da avaliação

Um Exemplo

Page 91: Busca de   Informação Multilingue

Porque necessitamos da avaliação?

A avaliação implica a compreensão de requisitos e objectivos

A avaliação permite que as hipóteses sejam validades e progressos confirmados

A avaliação permite a análise de diferentes abordagens e tecnologias

Page 92: Busca de   Informação Multilingue

A avaliação de sistemas é complexa!

Os sistemas BIM consistem na integração de componentes e tecnologias

Precisa de se avaliar componentes singulares

Precisa de se avaliar o desempenho global do sistema

Page 93: Busca de   Informação Multilingue

A avaliação de sistemas é complexa!

Necessidade de distinguir aspectos metodológicas de aspectos de conhecimento da língua

Idealmente, um protocolo de avaliação requer a distinção entre a arquitectura, programa e dados linguísticos

Page 94: Busca de   Informação Multilingue

Avaliação da Tecnologia e da Usabilidade

Avaliação da utilidade: Mostrar o valor da tecnologia para o utilizador Determinar os níveis de tecnologia indispensáveis

para uma utilização específica Disponibilizar direcções para escolha de critérios

para avaliação da tecnologia

Influência da língua e cultura na usabilidade das tecnologias precisa de ser compreendido

Page 95: Busca de   Informação Multilingue

Organização duma actividade de avaliação

Selecionar as tarefas de controlo Disponibilizar dados para testar a afinar os sistemas Definir protocolo e métricas a usar na validação dos

resultados

O objectivo é uma comparação objectiva entre sistemas e abordagens

Page 96: Busca de   Informação Multilingue

Principais projectos de avaliação em BIM

TIDES: patrocinadores TREC (Text REtrieval Conferences) e TDT (Topic Detection and Tracking) – linha Chinês-Inglês em 2000; TREC focará em Inglês/Frnacês - Árabe in 2001

NTCIR: Nat.Inst. for Informatics, Tokyo. Chinês-Inglês ; Japonês-Inglês C-L tracks

AMARYLLIS: focagem em Francês; 2da campanha 98-99 inclui linha BIM ; 3ªa campanha início Set 2001.

CLEF: Cross Language Evaluation Forum – Avaliação BIM para línguas europeias

Page 97: Busca de   Informação Multilingue

Cross-Language Evaluation Forum (CLEF)

Fundada pela DELOS Network of Excellence for Digital Libraries e US National Institute for Standards and Technology (NIST)

Extensão da linha BIM no TREC (1997-1999)

Coordenação distribuída – sites nacionais para cada língua na colecção multilingue

Page 98: Busca de   Informação Multilingue

CLEF – Principais objectivos

Promove a investigação, disponibilizando uma infra-estrutura para:

Avaliação, teste e afinação de sistemas BIMComparação e discussão de resultados Construção de plataformas de teste para

desenvolvimento de sistemas

Page 99: Busca de   Informação Multilingue

CLEF 2001 – Descrição da Tarefa

4 linhas principais de avaliação no CLEF 2001: Busca de informação multilingue Busca de informação bilingue Busca de informação monolingue(sem ser Inglês) Busca de informação em domínios específicos

Linha experimental para sistemas multilingue interactivos

Page 100: Busca de   Informação Multilingue

CLEF 2001 – Colecção de Dados

Corpus Multilingue comparável com documentos de jornais e agências de notícias para 6 línguas (DE,EN,FR,IT,NL,SP). Acima de um milhão de documentos

Conjunto de 50 tópicos comuns (dos quais são extraídas as interrogações) criados em 9 línguas europeias (DE,EN,FR,IT,NL,SP+FI,RU,SV)

e 3 línguas asiáticas (JP,TH,ZH)

Page 101: Busca de   Informação Multilingue

Tópicos em DE,EN,FR,IT FI,NL,SP,SV,RU,ZH,JP,TH

Inglês Alemão Francês Italiano

Sistema de BIM dos participantes

Documentos em

CLEF 2001 – Busca de Informação Multilingue

Uma lista de documentos em DE, EN, FR,IT e SP ordenados por ordem

decrescente de relevância estimada

Espanhol

Page 102: Busca de   Informação Multilingue

CLEF 2001 – Busca de Informação Bilingue

Tarefa:interrogar colecções em Inglês ou Alemão

Objectivo: encontrar documentos na língua objecto, apresentando os resultados por ordem de relevância

Tarefa simples para principiantes !

Page 103: Busca de   Informação Multilingue

CLEF 2001 – Busca de Informação Monolingue

Tarefa: interrogar colecções de documentos em FR|DE|IT|NL|SP

Objectivo: compreender melhor os problemas da busca de informação dependentes da língua

Línguas diferentes apresentam problemas diferentes

Aspectos envolvidos incluem a ordem das palavras, morfologia, caracteres diacríticos, variantes da língua

Page 104: Busca de   Informação Multilingue

CLEF 2001 - Domain-Specific IR

Tarefa: interrogar uma base de dados estruturada dum domínio vertical (ciências sociais) em alemão

Thesaurus Alemão/Inglês /Russo e tradução para inglês dos títulos dos documentos

Tarefa monolingue ou multilingue

Objectivo: compreender as implicações de interrogar em domínios específicos

Page 105: Busca de   Informação Multilingue

CLEF 2001 – BIM Interactivo

Tarefa: selecção interactiva de documento numa língua “desconhecida”

Objectivo: avaliação da apresentação dos resultados em vez do desempenho do sistema

Page 106: Busca de   Informação Multilingue

CLEF2000 - Abordagens

Sistemas de Tradução Comercial (Systran, Lernout e Hauspie Power Translator)

Consulta de dicionários bilingue Corpora paralelo alinhado (derivado do Web) Thesaurus de similaridade(usando corpora comparável)

Experimentadas diferentes abordagens para expansão de interrogações e fusão de resultados

Page 107: Busca de   Informação Multilingue

CLEF2000 – Técnicas Testadas

Testes de avaliação parcial Dicionário de termos derivado de copora paralelo

versus tradução automática Utilização de métodos de PLN, isto é identificação

de frases, processamento de formas compostas e análise morfológica e sintática

Técnicas de radicalização independentes da língua Desambiguar termos de interrogação interactiva Triangulação léxica (Ballestreros)

Page 108: Busca de   Informação Multilingue

Síntese da Avaliação

Não é uma competição para descobrir o melhor Cria a oportunidade para testar, afinar e

comparar abordagens no sentido de aumentar o desempenho dos sistemas

Uma campanha de avaliação cria uma comunidade interessada em avaliar os mesmos aspectos e comparar ideias e experiências.

Page 109: Busca de   Informação Multilingue

6. Aplicações

Sistemas que foram construídos para experiências em IR (TREC, CLEF, NTCIR)

– Suportam indexação de documentos em larga escala– Suportam processamento em batch de interrogações longas

Sistemas que foram construídos para uso comercial– Disponibilizam resposta rápida às interrogações do utilizador– Suportam actualização dinâmica do conteúdo

Page 110: Busca de   Informação Multilingue
Page 111: Busca de   Informação Multilingue
Page 112: Busca de   Informação Multilingue
Page 113: Busca de   Informação Multilingue
Page 114: Busca de   Informação Multilingue
Page 115: Busca de   Informação Multilingue

CINDOR

Aceita a interrogação em linguagem natural na língua nativa do utilizador

Faz as correspondências da interrogação usando o Conceptual Interlingua

Disponibiliza uma lista de documentos ordenados por ranking, agrupados por língua

Traduz opcionalmente os documentos em língua estrangeira para a língua nativa do utilizador

Page 116: Busca de   Informação Multilingue

I would like information

about the possible

employment of

NATO

ground troops

in the Kosovo

conflict.

possible (E)conceivable (E)

possible (F)concevable (F)imaginable (F)

factible (S)concebible (S)posibilidad (S)

ground troups (E)ground forces (E)

armées de terre (F)troupes (F)

fuerzas terrestres (S)tropas terrestres (S)

soldados (S)tropas (S)

ejército (S)

Kosovo (E)Kosovo (F)Kosovo (S)

conflict (E)discord (E)conflit (F)

désaccord (F)dissension (F)conflicto (S)discordia (S)

enfrentamiento (S)crisis (S)

employment (E)engagement (E)

commissioning (E)engagement (F)

envoyé (F)empleo (S)

uso (S)envío (S)

NATO (E)North Atlantic Treaty

Organization (E)OTAN (F)

Organisation du Traité de l’Atlantique Nord (F)

OTAN (S)Organizacion del Tratado del Atlantico Norte (S)

English Document Excerpt:

WASHINGTON, March 29 (AFP) -

The United States and Britain beefed

up NATO forces as the bombing

campaign against Yugoslavia entered a

24-hour phase and US officials warned

ground troups in Kosovo were “no

magic bullet.”

French Document Excerpt:

PARIS, 30 mars (AFP) - 25 MARS: Le

président américain Bill Clinton

déclare ne pas avoir l’intention “d’

envoyer de troupes.”

Spanish document Excerpt:

BRUSELAS, Mar 28 (AFP) - De

enviarse tropas terrestres,

posibilidad que decartan actualmente

todos los países de la organización, las

pérdidas serían considerables, según

los estrategas de la OTAN.

Interrogação em Inglês Conceptual Interlingua Documents Multilingue

Page 117: Busca de   Informação Multilingue

Demo… Introdução da Interrogação

Page 118: Busca de   Informação Multilingue

Demo… Ver resultados

Page 119: Busca de   Informação Multilingue

Demo… Traduzir para inglês

Page 120: Busca de   Informação Multilingue

Demo… Ver documento

Page 121: Busca de   Informação Multilingue
Page 122: Busca de   Informação Multilingue
Page 123: Busca de   Informação Multilingue
Page 124: Busca de   Informação Multilingue
Page 125: Busca de   Informação Multilingue
Page 126: Busca de   Informação Multilingue

Aplicações em Biliotecas Digitais (DL)

Não muitas a reportar Maior focagem no processamento de texto

multilingue em vez de funcionalidades multilingue.

Page 127: Busca de   Informação Multilingue

Projectos de DL em Pisa

ETRDL

SCHOLNET

ECHO

Page 128: Busca de   Informação Multilingue

ETRDL

Interfaces Multilingue (6 languages)– Escolha da língua da interface– Seleccionar a língua da colecção de documentos

processamento de texto multilingue

Page 129: Busca de   Informação Multilingue

Acesso a Informação Multilingue

Page 130: Busca de   Informação Multilingue

SCHOLNET

ETRDL mais a funcionalidade BIM

Thesaurus multilingue– Mecanismos para manutenção e actualização do

thesaurus

Busca em texto livre (abstracts) via pseudo-realimentação de relevância

Page 131: Busca de   Informação Multilingue

ECHO

Arquivos de filmes em 4 línguas– Busca Multilingue através dum vocabulário

controlado– Experiências numa abordagem baseada em

corpus para reconhecimento de voz

Page 132: Busca de   Informação Multilingue

9. Alguns URLs úteis

W3C - WINTER - http://www.w3.org/International/ Cross-Language Information Retrieval -

http://www.clis.umd.edu/dlrg/clir/ Cross-Language Evaluation Forum -

http://www.iei.pi.cnr.it/DELOS/CLEF Multilingual Metadata -

http://purl.org/DC/groups/languages.htm EC - Multilingual Information Society -

http://www2.echo.lu/mlis/ DARPA - Translingual Information Detection, Extraction and

Summarization - http://www.darpa.mil/ito/research/tides/

Page 133: Busca de   Informação Multilingue

Mestrado em Sistemas de Informação

Busca de Informação MultilingueBusca de Informação Multilingue

Créditos

Esta apresentação é baseada numa realizada pela Carol Peters na Escola de Verão em Bibliotecas Digitais em Pisa, Julho de 2001

Page 134: Busca de   Informação Multilingue

Referências

Peters, C., Sheridan, P. (2001). "Multilingual Information Access". In M. Agosti, F. Crestani, G. Pasi (eds.) "Lectures on Information Retrieval", Lecture Notes in Computer Science 1980, Springer Verlag, pp51-80