49
1 Como Transformar um Sistema de Tradução Automática por Regras num Sistema Híbrido? Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia L2F INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Anabela Barreiro - Hibridização de TA

Embed Size (px)

Citation preview

Page 1: Anabela Barreiro - Hibridização de TA

1

Como Transformar um Sistema de Tradução

Automática por Regras num Sistema Híbrido?

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 2: Anabela Barreiro - Hibridização de TA

2

Estado da Arte em Tradução Automática

– Sistemas por regras versus sistemas estatísticos

OpenLogos – Plataforma para Sistema Híbrido

– Descrição do sistema, arquitetura, características, etc.

Como Transformar OpenLogos num Sistema Híbrido

– Trabalho futuro

Exploração do OpenLogos

– criação de novos recursos e aplicações

Divulgação, esforços, apoio

– Disponibilidade dos recursos gratuitos do OpenLogos

Sumário

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 3: Anabela Barreiro - Hibridização de TA

3

Investigadores e criadores de sistemas de TA têm um objetivo principal: criar

sistemas que produzam tradução de alta qualidade comparável à que é

produzida por tradutores humanos.

Décadas de investigação resultaram na invenção e aperfeiçoamento de métodos

estatísticos que aceleram o processo de tradução

Desenvolveram-se recursos linguísticos de melhor qualidade, em maior

quantidade e para mais línguas

Os avanços alcançados em diferentes aproximações e técnicas de TA tornam-se um

campo fértil para o desenvolvimento de uma nova geração de sistemas de TA

linguisticamente mais avançada: os sistemas híbridos

Reunir métodos diferentes, com os seus pontos fortes, fortificará e melhorará a TA

Estado da Arte em Tradução Automática visão otimista…

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 4: Anabela Barreiro - Hibridização de TA

4

A TA não é um problema resolvido – há erros que perduram depois de

décadas de investigação na área

Sistemas por regras envolvem um grande investimento de tempo e

recursos humanos (= dinheiro)

Sistemas estatísticos precisam de enormes quantidades de corpora

paralelos, que para algumas línguas não existem e para outras línguas

existem mas são de má qualidade.

A hibridização de sistemas de TA é uma linha de investigação

promissora

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Estado da Arte em Tradução Automática a realidade…

Page 5: Anabela Barreiro - Hibridização de TA

5

Não precisam de corpora paralelos

Produzem tradução de boa qualidade com

poucos dados e poucas regras

Funcionam bem em domínios especializados, com bons dicionários e

terminologias

De construção morosa

E muito cara…

Envolvem recursos humanos muito especializados

Conhecimentos linguísticos avançados para cada par de línguas

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Vantagens e Desvantagens dos Sistemas por Regras

Page 6: Anabela Barreiro - Hibridização de TA

6

Cometem erros linguísticos crassos resolvidos há 20 anos por sistemas

por regras.

Mesmo com muitos dados, é necessário fazer

pós-edição de erros muito simples (ex: concordância entre substantivo e

adjetivo qualificativo; concordância entre sujeito e verbo, etc.)

É possível desenvolver um sistema estatístico muito rapidamente, basta

que existam alguns corpora paralelos

Muito mais barato

Não são necessários muitos recursos humanos

(especializados)

Vantagens e Desvantagens dos Sistemas Estatísticos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 7: Anabela Barreiro - Hibridização de TA

7

Frase original em inglês Tradução do OpenLogos (RBMT)

Tradução do Google Translate (SMT)

Kennedy works. Kennedy trabalha. Kennedy funciona.

Kennedy showed the office to Wayne. Kennedy mostrou o escritório a Wayne. Kennedy mostrou o escritório para Wayne.

Kennedy showed Wayne the office. Kennedy mostrou o escritório a Wayne. Kennedy mostrou Wayne no escritório.

Kennedy became a manager. Kennedy tornou-se gerente. Kennedy se tornou um gerente.

Kennedy is working. Kennedy está trabalhando. Kennedy está funcionando.

She hired him. Ela contratou-o. Ela o contratou.

He hired her. Ele contratou-a. Ele a contratou.

He showed it to her. Ele mostrou-o a ela. Ele mostrou a ela.

He showed it to Mary. Ele mostrou-o a Mary. Ele mostrou a Maria.

He interviewed them. Ele entrevistou-os. Ele entrevistou-los.

They interviewed him. Eles entrevistaram-na. Eles entrevistaram ele.

Kennedy interviewed me. Kennedy entrevistou-me. Kennedy me entrevistou.

We interviewed Kennedy. Entrevistámos Kennedy. Entrevistamos Kennedy.

Kennedy interviewed us. Kennedy entrevistou-nos. Kennedy nos entrevistaram.

You interviewed Kennedy. Você entrevistou Kennedy. Você entrevistou Kennedy.

Kennedy interviewed you. Kennedy entrevistou-o. Kennedy entrevistei.

She and I interviewed Kennedy. Ela e eu entrevistámos Kennedy. Ela e eu entrevistei Kennedy.

I and she interviewed Kennedy. Eu e ela entrevistámos Kennedy. Eu e ela entrevistou Kennedy.

Me and her interviewed Kennedy. Eu e ela entrevistámos Kennedy. Eu e ela entrevistou Kennedy.

Her and me interviewed Kennedy. Ela e eu entrevistámos Kennedy. Ela e me entrevistou Kennedy.

Kennedy interviewed her and me. Kennedy entrevistou a ela e a mim. Kennedy entrevistou ela e eu.

Kennedy interviewed me and her. Kennedy entrevistou a mim e a ela. Kennedy me e seu entrevistado.

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Sistema por Regras versus Sistema Estatístico evidência empírica

Page 8: Anabela Barreiro - Hibridização de TA

8

Frase original em inglês Tradução do OpenLogos (RBMT)

Tradução do Google Translate (SMT)

She manages whom? Ela dirige quem? Ela consegue quem?

She manages who? Ela dirige quem? Ela consegue quem?

She showed whom an office? Ela mostrou quem um escritório? Ela mostrou que um escritório?

She showed who an office? Ela mostrou quem um escritório? Ela mostrou que um escritório?

Whom does she work for? Quem trabalha ela para? Quem ela trabalha?

Who does she work for? Quem trabalha ela para? Quem é que ela trabalha?

It is time for an interview. É o tempo para uma entrevista. Está na hora de uma entrevista.

It is true that Kennedy hired Wayne. É verdadeiro que Kennedy contratou Wayne. É verdade que Kennedy contratou Wayne.

There are programmers. Há programadores. Existem programadores.

There are programmers working for Michael. Há programadores que trabalham para Michael. Existem programadores que trabalham para Michael.

There are programmers older than Michael. Há programadores mais velhos que Michael. Há programadores mais velhos do que Michael.

There stands in the office a bookcase. Está de pé uma estante no escritório aí. Não está no escritório uma estante.

A manager works. Um gerente trabalha. A gerente funciona.

Managers work. Os gerentes trabalham. Gerentes de trabalho.

Kennedy hired this employee. Kennedy contratou este empregado. Kennedy contratou este funcionário.

Kennedy hired these employees. Kennedy contratou estes empregados. Kennedy contratado esses funcionários.

List women who have bookcases. Enumere mulheres que têm estantes. Lista de mulheres que têm estantes.

List bookcases which women have. Enumere estantes que as mulheres têm. Lista de estantes que as mulheres têm.

The woman evaluated herself. A mulher avaliou-se. A mulher avaliou a si mesma.

The women evaluated themselves. As mulheres avaliaram-se. As mulheres avaliadas si.

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Sistema por Regras versus Sistema Estatístico evidência empírica

Page 9: Anabela Barreiro - Hibridização de TA

9

Frase original em inglês Tradução do OpenLogos (RBMT)

Tradução do Google Translate (SMT)

Kennedy hired women who were competent. Kennedy contratou mulheres que foram competentes.

Kennedy contratou mulheres que estavam competente.

Kennedy hired a woman who Wayne interviewed. Kennedy contratou uma mulher quem Wayne entrevistou.

Kennedy contratou uma mulher que Wayne entrevistado.

Kennedy hired a woman who Wayne approved of. Kennedy contratou uma mulher que Wayne aprovou.

Kennedy contratou uma mulher que aprovado de Wayne.

Kennedy has a bookcase which is heavy. Kennedy tem uma estante que é pesada. Kennedy tem uma estante que é pesado.

Kennedy has a bookcase that is heavy. Kennedy tem uma estante que é pesada. Kennedy tem uma estante que é pesado.

Kennedy has an office that Wayne showed Mary. Kennedy tem um escritório que Wayne mostrou a Mary.

Kennedy tem um escritório que Wayne mostrou Mary.

Kennedy has an office Wayne showed Mary. Kennedy tem um escritório que Wayne mostrou a Mary. Kennedy tem um escritório Wayne mostrou Mary.

Kennedy hired a woman Wayne interviewed. Kennedy contratou uma mulher que Wayne entrevistou.

Kennedy contratou uma mulher Wayne entrevistado.

Kennedy hired a woman Wayne approved of. Kennedy contratou uma mulher que Wayne aprovou. Kennedy contratou uma mulher Wayne aprovado.

List managers of projects who work for Kennedy. Enumere gerentes de projectos que trabalham para Kennedy.

Gerentes lista de projetos que trabalham para Kennedy.

Kennedy hired anyone competent to work on the project.

Kennedy contratou qualquer um competente de trabalhar no projecto.

Kennedy contratou ninguém competente para trabalhar no projeto.

Kennedy approved of who Mary hired. Kennedy aprovou quem Mary contratou. Kennedy aprovou que Mary contratado.

Kennedy approved of where Mary worked. Kennedy aprovou de onde Mary trabalhou. Kennedy aprovado de onde Mary trabalhou.

Kennedy hired a woman of whom Mary approved. Kennedy contratou uma mulher que Mary aprovou. Kennedy contratou uma mulher de quem Mary aprovado.

Is Kennedy competent? É competente Kennedy? Kennedy é competente?

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Sistema por Regras versus Sistema Estatístico evidência empírica

Page 10: Anabela Barreiro - Hibridização de TA

10

Integração de conhecimento linguístico em sistemas de tradução

automática estatística (SMT)

Aplicação de técnicas estatísticas de alinhamento a sistemas de

tradução automática baseados em regras (RBMT)

Hibridização em Tradução Automática

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 11: Anabela Barreiro - Hibridização de TA

11

Estado da Arte em Tradução Automática

– Sistemas por regras versus sistemas estatísticos

OpenLogos – Plataforma para Sistema Híbrido

– Descrição do sistema, arquitetura, características, etc.

Como Transformar OpenLogos num Sistema Híbrido

– Trabalho futuro

Exploração do OpenLogos

– criação de novos recursos e aplicações

Divulgação, esforços, apoio

– Disponibilidade dos recursos gratuitos do OpenLogos

Sumário

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 12: Anabela Barreiro - Hibridização de TA

12

Legado Logos - um dos primeiros sistemas de TA no mundo – 1970-2001

– Considerado de alta qualidade, com grande ênfase na semântica – aproximação através

da análise da língua de forma a que esta seja “entendida” pelo sistema computacional.

– A aproximação Logos assemelha-se em espírito à aproximação estatística na medida em

que as regras são aplicadas a padões em contexto (semântico-sintáticos)

– O conhecimento linguístico envolvido no sistema permite complementar a TA estatística

colmatando dificuldades e fraquezas apresentadas pelos métodos estatísticos.

Produto comercial – desenvolvido pela empresa norte-americana Logos Corporation

– Estados Unidos, Alemanha e Itália

– 25-100 empregados - 30 anos

– Investimento de 80 milhões de dólares

– 8 pares de línguas: EN-GE, EN-FR, EN-ES, EN-IT, EN-PT e GR-EN, GE-FR, GE-IT

– Clientes em 12 países incluiram: Ericsson of Sweden, the Canadian Secretary of State,

SAP, Siemens-Nixdorg, Oce Netherlands, and Union Fenosa

OpenLogos – Plataforma para Sistema Híbrido

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 13: Anabela Barreiro - Hibridização de TA

13

Disponível em código aberto

– adaptado pelo DFKI e no SourceForge

– Qualquer utilizador pode ter acesso à tecnologia

– Disponível para uso comercial e privado

Adaptável às necessidades do utilizador

– Desenvolvimento de novos recursos linguísticos (bases de dados de regras,

vocabulários, dicionários bilingues, corpora, etc.)

Oportunidade para a prestação de serviços

– Serviços linguísticos e técnicos e/ou apoio ao cliente

– Integração do sistema/dados noutros pacotes (incluir OpenLogos nos 5

maiores distribuidores de Linux pode representar uma fonte de rendimentos

significativa)

OpenLogos – Plataforma para Sistema Híbrido

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 14: Anabela Barreiro - Hibridização de TA

14

Investigação e uso académico

– Dar vida a uma tecnologia hibernada (metáfora de Fénix)

– Componente de regras e representação linguística - plataforma ideal para um

sistema híbrido de TA linguisticamente mais sofisticado

– TA para universidades, unidades de investigação e institutos governamentais

Línguas minoritárias, negligenciadas e em vias de extinção

– Criação de novos sistemas de TA que contemplem estas línguas

– Não contempladas em programas comerciais

– Resposta a programas de administrações e ONGs para a promoção e

ressurgência destas línguas

Avanços científicos para a comunidade de PLN/LC

OpenLogos – Plataforma para Sistema Híbrido

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 15: Anabela Barreiro - Hibridização de TA

Sistema multi-alvo

– A análise numa língua-fonte pode gerar qualquer número de línguas-alvo

Análise linguística completa

– Dicionários extensíveis com alicerces semântico-sintáticos subjacentes

– Morfologia

– Significado (semântica)

– Estrutura e função gramatical (sintaxe)

– A análise sintática é específica apenas da língua-fonte; a geração é específica da

língua-alvo.

– A análise abrangente permite construir uma tradução completa e idiomaticamente

correta na língua-alvo.

Arquitetura em forma de oleoduto

Software de língua neutra

– Todo o conhecimento linguístico está numa base de dados relacional

15

Caraterísticas do OpenLogos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 16: Anabela Barreiro - Hibridização de TA

Linguagem de Abstração Semântico-Sintática (representação SAL)

– Taxonomia hierárquica com características ontológicas

– Todas as frases da língua natural (LN) que entram no sistema são imediatamente

convertidas para frases SAL

– SAL é a força motriz do processo de tradução no sistema OpenLogos

– O parser (analisador sintático) consegue melhores resultados devido à SAL do que um

analisador puramente sintático conseguiria

Processamento semântico

– Tabela Semântica (= SEMTAB) contém milhares de regras transformacionais

Características de interlíngua

– Inicialmente um sistema por transferência, evoluiu para um sistema com características

de interlíngua, que são inerentes ao sistema.

16

Características do OpenLogos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 17: Anabela Barreiro - Hibridização de TA

17

Formato RES1

RES2 P1

P2 P3

P4 S

T4 T3

T1 T2

GEN

Formato

SEMTAB

Regras-alvo SEMTAB

SEMTAB

Regras SAL

Regras-alvo

Regras-alvo

• Modular

• Processamento incremental

• Sistema multi-alvo

• Análise de baixo para cima

• Determinístico

Entrada

Saída SEMTAB

Arquitetura

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 18: Anabela Barreiro - Hibridização de TA

18

Segmentação em orações ways of cooking lentils - V

Resolução de homógrafos types of [cooking utensils] - ADJ

A análise determinística obriga a que todas as ambiguidades POS sejam resolvidas

(98% precisão)

Formato

RES2

RES1

Regras SAL

SEMTAB

Entrada no

sistema

Análise Incremental da Língua-Fonte

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 19: Anabela Barreiro - Hibridização de TA

19

Parse1

Parse3

Parse4

S

Parse2

• SN simples • resolução semântica

• SN Prep SN • orações relativas

•resolução semântica

• semântica dos verbos

•SN complexos • orações simples

•resolução semântica

•Ordem em

frases complexas • resolução semântica

Regras SAL SEMTAB

Ex.: a book on the presidency

on = about; concerning

≠ a book on the table

on = over 19

Análise Incremental da Língua-Fonte

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 20: Anabela Barreiro - Hibridização de TA

SAL - Semantico-syntactic Abstraction Language

SAL Taxonomy: 3 levels organized hierarchically

– Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets)

Continuum semântico-sintáctico da palavra da LN até à categoria gramatical

(POS)

– Palavra literal: airport

– Morfema raíz: port

– SAL Subset: Agfunc (agentive functional location)

– SAL Set: func (functional location)

– SAL Superset: PL (place)

– Categoria: N

Tanto o fluxo de entrada, como as regras são expressas em SAL

20

Linguagem de Representação SAL

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 21: Anabela Barreiro - Hibridização de TA

21

Ex.: two pieces of cake

Análise do SN:

- morfologia plural de pieces

- semântica de cake

Desenvolvido:

- indutivamente

- por tentativa-erro

- ao longo dos anos

- pela equipa de desenvolvimento

Superconjuntos SAL: Substantivos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 22: Anabela Barreiro - Hibridização de TA

22

Superconjunto dos

Substantivos Abstratos

Conjunto dos Substantivos

Abstratos Não-Verbais

Sub-

conjuntos

Não-Verbais

Conjunto dos Substantivos

Abstratos Verbais

Conjuntos

Verbais

Classifications

Methods / Procedures

Taxonomia para os Substantivos Abstratos

Page 23: Anabela Barreiro - Hibridização de TA

23

A palavra cooking é um verbo ou um adjetivo?

ways of cooking lentils

types of cooking utensils

ways N(AB/method) tendência verbo

types N(AB/class) tendência não-verbo

SAL contribui para a resolução do homógrafo

O código SAL N(AB/method) na regra

emparelha com um código SAL

semelhante na sequência de entrada

O efeito deste emparelhamento é resolver

cooking como um verbo

Uso de SAL na Resolução de Homógrafos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 24: Anabela Barreiro - Hibridização de TA

As regras SAL têm 5 Components

Padrão SAL

– PARSE2 exemplo: N(IN/data;u) Prep(“on”;u) N(u;u) (a book on the presidency)

Restrição

– Emparelha apenas se as condições são verdadeiras ou falsas

Ação-Fonte

– Regras RES: Resolve ambiguidade sintática

– Regras PARSE: Cria uma árvore sintática

– Regras SEMTAB : Resolve ambiguidade semântica

Ação-Alvo (opcional)

– Leva a efeito a transferência sintática e/ou semântica

Linha de Comentário

– PARSE2 exemplo: NP(info) Prep(“on”) NP N1 “about” N2

E.g., book on political satire book about ....

24

Componentes das Regras SAL

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 25: Anabela Barreiro - Hibridização de TA

Complexidade

– Saturação lógica

– A base de dados torna-se demasiado grande

– Há degradação na performance

– Difícil manutenção

– Inércia na melhoria do sistema

Ambiguidade

– Qualidade/precisão do output – depende de uma desambiguação eficaz

– Desambiguação eficaz provoca um crescimento da base de dados

Dilema clássico

– A redução da base de dados que permite aliviar a complexidade provoca um

enfraquecimento na desambiguação

– Um aumento do tamanho da base de dados de forma a ajudar a resolver

ambiguidades aumenta a complexidade

25

Problema Clássico dos Sistemas por Regras

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 26: Anabela Barreiro - Hibridização de TA

26

Complexidade

– Regras e fluxo de entrada são expressos como padrões SAL

– Mapeamento homogéneo

– As regras são padrões SAL patterns armazenados e organizados num dicionário de

padrões indexado

– O fluxo de entrada SAL serve de argumento de pesquisa para as regras SAL

– Não existe limite quanto ao tamanho das bases de regras e não existe impacto na

performance

– As regras são ordenáveis e fáceis de manter

Ambiguidade

– Resolução de homógrafos sintáticos

– Escopo de adjetivos, preposições

– Polissemia

Ambiguidade e Complexidade para o OpenLogos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 27: Anabela Barreiro - Hibridização de TA

27

metáfora: rede neural biológica

– Vectores V1-V6 = fluxo SAL

– Células nos vectores de entrada = elementos/palavras SAL nos quais o fluxo de

entrada em LN foi convertido

– Nesta rede, R1 a P4 = camadas escondidas que contêm as regras SAL

– R1 prepresenta RES1, P1 representa Parse1 e assim sucessivamente.

– Cada camada escondida contém entre 2-4 mil regras, organizadas pelo seu padrão

SAL, como num dicionário.

À medida em que a análise evolui:

1- células tornam-se mais escassas

(natureza abstrata da análise sintática)

2- vectores tornam-se mais

claros (desambiguação

semântica)

Aplicação das Regras

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 28: Anabela Barreiro - Hibridização de TA

28

Principal semelhança

– Interação eficaz entre o fluxo de entrada SAL e as regras das camadas

escondidas

– Apenas as regras que devem ser aplicadas são acedidas

– Não é necessário desenvolver metaregras ou redes de discriminação para

alcançar eficácia no mapeamento de regras

– Mapeamento eficaz de regras é uma característica do design do sistema

metáfora: rede neural biológica

Aplicação das Regras

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 29: Anabela Barreiro - Hibridização de TA

29

Linguagem de representação SAL em interação com SEMTAB

SEMTAB fornece uma tradução que se sobrepõe à tradução do dicionário

para o verbo “raise”

Sequência LN Regra SEMTAB Tradução em Português

raise a child V(‘raise’) N(ANdes) criar. . .

raise corn V(‘raise’) N(MAedib) cultivar. . .

raise the rent V(‘raise’) N(MEabs) aumentar. . .

Resolução da Polissemia no OpenLogos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 30: Anabela Barreiro - Hibridização de TA

30

Uma única regra em estrutura profunda

reconhece múltiplas estruturas de superfície

e produz traduções corretas na língua-alvo

he raised the rent ele aumentou a renda V+Objecto

the raising of the rent o aumento da renda Gerúndio

the rent, raised by … a renda, aumentada por… ADJ Part.

a rent raise um aumento de renda Substantivo

Regras de SEMTAB em Estrutura Profunda

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 31: Anabela Barreiro - Hibridização de TA

31

Aplicar estatística e cálculo de probabilidades na resolução de homógrafos

(RES)

Aplicar estatística em padrões semântico-sintáticos (SAL), em vez de em n-

gramas

Métodos de aquisição automática de alinhamentos de unidades semantico-

sintáticas e multipalavras baseadas em alinhamentos supervisionados´-

aprendizagem automática

Integrar recursos ontológicos e um módulo de parafraseamento alimentado por

um tesauro para reconhecer e integrar paráfrases no fluxo de trabalho da

tradução

Como Transformar OpenLogos num Sistema Híbrido

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 32: Anabela Barreiro - Hibridização de TA

32

Novas tecnologias, recursos e técnicas, que contribuem para um

desenvolvimento mais fácil e rápido de novos pares de línguas.

– computação em nuvem

– big data

– técnicas avançadas de alinhamento (aprendizagem)

– crowdsourcing especializado para aumentar a qualidade da TA

Trabalho Futuro

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 33: Anabela Barreiro - Hibridização de TA

33

Estado da Arte em Tradução Automática

– Sistemas por regras versus sistemas estatísticos

OpenLogos – Plataforma para Sistema Híbrido

– Descrição do sistema, arquitetura, características, etc.

Como Transformar OpenLogos num Sistema Híbrido

– Trabalho futuro

Exploração do OpenLogos

– criação de novos recursos e aplicações

Divulgação, esforços, apoio

– Disponibilidade dos recursos gratuitos do OpenLogos

Sumário

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 34: Anabela Barreiro - Hibridização de TA

34

SPIDER

– System for Paraphrasing In Document Editing and Revision.

– Baseado em tecnologia NooJ (http://ww.nooj4nlp.net/)

– Disponível em: http://www.linguateca.pt/ReEscreve/

– Optimização da escrita, aplicável à pré-edição para a TA.

1ª versão – ReEscreve (Português) e ReWriter (Inglês)

2ª versão – eSPERTo (Português)

Integração num projeto ciberescola no âmbito de uma programa

educacional para ensinar alunos a melhorar as suas capacidades de

escrita em Português

EXPERT (protótipo) – Escrita de textos em domínios especializados

Recursos OpenLogos Usados em Novas Aplicações

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 35: Anabela Barreiro - Hibridização de TA

35

ParaMT

– Parafraseador bilíngue/multilíngue (protótipo de tradutor)

– Utiliza uma metodologia semelhante à empregue pelo SPIDER

– Utiliza dados bilíngues

– Diretamente aplicável à TA

Corpógrafo

– Ferramenta de gestão de corpora multilingue

– Disponível em: http://www.linguateca.pt/corpografo/

Recursos OpenLogos Usados em Novas Aplicações

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 36: Anabela Barreiro - Hibridização de TA

36

ReEscreve: Sugestões de Reescrita

Page 37: Anabela Barreiro - Hibridização de TA

37

Texto Reescrito pelo ReEscreve

Page 38: Anabela Barreiro - Hibridização de TA

38

SPIDER: Sugestões de Reescrita

Sugestões de reescrita para

fenómenos linguísticos gerais

Advérbios compostos >

advérbios simples

Construções com verbos-

suporte> verbos simples

Relativas> particípios

passados adjectivais

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 39: Anabela Barreiro - Hibridização de TA

39

EXPERT: Seleção de Dicionários de Domínio

Identificação de termos jurídicos num

texto

Sugestões para o termo “breach of

law”

O utilizador pode selecionar um termo de uma lista de sugestões ou

apresentar a sua própria sugestão

O utilizador pode selecionar entre dicionários gerais e técnicos e gramáticas para

transformações linguísticas específicas

Texto jurídico

Page 40: Anabela Barreiro - Hibridização de TA

40

Reconhecimento de CVS em PT e

tradução por verbos em EN

Tradução

Automática

$EN

Verbos - EN Construção com com verbo

suporte - PT >

ParaMT: um Parafraseador para a TA

Page 41: Anabela Barreiro - Hibridização de TA

41

Estado da Arte em Tradução Automática

– Sistemas por regras versus sistemas estatísticos

OpenLogos – Plataforma para Sistema Híbrido

– Descrição do sistema, arquitetura, características, etc.

Como Transformar OpenLogos num Sistema Híbrido

– Trabalho futuro

Exploração do OpenLogos

– criação de novos recursos e aplicações

Divulgação, esforços, apoio

– Disponibilidade dos recursos gratuitos do OpenLogos

Sumário

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 42: Anabela Barreiro - Hibridização de TA

42

Anusaaraka LTRC, IIIT-Hyderabad

– Protótipo de um sistema de TA Inglês-Hindú

Chaudhury, S.; Rao, A.; Sharma, D. M. (2010). "Anusaaraka: An Expert System based

Machine Translation System". In Proceedings of 2010 IEEE International Conference on

Natural Language Processing and Knowledge Engineering (IEEE NLP-KE2010), Beijing,

China, Aug 21- 23, 2010.

Kalinga Institute of Industrial Technology, KIIT

– Criação de um laboratório de investigação com tecnologia OpenLogos

OpenLogos para Línguas Minoritárias

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 43: Anabela Barreiro - Hibridização de TA

43

Departmento de Ciências Políticas, Sociais e Comunicação,

Universidade de Salerno

– Tese de doutoramento onde foram aplicadas metodologia e regras

SEMTAB do sistema inglês-italiano do OpenLogos, apoiadas pela

tecnologia NooJ na representação dos princípios teóricos e

metodológicos da Teoria Léxico-Gramática

Monti, Johanna (2013). Multi-word unit processing in Machine Translation. Developing and

using linguistic resources for multi-word unit processing in Machine Translation

Principais universidades da África Austral

– Esforços iniciais para usar OpenLogos como plataforma para a TA entre

Inglês e Línguas Africanas (recursos escassos, falta de corpora

paralelos, etc.) numa iniciativa semlhante à que foi tomada para as

línguas da Índia

Outros Esforços com OpenLogos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 44: Anabela Barreiro - Hibridização de TA

44

DFKI adaptou o OpenLogos do sistema comercial Logos

Também disponível em Sourceforge, com a licença GPL

OpenLogos usa apenas componentes em código aberto:

– Ferramentas e compiladores, tais como GCC

– Código e bibliotecas abertas (APITest, logos_batch)

– Bases de dados de código aberto. Os recursos foram convertidos para

PostgreSQL

– Uso de normas abertas em vez de protocolos comerciais

– Platforma Linux

Recursos, tais como gramáticas para análise (RES) e transferência (TRAN) para as

línguas-fonte e alvo, e bases de dados com dicionários multilíngues

Ferramentas: LogosTermBuilder, LogosAdmin, linha de comandos (APITest,

openlogos), e interface para começar e monitorizar as traduções

(LogosTransCenter)

Recursos do OpenLogos na DFKI

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 45: Anabela Barreiro - Hibridização de TA

Lista de e-mails OpenLogos (DFKI) dedicada a discussão e troca de

informação no que diz respeito ao desenvolvimento do sistema e

discussão de problemas:

http://www.dfki.de/mailman/listinfo/openlogos-list

Grupo de Discussão no LinkedIn: OpenLogos Machine Translation

Página no Facebook: OpenLogos

45

Apoio para o OpenLogos

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 47: Anabela Barreiro - Hibridização de TA

47

Publicações e artigos técnicos com a descrição de:

Linguagem de representação SAL

Arquitetura do sistema e fluxo de trabalho

Anabela Barreiro, Bernard Scott, Walter Kasper and Bernd Kiefer. OpenLogos Rule-Based

Machine Translation: Philosophy, Model, Resources, and Customization. In Machine

Translation, volume 25 number 2, Pages 107-126, Springer, Heidelberg, 2011. ISSN: 0922-

6567. DOI: 10.1007/s10590-011-9091-z

Bernard Scott and Anabela Barreiro. OpenLogos MT and the SAL Representation Language.

In Proceedings of the First International Workshop on Free/Open-Source Rule-Based

Machine Translation. Edited by Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez, Francis

M. Tyers. Alicante, Spain: Universidad de Alicante. Departamento de Lenguajes y Sistemas

Informáticos. 2–3 November 2009, pp. 19–26

Bernard Scott. The Logos Model: an Historical Perspective. In Machine Translation, vol. 18

(2003), pp. 1–72.

Publicações Mais Relevantes

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 48: Anabela Barreiro - Hibridização de TA

48

Anabela Barreiro. "SPIDER: a System for Paraphrasing In Document Editing and Revision -

Applicability in Machine Translation Pre-Editing". Computational Linguistics and

Intelligent Text Processing. Proceedings of the 12th International Conference 6609 (2011),

pp. 365-376. Springer. ISSN: 0302-9743. e-ISSN: 1611-3349. DOI: 10.1007/978-3-642-

19400-9. Part II, Lecture Notes in Computer Science

Anabela Barreiro. "ParaMT: a Paraphraser for Machine Translation". In António Teixeira, Vera

Lúcia Strube de Lima, Luís Caldas de Oliveira & Paulo Quaresma (eds.), Computational

Processing of the Portuguese Language, 8th International Conference, Proceedings

(PROPOR 2008) Vol. 5190, (Aveiro, Portugal, 8-10 de Setembro de 2008), Springer Verlag.

Lecture Notes in Computer Science,pp. 202-211.

Anabela Barreiro & Luís Miguel Cabral. "ReEscreve: a translator-friendly multi-purpose

paraphrasing software tool". In Marie-Josée Goulet, Christiane Melançon, Alain Désilets &

Elliott Macklovitch (eds.),Proceedings of the Workshop Beyond Translation Memories: New

Tools for Translators, The Twelfth Machine Translation Summit (Château Laurier, Ottawa,

Ontario, Canada, 29 August 2009), pp. 1-8.

Publicações sobre as Aplicações de Paráfrase e

Reescrita

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013

Page 49: Anabela Barreiro - Hibridização de TA

49

Como Transformar um Sistema de Tradução

Automática por Regras num Sistema Híbrido?

Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013