View
280
Download
2
Embed Size (px)
DESCRIPTION
Apresentação da Dra. Belinda Maia na I Conferência Internacional de Tradução e Tecnologia, 13 e 14 de Maio, Faculdade de Letras do Porto.
Citation preview
Belinda Maia FLUP
13 de Maio 2013
1
A importância da Tradução Automática (TA)
O fascínio da TA
O meu interesse em TA
Um pouco de história
A Linguística, a Engenharia e a TA
Possibilidades e limitações da TA
‘State-of-the-art’ em TA
2
Razões políticas
Multilinguismo como política europeia
Razões sociais
Relações culturais
Importância comercial
3
Interesse científico
Um desafio científico para: ◦ A Linguística
◦ A Engenharia Informática
◦ A Inteligência Artificial
Interesse filosófico ◦ Será possível criar ‘Comunicação’ entre o Homem e
a Máquina?
◦ Ou será que nunca haverá inteligência na máquina, como na ‘Chinese Room’ de John Searle (1980)?
4
Como:
Falante nativa de Inglês
Formadora de tradutores profissionais
Adepta da teoria da Linguística Sistémico-Funcional…
Podem achar que sou a pessoa menos indicada para estar fascinada com a TA!
5
O Inglês, mesmo sendo a ‘língua franca’ entre certos grupos, não substitui as outras línguas/culturas
A TA contribui para o multilinguismo
Os bons tradutores usam a TA como ferramenta
A TA pode acabar com os maus tradutores...
A Linguística Sistémico-Funcional ajuda a mostrar as limitações (pelo menos atuais) da Inteligência Artificial…
6
Fonética
Fonologia
Morfologia
Morfo-sintaxe
Semântica
O léxico geral – e os léxicos de especialidade
O texto
O contexto
O mundo real
7
A história da TA é longa e complexa – ver Hutchins (2010)
Depois da 2ª Guerra Mundial… Percepção de que a linguagem humana é
igual a um código ◦ O objetivo é descodificar a linguagem ◦ É tudo uma questão de tempo
Mas não só muito tempo .... Muito dinheiro e muito esforço
8
Linguística estruturalista ◦ Foca a estrutura das línguas
◦ Favorece a ‘langue’ a custa da ‘parole’
Estudo das regras de sintaxe ◦ Verbos e a sua complementação
Transformação: Sub + Adj (PT) >> Adj + Sub (EN)
◦ Estrutura básica das frases
◦ Etc.
Léxico geral – sentido denotativo das palavras
9
O sonho de uma estrutura universal da
linguagem ◦ Descobrir a estrutura comum ◦ Descobrir as regras das línguas individuais ◦ Descobrir as regras de conversão
Língua A <> estrutura universal <> Língua B
MAS ◦ A ‘estrutura universal’ é sintática ou semântica? ◦ ‘Sentido denotativo’ vs ‘sentido conotativo? ◦ A metáfora? E a palavra em contexto? E o texto?
10
A relação morfologia <> sintaxe?
A relação sintaxe <> léxico?
A relação frase <> texto?
A relação <> texto <> contexto <> mundo real?
Necessidade de criar muitas regras
Regras baseadas em normas qualitativas – ou na intuição de ‘bons’ linguistas
11
RBMT - Linguistas > intuições e muitas regras
Melhorias possíveis com ◦ Bons dicionários
◦ Bases de dados terminológicas para domínios específicos – exemplo: METEO
◦ Mais informação quantitativa
Grande problema – difícil conversão de um sistema RBMT entre as línguas A<>B para um sistema entre as línguas C<>D
12
A disponibilidade de textos em formato digital > estudo quantitativo das línguas
Corpora Wordnets Framenets Treebanks Dicionários, Thesauri Corretores ortográficos / gramaticais Dedução de regras com base em análise
deste material...
13
Os linguistas e os engenheiros trabalham juntos para produzir corpora e ferramentas
Os engenheiros compreenderam que o estudo da linguagem oferece a base para: ◦ A Internet
GOOGLE – motor de pesquisa baseado em processamento de linguagem
◦ Data mining
◦ Information retrieval
◦ Knowledge management
◦ Inteligência artificial .....
14
‘Working with translators’ (Hoft 1995 – Chapter 8)
Memórias de Tradução
Bases de dados
TA baseada na extração de informação de memórias de tradução/corpora paralelos-ou re-aproveitamento de Tradução Humana
Não é tão fácil como isto, mas...
15
TA baseada em Regras (RBMT) ◦ Exemplos: Systran, Logos, etc
◦ Exige muita mão-de-obra (sem falar em ‘que teoria de base?’...)
TA baseada em Estatística (SBMT) ◦ Exemplos: Google Translate e Bing Translator
◦ Existem muito textos paralelos, mas há limites no progresso
◦ Importa más traduções
16
MAS entre RBMT e SBMT - há um leque enorme de teorias e metodologias...
17
Fonética
Fonologia
Morfologia
Morfo-sintaxe
Semântica
O léxico geral – e os léxicos de especialidade
O texto
O contexto
O mundo real
18
Fonética e Fonologia
Conhecimentos necessários
1. Reconhecimento da fala > texto
2. Texto > TA > tradução
3. Tradução > fala
19
Morfologia
Morfo-sintaxe
Semântica
Léxico geral
Áreas básicas para TA baseada em Regras
Eventualmente + léxicos específicos num domínio especificado...
20
SBMT precisa de: ◦ Grandes quantidades de texto
◦ Grandes memórias de tradução
◦ Corpora anotados
SBMT procura: ◦ Palavras
◦ N-grams ou multipalavras
◦ Entidades Nomeadas
◦ Números, pontuação, etc
◦ Ontologias (para distinguir domínios)
◦ Eventualmente... padrões sintáticos, etc.
21
Opinião geral > Hibridização ◦ RBMT + SBMT
Os resultados do motor de regras são seleccionados por estatística
◦ SBMT + RBMT
Os resultados da estatística são corrigidos por regras
Regras extraídas de corpora anotados
Mais e melhores corpora e memórias de tradução
Correcção humana de TA + ‘machine learning’
22
OBRIGADA!
23
Halliday, M.A.K. 2004. “Introduction: How Big is a Language? On the Power of Language.” In The Language of Science: Volume 5 in the Collected Works of M.A.K. Edited by J.J.Webster. London and New York: Continuum. p. xi.
Hoft, Nancy 1995. International Technical Communication. New York: John Wiley and Sons.
Hutchins, John. Várias Publicações - http://www.hutchinsweb.me.uk/
MT-Archive - http://www.mt-archive.info/
Searle, John. 1980. “Minds, Brains, and Programs.” Behavioral and Brain Sciences 3, 417-424.
24