Upload
hoangphuc
View
212
Download
0
Embed Size (px)
Citation preview
Elaborando uma edio digital de um texto: a Lingustica Computacional e a etapa
do processo de alinhamento da traduo grego antigo portugus
Caio Vieira Reis de CAMARGO1
Resumo
A partir de uma reflexo acerca dos novos horizontes criados pelas pesquisas em
Lingustica Computacional e os recentes trabalhos desenvolvidos nessa rea do
conhecimento, como o manuseio de corpus digital e a criao de base de dados digitais,
nosso objetivo mostrar o desenvolvimento do alinhamento da traduo grego antigo
portugus da obra Biblioteca, de Apolodoro (sc. II d.C) por meio da ferramenta
Alpheios, elencando alguns tpicos pertinentes ao uso do editor de alinhamentos, bem
como a forma de manuse-lo. O contedo deste artigo parte de um trabalho mais
amplo envolvendo tecnologias e grego antigo e contempla uma das fases de
desenvolvimento de uma pesquisa que visa construo de um banco de dados digital
em portugus do grego antigo.
Palavras-chave: Lingustica Computacional; alinhamento de traduo; Apolodoro;
grego antigo - portugus
Abstract
From a theoretical reflection over the new horizons created by the researches within
The Computer Linguistics and the recent works developed in such area, like using a
digital corpus and building up a digital database, our goal in this paper is to show how
we developed the Ancient Greek Portuguese translation alignment throughout the web
tool Alpheios, presenting all the steps the come before the use of the alignment editor,
as well as how to handle it. The content of this paper is part of a deeper research
involving digital techniques and Ancient Greek and has one of the phases of the
development of a research that aims to create a Ancient Greek Digital Database in
Portuguese.
Keywords: Computer Linguistics; translation alignment; Apollodorus; Ancient Greek -
Portuguese
1Doutorando em Lingustica e Lngua Portuguesa na Universidade Estadual Paulista UNESP
Araraquara Faculdade de Cincias e Letras Rodovia Araraquara-Ja km 1 14800-901 Araraquara SP;
e pesquisador convidado na City University of Hong Kong, Hong Kong, junto ao Departamento de
Chins, Traduo e Lingustica. [email protected]
mailto:[email protected]
Introduo
As evolues tecnolgicas surgem diante de ns numa velocidade cada vez mais
elevada e acompanh-las passa a ser no s uma exigncia muitas vezes mercadolgica
como tambm um importante baluarte para o aprofundamento e obteno de novos
resultados para o pensamento cientfico. Em pleno sculo XXI, embora seja considerada
uma cincia recente, quando comparada a outras cincias, a Lingustica consolidou-se
como importante campo cientfico graas contundncia dos trabalhos de pesquisa
desenvolvidos at hoje que lhe proporcionaram diversas vertentes como reas de seu
conhecimento. Acompanhar esse contexto da modernidade e adequar os trabalhos
acadmicos constante exigncia do novo uma realidade presente na rotina dos
pesquisadores atuais. Nesse sentido, aliar o uso de ferramentas tecnolgicas para o
estudo lingustico que tenha uma Lngua Clssica como objeto de estudo mostra-se no
s necessria, mas uma produtiva e inovadora linha de pesquisa, capaz de fomentar
diversas lacunas at ento no preenchidas pelos trabalhos cientficos prvios.
Embora a lngua utilizada como nosso objeto de anlise seja o grego antigo,
nosso foco deixar claras as ferramentas computacionais exploradas em nossa pesquisa,
a fim de que pesquisadores de diferentes reas e que estudem outras lnguas, que no o
grego, possam usufruir dos benefcios da tecnologia, uma vez que, vale ressaltar, os
procedimentos prticos de coleta, anlise, obteno de resultados, bem como as
dificuldades encontradas do momento de transferncia de informaes para o
computador, so semelhantes, independente da lngua estrangeira com que se trabalha.
Cabe lembrar que o processo de elaborao de uma edio digital passa por vrias
etapas e, por essa razo, optamos por separ-las em artigos distintos, sendo esta, a de
alinhamento, uma das quatro que compem todo o processo2.
Com efeito, neste artigo primeiro faremos uma reflexo terica, expondo um
breve percurso acerca dos trabalhos lingusticos que incluram as ferramentas digitais
em sua metodologia e desenvolveram um banco de dados digital, mencionando quais os
principais autores includos no campo das humanidades digitais. Segundo, faremos uma
breve descrio do Alpheios e um curto passo a passo instrucional sobre como usar seu
editor de alinhamento. Por fim, mostraremos algumas particularidades lingusticas do
2 As etapas so: etiquetagem; pesquisa por referncias cruzadas, alinhamento e montagem do banco de
dados digital. Por questes de recorte temtico, somente o alinhamento sera tratato neste trabalho.
grego antigo e como sua soluo na traduo pode ser resolvida por meio do
alinhamento de tradues.
1. Lingustica, Letras Clssicas e incluso digital
A incluso de ferramentas digitais nos trabalhos de pesquisa envolvendo lnguas
clssicas tem ganhado fora ao longo dos anos e hoje se consolidou indiscutivelmente
como uma rota com vrias abordagens distintas para essa rea. Linguistas que optam
por trabalhar com ferramentas digitais dispem de uma vasta gama de opes sobre
como e o que abordar numa pesquisa acadmica, deparando-se, muitas vezes, com a
difcil misso de fazer um recorte temtico, em meio grande oferta de programas
computacionais que surgem e melhoram em velocidade crescente.
Primeiramente, importante distinguirmos tecnologia/humanidades com relao
ao uso da tecnologia e seu domnio. A esse respeito, Heyer et al (2011) lembra que h
duas vertentes: a) a criao, disseminao e uso de repertrios digitais; e b) a anlise
baseada em computador de repertrios digitais, usando computao avanada e mtodos
algortmicos. Em linhas gerais, o primeiro item refere-se ao uso de tecnologia na rea de
humanas, isto , a aplicao prticas de ferramentas digitais nessa rea do
conhecimento, justamente a linha de trabalho que seguimos. J o segundo item diz
respeito cincia da computao, ou seja, o domnio de aspectos computacionais e, por
essa razo, distinguimos ambas entre Humidades Digitais e Humanidades
Computacionais.
Indubitavelmente, as Lnguas Clssicas foram muito beneficiadas pela incluso
digital, ganhando no s novas perspectivas do ponto de vista cientfico como materiais
de estudo diversos, como livros digitais para ensino-aprendizagem, e seus estudiosos
encontram, hoje, desde Bibliotecas Digitais, treebanks, etiquetagem de textos e
tradues digitais. Crane (2006) idealizador do maior Banco de Dados Digital greco-
latino, a Biblioteca Digital Perseus3, ressalta a importncia da incluso digital das
pesquisas de humanas, salientando o seu maior alcance se comparado s tinta e ao
papel. Assim afirma:
Bibliotecas digitais inteligentes podem permitir a um grande nmero
de usurios fazer um uso mais efetivo de uma maior variedade de suas
sees comparado ao que era possvel com o material impresso.
Ajudas de busca tradicionais eram muito mais limitadas com relao
3 Disponvel em: http://www.perseus.tufts.edu/hopper/
sua habilidade de aumentar o acesso intelectual; tinta no papel no
pode falar ou procurar por si s; gramaticas e lxicos impressos no
podem gerar tradues boas, ruins ou indiferente de um texto de
uma lngua para outra; gazetters no pode converter-se em bases de
dados ou mostrar seu contedo em mapas e linhas do tempo. O falante
de chins de Xangai interessado na literatura grega ou o falando de
ingls de Massachusetts interessado em chins deve ser capaz de
invocar nosso conhecimento sobre esses assuntos, convertido em sua
prpria lngua nativa e estruturado de modo a encontrar suas
necessidades particulares, quer sejam profissionais da pesquisa ou
leitores em geral, curiosos por expandir seus horizontes. (CRANE,
2006, p.3)
Historicamente, os trabalhos com textos eletrnicos comearam na Itlia ps-
guerra por meio da colaborao de Roberto Busa, um jesuta que ajudou a IBM a
digitalizar e indexar os trabalhos de So Toms de Aquino. O primeiro grande projeto
de compilao de obras com o intuito de criar uma biblioteca digital foi o Projeto
Gutemberg, fundado em 1971, que desde o incio almejou criar textos legveis sem
concentrar-se nos fatores em que estudiosos da poca focavam, voltando-se para um
acervo quantitativo, de alcance maioria dos leitores. Por essa razo, no havia notas
nos textos, como comentrios ou introdues, e muitas das edies escritas usadas no
acervo sequer eram mencionadas. Nesse mesmo contexto, pouco tempo depois surgiu o
TLG (Thesaurus Lenguae Graecae), antes mesmo que o Winchester surgisse como disco
de armazenamento, e uma dcada antes de a internet surgir como fora indiscutvel na
realidade comunicacional de nossa sociedade. Quinze anos depois o Packard
Humanities Institute (PHI)4 criou uma biblioteca digital para o latim clssico,
produzindo em CD ROM uma verso latina do TLG.
Conforme mencionamos, trabalhos envolvendo tecnologia e humanidades
possuem um leque bastante variado com relao s abordagens praticadas e aos objetos
de estudo analisados. H pesquisas, por exemplo, que visam anlise e investigao de
expresses ou ocorrncias num mesmo texto, enquanto outro focam em vrios corpora,
porm em um nico autor, como no caso do Projeto Cervantes, que compila pesquisas
em vrias edies de (edies comentadas, ilustraes, adaptaes etc) de uma mesma
obra, no caso, Dom Quixote. O que esses trabalhos tm em comum a iniciativa de usar
os recursos digitais como uma forma de ampliar seu alcance, conquistando um pblico
cada vez maior, partindo da justificativa sobre a diferena de alcance entre o acesso a
um material impresso, por exemplo, e um eletrnico. Os resultados dessas pesquisas,
4 Disponvel em: http://www.packhum.org/
em sua grande maioria, resultaram em produtos que poderiam ser usados e aprimorados
pelos seus usurios, como materiais didticos, tradues e bases de dados que
compilassem todos eles. Dentre os projetos que seguiram essa linha de trabalho,
podemos citar:
a) The Canterbury Project5;
b) Blake Archive6;
c) The Decameron Web7;
d) The Cervants Project;
e) eAQUA8.
Todo trabalho com ferramentas digitais envolve o manuseio de um ou mais
corpora, que podem ser divididos em geraes. A partir de 1980, por exemplo, surge a
terceira gerao dos corpora, dependentes da anotao manual de dados. O uso do
sistema SGML/XML para a sintaxe permitiu a incluso de informaes semnticas e foi
nesse contexto em que surgiu a Perseus Digital Library9. Esse novo procedimento nos
deu acesso, por exemplo, compilao de citaes e referncias entre todos os textos
que compunham o acervo digital disponvel. J na dcada de 90, com a diminuio do
custo de ferramentas de informtica e com a ampliao da capacidade de
armazenamento dos discos, foi possvel a incluso de pginas e pginas com imagens.
De acordo com Crane et al (2009) a gerao com que lidamos atualmente a quinta
gerao de corpora, que so descentralizados, ou seja, aceitam contribuies, maiores
ou menores, de pessoas do mundo todo e fornecem tambm mecanismos que permitem
a todos os usurios explorar, aumentar e tambm conduzir os novos objetivos da
coleo. Os corpora da quinta gerao visam a mtodos automticos para a gerao de
dados: etiquetadores de partes do discurso, anlise morfolgica e identificao de
entidades nominais so alguns desses exemplos.
Esse carter descentralizado opera de forma semelhante em vrios bancos de
dados digitais. Por exemplo, A Perseus Digital Library permite aos seus usurios
5 Disponvel em: http://anglicanhistory.org/
6 Disponvel em: http://www.blakearchive.org/blake/
7 Disponvel em: http://www.brown.edu/Departments/Italian_Studies/dweb/index.php
8 Disponvel em: http://www.eaqua.net/en/
9 Conforme ressaltamos, o maior Banco de Dados Digital grego-latino idealizado por Gregory Cane. A
descrio dessa base de dados ficar para um momento mais oportuno.
contribuir com correes nas anlises morfolgicas geradas automaticamente. A
Christian Classics Ethereal Library10
permite aos usurios corrigir os erros e marca-los
em pginas individuais. Na Text Creation Partnerships of Michigan11
, a produo
inicial era centralizada e depois de elaborada, repassada para uma comunidade de
estudiosos. Em 2006, a Perseus publicou um corpus em ingls americano de 55 milhes
de palavras que foi etiquetado automaticamente. Dentre as 12 milhes de anotaes
automticas, 1.5 milhes de nomes prprios, 1 milho de lugares, 600.000 datas e
500.000 organizaes.
Schreibman et al (2003) ocuparam-se com a Versioning Machine, um software
que atua como ferramenta para permitir aos usurios comparar diferentes verses de um
texto. H tambm um projeto chamado NINES cujo foco o estudo da literatura do
sculo dezenove em que podemos encontrar o software chamado JUXTA, que tambm
oferece ao usurio a opo de fazer uma anlise comparada de edies distintas de um
mesmo texto. Nessa mesma linha de pesquisa encontramos os trabalhos de Smith et al
(1999) que criaram uma interface para a visualizao de mltiplas edies de
documentos. O projeto Active Reading, por sua vez, trabalha na criao de edies
escolares digitais de King Lear para que seus usurios possam visualizar variantes entre
as edies e tambm criar novas.
Tambm bastante conhecido embora recente, o eAQUA um projeto de
humanas interdisciplinar estabelecido entre os Departamentos de Estudos Clssicos na
Universidade de Leipzig, Heidelberg e Hamburgo, e a Diviso para Processamento de
Lnguas Naturais no Departamento de Cincias da Computao da Universidade de
Leipzig, cujo foco minar textos em corpora digitais para estudos clssicos. Tambm
mais recentes, o projeto Million Book tem mais de 600,000 livros escaneados, enquanto
o sistema da biblioteca da Universidade de Harvard possui mais de 15.000.000 de
livros. O prprio Google criou um acervo digital extremamente amplo, disponvel aos
usurios por meio de seus mecanismos de busca. A previso do Google Print com
relao a seu acervo ter digitalizados 10.5 milhes de livros.
Hoje, os acervos digitais de textos antigos considerados de domnio pblico so
o Thesaurus Linguae Gracae (TLG), Perseus, Packard Humanities Institute (PHI) e
Bibliotheca Teubneriana Latina (BTL) e o Natural Language Processgin Department.
10
Disponvel em: http://www.ccel.org/ 11
Disponvel em: http://www.textcreationpartnership.org/
Alguns desses bancos de dados completam a simples apresentao do texto com
algumas ferramentas mais avanadas, como o Latin Treebank, ou Morpheus, o
analisador morfolgico do grego antigo e do latim, partes do projeto Perseu (Crane,
2010). Tendo em vista nosso objetivo global de elaborao de um banco de dados
digital em portugus para textos antigos, todas essas bibliotecas so de fundamental
importncia para direcionar os recursos e o contedo que disponibilizaremos na nossa e,
reunidas as principais caractersticas delas, temos:
a) um amplo dicionrio ordenado por
frequncia de formas de palavras alems
incluindo informao POS, amostra de
frases e co-ocorrncias;
b) um amplo dicionrio ordenado por
frequncia de formas de palavras alems
incluindo informao POS, amostra de
frases e co-ocorrncias;
c) corpora monolngues de tamanho
padro para vrias lnguas;
d) uma ferramenta para detectar limites entre
as frases;
e) estatsticas de co-ocorrncias;
sinnimos e palavras similares
computadas nos perfis de co-ocorrncia
de palavras;
f) extrao automtica de terminologias.
Um outro campo explorado foi o de alinhamento de textos, por exemplo, o
alinhamento de vrias edies de um mesmo texto ou suas mltiplas tradues, como o
trabalho de Owen et al (1992) que consistiu em alinhar vrias tradues de Homero em
ingls. J Ghorbel et al (2001) exploraram uma ampla variedade de heursticos,
incluindo as similaridades lexicais, morfolgicas, sintticas e semnticas para alinhar
verses em prosa e em verso de textos medievais. Moerth (2006) se ateve na
importncia da criao de corpora que incluam tanto trabalhos literrios quanto suas
tradues, enquanto Zafrin (2013) explorou a importncia da criao de edies digitais
mais sofisticadas, com as quais fosse possvel representar textos e trabalhos variveis
de um autor. Finalmente, inegvel o avano do uso de tecnologias no processamento
de dados nas anlises lingusticas. Heyer et al (2011) comentam sobre os novos mtodos
desenvolvidos por essa nova rea de pesquisas como a melhoria qualitativa de fontes
digitais (padronizao da grafia, correo da grafia, identificao no ambgua de
autores e fontes, marcao de referncias, classificao temporal de textos etc); a
quantidade e estrutura de fontes que podem ser processadas (processamento de grandes
quantidades de texto, estruturao por tempo, lugar, autor, contedo e tpicos,
comentrios de colegas de outras edies); e o tipo e a qualidade da anlise (amplos
estudos data-driven, usando ferramentas para minar textos, integrao da rede de
pesquisas da comunidade).
Feito esse breve percurso sobre o uso de tecnologias para estudos lingusticos,
mostrando a forma de apropriao de alguns corpora, projetos acadmicos sobre
lnguas e incluso digital, alm de banco de dados digitais, passaremos, a seguir, a trata
do Alpheios e seu editor de alinhamento, descrevendo seu uso, para ento chegarmos
etapa do alinhamento de tradues.
2. Sobre o Alpheios e o editor de alinhamento
O Alpehios12
um freeware, ou seja, uma ferramenta digital gratuita criada com
o intuito de ampliar e facilitar o acesso leitura de textos de cultura clssica.
Atualmente, seu banco de dados contempla textos em latim, grego antigo e rabe antigo,
mas tem em vista a ampliao do acervo para chins clssico, persa, hebraico e snscrito
tambm. A ideia para a criao dessa plataforma surgiu com base na Biblioteca Digital
Perseus (Perseus Digital Library) projeto idealizado na Tufts University, nos Estados
Unidos, sob os cuidados do professor Gregory Cane. O foco no ensino-aprendizagem de
lnguas, bem como na difuso de textos de culturas clssicas ocidentais e orientais, fez
com que os recursos do Alpheios fossem criados para que pudessem auxiliar os usurios
que buscassem o acesso a esse tipo de informao. Dessa forma, dentre o que temos
disponvel, hoje, nessa plataforma, destacamos as seguintes ferramentas:
a) Editor de alinhamento de tradues;
b) Editor de rvore sinttica (Treebank);
c) Anlise morfolgica, lematizao e consulta a dicionrio.
12
Disponvel em http://www.alpheios.net
Com relao ao primeiro item, foco deste artigo, o Alpheios permite ao usurio
fazer um alinhamento de tradues, isto , dispor o mesmo texto em duas lnguas
diferentes, apresentando todo o processo de escolha de equivalncias morfolgicas e
sintticas ao longo do processo tradutrio. O acesso ao editor de alinhamentos fica logo
direita na pgina inicial, na opo Alpheios Translation Alignment Editor, conforme
mostramos na figura 1.
Figura 1 Pgina inicial do Alpheios
Acessado o editor de alinhamento, o usurio se deparar com um nova tela, em
que h duas caixas em branco nas quais os textos das respectivas lnguas, de origem e
alvo, devero ser colocados. Alm delas, h duas faixas ao lado de cada uma dessas
caixas onde dever ser selecionado o idioma das lnguas com que estamos trabalhos. A
lista de opes bem grande, porm, caso o usurio no encontre o que procura, poder
manualmente escrever o idioma desejado na caixa em branco disponvel para isso ao
lado da opo or other language. Essas informaes esto resumidas na figura 2.
Figura 2 A interface do editor de alinhamento de traduo
Inseridos os textos nas caixas de mensagem e selecionados os idiomas de cada
um desses textos, o usurio dever clicar na opo Align no canto inferior direito do
editor e uma nova tela se abrir em que os dois textos estaro parelhos, prontos para
serem alinhados. Vejamos a Figura 3.
Figura 3 Alinhando as tradues
Note que no canto esquerdo superior h uma tabela com informaes sobre a
equivalncia de caracteres entre as duas lnguas. No nosso caso, escolhemos grego
antigo e portugus como os idiomas dos textos fonte e alvo, respectivamente e medida
que feito o alinhamento, os nmeros dessa contagem se alteram, mostrando
estatisticamente a equivalncia das palavras entre as duas lnguas. interessante notar
como h casos em que o grego precisa de menos palavras que o portugus para
expressar um determinado conceito ou justamente o contrrio. Em lnguas orientais,
como o mandarim, essa diferena parece mais marcante, porm essa discusso no ser
desenvolvida neste artigo. O prximo passo, portanto, realizar o alinhamento da
traduo e isso consiste, basicamente, em selecionar nos textos alvo e fonte as palavras
equivalentes entre eles, ficando ambos assinalados no texto, como tambm pode ser
visto ainda na Figura 3 com a palavra Argonautas. A verso final alinhada pode ser
gravada em dois formatos, XML e HTML. O primeiro aquele utilizado para exportar
para um domnio da web, o que comentaremos ainda neste artigo (4.6) enquanto que o
segundo, em HTML, exporta a interface usada pelo prprio Alpheios, ou seja, o usurio
poder ver esse alinhamento no prprio navegador.
Feito alinhamento, no caso da edio digital que elaboramos de Apolodoro, o
usurio contra com uma etiquetagem do texto, todas as palavras em grego esto
analisadas morfologicamente, a fim de auxiliar na compreenso da traduo. Sobre essa
etiquetagem falaremos em outro momento. Finalmente, cabe ressaltar que a verso final
do alinhamento demanda certo tempo principalmente porque o Alheios no permite que
mudanas sejam feitas no momento de alinhar o texto, ou seja, qualquer erro, seja ele de
traduo ou mesmo ortogrfico no pode ser corrigido nessa etapa e, portanto,
necessrio arrumar o texto ainda nas caixas de mensagem para ento alinh-lo desde o
comeo, novamente. Feita essa apresentao sobre como usar o editor de alinhamento
de tradues, na prxima seo dedicaremos alguns comentrios sobre lidamos com
algumas particularidades do grego antigo ao buscar sua equivalncia com portugus no
momento de alinh-las.
3. Alinhando a obra Biblioteca
Biblioteca uma obra cuja autoria atribuda a Apolodoro, autor grego do
sculo II d.C13
e organizada da seguinte forma: 3 livros divididos em captulos, por sua
vez, divididos em sees. Por exemplo, 2.7.3 significa, respectivamente, Livro 2,
Captulo 7, Seo 3. Os 3 livros tm basicamente a mesma extenso, apenas o terceiro
ligeiramente maior que os dois anteriores praticamente de mesmo tamanho, e so
divididos por genealogias, isto , pela origem de deuses e heris do mundo grego
13
No cabe neste artigo tratarmos sobre a polemica origem da autoria do livro, o que leva muitos a chamarem o autor de Pseudo-Apolodoro. Essa discusso ficar para um momento mais oportuno.
antigo. Nossa escolha por trabalhar com Apolodoro sustentada por trs razes.
Primeiro, Biblioteca a maior compilao de mitos gregos que chegou at ns e essa
temtica de interesse e abordada por vrias reas do conhecimento, como a histria, a
filosofia, a psicologia e a pedagogia. Segundo, essa narrativa escrita no dialeto padro
ateniense e para finalidades de ensino/aprendizagem do grego antigo um dialeto
bastante adequado para se trabalhar em sala, principalmente em nveis iniciantes.
Terceiro, no h uma edio digital em portugus dessa obra e, por essa razo,
considerando o contexto de incluso digital da atual realidade acadmica, uma traduo
digital alinhada e etiquetada tem um amplo alcance ao pblico e garante o acesso ao
texto em nossa lngua nativa, evitando as dificuldades de ler-se e lidar com um texto em
uma lngua estrangeira.
Do ponto de vista estilstico, Apolodoro no um autor rebuscado e ao longo de
sua narrativa vemos os pontos a que ele dedica mais ou menos detalhes e tambm sua
esttica narrativa, cujo estilo facilmente demarcado pelo uso de mesmas expresses ou
pela organizao sinttica das frases e at mesmo pelas escolhas lexicais recorrentes.
Dessa forma, cabe ressaltarmos alguns pontos que devem ser verificados no momento
do alinhamento das tradues, a fim de que um leitor entenda nossas escolhas durante o
processo tradutrio. Ademais, esses pequenos obstculos no so restritos ao par grego
antigo/portugus e podem ser de paradigma para tradutores de outros idiomas que
estejam sujeitos a encontrar questes semelhantes.
3.1 Colocao pronominal
Os pronomes do grego antigo declinam de acordo com qual termo concordaro
numa frase, porm esto sempre separados dos verbos, diferente do portugus, por
exemplo, quando h a possibilidade de construo de uma mesclise ou de uma nclise.
.
(Apol. Biblio. 2.5.1) Primeiro ordenou-lhe trazer a pele do leo de Nemia.
No caso de uma nclise em portugus, o alinhamento feito pela unio do verbo
e do pronome com um nico equivalente em portugus, apresentado na Figura 5.
Figura 4 Alinhamento pronominal
Restaria a questo se o usurio poderia ficar em dvida sobre qual palavra do
grego o verbo e qual delas o pronome. No caso de um estudante, o domnio da
lngua mesmo em nveis elementares permite essa fcil distino, porm, mesmo que
no seja possvel, ou que o usurio seja um leigo no grego antigo, o analisador
morfolgico (resultado da etiquetagem que fizemos) esclarecer essa dvida, mostrando
qual palavra se trata de um verbo e qual delas o pronome.
3.2 Expresses
Uma vantagem do editor de alinhamento a possibilidade de deixar claro ao
usurio quando lidamos com expresses idiomticas. Como temos um texto etiquetado,
isto , analisado morfologicamente, o analisador classificar as palavras isoladamente,
no num agrupamento. Em Apolodoro, por exemplo, muito comum encontramos a
expresso que significa em pouco tempo ou pouco depois. Se
traduzirmos palavra por palavra, no alcanaremos esse sentido e, portanto, a traduo
ser falha. Com o alinhamento, podemos marcar essa expresso e seu equivalente em
conjunto, ficando da seguinte forma:
Figura 5 Alinhamento de expresses
Assim, caso um usurio no tenha conhecimento da expresso e v em busca da
anlise morfolgica, que pode conduzi-lo a um equvoco na traduo, quando o cursor
estiver sobre qualquer uma das trs palavras que compem essa expresso,
automaticamente o editor assinalar as outras duas e seu significado na lngua alvo e,
dessa forma, ser possvel reconhec-la. Esse mesmo recurso de agrupamento do editor
ser a soluo para a questo da regncia, sobre a qual falaremos a seguir.
3.3 Regncia
A questo da regncia tambm exige algumas escolhas por parte do tradutor,
pincipalmente se considerarmos qual o objetivo do alinhamento, se tem carter didtico,
por exemplo, ou literrio. Ocorre que o grego uma lngua de casos, ou seja, a funo
sinttica de uma palavra determinada pela sua morfologia e no pela posio que
ocupa na frase. Casos como dativo, indicando o objeto indireto, ou o genitivo, indicando
complemento nominal, em portugus so construdos com a preposio, o que nem
sempre ocorre no grego, e nesses casos o tradutor dever escolher se a preposio em
portugus ser agrupada ao verbo ou ao substantivo. Vejamos o exemplo:
Ex.1) ,
. (Apol. Biblio. 2.7.4) - Ele a entregou a Teutrante, prncipe da Teutrnia, que fez dela sua esposa.
Nessa frase o verbo entregar () transitivo direto e indireto e esta ltima
funo exercida pelo nome prprio Teutrante (), construdo no dativo.
Dessa forma, no portugus temos o equivalente na traduo a Teutrante e cabe ao
tradutor escolher se o a ser alinhado com o verbo ou com o nome no dativo. Em
nosso alinhamento, padronizamos alinhar sempre com o verbo, seguindo os moldes de
um dicionrio, indicando, em portugus, que a preposio faz parte de sua regncia e,
no caso do grego, o usurio poder identificar que esse equivalente foi construdo no
dativo.
3.4 Mudana no sujeito oracional
Houve casos em que a construo no grego antigo se traduzida literalmente,
acarretaria num equivalente pouco usual no portugus e, por essa razo, por vezes foi
necessrio modificarmos o sujeito oracional de algumas passagens.
,
(Apol. Biblio. 1.9.4 ) - Dion, que governava a Fcida,
casou-se com Diomede, filha de Xuto, e deu a luz a sua filha Asterdia [...]
Literalmente, nessa frase a construo seria [...] a ele nasceu sua filha Asterdia
[...] por conta do emprego do dativo em (a ele) + o sujeito no nominativo
(filha), conhecido como dativo de posse no grego. Como a construo
literal se distancia do registro tanto escrito como falado do portugus, a soluo alterar
a funo sinttica das palavras da seguinte maneira: o sujeito filha passa a ser o objeto
direito e o objeto indireto a ele passa a ser o sujeito. Sendo assim, temos ele
teve/gerou sua filha Asterdia. Essa soluo padroniza todas as tradues do dativo de
posse do grego, mantendo no s aquilo que foi expressado na lngua clssica como
tambm a sintaxe corrente do portugus.
3.5 Unio de sentidos
Resta ainda destacarmos um ltimo item pertinente ao processo tradutrio
grego-antigo portugus que tem a ver com o emprego de alguns verbos.
. (Apol. Biblio. 2.5.9) - Armadas, as amazonas cavalgaram em direo ao barco.
Nesse exemplo, o verbo significa investir contra e vem
acompanhado da preposio (com) + (cavalos), portanto, literalmente,
investir contra com cavalos. Na traduo, optamos pelo verbo cavalgar, compilando
esses trs termos num nico equivalente no portugus. De modo semelhante ao caso das
expresses, o verbo e seu complemento devem ser alinhados como um nico item
lexical e, em seguida, o assinalado seu equivalente na outra lngua.
Por questes de recorte temtico deste artigo, no poderemos explorar mais
exemplos em cada uma dessas sees. Uma vez feitos esses comentrios, a ltima etapa,
por conseguinte consiste, justamente, em exportar os arquivos de alinhamento, salvos
em formato XML, a um servidor, a fim de disponibiliz-los na rede para que usurios o
acessem. Lanados no servidor, ele estaro disponveis separados por livro, captulo e
seo, conforme o texto grego, alm de estarem alinhados aos termos equivalentes em
portugus e com uma anlise morfolgica disponvel.
Consideraes finais
Conforme ressaltamos, este trabalho apresenta uma das etapas em que consiste a
elaborao de uma verso digital de um texto, no caso, da obra Biblioteca, de
Apolodoro, autor grego do sculo II d.C. Neste artigo, buscamos mostrar como a
Lingustica Computacional oferece novas perspectivas para as abordagens das pesquisas
lingusticas, por meio de ferramentas que disponibilizam diversas alternativas para
anlises e produo de material para uso pblico. Embora usemos o grego antigo como
objeto de estudo, nosso trabalho serve como paradigma para todos que trabalhem com
uma lngua estrangeira, de modo que a ferramenta digital aqui apresentada, o editor de
alinhamento Alpheios, est disponvel e apto a operar com quaisquer idiomas.
O alinhamento de traduo uma ferramenta bastante til tanto para o tradutor,
que ganha um recurso para auxili-lo na justificativa de suas escolhas durante o
processo tradutrio, alm de funcionar como um excelente suporte para o ensino-
aprendizagem do grego antigo, permitindo ao usurio reconhecer como uma lngua
encontra seus equivalentes sintticos e semnticos em outra. Ademais, tratamos de
algumas particularidades lingusticas do grego antigo (uso de pronomes, expresses,
alternncia de sujeito e diferenas semnticas), como elas surgem como obstculos
durante o processo de traduo e como lidamos com elas durante o processo de
alinhamento, servindo como paradigma para as dificuldades oferecidas ao traduzir
textos de outras lnguas. Dessa forma, com este artigo temos em mente ampliar os
horizontes dos trabalhos lingusticos por meio da apresentao de recursos tecnolgicos
capazes de propiciar novas perspectivas de abordagens e resultados a pesquisadores
diversos que se dedicam a ferramentas digitais para ensino e traduo de lnguas
estrangeiras.
Agradecimentos
O autor gostaria de agradecer ao Prof. Dr. John S. Y. Lee, pela enorme
contribuio como co-orientador durante minha estadia como pesquisador convidado na
City University of Hong Kong, em Hong Kong, e a Jacky Yinguchi, cientista da
computao do Departamento de Traduo, Chins e Lingustica da referida
universidade, cuja parceria foi sine qua non para o desenvolvimento deste trabalho.
Referncias bibliogrficas
CRANE, G. What do you do with a million books? D-Lib Magazine. 12. Disponvel
em: http://www.dlib.org/dlib/march06/cra/03crane.html. ltimo acesso em 15/07/2013.
GHORBEL, H., BALLIM, A. CORAY, G. (2001) ROSETTA: Rhetorical and Semantic
Environment for Text Alignment, in P. Rayson, A. Wilson, A. M. McEnery, A. Hardie
and S. Khoja (eds) Proceedings of Corpus Linguistics 2001, pp. 22433, Lancaster, UK.
HEYER, G; SCHUBERT, C.: eAQUA Extraktion von strukturiertem Wissen aus
Antiken Quellen fr die Altertumswissenschaft, Proceedings des Statusseminars
BMBF-Frderscwerpunkt: Wechselwirkungen qwischen Natur und
Geisteswissenschaften, BMBF: Bonn 2010.
KINABLE, G. Computerized restoration of historical documentos: uniformization and
date-assigning in dictionary quuotations of the Woordenbock der Nederlandsche Taal.
Literary & Linguistic Computing, 21, 295-310 (2006).
LEE, J. A computational model of text reuse in ancient literary texts. In: 45th Annual
Meeting of the Association of Computational Linguistics, p. 517-524. ACM Press,
Nova Iorque, 2005.
MOERTH, K. Keeping the threads together: synchronising standoff data in heavily
annotated text documents. In Proceedings of the DRHA, 2006, 2006.
OWEN, C. (1992) Corpus-based grammar and the Heineken effect: Lexico-grammatical
description for language learners. Applied Linguistics, 14: 167-187.
POULIQUEN, B., STEINBERGER, R., BEST, C. Automatic detection of quotations in
multilingual news. In: Proceedins of the International Conference Recent Advances
in Natural Language Processing. (RANLP), 2007.
SCHMIDT, A., AIDOO, K. A., TAKALUOMA, A., TUOMELA, U.,
VAN LAERHOVEN, K., VAN DE VELDE, W. Advanced interaction in context. In
Proceedings of the First International Symposium on Handheld and Ubiquitous
Computing, HUC99, p. 89101, Karlsruhe, Alemanha, 1999.
SCREIBMAN, S. KUMAR, A. MCDONALD, J. The versioning machine. Literary
and linguistics computing, 2003.
STEIN, B. MEYER zu EISSEN, S. Near Similarity Search and Plagiarism Analysis. In:
Spiliopoulos, M., Kruse., R. Borgelt, C. Nrnberger, A., Gaul, W (eds): From Data
and Information Analysis to Knowledge Engineering, p.430-437. Springer (Berlim-
Heidelberg), 2005.
STEWART, G., CRANE, G., BABEU, A.: A new generation of textual corpora: mining
corpora from very large collections. In: JCDL 2007: Proceedings of the 7th
http://www.dlib.org/dlib/march06/cra/03crane.html
ACM/IEEE-CS Joint Conference on Digital Libraries, p. 356-365. ACM Press, Nova
Iorque, 2007.
ZAFRIN, V. Two perspectives on collaboration in the Humanities. Disponvel e:
http://dspace.hil.unb.ca:8080/bitstream/handle/1882/983/zafrin.pdf?sequence=3. ltimo
acesso em 15/09/2013.
http://dspace.hil.unb.ca:8080/bitstream/handle/1882/983/zafrin.pdf?sequence=3