18
Elaborando uma edição digital de um texto: a Linguística Computacional e a etapa do processo de alinhamento da tradução grego antigo português Caio Vieira Reis de CAMARGO 1 Resumo A partir de uma reflexão acerca dos novos horizontes criados pelas pesquisas em Linguística Computacional e os recentes trabalhos desenvolvidos nessa área do conhecimento, como o manuseio de corpus digital e a criação de base de dados digitais, nosso objetivo é mostrar o desenvolvimento do alinhamento da tradução grego antigo português da obra Biblioteca, de Apolodoro (séc. II d.C) por meio da ferramenta Alpheios, elencando alguns tópicos pertinentes ao uso do editor de alinhamentos, bem como a forma de manuseá-lo. O conteúdo deste artigo é parte de um trabalho mais amplo envolvendo tecnologias e grego antigo e contempla uma das fases de desenvolvimento de uma pesquisa que visa à construção de um banco de dados digital em português do grego antigo. Palavras-chave: Linguística Computacional; alinhamento de tradução; Apolodoro; grego antigo - português Abstract From a theoretical reflection over the new horizons created by the researches within The Computer Linguistics and the recent works developed in such area, like using a digital corpus and building up a digital database, our goal in this paper is to show how we developed the Ancient Greek Portuguese translation alignment throughout the web tool Alpheios, presenting all the steps the come before the use of the alignment editor, as well as how to handle it. The content of this paper is part of a deeper research involving digital techniques and Ancient Greek and has one of the phases of the development of a research that aims to create a Ancient Greek Digital Database in Portuguese. Keywords: Computer Linguistics; translation alignment; Apollodorus; Ancient Greek - Portuguese 1 Doutorando em Linguística e Língua Portuguesa na Universidade Estadual Paulista UNESP Araraquara Faculdade de Ciências e Letras Rodovia Araraquara-Jaú km 1 14800-901 Araraquara SP; e pesquisador convidado na City University of Hong Kong, Hong Kong, junto ao Departamento de Chinês, Tradução e Linguística. [email protected]

Elaborando uma edição digital de um texto: a Linguística ... · grego, possam usufruir dos benefícios da tecnologia, uma vez que, vale ressaltar, os procedimentos práticos de

Embed Size (px)

Citation preview

  • Elaborando uma edio digital de um texto: a Lingustica Computacional e a etapa

    do processo de alinhamento da traduo grego antigo portugus

    Caio Vieira Reis de CAMARGO1

    Resumo

    A partir de uma reflexo acerca dos novos horizontes criados pelas pesquisas em

    Lingustica Computacional e os recentes trabalhos desenvolvidos nessa rea do

    conhecimento, como o manuseio de corpus digital e a criao de base de dados digitais,

    nosso objetivo mostrar o desenvolvimento do alinhamento da traduo grego antigo

    portugus da obra Biblioteca, de Apolodoro (sc. II d.C) por meio da ferramenta

    Alpheios, elencando alguns tpicos pertinentes ao uso do editor de alinhamentos, bem

    como a forma de manuse-lo. O contedo deste artigo parte de um trabalho mais

    amplo envolvendo tecnologias e grego antigo e contempla uma das fases de

    desenvolvimento de uma pesquisa que visa construo de um banco de dados digital

    em portugus do grego antigo.

    Palavras-chave: Lingustica Computacional; alinhamento de traduo; Apolodoro;

    grego antigo - portugus

    Abstract

    From a theoretical reflection over the new horizons created by the researches within

    The Computer Linguistics and the recent works developed in such area, like using a

    digital corpus and building up a digital database, our goal in this paper is to show how

    we developed the Ancient Greek Portuguese translation alignment throughout the web

    tool Alpheios, presenting all the steps the come before the use of the alignment editor,

    as well as how to handle it. The content of this paper is part of a deeper research

    involving digital techniques and Ancient Greek and has one of the phases of the

    development of a research that aims to create a Ancient Greek Digital Database in

    Portuguese.

    Keywords: Computer Linguistics; translation alignment; Apollodorus; Ancient Greek -

    Portuguese

    1Doutorando em Lingustica e Lngua Portuguesa na Universidade Estadual Paulista UNESP

    Araraquara Faculdade de Cincias e Letras Rodovia Araraquara-Ja km 1 14800-901 Araraquara SP;

    e pesquisador convidado na City University of Hong Kong, Hong Kong, junto ao Departamento de

    Chins, Traduo e Lingustica. [email protected]

    mailto:[email protected]

  • Introduo

    As evolues tecnolgicas surgem diante de ns numa velocidade cada vez mais

    elevada e acompanh-las passa a ser no s uma exigncia muitas vezes mercadolgica

    como tambm um importante baluarte para o aprofundamento e obteno de novos

    resultados para o pensamento cientfico. Em pleno sculo XXI, embora seja considerada

    uma cincia recente, quando comparada a outras cincias, a Lingustica consolidou-se

    como importante campo cientfico graas contundncia dos trabalhos de pesquisa

    desenvolvidos at hoje que lhe proporcionaram diversas vertentes como reas de seu

    conhecimento. Acompanhar esse contexto da modernidade e adequar os trabalhos

    acadmicos constante exigncia do novo uma realidade presente na rotina dos

    pesquisadores atuais. Nesse sentido, aliar o uso de ferramentas tecnolgicas para o

    estudo lingustico que tenha uma Lngua Clssica como objeto de estudo mostra-se no

    s necessria, mas uma produtiva e inovadora linha de pesquisa, capaz de fomentar

    diversas lacunas at ento no preenchidas pelos trabalhos cientficos prvios.

    Embora a lngua utilizada como nosso objeto de anlise seja o grego antigo,

    nosso foco deixar claras as ferramentas computacionais exploradas em nossa pesquisa,

    a fim de que pesquisadores de diferentes reas e que estudem outras lnguas, que no o

    grego, possam usufruir dos benefcios da tecnologia, uma vez que, vale ressaltar, os

    procedimentos prticos de coleta, anlise, obteno de resultados, bem como as

    dificuldades encontradas do momento de transferncia de informaes para o

    computador, so semelhantes, independente da lngua estrangeira com que se trabalha.

    Cabe lembrar que o processo de elaborao de uma edio digital passa por vrias

    etapas e, por essa razo, optamos por separ-las em artigos distintos, sendo esta, a de

    alinhamento, uma das quatro que compem todo o processo2.

    Com efeito, neste artigo primeiro faremos uma reflexo terica, expondo um

    breve percurso acerca dos trabalhos lingusticos que incluram as ferramentas digitais

    em sua metodologia e desenvolveram um banco de dados digital, mencionando quais os

    principais autores includos no campo das humanidades digitais. Segundo, faremos uma

    breve descrio do Alpheios e um curto passo a passo instrucional sobre como usar seu

    editor de alinhamento. Por fim, mostraremos algumas particularidades lingusticas do

    2 As etapas so: etiquetagem; pesquisa por referncias cruzadas, alinhamento e montagem do banco de

    dados digital. Por questes de recorte temtico, somente o alinhamento sera tratato neste trabalho.

  • grego antigo e como sua soluo na traduo pode ser resolvida por meio do

    alinhamento de tradues.

    1. Lingustica, Letras Clssicas e incluso digital

    A incluso de ferramentas digitais nos trabalhos de pesquisa envolvendo lnguas

    clssicas tem ganhado fora ao longo dos anos e hoje se consolidou indiscutivelmente

    como uma rota com vrias abordagens distintas para essa rea. Linguistas que optam

    por trabalhar com ferramentas digitais dispem de uma vasta gama de opes sobre

    como e o que abordar numa pesquisa acadmica, deparando-se, muitas vezes, com a

    difcil misso de fazer um recorte temtico, em meio grande oferta de programas

    computacionais que surgem e melhoram em velocidade crescente.

    Primeiramente, importante distinguirmos tecnologia/humanidades com relao

    ao uso da tecnologia e seu domnio. A esse respeito, Heyer et al (2011) lembra que h

    duas vertentes: a) a criao, disseminao e uso de repertrios digitais; e b) a anlise

    baseada em computador de repertrios digitais, usando computao avanada e mtodos

    algortmicos. Em linhas gerais, o primeiro item refere-se ao uso de tecnologia na rea de

    humanas, isto , a aplicao prticas de ferramentas digitais nessa rea do

    conhecimento, justamente a linha de trabalho que seguimos. J o segundo item diz

    respeito cincia da computao, ou seja, o domnio de aspectos computacionais e, por

    essa razo, distinguimos ambas entre Humidades Digitais e Humanidades

    Computacionais.

    Indubitavelmente, as Lnguas Clssicas foram muito beneficiadas pela incluso

    digital, ganhando no s novas perspectivas do ponto de vista cientfico como materiais

    de estudo diversos, como livros digitais para ensino-aprendizagem, e seus estudiosos

    encontram, hoje, desde Bibliotecas Digitais, treebanks, etiquetagem de textos e

    tradues digitais. Crane (2006) idealizador do maior Banco de Dados Digital greco-

    latino, a Biblioteca Digital Perseus3, ressalta a importncia da incluso digital das

    pesquisas de humanas, salientando o seu maior alcance se comparado s tinta e ao

    papel. Assim afirma:

    Bibliotecas digitais inteligentes podem permitir a um grande nmero

    de usurios fazer um uso mais efetivo de uma maior variedade de suas

    sees comparado ao que era possvel com o material impresso.

    Ajudas de busca tradicionais eram muito mais limitadas com relao

    3 Disponvel em: http://www.perseus.tufts.edu/hopper/

  • sua habilidade de aumentar o acesso intelectual; tinta no papel no

    pode falar ou procurar por si s; gramaticas e lxicos impressos no

    podem gerar tradues boas, ruins ou indiferente de um texto de

    uma lngua para outra; gazetters no pode converter-se em bases de

    dados ou mostrar seu contedo em mapas e linhas do tempo. O falante

    de chins de Xangai interessado na literatura grega ou o falando de

    ingls de Massachusetts interessado em chins deve ser capaz de

    invocar nosso conhecimento sobre esses assuntos, convertido em sua

    prpria lngua nativa e estruturado de modo a encontrar suas

    necessidades particulares, quer sejam profissionais da pesquisa ou

    leitores em geral, curiosos por expandir seus horizontes. (CRANE,

    2006, p.3)

    Historicamente, os trabalhos com textos eletrnicos comearam na Itlia ps-

    guerra por meio da colaborao de Roberto Busa, um jesuta que ajudou a IBM a

    digitalizar e indexar os trabalhos de So Toms de Aquino. O primeiro grande projeto

    de compilao de obras com o intuito de criar uma biblioteca digital foi o Projeto

    Gutemberg, fundado em 1971, que desde o incio almejou criar textos legveis sem

    concentrar-se nos fatores em que estudiosos da poca focavam, voltando-se para um

    acervo quantitativo, de alcance maioria dos leitores. Por essa razo, no havia notas

    nos textos, como comentrios ou introdues, e muitas das edies escritas usadas no

    acervo sequer eram mencionadas. Nesse mesmo contexto, pouco tempo depois surgiu o

    TLG (Thesaurus Lenguae Graecae), antes mesmo que o Winchester surgisse como disco

    de armazenamento, e uma dcada antes de a internet surgir como fora indiscutvel na

    realidade comunicacional de nossa sociedade. Quinze anos depois o Packard

    Humanities Institute (PHI)4 criou uma biblioteca digital para o latim clssico,

    produzindo em CD ROM uma verso latina do TLG.

    Conforme mencionamos, trabalhos envolvendo tecnologia e humanidades

    possuem um leque bastante variado com relao s abordagens praticadas e aos objetos

    de estudo analisados. H pesquisas, por exemplo, que visam anlise e investigao de

    expresses ou ocorrncias num mesmo texto, enquanto outro focam em vrios corpora,

    porm em um nico autor, como no caso do Projeto Cervantes, que compila pesquisas

    em vrias edies de (edies comentadas, ilustraes, adaptaes etc) de uma mesma

    obra, no caso, Dom Quixote. O que esses trabalhos tm em comum a iniciativa de usar

    os recursos digitais como uma forma de ampliar seu alcance, conquistando um pblico

    cada vez maior, partindo da justificativa sobre a diferena de alcance entre o acesso a

    um material impresso, por exemplo, e um eletrnico. Os resultados dessas pesquisas,

    4 Disponvel em: http://www.packhum.org/

  • em sua grande maioria, resultaram em produtos que poderiam ser usados e aprimorados

    pelos seus usurios, como materiais didticos, tradues e bases de dados que

    compilassem todos eles. Dentre os projetos que seguiram essa linha de trabalho,

    podemos citar:

    a) The Canterbury Project5;

    b) Blake Archive6;

    c) The Decameron Web7;

    d) The Cervants Project;

    e) eAQUA8.

    Todo trabalho com ferramentas digitais envolve o manuseio de um ou mais

    corpora, que podem ser divididos em geraes. A partir de 1980, por exemplo, surge a

    terceira gerao dos corpora, dependentes da anotao manual de dados. O uso do

    sistema SGML/XML para a sintaxe permitiu a incluso de informaes semnticas e foi

    nesse contexto em que surgiu a Perseus Digital Library9. Esse novo procedimento nos

    deu acesso, por exemplo, compilao de citaes e referncias entre todos os textos

    que compunham o acervo digital disponvel. J na dcada de 90, com a diminuio do

    custo de ferramentas de informtica e com a ampliao da capacidade de

    armazenamento dos discos, foi possvel a incluso de pginas e pginas com imagens.

    De acordo com Crane et al (2009) a gerao com que lidamos atualmente a quinta

    gerao de corpora, que so descentralizados, ou seja, aceitam contribuies, maiores

    ou menores, de pessoas do mundo todo e fornecem tambm mecanismos que permitem

    a todos os usurios explorar, aumentar e tambm conduzir os novos objetivos da

    coleo. Os corpora da quinta gerao visam a mtodos automticos para a gerao de

    dados: etiquetadores de partes do discurso, anlise morfolgica e identificao de

    entidades nominais so alguns desses exemplos.

    Esse carter descentralizado opera de forma semelhante em vrios bancos de

    dados digitais. Por exemplo, A Perseus Digital Library permite aos seus usurios

    5 Disponvel em: http://anglicanhistory.org/

    6 Disponvel em: http://www.blakearchive.org/blake/

    7 Disponvel em: http://www.brown.edu/Departments/Italian_Studies/dweb/index.php

    8 Disponvel em: http://www.eaqua.net/en/

    9 Conforme ressaltamos, o maior Banco de Dados Digital grego-latino idealizado por Gregory Cane. A

    descrio dessa base de dados ficar para um momento mais oportuno.

  • contribuir com correes nas anlises morfolgicas geradas automaticamente. A

    Christian Classics Ethereal Library10

    permite aos usurios corrigir os erros e marca-los

    em pginas individuais. Na Text Creation Partnerships of Michigan11

    , a produo

    inicial era centralizada e depois de elaborada, repassada para uma comunidade de

    estudiosos. Em 2006, a Perseus publicou um corpus em ingls americano de 55 milhes

    de palavras que foi etiquetado automaticamente. Dentre as 12 milhes de anotaes

    automticas, 1.5 milhes de nomes prprios, 1 milho de lugares, 600.000 datas e

    500.000 organizaes.

    Schreibman et al (2003) ocuparam-se com a Versioning Machine, um software

    que atua como ferramenta para permitir aos usurios comparar diferentes verses de um

    texto. H tambm um projeto chamado NINES cujo foco o estudo da literatura do

    sculo dezenove em que podemos encontrar o software chamado JUXTA, que tambm

    oferece ao usurio a opo de fazer uma anlise comparada de edies distintas de um

    mesmo texto. Nessa mesma linha de pesquisa encontramos os trabalhos de Smith et al

    (1999) que criaram uma interface para a visualizao de mltiplas edies de

    documentos. O projeto Active Reading, por sua vez, trabalha na criao de edies

    escolares digitais de King Lear para que seus usurios possam visualizar variantes entre

    as edies e tambm criar novas.

    Tambm bastante conhecido embora recente, o eAQUA um projeto de

    humanas interdisciplinar estabelecido entre os Departamentos de Estudos Clssicos na

    Universidade de Leipzig, Heidelberg e Hamburgo, e a Diviso para Processamento de

    Lnguas Naturais no Departamento de Cincias da Computao da Universidade de

    Leipzig, cujo foco minar textos em corpora digitais para estudos clssicos. Tambm

    mais recentes, o projeto Million Book tem mais de 600,000 livros escaneados, enquanto

    o sistema da biblioteca da Universidade de Harvard possui mais de 15.000.000 de

    livros. O prprio Google criou um acervo digital extremamente amplo, disponvel aos

    usurios por meio de seus mecanismos de busca. A previso do Google Print com

    relao a seu acervo ter digitalizados 10.5 milhes de livros.

    Hoje, os acervos digitais de textos antigos considerados de domnio pblico so

    o Thesaurus Linguae Gracae (TLG), Perseus, Packard Humanities Institute (PHI) e

    Bibliotheca Teubneriana Latina (BTL) e o Natural Language Processgin Department.

    10

    Disponvel em: http://www.ccel.org/ 11

    Disponvel em: http://www.textcreationpartnership.org/

  • Alguns desses bancos de dados completam a simples apresentao do texto com

    algumas ferramentas mais avanadas, como o Latin Treebank, ou Morpheus, o

    analisador morfolgico do grego antigo e do latim, partes do projeto Perseu (Crane,

    2010). Tendo em vista nosso objetivo global de elaborao de um banco de dados

    digital em portugus para textos antigos, todas essas bibliotecas so de fundamental

    importncia para direcionar os recursos e o contedo que disponibilizaremos na nossa e,

    reunidas as principais caractersticas delas, temos:

    a) um amplo dicionrio ordenado por

    frequncia de formas de palavras alems

    incluindo informao POS, amostra de

    frases e co-ocorrncias;

    b) um amplo dicionrio ordenado por

    frequncia de formas de palavras alems

    incluindo informao POS, amostra de

    frases e co-ocorrncias;

    c) corpora monolngues de tamanho

    padro para vrias lnguas;

    d) uma ferramenta para detectar limites entre

    as frases;

    e) estatsticas de co-ocorrncias;

    sinnimos e palavras similares

    computadas nos perfis de co-ocorrncia

    de palavras;

    f) extrao automtica de terminologias.

    Um outro campo explorado foi o de alinhamento de textos, por exemplo, o

    alinhamento de vrias edies de um mesmo texto ou suas mltiplas tradues, como o

    trabalho de Owen et al (1992) que consistiu em alinhar vrias tradues de Homero em

    ingls. J Ghorbel et al (2001) exploraram uma ampla variedade de heursticos,

    incluindo as similaridades lexicais, morfolgicas, sintticas e semnticas para alinhar

    verses em prosa e em verso de textos medievais. Moerth (2006) se ateve na

    importncia da criao de corpora que incluam tanto trabalhos literrios quanto suas

    tradues, enquanto Zafrin (2013) explorou a importncia da criao de edies digitais

    mais sofisticadas, com as quais fosse possvel representar textos e trabalhos variveis

    de um autor. Finalmente, inegvel o avano do uso de tecnologias no processamento

    de dados nas anlises lingusticas. Heyer et al (2011) comentam sobre os novos mtodos

  • desenvolvidos por essa nova rea de pesquisas como a melhoria qualitativa de fontes

    digitais (padronizao da grafia, correo da grafia, identificao no ambgua de

    autores e fontes, marcao de referncias, classificao temporal de textos etc); a

    quantidade e estrutura de fontes que podem ser processadas (processamento de grandes

    quantidades de texto, estruturao por tempo, lugar, autor, contedo e tpicos,

    comentrios de colegas de outras edies); e o tipo e a qualidade da anlise (amplos

    estudos data-driven, usando ferramentas para minar textos, integrao da rede de

    pesquisas da comunidade).

    Feito esse breve percurso sobre o uso de tecnologias para estudos lingusticos,

    mostrando a forma de apropriao de alguns corpora, projetos acadmicos sobre

    lnguas e incluso digital, alm de banco de dados digitais, passaremos, a seguir, a trata

    do Alpheios e seu editor de alinhamento, descrevendo seu uso, para ento chegarmos

    etapa do alinhamento de tradues.

    2. Sobre o Alpheios e o editor de alinhamento

    O Alpehios12

    um freeware, ou seja, uma ferramenta digital gratuita criada com

    o intuito de ampliar e facilitar o acesso leitura de textos de cultura clssica.

    Atualmente, seu banco de dados contempla textos em latim, grego antigo e rabe antigo,

    mas tem em vista a ampliao do acervo para chins clssico, persa, hebraico e snscrito

    tambm. A ideia para a criao dessa plataforma surgiu com base na Biblioteca Digital

    Perseus (Perseus Digital Library) projeto idealizado na Tufts University, nos Estados

    Unidos, sob os cuidados do professor Gregory Cane. O foco no ensino-aprendizagem de

    lnguas, bem como na difuso de textos de culturas clssicas ocidentais e orientais, fez

    com que os recursos do Alpheios fossem criados para que pudessem auxiliar os usurios

    que buscassem o acesso a esse tipo de informao. Dessa forma, dentre o que temos

    disponvel, hoje, nessa plataforma, destacamos as seguintes ferramentas:

    a) Editor de alinhamento de tradues;

    b) Editor de rvore sinttica (Treebank);

    c) Anlise morfolgica, lematizao e consulta a dicionrio.

    12

    Disponvel em http://www.alpheios.net

  • Com relao ao primeiro item, foco deste artigo, o Alpheios permite ao usurio

    fazer um alinhamento de tradues, isto , dispor o mesmo texto em duas lnguas

    diferentes, apresentando todo o processo de escolha de equivalncias morfolgicas e

    sintticas ao longo do processo tradutrio. O acesso ao editor de alinhamentos fica logo

    direita na pgina inicial, na opo Alpheios Translation Alignment Editor, conforme

    mostramos na figura 1.

    Figura 1 Pgina inicial do Alpheios

    Acessado o editor de alinhamento, o usurio se deparar com um nova tela, em

    que h duas caixas em branco nas quais os textos das respectivas lnguas, de origem e

    alvo, devero ser colocados. Alm delas, h duas faixas ao lado de cada uma dessas

    caixas onde dever ser selecionado o idioma das lnguas com que estamos trabalhos. A

    lista de opes bem grande, porm, caso o usurio no encontre o que procura, poder

    manualmente escrever o idioma desejado na caixa em branco disponvel para isso ao

    lado da opo or other language. Essas informaes esto resumidas na figura 2.

  • Figura 2 A interface do editor de alinhamento de traduo

    Inseridos os textos nas caixas de mensagem e selecionados os idiomas de cada

    um desses textos, o usurio dever clicar na opo Align no canto inferior direito do

    editor e uma nova tela se abrir em que os dois textos estaro parelhos, prontos para

    serem alinhados. Vejamos a Figura 3.

    Figura 3 Alinhando as tradues

    Note que no canto esquerdo superior h uma tabela com informaes sobre a

    equivalncia de caracteres entre as duas lnguas. No nosso caso, escolhemos grego

    antigo e portugus como os idiomas dos textos fonte e alvo, respectivamente e medida

    que feito o alinhamento, os nmeros dessa contagem se alteram, mostrando

    estatisticamente a equivalncia das palavras entre as duas lnguas. interessante notar

  • como h casos em que o grego precisa de menos palavras que o portugus para

    expressar um determinado conceito ou justamente o contrrio. Em lnguas orientais,

    como o mandarim, essa diferena parece mais marcante, porm essa discusso no ser

    desenvolvida neste artigo. O prximo passo, portanto, realizar o alinhamento da

    traduo e isso consiste, basicamente, em selecionar nos textos alvo e fonte as palavras

    equivalentes entre eles, ficando ambos assinalados no texto, como tambm pode ser

    visto ainda na Figura 3 com a palavra Argonautas. A verso final alinhada pode ser

    gravada em dois formatos, XML e HTML. O primeiro aquele utilizado para exportar

    para um domnio da web, o que comentaremos ainda neste artigo (4.6) enquanto que o

    segundo, em HTML, exporta a interface usada pelo prprio Alpheios, ou seja, o usurio

    poder ver esse alinhamento no prprio navegador.

    Feito alinhamento, no caso da edio digital que elaboramos de Apolodoro, o

    usurio contra com uma etiquetagem do texto, todas as palavras em grego esto

    analisadas morfologicamente, a fim de auxiliar na compreenso da traduo. Sobre essa

    etiquetagem falaremos em outro momento. Finalmente, cabe ressaltar que a verso final

    do alinhamento demanda certo tempo principalmente porque o Alheios no permite que

    mudanas sejam feitas no momento de alinhar o texto, ou seja, qualquer erro, seja ele de

    traduo ou mesmo ortogrfico no pode ser corrigido nessa etapa e, portanto,

    necessrio arrumar o texto ainda nas caixas de mensagem para ento alinh-lo desde o

    comeo, novamente. Feita essa apresentao sobre como usar o editor de alinhamento

    de tradues, na prxima seo dedicaremos alguns comentrios sobre lidamos com

    algumas particularidades do grego antigo ao buscar sua equivalncia com portugus no

    momento de alinh-las.

    3. Alinhando a obra Biblioteca

    Biblioteca uma obra cuja autoria atribuda a Apolodoro, autor grego do

    sculo II d.C13

    e organizada da seguinte forma: 3 livros divididos em captulos, por sua

    vez, divididos em sees. Por exemplo, 2.7.3 significa, respectivamente, Livro 2,

    Captulo 7, Seo 3. Os 3 livros tm basicamente a mesma extenso, apenas o terceiro

    ligeiramente maior que os dois anteriores praticamente de mesmo tamanho, e so

    divididos por genealogias, isto , pela origem de deuses e heris do mundo grego

    13

    No cabe neste artigo tratarmos sobre a polemica origem da autoria do livro, o que leva muitos a chamarem o autor de Pseudo-Apolodoro. Essa discusso ficar para um momento mais oportuno.

  • antigo. Nossa escolha por trabalhar com Apolodoro sustentada por trs razes.

    Primeiro, Biblioteca a maior compilao de mitos gregos que chegou at ns e essa

    temtica de interesse e abordada por vrias reas do conhecimento, como a histria, a

    filosofia, a psicologia e a pedagogia. Segundo, essa narrativa escrita no dialeto padro

    ateniense e para finalidades de ensino/aprendizagem do grego antigo um dialeto

    bastante adequado para se trabalhar em sala, principalmente em nveis iniciantes.

    Terceiro, no h uma edio digital em portugus dessa obra e, por essa razo,

    considerando o contexto de incluso digital da atual realidade acadmica, uma traduo

    digital alinhada e etiquetada tem um amplo alcance ao pblico e garante o acesso ao

    texto em nossa lngua nativa, evitando as dificuldades de ler-se e lidar com um texto em

    uma lngua estrangeira.

    Do ponto de vista estilstico, Apolodoro no um autor rebuscado e ao longo de

    sua narrativa vemos os pontos a que ele dedica mais ou menos detalhes e tambm sua

    esttica narrativa, cujo estilo facilmente demarcado pelo uso de mesmas expresses ou

    pela organizao sinttica das frases e at mesmo pelas escolhas lexicais recorrentes.

    Dessa forma, cabe ressaltarmos alguns pontos que devem ser verificados no momento

    do alinhamento das tradues, a fim de que um leitor entenda nossas escolhas durante o

    processo tradutrio. Ademais, esses pequenos obstculos no so restritos ao par grego

    antigo/portugus e podem ser de paradigma para tradutores de outros idiomas que

    estejam sujeitos a encontrar questes semelhantes.

    3.1 Colocao pronominal

    Os pronomes do grego antigo declinam de acordo com qual termo concordaro

    numa frase, porm esto sempre separados dos verbos, diferente do portugus, por

    exemplo, quando h a possibilidade de construo de uma mesclise ou de uma nclise.

    .

    (Apol. Biblio. 2.5.1) Primeiro ordenou-lhe trazer a pele do leo de Nemia.

    No caso de uma nclise em portugus, o alinhamento feito pela unio do verbo

    e do pronome com um nico equivalente em portugus, apresentado na Figura 5.

  • Figura 4 Alinhamento pronominal

    Restaria a questo se o usurio poderia ficar em dvida sobre qual palavra do

    grego o verbo e qual delas o pronome. No caso de um estudante, o domnio da

    lngua mesmo em nveis elementares permite essa fcil distino, porm, mesmo que

    no seja possvel, ou que o usurio seja um leigo no grego antigo, o analisador

    morfolgico (resultado da etiquetagem que fizemos) esclarecer essa dvida, mostrando

    qual palavra se trata de um verbo e qual delas o pronome.

    3.2 Expresses

    Uma vantagem do editor de alinhamento a possibilidade de deixar claro ao

    usurio quando lidamos com expresses idiomticas. Como temos um texto etiquetado,

    isto , analisado morfologicamente, o analisador classificar as palavras isoladamente,

    no num agrupamento. Em Apolodoro, por exemplo, muito comum encontramos a

    expresso que significa em pouco tempo ou pouco depois. Se

    traduzirmos palavra por palavra, no alcanaremos esse sentido e, portanto, a traduo

    ser falha. Com o alinhamento, podemos marcar essa expresso e seu equivalente em

    conjunto, ficando da seguinte forma:

    Figura 5 Alinhamento de expresses

    Assim, caso um usurio no tenha conhecimento da expresso e v em busca da

    anlise morfolgica, que pode conduzi-lo a um equvoco na traduo, quando o cursor

    estiver sobre qualquer uma das trs palavras que compem essa expresso,

  • automaticamente o editor assinalar as outras duas e seu significado na lngua alvo e,

    dessa forma, ser possvel reconhec-la. Esse mesmo recurso de agrupamento do editor

    ser a soluo para a questo da regncia, sobre a qual falaremos a seguir.

    3.3 Regncia

    A questo da regncia tambm exige algumas escolhas por parte do tradutor,

    pincipalmente se considerarmos qual o objetivo do alinhamento, se tem carter didtico,

    por exemplo, ou literrio. Ocorre que o grego uma lngua de casos, ou seja, a funo

    sinttica de uma palavra determinada pela sua morfologia e no pela posio que

    ocupa na frase. Casos como dativo, indicando o objeto indireto, ou o genitivo, indicando

    complemento nominal, em portugus so construdos com a preposio, o que nem

    sempre ocorre no grego, e nesses casos o tradutor dever escolher se a preposio em

    portugus ser agrupada ao verbo ou ao substantivo. Vejamos o exemplo:

    Ex.1) ,

    . (Apol. Biblio. 2.7.4) - Ele a entregou a Teutrante, prncipe da Teutrnia, que fez dela sua esposa.

    Nessa frase o verbo entregar () transitivo direto e indireto e esta ltima

    funo exercida pelo nome prprio Teutrante (), construdo no dativo.

    Dessa forma, no portugus temos o equivalente na traduo a Teutrante e cabe ao

    tradutor escolher se o a ser alinhado com o verbo ou com o nome no dativo. Em

    nosso alinhamento, padronizamos alinhar sempre com o verbo, seguindo os moldes de

    um dicionrio, indicando, em portugus, que a preposio faz parte de sua regncia e,

    no caso do grego, o usurio poder identificar que esse equivalente foi construdo no

    dativo.

    3.4 Mudana no sujeito oracional

    Houve casos em que a construo no grego antigo se traduzida literalmente,

    acarretaria num equivalente pouco usual no portugus e, por essa razo, por vezes foi

    necessrio modificarmos o sujeito oracional de algumas passagens.

  • ,

    (Apol. Biblio. 1.9.4 ) - Dion, que governava a Fcida,

    casou-se com Diomede, filha de Xuto, e deu a luz a sua filha Asterdia [...]

    Literalmente, nessa frase a construo seria [...] a ele nasceu sua filha Asterdia

    [...] por conta do emprego do dativo em (a ele) + o sujeito no nominativo

    (filha), conhecido como dativo de posse no grego. Como a construo

    literal se distancia do registro tanto escrito como falado do portugus, a soluo alterar

    a funo sinttica das palavras da seguinte maneira: o sujeito filha passa a ser o objeto

    direito e o objeto indireto a ele passa a ser o sujeito. Sendo assim, temos ele

    teve/gerou sua filha Asterdia. Essa soluo padroniza todas as tradues do dativo de

    posse do grego, mantendo no s aquilo que foi expressado na lngua clssica como

    tambm a sintaxe corrente do portugus.

    3.5 Unio de sentidos

    Resta ainda destacarmos um ltimo item pertinente ao processo tradutrio

    grego-antigo portugus que tem a ver com o emprego de alguns verbos.

    . (Apol. Biblio. 2.5.9) - Armadas, as amazonas cavalgaram em direo ao barco.

    Nesse exemplo, o verbo significa investir contra e vem

    acompanhado da preposio (com) + (cavalos), portanto, literalmente,

    investir contra com cavalos. Na traduo, optamos pelo verbo cavalgar, compilando

    esses trs termos num nico equivalente no portugus. De modo semelhante ao caso das

    expresses, o verbo e seu complemento devem ser alinhados como um nico item

    lexical e, em seguida, o assinalado seu equivalente na outra lngua.

    Por questes de recorte temtico deste artigo, no poderemos explorar mais

    exemplos em cada uma dessas sees. Uma vez feitos esses comentrios, a ltima etapa,

    por conseguinte consiste, justamente, em exportar os arquivos de alinhamento, salvos

    em formato XML, a um servidor, a fim de disponibiliz-los na rede para que usurios o

    acessem. Lanados no servidor, ele estaro disponveis separados por livro, captulo e

    seo, conforme o texto grego, alm de estarem alinhados aos termos equivalentes em

    portugus e com uma anlise morfolgica disponvel.

  • Consideraes finais

    Conforme ressaltamos, este trabalho apresenta uma das etapas em que consiste a

    elaborao de uma verso digital de um texto, no caso, da obra Biblioteca, de

    Apolodoro, autor grego do sculo II d.C. Neste artigo, buscamos mostrar como a

    Lingustica Computacional oferece novas perspectivas para as abordagens das pesquisas

    lingusticas, por meio de ferramentas que disponibilizam diversas alternativas para

    anlises e produo de material para uso pblico. Embora usemos o grego antigo como

    objeto de estudo, nosso trabalho serve como paradigma para todos que trabalhem com

    uma lngua estrangeira, de modo que a ferramenta digital aqui apresentada, o editor de

    alinhamento Alpheios, est disponvel e apto a operar com quaisquer idiomas.

    O alinhamento de traduo uma ferramenta bastante til tanto para o tradutor,

    que ganha um recurso para auxili-lo na justificativa de suas escolhas durante o

    processo tradutrio, alm de funcionar como um excelente suporte para o ensino-

    aprendizagem do grego antigo, permitindo ao usurio reconhecer como uma lngua

    encontra seus equivalentes sintticos e semnticos em outra. Ademais, tratamos de

    algumas particularidades lingusticas do grego antigo (uso de pronomes, expresses,

    alternncia de sujeito e diferenas semnticas), como elas surgem como obstculos

    durante o processo de traduo e como lidamos com elas durante o processo de

    alinhamento, servindo como paradigma para as dificuldades oferecidas ao traduzir

    textos de outras lnguas. Dessa forma, com este artigo temos em mente ampliar os

    horizontes dos trabalhos lingusticos por meio da apresentao de recursos tecnolgicos

    capazes de propiciar novas perspectivas de abordagens e resultados a pesquisadores

    diversos que se dedicam a ferramentas digitais para ensino e traduo de lnguas

    estrangeiras.

    Agradecimentos

    O autor gostaria de agradecer ao Prof. Dr. John S. Y. Lee, pela enorme

    contribuio como co-orientador durante minha estadia como pesquisador convidado na

    City University of Hong Kong, em Hong Kong, e a Jacky Yinguchi, cientista da

    computao do Departamento de Traduo, Chins e Lingustica da referida

    universidade, cuja parceria foi sine qua non para o desenvolvimento deste trabalho.

  • Referncias bibliogrficas

    CRANE, G. What do you do with a million books? D-Lib Magazine. 12. Disponvel

    em: http://www.dlib.org/dlib/march06/cra/03crane.html. ltimo acesso em 15/07/2013.

    GHORBEL, H., BALLIM, A. CORAY, G. (2001) ROSETTA: Rhetorical and Semantic

    Environment for Text Alignment, in P. Rayson, A. Wilson, A. M. McEnery, A. Hardie

    and S. Khoja (eds) Proceedings of Corpus Linguistics 2001, pp. 22433, Lancaster, UK.

    HEYER, G; SCHUBERT, C.: eAQUA Extraktion von strukturiertem Wissen aus

    Antiken Quellen fr die Altertumswissenschaft, Proceedings des Statusseminars

    BMBF-Frderscwerpunkt: Wechselwirkungen qwischen Natur und

    Geisteswissenschaften, BMBF: Bonn 2010.

    KINABLE, G. Computerized restoration of historical documentos: uniformization and

    date-assigning in dictionary quuotations of the Woordenbock der Nederlandsche Taal.

    Literary & Linguistic Computing, 21, 295-310 (2006).

    LEE, J. A computational model of text reuse in ancient literary texts. In: 45th Annual

    Meeting of the Association of Computational Linguistics, p. 517-524. ACM Press,

    Nova Iorque, 2005.

    MOERTH, K. Keeping the threads together: synchronising standoff data in heavily

    annotated text documents. In Proceedings of the DRHA, 2006, 2006.

    OWEN, C. (1992) Corpus-based grammar and the Heineken effect: Lexico-grammatical

    description for language learners. Applied Linguistics, 14: 167-187.

    POULIQUEN, B., STEINBERGER, R., BEST, C. Automatic detection of quotations in

    multilingual news. In: Proceedins of the International Conference Recent Advances

    in Natural Language Processing. (RANLP), 2007.

    SCHMIDT, A., AIDOO, K. A., TAKALUOMA, A., TUOMELA, U.,

    VAN LAERHOVEN, K., VAN DE VELDE, W. Advanced interaction in context. In

    Proceedings of the First International Symposium on Handheld and Ubiquitous

    Computing, HUC99, p. 89101, Karlsruhe, Alemanha, 1999.

    SCREIBMAN, S. KUMAR, A. MCDONALD, J. The versioning machine. Literary

    and linguistics computing, 2003.

    STEIN, B. MEYER zu EISSEN, S. Near Similarity Search and Plagiarism Analysis. In:

    Spiliopoulos, M., Kruse., R. Borgelt, C. Nrnberger, A., Gaul, W (eds): From Data

    and Information Analysis to Knowledge Engineering, p.430-437. Springer (Berlim-

    Heidelberg), 2005.

    STEWART, G., CRANE, G., BABEU, A.: A new generation of textual corpora: mining

    corpora from very large collections. In: JCDL 2007: Proceedings of the 7th

    http://www.dlib.org/dlib/march06/cra/03crane.html

  • ACM/IEEE-CS Joint Conference on Digital Libraries, p. 356-365. ACM Press, Nova

    Iorque, 2007.

    ZAFRIN, V. Two perspectives on collaboration in the Humanities. Disponvel e:

    http://dspace.hil.unb.ca:8080/bitstream/handle/1882/983/zafrin.pdf?sequence=3. ltimo

    acesso em 15/09/2013.

    http://dspace.hil.unb.ca:8080/bitstream/handle/1882/983/zafrin.pdf?sequence=3