Ambiguidade Estrutural - Tipos de Ambiguidade

Embed Size (px)

Citation preview

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    1/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    1

    ESTUDO EXPLORATRIO DE INFORMAES LEXICAIS RELEVANTESPARA A RESOLUO DE AMBIGUIDADES LEXICAL E ESTRUTURAL

    Maria Paula Fiorim PIRUZELLI*Bento Carlos DIAS-DA-SILVA**

    ABSTRACT: Translation is an issue that stirs up discussions in the Linguistic domain. Nevertheless, with the

    fast technological development in computer sciences, the computer influence encompasses almost every area of

    human knowledge, which has given rise to many challenges to natural language processing and specifically to

    machine translation, which has become the target of a great number of research projects, the goals of which is

    to gather deep understanding of human languages to make machine translation viable and of good quality. In

    this context, this study discusses one of the most machine translation hard problems: to understand and solve thelinguistic ambiguity resolution task. In particular, this task is mapped in the translation context from English

    into Portuguese and focuses on the lexical ambiguity resolution.

    KEYWORDS: machine translation; ambiguity resolution; natural language processing.

    1. Introduo

    Essa pesquisa norteia-se pelos seguintes objetivos, que so divididos em dois domnioscomplementares, com base na metodologia de estudo do Processamento Automtico de

    Lnguas Naturais (PLN), proposta por Dias-da-Silva (1996, 2006): o domnio lingustico e olingustico computacional. No domnio lingustico, (i) estudam-se os aspectos lxico-gramaticais e semntico-conceituais de pares de frases automaticamente traduzidas do inglspara o portugus, comparando-as com tradues feitas por tradutores humanos extradas docorpusparalelo portugus-ingls especificamente selecionado para o projeto, e (ii) catalogam-se, com base na literatura, as principais ambiguidades estudadas. No domnio lingustico-computacional, (iii) estudam-se as principais estratgias computacionais para a resoluo dosdiferentes tipos de ambiguidade catalogados em (ii).

    Para isso, analisam-se ocorrncias de pares de frases traduzidas de forma automticado ingls para o portugus pela Ferramenta de Idiomas do Google1 (doravante FIG),comparando-as com as tradues feitas por tradutores humanos extradas de um corpusparalelo portugus-ingls (descrito mais adiante). Essa anlise visa detectar e catalogar osprincipais tipos de ambiguidade estudar as principais heursticas para resolv-las.

    O corpus selecionado para o projeto, o COMPARA2, um corpus paralelo bi-direcional, portugus e ingls, que rene textos escritos originalmente em portugus e emingls, contando com autores como Alusio Azevedo, Chico Buarque, Edgar Allan Poe, JosSaramago, Machado de Assis, Mary Shelley, Oscar Wild, entre outros. Esses textos soarmazenados em uma base de dados e alinhados com as respectivas tradues nas duas

    * Aluna de mestrado; UNESP Universidade Estadual Paulista Jlio de Mesquita Filho, Campus de

    Araraquara.* Professor Doutor; UNESP Universidade Estadual Paulista Jlio de Mesquita Filho, Campus de Araraquara.1 Disponvel em http://translate.google.com.br/?hl=pt-BR&tab=wT#. Acesso em: 12 jul. 20102Disponvel em: http://www.linguateca.pt/COMPARA/index.php. Acesso em: 12 jul. 10

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    2/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    2

    lnguas e constitui o recurso a partir do qual estudam-se tanto a traduo humana quanto afeita pela mquina (FRANKENBERG-GARCIA; SANTOS, 2002; 2003).3

    A escolha da direo da traduo ingls-portugus foi feita com base nas tcnicas deelaborao de dicionrios bilngues como ao Houaiss (2005) e Taylor (2003), que atestam queos dicionrios ingls-portugus devem ser elaborados por falantes nativos do portugus,enquanto que aqueles, que tm o ingls como lngua de chegada, devem ser produzidos porfalantes nativos do ingls. Ressalta-se que o uso das verses em ingls dos textos originais emportugus como dados no compromete a anlise, j que o objetivo da pesquisa no julgar aautenticidade dos textos, mas sim determinar as ambiguidades presentes nas frases do inglsque podem ser causas de m-formao ou inadequao das frases do portugus que foramproduzidas automaticamente pela FIG.

    Adota-se a metodologia de pesquisa no mbito do PLN proposta por Dias-da-Silva(1996; 2006), que defende a diviso do estudo em trs domnios complementares de

    investigao: o lingustico, o lingustico-computacional e o computacional. Dentro doprimeiro, explicitam-se os conhecimentos lingusticos necessrios para descrever umdeterminado fenmeno da lngua e que sero incorporados em algum tipo de sistema de PLN;no segundo, os conhecimentos descritos no domnio anterior so transformados emrepresentaes formais; por fim, no terceiro, as representaes propostas no domniolingustico-computacional so codificadas em uma linguagem de programao, domnio queno ser abordado nesta investigao.

    Assim, articulando-se nos dois primeiros domnios complementares - o lingustico e olingustico-computacional-, as investigaes catalogam ocorrncias para ilustrar os principaistipos de ambiguidade sistematizados a partir do estudo da literatura. No domnio lingustico,descreve-se o conhecimento lingustico necessrio para a resoluo das ambiguidades; no

    domnio lingustico-computacional, fundamentando-se na descrio do conhecimentosistematizado no domnio anterior, as principais estratgias computacionais para aimplementao de heursticas de resoluo desses tipos de ambiguidade so catalogadas.

    Questes de traduo

    Segundo Vilela (1994, p. 13) traduzir transpor textos ou enunciados duma lngua (=lngua de partida) para outra lngua (= lngua de chegada). Por envolver a comparao entreuma ou mais lnguas, a traduo sempre foi um tema intrigante para os pesquisadores daslnguas naturais e da Lingustica. No domnio das Letras, contudo, os estudos da traduo sesepararam e sofreram uma especificao. A comparao entre lnguas passou a se ocupar da

    reconstruo dos diferentes estgios diacrnicos das lnguas (antigas ou no) e a traduo, porsua vez, concentrou-se na traduo literria, traduo-interpretao ou na traduo assistidapor computador.

    possvel afirmar que o tema traduo pode ser abordado de, pelo menos, doispontos de vista: do ponto de vista do tradutor humano e do ponto de vista da traduoautomtica por sistemas de TA, mas as questes lingusticas so pertinentes a ambos(HATIM, 1990). As questes lingusticas, no mbito da TA, por sua vez, dividem-se entreaspectos eminentemente lingusticos e aspectos lingustico-computacionais.

    A traduo feita ou auxiliada por computadores tem sido discutida h tempos pelospesquisadores de PLN, porque, envolvendo a comparao entre lnguas, implica a modelagem

    3 possvel acessar o COMPARA online gratuitamente e, atualmente, o corpus conta com aproximadamentetrs milhes de palavras provenientes de textos de fico. Entretanto, outros gneros devero ser acrescentados.

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    3/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    3

    do comportamento lingustico humano, que engloba aspectos cognitivos, histricos esocioculturais, alm dos aspectos puramente lingusticos.

    No final do sculo XX, a automatizao da traduo se tornou uma realidade, emborano to bem sucedida, medida que sistemas de TA passaram a ser desenvolvidos e lanadosna Internet. Entretanto, esses sistemas no so, na verdade, capazes de traduzir sozinhostextos de uma lngua natural para outra, isso porque que a traduo de qualidade s alcanada atravs da ps-edio de um tradutor humano.

    Wilks (2009) argumenta que apenas com os estudos realizados at hoje sobre a TAainda cedo para poder afirmar muitos fatos, porm ele aponta as inconsistncias no que j conhecido at agora j que possvel afirmar que, se de um lado a TA funciona, fatocomprovado pela existncia de sistemas que traduzem de forma completamente automtica,trazendo benefcios para muitos usurios que necessitam recorrer a esse recurso, por outro, aafirmao de que evidente a falta avanos tericos que possibilitem uma TA de alta

    qualidade tambm vlida.Traduzir uma tarefa complexa at para tradutores humanos porque necessriocompreender o texto que naturalmente ambguo sob vrios pontos de vista, alm de que oscontedos veiculados por eles estabelecem relaes com conhecimentos exteriores. Almdisso, ainda preciso considerar a necessidade de se ter bastante conhecimento sobre as duaslnguas e no deixar de lado suas diferenas e semelhanas (SANTOS, p. 03, 1988).

    Entretanto, desde a dcada de 40, quando os computadores foram apresentados aomundo ocidental, seu desenvolvimento tem sido constante e sua contribuio para com todosos domnios do conhecimento evidente. O potencial dessas mquinas para auxiliar ainvestigao lingustica assim como em muitas outras reas do conhecimento enorme. Todoo desenvolvimento trazido pelos computadores proporcionou o nascimento de uma grande

    diversidade de desafios, sempre com o foco no problema de fazer com que a comunicaoentre o usurio e a mquina se torne mais amigvel.

    Foram os desafios que surgiram em torno da questo do tratamento computacional daslnguas naturais que fizeram com que grandes investimentos materiais e humanos fossemaplicados nesse empreendimento, criando, dessa forma, um domnio de estudos novo: o PLN(DIAS-DA-SILVA, 2006). A TA se encontra inserida nesse contexto, j que ela faz parte deum domnio de estudos multidisciplinar que investiga como desenvolver programascomputacionais (os sistemas de TA), que tm, como objetivo, a compreenso da linguagemhumana, implicando na construo de interfaces em lngua natural que venham a auxiliar osusurios das lnguas e dos computadores em diferentes pontos do globo.

    Questes da TA no mbito do PLN

    Percebe-se uma grande diversidade de objetivos dentro do PLN por abordar questeslingusticas e tambm computacionais e para que seus objetivos sejam alcanados, precisodesenvolver um trabalho que una esses dois grandes campos de conhecimento representados,respectivamente, pela Lingustica e pelas Cincias da Computao. Mas, apesar danecessidade desse trabalho conjunto ser um fato bem reconhecido, nos ltimos anos ele aindatem ocorrido muito timidamente.

    Alm disso, embora haja certo reconhecimento de que a construo de conhecimentoslingusticos e metalingusticos seja tarefa essencial e indispensvel para que uma realizaoqualitativamente significativa possa ser alcanada no mbito dos estudos do PLN, osfenmenos lingusticos, por razes diversas, no tm sido descritos com a necessria preciso.Em particular, as pesquisas que se ocupam da TA so, frequentemente, alvos de crticas, queas acusam de no considerar os conhecimentos descobertos e construdos pela Lingustica.

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    4/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    4

    Isso tudo corrobora para que, na prtica, ainda haja um abismo na comunicao entre odesenvolvimento da Lingustica Terica e do PLN.

    Assim como ressalta Santos (1999), o computador, quando utilizado como umaferramenta, tem a caracterstica de possibilitar que novas formas de descrio e sistematizaodas nossas prprias capacidades sejam descobertas e tambm testadas, e isso no s nodomnio da traduo, bem como em todas as reas do conhecimento a que ele seja aplicado(SANTOS, p. 04, 1999).

    Os dados que precisam ser analisados quando se pretende desenvolver um estudosobre lnguas naturais so muito numerosos e, por natureza, complexos. O uso decomputadores para auxiliar nesse aspecto representa uma ferramenta para ajudar a controlar aquantidade dos dados e at para amenizar a complexidade desses. Entretanto, os mtodosutilizados para fazer os computadores lidarem com dados lingusticos, at nos dias de hoje,ainda necessitam de maior desenvolvimento.

    Yehoshua Bar-Hillel, ilustre pesquisador do Instituto de Tecnologia de Massachusstes(MIT), quando nomeado pelo instituto e aps analisar o assunto da TA, escreveu um artigomostrando as abordagens bsicas para a TA que eram utilizadas no perodo. Nessa poca jera conhecido o fato de que o auxlio humano seria necessrio para pr-editar ou ps-editar ostextos, porque uma TA completamente automatizada e de alta qualidade seria impossvel.Bar-Hillel criticava a noo de que o objetivo das pesquisas sobre TA deveria ser criarsistemas completamente automatizados e que produzissem tradues iguais s produzidas porseres humanos (HUTCHINS, 2001).

    Nirenburg (1996) enfatiza que Bar-Hillel acreditava que a modelagem doconhecimento de mundo de forma que ele pudesse ser acessado pelas mquinas era umacondio essencial para o sucesso da TA.

    It seems now quite certain ... that with all the progress made in hardware,

    programming techniques and linguistic insight, the quality of fully autonomous

    mechanical translation, even when restricted to scientific or technological material,

    will never approach that of qualified human translators and that therefore MT will

    only under very exceptional circumstances be able to compete with human

    translation. [] Expert human translators use their background knowledge, mostly

    subconsciously, in order to resolve syntactical and semantical ambiguities which

    machines will have either to leave unresolved or resolve by some mechanical rule

    which will every so often result in a wrong translation(NIRENBURG, 1996).

    Questes de tipologia dos sistemas de TA

    No que diz respeito metodologia empregada, em linhas gerais, Hutchins (1992)classifica os sistemas de TA em bilngues, quando trabalham com apenas um par de lnguas,ou multilngues, quando se ocupam de mais de duas lnguas. Caracterizam-se ainda emsistemas unidirecionais, quando realizam a traduo em uma direo apenas, ingls-portugus, por exemplo, ou bidirecionais, quando traduzem nas duas direes, ingls-portugus ou portugus-ingls. O grau de sofisticao dos sistemas medido de acordo comum ou mais dos trs tipos de metodologia empregados no processo de traduo. A partir disso,so classificados basicamente em trs tipos: os sistemas diretos, os sistemas de interlngua eos sistemas de transferncia (HUTCHINS, 2003).

    Santos (1988) atesta que uma das possveis distines a ser feita em relao aos

    sistemas de TA entre os chamados sistemas diretos, que traduzem diretamente a partir dalngua de origem, e aqueles que so indiretos, utilizando alguma forma intermediria para

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    5/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    5

    representar os conhecimentos e a estrutura da lngua de origem e s depois geram o texto dechegada. So includos nesse tipo os sistemas de transferncia e os baseados em interlngua.

    Os sistemas diretos, que so os mais simples, so bilngues e unidirecionais. De acordocom essa abordagem, o texto de partida analisado minimamente para poder originar textosna outra lngua. Esses sistemas realizam a traduo procurando os correspondentes diretosentre os itens lexicais das lnguas fonte e alvo.

    Nos sistemas de transferncia, a traduo processa-se por meio de regras sintticas, apartir da anlise da estrutura sinttica da frase da lngua fonte, gera-se uma representaosinttica para a lngua alvo, e se d em trs estgios: durante o primeiro estgio, o texto departida transformado em representaes intermedirias, elimina-se, assim, a ambiguidade;em seguida, durante o segundo estgio, essas representaes so transformadas emrepresentaes equivalentes para a lngua de chegada; finalmente, na ltima etapa doprocesso, um texto na lngua de chegada gerado.

    Os sistemas de interlngua so os mais sofisticados e funcionam de maneira diferente:neles, a traduo feita a partir do texto de partida para uma interlngua, uma representaoabstrata do significado que se aplica a qualquer lngua, e desta para a lngua de alvo (DIAS-DA-SILVA, 2006; HUTCHINS, 1992). A traduo feita, portanto, baseada na possibilidadede transformar textos em conceitos que podem ser representados em qualquer lngua.

    Santos (1988) menciona ainda uma diviso que atualmente no mais tosignificativa, estabelecida entre sistemas predominantemente sintticos e outrospredominantemente semnticos. Como j um fato amplamente reconhecido que necessriocompreender o texto para poder traduzir, essa distino acaba por deslocar-se para umaopo metodolgica de compromisso entre eficincia e qualidade (SANTOS, 1988, p. 08). Aautora prope que, nesse aspecto, seria mais interessante classificar os sistemas em relao ao

    grau de conhecimento sinttico, semntico, pragmtico, etc., exigido por eles, enquanto queHutchins (1986) defende que a distino inicial poderia ser

    expressa em termos de quem controla quem, ou seja, um sistema de ndole sintticamanipularia marcadores semnticos ajudando a identificao das estruturas, maspossuiria como unidade bsica, por exemplo, a frase (conceito eminentementesinttico). Por outro lado, um sistema de ndole semntica poderia executarsimultaneamente com o varrimento sinttico do texto uma anlise semntica, ou tercomo nica representao interna, a partir do texto, uma representao de casos ouna forma da dependncia conceitual. (SANTOS, 1988, p. 08).

    Uma outra distino ainda comentada por Santos (1988), aquela que se estabelece

    entre sistemas de TA inspirados pela Inteligncia Artificial e aqueles que se baseiam emteorias lingusticas. Mas, neste caso, e como tambm j foi argumentado anteriormente, aautora defende que a unio entre abordagens de ambos os domnios o caminho maisvantajoso.

    Na sequncia, este estudo abordar, na seo 2, as ambiguidades lingusticas,nomeando os principais tipos apontados na literatura e dando destaque parte de dois doscinco tipos: a lexical e a estrutural, que sero exemplificados na seo 4. Na seo 3,resumem-se as principais estratgia de resoluo de ambiguidade desses dois tipos, mostrandoa importncia da construo de lxicos computacionais contendo informaes robustas,cobrindo os domnios morfolgico, sinttico e semntico-conceitual. A seo 5 apresenta asconsideraes finais

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    6/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    6

    2. As ambiguidades lingusticas

    Diz-se que um item/expresso lexical ambguo quando apresenta mais de um sentidopossvel diferente. Porm, o termo restringiu-se para a nomeao daqueles itens/expresseslexicais que tm mais de um sentido estabelecido, isso se deve ao fato de todos os itenslexicais poderem ser ambguos dentro de um ou outro contexto (CRUSE, 2006). No uso realda lngua, o contexto sempre determina qual das alternativas possveis de uma leitura ambgua a adequada. Por isso, a ambiguidade no causa grandes dificuldades de interpretao.

    Ide & Vronis (1998) apontam que as consequncias problemticas da manifestaodas ambiguidades lingusticas era o ponto central j no artigo escrito por Bar-Hillel em 1960.Tomando como exemplo o pequeno texto:Little John was looking for his toy box. Finally he

    found it. The box was in the pen. John was very happy (NERENBURG, 1996, p. 302), Bar-Hillel argumentou a impossibilidade de se determinar o sentido adequado do item lexical pen

    na frase The box is in the pen automaticamente, reconhecendo que para os humanos, oconhecimento de mundo sobre pens (canetas) e playpens (cercado dentro do qual crianaspequenas brincam) o que os faz compreender o sentido to facilmente. Bar-Hillel aindaacrescenta que se fosse possvel desenvolver um sistema que tivesse acesso a esse tipoconhecimento, seria o mesmo que afirmar que os sistemas de TA deveriam ser equipadoscom, alm de um dicionrio, uma enciclopdia de conhecimentos universais.

    O fenmeno da ambiguidade pode se manifestar em diferentes nveis de anliselingustica: lexical, sinttico, semntico, contextual-pragmtico (DIAS-DA-SILVA, 1996;HIRST, 1992; SPECIA, 2007). Em particular, no nvel lexical, por exemplo, um item lxicoda lngua fonte pode codificar mais de um sentido quando traduzido para a lngua alvo e comoconsequncia disso, a lngua alvo oferece mais de uma opo disponvel para a traduo. A

    divergncia entre as vrias culturas existentes citada como um dos fatores que pode explicaressas diferenas, porque a cultura influencia a forma como os conceitos do mundo se realizamnos diferentes itens lxicos. J no nvel sinttico, possvel organizar os itens lexicais quecompem uma frase em diferentes sequncias, originando trechos ou frases inteiras ambguos.

    Tipologia das ambiguidades

    Em linhas gerais, a literatura aponta quatro grandes tipos de ambiguidades lingusticas:

    1. Ambiguidade lexical, que se subdivide nos tipos 1.1 Ambiguidade porpolissemia/homonmia, 1.2 Ambiguidade categorial e 1.3 Ambiguidade de transferncia;

    2.

    Ambiguidade estrutural, que se subdivide nos tipos 2.1 Ambiguidade defixao de constituinte, 2.2 Ambiguidade de localizao e de preenchimento de lacunas, 2.3Ambiguidade analtica, 2.4 Ambiguidade de escopo da quantificao;

    3. Ambiguidade anafrica/referencial;4. Ambiguidade temtica.

    As ambiguidades de fixao de constituinte, por sua vez, subdividem-se em setesubtipos:

    2.1.1 Ligao de um sintagma preposicional a mais de um sintagma nominal ouverbal;

    2.1.2

    Ligao de uma orao relativa a mais de um sintagma nominal disponvel;2.1.3 Ligao de um sintagma preposicional a uma orao adjetiva;

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    7/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    7

    2.1.4 Possibilidade de ligao de um sintagma preposicional ou advrbio a posiespertencentes orao ou sua sub-orao;

    2.1.5

    Ligao do advrbio como modificador do sintagma verbal ou da frase;2.1.6

    Ligao de particpios ao sujeito estrutural da frase ou frase;2.1.7 Possibilidade de ligao simultnea de um advrbio a verbos de dua frases

    distintas.

    Tambm apresentam subtipos as ambiguidades analticas, que se subdividem-se emonze subtipos:

    2.3.1 Deteco de partculas;2.3.2 Diferenciao entre um sintagma preposicional e um sintagma adjetivo

    resultante de uma operao de alamento e apagamento do verbo ser/estar aplicada ao

    complemento do verbo;2.3.3 Diferenciao entre particpio presente e adjetivo;2.3.4 Diferenciao entre particpio presente e substantivo;2.3.5 Delimitao da extenso do sintagma nominal;2.3.6 Diferenciao entre orao relativa reduzida e sintagma verbal da orao

    principal;2.3.7 Delimitao da estrutura de um sintagma nominal complexo;2.3.8 Interpretao ambgua de particpios e de oraes adjetivas posicionados no

    final de frase;2.3.9 Diferenciao entre frases clivadas e frases do tipo sujeito-verbo-objeto;2.3.10 Diferenciao entre particpio passado e um sintagma verbal incompleto,

    resultando na ambiguidade entre pergunta e ordem;2.3.11 Delimitao dos diferentes tipos de estrutura formados com esta sequncia de

    elementos:NP be ADJ to V.

    Contudo, neste trabalho, por razes da extenso da discusso, restringe-se adiscusso a dois tipos de Ambiguidade Lexical (CRUSE, 2006; HIRST, 1992; HUTCHINS,1992; SOMERS, 2000; SPECIA, 2007), a 1.1 Ambiguidade por polissemia/homonmia e a1.2 Ambiguidade categorial, e a um tipo de Ambiguidade Estrutural, a 2.1.1Ligao de umsintagma preposicional a mais de um sintagma nominal ou verbal.

    As ambiguidades lexicais

    As ambiguidades que se manifestam no nvel lexical sempre exigem que uma escolhaseja feita entre as possveis leituras, porque a escolha no adequada do item lxico resulta emproposies diferentes. Essa situao ilustra-se com a frase But it's conditioning, brain-washing: more like a trained seal, em que o sentido de sealdeve ser desambiguado de formaadequada entre selo, escudo, lacreoufoca(SOMERS, 2000, p. 333; SPECIA, 2007, p. 12).

    Embora no seja possvel traar uma fronteira rgida entre polissemia e homonmia,aceita-se que os itens lxicos polissmicos so aqueles que os seus possveis sentidosdemonstram relaes entre si. Para que os sentidos possam ser considerados comopertencentes ao mesmo item lexical, os falantes da lngua precisam senti-los comorelacionados. Algumas das relaes responsveis pela polissemia so a metfora, a metonmiae a hiponmia. J os itens lexicais homnimos apresentam sentidos que no permitemestabelecer nenhum tipo de relao entre si. Cruse (2006) aponta que a maior parte dosdicionrios tradicionais confere entradas distintas para os homnimos, diferentemente do que

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    8/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    8

    ocorre com os itens lexicais polissmicos, que so identificados por nmeros dentro damesma entrada.

    Nota-se que a distino entre a polissemia e a homonmia subjetiva e, se, em algunscasos, a distino bastante definida, em outros impossvel de se estabelecer uma diferena.Almeida (1990) argumenta que, apesar da polissemia e homonmia demonstrarem

    diferenas em suas origens, ambos os fenmenos contribuem da mesma forma para aambiguidade estrutural. Segundo o autor, o que realmente interessa so os mltiplos sentidosrelacionados com uma nica forma. Assim sendo, para o tratamento computacional essadiviso no relevante, suficiente a existncia de algum tipo de biunivocidade entre forma esentido.

    Os itens lxicos categorialmente ambguos so aqueles que podem pertencer acategorias sintticas diferentes, variando de acordo com o contexto como, por exemplo, canto,que, alm de ser alvo da homonmia, tambm alvo da ambiguidade categorial, porque pode

    ser um substantivo ou um verbo na primeira pessoa do presente do indicativo. Na maioria dasvezes, esse tipo de ambiguidade solucionado pelo parser (analisador gramatical), norepresentando entraves mais srios TA (HUTCHINS, 1992; SPECIA, 2007).

    De acordo com Hutchins (1992), as ambiguidades por polissemia/homonmia ecategorial so monolngues porque causam problemas para a anlise da lngua fonte. Asambiguidades de transferncia so, por sua vez, ambiguidades bilngues e se manifestamquando um item lexical da lngua fonte pode ser traduzido por vrios itens/expresses dalngua alvo. Dessa forma, o problema s se manifesta sob a perspectiva da lngua alvo,porque, para um falante nativo da lngua fonte, o item lexical no percebido como ambguo.O item lexical do ingls wall ilustrada esse tipo, porque, ao ser traduzido para o portugus,exige a escolha entre os itensparede, que denota paredes internas a uma construo, e muro,

    que so paredes ao ar livre.

    As ambiguidades estruturais

    No nvel estrutural (sinttico), as diferentes formas possveis de se agruparemsequncias de itens lexicais podem ser a causa de trechos ambguos ou at mesmo de frasesinteiras ambguas. A combinao de ambiguidades lexicais dos itens lxicos que compem afrase , muito frequentemente, apontada como uma das causas das ambiguidades estruturais.Considere, por exemplo, a sequncia I saw the man in the house with a telescope. Comomostra Allen (1995), possvel, para um leitor humano, encontrar, pelo menos, cincointerpretaes diferentes, devido a diferentes possibilidades de se diferentes interpretar o

    sintagma preposicional with a telescope.Porm, apesar de grande parte das frases permitirem diversas anlises gramaticais, de

    acordo com Hirst (1992, p. 09), aps considerar aspectos semnticos e contextuais, apenasuma interpretao possvel permanece. Considerando, por exemplo, a frase Nadia left theuniversity on the wrong bus, para compreend-la adequadamente necessrio aplicar oconhecimento de mundo de que universidades no andam de nibus, e esse conhecimento oautor chama de vis semntico. Alm desse vis, as lnguas tambm exibem certaspreferncias sintticas que Hirst (1992) denomina de vis sinttico. Na frase The landlord

    painted all the walls with crack, o sintagma preposicional with crack pode ser fixado aosintagma verbal, podendo ser interpretado como as paredes estavam sendo pintadas em umestilo rachaduras ou as rachaduras foram usadas como instrumento para pintar asparedes, interpretaes que so semanticamente anmalas, e tambm pode se ligar aosintagma nominal objeto sendo que, nesse caso, a interpretao seria as paredes queapresentavam rachaduras foram pintadas.

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    9/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    9

    Muitas pesquisas foram feitas sobre esse vis sinttico e tambm sobre como oshumanos decidem sobre qual o local adequado para fixar um novo constituinte durante uma

    anlise sinttica. Como resultado desses estudos, alguns princpios gerais puderam serafirmados, so eles:Minimal Attachment eRight AssociationouLate Closure (ALLEN, 1995;HIRST, 1992).

    Minimal Attachment o princpio mais geral que afirma a existncia de umapreferncia para a estruturao sinttica que cria o menor nmero possvel de ns na rvoresinttica. A frase The man kept the dog in the house (ALLEN, 1995, p. 160)exemplifica oprincpio. Normalmente, essa frase interpretada com o sintagma preposicional in the housemodificando o verbo kept, o que, consequentemente, produz uma rvore sinttica com umnmero menor de ns.

    O princpio right association formula que um novo constituinte deve ser interpretadocomo parte do constituinte que est sendo construdo e no deve ser fixado em nenhum outro

    constituinte pertencente a um nvel superior na hierarquia da rvore sinttica. Esse princpio ilustrado por Allen (1995) com a frase George said that Henry left in his car, que pode terduas interpretaes sintaticamente aceitveis George falou que Henry saiu utilizando seuprprio carro e George falou, dentro do carro, que Henry saiu sendo que a interpretaopreferida primeira. Essa interpretao preferida tem o sintagma preposicional fixado aosintagma verbal que lhe imediatamente anterior. A outra interpretao, por sua vez, faz afixao do sintagma preposicional in the car ao sintagma verbal mais alto na rvore sinttica.

    Entretanto, na frase The man kept the dog in the house, esses dois princpios soconflitantes, porque o princpio right association aparentemente sugere que o sintagmapreposicional seja fixado ao sintagma nominal the dog, j o princpio minimal attachmentfavorece a fixao do sintagma preposicional junto ao sintagma verbal kept. Como

    consequncia disso, Allen (1995) afirma que haver situaes em que as preferncias lexicaissero desejveis em detrimento das preferncias baseadas nesses princpios.

    Quando um verbo exibe uma subcategorizao que exige um sintagma preposicional,como o verboput,por exemplo, que subcategoriza um sintagma preposicional com in, on ouby,ento, nas situaes que em houver necessidade de escolher um local para a fixao de umsintagma preposicional, o sintagma verbal ter preferncia. Em outros casos, o prpriosintagma preposicional que demonstra preferncia por ser fixado dentro do sintagma verbal.Se essas duas situaes no se manifestarem, ento os princpios gerais devem ser obedecidos.

    Contudo, em oposio s ambiguidades lexicais que sempre exigem que uma escolhaseja feita, em determinadas situaes a ambiguidade estrutural no precisa ser resolvida nalngua alvo, por no apresentar dificuldade de compreenso para os falantes nativos. Essa

    situao pode ser ilustrada com a frase The man saw the girl with a telescope, na qual no sesabe se quem tinha o telescpio era o homem ou a menina. Essa ambiguidade pode sertranferida para a lngua de chegada sem ser resolvida, porque se trata de fenmeno anlogo nalngua de chegada, e que s solucionado com o conhecimento do contexto de uso desse tipode frase.

    A partir dessas consideraes gerais sobre os tipos de ambiguidades alvos desteestudo, fica claro que as informaes lexicais ajudam na resoluo tanto das ambiguidadesque se manifestam no nvel lexical, quanto daquelas aparentes no nvel estrutural, da aimportncia de se equipar um sistema de TA com um lxico que contenha informaesrelevantes necessrias para o processo de desambiguao como, por exemplo, a categoriasinttica, a afinidade de um verbo com uma determinada preposio, relaes de sentido(sinonmia, hiperonmia, etc.), restries sintticas e semnticas, entre outras.

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    10/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    10

    3. Em busca de solues...

    Hirst (1992) refora a necessidade de modelagem computacional tanto do contextodiscursivo quanto do co-texto em que o item lxico problemtico ocorre para realizar adesambiguizao. Essa necessidade decorre do fato de os itens lxicos prximos ao itemlxico ambguo poderem fornecer pistas para o sistema, ou seja, fornecerem indcios fortespara a desambiguao se um dos sentidos possveis de um item lxico estiver semanticamenterelacionado ao sentido de um outro prximo a ele. Da, Hirst (1992, p.80) propor que osmecanismos necessrios para a desambiguao no nvel lexical so:

    (i) Reconhecimento do contexto;(ii) Associaes semnticas entre itens lexicais;(iii) Informao sobre a sintaxe;

    (iv)

    Informao sobre restries selecionais dos itens lxicos ambguos(v) Inferncias.

    De acordo com Wilks (2009), as fontes de conhecimento necessrias para ofuncionamento de um sistema de TA dependem do mtodo por ele utilizado. Mas, possvelafirmar que a maioria dos sistemas utiliza, comumente, algumas das seguintes fontes deconhecimento: informaes morfolgicas, regras gramaticais e informaes provenientes delxicos. No caso do ingls, por ser uma lngua que no apresenta muita flexo, a morfologiano to necessria como seria para uma lngua muito flexionada, para as quais a informaomorfolgica muito importante.

    Por causa do aumento do nmero de dados legveis por mquina disponveis nos

    ltimos anos e das tcnicas estatsticas que podem ser aplicadas para identificar e utilizar asinformaes retiradas desses dados, as tentativas de desambiguar sentidos lexicais de formaautomtica cresceram.

    De acordo com Stevenson e Wilks (2003), a tarefa de desambiguao lexical desentido (DLS) tema de interesse dos pesquisadores desde o comeo dos estudos sobre a TAe sempre reconhecida como um dos problemas mais importantes que carecem de soluodentro do campo de pesquisa do PLN. A DLS uma tarefa intermediria (STEVENSON;WILKS, 2003) porque ela necessria, ou pelo menos traz benefcios, para o desempenho demuitas outras tarefas de PLN, a TA uma delas e para citar outras, tem-se, por exemplo, arecuperao de informao, anlise gramatical e processamento de fala. Alis, como se vafirmado em Ide & Vronis (1998), os primeiros trabalhos sobre DLS foram desenvolvidos

    dentro do contexto da TA. Os mesmo autores apontam que a tarefa de DLS descrita comoAI-complete, o que significa dizer que um problema que poder ser solucionado apenasquando todos os outros problemas da Inteligncia Artificial tambm tiverem alcanado umasoluo.

    Grosso modo, a tarefa da DLS associar uma determinada unidade lexical de um textocom uma definio (ou seja, o sentido) dentre vrias que podem ser potencialmente atribudasa ela (IDE & VRONIS, 1998; SPECIA, 2007). A tarefa requer duas etapas: a primeira adeterminao de todos os sentidos diferentes relevantes para cada unidade lxica do texto e asegunda a escolha de um meio de atribuir um sentido apropriado a cada ocorrncia daunidade lxica. Para realizar a primeira etapa, geralmente conta-se com acervos de sentidos jdefinidos, assim como os sentidos registrados em um dicionrio ou as informaes retiradasde um thesaurus. A segunda etapa realizada com base em informaes provenientes docontexto do item lxico ambguo e de outras fontes de conhecimento, como recursos lexicais e

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    11/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    11

    enciclopdicos, e tambm de fontes de conhecimento manualmente construdas (IDE &VRONIS, 1998, p. 03).

    Kilgarriff (1997, p. 212) argumenta que as informaes lexicais podem resolver atmesmo grande parte das ambiguidades estruturais, sem que os sentidos dos itens lexicaisprecisem ser desambiguados. Para exemplificar sua argumentao, o autor considera duasfrases-exemplo:

    (i)Ilove baking cakes with friends.(ii)I love baking cakes with butter icing.Para resolver a ambiguidade de fixao do sintagma preposicional (with...), basta

    considerar a semntica do substantivo ncleo do sintagma nominal final (friends ou buttericing). Em (i) o ncleo do sintagma nominal humano e por isso o sintagma preposicionaldeve ser fixado ao verbo (baking); em (ii) o ncleo do sintagma nominal um tipo deingrediente do bolo (a cobertura) e, consequentemente, fixa-se ao substantivo (cakes). Nesse

    caso, nemfriends nem icing ambguo entre humano e ingrediente de bolo. Por essa razo, aDLS no necessria.Os estudiosos das ambiguidades lingusticas, incluindo a a DLS, sempre enfatizam a

    importncia do contexto. Ide & Vronis (1998) o apontam, inclusive, como a nica fontecapaz de identificar sozinha o sentido adequado de um item lexical ambguo. por essa razoque todos os trabalhos em desambiguao de sentido utilizam informaes provenientes docontexto do item lexical alvo da ambiguidade, contexto esse que, de alguma forma precisa sermodelado.

    4. Desenvolvimentos empricos...

    Apresentam-se, nesta seo, frases selecionadas no corpus descrito no incio desteestudo, que exemplificam as ambiguidades lexicais e os problemas que elas representam parao processo de TA. Destaca-se o item lexical ambguo em negrito e, abaixo da frase original,apresentam-se duas tradues: a do tradutor humano e a do sistema de TA.

    Exemplo 1: Shall IringPhyllis Cameron and ask her?TH: Telefono Phyllis Cameron para lhe perguntar?TA: Devo anelPhyllis Cameron e perguntar-lhe?

    Nesse exemplo, est ilustrado um caso de ambiguidade categorial relacionado sleituras nominal e verbal do item lexical ring. Nota-se que, nesse exemplo, a presena do

    pronome I deveria ser evidncia suficiente para indicar a necessidade de um verbo emseguida, fato que impossibilitaria o emprego do substantivo. Portanto, conclui-se queinformaes sobre a categoria gramatical e suas restries sintticas devem fazer parte dolxico do sistema para que o analisador gramatical possa trabalhar corretamente.

    No Exemplo 2, a seguir, a ambiguidade categorial ilustrada pelo item lexical steps,que pode ser um substantivo no plural, correspondendo, em portugus, ao item lexical etapasou degraus, ou a terceira pessoa do singular do presente simples do verbo to step, que emportugus corresponderia apisa.

    Exemplo 2: Leslie stepsforward with a smile, introduces himself to the couple, andinspects their tickets and passports.

    TH: Leslie avana com um sorriso nos lbios, apresenta-se ao casal e verifica osrespectivos bilhetes e passaportes.

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    12/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    12

    TA: Leslie passospara a frente com um sorriso, se apresenta ao casal, e inspeciona osingressos e passaportes.

    Um sistema de TA, ao processar o item steps, precisar, portanto, selecionar umanica opo dentre as disponveis. A seleo depende das seguintes informaes: da escolhada categoria gramatical, dos traos semnticos, das relaes item-contexto, das relaes desentido, entre outras. No exemplo, essa escolha pode ser assim resolvida: registrando-se, parastep, verbo + toward, a sinonmia entre stairway, stairs, steps e a restrio semntica[+lugar].

    O Exemplo 3 ilustra a situao de ambiguidade em que o item lexical paper a causada ambiguidade lexical, podendo ser traduzido para o portugus como papel, jornal, artigo,entre outros. No primeiro exemplo, o sentido da expresso newspaper boy, que foi traduzidaadequadamente pelo sistema de TA, forneceevidncias para a resoluo da ambiguidade de

    paper, apontando para o sentido expresso em portugus porjornal.

    Exemplo 3: The newspaper boy is late, or perhaps there is nopapertoday because ofa strike.

    TH: O rapaz dos jornais est atrasado, ou talvez hoje no haja jornais por causa deuma greve qualquer.

    TA: O menino do jornal tarde, ou talvez no h papelhoje por causa de uma greve.

    J neste Exemplo 4, tratar os itens lexicais morning paper como uma collocation eincluir essa informao no lxico, resolveria a ambiguidade.

    Exemplo 4:A stewardess offers him the morningpaper.TH: A hospedeira oferece-lhe ojornal da manh.TA: A aeromoa oferece-lhe o papelde manh.

    Considere, por fim, o Exemplo 5, do subtipo 2.1.1 Ligao de um sintagmapreposicional a mais de um sintagma nominal ou verbal.

    Exemplo 5: The lecture theatre resonates like a drum with thechatterof a hundred-odd students.

    TH: O anfiteatro ressoa como um tambor com o tagarelarde uma centena de alunos.TA: A palestra teatro ressoa como um tambor com a vibrao de um cem alunos

    estranho.

    Para solucionar esse tipo de ambiguidade, preciso estar registrada, no lxico dosistema, a informao sobre a afinidade do verbo com a preposio em questo. Se o verboapresentar essa caracterstica, o sintagma preposicional deve ser fixado ao sintagma verbal;caso contrrio, ao sintagma nominal disponvel que o sintagma preposicional deve serfixado. No Exemplo 5, o verbo resonateadmite a preposio with, informando ao sistema queo sintagma preposicional deve ser nele fixado.

    5. Consideraes finais

    As breves discusses feitas neste estudo mostram que indiscutvel que asambiguidades lingusticas representem um desafio para os sistemas de TA. Desenvolver umestudo sistemtico dos tipos de ambiguidade e das suas manifestaes no processo de

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    13/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    13

    traduo automtica do ingls para o portugus o objetivo central que est sendo alvo dosestudos do mestrado em desenvolvimento. Merece destaque a importncia de se

    representarem, nos lxicos dos sistemas de TA, informaes sobre categorias, desubcategorizao, sobre restries selecionais, temticas, sobre relaes de sentido,colocaes, traos e restries semnticas, posto que, recordando Kilgarriff (1997), queargumenta que um lxico rico em informaes lexicogramaticais e semntico-conceituais soessenciais para resolver grande parte das ambiguidades estruturais, sem que os sentidos dositens lexicais precisem ser desambiguados.

    Referncias

    ALLEN, J.Natural Language Understanding.Redwood City, CA: Benjamin/Cummings,1995.

    ALMEIDA, J. Ambiguidade lexical.Revista Alfa, So Paulo. Vol 34, p. 187-193, 1990.CRUSE, A.A Glossary of Semantics and Pragmatics. Edinburgh University Press, 2006.DIAS-DA-SILVA, B.C. O estudo lingustico-computacional da linguagem.Letras de hoje,Porto Alegre, v. 41, p. 103-138, 2006._____.A face tecnolgica dos estudos da linguagem: o processamento automtico das lnguasnaturais.Araraquara, 1996. 272 f. Tese (Doutorado em Letras) - Faculdade de Cincias eLetras, Universidade Estadual Paulista, Araraquara, 1996.FRANKENBERG-GARCIA, A.; SANTOS, D.Introducing COMPARA, the Portuguese-English parallel translation corpus.In: ZANETTIN, F.; BERNARDINI S.; STEWART, D.(Eds.). Corpora in Translation Education. Manchester: St. Jerome Publishing, 2003. p. 71-87._____. COMPARA, um corpus paralelo de portugus e de ingls na Web.Cadernos de

    Traduo IX, Santa Catarina, p. 61-79, 2002.HATIM, B., MASON, I.Discourse and the translator. New York: Longman Inc., 1990.HIRST, G. Semantic interpretation and the resolution of ambiguity. Cambridge: CambridgeUniversity Press, 1992.HOUAISS, A. Webster's: dicionrio ingls-portugus. 15. ed. Rio de Janeiro: Record, 2005.HUTCHINS, W.J. Machine translation: general overview. In: MITKOV, R. (Ed.). The Oxfordhandbook of Computational Linguistics. Oxford: Oxford University Press, 2003. p. 501-511._____. Machine Translation over fifty years.Histoire, Epistemologie, Langage, v. 22, n. 1, p.7-31. 2001. Disponvel em: . Acesso em: 28 jul.2010._____. SOMERS, H. L.An introduction to machine translation. London: Academic Press,

    1992._____.Machine translation: past, presence, future. Ellis Horwwod/Wiley, Chichester/NewYork, 1986.IDE, N.; VRONIS, J. Introduction to the Special issue on word sense disambiguation: TheState of the Art. Computational Linguistics. Cambridge, v. 24, p. 2 40, Mar. 1998.Disponvel em:. Acesso em: 28 jul. 2010.KILGARRIFF, A. What is word sense disambiguation good for?. In: Natural Language

    Processing in the Pacific Rim, 1997, Phuket, Thailand. Proceedings,Phuket, Thailand,1997. p. 209-214. Disponvel em: . Acessoem: 23 jul. 2010.

  • 7/23/2019 Ambiguidade Estrutural - Tipos de Ambiguidade

    14/14

    Anais do IX Encontro do CELSULPalhoa, SC, out. 2010Universidade do Sul de Santa Catarina

    14

    NIRENBURG, S. Bar Hillel and machine translation: then and now. In: BISFAI95TheFourth Bar-Ilan Symposium on Foundations of Artificial Intelligence, 4 th., 1995, Jerusalem,

    Israel. Proceedings, Jerusalem, Israel: AAAI Press, 1996. p.300-305. Disponvel em:. Acesso em: 16 jul. 2010.SANTOS, D. O computador e a traduo. In: II Seminrio de Traduo Cientfica e Tcnicaem Lngua Portuguesa, 2., 1999, Lisboa. Actas do II Seminrio de Traduo Cientfica eTcnica em Lngua Portuguesa. Lisboa, 1999. Disponvel em:. Acesso em: 15

    jul. 2010._____.A fase de transferncia de um sistema de traduo automtica do ingls para o

    portugus, 1988. 252 f. Dissertao (Mestrado em Engenharia Eletrotcnica e deComputadores) - Instituto Superior Tcnico, Universidade Tcnica de Lisboa, Lisboa, 1988.Disponvel em: . Acesso em: 15 jul. 2010.

    SOMERS, H. Machine translation. In: DALE, R.; MOISL, H.; SOMERS, H.Handbook ofnatural language processing. New York: Marcel Dekker, 2000. p. 329-346.SPECIA, L. Uma abordagem hbrida relacional para a desambiguao lexical de sentido natraduo automtica.So Carlos, 2007. 245 f. Tese (Doutorado em Cincias) Instituto deCincias Matemticas e de Computao, Universidade de So Paulo, So Carlos, 2007.STEVENSON, M.; WILKS, Y. Word-sense Disambiguation. In: MITKOV, R. (Ed.). Thehandbook of Computational Linguistics.Oxford: Oxford University Press, 2003. p. 249-265.TAYLOR, J. L. Websters: Portuguese-English dictionary. 16. ed. Rio de Janeiro: Record,2003.VILELA, M. Traduo e Anlise Contrastiva: Teoria e Aplicao. Lisboa: Caminho, 1994.WILKS, Y.Machine Translation: Its Scope and Limits. Springer, New York, 2009.