6
Ficha Terminológica Informatizada: etapas e descrição de um banco de dados terminológico bilíngüe. Guilherme Fromm 1 RESUMO: o objetivo deste texto é apresentar um banco de dados, ainda no estágio de desenvolvimento, que será incorporado ao Projeto Comet/USP. Esse banco servirá para a elaboração de fichas terminológicas semi-automatizadas e será alimentado pelos diversos corpora existentes no projeto. Essas fichas prevêem a elaboração de vocabulários técnicos baseados unicamente em corpus. UNITERMOS: Lingüística de Corpus, Banco de Dados, Terminografia, Terminologia, Tradução. ABSTRACT: this text aims the linguistic description of a data bank, still being developed, that will be incorporated to the Projeto Comet/USP. This bank is being developed to fulfill semi-automatic terminological cards and will be fed by various corpora available at Comet. These cards preview the construction of technical vocabulary based only on corpora. KEYWORDS: Corpus Linguistics, Data Bank, Terminography, Terminology, Translation. O projeto COMET (Corpora Multilíngüe para Ensino e Tradução) 2 Qualquer trabalho terminológico pressupõe várias etapas para a construção do produto final, que seria um vocabulário de uma determinada área ou um glossário (usando as concepções de dicionário, vocabulário e glossário, propostas por Barbosa, 2001). Entre essas etapas, uma das mais importantes é a organização dos dados recolhidos através de uma ficha, comumente chamada de ficha terminológica. Cabré (1993) nos explica o que vem a ser essa ficha: , da FFLCH/USP, coleta, já há alguns anos, vários corpora em diferentes áreas. Os alunos de mestrado e doutorado da Profa. Dra. Stella E. O. Tagnin, coordenadora do projeto, além de contribuírem para a construção desses corpora, também vêm desenvolvendo trabalhos de pós-graduação para expor diferentes maneiras de trabalhar com esses corpora. Uma das vertentes de estudo é a construção de vocabulários baseados em corpora de áreas de especialidade. Foram tomados como modelos dicionários, monolíngües ou bilíngües, baseados em grandes corpora gerais de língua (como as das editoras inglesas Longman e a Oxford, que trabalharam com corpora próprios ou o British National Corpus). A proposta de alguns doutorandos é a construção de ferramentas e modelos que funcionem como alicerce para a futura organização de obras terminológicas baseadas exclusivamente em corpora. Las fichas terminológicas son materiales estructurados que deben contener toda la información relevante sobre cada término. Las informaciones que presentan se extraen de las fichas de vaciado o de la documentación de referencia, y se representan siguiendo unos critérios fijados previamente. 1 FFLCH/USP – UNIBAN. 2 Uma melhor descrição do projeto pode ser vista em Tagnin, 2005.

fichaterminologicainformatizadaetapasedescricaodeumbancodedadosterminologicobilingue.pdf

Embed Size (px)

Citation preview

  • Ficha Terminolgica Informatizada: etapas e descrio de um banco de dados terminolgico bilnge.

    Guilherme Fromm1

    RESUMO: o objetivo deste texto apresentar um banco de dados, ainda no estgio de desenvolvimento, que ser incorporado ao Projeto Comet/USP. Esse banco servir para a elaborao de fichas terminolgicas semi-automatizadas e ser alimentado pelos diversos corpora existentes no projeto. Essas fichas prevem a elaborao de vocabulrios tcnicos baseados unicamente em corpus. UNITERMOS: Lingstica de Corpus, Banco de Dados, Terminografia, Terminologia, Traduo. ABSTRACT: this text aims the linguistic description of a data bank, still being developed, that will be incorporated to the Projeto Comet/USP. This bank is being developed to fulfill semi-automatic terminological cards and will be fed by various corpora available at Comet. These cards preview the construction of technical vocabulary based only on corpora. KEYWORDS: Corpus Linguistics, Data Bank, Terminography, Terminology, Translation. O projeto COMET (Corpora Multilnge para Ensino e Traduo)2

    Qualquer trabalho terminolgico pressupe vrias etapas para a construo do produto final,

    que seria um vocabulrio de uma determinada rea ou um glossrio (usando as concepes de

    dicionrio, vocabulrio e glossrio, propostas por Barbosa, 2001). Entre essas etapas, uma

    das mais importantes a organizao dos dados recolhidos atravs de uma ficha, comumente

    chamada de ficha terminolgica. Cabr (1993) nos explica o que vem a ser essa ficha:

    , da FFLCH/USP, coleta,

    j h alguns anos, vrios corpora em diferentes reas. Os alunos de mestrado e doutorado da

    Profa. Dra. Stella E. O. Tagnin, coordenadora do projeto, alm de contriburem para a

    construo desses corpora, tambm vm desenvolvendo trabalhos de ps-graduao para

    expor diferentes maneiras de trabalhar com esses corpora. Uma das vertentes de estudo a

    construo de vocabulrios baseados em corpora de reas de especialidade. Foram tomados

    como modelos dicionrios, monolnges ou bilnges, baseados em grandes corpora gerais de

    lngua (como as das editoras inglesas Longman e a Oxford, que trabalharam com corpora

    prprios ou o British National Corpus). A proposta de alguns doutorandos a construo de

    ferramentas e modelos que funcionem como alicerce para a futura organizao de obras

    terminolgicas baseadas exclusivamente em corpora.

    Las fichas terminolgicas son materiales estructurados que deben contener toda la informacin relevante sobre cada trmino. Las informaciones que presentan se extraen de las fichas de vaciado o de la documentacin de referencia, y se representan siguiendo unos critrios fijados previamente.

    1 FFLCH/USP UNIBAN. 2 Uma melhor descrio do projeto pode ser vista em Tagnin, 2005.

  • Hay muchos modelos de fichas terminolgicas, de acuerdo com los objetivos de cada trabajo y las necesidades de cada organismo. De entrada, podemos distinguir entre fichas monolinges, fichas monolinges com equivalncia y fichas bilinges o plurilinges.

    A ficha terminolgica foi, durante muito tempo, elaborada e preenchida atravs de um

    trabalho manual. O advento dos computadores permitiu no s o desenvolvimento da

    Lingstica de Corpus3

    O objetivo inicial da construo desse banco prover o Projeto COMET de uma ferramenta

    informatizada semi-automtica que auxilie no desenvolvimento de obras terminolgicas

    desenvolvidas a partir da grande base de corpora bilnges j levantadas e disponibilizadas

    pelo mesmo. O objetivo secundrio fornecer uma base para o desenvolvimento de novas

    ferramentas ligadas extrao de termos a partir de corpora de reas de especialidade e a

    construo de novas ferramentas de visualizao do produto final (vocabulrios tcnicos

    bilnges) para diferentes usurios.

    , como tambm a informatizao dessas fichas e a construo de

    bancos de dados. Propomos, a partir desse momento, a construo de um banco de dados

    terminolgico bilnge para o projeto COMET.

    Embora existam vrios programas disponveis no mercado internacional (como o Multiterm,

    Term-PC e outros, muito bem analisados por Gavenski, 2001) e vrios bancos de dados

    terminolgicos j desenvolvidos no pas, como os pequenos bancos usados pelo

    CITRAT/CETRAD/USP no ensino de Terminologia para a rea de traduo4

    A criao de uma ficha terminolgica essencial para o desenvolvimento de um vocabulrio

    tcnico. Vrios modelos j foram propostos e, entre eles, podemos citar Aubert (1996),

    Krieger & Finatto (2004), Gavenski (2001), Bacellar (2002). O modelo que tomamos como

    ponto de partida para esse banco, no entanto, baseado em Fromm (2002)

    ou os grandes

    bancos, como o TERMISUL (Maciel, 2001), pensou-se na construo de um banco

    personalizado para as necessidades do COMET. A vantagem, alm do baixo custo de

    desenvolvimento (a servio da Empresa Jr., do ICMC/USP So Carlos), a possibilidade de

    agregao de novos mdulos, associados s pesquisas de mestrado e doutorado sob a

    responsabilidade da Profa. Stella e outros.

    5

    3 A Lingstica de Corpus ocupa-se da coleta e da explorao de corpora, ou conjuntos de dados lingsticos textuais coletados criteriosamente, com o propsito de servirem para a pesquisa de uma lngua ou variedade lingstica. Como tal, dedica-se explorao da linguagem por meio de evidncias empricas, extradas por computador. (Sardinha, 2004, p. 3).

    . A proposta da

    dissertao de mestrado do autor era mostrar um modelo para a construo de vocabulrio

    4 Desenvolvidos pelo Prof. Dr. Francis H. Aubert, baseados em um modelo construdo no banco de dados Access, da Microsoft. 5 A ficha terminolgica ali apresentada est disponibilizada aqui como anexo.

  • especializado de informtica para tradutores. Usando como base a ficha terminolgica

    monolnge no-informatizada ali apresentada, desenvolvemos uma nova proposta para uma

    ficha monolnge com equivalncia, que servir de base para a construo do banco de dados.

    Em conversas com o tcnico da Empresa Jr., decidiu-se pela construo de um banco de

    dados padro SQL, com duas tabelas bsicas para a inputao de dados. Devido

    complexidade de trabalho num banco de dados desse padro, ser criado um ambiente WEB

    para que os pesquisadores possam preencher as fichas. Em virtude dos custos de elaborao

    do projeto, somente um administrador ter acesso ao controle do banco numa primeira fase.

    Ao administrador caber o cadastro de pesquisadores (para que esses possam alimentar as

    fichas) e somente ele poder aprovar as fichas, sendo que essas s sero disponibilizadas para

    consulta no sistema aps aprovao pelo mesmo. Ao administrador caber, tambm, a

    insero de novas fichas terminolgicas, atualizao e remoo de fichas existentes no

    sistema.

    A primeira tabela do banco servir para a inputao de contextos (previamente selecionados)

    retirados de um corpus de especialidade de uma rea escolhida. Sero colocados, para cada

    termo, tantos contextos quanto os extrados do corpus e preenchidos os campos relativos a

    cada um: exemplo, fonte, data de coleta, data de insero. A partir de cada contexto, o

    pesquisador deve, tambm, extrair um conceito do mesmo. Devemos lembrar que ainda na

    primeira tabela, com a visualizao dos contextos em destaque, sero extradas vrias

    informaes morfolgicas, sintticas, semnticas e relativas ao corpus possveis6: entrada

    equivalente na outra lngua, nmero da acepo7

    A segunda tabela do banco, disponibilizada numa segunda pgina de insero de dados,

    servir para a construo da definio do termo. Nela sero visualizados os conceitos

    , posio de freqncia no corpus, formas

    equivalentes na mesma lngua, categoria gramatical, gnero, nmero, possibilidades de

    nmero (para palavras que s existem no singular ou plural), sigla, acrnimo, entrada por

    extenso, variaes morfossintticas, relaes de hiperonmia, relaes de hiponmia, relaes

    de co-hiponmia, relaes de antonmia, relaes de sinonmia, possveis remissivas. Alm

    disso, o pesquisador poder cruzar referncias com obras j publicadas, verificando se o

    termo dicionarizado, se h definies coincidentes, a fonte da definio e a definio

    dicionarizada em si.

    6 Uma obra terminolgica, normalmente, no apresenta aos leitores tantas informaes assim. Preferimos, no entanto, elaborar uma ficha com contedo o mais abrangente possvel, deixando-a mais prxima de uma ficha lexicogrfica. 7 Embora obras terminolgicas tendam a apresentar definies monossmicas, preferimos inserir esse campo. Algumas reas, que j atualmente apresentam uma grande diversidade de terminologia, como a informtica, podem vir a apresentar algumas definies polissmicas em suas diferentes subreas.

  • extrados pelos pesquisadores na primeira tabela e, a partir dos mesmos, selecionados os

    traos distintivos. Dali sero tirados o conceito final e a definio do termo8

    Podemos citar, como exemplo de trabalho em curso, a tese de doutorado de Fromm, que

    propor um website para o treinamento de alunos de traduo na rea de vocabulrios

    tcnicos. O usurio final ter acesso aos dados do banco, porm somente para consulta. A

    inovao proposta ser a forma de consultar o banco. A construo do ambiente web est

    sendo feita em conjunto com a construo do banco de dados. Elisa Duarte Teixeira

    desenvolve uma pesquisa (ainda em fase inicial), tambm de doutorado, para a extrao de

    dados diretamente de um corpus, o que providenciar a alimentao automtica de exemplos

    para a ficha terminolgica.

    . A consulta aos

    dados do banco poder ser feita por diferentes ferramentas, que devero ser desenvolvidas

    visando extrao de dados especficos ou gerais do mesmo.

    Referncias Bibliogrficas

    AUBERT, F. H. Introduo metodologia da pesquisa terminolgica bilnge. So Paulo:

    Humanitas, 1996.

    BACELLAR, F. Elementos para a elaborao de um dicionrio terminolgico bilnge em

    Cincias Agrrias. 2002. 200 f. Tese (Doutorado em Lingstica) Faculdade de Filosofia,

    Letras e Cincias Humanas, Universidade de So Paulo, So Paulo, 2002.

    BARBOSA, M. A. Dicionrio, vocabulrio, glossrio: concepes. In: ALVES, I. M. (org.).

    A constituio da normalizao terminolgica no Brasil. So Paulo: FFLCH/CITRAT, 2001.

    BERBER SARDINHA, T. Lingstica de Corpus. So Paulo: Manole, 2004.

    CABR, M. T. La terminologa. Teoria, metodologia, aplicaciones. Barcelona: Editorial

    Antrtida/Empries, 1993. p. 281-282.

    FROMM, G. Proposta para um modelo de glossrio de informtica para tradutores.

    Dissertao (Mestrado em Lingstica). Faculdade de Filosofia, Letras e Cincias Humanas,

    Universidade de So Paulo, So Paulo, 2002.

    GAVENSKI, M. M. Microisis: uma experincia no gerenciamento de dados terminolgicos.

    In: KRIEGER, M. G.; MACIEL, A. M. B (org.). Temas de terminologia. Porto Alegre/So

    Paulo: Ed. Universidade/UFRGS/Humanitas/USP, 2001.

    8 O conceito final montado tendo em vista os vrios conceitos previamente elaborados pelo termingrafo. A definio deve obedecer os critrios previamente estabelecidos na construo da obra. Cabr (1993, p. 207-213)

  • KRIEGER, M. G.; FINATTO, M. J. B. Introduo terminologia: teoria e prtica. So

    Paulo: Contexto, 2004.

    MACIEL, A. M. B. Termisul e termintica. In: KRIEGER, M. G.; MACIEL, A. M. B (org.).

    Temas de terminologia. Porto Alegre/So Paulo: Ed.Universidade/UFRGS/Humanitas/USP,

    2001.

    TAGNIN. S. E. O (2004). Um corpus multilnge para ensino e traduo o Comet: da

    construo explorao. Tradterm 10. So Paulo: Humanitas, 2004.

  • Anexo Exemplo de Ficha Terminolgica no Informatizada