22
DOMÍNIOS DE LINGU@GEM Revista Eletrônica de Lingüística (www.dominiosdelinguagem.org.br) Ano 2, nº 1 1º Semestre de 2008 ISSN 1980-5799 A CONSTRUÇÃO E ANÁLISE DE CORPORA PARA ALIMENTAÇÃO DE UM BANCO DE DADOS TERMINOGRÁFICO: UM EXEMPLO Guilherme Fromm Resumo: o presente artigo pretende demonstrar a criação de corpora técnicos bilíngües (português e inglês), com a finalidade de alimentar um banco de dados de caráter terminográfico. Para tanto, foram construídos dois corpora, bilíngües nas áreas de Informática e Lingüística, retirados da Internet, com aproximadamente um milhão de palavras cada um. Os corpora resultantes foram usados para levantamento de candidatos a termos nas duas áreas citadas (através do uso do software WordSmith Tools) e forneceram dados para a construção da microestrutura de verbetes técnicos, através de exemplos reais de uso de língua e dados morfo- sintático- semânticos. Abstract: the following article intends to show the creation of bilingual (English and Portuguese) technical corpora aiming the feeding of a terminographical data bank. Two corpora were built, in Information Technology and Linguistics areas and both were taken from the Internet, with around one million words each. The resulting corpora were used to find term candidates in both areas (using the software WordSmith Tools) and they offer data to build the microstructure of technical dictionaries entries, which show real examples of language usage and grammatical data. O que é um corpus? Um corpus, segundo Tagnin (2004), é “[...] uma coletânea de textos em formato eletrônico, compilada segundo critérios específicos, considerada representativa de uma ngua (ou da parte que se pretende estudar), destinada à pesquisa”. Bidermann (2001, p. 79) coloca como corpus um conjunto homogêneo de amostras de língua de qualquer tipo que deve possibilitar, mediante análise lingüística, a ampliação do conhecimento das estruturas lingüísticas da língua que ele representa. A área da Lingüística que trata dos estudos sobre corpora (assim como de suas compilações), é a Lingüística de Corpus. Para Berber Sardinha, A Lingüística de Corpus ocupa-se da coleta e da exploração de corpora, ou conjuntos de dados lingüísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador. (2004, p. 3). Doutor em Língua Inglesa pela FFLCH/USP. Professor Adjunto da UNIBAN.

DOMÍNIOS DE LINGU@GEM - ileel.ufu.br · (português e inglês), com a finalidade de alimentar um banco de dados de caráter terminográfico. Para tanto, foram construídos dois corpora,

Embed Size (px)

Citation preview

DOMIacuteNIOS DE LINGUGEM

Revista Eletrocircnica de Linguumliacutestica (wwwdominiosdelinguagemorgbr) Ano 2 nordm 1 ndash 1ordm Semestre de 2008 ndash ISSN 1980-5799

A CONSTRUCcedilAtildeO E ANAacuteLISE DE CORPORA PARA ALIMENTACcedilAtildeO DE UM

BANCO DE DADOS TERMINOGRAacuteFICO UM EXEMPLO

Guilherme Fromm

Resumo o presente artigo pretende demonstrar a criaccedilatildeo de corpora teacutecnicos biliacutenguumles (portuguecircs e inglecircs) com a finalidade de alimentar um banco de dados de caraacuteter terminograacutefico Para tanto foram construiacutedos dois corpora biliacutenguumles nas aacutereas de Informaacutetica e Linguumliacutestica retirados da Internet com aproximadamente um milhatildeo de palavras cada um Os corpora resultantes foram usados para levantamento de candidatos a termos nas duas aacutereas citadas (atraveacutes do uso do software WordSmith Tools) e forneceram dados para a construccedilatildeo da microestrutura de verbetes teacutecnicos atraveacutes de exemplos reais de uso de liacutengua e dados morfo- sintaacutetico- semacircnticos

Abstract the following article intends to show the creation of bilingual (English and Portuguese) technical corpora aiming the feeding of a terminographical data bank Two corpora were built in Information Technology and Linguistics areas and both were taken from the Internet with around one million words each The resulting corpora were used to find term candidates in both areas (using the software WordSmith Tools) and they offer data to build the microstructure of technical dictionaries entries which show real examples of language usage and grammatical data

O que eacute um corpus

Um corpus segundo Tagnin (2004) eacute ldquo[] uma coletacircnea de textos em formato

eletrocircnico compilada segundo criteacuterios especiacuteficos considerada representativa de uma

liacutengua (ou da parte que se pretende estudar) destinada agrave pesquisardquo Bidermann (2001 p

79) coloca como corpus um conjunto homogecircneo de amostras de liacutengua de qualquer

tipo que deve possibilitar mediante anaacutelise linguumliacutestica a ampliaccedilatildeo do conhecimento

das estruturas linguumliacutesticas da liacutengua que ele representa A aacuterea da Linguumliacutestica que trata

dos estudos sobre corpora (assim como de suas compilaccedilotildees) eacute a Linguumliacutestica de

Corpus Para Berber Sardinha

A Linguumliacutestica de Corpus ocupa-se da coleta e da exploraccedilatildeo de corpora ou conjuntos de dados linguumliacutesticos textuais coletados criteriosamente com o propoacutesito de servirem para a pesquisa de uma liacutengua ou variedade linguumliacutestica Como tal dedica-se agrave exploraccedilatildeo da linguagem por meio de evidecircncias empiacutericas extraiacutedas por computador (2004 p 3)

Doutor em Liacutengua Inglesa pela FFLCHUSP Professor Adjunto da UNIBAN

2

Ainda segundo Berber Sardinha (p 2021) quanto agrave tipologia os corpora

podem ser de diferentes

a modos falados (transcriccedilotildees) ou escritos

b tempos sincrocircnicos ou diacrocircnicos contemporacircneos ou histoacutericos

c seleccedilotildees por amostragem (estaacutetico amostra finita da linguagem como um todo)

monitor (dinacircmico reciclaacutevel) balanceado (textos distribuiacutedos em quantidades

semelhantes)

d conteuacutedos especializados (gecircneros ou registros definidos) regionais ou dialetais

multiliacutenguumles

e autorias de aprendiz (falantes natildeo-nativos) ou de liacutengua nativa (falantes nativos)

f disposiccedilotildees internas paralelos (original e traduccedilatildeo) e alinhados1

g finalidades de estudo (corpus a ser descrito) de referecircncia (para contrastar com o

corpus de estudo) e de treinamento (para desenvolvimento de aplicaccedilotildees e ferramentas

de anaacutelise)

Os corpora construiacutedos

A construccedilatildeo do corpus para a alimentaccedilatildeo do banco de dados passou por vaacuterias

fases Pensou-se o uso de corpora biliacutenguumles comparaacuteveis jaacute prontos adotando o

princiacutepio da reusabilidade Esses corpora seriam buscados num dos vaacuterios projetos do

COMET o CORTEC Segundo o site do COMET (wwwfflchuspbrdlmcomet) o

CORTEC ldquo[]eacute um corpus comparaacutevel de textos teacutecnicos eou cientiacuteficos

originalmente escritos em portuguecircs brasileiro e em inglecircsrdquo As aacutereas iniciais abrangidas

pelo projeto satildeo Direito Contratual Informaacutetica Hipertensatildeo Arterial Culinaacuteria e

Ecoturismo O projeto prevecirc a inserccedilatildeo contiacutenua de corpora em novas aacutereas e a

complementaccedilatildeo tambeacutem contiacutenua dos corpora jaacute existentes

Apoacutes conseguir os corpora completos do CORTEC verificou-se que para o

projeto de levantamento da macroestrutura e construccedilatildeo da microestrutura de um

dicionaacuterio teacutecnico os mesmos natildeo apresentavam alguns aspectos essenciais

1 natildeo havia aacutervores ou mapas conceituais para todos os campos envolvidos o que

eacute essencial para verificar se todas as aacutereas foram contempladas na construccedilatildeo

1 Utiliza-se neste artigo e nos trabalhos propostos pelo projeto COMET a oposiccedilatildeo entre corpora paralelos (textos originais e suas traduccedilotildees) e comparaacuteveis (textos equivalentes em liacutenguas diferentes) diferente portanto dessa apresentada por Berber Sardinha

3

2 o balanceamento desses corpora estava bastante irregular

3 o planejamento original dos mesmos natildeo previa um fim

lexicograacuteficoterminograacutefico de modo que nem sempre incluiacutea textos que

permitissem a construccedilatildeo de definiccedilotildees para o banco de dados

4 o tamanho de cada corpus de aproximadamente duzentas mil palavras tambeacutem

natildeo se mostrou suficiente para selecionar uma quantidade de termos em todas as

aacutereas eou a possibilidade de criar suas respectivas definiccedilotildees

Verificada a necessidade de novos corpora partiu-se em primeiro lugar para a

reconstruccedilatildeo do corpus de Informaacutetica (ou Computaccedilatildeo) Embora jaacute houvesse um

corpus semelhante organizado durante o mestrado de Fromm (2002) o mesmo era

monoliacutenguumle (portuguecircs) Decidiu-se entatildeo pela ampliaccedilatildeo dos corpora desenvolvidos

para o CORTEC aproveitando o que jaacute havia sido levantado A estruturaccedilatildeo final

desses corpora ficou assim delineada escritos sincrocircnicos de amostragem (embora

exista a possibilidade de se transformarem em monitor) especializados biliacutenguumles de

liacutengua nativa comparaacuteveis (segundo os criteacuterios do COMET) e de estudo

OntologiaTaxonomia a aacutervore de campo

Um dos pontos baacutesicos para a elaboraccedilatildeo de um banco de dados eacute a criaccedilatildeo de

uma estrutura para organizar a informaccedilatildeo a ser coletada Vaacuterios tipos de estruturas

podem ser elaboradas de acordo com o objetivo final Segundo Almeida e Bax (2003 p

7)

[e]struturas que se organizam a partir da utilizaccedilatildeo de termos satildeo os arquivos de autoridade glossaacuterios e dicionaacuterios Estruturas que se organizam com a classificaccedilatildeo e a criaccedilatildeo de categorias satildeo os cabeccedilalhos de assunto e os esquemas de classificaccedilatildeo (ou taxonomias) As estruturas que se organizam a partir de conceitos e de seus relacionamentos satildeo as ontologias os tesaurus e as redes semacircnticas (grifos dos autores)

Embora essa classificaccedilatildeo dos autores pareccedila bastante clara haacute diversos

problemas em tornaacute-la universal Sowa (1999) por exemplo defende uma ideacuteia de

categorizaccedilatildeo para ontologias ao colocar que

4

O assunto da ontologia eacute o estudo das categorias de coisas que existem ou podem vir a existir em algum domiacutenio O produto de tal estudo chamado ontologia eacute um cataacutelogo de tipos de coisas que se pressupotildee existirem em um domiacutenio de interesse D da perspectiva de uma pessoa que usa uma liacutengua L para o propoacutesito de falar sobre D2

(grifos do autor minha traduccedilatildeo)

Tendo em vista esses diferentes conceitos para denominar o que eacute uma ontologia

e uma taxonomia (teacutecnica de classificaccedilatildeo segundo Hoauiss) para o presente trabalho

foi escolhido o termo taxonomia para indicar a construccedilatildeo da aacutervore do campo

pesquisada para a construccedilatildeo do corpus No site desenvolvido para a inserccedilatildeo dos dados

do banco (httpjricmcscuspbr~cometdic acesso restrito) no entanto optou-se pelo

uso do termo ontologia para designar essa mesma aacutervore O termo ontologia cada vez

mais estaacute associado ao uso de ferramentas computacionais para diversos tipos de

anaacutelise o que se prova pertinente para o presente caso

O modelo tomado como base para a construccedilatildeo de uma aacutervore de campo foi

aquele apresentado por Marinotto (1995) para a aacuterea de Aeronaacuteutica e a divisatildeo

hieraacuterquica proposta para o saber humano campo aacuterea domiacutenio subdomiacutenio e outros

A aacutervore do campo da computaccedilatildeo jaacute havia sido previamente desenvolvida por Fromm

(2002) para a informaacutetica3 em geral aquela no entanto natildeo mais representa um estado

da arte do campo em questatildeo o extremo dinamismo desse campo na criaccedilatildeo de novas

tecnologias e produtos requer uma atualizaccedilatildeo constante da mesma A construccedilatildeo de

uma taxonomia no entanto natildeo eacute infaliacutevel haacute sempre controveacutersias por parte dos

especialistas quanto agrave sua montagem

2 The subject of ontology is the study of the categories of things that exist or may exist in some domain The product of such a study called an ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D

3 Embora os termos informaacutetica e computaccedilatildeo natildeo se apresentem como sinocircnimos para Houaiss eles pertencem ao mesmo campo Tomo aqui esses termos como sinocircnimos

5

Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel

A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns

professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem

disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma

das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute

aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo

administrador no banco de dados

4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)

6

Grandes Aacutereas

o Computaccedilatildeo

o Hardware

o Componentes Internos

o Computadores

o Perifeacutericos

o Armazenagem

o Cartatildeo Flash

o Discos Oacuteticos

o HD

o Pen-Drive

o Drives Diversos

o Impressoras

o Monitores

o Mouses

o Multifuncionais

o Multimiacutedia

o Placas Diversas

o Scanner

o Teclados

o Rede

o Software

A coleta dos textos

Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de

textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees

para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos

automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise

de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA

ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas

disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento

de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram

processados de acordo com as necessidades aqui propostas

Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem

apresentar trecircs tipos de contextos possiacuteveis

O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e

7

similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)

A busca por contextos associativos no caso da presente pesquisa pode ser

automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que

seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem

certo conhecimento do terminograacutefo sobre como localizaacute-los

A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam

deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao

proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas

em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o

levantamento dos contextos foi insatisfatoacuterio

Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi

estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore

quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes

iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como

teste) para o levantamento dos termos e um bom balanceamento entre esses

subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada

liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo

limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o

objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo

teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise

o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa

A coleta dos corpora

Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram

totalmente levantados pela Internet em sites especializados muitos de caraacuteter

enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede

(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem

representados em termo de quantidade e qualidade na Internet) e a velocidade com que

os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o

8

campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute

mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos

sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado

assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado

de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo

disponibilizados na iacutentegra no site que daacute acesso ao banco de dados

(httpjricmcscuspbr~cometdic)

Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas

na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as

liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos

coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na

aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos

remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas

pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos

aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo

Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware

Figura 3 Idem aacutereas software e rede

5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

2

Ainda segundo Berber Sardinha (p 2021) quanto agrave tipologia os corpora

podem ser de diferentes

a modos falados (transcriccedilotildees) ou escritos

b tempos sincrocircnicos ou diacrocircnicos contemporacircneos ou histoacutericos

c seleccedilotildees por amostragem (estaacutetico amostra finita da linguagem como um todo)

monitor (dinacircmico reciclaacutevel) balanceado (textos distribuiacutedos em quantidades

semelhantes)

d conteuacutedos especializados (gecircneros ou registros definidos) regionais ou dialetais

multiliacutenguumles

e autorias de aprendiz (falantes natildeo-nativos) ou de liacutengua nativa (falantes nativos)

f disposiccedilotildees internas paralelos (original e traduccedilatildeo) e alinhados1

g finalidades de estudo (corpus a ser descrito) de referecircncia (para contrastar com o

corpus de estudo) e de treinamento (para desenvolvimento de aplicaccedilotildees e ferramentas

de anaacutelise)

Os corpora construiacutedos

A construccedilatildeo do corpus para a alimentaccedilatildeo do banco de dados passou por vaacuterias

fases Pensou-se o uso de corpora biliacutenguumles comparaacuteveis jaacute prontos adotando o

princiacutepio da reusabilidade Esses corpora seriam buscados num dos vaacuterios projetos do

COMET o CORTEC Segundo o site do COMET (wwwfflchuspbrdlmcomet) o

CORTEC ldquo[]eacute um corpus comparaacutevel de textos teacutecnicos eou cientiacuteficos

originalmente escritos em portuguecircs brasileiro e em inglecircsrdquo As aacutereas iniciais abrangidas

pelo projeto satildeo Direito Contratual Informaacutetica Hipertensatildeo Arterial Culinaacuteria e

Ecoturismo O projeto prevecirc a inserccedilatildeo contiacutenua de corpora em novas aacutereas e a

complementaccedilatildeo tambeacutem contiacutenua dos corpora jaacute existentes

Apoacutes conseguir os corpora completos do CORTEC verificou-se que para o

projeto de levantamento da macroestrutura e construccedilatildeo da microestrutura de um

dicionaacuterio teacutecnico os mesmos natildeo apresentavam alguns aspectos essenciais

1 natildeo havia aacutervores ou mapas conceituais para todos os campos envolvidos o que

eacute essencial para verificar se todas as aacutereas foram contempladas na construccedilatildeo

1 Utiliza-se neste artigo e nos trabalhos propostos pelo projeto COMET a oposiccedilatildeo entre corpora paralelos (textos originais e suas traduccedilotildees) e comparaacuteveis (textos equivalentes em liacutenguas diferentes) diferente portanto dessa apresentada por Berber Sardinha

3

2 o balanceamento desses corpora estava bastante irregular

3 o planejamento original dos mesmos natildeo previa um fim

lexicograacuteficoterminograacutefico de modo que nem sempre incluiacutea textos que

permitissem a construccedilatildeo de definiccedilotildees para o banco de dados

4 o tamanho de cada corpus de aproximadamente duzentas mil palavras tambeacutem

natildeo se mostrou suficiente para selecionar uma quantidade de termos em todas as

aacutereas eou a possibilidade de criar suas respectivas definiccedilotildees

Verificada a necessidade de novos corpora partiu-se em primeiro lugar para a

reconstruccedilatildeo do corpus de Informaacutetica (ou Computaccedilatildeo) Embora jaacute houvesse um

corpus semelhante organizado durante o mestrado de Fromm (2002) o mesmo era

monoliacutenguumle (portuguecircs) Decidiu-se entatildeo pela ampliaccedilatildeo dos corpora desenvolvidos

para o CORTEC aproveitando o que jaacute havia sido levantado A estruturaccedilatildeo final

desses corpora ficou assim delineada escritos sincrocircnicos de amostragem (embora

exista a possibilidade de se transformarem em monitor) especializados biliacutenguumles de

liacutengua nativa comparaacuteveis (segundo os criteacuterios do COMET) e de estudo

OntologiaTaxonomia a aacutervore de campo

Um dos pontos baacutesicos para a elaboraccedilatildeo de um banco de dados eacute a criaccedilatildeo de

uma estrutura para organizar a informaccedilatildeo a ser coletada Vaacuterios tipos de estruturas

podem ser elaboradas de acordo com o objetivo final Segundo Almeida e Bax (2003 p

7)

[e]struturas que se organizam a partir da utilizaccedilatildeo de termos satildeo os arquivos de autoridade glossaacuterios e dicionaacuterios Estruturas que se organizam com a classificaccedilatildeo e a criaccedilatildeo de categorias satildeo os cabeccedilalhos de assunto e os esquemas de classificaccedilatildeo (ou taxonomias) As estruturas que se organizam a partir de conceitos e de seus relacionamentos satildeo as ontologias os tesaurus e as redes semacircnticas (grifos dos autores)

Embora essa classificaccedilatildeo dos autores pareccedila bastante clara haacute diversos

problemas em tornaacute-la universal Sowa (1999) por exemplo defende uma ideacuteia de

categorizaccedilatildeo para ontologias ao colocar que

4

O assunto da ontologia eacute o estudo das categorias de coisas que existem ou podem vir a existir em algum domiacutenio O produto de tal estudo chamado ontologia eacute um cataacutelogo de tipos de coisas que se pressupotildee existirem em um domiacutenio de interesse D da perspectiva de uma pessoa que usa uma liacutengua L para o propoacutesito de falar sobre D2

(grifos do autor minha traduccedilatildeo)

Tendo em vista esses diferentes conceitos para denominar o que eacute uma ontologia

e uma taxonomia (teacutecnica de classificaccedilatildeo segundo Hoauiss) para o presente trabalho

foi escolhido o termo taxonomia para indicar a construccedilatildeo da aacutervore do campo

pesquisada para a construccedilatildeo do corpus No site desenvolvido para a inserccedilatildeo dos dados

do banco (httpjricmcscuspbr~cometdic acesso restrito) no entanto optou-se pelo

uso do termo ontologia para designar essa mesma aacutervore O termo ontologia cada vez

mais estaacute associado ao uso de ferramentas computacionais para diversos tipos de

anaacutelise o que se prova pertinente para o presente caso

O modelo tomado como base para a construccedilatildeo de uma aacutervore de campo foi

aquele apresentado por Marinotto (1995) para a aacuterea de Aeronaacuteutica e a divisatildeo

hieraacuterquica proposta para o saber humano campo aacuterea domiacutenio subdomiacutenio e outros

A aacutervore do campo da computaccedilatildeo jaacute havia sido previamente desenvolvida por Fromm

(2002) para a informaacutetica3 em geral aquela no entanto natildeo mais representa um estado

da arte do campo em questatildeo o extremo dinamismo desse campo na criaccedilatildeo de novas

tecnologias e produtos requer uma atualizaccedilatildeo constante da mesma A construccedilatildeo de

uma taxonomia no entanto natildeo eacute infaliacutevel haacute sempre controveacutersias por parte dos

especialistas quanto agrave sua montagem

2 The subject of ontology is the study of the categories of things that exist or may exist in some domain The product of such a study called an ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D

3 Embora os termos informaacutetica e computaccedilatildeo natildeo se apresentem como sinocircnimos para Houaiss eles pertencem ao mesmo campo Tomo aqui esses termos como sinocircnimos

5

Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel

A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns

professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem

disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma

das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute

aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo

administrador no banco de dados

4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)

6

Grandes Aacutereas

o Computaccedilatildeo

o Hardware

o Componentes Internos

o Computadores

o Perifeacutericos

o Armazenagem

o Cartatildeo Flash

o Discos Oacuteticos

o HD

o Pen-Drive

o Drives Diversos

o Impressoras

o Monitores

o Mouses

o Multifuncionais

o Multimiacutedia

o Placas Diversas

o Scanner

o Teclados

o Rede

o Software

A coleta dos textos

Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de

textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees

para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos

automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise

de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA

ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas

disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento

de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram

processados de acordo com as necessidades aqui propostas

Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem

apresentar trecircs tipos de contextos possiacuteveis

O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e

7

similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)

A busca por contextos associativos no caso da presente pesquisa pode ser

automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que

seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem

certo conhecimento do terminograacutefo sobre como localizaacute-los

A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam

deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao

proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas

em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o

levantamento dos contextos foi insatisfatoacuterio

Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi

estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore

quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes

iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como

teste) para o levantamento dos termos e um bom balanceamento entre esses

subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada

liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo

limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o

objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo

teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise

o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa

A coleta dos corpora

Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram

totalmente levantados pela Internet em sites especializados muitos de caraacuteter

enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede

(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem

representados em termo de quantidade e qualidade na Internet) e a velocidade com que

os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o

8

campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute

mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos

sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado

assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado

de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo

disponibilizados na iacutentegra no site que daacute acesso ao banco de dados

(httpjricmcscuspbr~cometdic)

Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas

na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as

liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos

coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na

aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos

remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas

pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos

aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo

Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware

Figura 3 Idem aacutereas software e rede

5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

3

2 o balanceamento desses corpora estava bastante irregular

3 o planejamento original dos mesmos natildeo previa um fim

lexicograacuteficoterminograacutefico de modo que nem sempre incluiacutea textos que

permitissem a construccedilatildeo de definiccedilotildees para o banco de dados

4 o tamanho de cada corpus de aproximadamente duzentas mil palavras tambeacutem

natildeo se mostrou suficiente para selecionar uma quantidade de termos em todas as

aacutereas eou a possibilidade de criar suas respectivas definiccedilotildees

Verificada a necessidade de novos corpora partiu-se em primeiro lugar para a

reconstruccedilatildeo do corpus de Informaacutetica (ou Computaccedilatildeo) Embora jaacute houvesse um

corpus semelhante organizado durante o mestrado de Fromm (2002) o mesmo era

monoliacutenguumle (portuguecircs) Decidiu-se entatildeo pela ampliaccedilatildeo dos corpora desenvolvidos

para o CORTEC aproveitando o que jaacute havia sido levantado A estruturaccedilatildeo final

desses corpora ficou assim delineada escritos sincrocircnicos de amostragem (embora

exista a possibilidade de se transformarem em monitor) especializados biliacutenguumles de

liacutengua nativa comparaacuteveis (segundo os criteacuterios do COMET) e de estudo

OntologiaTaxonomia a aacutervore de campo

Um dos pontos baacutesicos para a elaboraccedilatildeo de um banco de dados eacute a criaccedilatildeo de

uma estrutura para organizar a informaccedilatildeo a ser coletada Vaacuterios tipos de estruturas

podem ser elaboradas de acordo com o objetivo final Segundo Almeida e Bax (2003 p

7)

[e]struturas que se organizam a partir da utilizaccedilatildeo de termos satildeo os arquivos de autoridade glossaacuterios e dicionaacuterios Estruturas que se organizam com a classificaccedilatildeo e a criaccedilatildeo de categorias satildeo os cabeccedilalhos de assunto e os esquemas de classificaccedilatildeo (ou taxonomias) As estruturas que se organizam a partir de conceitos e de seus relacionamentos satildeo as ontologias os tesaurus e as redes semacircnticas (grifos dos autores)

Embora essa classificaccedilatildeo dos autores pareccedila bastante clara haacute diversos

problemas em tornaacute-la universal Sowa (1999) por exemplo defende uma ideacuteia de

categorizaccedilatildeo para ontologias ao colocar que

4

O assunto da ontologia eacute o estudo das categorias de coisas que existem ou podem vir a existir em algum domiacutenio O produto de tal estudo chamado ontologia eacute um cataacutelogo de tipos de coisas que se pressupotildee existirem em um domiacutenio de interesse D da perspectiva de uma pessoa que usa uma liacutengua L para o propoacutesito de falar sobre D2

(grifos do autor minha traduccedilatildeo)

Tendo em vista esses diferentes conceitos para denominar o que eacute uma ontologia

e uma taxonomia (teacutecnica de classificaccedilatildeo segundo Hoauiss) para o presente trabalho

foi escolhido o termo taxonomia para indicar a construccedilatildeo da aacutervore do campo

pesquisada para a construccedilatildeo do corpus No site desenvolvido para a inserccedilatildeo dos dados

do banco (httpjricmcscuspbr~cometdic acesso restrito) no entanto optou-se pelo

uso do termo ontologia para designar essa mesma aacutervore O termo ontologia cada vez

mais estaacute associado ao uso de ferramentas computacionais para diversos tipos de

anaacutelise o que se prova pertinente para o presente caso

O modelo tomado como base para a construccedilatildeo de uma aacutervore de campo foi

aquele apresentado por Marinotto (1995) para a aacuterea de Aeronaacuteutica e a divisatildeo

hieraacuterquica proposta para o saber humano campo aacuterea domiacutenio subdomiacutenio e outros

A aacutervore do campo da computaccedilatildeo jaacute havia sido previamente desenvolvida por Fromm

(2002) para a informaacutetica3 em geral aquela no entanto natildeo mais representa um estado

da arte do campo em questatildeo o extremo dinamismo desse campo na criaccedilatildeo de novas

tecnologias e produtos requer uma atualizaccedilatildeo constante da mesma A construccedilatildeo de

uma taxonomia no entanto natildeo eacute infaliacutevel haacute sempre controveacutersias por parte dos

especialistas quanto agrave sua montagem

2 The subject of ontology is the study of the categories of things that exist or may exist in some domain The product of such a study called an ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D

3 Embora os termos informaacutetica e computaccedilatildeo natildeo se apresentem como sinocircnimos para Houaiss eles pertencem ao mesmo campo Tomo aqui esses termos como sinocircnimos

5

Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel

A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns

professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem

disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma

das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute

aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo

administrador no banco de dados

4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)

6

Grandes Aacutereas

o Computaccedilatildeo

o Hardware

o Componentes Internos

o Computadores

o Perifeacutericos

o Armazenagem

o Cartatildeo Flash

o Discos Oacuteticos

o HD

o Pen-Drive

o Drives Diversos

o Impressoras

o Monitores

o Mouses

o Multifuncionais

o Multimiacutedia

o Placas Diversas

o Scanner

o Teclados

o Rede

o Software

A coleta dos textos

Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de

textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees

para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos

automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise

de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA

ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas

disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento

de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram

processados de acordo com as necessidades aqui propostas

Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem

apresentar trecircs tipos de contextos possiacuteveis

O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e

7

similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)

A busca por contextos associativos no caso da presente pesquisa pode ser

automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que

seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem

certo conhecimento do terminograacutefo sobre como localizaacute-los

A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam

deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao

proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas

em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o

levantamento dos contextos foi insatisfatoacuterio

Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi

estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore

quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes

iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como

teste) para o levantamento dos termos e um bom balanceamento entre esses

subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada

liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo

limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o

objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo

teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise

o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa

A coleta dos corpora

Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram

totalmente levantados pela Internet em sites especializados muitos de caraacuteter

enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede

(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem

representados em termo de quantidade e qualidade na Internet) e a velocidade com que

os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o

8

campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute

mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos

sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado

assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado

de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo

disponibilizados na iacutentegra no site que daacute acesso ao banco de dados

(httpjricmcscuspbr~cometdic)

Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas

na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as

liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos

coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na

aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos

remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas

pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos

aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo

Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware

Figura 3 Idem aacutereas software e rede

5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

4

O assunto da ontologia eacute o estudo das categorias de coisas que existem ou podem vir a existir em algum domiacutenio O produto de tal estudo chamado ontologia eacute um cataacutelogo de tipos de coisas que se pressupotildee existirem em um domiacutenio de interesse D da perspectiva de uma pessoa que usa uma liacutengua L para o propoacutesito de falar sobre D2

(grifos do autor minha traduccedilatildeo)

Tendo em vista esses diferentes conceitos para denominar o que eacute uma ontologia

e uma taxonomia (teacutecnica de classificaccedilatildeo segundo Hoauiss) para o presente trabalho

foi escolhido o termo taxonomia para indicar a construccedilatildeo da aacutervore do campo

pesquisada para a construccedilatildeo do corpus No site desenvolvido para a inserccedilatildeo dos dados

do banco (httpjricmcscuspbr~cometdic acesso restrito) no entanto optou-se pelo

uso do termo ontologia para designar essa mesma aacutervore O termo ontologia cada vez

mais estaacute associado ao uso de ferramentas computacionais para diversos tipos de

anaacutelise o que se prova pertinente para o presente caso

O modelo tomado como base para a construccedilatildeo de uma aacutervore de campo foi

aquele apresentado por Marinotto (1995) para a aacuterea de Aeronaacuteutica e a divisatildeo

hieraacuterquica proposta para o saber humano campo aacuterea domiacutenio subdomiacutenio e outros

A aacutervore do campo da computaccedilatildeo jaacute havia sido previamente desenvolvida por Fromm

(2002) para a informaacutetica3 em geral aquela no entanto natildeo mais representa um estado

da arte do campo em questatildeo o extremo dinamismo desse campo na criaccedilatildeo de novas

tecnologias e produtos requer uma atualizaccedilatildeo constante da mesma A construccedilatildeo de

uma taxonomia no entanto natildeo eacute infaliacutevel haacute sempre controveacutersias por parte dos

especialistas quanto agrave sua montagem

2 The subject of ontology is the study of the categories of things that exist or may exist in some domain The product of such a study called an ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D

3 Embora os termos informaacutetica e computaccedilatildeo natildeo se apresentem como sinocircnimos para Houaiss eles pertencem ao mesmo campo Tomo aqui esses termos como sinocircnimos

5

Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel

A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns

professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem

disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma

das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute

aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo

administrador no banco de dados

4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)

6

Grandes Aacutereas

o Computaccedilatildeo

o Hardware

o Componentes Internos

o Computadores

o Perifeacutericos

o Armazenagem

o Cartatildeo Flash

o Discos Oacuteticos

o HD

o Pen-Drive

o Drives Diversos

o Impressoras

o Monitores

o Mouses

o Multifuncionais

o Multimiacutedia

o Placas Diversas

o Scanner

o Teclados

o Rede

o Software

A coleta dos textos

Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de

textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees

para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos

automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise

de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA

ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas

disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento

de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram

processados de acordo com as necessidades aqui propostas

Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem

apresentar trecircs tipos de contextos possiacuteveis

O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e

7

similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)

A busca por contextos associativos no caso da presente pesquisa pode ser

automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que

seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem

certo conhecimento do terminograacutefo sobre como localizaacute-los

A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam

deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao

proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas

em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o

levantamento dos contextos foi insatisfatoacuterio

Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi

estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore

quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes

iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como

teste) para o levantamento dos termos e um bom balanceamento entre esses

subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada

liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo

limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o

objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo

teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise

o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa

A coleta dos corpora

Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram

totalmente levantados pela Internet em sites especializados muitos de caraacuteter

enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede

(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem

representados em termo de quantidade e qualidade na Internet) e a velocidade com que

os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o

8

campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute

mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos

sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado

assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado

de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo

disponibilizados na iacutentegra no site que daacute acesso ao banco de dados

(httpjricmcscuspbr~cometdic)

Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas

na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as

liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos

coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na

aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos

remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas

pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos

aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo

Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware

Figura 3 Idem aacutereas software e rede

5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

5

Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel

A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns

professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem

disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma

das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute

aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo

administrador no banco de dados

4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)

6

Grandes Aacutereas

o Computaccedilatildeo

o Hardware

o Componentes Internos

o Computadores

o Perifeacutericos

o Armazenagem

o Cartatildeo Flash

o Discos Oacuteticos

o HD

o Pen-Drive

o Drives Diversos

o Impressoras

o Monitores

o Mouses

o Multifuncionais

o Multimiacutedia

o Placas Diversas

o Scanner

o Teclados

o Rede

o Software

A coleta dos textos

Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de

textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees

para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos

automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise

de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA

ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas

disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento

de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram

processados de acordo com as necessidades aqui propostas

Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem

apresentar trecircs tipos de contextos possiacuteveis

O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e

7

similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)

A busca por contextos associativos no caso da presente pesquisa pode ser

automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que

seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem

certo conhecimento do terminograacutefo sobre como localizaacute-los

A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam

deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao

proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas

em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o

levantamento dos contextos foi insatisfatoacuterio

Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi

estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore

quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes

iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como

teste) para o levantamento dos termos e um bom balanceamento entre esses

subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada

liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo

limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o

objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo

teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise

o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa

A coleta dos corpora

Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram

totalmente levantados pela Internet em sites especializados muitos de caraacuteter

enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede

(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem

representados em termo de quantidade e qualidade na Internet) e a velocidade com que

os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o

8

campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute

mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos

sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado

assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado

de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo

disponibilizados na iacutentegra no site que daacute acesso ao banco de dados

(httpjricmcscuspbr~cometdic)

Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas

na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as

liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos

coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na

aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos

remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas

pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos

aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo

Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware

Figura 3 Idem aacutereas software e rede

5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

6

Grandes Aacutereas

o Computaccedilatildeo

o Hardware

o Componentes Internos

o Computadores

o Perifeacutericos

o Armazenagem

o Cartatildeo Flash

o Discos Oacuteticos

o HD

o Pen-Drive

o Drives Diversos

o Impressoras

o Monitores

o Mouses

o Multifuncionais

o Multimiacutedia

o Placas Diversas

o Scanner

o Teclados

o Rede

o Software

A coleta dos textos

Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de

textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees

para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos

automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise

de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA

ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas

disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento

de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram

processados de acordo com as necessidades aqui propostas

Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem

apresentar trecircs tipos de contextos possiacuteveis

O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e

7

similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)

A busca por contextos associativos no caso da presente pesquisa pode ser

automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que

seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem

certo conhecimento do terminograacutefo sobre como localizaacute-los

A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam

deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao

proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas

em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o

levantamento dos contextos foi insatisfatoacuterio

Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi

estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore

quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes

iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como

teste) para o levantamento dos termos e um bom balanceamento entre esses

subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada

liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo

limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o

objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo

teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise

o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa

A coleta dos corpora

Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram

totalmente levantados pela Internet em sites especializados muitos de caraacuteter

enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede

(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem

representados em termo de quantidade e qualidade na Internet) e a velocidade com que

os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o

8

campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute

mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos

sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado

assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado

de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo

disponibilizados na iacutentegra no site que daacute acesso ao banco de dados

(httpjricmcscuspbr~cometdic)

Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas

na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as

liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos

coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na

aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos

remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas

pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos

aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo

Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware

Figura 3 Idem aacutereas software e rede

5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

7

similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)

A busca por contextos associativos no caso da presente pesquisa pode ser

automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que

seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem

certo conhecimento do terminograacutefo sobre como localizaacute-los

A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam

deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao

proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas

em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o

levantamento dos contextos foi insatisfatoacuterio

Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi

estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore

quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes

iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como

teste) para o levantamento dos termos e um bom balanceamento entre esses

subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada

liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo

limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o

objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo

teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise

o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa

A coleta dos corpora

Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram

totalmente levantados pela Internet em sites especializados muitos de caraacuteter

enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede

(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem

representados em termo de quantidade e qualidade na Internet) e a velocidade com que

os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o

8

campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute

mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos

sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado

assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado

de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo

disponibilizados na iacutentegra no site que daacute acesso ao banco de dados

(httpjricmcscuspbr~cometdic)

Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas

na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as

liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos

coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na

aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos

remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas

pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos

aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo

Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware

Figura 3 Idem aacutereas software e rede

5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

8

campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute

mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos

sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado

assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado

de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo

disponibilizados na iacutentegra no site que daacute acesso ao banco de dados

(httpjricmcscuspbr~cometdic)

Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas

na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as

liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos

coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na

aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos

remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas

pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos

aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo

Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware

Figura 3 Idem aacutereas software e rede

5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

9

A anaacutelise dos corpora

Para verificar se a quantidade de textos alocados a cada pasta obedecia ao

criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist

(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de

Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios

programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)

o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos

de anaacutelise que seratildeo demonstrados a seguir

O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187

palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004

p26) esses corpora seriam classificados de acordo com a quantidade de palavras

como meacutedios (de 250 mil a um milhatildeo de palavras)

Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)

6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

10

A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas

subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil

palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume

maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER

SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da

extensatildeo do corpus (no caso a Impressioniacutestica)

Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)

As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados

de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um

arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre

que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e

foram portanto descartados) Os arquivos em formato pdf normalmente estudos

acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma

quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para

o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools

4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o

maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia

repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior

anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de

coleta (figura 5)

Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist

partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes

de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos

chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em

anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs

foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)

totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de

palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American

7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

11

National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora

de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de

referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha

(2004 p102) como o tamanho recomendado

Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)

Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as

listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de

anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia

correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados

para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os

explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo

natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de

partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a

8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

12

tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as

palavras-chave em portuguecircs agora numa listagem em Excel

Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs

As palavras na primeira coluna indicam as palavras mais frequumlentes que assim

indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na

primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade

(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de

anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa

compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela

apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de

referecircncia ela eacute incluiacuteda na lista)

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

13

WordSmith Tools 40 -- 2762007

N Key word Freq RC Freq RC Keyness P

1

COMPUTADOR

3380

03203

28792

2230223

7E-23

2

IMPRESSORA

1812

01717

2526

1761062

1E-22

3

CLIQUE

1553

01472

2491

1476042

3E-22

4

PLACA

2104

01994

19180

136139

3E-22

5

WINDOWS

1603

01519

11497

1108675

6E-22

6

PROCESSADOR

1212

01148

2901

1073848

7E-22

7

BITS

1183

01121

2547

1068828

7E-22

8

USB

913

00865

326

1041225

7E-22

9

IMPRESSAtildeO

1617

01532

19473

9616599

9E-22

10

BARRAMENTO

815

00772

344

9159807

1E-21

11

PLACAS

1514

01435

17867

9061677

1E-21

12

MEMOacuteRIA

1964

01861

49114

8969695

1E-21

13

GEFORCE

672

00637

2

8686718

1E-21

14

SELECIONE

755

00715

496

81116

2E-21

15

PCI

782

00741

1351

7341269

2E-21

16

VIacuteDEO

1379

01307

25009

713415

2E-21

17

TELA

1241

01176

20775

660795

3E-21

18

CONTROLADOR

874

00828

4499

6575389

3E-21

19

DVD

755

00715

2026

6544251

3E-21

20

VOCEcirc

2539

02406

193135

0028

6410745

3E-21

21

RADEON

491

00465

0

6366831

3E-21

22

CONSULTE

630

00597

701

6330112

3E-21

23

HARDWARE

684

00648

1707

6012326

4E-21

24

PALM

700

00663

2140

5911728

4E-21

25

TECLADO

692

00656

2275

5757233

4E-21

26

DISCO

1345

01274

39388

5742442

4E-21

27

MOUSE

750

00711

3769

5675047

4E-21

28

MONITOR

796

00754

6107

5405326

5E-21

29

XP

558

00529

862

5335347

5E-21

30

MB

781

0074

6179

5258846

6E-21

31

BOTAtildeO

693

00657

3595

5203829

6E-21

32

EAX

388

00368

9

4945257

7E-21

33

MEMORIA

480

00455

466

4914386

7E-21

Planilha 1 Palavras-chave em portuguecircs

Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais

deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da

expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo

equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo

bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

14

satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados

indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a

obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes

(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo

o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato

grande o termo corrente em portuguecircs neste caso eacute disco)

Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em

Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua

Ordem

Portuguecircs

Ordem

Inglecircs

1

COMPUTADOR

23

COMPUTER

2

IMPRESSORA

65

PRINTER

4

PLACA

782

BOARD

6

PROCESSADOR

31

PROCESSOR

8

USB

13

USB

10

BARRAMENTO

71

BUS

12

MEMOacuteRIA

2

MEMORY

15

PCI

8

PCI

18

CONTROLADOR

46

CONTROLLER

25

TECLADO

11

KEYBOARD

26

DISCO

132

PLATTERS

36

MHZ

203

MHZ

37

APLICATIVOS

88

APPLICATIONS

38

TECLA

199

KEY

45

AGP

237

AGP

47

DADOS

3

DATA

57

DISPOSITIVO

25

DEVICE

64

SERVIDOR

26

SERVER

67

INSTALAR

194

INSTALL

68

DRIVE

5

DRIVE

72

SCSI

45

SCSI

77

HTTP

82

HTTP

81

INTERFACE

18

INTERFACE

83

ROM

53

ROM

90

CHIP

142

CHIP

92

RIacuteGIDO

30

HARD

102

DRIVER

499

DRIVER

107

CONFIGURACcedilOtildeES

181

SETTINGS

108

FIREWIRE

330

FIREWIRE

110

MAINFRAME

157

MAINFRAME

113

RAID

684

RAID

Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

15

A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles

apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do

banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique

tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos

explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos

nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros

(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para

haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos

candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das

legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados

nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma

das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons

de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim

como na planilha 2 indicam sua ordem de chavicidade

Portuguecircs Inglecircs

Legenda

1 COMPUTADOR 23 COMPUTER

definiccedilatildeo encontrada nas duas liacutenguas

2 IMPRESSORA 65 PRINTER

definiccedilatildeo natildeo encontrada nas duas liacutenguas

4 PLACA 782

BOARD

definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs

6 PROCESSADOR 31 PROCESSOR

definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs

8 USB 13 USB

10 BARRAMENTO 71 BUS

adicionado ao banco de dados

12 MEMOacuteRIA 2 MEMORY

natildeo adicionado ao banco de dados

15 PCI 8 PCI

18 CONTROLADOR 46 CONTROLLER

25 TECLADO 11 KEYBOARD

26 DISCO 132

PLATTERS

36 MHZ 203

MHZ

37 APLICATIVOS 88 APPLICATIONS

38 TECLA 199

KEY

45 AGP 237

AGP

47 DADOS 3 DATA

57 DISPOSITIVO 25 DEVICE

64 SERVIDOR 26 SERVER

67 INSTALAR 194

INSTALL

68 DRIVE 5 DRIVE

10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

16

72 SCSI 45 SCSI

77 HTTP 82 HTTP

81 INTERFACE 18 INTERFACE

83 ROM 53 ROM

90 CHIP 142

CHIP

92 RIacuteGIDO 30 HARD

102

DRIVER 499

DRIVER

107

CONFIGURACcedilOtildeES 181

SETTINGS

108

FIREWIRE 330

FIREWIRE

110

MAINFRAME 157

MAINFRAME

113

RAID 684

RAID

Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos

Para obter os contextos de cada termo utilizamos uma terceira ferramenta do

WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na

listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela

com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)

mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na

linha desejada na coluna File para que o texto seja mostrado por completo

Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha

de um texto) podem nos fornecer os contextos desejados foram usados basicamente

dois artifiacutecios

1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente

uma busca usando os paracircmetros de

(dois pontos) (

(parecircnteses) ou

(viacutergula) A

ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou

como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio

acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo

acima a busca seria realizada como computador computador ( ou

computador

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

17

Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas

2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta

frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro

termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas

Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito

colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna

R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no

original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e

destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha

quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo

computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)

Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre

uma nova tela (figura 10)

11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

18

Figura 8 Lista de colocaccedilotildees do termo computador

Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

19

Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)

A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios

que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras

colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar

uma definiccedilatildeo

Mais corpora

Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez

no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos

pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era

que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida

sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site

bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora

se fez necessaacuteria

Todos os passos descritos nos itens anteriores foram realizados novamente e

uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

20

se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute

diferente Essa nova aacutervore ficou configurada como na figura 11

Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil

palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o

corpus em inglecircs totalizou 1921811 palavras

Figura 11 Aacutervore do Campo da Linguumliacutestica

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

21

Em suma

O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados

sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e

subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos

de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao

corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de

exemplos encontrados)

No momento foram incluiacutedos somente textos escritos jaacute que os mesmos

representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de

texto (como os orais) sejam adicionados

Eacute de extrema importacircncia notar que diferente de algumas ferramentas

disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma

soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no

computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo

armazenados no banco de dados

Bibliografia

ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt

ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003

AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996

BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004

BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001

FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004

22

LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008

MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo

SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007

SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007

TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004