Artigo sobre Linguística de Corpus

Embed Size (px)

Citation preview

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    1/23

    Sandra Maria Alusio

    [email protected]

    Gladis Maria de Barcellos Almeida

    [email protected]

    O que e como se constri um corpus?

    Lies aprendidas na compilao de

    vrios corpora para pesquisa lingsticaWhat is acorpus and how to build it? Lessons learned fromdeveloping several linguistic corpora

    Concepo de corpuspara a Lingstica

    e para a Lingstica de Corpus

    A utilizao de corpussempre foi um recurso em-pregado em pesquisas lingsticas. A ttulo de ilustrao,podemos citar a utilizao de corpora em dicionrios ela-

    borados durante os sculos XVIII e XIX, como o casodo Vocabulrio Portuguez e Latino, elaborado pelo Pa-dre Rafael Bluteau e publicado entre 1712-1728, emboratenha sido concebido e realizado ainda no sculo XVII(Murakawa, 2006). O Vocabulrio de Bluteau, em oito vo-lumes, foi o primeiro dicionrio para o qual foi fixado um

    RESUMO - As pesquisas baseadas em corpus tm tido na ltima dcadaum amplo desenvolvimento no contexto brasileiro. Nota-se a suarelevncia e pertinncia nos domnios da Lingstica, da LingsticaAplicada e da Lingstica Computacional. Em vista disso, umaabordagem surge para sistematizar procedimentos e dar conta dessenovo modo de fazer pesquisa. Essa abordagem a Lingstica de Corpusque, auxiliada pelo desenvolvimento de ferramentas computacionaisespecficas para o tratamento do portugus brasileiro, pode alcanarum grande desenvolvimento no Brasil. Entretanto, muito do que j seobteve de desenvolvimento em Lingstica de Corpus no cenriointernacional no se reflete em muitas das pesquisas realizadas noBrasil, uma vez que as prticas mundialmente aceitas ainda no esto

    aqui sedimentadas, a despeito de haver no pas eminentes pesquisadoresque desenvolvem extraordinrios projetos baseados em corpus. Assim,este artigo tem o propsito de discorrer sobre a concepo de corpus,os requisitos e procedimentos para a sua elaborao, os corpora eferramentas existentes e disponveis e, finalmente, apresentar quatroprojetos envolvendo corpuscuja descrio e detalhamento pode auxiliaroutros pesquisadores nessa tarefa.

    Palavras-chave: corpus; lingstica de corpus; processamento de corpus.

    ABSTRACT - The research based on corpus has had in the lastdecade an ample development in the Brazilian context. Its relevancyis noticed in the Linguistics, Applied Linguistics and ComputationalLinguistics research areas. The approach of Corpus Linguisticscomes out to systematize procedures and to give account of thisnew way to make research. The development of Brazilian Portuguesenatural language processing tools can help Corpus Linguistics toreach a great development in Brazil. However, the advances inCorpus Linguistics in the international scenery have not happenedyet in many of the research carried out in Brazil. The reasons forthis is that the procedures and concepts world-wide accepted arenot still settled here, in spite of having researchers developing

    extraordinary projects based on corpus in Brazil. Thus, this articlehas the intention to discuss several definitions of corpus, therequirements and procedures for its elaboration, the availablecorpora and tools and, finally, to present four projects involvingcorpus whose description and detailing can assist other researchersin the corpus building and processing.

    Key-words: corpus; corpus linguistics; corpus processing.

    A corpus is a remarkable thing, not so much because it is a collection of

    language text, but because of the properties that it acquires if it is well-

    designed and carefully-constructed.

    (Sinclair, 2005)

    CalidoscpioVol. 4, n. 3 , p. 156-178, set/dez 2006 2006 by Unisinos

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    2/23

    Vol. 04 N. 03 set/dez 2006

    O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corporapara pesquisa lingstica 157

    corpus(Murakawa, 2001). Esse corpuscontendo cerca de406 obras, aproximadamente, com autores dos sculos XVa XVII, foi utilizado como exemplrio de uso lingsticopara as palavras que constavam da nomenclatura do dici-onrio (Murakawa, 2001; 2006). Outro exemplo j no scu-lo XIX oDiccionario da Lingua Portugueza, de Atniode Morais Silva, segunda edio publicada em 1813, o

    qual tambm se valeu de um corpus (Murakawa, 2006). Oque mudou, portanto, a concepo de corpus. Essa mu-dana de concepo deve-se Lingstica de Corpus,tida por Berber Sardinha (2004) como uma:

    abordagem que se ocupa da coleta e da explorao decorpora, ou conjuntos de dados lingsticos textuais queforam coletados criteriosamente, com o propsito de ser-virem para a pesquisa de uma lngua ou variedade lingsti-ca. Como tal, dedica-se explorao da linguagem atravsde evidncias empricas, extradas por computador (BerberSardinha, 2004).

    Importa, contudo, definir corpus. H, pelo menos,duas grandes perspectivas a partir das quais se pode de-finir corpus, uma da Lingstica, outra da Lingstica deCorpus.

    Apresentaremos, a seguir, quatro definies decorpusna perspectiva da Lingstica, retiradas de dicio-nrios de Lingstica ou de Linguagem. Para Galisson eCoste (1983), corpus:

    um conjunto finito de enunciados tomados como objeto deanlise. Mais precisamente, conjunto finito de enunciadosconsiderados caractersticos do tipo de lngua a estudar,reunidos para servirem de base descrio e, eventualmen-te, elaborao de um modelo explicativo dessa lngua.

    Trata-se, pois, de uma coleco de documentos quer orais(gravados ou transcritos) quer escritos, quer orais e escri-tos, de acordo com o tipo de investigao pretendido. Asdimenses do corpusvariam segundo os objectivos do in-vestigador e o volume dos enunciados considerados comocaractersticos do fenmeno a estudar. Um corpus cha-mado exaustivo quando compreende todos os enunciadoscaractersticos. E chamado selectivo quando compreen-de apenas uma parte desses enunciados.

    Para Dubois et al.(1993), corpus considerado oconjunto de enunciados a partir do qual se estabelece agramtica descritiva de uma lngua. Os autores aindacomplementam:

    [o] corpus no pode ser considerado como constituindo alngua, mas somente como uma amostra da lngua. (...) Ocorpusdeve ser representativo, isto , deve ilustrar toda agama das caractersticas estruturais. Poder-se-ia pensar queas dificuldades sero levantadas se um corpus for exaustivo(...). Na realidade, sendo indefinido o nmero de enuncia-dos possveis, no h exaustividade verdadeira e, alm dis-so, grandes quantidades de dados inteis s podem compli-car a pesquisa, tornando-a pesada.O lingista deve, pois,

    procurar obter um corpus realmente significativo. Enfim,o lingista deve desconfiar de tudo o que pode tornar o seucorpus no-representativo (mtodo de pesquisa escolhido,anomalia que constitui a intruso de lingista, preconceitosobre a lngua).

    Na concepo de Ducrot e Todorov (2001), corpus um conjunto, to variado quanto possvel, de enuncia-

    dos efetivamente emitidos por usurios da referida lnguaem determinada poca. Para Trask (2004), corpus umconjunto de textos escritos ou falados numa lngua, dis-ponvel para anlise.

    Segundo Sinclair, o maior lingista de corpusdahistria e responsvel pelo trabalho pioneiro na rea delxico com o dicionrio COBUILD, o primeiro a ser compi-lado a partir de um corpuscomputadorizado, prope aseguinte definio para corpusna perspectiva da Lings-tica de Corpus:

    A corpus is a collection of pieces of language text in

    electronic form, selected according to external criteria torepresent, as far as possible, a language or language varietyas a source of data for linguistic research (Sinclair, 20054)[grifo nosso].

    Ao observar essas definies, podemos perceberque uma das diferenas entre a concepo da Lingsticade Corpuse da Lingstica o formato do corpus, ou seja,os dados devem estar em formato eletrnico. O que signi-fica dizer que uma grande quantidade de livros, ou derevistas, ou mesmo de textos impressos no considera-da corpuspela Lingstica de Corpus, j que os dadoslingsticos no esto num formato que possam ser pro-cessados por computador.

    Para outros dois eminentes lingistas de corpus, oemprego do termo corpusimplica em conotaes bastan-te especficas. Segundo McEnery e Wilson (1996), a mo-derna noo de corpuscarrega consigo pelo menos qua-tro caractersticas fundamentais:

    a) amostragem e representatividade (samplingand representativeness):um corpusdeve teruma amostragem suficiente da lngua ou varie-dade de lngua que se quer analisar para obter-se o mximo de representatividade desta mes-ma lngua ou variedade de lngua;

    b) tamanho finito (finite size): com exceo de

    corpus-monitor1, todo corpus tem um tama-nho finito, por exemplo: 500 mil palavras, 1 mi-lho de palavras, 10 milhes de palavras, etc;

    c) formato eletrnico(machine-readable form):segundo McEnery e Wilson (1996), atualmen-te o emprego do termo corpussignifica admitirnecessariamente que os textos estejam no for-mato eletrnico, diferentemente da idia que

    1Corpus-monitor aquele que pode receber novos textos e tornar-se cada vez maior. um corpus til para Lexicografia, por exemplo, jque necessrio observar palavras novas na lngua ou palavras j conhecidas mas com emprego diferente.

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    3/23

    Sandra Maria Alusio e Gladis Maria de Barcellos Almeida158

    Calidoscpio

    se tinha de corpusno passado, a qual se refe-ria somente a textos impressos. Ainda de acor-do com McEnery e Wilson (1996), o formatopossui vantagens considerveis: i) os corporapodem ser pesquisados e manipulados de for-ma mais rpida; ii) os corporapodem ser maisfacilmente enriquecidos com informao extra;

    d) referncia padro(standard reference): ain-da de acordo com McEnery e Wilson (1996),existe um entendimento tcito de que umcorpusconstitui uma referncia padro para avariedade de lngua que ele representa, pres-supondo que o corpusesteja disponvel paraoutros pesquisadores, em outras palavras, oque se tem chamado de reusodo corpus.

    Dentre essas quatro caractersticas apontadas pe-los autores, a ltima digna de nota, j que uma outradiferena marcante entre a concepo de corpuspara a

    Lingstica e para a Lingstica de Corpus. Entende-seque disponibilizao de corpus compilado para futuraspesquisas uma caracterstica inerente ao corpus, de for-ma que todo o esforo empreendido para a sua constru-o no seja til apenas para uma pesquisa, uma vez quese tem uma referncia padro de lngua ou de variedade delngua que pode ser utilizada por outros pesquisadores.

    Percebe-se, pois, que os dois grandes pontos quediferem entre a Lingstica e a Lingstica de Corpusso:o formato computadorizado do corpuse a sua posteriordisponibilizao para outras pesquisas.

    Se a Lingstica de Corpusdescarta livros, revistase outros textos impressos considerados

    corpuspela Lin-

    gstica (pois no esto em formato computadorizado), ela(a Lingstica de Corpus) tambm descarta a Web comocorpus, ainda que os textos estejam disponveis e em for-mato eletrnico, pelo fato de suas dimenses serem desco-nhecidas, de estar continuamente mudando e pelo fato deno ter sido projetada a partir de uma perspectiva lingsti-ca. Entretanto, a prpria Web que vai facilitar a distribui-o e livre acesso de vrios corporacriados em vrios pro-

    jetos, reforando uma das caractersticas de corpuscitadaspor McEnery e Wilson (1996). Ainda com relao a Web,vale assinalar que existem autores que a consideram umcorpus, o caso de Kilgarriff e Grefenstette (2003).

    Com relao ao formato computadorizado, preci-so admitir que o surgimento do computador (sobretudodo computador pessoal) interferiu diretamente no s naconcepo que se tem de corpuscomo tambm na suaforma de armazenamento e explorao, j que os recursosoferecidos pelo computador permitiram que uma quanti-dade antes inimaginvel de textos pudesse ser processa-da na tela em questo de segundos, fazendo com quemuitas hipteses sobre determinados fenmenoslingsticos pudessem ser testadas rpida e eficientemen-te. Essa nova forma de armazenamento de textos permitiu

    a observao e descrio de fenmenos lingsticos re-correntes antes impossvel de perceber, dado que os pro-cedimentos de observao e descrio contavam apenascom recursos manuais.

    Sobretudo a partir da dcada de 1990, os corporapassam a ter papel fundamental nas pesquisas lingsti-cas, pois data dessa poca o incio das contribuies

    advindas da Computao e da Lingstica Computacional.Destacam-se, principalmente, o aprimoramento e desen-volvimento de ferramentas computacionais voltadas parao processamento de lngua natural (PLN) do portugusdo Brasil e o efeito que essas ferramentas tiveram para oprocessamento de corpus.

    De acordo com Trask (2004), a partir de corpora,podem-se fazer observaes precisas sobre o real com-portamento lingstico de falantes reais, proporcionandoinformaes altamente confiveis e isentas de opinies ede julgamentos prvios sobre os fatos de uma lngua.

    Desta forma, por meio de corpus, podem-se obser-

    var aspectos morfolgicos, sintticos, semnticos,discursivos, etc. bastante relevantes para uma pesquisalingstica. Podem-se ainda explicar a produtividade e oemprego de palavras, expresses e formas gramaticais. possvel descobrir fatos novos na lngua, no percept-veis pela intuio (Berber Sardinha, 2000). Em resumo, pormeio de corpus, descreve-se a lngua de forma objetiva.

    Questes importantes para o projeto de um

    corpuscomputadorizado

    Para o projeto de um corpus computadorizado,devem-se observar um conjunto de requisitos queimpactaro na validade e confiabilidade da pesquisa ba-seada no corpus, incluindo se o corpusde estudo serveao propsito inicial da pesquisa (Kennedy, 1998; Biber etal., 1998; Renouf, 1998; Sinclair, 2005): autenticidade, re-presentatividade, balanceamento, amostragem, diversidadee tamanho, os quais sero descritos a seguir.

    1) Os textos devem ser autnticos.Por autentici-dade, compreende-se: a) os textos devem tersido escritos em linguagem natural, no po-dendo ser textos produzidos com o propsi-to de serem alvo de pesquisa lingstica(Berber Sardinha, 2000); b) os textos devem

    ser escritos por falantes nativos, exceto se setratar de corpora de aprendizes, aquelescorpora cujos textos so provenientes de fa-lantes que esto aprendendo uma lngua es-trangeira (Berber Sardinha, 2000).

    2) O corpusdeve ter representatividade, isto ,ser representativo da lngua ou de uma varieda-de de lngua que ser deseja pesquisar.Idealmente, um corpusdeve ser elaborado deforma a representar determinadas caractersti-cas lingsticas da comunidade cuja lngua est

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    4/23

    Vol. 04 N. 03 set/dez 2006

    O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corporapara pesquisa lingstica 159

    2 http://www.titania.bham.ac.uk/.3 Por exemplo, estudo de um autor em particular, o qual no se encontra representado em algum corpus, ou de um gnero mais atual comoos e-mails e chats, estudo de textos de pocas no cobertas pelos corpora ou ainda estudo de um fenmeno raro.

    sob anlise (Sinclair, 2005). Da a importncia dese fazerem escolhas adequadas, de modo que ocorpus possa de fato espelhar comportamen-tos lingsticos. Questes que devem ser feitasdurante a seleo dos textos so: quais docu-mentos? Quais tipos de textos? Quais gnerostextuais? Enfim, o que de fato representa os

    usos lingsticos de uma comunidade?3) Apesar de Sinclair (2005) afirmar que o concei-

    to de balanceamento ainda mais vago que ode representatividade, preciso ter em menteque o corpusdeve ser balanceado, ou seja,deve ter um equilbrio de gneros discursivos(informativo, cientfico, religioso, etc.), ou detipos de textos (artigo, editorial, entrevista, dis-sertao, carta, etc.), ou de ttulos, ou de auto-res, ou de todos esses itens juntos, desde queas escolhas sejam adequadas pesquisa quese pretende realizar, demonstrando que os tex-

    tos foram escolhidos criteriosamente. Pode-mos dar como exemplo uma pesquisa que tempor objeto a descrio do pronome de trata-mento alocutivo (=voc). Uma pesquisa comoessa deve, necessariamente, selecionar para ocorpuso gnero epistolar (composto de car-tas), j que nesse gnero discursivo que podehaver ocorrncia significativa do pronomevoc. O mesmo no ocorreria se o gnero es-colhido fosse o jornalstico, por exemplo.

    4) Biber et al. (1998) advoga que uma amostragemproporcional no adequada para corpusde ln-gua, pois esta deveria ser organizadademograficamente. Entretanto, tal tipo de corpusno representaria os tipos de gneros e de tex-tos, pois um corpus com tal amostragem poderiaconter 90% de conversao, 3% de cartas e no-tas e 7% divididos entre tipos de textos tais comoreportagens e notcias, revistas, artigos acad-micos, literatura, aulas, e escrita no publicada,pois so poucas as pessoas que publicam oumesmo falam para uma grande audincia. Para oestudo da lngua importa um corpuscom amos-tras que sejam representativas por inclurem todaa variao lingstica que existe.

    5) Com relao diversidade, Biber et al. (1998)enfatiza que no existe o que chamamos de ln-gua geral, dado que cada gnero e tipo de tex-to tm seus prprios padres de uso. Destaforma, se um corpusse presta para estudos devariao ou procura representar uma lngua, eledeve se preocupar com a diversidade de gne-

    ros e tipos de textos, com a variao de dialetose, por ltimo, com uma diversidade de tpicosque de fundamental importncia para estudoslexicogrficos, pois a freqncia de muitas pa-lavras varia de acordo com a variao de tpi-cos. Este ltimo tipo de diversidade deve serconsiderado para todos os tipos de estudos.

    6) Segundo Sinclair (2005), o corpusdeve ter otamanho adequado ao tipo de pesquisa quese vai realizar e metodologia a ser adotada napesquisa. Quando se fala em tamanho de umcorpus, no se trata somente do nmero totalde palavras (tokens) e de palavras diferentes(types), mas com quantas categorias (gnerosdiscursivos, tipos de textos, datas, autores,etc.) um corpusdeve contar, quantas amos-tras de cada categoria e quantas palavras exis-tem dentre de cada amostra (Kennedy, 1998).Para estudos da prosdia, por exemplo, um

    corpusde 100 mil palavras ser o suficientepara generalizaes com propsitos descriti-vos; para estudos de muitos processos sint-ticos, um corpusde 500 mil a 1 milho de pala-vras suficiente; para a criao de dicionriosde lngua geral, que devem definir os vriossignificados de suas entradas, gramticas eusos, seria necessrio um corpusmuito maior,por exemplo, oBank of English2que apia acriao de produtos da editora Collins possuiatualmente 530 milhes de palavras.

    Para Biber (1993), a elaborao de umcorpus

    umprocesso que avana em ciclos: inicia-se a escolha detextos baseada em critrios externos culturalmente acei-tos (tipologia de gneros e tipos de textos, por exemplo),depois se prossegue com investigaes empricas da ln-gua ou variedade lingstica sob anlise (tambm denomi-nados critrios internos) e, finalmente, procede-se com areviso de todo o projeto.

    Etapas metodolgicas para a

    compilao de um corpus

    Embora existam muitos corporadisponveis tanto

    livremente como mediante pagamento (as taxas geralmen-te so modestas para pesquisa acadmica) a partir dosquais se pode gerar um subcorpus de estudo ou mesmotomar o corpustodo como uma unidade, dependendo daquesto de pesquisa3, ainda pode ser necessrio compi-lar um corpusprprio. Para a compilao de tal corpus,existem trs estgios principais a seguir: 1) projeto do

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    5/23

    Sandra Maria Alusio e Gladis Maria de Barcellos Almeida160

    Calidoscpio

    corpus, que inclui a seleo dos textos e os cuidados comos requisitos que foram discutidos na seo anterior, 2)compilao (ou captura), manipulao, nomeao dos ar-quivos de textos, e pedidos de permisso de uso, e 3)anotao.

    Projeto de corpus: a seleo dos textos

    Inicialmente, procede-se seleo dos textos per-tinentes e relevantes para a pesquisa. Para esta etapa, adefinio do tipo de corpus que est se compilando importante; outras decises dizem respeito ao seu tama-nho e sua composio em termos dos textos existentesbem como dos gneros aos quais eles pertencem.

    Existem vrias tipologias de corpusque indicamos parmetros importantes de considerao. Uma das maisantigas a de Atkins et al.(1992) e uma bastante atual ade Berber Sardinha (2004) que inclui sete critrios. Dentreeles, o mais importantes o critrio modalidade (texto

    falado, escrito ou ambos) e suas propores (dado que acompilao de um corpusde fala bastante cara).

    Compilao e manipulao do corpus

    A compilaoconsiste no armazenamento em ar-quivos predeterminados de todos os textos selecionados.

    Podem-se buscar textos provenientes da Web oumesmo textos impressos, nesse caso, ser necessriodigitaliz-los e corrigir o resultado do processo de OCR(optical character recognition) devido a erros comunsdurante o reconhecimento de caracteres, mesmo existindo

    atualmente bons produtos.Para o caso de se utilizar a Web, especificamente,existem duas grandes opes na obteno de textos, asquais se subdividem como segue:

    1) a busca na Web com mquinas de busca:a. uso de uma mquina de busca como o Google

    para pesquisar toda a Web (podem-se utilizarpalavras-chave escolhidas para a pesquisa emfoco, sobretudo no caso de pesquisasterminolgicas);

    b. uso de ferramentas que pr-processam e/oups-processam os resultados das buscas detais mquinas como fazem o WebCorp4 eKWiCFinder5;

    2) a coleta de pginas da Web, organizando-asnum computador local:a. construo automtica de corpuscom aju-

    da de offline browserscomo o HTTrack6oucom ajuda de ferramentas de apoio para a com-pilao de corpora descartveis (disposablecorpora) como o Corpgrafo7 e o ToolkitBootCat8, os quais geralmente realizam limpe-za de tabelas, referncias, agradecimentos, etc.e/ou reviso ortogrfica se essa operao forimportante para a pesquisa (por exemplo pes-quisa terminolgica);

    b. coleta do corpuspela seleo de pginas deforma manual ou semi-automtica de acordocom um projeto especfico de corpus. Esta l-tima opo no diferente da forma como gran-des corpora, como o BNC9, foram construdos.

    A manipulao do corpuscompe-se das seguin-tes atividades:

    a) converso manual e automtica (por exemplo,com o pacote XPDF10) de formatos doc,

    html e pdf para txt;b) limpeza e formatao, de maneira a preparar o

    corpuspara o processamento computacional,o que significa tirar imagens, grficos, tabelas,nmeros de pginas e demais anotaes queno fazem parte do texto propriamente dito. Alimpeza e a formatao possibilitam oprocessamento do corpuspor ferramentascomputacionais, como por exemplo contadorde freqncia, concordanciador, ferramenta deextrao automtica de termos, etc.

    Nomeao de arquivos e gerao de cabealhos

    Depois que todos os textos forem convertidos emformato txt, eles devem receber um nome. Ressalte-seque essa nomeao deve seguir determinado padro deforma a facilitar a recuperao posterior de cada texto.

    Proteo da identidade dos participantes de um

    corpus e pedidos de direitos de uso dos textos

    Na compilao de corpus, devem-se seguir as re-gras legais para obteno de direitos de uso do material

    junto a autores e editores que detm o copyrightdo texto

    ou consentimento de indivduos cujos direitos de privaci-dade devem ser reconhecidos. Esta uma etapa da compi-lao de um corpusque no tcnica, demorada e tedi-osa, marcada por inmeras negociaes que podem se

    4 http://www.webcorp.org.uk/.5 http://miniappolis.com/KWiCFinder/KWiCFinderHome.html.6 http://www.httrack.com/.7 http://poloclup.linguateca.pt/corpografo/.8 http://sslmit.unibo.it/~baroni/bootcat.html.9 http://www.natcorp.ox.ac.uk/.10 XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/.

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    6/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    7/23

    Sandra Maria Alusio e Gladis Maria de Barcellos Almeida162

    Calidoscpio

    pesquisar; c) a expresso pesquisada no aparece na telano formato de um concordanciador, mas pequenos con-textos com linksso oferecidos ao usurio, de forma que,acionado esses links, possvel chegar aos textos na n-tegra; d) no possvel gerar subcorpus, isto , selecio-nar as edies desejadas e fazer download, todas as bus-cas so feitas de forma on-lineno site da Folha.

    Lcio-Web(http://www.nilc.icmc.usp.br/lacioweb/):

    O Lcio-Web13(LW) um projeto organizado peloNcleo Interinstitucional de Lingstica Computacional(NILC14), em parceria com o Instituto de Matemtica e Es-tatstica (IME) e a Faculdade de Filosofia, Letras e Cinci-as Humanas (FFLCH), todos pertencentes Universidadede So Paulo (USP). O LW disponibiliza livremente na Web:a) vrios corporado portugus brasileiro escrito contem-porneo, representando bancos de textos adequadamen-te compilados, catalogados e codificados em um padro

    que possibilite fcil intercmbio, navegao e anlise; e b)ferramentas lingstico-computacionais, tais como conta-dores de freqncia, concordanciadores e etiquetadoresmorfossintticos.

    Projeto COMET(CorpusMultilnge para

    Ensino e Traduo http://www.fflch.usp.br/

    dlm/comet/:

    O projeto COMET, em elaborao junto ao CentroInterdepartamental de Traduo e Terminologia (CITRAT)da Faculdade de Filosofia, Letras e Cincias Humanas(FFLCH) da USP, disponibiliza um corpuseletrnico quetem por objetivo servir de suporte a pesquisas lingsti-cas, principalmente nas reas de traduo, terminologia eensino de lnguas. O COMET composto por trssubcorpora: a) Corpus Tcnico-Cientfico CorTec:corpuscomparvel de textos tcnicos e/ou cientficos ori-ginalmente escritos em portugus brasileiro e em ingls;b) CorpusMultilnge de Aprendizes CoMAprend: cons-titudo de redaes dos alunos da graduao e dos cur-sos de extenso das reas do Departamento de LetrasModernas: alemo, espanhol, francs, ingls e italiano; c)Corpusde Traduo CorTrad: subdivide-se em Literrioe Juramentado; o corpusLiterrio composto de contos

    traduzidos do ingls e seus respectivos originais, o corpusJuramentado ser constitudo de textos cedidos pela Jun-ta Comercial de So Paulo por meio de contrato decomodato com a USP.

    Linguateca(http://www.linguateca.pt/):

    A Linguateca um centro de recursos para oprocessamento computacional da lngua portuguesa e temcomo objetivo servir comunidade que se dedica aoprocessamento do portugus. No siteda Linguateca estodisponveis, entre outros, os seguintes corporacrus e ano-

    tados pelo analisador sinttico Palavras15: a) CETEMPblico(Corpusde Extratos de Textos Eletrnicos MCT/Pblico http://www.linguateca.pt/CETEMPublico/): corpus de apro-ximadamente 180 milhes de palavras em portugus euro-peu, criado pelo projeto Processamento computacional doportugus (projeto que deu origem Linguateca) aps a as-sinatura de um protocolo entre o Ministrio da Cincia e daTecnologia (MCT) portugus e o jornal Pblico(jornal por-tugus) em abril de 2000; b) CETENFolha (Corpusde Extractosde Textos Electrnicos NILC/Folha de So Paulo http://www.linguateca.pt/CETEMPublico/): corpus de cerca de 24milhes de palavras em portugus brasileiro com base nos

    textos do jornal Folha de S. Paulo que fazem parte do corpusNILC/So Carlos; c) COMPARA (http://www.linguateca.pt/COMPARA/): corpus paralelo que tem como base textos emportugus e as suas tradues para ingls e textos em inglse as suas tradues para portugus.

    Algumas ferramentas disponveis na Web

    H disponvel gratuitamente na Web uma srie deferramentas que podem auxiliar a pesquisa envolvendocorpus. Apresentaremos, inicialmente, as ferramentas deprocessamento de corpora gerais ou especializados, asquais incluem o WebCorpe o Unitex. Em seguida, as ferra-mentas de gerao e gerenciamento de corporaespeciali-zados, abrangendo o Corpgrafo e o ToolKit BootCaT.

    Ferramentas de processamento de corpus

    WebCorp

    WebCorp um conjunto de ferramentas que permi-tem acesso a Web como um recurso lingstico, isto ,permitem extrair fatos sobre vrias lnguas como se a Webfosse um corpus o maior deles16. Verses demodesseconjunto de ferramentas so disponibilizadas gratuitamen-

    te na Web a partir do endereo http://www.webcorp.org.uk/.Vale assinalar que est em corrente desenvolvimento aconstruo de uma mquina de busca lingstica paramelhorar o desempenho do WebCorp.

    13 O projeto Lcio-Web ser detalhado a seguir.14 Localizado no Instituto de Cincias Matemticas e de Computao, da Universidade de So Paulo (USP), campus de So Carlos (SP,Brasil), www.nilc.icmc.usp.br/.15 Desenvolvido por Eckhard Bick (http://visl.hum.sdu.dk/).16Em nvel internacional, houve dois Workshops dedicados ao tema Web as a corpus - o primeiro em conjunto com a conferncia CorpusLinguistics 2005, e o segundo em conjunto com a 11th Conference of the European Chapter of the Association for ComputationalLinguistics (EACL 2006).

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    8/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    9/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    10/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    11/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    12/23

    Vol. 04 N. 03 set/dez 2006

    O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corporapara pesquisa lingstica 167

    O Unitexfornece recursos para tratar dicionriosno formato DELA. possvel comprimir um dicionrio,verificar se contm erros de formatao ou orden-lo casoainda no esteja em ordem alfabtica. Como os mesmossmbolos podem ser ordenados de maneiras diferentes deacordo com o idioma em uso, o usurio pode definir seusprprios critrios de ordenao por meio de um arquivochamado Alphabet_sort.txt.

    Alguns cdigos gramaticais so utilizados parapermitir a flexo automtica de uma forma cannica. Umnovo dicionrio contendo as formas flexionadas pode sergerado automaticamente pelo Unitexa partir do dicion-rio original e de uma gramtica de flexo previamente defi-nida.

    Ferramentas de gerao e

    gerenciamento de corpora especializados

    O Ambiente Corpgrafo

    Desenvolvido pela Faculdade de Letras da Uni-versidade do Porto (FLUP), o Corpgrafo22 um gestor decorpusque se encontra, atualmente, direcionado para pes-quisas terminolgicas, isto , a extrao de termos e suaorganizao em bases de dados. Fornece um ambienteWeb integrado para o manejo de corpus, disponibilizandoferramentas para processamento de corpus. Dentre as fer-ramentas que possui, esto concordanciadores, contado-res de freqncia e tambm ferramentas de pr-processamento de corpus, como as de limpeza de corpus

    e sentenciadores. Toda funcionalidade do Corpgrafo estassociada a um dos quatro ambientes de trabalho oumdulos: gestor de ficheiros, pesquisa de corpora, cen-tro de conhecimento e centro de documentao, essa sub-diviso diminui a sobrecarga de trabalho no ambiente.

    Dos quatro mdulos contidos no Corpgrafo, oque mais interessa para este artigo o Gestor de fichei-ros, que trata especificamente da montagem de corpus.Para construir um corpusno Corpgrafo, primeiramente necessrio selecionar os textos que comporo o corpus,que podem ser fornecidos de duas maneiras: ou enviandoo prprio arquivo (upload) ou informando a URL onde oarquivo pode ser encontrado. O Corpgrafo aceita textosdo tipo pdf, html, doc, ps e rtf, alm do txt,formato para o qual todos os outros tipos de texto sotransformados. O Corpgrafo oferece ferramentas para opr-processamento desses textos, tais como sentencia-dores (denominados fraseadores em portugus de Por-tugal) e um ambiente de edio que permite fazer a limpe-za de textos (retirar lixo provindo da converso de tiposde texto, remoo de cabealhos, tabelas, referncias ou

    agradecimentos). Aps pr-processar os textos, pode-seselecionar aqueles que faro parte do corpus.

    Tendo um corpusmontado seguindo os passosanteriores, o Corpgrafo oferece ferramentas de busca eextrao de conhecimento de corpus, como umconcordanciador com suporte para pesquisas utilizandoexpresses regulares, gerador de n-grama23 (sendo 5 otamanho mximo possvel para o n-grama), extratores de

    Figura 7.Busca por verbo seguido de adjetivo

    22 http://www.linguateca.pt/Corpografo/23 Lexias com nmero varivel de palavras.

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    13/23

    Sandra Maria Alusio e Gladis Maria de Barcellos Almeida168

    Calidoscpio

    terminologia, relaes semnticas e mapas conceituais,dentre outras.

    O ToolKit BootCaT

    OBootCaT24, extrator automtico de corpuse determos (do ingls Bootstrapping Corpora and Terms),

    prope a montagem de corpus, de modo iterativo, a partirde textos obtidos na Web. O BootCaT composto porvrias ferramentas escritas em Perl25, que foram projetadaspara executar pequenas partes do processo de montagemde corpus.

    Basicamente, o processo de montagem de corpusdoBootCaT composto de quatro passos:

    1) construir um corpusautomaticamente a partirde buscas no Google26utilizando um pequenoconjunto de itens lxicos, denominados semen-tes (seeds) noBootCaT;

    2) extrair novas sementes desse corpus;

    3) utilizar essas novas sementes para novas bus-cas ao Google, cujos textos recuperados se-ro concatenados ao corpus, aumentando-o;

    4) extrair novas sementes desse corpuscomplementado-o, e assim por diante. A mon-tagem de corpusproposta pelo BootCaT se-gue o diagrama da figura 8.

    O primeiro passo selecionar as sementes iniciais.Isso feito manualmente, e boas sementes so termostpicos em textos do domnio especfico do qual se buscaconstruir a amostragem. No segundo passo, essas semen-

    tes so combinadas entre si e algumas dessas combina-es ( escolha do usurio) so enviadas como buscas noGoogle. No terceiro passo, as URLs retornadas das bus-cas so processadas para obter-se apenas o texto contidonelas, convertendo-as para texto puro e limpando-os,quando for possvel. So aproveitados somente os forma-tos html e txt. Nesse momento, um primeiro corpusj

    est formado. Desse primeiro corpus so extradosunigramas(itens lxicos com apenas uma palavra), e afreqncia de cada unigrama obtido no corpus apurada.Sabendo-se a freqncia de cada unigrama, esses podemser comparados entre si. A relevncia de cada unigrama mensurada utilizando a medida estatstica log odds ratio(Baroni e Bernardini, 2004), com o apoio de um corpusdereferncia na mesma lngua. Uma lista de unigramas, orde-nada pela relevncia calculada pela medida log odds ratio ento gerada, e os primeiros elementos da lista so con-siderados bons candidatos a sementes. Caso o corpusobtido at o momento no seja satisfatrio (seja pequeno,

    por exemplo), podem-se eleger os primeiros unigramas dalista como novas sementes e repetir o processo, voltandoao segundo passo. Segundo Baroni e Bernardini (2004),corpusrepresentativos podem ser montados com poucassementes iniciais (entre 5 e 15). Os autores tambm afir-mam que com duas ou trs iteraes possvel obter umcorpus satisfatrio.

    O BootCaT tambm dispe de ferramentas paraextrao de termos com mais de uma palavra, ou termosmultipalavras. Para tal propsito, precisamos de duas lis-tas, ambas obtidas no corpus de referncia: uma deconectores e uma de stopwords. Conectores so compos-tos por palavras ou bigramas (itens lxicos com duas pala-vras, meio ambiente, por exemplo) que ocorrem freqen-temente entre dois unigramas, e stopwords so termosmuito freqentes, geralmente formados por palavras declasse fechada de uma lngua como os artigos, as conjun-es, as preposies e os pronomes que no soconectores. As listas descritas acima no precisam neces-sariamente ser obtidas pelo BootCaT, podem ser dadasou obtidas de outras fontes. Com as listas acima poss-vel definir o que so termos multipalavras, segundo asrestries abaixo:

    1. contm ao menos um unigrama;2. no contm stopwords;

    3. podem ter conectores, desde que esses noestejam nas extremidades do termo e no se-

    jam consecutivos;4. tm freqncia maior que um limiar (threshold),

    que relativo ao tamanho do termo;5. no podem ser parte de termos multipalavras

    maiores com freqncia superior a k*fq, ondeFigura 8.Fluxo de montagem de um corpusnoBootCaT(Baroni e Bernardini, 2004).

    24http://sslmit.unibo.it/~baroni/bootcat.html25http://www.perl.com26 http://www.Google.com.br/

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    14/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    15/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    16/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    17/23

    Sandra Maria Alusio e Gladis Maria de Barcellos Almeida172

    Calidoscpio

    codificao, embora tenhamos dado um grande passo emdireo padronizao com a proposta de um rico cabea-lho em XML que traz informaes bibliogrficas e datipologia quadripartida; e a anotao explcita da existn-cia de elementos grficos retirados dos textos.

    Projeto TermEx

    O projeto31intituladoExtrao automtica de ter-mos e elaborao colaborativa de terminologias para

    intercmbio e difuso de conhecimento especializado

    (TermEx)foi financiado pela FAPESP, iniciou-se em 2003e encerrou-se em 2005. O projeto foi uma parceria entre aUFSCar e a USP/So Carlos e tinha como principais obje-tivos: 1) pesquisar e implementar mtodos para a extraoautomtica de termos; 2) criar um ambiente computacionalpara auxlio na pesquisa terminolgica/terminogrfica; 3)elaborar um dicionrio terminolgico para a rea de reves-timento cermico.

    Como nossa proposta final era a elaborao de umdicionrio terminolgico, o corpusfoi elaborado a partir deartigos especializados da revista Cermica Industrial32.Essa revista, escrita em portugus, tem como objetivo con-tribuir para atualizao e melhoria da formao dos tcnicoscermicos brasileiros. destinada fundamentalmente a pro-fissionais da indstria. Os especialistas que colaboram comartigos so tanto pesquisadores (brasileiros e estrangei-ros) de laboratrios, institutos de pesquisas e desenvolvi-mento (P&D) e universidades, quanto profissionais queatuam em indstrias. Constitui uma publicao bastanterelevante e respeitada no setor de Revestimento Cermico.Da a nossa escolha, j que uma das nossas preocupaesera abarcar no s a linguagem utilizada nos laboratrios einstitutos de P&D como tambm aquela utilizada nas in-dstrias. Acreditvamos que a escolha dessa revista satis-fazia os requisitos representatividadee amostragem.

    Os textos foram agrupados pelos anos em que fo-ram publicados, 1996-2003, e totalizam 196, possuindo,cada texto, uma mdia de sete a oito pginas (aproximada-mente 4.000 palavras). Todos os textos presentes no siteda revista esto no formato pdf. Porm, para que elespudessem ser processados pelos mtodos propostos nes-se trabalho, deveriam estar no formato txt. Por essa ra-zo, nem todos os textos foram utilizados, visto que ocor-

    reram alguns problemas no processo de converso doformato pdf para txt, o que totalizou 164 textos.

    Percebemos, entretanto, que embora todos fossemescritos em portugus, 55 desses artigos eram de autoresestrangeiros, quatro escritos por autores estrangeiros e

    nacionais, e quatro cuja nacionalidade era desconhecida.Diante dessas constataes, a montagem do corpus foireavaliada, pois isso afetaria o requisito autenticidade. Aretirada desses textos, por outro lado, comprometeria aextensodo corpus, uma vez que uma das abordagens deextrao de termos que seria utilizada era a estatstica,abordagem dependente, significativamente, do tamanho

    do corpus. Contatamos, ento, o responsvel pela revistapara esclarecer se esses textos, depois de traduzidos, eramrevisados por um especialista falante nativo do portugu-s. Como a resposta foi afirmativa, todos aqueles textos,objeto de preocupao, foram includos no corpus. Ob-serve-se que, neste caso, demos prioridade para o requisi-to extensoem detrimento da autenticidade.

    Para a transformao dos textos para o formato TXT,foi utilizada a ferramenta denominada EXTEX (Extraco deTexto de Ficheiros Formatados)33. Uma caracterstica dessaferramenta, ao realizar a transformao, a de que o textotransformado no totalmente igual ao texto original. Ele se

    apresenta com juno de algumas palavras, preserva osndices de referncia bibliogrfica e as notas de rodap ane-xadas s palavras, e a hifenizao dos textos no formatopdf. Para resolver esses problemas, esses textos foramsubmetidos a um processo cuidadoso de correo manual.

    Vale ressaltar tambm que todos os arquivos docorpusforam pr-processados para a retirada de informa-es de autoria e filiao, referncias bibliogrficas, figu-ras, tabelas e quadros, fazendo com que o tamanho mdiodos artigos diminusse de oito para cinco pginas,totalizando 448.352 palavras.

    Tambm foi encontrada grande quantidade de er-ros gramaticais e de digitao. Para minimizar os erros gra-maticais, foi realizada uma varredura no corpuscom o au-xlio de um processador de textos, buscando corrigir oserros encontrados, podendo-se, dessa forma, analisar osdados de forma mais precisa.

    O corpus foi pr-processado utilizando-se umtokenizador34 desenvolvido no NILC 35 chamadoSentencer, que umtokenizadore segmentador sentencialpara portugus, que tokenizaum texto de entrada, inse-rindo um caractere de fim de linha ao fim de cada sentena.Linhas em branco marcam fronteiras de pargrafo. Ape-nas caracteres de fim de linha, como ponto-final, ponto-de-interrogao, ponto-de-exclamao e reticncias so

    considerados possveis finais de sentena. O programaSentencer trata de abreviaes como Dr., Prof., noconsiderando, nesse caso, o ponto final como um caracterede fim de linha, ao contrrio, o ponto desconsiderado.Alm disso, o programa Sentencertambm apresenta a

    31 O projeto foi coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e contou com a colaborao de Sandra Maria Alusio (USP).32http://www.ceramicaindustrial.org.br/.33 http://poloclup.linguateca.pt/ferramentas/extex/34 Ferramenta computacional que separa o texto em tokens (palavra, ponto, espao, qualquer sinal grfico).35 http://www.nilc.icmc.usp.br/nilc/

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    18/23

    Vol. 04 N. 03 set/dez 2006

    O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corporapara pesquisa lingstica 173

    funo de separar os caracteres (como aspas, vrgulas,pontuaes, entre outros) dos tokens.

    Aps o corpus ter sido tokenizadopelo Sentencer,ele foi etiquetado36utilizando-se o MXPOST (Ratnaparkhi,1996), etiquetador que foi treinado no NILC com um conjun-to simplificado que possui 15 etiquetas37e um corpusmanu-almente etiquetado de 104.963 palavras. Esse etiquetador38

    possui a preciso de 97%. Para usar o MXPOST no arquivode entrada, cada token deveria estar separado por um espa-o em branco, ou seja, nenhum caractere, incluindo pontua-o, deveria estar anexo s palavras; essa foi uma das razespara o uso do programa Sentencer.

    Aps o pr-processamento, o corpusestava pron-to para ser objeto de extrao automtica de termos.

    Antes de realizar a extrao, alguns mtodos auto-mticos foram avaliados e implementados para o portugu-s39, especificamente mtodos das trs abordagens para oportugus: estatstica, lingstica e hbrida.

    Os mtodos baseados em conhecimento estatsti-

    co geralmente detectam as unidades terminolgicas deacordo com a freqncia com que elas ocorrem em umcorpus. Existem mtodos estatsticos que utilizam desdesimples freqncias at aqueles que utilizam estatsticasmais complexas, como informao mtua e coeficiente log-likelihood e c-value. A funo , em todos os mtodos,identificar os candidatos a termo (Teline et al., 2003).

    Os sistemas baseados em conhecimentolingstico utilizam diferentes recursos que contm dife-rentes informaes lingsticas para a extrao dos ter-mos. Essas informaes lingsticas dizem respeito a: in-formaes lexicogrficas dicionrios de termos e lista depalavras auxiliares (

    stopwords); informaes

    morfolgicas padres de estrutura interna da palavra;informaes morfossintticas categorias morfossintti-cas e funes sintticas; informaes semnticas clas-sificaes semnticas; informaes pragmticas repre-sentaes tipogrficas e informaes de disposio dotermo no texto. Este tipo de conhecimento utilizado fazcom que os sistemas baseados em conhecimentolingstico se apliquem somente a uma lngua e, s vezes,at mesmo a uma nica variante (Teline et al., 2003).

    Os sistemas baseados em conhecimento hbridoutilizam o conhecimento estatstico juntamente com o

    lingstico. A aplicao do conhecimento hbrido torna osistema mais eficiente, visto que ele condiciona os resul-tados. Existem dois tipos de mtodos hbridos: aquelesque aplicam o conhecimento estatstico primeiro e depoiso lingstico, e aqueles que utilizam a estatstica apenascomo um complemento da lingstica (Teline et al., 2003).

    Como o trabalho de Teline (2004) atestou que os

    sistemas baseados em conhecimento hbrido eram os maiseficientes, optou-se por essa abordagem no projetoTermEx. Ocorre que o lxico40utilizado para o reconheci-mento das estruturas morfolexicais da terminologia deRevestimento Cermico era constitudo de itens da lnguageral, o que acabou impedindo que esse lxico reconhe-cesse determinados termos. Observe-se como o lxico doReGralematizou determinados termos multipalavras: aomecnica > ao mecnico, alumina calcinada >

    alumina calcinar, capacidade instalada > capacidade

    instalar. Em vista desse cenrio, utilizamos ento a abor-dagem estatstica.

    Uma grande lio que aprendemos com o projetoTermExfoi o fato de no termos balanceado o corpusdeforma a incluir distintos gneros. Esse erro foi observadoposteriormente quando procurvamos contextosdefinitrios ou explicativos para elaborarmos as defini-es para o dicionrio. Nossa hiptese era de que umcorpuscontendo apenas textos do gnero tcnico-cient-fico fosse suficiente para a elaborao de um dicionrioterminolgico. Entretanto, quando os autores escrevemum artigo cientfico, tm como pblico-alvo leitores espe-cialistas que no necessitam de explicaes conceituaisde objetos, maquinrio, conceitos, tcnicas, etc. As glo-sas, portanto, esto ausentes desse tipo de texto. Vamosencontrar contextos definitrios ou explicativos nos g-neros cientfico de divulgao e instrucional (apostila, li-vro-texto, manual, por exemplo). A constatao a que che-gamos que mesmo em se tratando de uma pesquisaterminolgica, o corpusdeve ser balanceado, contendo,pelo menos, textos desses trs gnero: tcnico-cientfico,cientfico de divulgao e instrucional. Percebemos que afalta de balanceamento acabou gerando um corpusme-nos representativo, com menos amostras e menos diversi-ficado, erros que no devem ser repetidos, posto que essecorpusafetou diretamente a redao dos verbetes.

    36 Etiquetar significa classificar o texto morfologicamente, ou seja, atribuir a cada unidade a classe correspondente.37 I-interjeio; LOCU-locuo; PREP-preposio; N-substantivo; NP-nome prprio; VERB-verbo; ADJ-adjetivo; AUX-verbo auxiliar;ADV-advrbio; PRON-pronome; CONJ-conjuno; NUME-numeral; ART-artigo; RES- resduo; PDEN-palavra denotativa e mais 4 tiposde contraes: PREP+ART, para palavras como da, na; PREP+PD, para palavras como nesta, naquela, nessa; PREP+PPR,para palavras como dela, nela; PREP+N, para palavras como dalma, dgua, darte.38 O NILC dispe de vrios etiquetadores que podem ser acessados a partir de http://www.nilc.icmc.usp.br/nilc/tools/nilctaggers.html.39 A avaliao e a implantao dos mtodos foi objeto de um trabalho de mestrado, denominado Avaliao de mtodos para extraoautomtica de terminologia de textos em portugus (ExPorTer) (Teline, 2004).40 O lxico utilizado foi o do ReGra (Revisor Gramatical do Portugus), que contm 68.530 lemas e 1.563.136 entradas, incluindo formasflexionadas, palavras compostas e locues (5.763 das entradas so locues nominais, prepositivas, adjetivas, adverbiais, conjuntivas).Esse lxico est em constante atualizao (desde 1993), j que o lxico que d suporte ao corretor sinttico do Microsoft Word. O ReGrafoi desenvolvido no NILC (www.nilc.icmc.usp.br/nilc/projects/regra.htm).

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    19/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    20/23

    Vol. 04 N. 03 set/dez 2006

    O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corporapara pesquisa lingstica 175

    Figura 9.Editor de cabealho adaptado do projeto Lcio-Web.

    Figura 10.Janelas do editor para a especificao de informaes bibliogrficas, de autoria e da tipologia quadripartida(gnero, tipo textual, domnio e meio de distribuio).

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    21/23

    Sandra Maria Alusio e Gladis Maria de Barcellos Almeida176

    Calidoscpio

    Figura 11.Cabealho com etiquetas XML gerado pelo Editor de Cabealho do Lcio-Web.

    respondente aos sculos XVI, XVII e XVIII. Convm assi-nalar que o Brasil no conta com nenhuma obralexicogrfica sobre seu vocabulrio nos primeiros temposda formao do Portugus Brasileiro, o que atesta a origi-nalidade da proposta.

    Para a elaborao desse dicionrio, necessria aconstruo de um corpus, evidentemente.

    De forma a cumprir os seis requisitos citados no incio

    deste artigo (autenticidade, representavidade, balanceamento,amostragem, diversidade e extenso), o corpusest sendoconstrudo obedecendo a uma seqncia de etapas.

    Foi realizada inicialmente a seleo dos textos.Essa seleo tem como orientao os seguintes pon-tos: a) os textos tm de ser escritos originalmente emportugus por indivduos nascidos no Brasil, se tive-rem nascido em Portugal, teriam de estar residindo noBrasil h anos (autenticidade), embora saibamos queh pouco material disponvel com essas caractersti-cas no sculo XVI; b) seleo de documentos de for-ma a abarcar distintos domnios do saber, gnerosdiscursivos e tipologias textuais (representatividade,

    balanceamento, amostragem, diversidade); c) distri-buio desses gneros e domnios nos trs sculosque envolvem a pesquisa, por exemplo, o gnero liter-rio s ser pertinente no sculo XVIII, posto que antesdisso no se pode afirmar que havia uma literatura ge-nuinamente brasileira (balanceamento); d) seleo deuma quantidade de textos suficientes para a elabora-o de um dicionrio que contemple a diversidadelexical desses sculos (extenso), no que se refere sclasses abertas, a saber: substantivo, adjetivo, verboe advrbio. A previso inicial de que o corpus conte-

    nha, no mnimo, 3 milhes de palavras, para gerar, pelomenos, dez mil entradas no dicionrio.

    A construo desse corpus inicia-se com o pro-cesso de digitalizao, j que os textos referentes a essessculos esto, em sua grande maioria, na forma impressa.

    Aps a anlise e seleo das obras, os livros sodigitalizados em formato de imagem (arquivos de ima-gem com extenso tiff) para, ento, serem transforma-

    dos em textos (arquivos de texto com extenso doc).Depois que esto em formato doc, os textos passampor um processo de reviso manual. Este um trabalhominucioso e que requer muita ateno, pois se trabalhacom a leitura cotejada de 3 documentos: a) a imagem dotexto original, em forma de figura (extenso tiff) geradapor digitalizao; b) a imagem do texto digitalizado emforma de texto propriamente (em formato doc); c) otexto original impresso que deve estar sobre a mesa, mo, para o caso de a imagem no computador no sersuficiente para dirimir dvidas. Se os textos fossem atu-ais, a tarefa estaria terminada, contudo, importante lem-brar que estamos trabalhando com textos antigos e que a

    dificuldade est justamente na grafia no padronizadado portugus quinhentista.

    importante assinalar que a digitalizao exige al-guns cuidados, pois os documentos possuem normalmentepginas em papel pardo, muito amarelas ou com manchasprprias do envelhecimento, folhas craqueladas, pginassoltas, etc. Toda essa sujeira na imagem pode implicar agerao de caracteres estranhos ou falhas no textodigitalizado que precisam ser eliminadas durante a revi-so. Assim, aps a digitalizao, preciso limpar e recor-tar cada uma das imagens digitalizadas para que elas as-

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    22/23

  • 7/25/2019 Artigo sobre Lingustica de Corpus

    23/23