Como Usar o WSTools

Pesquisa em Lingüística de Corpus com WordSmith Tools

Tony Berber Sardinha

2006

2

Sumário

1. Introdução.................................................................................................................. 6

1.1. Visão Geral ......................................................................................................... 6

1.2. As ferramentas e os utilitários.............................................................................. 8

1.3. Plano da obra....................................................................................................... 9

2. Ensino de língua estrangeira..................................................................................... 11

2.1. Introdução ......................................................................................................... 11

2.2. Recursos............................................................................................................ 13

2.3. Análise do texto................................................................................................. 14

2.4. Análise do corpus .............................................................................................. 17

2.5. Conjugando as duas análises.............................................................................. 19

2.6. Comentários finais............................................................................................. 21

3. Análise de Gênero .................................................................................................... 23

3.1. Introdução ......................................................................................................... 23

3.2. O gênero Código de Ética.................................................................................. 27

3.3. Recursos............................................................................................................ 29

3.4. Delimitando o enfoque ...................................................................................... 29

3.5. O que é definido no âmbito da ética................................................................... 31

3.6. O que é coibido ................................................................................................. 34

3.7. O que é geralmente valorizado........................................................................... 38


3

4. Metáfora................................................................................................................... 40

4.1. Introdução ......................................................................................................... 40

4.2. Recursos............................................................................................................ 44

4.3. Análise do corpus .............................................................................................. 44

4.4. Análise de palavras-chave do corpus.................................................................. 45

4.5. Análise de metáfora........................................................................................... 46


5. Tradução .................................................................................................................. 55

5.1. Introdução ......................................................................................................... 55

5.2. Recursos............................................................................................................ 55

5.3. Simplificação..................................................................................................... 56

5.4. Explicitação....................................................................................................... 60

5.5. Normalização .................................................................................................... 64


6. Lingüística Forense .................................................................................................. 72

6.1. Introdução ......................................................................................................... 72

6.2. Breve histórico da Lingüística Forense .............................................................. 73

6.3. Recursos............................................................................................................ 76

6.4. Autoria questionada........................................................................................... 76


7. A ferramenta Concord.............................................................................................. 87

4

7.1. Visão Geral ....................................................................................................... 87

7.2. Procedimento básico para feitura de concordâncias no Concord......................... 88

7.3. A janela Getting Started..................................................................................... 88

7.4. A janela do Concord........................................................................................ 100

7.5. Os botões da barra de ferramenta do Concord.................................................. 138

7.6. Os botões da janela da concordância................................................................ 138

8. A ferramenta WordList........................................................................................... 154

8.1. Visão Geral ..................................................................................................... 154

8.2. Tipos de lista de palavra .................................................................................. 155

8.3. Procedimento básico para feitura de lista de palavras no WordList .................. 157

8.4. A janela Getting Started................................................................................... 167

8.5. Janelas do WordList ........................................................................................ 171

8.6. Os botões da barra de ferramenta do WordList ................................................ 202

8.7. Os botões da janela de lista de palavras (.lst) ................................................... 203

A ferramenta KeyWords ............................................................................................... 210

8.8. Visão Geral ..................................................................................................... 210

8.9. Procedimentos básicos para feitura de lista de palavras-chave.......................... 213

8.10. O corpus de referência ................................................................................... 225

8.11. A janela Getting Started................................................................................. 228

8.12. A janela do KeyWords................................................................................... 229

8.13. Os botões da barra de ferramentas.................................................................. 252

5

8.14. Botões da janela de palavras-chave ................................................................ 253

8.15. Botões da janela de palavras-chave chave (‘database’)................................... 261

Os utilitários ................................................................................................................. 269

8.16. File Manager ................................................................................................. 269

8.17. Splitter........................................................................................................... 270

8.18. Text Converter............................................................................................... 275

8.19. Viewer & Aligner .......................................................................................... 286

9. Referências bibliográficas ...................................................................................... 296

10. Outras fontes de referência ................................................................................... 299

6

1. Introdução

1.1. Visão Geral

A Lingüística de Corpus é um campo que se dedica à criação e análise de corpora (plural

latim de corpus1), que conjuntos de textos e transcrições de fala armazenadas em arquivos

de computador (Berber Sardinha, 2004). A Lingüística de Corpus vem revolucionando a

maneira como se investiga a linguagem, nos seus mais diversos níveis, colocando à

disposição do analista quantidades de dados antes inacessíveis. Um dos grandes agentes

dessa revolução é a informática; sem ela, a Lingüística de Corpus contemporânea não

poderia existir. Assim, o lingüista de corpus depende de programas de computador para

lidar com corpora. Dentre os vários software que existem para auxiliar o lingüista de

corpus, um deles se destaca: WordSmith Tools.

O programa WordSmith Tools é um conjunto de programas integrados (‘suíte’) destinado

à análise lingüística2. Mais especificamente, esse software permite fazer análises baseadas

na freqüência e na co-ocorrência de palavras em corpora. Além disso, ele permite pré-

processar os arquivos do corpus (retirar partes indesejadas de cada texto, organizar o

conjunto de arquivos, inserir e remover etiquetas, etc.), antes da análise propriamente dita.

O programa foi criado em 1996 por Mike Scott, da Universidade de Liverpool, Reino

Unido. Inicialmente, era composto por programas independentes; tempos depois, os

programas foram reunidos num conjunto integrado, conhecido por ‘suíte’. Hoje, o

WordSmith Tools possui um grande número de usuários no mundo todo, inclusive no

Brasil, onde os cursos, oficinas e palestras sobre seu funcionamento se multiplicam.

Podemos afirmar que o WordSmith Tools tem sido um fator de divulgação da Lingüística

1 Adotamos aqui a forma latina corpus e seu plural corpora por estarem dicionarizadas (Houaiss). Além

dessa, existe ainda a forma córpus, que começa a ser usada em português para indicar tanto a forma singular

quanto a plural.

2 Para facilitar a referência no corpo do texto, ele será chamado de ‘programa’, muito

embora seja, como dissemos, um conjunto de programas integrados.

7

de Corpus no Brasil.

Embora já se vão dez anos desde o seu lançamento, não há ainda uma obra que registre a

variedade de pesquisa que o WordSmith Tools propicia aliada à uma explicação detalhada

de seu funcionamento. Tampouco existe um guia de usuário: o manual que acompanha o

download do programa é apenas a reprodução do menu de ajuda.

Desse modo, esta é justamente a intenção deste livro: mostrar um leque de pesquisa

possível com WordSmith Tools bem como uma explicação detalhada do funcionamento do

programa, para que o leitor possa desenvolver pesquisa nas áreas enfocadas, replicando-as

ou adaptando-as da maneira que desejar.

A versão que enfocamos aqui é a 3, por ser a mais usada e mais estável (e portanto

confiável). A versão 4, a mais recente, incorpora alguns instrumentos novos e maior

capacidade de processamento de corpus, mas sofre de instabilidade e travamento das

funções. Alguns comandos são diferentes na versão 4 em relação à 3, mas o usuário que

souber lidar com a versão 3 conseguirá dominar a versão 4 sem grande esforço. Os

programas principais (WordList, KeyWords e Concord) permanecem os mesmos nas duas

versões e servem aos mesmos propósitos.

A intenção do programa é servir como uma ferramenta que permita a consecução de

tarefas relacionadas a análises de corpora. Isso significa que ele não foi concebido para

efetuar por si só uma determinada análise para o usuário. Em outras palavras, o

WordSmith Tools não foi feito para efetuar análises de projetos específicos; ele

disponibiliza uma série de opções de ferramentas (daí o ‘tools’ em seu nome), algumas

mais gerais, outras mais restritas, sem jamais supor que a análise termine com o

processamento de dados que ele efetua.

Cada vez mais, o programa torna-se referência para a análise lingüística via computador.

Há várias razões para esta preferência. A primeira é a facilidade de uso; trata-se de um

programa escrito para o ambiente Windows, o ambiente operacional dominante no mundo

de hoje, o que significa dizer que a maioria dos interessados já terão alguma familiaridade

com operações exigidas pelo WordSmith Tools, como abrir e fechar janelas, clicar em

botões específicos, escolher opções de menus, selecionar arquivos, etc. A segunda razão é

decorrência da primeira: devido ao fato de rodar num ambiente gráfico como Windows, o

programa oferece uma facilidade maior na utilização de seus recursos disponíveis, o que

8

por sua vez propicia um aprendizado mais rápido e intuitivo de suas várias funções. A

terceira razão é a facilidade de obtenção: o programa é distribuído por uma grande editora

internacional (Oxford University Press), o que facilita sua penetração em vários cidades do

mundo e em pontos de venda de alta visualização, como congressos e encontros

acadêmicos. Além disso, o programa é também disponibilizado via Internet, o que

significa que o usuário não precisa comprá-lo numa loja ou por correio, bastando baixá-lo

da rede e encomendar a sua senha pagando com cartão de crédito. A quarta razão do

sucesso de WordSmith Tools é sua versatilidade. O software consiste na verdade de uma

‘suíte’ de diferentes programas, que se destinam a várias aplicações, que compreendem o

pré-processamento, a organização de dados, e a análise propriamente dita de corpora ou

textos isolados. O programa oferece ferramentas para a consecução de tarefas essenciais,

como listas de palavras (através do programa WordList) e de concordâncias (por meio do

Concord).

1.2. As ferramentas e os utilitários

O programa WordSmith Tools possui três ferramentas e quatro utilitários. As ferramentas

são:

• WordList: produz listas de palavra contendo todas as palavras do arquivo ou arquivos

selecionados, elencadas em conjunto com suas freqüências absolutas e percentuais.

Também compara listas, criando listas de consistência, onde é informado em quantas

listas cada palavra aparece.

• Concord: realiza concordâncias, ou listagens de uma palavra específica (o ‘nódulo’,

node word ou search word) juntamente com parte do texto onde ocorreu. Oferece

também listas de colocados, isto é, palavras que ocorreram perto do nódulo.

• KeyWords: extrai palavras de uma lista cujas freqüências são estatisticamente

diferentes (maiores ou menores) do que as freqüências das mesmas palavras num outro

corpus (de referência). Calcula também palavras-chave chave, que são chave em vários

textos.

Essas ferramentas possuem ainda outras funções e permitem executar diversas outras

tarefas, que são apresentadas e discutidas nos capítulos subseqüentes.

9

Os utilitários do programa são:

• File Manager: abre uma janela para gerenciamento de arquivos.

• Splitter: permite dividir um arquivo em vários arquivos menores.

• Text Converter: oferece várias funções para o pré-processamento de textos, como a

substituição de palavras, partes de palavras ou partes de textos, simultaneamente num

conjunto de arquivos, a renomeação em massa de arquivos, e a mudança de pasta

(diretório) de arquivos que apresentem certas características.

• Viewer & Aligner: Fornece meios para a visualização de textos e para o alinhamento

(combinação) de dois textos num só.

1.3. Plano da obra

O livro é dividido em duas partes. A primeira mostra pesquisa realizada com o WordSmith

Tools em cinco áreas: ensino de língua estrangeira, análise de gênero, metáfora, tradução e

lingüística forense. Essas cinco áreas reúnem focos de pesquisa onde o WordSmith Tools

pode atuar como instrumento central da análise de corpus e foram escolhidas porque serem

campos onde a pesquisa com corpus aliada ao WordSmith Tools pode trazer muitos

benefícios. Elas foram seqüenciadas dessa maneira em termos do conhecimento que

exigem do usuário para manusear as ferramentas e os procedimentos adicionais de análise

dos dados, em ordem crescente de exigência.

A segunda parte do livro traz um guia completo do funcionamento do WordSmith Tools.

Cada capítulo oferece uma descrição detalhada de cada ferramenta e utilitário, com

detalhes de cada comando e de cada janela presente no programa. Quando necessário, são

apresentadas informações mais detalhadas a respeito de processos envolvidos na análise,

como a estatística Mutual Information, para cálculo de associação entre pares de palavras

(via ‘Index File’, do WordList) e a influência do tipo e extensão do corpus de referência na

obtenção de palavras-chave (via KeyWords). O último capítulo traz ainda uma apreciação

da versão 4 do programa, ainda em desenvolvimento quando da preparação deste volume.

A obra se encerra com alguns endereços de Internet com catálogos de trabalhos de

pesquisa que se valeram do WordSmith Tools para análise de dados.

10

Esperamos que a leitura deste livro abra horizontes para o desenvolvimento e consolidação

da Lingüística de Corpus no Brasil, mostrando como o WordSmith Tools pode ser usado

para investigar questões de áreas centrais da Lingüística e da Lingüística Aplicada.

11

2. Ensino de língua estrangeira

2.1. Introdução

Neste capítulo, apresentaremos algumas maneiras de usar o WordSmith Tools no ensino de

língua estrangeira, mais especificamente no ensino de vocabulário por meio de colocações.

Esta é uma área em que o programa atua naturalmente, pois seu Mike Scott, seu criador,

foi um professor de língua estrangeira e continua ligado à pesquisa nessa área, como

atesta um seu livro recente (Scott e Tribble, 2006).

Ilustraremos o capítulo com exemplos da língua inglesa, mas não queremos com isso dizer

que os procedimentos mostrados aqui sejam válidos apenas para o inglês; muito pelo

contrário, eles podem ser aplicados a diversas outras línguas, estrangeiras ou materna.

Há algum tempo tem-se encorajado o uso de textos autênticos no ensino de inglês como

língua estrangeira. Nos anos de 1980, o projeto Nacional Inglês Instrumental propôs uma

abordagem centrada no uso de textos autênticos para ensinar inglês para alunos de

qualquer nível. As premissas básicas eram de que (1) a dificuldade da tarefa era

independente da dificuldade do texto e (2) um texto autêntico não era mais difícil do que

um inventado (Celani, Deyes et al., 2005).

A mesma linha de argumentação pode ser seguida em relação a corpora, já que eles

normalmente são coletâneas de textos autênticos. Temos, desse modo, duas grandes fontes

de input de língua na sala de aula: o texto e o corpus.

Tomando como base essas premissas, que me parecem válidas até hoje, seja para o

contexto de ensino instrumental de línguas quanto para o de inglês geral, surge um

problema que ainda não foi enfrentado diretamente na literatura: como tirar proveito de um

texto autêntico e de um corpus, conjuntamente, em sala de aula?

Essa pergunta faz sentido por uma razão bem simples: um corpus, por mais interessante e

rico que seja, não pode ser lido, no sentido normal do termo! Um texto, por sua vez, pode

ser lido do começo ao fim, relido, entendido, questionado, entre outras coisas; já um

corpus pode ser lido via concordâncias, que são recortes do conteúdo de vários textos ao

mesmo tempo. A leitura de uma concordância não é a leitura de um texto: o texto convida

a uma leitura textual, enquanto o corpus suscita uma leitura hipertextual; o texto supõe a

intertextualidade, mas o corpus a expõe de modo explícito. Ou seja, texto e corpus são

12

duas unidades de língua que se completam naturalmente, até por que a segunda é uma

coletânea da primeira; em outras palavras, o trabalho com corpus na sala de aula pede um

texto. Sem um texto em que se apoiar, o aluno pode se sentir perdido, sem um apoio em

uma unidade concreta de comunicação humana.

Porém, ao mesmo tempo em que texto e corpus se completam, nesses níveis teórico e

prático, eles impõe um desafio ao professor de língua, pois um deve completar o outro. A

questão que fica é justamente esta, portanto: como usar texto e corpus de modo

complementar e coerente na sala de aula?

O princípio teórico que seguimos ao responder essa pergunta é o da existência da

padronização léxico-gramatical (Sinclair, 1991). Um padrão léxico-gramatical é uma

seqüência recorrente de (pelo menos duas) palavras, dentro de um espaço delimitado

(normalmente equivalente a até quatro palavras de distância), que possui um sentido

específico. Dentre os vários tipos de padrão existentes, o que é mais saliente são os

agrupamentos (‘clusters’), também conhecidos por ‘bundles’ (pacotes) (Biber e Conrad,

1999). Agrupamentos são seqüências fixas de palavras, como ‘bom dia’ ou ‘que possui

um’. Esse padrões são bastante salientes devido à sua rigidez e assim se tornam bons

padrões para ensinar em aula de inglês, pois são facilmente notados. A existência de

padrões em abundância faz com que possamos falar em uma natureza associativa e

probabilística da linguagem, como princípios teóricos de organização em larga escala.

Dizemos natureza associativa porque as palavras tendem a se associar em grupos

padronizados, recorrentes; e falamos em caráter probabilístico porque essas associações

não são aleatórias: as palavras se combinam umas às outras com graus diferentes de

probabilidade.

Do ponto de vista da sala de aula, há várias razões que salientam a importância de padrões

no aprendizado de língua estrangeira. Os padrões são um tipo de ‘unidade pré-fabricada’

da língua, que parece residir na memória em forma ‘bruta’, isto é, sem estar decomposto

em unidades individuais. Assim, um agrupamento como ‘que possui um’ parece estar

disponível por inteiro na memória, para produção e recepção, na mente dos falantes

nativos. Quando falamos, possivelmente acessamos nossa estoque lexical mental e

retiramos de lá tal unidade semi-pronta e a utilizamos ‘in natura’ na fala e na escrita. Do

mesmo modo, ao processar a linguagem falada ou escrita, é possível que decomponhamos

a seqüência de fala ou escrita em unidades compostas, muitas vezes em forma de padrões.

13

Esse acesso a unidades pré-fabricadas permite uma maior rapidez no processamento, o que

por sua vez, sustenta nossa capacidade natural de falar e escrever fluentemente, de ouvir e

entender de modo síncrono com nosso interlocutor e de (muitas vez) poder ler com

rapidez, sem nos deter a cada palavra individual do texto (Sinclair, 1991). Embora essas

sejam habilidades naturais que todo falante nativo possui, em maior ou menor grau, elas

não são automaticamente transferidas para a língua estrangeira. Normalmente, os

aprendizes de língua estrangeira tendem a ver a linguagem como um conjunto de palavras

individuais sustentadas por regras gramaticais; desse modo, a compreensão e a produção se

dão em muitos casos com base na junção de palavras individuais. O resultado disso é que,

por exemplo, a fluência, um aspecto natural da fala na língua materna, é conseguida

somente a duras penas na língua estrangeira.

O trabalho com corpora em sala de aula pode ajudar a melhorar essa situação, pois ele

naturalmente faz saltar aos olhos essas ‘unidades pré-fabricadas’, que são os padrões

léxico-gramaticais. Ou seja, começando por um trabalho de conscientização, o aluno passa

a ter uma visão diferente do que é o vocabulário de uma língua, deixando de lado a idéia

de que se trata de um conjunto de palavras isoladas que se juntam por meio de regras

gramaticais. Ele passa a perceber que as palavras se juntam por meio de atração mútua, via

de regra explicadas somente pelo uso e não por regras de gramática, e que essa atração cria

os agrupamentos, pacotes e ‘chunks’, que por sua vez se juntam e formam o tecido da

linguagem.

Com a ajuda de corpus e do programa WordSmith Tools podemos começar a propor

algumas maneiras de lidar com essa questão do uso coerente de corpus e texto autêntico na

sala de aula.

2.2. Recursos

Os recursos necessários para realizar as análises mostradas neste capítulo são:

• Um texto autêntico em língua estrangeira, salvo em arquivo de computador, que

sirva de material de ensino.

• Um corpus de referência da mesma língua em que foi escrito o texto; vide mais na

seção 2.4 abaixo.

• Os seguintes elementos do WordSmith Tools:

14

• WordList: feitura de lista de palavras com ‘clusters activated’.

• Concord: feitura de concordâncias e, dependendo da necessidade, o uso da opção

‘View / Spaces Cut’.

2.3. Análise do texto

Nossa recomendação é que o professor inicie escolhendo um texto que seja relevante para

a aula ou material que deseje desenvolver. A seguir, é preciso analisar o texto, começando

com uma lista de palavras com ‘clusters activated’ do texto autêntico em questão.

O texto que empregamos nesta análise foi retirado da Internet, do sítio:

http://www.foodconsumer.org/777/8/Update_Bird_flu_kills_two_more_in_Indonesia.shtm

l. O trecho inicial do texto é o seguinte:

‘Update: Bird flu kills two more in Indonesia

Two more siblings in Indonesia died of bird flu, officials said Friday, citing the rest results

were preliminary and needed to be confirmed by a laboratory accredited by the World

Health Organization.

The report came as the WHO and officials from the Ministry of Health in Indonesia have

struggled to search for the source of infection for a cluster of eight bird flu cases in a

family in the village of Kubu Sembelang. (...)’

A recomendação que fazemos é de que sejam feitas duas listas, uma com ‘clusters’ de duas

palavras e outra com de três palavras. A figura a seguir mostra a tela do Wordlist com

‘clusters’de duas e três palavras, respectivamente:

15

Em seguida, é preciso observar as duas listas e encontrar ‘clusters’ que possam ser

trabalhados com os alunos, de acordo com os objetivos da unidade ou da aula. Por

16

exemplo, poderíamos escolher ‘bird flu’ e ‘got infected with’. O primeiro parece

interessante pois é um grupo nominal, uma estrutura que algumas vezes é problemática

para alunos brasileiros. O segundo cluster possui de interessante o fato de ser um exemplo

de voz passiva com ‘get’. Além disso, ambos são freqüentes dentro do texto, o que ajuda

para que sejam internalizados.

Para trabalhar esses itens com os alunos, o professor pode preparar concordâncias, por

meio do Concord. Para tanto, basta iniciar o Concord e digitar em ‘Search Word’ o

‘cluster’ exatamente como aparece na lista do Wordlist. Para ilustrar, usamos ‘bird flu’. A

tela seguinte mostra o Concord com a concordância resultante.

As linhas da concordância estão ordenadas pela primeira à direita. Os padrões que

emergem são:

• Colocação: Bird flu cases

• Coligação: Bird flu + Substantivo (fatality, infection, task force).

Fazendo ‘resort’ pela primeira palavra à esquerda, obtemos a tela seguinte:

17

O padrão mais saliente é ‘of bird flu’, que em si não é interessante. Mas a partir dele

podemos expandir o alcance dos padrões mais para a esquerda e conseguimos os seguinte

padrões:

• Cluster of bird flu cases

• Spread of bird flu

• Died of bird flu

• Got infected with bird flu / the bird flu virus.

Esses padrões são de central importância para entender o texto em questão e além disso

ajudam o aluno a entender muitos outros textos sobre esse assunto.

2.4. Análise do corpus

Depois de retirar algumas fraseologias importantes do texto, passamos para a análise do

corpus propriamente dito. A idéia é encontrar no corpus mais instâncias de padrões do

texto (1) para reforçar a exposição dos alunos a esses padrões ou (2) para expandir o leque

de usos dos padrões do texto.

18

Em ambos os casos, há duas opções, dependendo do corpus de referência:

Se o professor tiver acesso a um corpus de características (gênero e assunto) semelhantes

ao texto da aula, pode fazer buscas de ‘clusters’do texto tais como eles aparecem. Por

exemplo, se o professor tiver um corpus de textos sobre gripe aviária, pode fazer outras

buscas por ‘bird flu’ no corpus para levantar outros padrões.

Se o professor não possuir um corpus específico, mas sim um corpus geral de inglês,

provavelmente não encontrará muitos outros exemplos de padrões do texto em questão,

caso se trate de um assunto contemporâneo ou altamente especializado. Por exemplo, no

BNC, há apenas uma ocorrência de ‘bird flu’ (‘National Institutes of Health have

overcome this dilemma by growing a bird flu virus which does not cause human disease’).

Nesse caso, o professor deve buscar outras formas mais gerais referentes ao vocabulário

dos padrões, como ‘flu’ apenas ou ‘infected’.

Para ilustrar, buscaremos a palavra ‘infected’, que faz parte de um padrão do texto (‘got

infected with’), no British National Corpus. Há 1156 ocorrências dessa palavra no corpus.

Ao fazer a concordância, é importante selecionar ‘Activated’ em ‘Ignore Tags’, na aba

‘Tags’ de ‘Settings’. Isso precisa ser feito pois o BNC é etiquetado morfossintaticamente, e

para o uso que vislumbramos em sala de aula, as etiquetas são dispensáveis; caso apareçam

na tela, tornarão a visualização dos padrões mais difícil.

A concordância resultante aparece na tela a seguir.

Como se percebe, a concordância está com muitos espaços entre as palavras; estes são os

espaços onde estão as etiquetas (‘tags’) que foram ignorados. Para melhorar o ‘layout’ da

tela, é preciso escolher ‘View’, ‘Spaces Cut’. Isso uniformiza os espaços, conforme mostra

19

a tela seguinte:

Com base nessa tela, o professor pode buscar mais alguns padrões que possa ensinar. Um

que desponta na tela é ‘HIV infected’, cujos padrões incluem:

• Are already / to be HIV-infected

• Becoming HIV infected

• HIV-infected staff

• People estimated to be HIV infected3

2.5. Conjugando as duas análises

Assim, conjungando a análise do texto com a do corpus, temos uma visão mais

aprofundada da padronização de ‘infected’:

• Get infected with

3 Pode-se notar, de passagem, a falta de uniformização ortográfica em relação ao uso do hífen entre ‘HIV’ e

‘infected’.

20

• Be HIV-infected

• Become HIV-infected

• HIV-infected [substantivo]

• Essa padronização nos mostra que ‘infected’:

• Pode funcionar como verbo (get infected) ou adjetivo (HIV-infected staff).

• Pode formar a passiva com ‘get’, reforçando sua prosódia semântica, pois ‘get’

tende a ser usado na passiva para indicar sentidos negativos. Além disso, ‘get

passives’ podem indicar uma parcela de culpa do indivíduo na ação (‘get drunk’

pressupõe a opção da pessoa em se imbriagar).

• Pode associar-se a substantivos para especificar o tipo de infecção (HIV-infected).

Resumindo nosso percurso exploratório:

• Descobrimos que ‘bird flu’ era um dos principais ‘clusters’ do texto.

• Ainda no texto, a partir da padronização de ‘bird flu’, chegamos a ‘got infected’

• Já no corpus, partindo de ‘got infected’, chegamos a HIV-infected e sua

padronização.

Esse tipo de exploração é uma das grandes vantagens de trabalhar com corpus na sala de

aula, pois revela aspectos da língua que os dicionários e ‘usage guides’ não deixam tão

claro e as gramáticas sequer lidam. Além disso, é um percurso de descoberta ‘movido a

dados’, pois foram os dados da primeira descoberta (bird flu) que nos levaram às

descobertas seguintes. Nesse sentido, é um processo pessoal. Cada aluno e cada professor

podem obter ‘mapas’ dessa jornada exploratória diferentes, pois não há necessariamente a

necessidade de chegar a ‘got infected’ a partir de ‘bird flu’. Uma outra pessoa poderia ter

visto outro padrão junto a ‘bird flu’ que lhe chamasse a atenção. O importante é que os

alunos e o professor descubram padrões atestados nos dados, que sejam relevantes para sua

aula, para o nível e para os objetivos do curso.

Para que isso aconteça é fundamental ganhar experiência na análise de concordâncias,

‘treinando os olhos’ para perceber padrões que sejam ‘interessantes’. Muitas vezes,

21

conforme mostra minha prática pessoal de sala de aula, os alunos se detém a padrões

pouco relevantes. Por exemplo, alunos de nível avançado que estivessem analisando essas

concordâncias que mostramos poderiam ter notado a presença do padrão ‘had/has/have

infected’. Esse padrão, embora existente nos dados, nada mais é do que o ‘present perfect’,

que tais alunos supostamente já conheciam. Ou seja, é preciso deixar claro para o aluno

que ‘repetição não é padrão’, para que eles passem a procurar padrões novos para eles.

Outra tendência que professores e alunos ‘novatos’ em análise de corpus exibem é se deter

a padrões gramaticais. Por exemplo, os padrões da concordância de ‘infected’ do corpus

poderiam ser expressos por um padrão como ‘verbo + infected’, onde verbo poderia ser

substituído por ‘be / get / have’. Esse padrão, novamente, é pouco informativo. Ele

simplesmente retrata um aspecto gramatical, qual seja, o grupo verbal formado por auxiliar

seguido de verbo principal. O que leva alunos e professores ‘novatos’ a pinçarem esse tipo

de padrão é certamente a influência de anos de ensino de gramática, o que por sua vez os

levam a ter familiaridade em analisar a língua segundo a gramática estrutural. Embora a

análise de corpus possa ser usada para estudo de pontos gramaticais, na verdade ela pode e

deve levar o aluno a uma apreciação diferente da língua, baseada na léxico-gramática. Isso,

conforme dissemos, leva tempo, pois envolve prática na identificação de padrões em

concordâncias. E prática, como sabemos, somente se adquire praticando, por isso é um

processo longo que necessita da intervenção do professor, principalmente no início.

Felizmente, o WordSmith Tools é bastante rápido e simples de usar, o que evita gastar

tempo demasidado na mecânica da obtenção das concordâncias, podendo o professor e os

alunos direcionar suas energias para a análise dos dados e a descoberta dos padrões.

2.6. Comentários finais

Neste capítulo, mostramos como o WordSmith Tools pode ser empregado na preparação

de material didático para ensino de inglês como língua estrangeira. Propusemo-nos a

mostrar técnicas simples de aplicação do programa para ensino de vocabulário. Com essas

técnicas, é possível fazer exercícios e até mesmo unidades inteiras que se encaixam em

cursos de diversas naturezas, nas mais variadas abordagens. As atividades, por sua vez,

podem ser o foco principal da aula ou apenas reforço ou complementação ao livro didático.

Seja como for, o uso de textos autênticos e de corpora na sala de aula de língua estrangeira

é altamente benéfico para os alunos, pois eles entram em contato com muitas ocorrências

de padrões que se repetem em outros textos, tornando assim o contato muito útul para a

22

conscientização da natureza probabilística e associativa da língua, para o desenvolvimento

da fluência e para o enriquecimento do vocabulário.

23

3. Análise de Gênero

3.1. Introdução

Neste capítulo, mostramos algumas maneiras de usar o WordSmith Tools na análise de

gênero. Antes de chegarmos à proposta analítica, precisamos percorrer um caminho

teórico, histórico e conceitual por várias correntes contemporâneas que se ocupam do

estudo de gêneros.

Antes de mais nada, a questão que se coloca é a da nomeação: devemos nos referir a

gênero de que modo? Não há consenso a respeito disso na literatura, sendo empregados

termos como gênero textual, discursivo, lingüístico, entre outros. Nossa opção é

simplesmente por ‘gênero’, sem nenhum epíteto, pois cremos que no contexto aqui

empregado, o termo não se confude (a) com a designição referente ao sexo masculino ou

feminino, nem (b) com o de categorias de formas literárias (gênero ‘romance’), de cinema

(gênero ‘thriller’), teatro (gênero ‘comédia’) ou música (gênero ‘rock’). Além disso, a

forma ‘gênero’ não cria filiações automáticas com nenhuma corrente teórico-metodológica

pré-definida; isso nos beneficia, pois acreditamos que a análise de gênero com corpora

eletrônicos que ilustramos aqui não se encaixe diretamente em nenhum modelo a priori

sinalizado pelos termos ‘gênero discursivo’, ‘gênero textual’ ou outra forma qualquer.

O gênero a ser enfocado por nossa análise é o ‘código de ética’. Códigos de ética são

documentos escritos que especificam padrões (‘standards’) do que se considera

comportamento ético para uma profissão (e.g. jornalistas), empresa, atividade econômica

(criação de animais) ou grupo organizado (‘alunos’). Acreditamos se tratar de um gênero

já que: (a) possui um nome socialmente aceito pela comunidade de usuários (em inglês,

‘code of ethics’ ou ‘ethics codes’ ou mesmo ‘codes of conduct’); (b) desempenha um

papel na sociedade (especificar o que é considerado desejável e indesejável na prática

profissional ou de setores organizados da sociedade); (c) materializa-se em documentos ou

instâncias de fala socialmente reconhecidos (os códigos de ética são publicados, debatidos,

aprovados em encontros especializados, etc.)

Nesse ponto, é importante distinguir veículo de gênero. Veículo é aquilo que serve de

suporte para o gênero. Assim, ‘carta’ é veículo, não gênero, pois uma carta pode conter

desde um ‘pedido de emprego’ a uma ‘declaração de amor’, passando por um

‘encaminhamento de prestação de contas’, ‘reclamação ao Procon’, ‘divulgação de

24

produto’, ‘aviso de mudança de tarifa bancária’ e tantos outros. Ou seja, a carta é apenas o

nome que se dá ao documento onde está inscrito o gênero (no caso, ‘pedido de emprego’,

‘declaração de amor’, ‘reclamação ao Procon’, etc.). O mesmo ocorre com ‘email’, ‘livro’,

‘relatório’ e tantos outros veículos.

Os veículos interagem com os gêneros, de tal modo que um gênero pode se modificar na

medida em que muda o seu veículo. Por exemplo, um gênero como ‘reclamação de

serviço’ (p.ex. para a operadora de celular) pode ser diferente se escrito em uma carta ou

num email.

Há muitas maneiras de conceitualizar gênero, dentro das várias abordagens teóricas e

metodológicas que existem atualmente. Tais abordagens se diferenciam de vários modos,

como no tocante à definição do que é gênero, à metodologia empregada para investigar os

gêneros e a terminologia corrente entre os estudiosos filiados à abordagem (Meurer,

Bonini et al., 2005).

A grosso modo, podemos classificar as abordagens de estudo de gênero a partir de suas

origens, em quatro grupos minimamente coerentes. Um deles é o que gira em torno das

idéias de Michael Halliday, com as propostas de Martin, Hasan, Kress e Fairclough, por

exemplo. Outro grupo é o que advém do ensino de língua estrangeira, como as propostas

de Swales e Bhatia. Há ainda outro que se aglutina em torno de idéias de Bakhtin e da

Análise de Discurso Francesa, como Bronckart e Maingueneau. E por fim há um grupo

que se alinha com o trabalho de Douglas Biber4, essencialmente com corpus eletrônico e

que remete aos estudos de variação da Sociolingüística.

Essa classificação não é estanque, pois há vários cruzamentos entre os grupos que

delineamos, com pesquisadores transitando por mais de uma tendência. Por exemplo,

Norman Fairclough, que alocamos na corrente relacionada a Michael Halliday, na verdade

faz uso de elementos do cabedal teórico de Bakhtin e da Análise de Discurso Francesa.

Jean-Paul Bronckart, por sua vez, já formulou uma abordagem que se baseia na análise

léxico-gramatical e compartiva de gêneros (Bronckart, 1985), aproximando-o de Douglas

4 Embora ele confesse ter abandonado o uso do termo ‘gênero’ por ser muito controverso (comunicação

pessoal, 2005).

25

Biber. Isso revela que os estudos de gênero são dinâmicos e que qualquer quadro síntese

das tendências teórico-metodológicos tende a se desatualizar dentro de algum tempo.

Embora haja muitas diferenças entre as várias linhas de estudo de gênero, há pontos em

comum também. Um deles é que todas as principais vertentes contemporâneas tentam

mostrar de algum modo como os gêneros se relacionam à vida em sociedade. Outra

similaridade é a de que todas fazem análise de elementos lingüísticos presentes nos

gêneros, mesmo quando a finalidade não é exclusivamente a descrição lingüística.

Podemos elencar alguns aspectos teóricos que em nossa opinião parecem ser importantes

para a definição de gênero:

Gêneros são ‘tipos relativamente estáveis’ (Bakhtin, 1997 :279) de comunicação. Essa

estabilidade parcial revela-se na variação existente em um corpus de exemplares de um

mesmo gênero (Biber, 1988), fazendo com que um determinado gênero se alinhe

dinamicamente com vários outros, em dimensões diferentes. Eles formam ‘constelações’,

com os membros individuais se aproximando mais de uns do que de outros, o que significa

dizer que não há nenhum gênero absolutamente independente. Todos se relacionam com

todos os outros, em maior ou menor grau.

São socialmente estabelecidos (Fairclough, 1989). Ou seja, eles surgem da necessidade

humana de comunicação em sociedade, para atingir certos fins (Martin, 1992) em diversas

esferas de organização da sociedade e revelam as atividades sociais e intelectuais de seus

usuários (Bazerman, 1988 :4)

São culturalmente definidos (Halliday e Matthiessen, 2000). Por cultura, entendemos tanto

sua manifestação no nível macro (cultura brasileira, por exemplo), quanto nos seus níveis

micro (cultura da empresa, da escola, do departamento, da repartição, etc.) (Swales, 1998).

Essas formas culturais relacionam-se com a linguagem empregada nos gêneros por meio

de configurações de variáveis de registro únicas (Eggins, 1994).

São historicamente definidos, e seu conteúdo, organização interna, léxico-gramática e

demais aspectos se alteram ao longo da história (Biber e Finegan, 1989; Bakhtin, 1997).

São seqüenciados internamente (Halliday e Hasan, 1989). Exemplares de um mesmo

gênero possuem uma organização interna relativamente recorrente (Swales, 1990; Martin,

26

1992; Bhatia, 1993), que se mostra por meio de estágios, ou segmentos, cujo conjunto

representa corerentemente os temas e sub-temas enfocados (Berber Sardinha, 1997) e as

finalidades a serem cumpridas, passo a passo.

São muito numerosos. Isso nos impede de chegarmos a um inventário definitivo de todos

os gêneros existentes no mundo, em qualquer época. Ao mesmo tempo, cada gênero possui

incontáveis realizações. Toda essa profusão pode ser vista como formando uma população

imensa de gêneros e seus exemplares. Como toda população, há uma variação expressiva

entre seus membros (Biber, 1988). Decorre daí que as pesquisas com gênero devam levar

basear-se em uma amostra com a maior quantidade possível de exemplares de um gênero

para que possam ser minimamente representativas do gênero em questão. A existência de

uma infinidade de exemplares implica no fato de que nenhum indivíduo, usuário ou não de

qualquer gênero, pode conhecer plenamente nenhum gênero. Nossa intuição lingüística é

falha (Sinclair, 1991), muito embora nos dê a ilusão de que somos conhecedores plenos do

gênero. Há uma quantidade potencialmente grande de características que fogem à nossa

percepção e que somente podem ser levantadas de modo confiável por meio de

ferramentas de análise de corpus eletrônico.

São compostos por uma léxico-gramática distinta, que se revela pela probabilidade

diferenciada de emprego de palavras, padrões e estruturas gramaticais típicas (Bronckart,

1985; Biber, 1988; Scott e Tribble, 2006).

Esses pontos nos parecem relevantes para darmos conta de uma parcela do fenômeno

social e lingüístico que os gêneros revelam. Nenhuma abordagem que conhecemos,

entretanto, dá conta de todos esses pontos. Por isso, é importante ressaltar que nenhuma

perspectiva esgota toda a riqueza de significados que um gênero (ou mesmo um exemplar

dele) encerra. Todas são parciais e enfatizam um recorte teórico-metodológico particular.

As análises de gênero feitas sob a perspectiva da Lingüística de Corpus se concentram

basicamente em três grupos: um de simpatizantes de Halliday, outro de seguidores de

Biber e outro de pesquisadores ligados a Michael Stubbs e Mike Scott. O foco das três

linhas é diferente:

Os seguidores de Halliday tratam geralmente da léxico-gramática de um corpus de muitos

exemplares de um determinado gênero e/ou da segmentação interna dos exemplares desses

gêneros. No primeiro caso, a análise é geralmente feita a partir do corpus inteiro, sem

27

distinção dos exemplares individuais do gênero. No segundo caso, ao contrário, a análise

se dá em cada exemplar individualmente.

Biber e seus seguidores buscam essencialmente a identificação de multidimensões de

variação dos textos, mostrando como um mesmo gênero relaciona-se com vários outros,

por meio de características lingüísticas compartilhadas. A análise é feita incialmente

exemplar por exemplar, seguida do agrupamento e da comparação entre os grupos de

exemplares.

Scott e Stubbs privilegiam o estudo de gêneros sem a distinção dos exemplares que

compõem o corpus. A análise é feita a partir da palavra, mostrando as palavras com

freqüência marcada e as tendências principais de associação de palavras.

A análise apresentada neste capítulo foi conduzida sob a perspectiva do terceiro grupo,

focando a descrição da léxico-gramática e dos sentidos que elas perfazem no gênero a

partir do estudo do vocabulário. É uma metodologia ascendente (‘bottom-up’), que parte

dos dados, mais especificamente das colocações (Sinclair, 1991), para chegar nos

significados principais construídos pelo/no gênero. Ela privilegia essencialmente os pontos

teóricos 6 e 7 apresentados acima. Nossa análise não enfocou cada exemplar do gênero

individualmente, mas sim o conjunto todo de exemplares que compõe o corpus.

O objetivo que perseguimos com nosso enfoque é o de conhecer um pouco sobre como

funciona o gênero, a partir de um corpus tão grande quanto for possível, com o auxílio do

programa WordSmith Tools. Esperamos com nossa análise entender um pouco como

funciona o gênero, revelando como se dá a relação entre a linguagem usada nos

exemplares do gênero, as pessoas e grupos sociais que os usam e o propósito a que o

gênero serve em sociedade.

3.2. O gênero Código de Ética

Conforme dito na introdução, os códigos de ética são documentos escritos que especificam

a conduta ética de um setor profissional, empresa ou grupo organizado. Assim, temos

códigos de ética da ‘Associação Australiana de Engenheiros’, da ‘Sociedade de Relações

Públicas da América’, da ‘Associação de Enfermeiras do Canadá’, etc.

Há incontáveis códigos de ética em vigor no mundo atual. O sítio do ‘Center for the Study

of Ethics in the Professions’, do Illinois Institute of Technology (em

28

http://ethics.iit.edu/codes/coe.html) possui cerca de 850 códigos em seu arquivo, mas

reconhece que existam muitos mais. Uma busca no Google (em junho de 2006) revela a

existência de 201 mil páginas com as palavras ‘ethics’ e ‘code’ no título. Em português,

Google registra 834 páginas cujo título contém ‘código’ e ‘ética’, com o ‘Código de Ética

da Petrobrás’, ‘Código de Ética e Disciplina da OAB’ e o ‘Código de Ética de

Radiodifusão’.

Essa profusão de códigos e sua constante renovação implicam em dizer que nenhum

indivíduo está a par de todos os códigos existentes. Em geral, o normal é que os

profissionais conheçam mais ou menos bem o código de ética relativo a sua categoria

funcional ou a sua associação de classe (com a exceção de advogados especializados em

questões éticas, que tendem a se especializar no assunto e por conseguinte familiarizam-se

com um maior número de códigos). Uma análise de um corpus contendo centenas de

códigos pode auxiliar nesse sentido, nos dando uma visão das características salientes do

maior número possível de códigos de uma só vez.

Há diversas maneiras de os códigos se organizarem internamente em inglês. Olson (2006)

distingue três tipos básicos:

códigos sucintos (‘brief codes’). São compostos por uma lista não estruturada de regras.

códigos de princípios (‘principles model’). Possuem uma estrutura hierárquica que vai do

mais geral para o mais específico, partindo de um preâmbulo introdutório

(‘preamble/statement of intent’), para os princípios fundamentais (‘fundamental

principles’), que por sua vez encampam cânones (‘fundamental canons’) e regras

específicas (‘guidelines for the principles and canons’).

códigos de relações (‘relationship codes’). São códigos hierárquivos também, mas que se

baseiam na relação do profissional com outros grupos, como clientes e a população em

geral. São geralmente divididos em seções intituladas ‘relações/obrigações para com

(grupo)’, onde se encontram as regras de conduta.

Ainda segundo Olson (2006), o tipo mais comum (entre os códigos estudados por ele, de

origem norte-americana essencialmente) é o sucinto, na faixa de 50% do total. A seguir, na

área de negócios o mais usado é o de relações (com 36%), enquanto nas demais áreas é o

de princípios. Isso sugere que para a maioria das áreas basta um código simples. Para as

29

demais, códigos elaborados enfatizam aspectos diferentes, de acordo com seus objetivos:

nas empresas, a normatização é mais específica, voltada para seus clientes e funcionários;

nos outros domínios, contudo, ela é mais geral e idealizada, enfocando a atuação

profissional independente do empregador.

3.3. Recursos

Um corpus de pesquisa de um gênero específico, no nosso caso um corpus em inglês do

gênero ‘código de ética’. Recolhemos nosso corpus da Internet, por meio do buscador

Google. Na opção ‘Busca Avançada’, digitamos ‘code’ e ‘ethics’ como palavras de busca e

especificamos que elas deveriam ocorrer no título das páginas. Baixamos cada arquivo5,

convertemos todos eles para texto e por fim conferimos os arquivos, eliminando os

indesejáveis (p.ex. incompletos). Desse modo, conseguimos um corpus com as

características abaixo:

Textos 807

Formas (‘tokens’) 1.226.530

Itens (‘types’) 27.426

Um corpus de referência, composto pelo British National Corpus (BNC) na sua totalidade.

O BNC possui as seguintes dimensões: 100.602.128 formas (‘tokens’) e 385.750 itens

(‘types’).

Os programas Wordlist, KeyWords e Concord.

3.4. Delimitando o enfoque

Para iniciar a análise, conduzimos um exame preliminar dos dados e depois formulamos

questões com base nele.

A análise preliminar consistiu na extração das palavras-chave. As palavras-chave são

5 Com o auxílio de um script especializado, que não convém detalhar aqui. O importante é salientar que a

coleta do corpus pode ser feita manualmente, visitando cada sítio e salvando o arquivo correspondente.

30

aquelas que possuem uma freqüência marcada, isto é, relativamente maior no corpus de

pesquisa do que no de referência. Utilizamos nosso corpus de códigos de ética como

corpus de pesquisa e o BNC como corpus de referência. Ajustamos o KeyWords para

p=0.000001 e um máximo de 500 palavras-chave com freqüência mínima de 3. Obtivemos

as 500 palavras-chave no total, nenhuma negativa. A figura abaixo mostra a tela do

programa KeyWords com os resultados.

Nossa primeira leitura dos resultados permitiu agrupar as palavras-chave em algumas

classes:

• Substantivos: ethics, code, conduct, information, members, client, etc.

• Adjetivos: professional, ethical, applicable, unethical, etc.

• Verbos: maintain, ensure, engage, strive, disclose, etc.

• Verbos modais: shall, may, must.

• Miscelâneos: or, any, not.

31

Esse primeiro apanhado é importante para nos ajudar a levantar questões que possamos

responder com os dados do corpus. Utilizamos nosso conhecimento do gênero e de

questões sociais envolvidas na utilização do gênero em sociedade. Pareceu-nos que as

palavras-chave estavam apontando para as relações entre as pessoas regulamentadas, onde

recai o dever (members, clients, etc.), as práticas regulamentadas (aquilo que é nomeado

como ‘ethical’, ‘unethical’, etc.) e as maneiras pelas quais essa regulamentação se dá (por

meio dos verbos) e com que força (com os modais). As partículas ‘miscelâneas’ ainda nos

podem propiciar outros entendimentos que não podemos antecipar.

A partir desse levantamento inicial, podemos formular algumas perguntas de pesquisa para

guiar a investigação e para que alcancemos o objetivo de entender um pouco como

funciona o gênero ‘código de ética’:

• O que é definido no âmbito da ética?

• O que é normalmente coibido?

• O que é geralmente valorizado?

A seguir, mostramos como o WordSmith Tools pode ajudar a responder essas perguntas.

3.5. O que é definido no âmbito da ética

Para responder a essa pergunta, precisamos fazer uma concordância da palavra-chave

‘ethical’. A tela a seguir mostra a concordância, ordenada pela primeira palavra à direita,

pois já que é ‘ethical’ é um adjetivo, os substantivos devem estar à sua direita.

32

A seguir, retiramos os colocados, com a função ‘Show collocates’, e os ordenamos pela

primeira palavra à direita também. A tela a seguir mostra os 25 colocados imediamente à

direita de ‘ethical’:

33

Como se percebe, os dez colocados substantivos mais freqüentes são ‘standards’,

‘conduct’, ‘principles’, ‘issues’, ‘behavior’, ‘responsibilities’, ‘obligations’, ‘practice,

‘decision’ e ‘manner’. Esses substantivos são quase todos abstratos (com exceção de

‘behavior/our’ e ‘guidelines’). Podemos agrupar os colocados em grupos de sentido,

conforme o quadro abaixo.

Ideal Normas ações problemas Comportamento obrigações

standard/s principle/s

guidelines codes

decision manner handling

issues dilemmas

Conduct behavior/behaviour practice business actions

responsibility/ies obligation/s

O agrupamento mostrado acima é feito de maneira intuitiva, segundo o conhecimento do

34

analista. É um tipo de análise de conteúdo, conduzida a partir dos dados, não tendo se

baseado em nenhum esquema previamente definido.

A resposta para a pergunta é de que os códigos de ética versam sobre um grande número

de aspectos da conduta profissional, no âmbito de ideais, normas, ações, problemas,

comportamento e obrigações.

3.6. O que é coibido

Para responder a essa pergunta, precisamos verificar os colocados de ‘not’, que é uma

palavra-chave. Esperamos com isso identificar os verbos que indicam as ações e estados

julgados indesejados nos códigos. Assim como no caso anterior, ordenamos os colocados

pela posição R1 (primeira à direita). A tela a seguir mostra os resultados.

Conforme mostra a tabela dos colocados, os verbos mais negados são: ‘be’, ‘engage’,

‘use’, ‘accept’, ‘make’, ‘misrepresent’, ‘take’, ‘allow’, ‘disclose’ e ‘have’. Alguns desses

verbos são plenos, isto é, possuem significado em si, como ‘accept’, ‘misrepresent’ e

‘allow’. Outros, porém, são deslexicalizados e precisam de um complemento para

35

exprimirem algum sentido determinado (‘be’, ‘make’, ‘take’ e ‘have’).

Precisamos verificar como esses verbos são usados para entender o tipo de ação, ideal,

obrigação, etc., que os códigos tentam coibir. Para tanto, é necessário voltar à

concordância e notar o uso de cada verbo ou fazer nova concordância para cada verbo. A

vantagem de fazer novas concordâncias é que isso permite a extração de colocados para

cada verbo, o que não é possível por meio da concordância de ‘not’ já feita. Como no

corpus de estudo podemos ter mais de 100 ocorrências de cada verbo, é mais eficiente

fazer as concordâncias de novo, pois há linhas demais para analisar sem o recurso da lista

de colocados.

Devido à restrição de espaço, mostraremos a seguir análise dos três principais verbos

plenos e do principal verbo deslexicalizado apenas. Contudo, uma análise de gênero

deveria verificar um número maior de verbos para dar conta da léxico-gramática do

gênero.

Começando pelos verbos plenos, o verbo mais negado é ‘engage’. Fizemos outra

concordância, digitando como palavras de busca a seqüência ‘not engage’. Reordenamos a

concordância alfabeticamente (com ‘Sort’), pela segunda e terceira palavras à direita (2R e

3R). Note que à primeira vista a reordenação seria pela primeira e segunda palavras à

direita do termo de busca, que são duas palavras, ‘not engage’. Mas quando o o Concord

faz uma concordância de termos múltiplos, como nesse caso, a classificação parte da

primeira palavra da seqüência (‘not’) e não da última (‘engage’). A tela abaixo mostra a

concordância resultante.

36

Depois, retiramos os colocados e os reordenamos, também pela segunda (2R) e terceira

palavras (3R) à direita.

A concordância e os colocados indicaram que ‘engage’ é usado basicamente para tratar da

questão do abuso sexual: ‘sexual intimacies’, ‘sexual harassment’ e ‘sexual activities’.

Além disso, aparece com os seguintes colocados: ‘unauthorized practice’,

‘misrepresentation’, ‘mistreatment’, ‘misleading advertising’, ‘controversy’, ‘fraudulent

conduct’, etc. Ou seja, ‘engage’ possui uma prosódia semântica marcadamente negativa.

O verbo pleno seguinte, ‘use’, possui essencialmente colocados relacionados a informação

e modos de agir, como ‘coercive means’, ‘derogatory language’, ‘confidential

information’, ‘proprietary information’ e ‘professional positions’. Ou seja, em geral, esses

usos referem-se à quebra de confidencialidade e de privacidade e ao abuso do poder. Ao

contrário de ‘engage’, ‘use’ não possui uma prosódia semântica essencialmente negativa.

O verbo seguinte, ‘accept’, coloca-se tipicamente com palavras relacionadas à corrupção,

como ‘compensation’, ‘commissions’, ‘instructions’, ‘payment’, ‘fees’, ‘employment’,

‘fees’ e ‘gratuity’.

Partindo para o verbo ‘be’, o mais freqüente entre os deslexicalizados, fizemos

concordância de ‘not be’, retiramos os colocados e os reclassificamos pela segunda palavra

37

à direita. A tela a seguir mostra os resultados.

Conforme se nota, os verbos estão quase todos no passado, o que forma a voz passiva. São

verbos específicos das ações que se deseja coibir (‘disclosed’, ‘published’, ‘bred’, ‘placed’,

etc. – divulgado, publicado, criado, colocado, etc.), além de verbos que demonstram as

atitudes advindas da proibição (‘tolerated’, ‘accepted’, ‘considered’ – tolerado, aceito,

considerado).

É importante verificarmos os colocados à esquerda, para saber que tipos de coisa eram

coibidas na voz passiva. Fizemos, assim, uma reordenação dos colocados pelo total à

esquerda (‘Left’), o que nos mostrou que os principais colocados eram os verbos modais:

‘should’, ‘shall’, ‘will’, ‘may’ e ‘must’. Os substantivos colocados à esquerda eram

‘information’, ‘code’, ‘work’ e ‘practice’.

Dessa forma, os dados nos mostram que os códigos coibem, tipicamente, as ações a seguir

(os padrões que os indicam aparecem em parênteses):

Abuso sexual (‘not engage in’);

38

Quebra de confidencialidade e da privacidade (‘not use’);

Abuso de poder (‘not use’);

Corrupção (‘not accept’);

Ações no âmbito de profissões específicas (‘not be’).

3.7. O que é geralmente valorizado

Para começarmos a responder essa pergunta, precisamos verificar os verbos constantes

entre as palavras-chave e fazer concordâncias de cada um, para sabermos como são

usados. Os verbos que enfocamos são: ‘respect’ (respeitar), ‘provide’ (providenciar),

‘ensure’ (certificar-se), ‘maintain’ (manter), ‘comply’ (adequar-se) e ‘strive’ (esforçar-se).

Para cada um, fizemos concordâncias e extraímos os colocados. O quadro a seguir mostra

os resultados.

Verbo

(freqüência) Substantivos colocados com freqüência total igual ou superior a 30, à

direita do nódulo.

Respect (1483) Dignity, privacy, rights, confidentiality, information, integrity, clients,

human.

Provide (1422) Service/s, information, guidance, care, clients, opportunities, quality.

Ensure (1189) Information, clients.

Maintain (851) Standards, confidentiality, integrity, competence, information, records.

Comply (488) Regulations.

Strive (395) Maintain, improve.

Com base nesse quadro, podemos responder a pergunta de pesquisa sugerindo que os

códigos de ética valorizam:

• A proteção a direitos fundamentais tanto do ser humano, em geral, quanto mais

especificamente dos clientes da empresa (‘respect dignitiy, privacy,

39

confidentiality’; ‘maintain confidentiality, integrity’).

• A proteção à informação privada (‘respect/ensure ... information’, ‘maintain ...

information/records’).

• O direito a serviços de qualidade (‘provide quality .../care).

• A promessa de melhorar (‘strive to maintain/improve ...’).

• A necessidade de respeito aos regulamentos (‘comply with regulations’).


Os códigos de ética são instrumentos voltados para a regulamentação da prática

profissional. Eles visam a proteger os profissionais bem como a sua clientela e demais

pessoas envolvidas profissionalmente com eles. No mundo atual, eles assumem uma

importância vital, pois qualquer alegação de má conduta pode significar uma acusação e

subseqüente processo jurídico. Além disso, na medida em que o mundo cresce, e a

globalização se intensifica, as empresas e associações se tornam cada vez maiores e mais

complexas e lidam com um número maior de empregados, clientes e afiliados, o que

aumenta as chances de conduta anti-ética, mesmo não intencional. Isso faz com que os

códigos funcionem como uma salva-guarda para evitar danos à população, mas também

para minimizar os problemas jurídicos que tais erros de conduta possam trazer ao

profissional liberal, à empresa ou a um setor específico. Por tudo isso, podemos esperar

que os códigos de ética se tornem instrumentos cada vez mais presentes na sociedade.

De modo geral, nossa análise revelou a linguagem específica usada para valorizar e

restringir comportamentos por meio do gênero código de ética. Conforme dissemos na

introdução, nenhuma abordagem de análise de gênero esgota todos os aspectos relevantes

de qualquer gênero; sendo assim, nossa análise não tem a pretensão de ser completa ou

definitiva. O WordSmith Tools nos permitiu verificar padrões centrais do gênero e como

eles normatizam e idealizam a vida em sociedade.

40

4. Metáfora

4.1. Introdução

Neste capítulo, enfocaremos a aplicação do programa WordSmith Tools no estudo de

metáforas em corpora.

Para muita gente, metáfora é uma figura de linguagem e como tal é um acessório

lingüístico para embelezar a fala e a escrita. Este seria o caso, por exemplo, de ‘Julieta é o

Sol’, de Shakespeare, em que ‘sol’ é uma metáfora de vida, luz, jovialidade, etc. Metáfora

é uma matéria que se aprende no ensino médio, provavelmente, juntamente com outras

figuras de linguagem, como metonímia, sinédoque e catacrese. As pessoas são ensinadas a

usá-las para entender o texto literário e poético, principalmente.

Esse é apenas um dos conceitos de metáfora. Atualmente, há outras visões que expandem

o escopo da metáfora e a redefinem no conjunto das demais figuras de linguagem. Uma

dessas visões é a cognitiva, em que a metáfora aparece como um recurso natural (assim

como um dos cinco sentidos) e essencial do ser humano para entender o mundo. A

metáfora deixa de ser apenas uma das muitas figuras de linguagem para ser a figura

principal, primordial. Ela não mais significa apenas um recurso lingüístico para

ornamentar o discurso literário, mas fundamentalmente um tipo de processamento mental.

Esse processamento é o que nos permite entender conceitos abstratos, como amor, tempo e

vida, entre outros. Por exemplo, quando dissemos ‘meu casamento está indo de vento em

popa’, estamos conceitualizando amor em termos de uma viagem. Partimos de um

conceito concreto, a viagem, para entender um conceito abstrato, o amor. A metáfora está

nessa relação entre dois conceitos díspares que se unem para que possamos entender um

deles em termos do outro. Assim, os casais se metaforizam em viajantes, a vida conjugal

se metaforiza numa jornada e as brigas se metaforizam em acidentes de percurso. Na

medida em que a metáfora serve para lidarmos com conceitos, ela recebe, nessa visão, o

nome de metáfora conceptual (‘conceptual metaphor’).

As metáforas conceituais são, nessa visão, maneiras de que nossa mente dispõe de lidar

com a vida ao nosso redor, com o nosso cotidiano. As metáforas passam a ser recursos

corriqueiros, que qualquer um coloca em prática, desde a mais humilde das pessoas, até a

mais literata. Qualquer um pode dizer ‘meu namoro não vai bem’, sem se dar conta que

está metaforizando o conceito de amor, pois o conceito de amor é naturalmente metafórico.

41

Não há maneiras 100% literais de expressar o conceito de amor. Podemos tentar definir

amor de maneira puramente biológica, como alguns tentam fazer, dizendo que se trata de

uma reação química impulsionada pelo instinto de procriação. Mas essa definição deixa de

lado a essência do amor, o sentimento, as emoções, sendo portanto insatisfatória para

exprimir esse conceito na sua plenitude e no nível em que as pessoas o percebem no dia a

dia. Além disso, mesmo que desçamos a esse nível ‘básico’ dos processos biológicos do

organismo para definir amor, logo nos depararemos com algumas metáforas! Por exemplo,

se dissermos que os ‘neurônios de um amante envia informações para os músculos e os

órgãos’, estaremos empregando pelo menos uma metáfora nessa explicação: ‘enviar

informação’. Claramente, os neurônios não enviam informação, de fato. Eles enviam

correntes elétricas e substâncias químicas que interpretamos como informação; ou seja, já

metaforizamos a troca de impulsos elétricos entre células como ‘informação’. Dessa

forma, atribuímos sentido a essa troca.

Esse exemplo ilustra o fato de que a metáfora é essencialmente um processo de construção

(‘construal’) de sentido do mundo ao nosso redor. Atribuímos sentido às coisas à nossa

volta, para que possamos fazer sentido delas. Assim, quando o computador não funciona,

dizemos que ‘ele não quer cooperar’ e dessa forma o metaforizamos em uma pessoa.

Quando temos pressa, dizemos ‘tempo é dinheiro’, e assim metaforizamos a perda de

tempo em perda de dinheiro, algo palpável. Quando conseguimos um emprego melhor,

dizemos que ‘subimos na vida’, metaforizando a melhora financeira em uma posição

espacial (para cima).

Os exemplos acima expõe os dois tipos chave de metáfora que estamos tratando: a

conceptual e a lingüística. A metáfora conceptual, conforme dissemos, exprime um

conceito novo que surge a partir da aproximação de dois conceitos díspares. A metáfora

lingüística, por sua vez, são as palavras realmente empregadas no texto e na fala de modo

metafórico. Normalmente, dizemos que a metáfora conceptual subjaz à metáfora

lingüística; ou seja, a metáfora conceptual não é verbalizada, ela reside na mente dos

falantes e ‘licencia’ as metáforas lingüísticas. Esse licenciamento é o responsável pela

inteligibilidade de várias metáforas lingüísticas numa dada cultura. Por exemplo, ‘nosso

noivado está a todo vapor’, ‘nosso casamento naufragou’ e ‘estamos indo de vento em

popa’ são todas metáforas lingüísticas licenciadas pela metáfora conceptual AMOR É UMA

VIAGEM. Na nossa cultura brasileira, ocidental, não estranhamos tais expressões quando as

42

empregamos para falar de casamento, vida conjugal, relacionamento marido e mulher e

coisas assim relacionadas ao amor. Ou seja, no contexto de amor, tais expressões são

interpretáveis naturalmente, em nossa cultura, com referência ao amor, devido ao

licenciamento providenciado pela metáfora conceptual que os falantes possuem

internalizada.

A metáfora conceptual e a metáfora lingüística são analisadas por meio de alguns termos

técnicos, que são:

Domínios. Esses são as esferas de conhecimento ou de atuação humana que entram em

jogo numa metáfora conceptual. No exemplo da metáfora AMOR É UMA VIAGEM, visto

acima, há dois domínios: amor e viagem. Amor é chamado de domínio alvo (‘target

domain’), pois ele é o domínio metaforizado; viagem, por sua vez, é o domínio fonte

(‘source domain’), pois é dele que emprestamos os elementos para metaforizar o outro

domínio. As relações entre os elementos de um domínio e de outro são chamadas de

mapeamentos (‘mappings’).

Tópico e Veículo. Esses são termos usados para analisar as metáforas lingüísticas. Veículo

é o elemento metaforizado da metáfora lingüística. Por exemplo, em ‘nosso noivado está a

todo vapor’, ‘a todo vapor’ é o Veículo; ‘nosso noivado está’ é o Tópico. O Tópico pode

estar ausente ou implícito na metáfora lingüística. Em uma conversa onde se discuta o

noivado de um dos interlocutores, seria perfeitamente compreensível o uso de ‘a todo

vapor’ sozinho num enunciado para se referir a noivado. Nesse caso, a metáfora lingüística

seria inteiramente constituída de Veículo.

Essa foi uma pequenina introdução ao campo dos estudos da metáfora na perspectiva

cognitiva (Lakoff e Johnson, 1980) e do uso (Deignan, 2005). Há ainda muitas outras

questões e refinamentos que não pudemos abordar por limitações de espaço e do escopo

desta obra.

O estudo da metáfora, nesses termos, coloca muitos desafios e oportunidades para a

Lingüística de Corpus. Os desafios podem ser resumidos assim:

Sendo a metáfora um recurso corriqueiro, deve estar presente em grande quantidade em

corpora eletrônicos. Como podemos desenvolver procedimentos de análise de corpus que

nos permitam dar conta de uma parcela representativa dessas metáforas?

43

As ferramentas que dispomos em Lingüística de Corpus são voltadas para o estudo do

comportamento de palavras e de classes gramaticais anotadas automaticamente em

corpora. Ou seja, as ferramentas funcionam a partir da busca de formas ortográficas. As

metáforas são justamente formas que possuem mais de um significado (‘a todo vapor’

pode significar ‘indo bem’, no contexto da vida conjugal mas também pode significar

‘indo rápido’ no caso de uma locomotiva a vapor). Sendo a metáfora algo que depende do

sentido, como podemos usar as ferramentas que dispomos na Lingüística de Corpus para

encontrar os usos metafóricos em corpora?

Do mesmo modo, o estudo da metáfora coloca oportunidades para a Lingüística de

Corpus:

A Lingüística de Corpus tem mostrado evidências abundantes e consistentes de que o

sentido das palavras se mapeia nos seus usos. Ou seja, podemos deprender o significado

das palavras por meio da maneira como elas são usadas. Mesmo palavras polissêmicas

podem ter seus sentidos desambigüizados por meio da observação dos padrões. Por

exemplo, os sentidos de ‘manga’ (de roupa e de chupar) são facilmente perceptíveis pelos

padrões que elas formam. Quando o sentido é o de ‘fruta’, os padrões mais comuns

incluem ‘chupar manga’, ‘comprar / vender manga’, ‘carga de manga’ e ‘experimentar a

manga’, entre outros. Já quando o sentido é de ‘parte de uma camisa’, entre os padrões

mais típicos estão ‘manga longa’, ‘manga curta’, ‘sem manga’ e ‘camisa de/sem’. Ou seja,

os sentidos são mantidos separados por meio da padronização exclusiva de cada sentido.

Quando um padrão típico de um sentido é usado com outro sentido (‘chupei uma manga

curta’), surge muitas vezes a ambigüidade, que por sua vez pode resultar em problema de

comunicação, em humor ou mesmo em poesia. Do ponto de vista dos usuários da língua,

essa desambigüização é quase sempre automática e inconsciente, pelo contexto, o que nos

sugere que identificamos e interpretamos os padrões sem grande despêndio cognitivo.

Assim, se o significado está no uso, o sentido metafórico também deve estar. Dessa forma,

o estudo da padronização léxico-gramatical pode nos apontar a distinção entre os sentidos

metafórico e não metafórico das palavras.

Se a metáfora é um fenômeno cognitivo, o seu estudo representa uma maneira de a

Lingüística de Corpus conseguir inferir o processamento mental a partir das instâncias de

uso. Isso viria como resposta parcial a uma das grandes críticas à Lingüística de Corpus é a

de que ela tem sido pouco capaz de teorizar a respeito da linguagem em geral

44

(cf.Thompson e Hunston, 2006 :2).

Com base nesses desafios e oportunidades de pesquisa que se colocam diante da

Lingüística de Corpus por meio da interface com os estudos da metáfora, podemos utilizar

o WordSmith Tools para encaminhar uma análise que venha mostrar como encontrar e

como se realizam as metáforas em um corpora.

4.2. Recursos

• Utilizamos os seguintes recursos na análise desenvolvida para este capítulo:

• Um corpus de pesquisa, composto por 868 pronunciamentos e discursos do

presidente Lula, retirados do sítio www.presidencia.gov.br. O corpus possui

1.779.713 ocorrências (‘tokens’) e 32.757 formas (‘types’).

• Uma lista de palavras de corpus de referência, da mesma língua do corpus de

pesquisa, gravada no formato WordSmith Tools. Nos exemplos, empregamos o

Banco de Português, com 230.460.560 ocorrências (‘tokens’) e 607.392 formas

(‘types’).

• O programa KeyWords.

• O programa WordList.

• O programa Concord.

4.3. Análise do corpus

Um dos grandes fenômenos lingüísticos da vida política brasileira tem sido o que a mídia

tem chamado de ‘metáforas do presidente Lula’. Desde que os jornais e revistas

perceberam que Luís Inácio Lula da Silva emprega deliberadamente metáforas em seus

discursos e pronunciamentos, houve comentários incessantes sobre a eficácia de tal recurso

na sua argumentação. Lendo tais matérias, percebe-se que metáfora, para os analistas da

fala do presidente, é um recurso de retórica para tornar as idéias mais claras para a

audiência e convencer a platéia. Na medida em que as metáforas ‘tornam mais fácil’ a

compreensão de temas complexos (como a política monetária) para uma população em

grande parte iletrada, elas ainda ajudam a ‘guiar’ a compreensão do interlocutor para um

desfecho desejado. Por exemplo, quando Lula explica a situação econômica grave do país

45

quando assumiu o governo dizendo que ‘o Brasil estava numa UTI’, ele torna mais

concreto e palpável o sentido abstrato de ‘déficit federal orçamentário’ e guia a

compreensão dessa situação em termos de um doente internado em UTI. A metáfora

conceptual que subjaz esse exemplo pode ser algo como UM PAÍS COM PROBLEMAS

FINANCEIROS É UM PACIENTE INTERNADO EM UMA UTI. Ela comporta vários mapeamentos,

como: (a) os médicos são o governo empossado; (b) a família do doente é o povo

brasileiro; (c) o tratamento são as medidas econômicas adotadas pelo governo, entre

muitos outros. A metáfora exprime tudo isso de modo implícito, com a conclusão, também

implícita, de que o povo deve confiar no governo ou então o paciente morre, pois quem

está na UTI não tem opção de escolher seu próprio tratamento.

Embora essa interpretação seja bastante coerente com o contexto em que a metáfora

lingüística apareceu, não podemos afirmar (1) que tenha sido essa a intenção do presidente

ao usá-la, nem (2) que o povo em geral tenha interpretado dessa forma. O que podemos

fazer, na análise, é levantar hipóteses e fundamentá-las com evidências do corpus.

Este foi apenas um dos exemplos de metáfora do presidente Lula, notadamente um

daqueles que saltam aos olhos. Mas a premissa básica da análise de metáfora com corpus é

justamente que deve haver muitas outras metáforas no corpus de que não temos

consciência, seja porque não lemos o corpus inteiro, seja porque nossa leitura por mais

atenta que seja ainda é falha. Dessa forma, precisamos buscar metáforas em um corpus.

4.4. Análise de palavras-chave do corpus

Toda palavra de um corpus tem algum potencial de ser usada metaforicamente. Portanto,

temos para começar tantos Veículos quantos há formas ou vocábulos (‘types’) no corpus,

ou seja, cerca de 33 mil. Claramente, precisamos de um mecanismo para fazer uma

triagem inicial de palavras.

Para isso, usamos a ferramenta KeyWords, para nos mostrar as palavras que sejam mais

características do corpus. Para retirar as palavras-chave, primeiramente fizemos uma lista

do corpus e a salvamos. A seguir, fizemos uma outra lista de palavras do corpus de

referência, o Banco de Português. Por fim, comparamos as duas com o programa

KeyWords.

A figura abaixo mostra a tela do KeyWords com as palavras mais chave do corpus de

46

pesquisa.

A lista está classificada por ordem de ‘keyness’, isto é, em ordem decrescente pelo valor

da coluna ‘Keyness’. Assim, a palavra ‘mais chave’ do corpus é ‘nós’, pois possui um

‘keyness’ de 78495,1. Esse valor, por sua vez, representa a extensão da diferença de

freqüência de ‘nós’ nos dois corpora; no corpus de estudo, as ocorrências de ‘nós’ (16252)

correspondem a 0,91% do total de ocorrências do corpus inteiro, ao passo que no corpus

de referência, as ocorrências (64214) ocupam apenas 0,03% do corpus. A diferença entre

os percentuais são muito grandes (mais de 30 vezes), e é isso que o valor de Keyness

reflete.

4.5. Análise de metáfora

Para a análise de metáfora, é preciso olhar a lista de palavras-chave e ainda assim

selecionar alguns candidatos a metáfora, ou seja, palavras que tenham algum potencial

metafórico. Este é um procedimento subjetivo, que depende da experiência do analista.

Entretanto, há algumas classes de palavras que possuem maior probabilidade de uso

metafórico (Berber Sardinha, no prelo), e portanto o analista pode começar por elas:

• Adjetivos

47

• Substantivos comuns

• Verbos plenos

Por verbos plenos, entendemos os verbos como ‘cantar’, ‘correr’, ‘martelar’, cujo sentido

básico não depende de complemento. Em contrapartida, os chamados verbos

‘deslexicalizados’ possuem um sentido independente muito vago e por isso necessitam de

complementação, como ‘ter’, ‘dar’ e ‘tomar’, por exemplo.Os verbos deslexicalizados são

altamente metafóricos, principalmente porque se aliam a substantivos abstratos, resultando

em metáforas ontológicas, como ‘ter esperança’, onde ‘esperança’ é metaforizada como

algo concreto, possuível. Contudo, as metáforas resultantes desses verbos tendem a ser

pouco reveladoras do discurso a ser analisado, já que geralmente são recursos da

linguagem em geral.

De modo similar, há a classe das preposições. Elas são usadas metaforicamente com muita

freqüência, porém seu uso metafórico é bastante geral (p.ex. ‘ele está em apuros’, onde

‘em’ é uma metáfora de recipiente) e pouco indicativo das especificidades do discurso

contido no corpus de pesquisa.

Dessa forma, de volta à lista de palavras-chave, podemos seguir os seguintes passos:

Selecionar palavras-chave que sejam adjetivos, verbos plenos e substantivos comuns.

Fazer concordâncias de cada palavra. Caso a palavra possua muitas ocorrências, trabalhar

com uma amostra delas. O ideal é usar cerca de mil instâncias de uma palavra (Deignan,

2005). Se a freqüência for superior a mil, aplicar a opção ‘at random’, de Settings, e digitar

um número que reduza o total de linhas para perto de mil. Por exemplo, se a freqüência for

3000, digitar 3, para que sejam retiradas 1000 ocorrências (3000 / 3). Esse denominador

somente pode ser um número inteiro. Portanto, se houver 2367 ocorrências, é preciso usar

2 ou 3, para chegar próximo de 1000 (2367 / 2 = 1183,5; 2367 / 3 = 789).

Retirar os colocados das palavras e verificar quais parecem indicar metáforas.

Voltar à concordância e analisar cada linha dela, prestando atenção nos colocados

promissores indentificados na etapa anterior. Decidir se o uso da palavra é metafórico e

codificar a concordância, de tal modo que cada uso metafórico seja sinalizado por um

código (p.ex. ‘m’) na coluna ‘Set’ da concordância.

48

Elencar as metáforas lingüísticas codificadas na concordância.

Nomear as metáforas conceptuais subjacentes a elas.

Seguindo esses procedimentos, o primeiro candidato a metáfora da lista de palavras-chave

era ‘povo’, na posição 24 da lista de palavras-chave:

Fizemos a concordância dela:

Analisamos a concordância e notamos que não havia nenhum uso metafórico.

Fizemos o mesmo com os próximos candidatos (dizer, discurso, coisas, fome, coisa, países

49

e desenvolvimento).

Para ilustrar, tomemos ‘desenvolvimento’. Fizemos a concordância dessa palavra e a

seguir verificamos seus colocados. Aplicamos o denominador de redução 3, conforme

explicado acima, pois havia mais do que mil ocorrências (2367), fazendo restar 789 linhas

de concordância para analisar.

A seguir classificamos a concordância pela segunda palavra à esquerda (L2):

Novamente, o analista deve usar sua experiência e conhecimento para identificar possíveis

Veículos na lista de colocados. Entre os colocados, os seguintes parecem promissores,

juntamente com os campos fonte que parecem indicar:

Colocado Campo fonte possível

Modelo Construção

Projeto Construção

50

Vias Viagem

Caminho Viagem

Retomada Viagem

Ciclo ciclo

Busca Viagem

Para cada um dos colocados, é preciso voltar à concordância e analisá-la. Anotamos os

usos metafóricos com o código ‘m’ na coluna Set da concordância:

Quando reconsideramos a análise de uma linha, digitamos um outro código em lugar do

‘m’, pois não é possível apagar um código já digitado na coluna Set. Escolhemos digitar

‘z’ nesses casos:

51

Re-classificamos a concordância pela segunda palavra à esquerda (2L) e isso nos ajudou a

verificar os usos potencialmente metafóricos. Não há regra sobre qual coluna deva ser a de

classificação, por isso o analista deve experimentar com várias. Uma mesma concordância

pode ser reclassificada de vários modos para permitir a visualização dos padrões.

Ao final da análise da concordância, fizemos uma reclassificação pela coluna ‘Set’.

Tivemos o cuidado de fazer uma segunda classificação pela posição 2L (para mantermos a

concordância ordenada conforme a usamos na análise) e selecionar a opção ‘Ascending’

(para que as linhas com ‘m’ fôssem todas deslocadas para o topo da lista):

Como resultado, obtivemos a concordância a seguir:

52

As linhas que não possuem código (os usos não metafóricos) tornam-se cinza. As linhas

com o código ‘z’ (os casos reconsiderados que passaram de metafóricos para não

metafóricos) continuam em cor preta.

Com essa classificação, pudemos facilmente contar quantos usos metafóricos havia: 159 (é

o número da linha onde aparece o último ‘m’ na coluna Set). A probabilidade de uso

metafórico de ‘desenvolvimento’ pode ser calculada assim:

159 / 789 = 0.201

Multiplicando por 100, obtemos a porcentagem de uso metafórico: 20%.

A seguir, elencamos as metáforas lingüísticas que codificamos e nomeamos as metáforas

conceptuais:

• Acelera o desenvolvimento (desenvolvimento é uma máquina)

• Avenida do desenvolvimento (desenvolvimento é viagem)

• Caminho do desenvolvimento (desenvolvimento é viagem)

• Ciclo de desenvolvimento (DESENVOLVIMENTO É UM CICLO)

• Com vistas a um desenvolvimento (DESENVOLVIMENTO É UM OBJETO)

53

• Dimensão espacial do desenvolvimento (DESENVOLVIMENTO É UM OBJETO)

• Em vias de desenvolvimento (desenvolvimento é uma viagem)

• Entrave ao desenvolvimento (DESENVOLVIMENTO É VIAGEM)

• Estimular o desenvolvimento (desenvolvimento é um organismo)

• Estrada larga do desenvolvimento (DESENVOLVIMENTO É UM CAMINHO)

• Estratégia de desenvolvimento (DESENVOLVIMENTO É GUERRA)

• Etapa do desenvolvimento (desenvolvimento é um objeto)

• Gargalos do desenvolvimento (desenvolvimento é uma garrafa)

• Geração de desenvolvimento (desenvolvimento é um organismo)

• Luta pelo desenvolvimento (DESENVOLVIMENTO É GUERRA)

• Mar aberto do desenvolvimento (desenvolvimento é um mar aberto / viagem)

• Modelo de desenvolvimento (desenvolvimento é uma construção)

• Níveis de desenvolvimento (desenvolvimento é um recipiente)

• Padrão de desenvolvimento (desenvolvimento é um objeto)

• Paradigma de desenvolvimento (desenvolvimento é uma ciência)

• Passar pelo desenvolvimento (desenvolvimento é um caminho)

• Perspectivas de desenvolvimento (DESENVOLVIMENTO É UM OBJETO)

• Pilar do desenvolvimento (desenvolvimento é uma construção)

• Plano de desenvolvimento (desenvolvimento é uma construção)

• Projeto de desenvolvimento (desenvolvimento é uma construção)

• Retomada do desenvolvimento (desenvolvimento é uma viagem)

54

• Rota do desenvolvimento (desenvolvimento é uma viagem)

• Rumos do desenvolvimento (desenvolvimento é uma viagem)

• Trava o desenvolvimento (desenvolvimento é uma máquina)

A análise indica que o presidente Lula metaforizou desenvolvimento principalmente como

objeto, con ou como viagem. Assim, ele evocou o campo fonte de CONSTRUÇÃO (e seu

superordinado OBJETO) para dizer que desenvolvimento é algo que se vê ao longe, que

possui partes, que se planeja, modela, padroniza e projeta. Ele também retirou do campo

fonte de VIAGEM mapeamentos para conceitualizar o desenvolvimento como um lugar para

onde se caminha, por onde se passa e onde se pode encontrar obstáculos. Juntando essas

principais metáforas, parece que o conceito de desenvolvimento presente na fala do

presidente é de algo que se constrói e que é atingível ao final de uma rota. As duas

metáforas são compatíveis, pois reforçam a idéia de um processo que se desenrola ao

longo do tempo.


Neste capítulo, mostramos maneiras de identificar metáforas em corpora com auxílio do

programa WordSmith Tools. O programa oferece ao analista de metáforas maneiras de

fazer uma triagem de palavras com potencial metafórico, via palavras-chave. Também

proporciona meios de analisar cada candidato, com os colocados das concordâncias. Por

fim, o programa permite a codificação dos casos metafóricos na própria concordância, o

que ajuda o pesquisador a organizar sua análise. Embora grande parte da pesquisa em

metáfora ainda seja qualitativa e subjetiva, as ferramentas que o WordSmith Tools coloca

à nossa disposição são muito úteis e produtivas para o pesquisador, auxiliando em etapas

fundamentais de um projeto de pesquisa, notdamente na triagem, análise e codificação do

corpus.

55

5. Tradução

5.1. Introdução

Neste capítulo, apresentamos o uso do WordSmith Tools para investigação de questões

relacionadas aos estudos da Tradução, mais especificamente a questão dos Universais de

Tradução, que são hipóteses lançadas por Mona Baker (1993) a respeito de tendências de

larga escala passíveis de observação em textos traduzidos.

Os Universais de Tradução propostos por Baker (1993) são quatro:

(1) Simplificação: tendência do tradutor em tentar tornar mais simples a linguagem da

tradução, por meio, por exemplo, de frases mais curtas e vocabulário mais repetido.

(2) Explicitação: tendência do tradutor em explicitar informações do texto original, o que

pode acarretar por exemplo textos mais extensos, vocabulário maior e maior número de

orações ligadas por conjunções nos textos traduzidos.

(3) Normalização: tendência do tradutor em suprimir traços distintivos do texto original,

revelando-se, por exemplo, pelo uso de um mesmo vocábulo na língua de chegada para

traduzir vários vocábulos diferentes da língua de partida.

(4) Estabilização: tendência de tradutores produzirem textos traduzidos que são mais

parecidos entre si do que com os textos originais correspondentes.

Desses quatro universais, trataremos dos três primeiros neste capítulo. O quarto,

estabilização, não será investigado pois requer comparação entre vários corpora de textos

traduzidos e entre vários corpora de textos originais, o que foge do escopo da obra.

5.2. Recursos

Um corpus paralelo, composto por textos originais e suas traduções. Utilizamos um corpus

paralelo composto por resumos de dissertações escritos em português e suas traduções para

o inglês, retirados de teses de Lingüística Aplicada defendidas no PPG em Lingüística

Aplicada e Estudos da Linguagem (LAEL), da PUCSP6. O corpus é composto de 75 textos

em cada língua. Ele existe em duas formas: paralelo (com os textos em cada língua

6 Agradeço Lilian Mello a cessão do uso desse corpus.

56

armazenados em arquivos independentes) e alinhado (com todos os textos reunidos em um

mesmo arquivo, de tal modo que cada período do original é emparelhado com a sua

tradução). O corpus alinhado foi obtido com o Alinhador de Corpora do CEPRIL

(www2.lael.pucsp.br/corpora).

Um etiquetador morfossintático (‘part of speech’) para cada uma das línguas representadas

no corpus, para investigar pontos relacionados aos universais de explicitação e

normalização. Empregamos os etiquetadores onlines de português e de inglês disponíveis

no sítio de corpora do CEPRIL (www2.lael.pucsp.br/corpora).

Um concordanciador paralelo, para buscar ocorrências de palavras no corpus alinhado.

Opcionalmente, o Text Converter, utilitário do WordSmith Tools, que pode ser usado para

inserir etiquetas de final de período no corpus, o que é desejável para padronizar a

formatação de períodos dos corpora.

5.3. Simplificação

A simplificação pode se revelar de dois modos nos textos traduzidos:

Maior número de períodos nos textos traduzidos em relação aos originais; isso indica que

frases longas do texto original foram quebradas ou foram eliminadas no texto traduzido.

Relação forma/item (‘type/token ratio’) mais baixa nos textos traduzidos; isso indica um

maior número de repetição do mesmo léxico no texto traduzido em comparação ao

original. A relação forma/item é calculada, tradicionalmente, pela divisão do número de

formas (types) pelo número de itens (tokens). O WordSmith Tools ainda multiplica esse

resultado por 100. Assim, se há 3791 formas e 25429 itens, a razão será 0,149082, o que

multiplicado por 100 e arredondado para 2 casas decimais resulta em 14,91. Para

interpretar esse número, podemos dizer que 14,91% das palavras do texto ocorre apenas

uma vez, e que 85,09% (isto é, 100 – 14,91) repete-se pelo menos uma vez nos textos.

Para verificar essas hipóteses, precisamos retirar dos dois corpora o número de frases e a

relação forma/item.

5.3.1. Número de períodos

O WordSmith Tools reconhece automaticamente o final de período de acordo com a

57

especificação do campo ‘sentence’, no menu ‘Settings / Text characteristics’. O ‘default’ é

reconhecer um período pela presença de um ponto final, de exclamação ou de interrogação

seguido de um ou mais espaços em branco (ou tabulações) e uma seqüência de um ou mais

caracteres que se incia por letra maiúscula.

Porém, em português e inglês, podemos indicar o final de período de vários outors modos:

• Ponto final. É o caracter padrão para delimitar períodos, mas se confunde com o

ponto decimal.

• Ponto de exclamação.

• Ponto de interrogação.

• Reticências.

• ‘Bullets’. Muitas listas feitas com esse tipo de marcador não incluem ponto final no

término de cada frase.

• Quebra de linha. É um caracter invisível que cria parágrafos; é usado para delimitar

frases por meio de diagramação do texto. Títulos de trabalhos geralmente vêm

geralmente terminados por uma quebra de linha, sem ponto final ou outro marcador

tradicional. Listas corridas também, embora nesse caso seja mais controverso

decidir se cada linha da lista é um período ou se a lista inteira deva ser um período.

De qualquer modo, muitas listas não possuem um ponto final nem mesmo quando

se encerram, confundindo-se, assim, com o período subseqüente.

Desse modo, para que a contagem dos períodos seja confiável, é preciso padronizar a

indicação de final de período nos dois corpora. Isso pode ser feito pelo menos de dois

modos:

Digitação de uma etiqueta não-ambígua para final de frase. O pesquisador pode editar os

textos, buscando as diversas marcas de final de período possíveis e substituí-las por um

código específico, como </s> ou .EOS . A busca pode ser semi-automatizada, por

exemplo, com a opção ‘Localizar / Substituir’ de um processador de texto, com expressões

regulares de um aplicativo como ‘sed’ ou com o próprio ‘Text Converter’ do WordSmith

Tools. O analista deve tomar cuidado, porém, e revisar as substituições automáticas, pois

58

nem todo caracter ‘.’ é um final de período, além de inserir a etiqueta onde não há caracter

de final de frase.

Etiquetagem automática. O pesquisador pode etiquetar seu corpus com um etiquetador

morfossintático (como por exemplo os disponíveis para inglês e português em

www2.lael.pucsp.br/corpora), e o etiquetador automaticamente insere, além das etiquetas

de classes gramaticais, uma etiqueta específica para final de frase, tomando cuidado para

desambigüizar os casos problemáticos (como a distinção entre ponto decimal e final,

reticências, etc). Depois de etiquetado, o pesquisador deve descobrir qual etiqueta foi

empregada pelo etiquetador para sinalizar o final de período.

O corpus que usamos aqui foi padronizado segundo a opção 1 acima; inserimos nele a

etiqueta .EOS para designar um final de período.

Depois de feito esse pré-processamento, pudemos contar o número de períodos. Para tanto,

fizemos uma lista de palavras de cada corpus, separadamente, e em cada uma, procuramos

a ‘palavra’ EOS na lista. Os resultados foram os seguintes:

Textos Períodos

Originais 739

Traduzidos 761

Os resultados sugerem indícios de simplificação, pois há um número maior de períodos

nas traduções do que nos originais, sugerindo que na tradução deve haver um maior

número de frases curtas.

5.3.2. Relação forma/item

A estatística forma/item é calculada automaticamente pelo WordList e informada na lista

‘Statistics’:

59

A coluna ‘Overall’ indica os valores para o corpus inteiro, enquanto as demais colunas

mostram os números individuais de cada arquivo do corpus. A informação que buscamos

está na linha ‘Type/Token Ratio’: 14.91. A lista oferece ainda outro tipo de Type/Token

Ratio, o Standardised. Na tela mostrada essa estatística está em branco porque o tamanho

do intervalo padronizado usado pelo Standardised Type/Token Ratio é maior do que o

tamanho de cada arquivo do corpus. Seria necessário mudar esse valor no menu ‘Settings’,

aba ‘Wordlist’, opção ‘Type/Token basis’. No nosso caso, o Type/Token Standardised não

é interessante pois não estamos lidando com corpora independentes, cujo tamanho pode

variar. Nesse tipo de pesquisa com corpus paralelo, a extensão de um corpus está

relacionada à extensão do outro, por isso o Type/Token Ratio tradicional é mais

apropriado.

Os resultados foram os seguintes:

Textos Razão Forma/Item

Originais 14.91

Traduzidos 11.98

60

Esses números indicam que o vocabulário dos textos originais é mais rico, havendo mais

repetição de vocabulário nos textos traduzidos. Isso sustenta a hipótese de simplificação.

Contudo, é preciso lembrar que o português possui uma morfologia mais diversificada do

que o inglês, com maior número de formas conjugadas e flexionadas em gênero. Tudo isso

significa a priori um número maior de itens de vocabulário em textos escritos em

português do que em inglês. Em outras palavras, corpora de português tenderiam a ter

naturalmente mais formas (types) do que corpora de inglês. Por conta disso, não podemos

afirmar com certeza que a diferença na razão forma/item observada acima é resultado da

simplificação da tradução ou de características inerentes à língua de partida. Para controlar

o efeito da morfologia nas duas línguas, seria preciso lematizar os dois corpora. Como os

lemas são formas canônicas, não flexionadas, eles nos dariam uma idéia mais precisa da

simplificação. Entretando, como WordSmith Tools não faz lematização automática de

forma eficiente, resta a dúvida de qual a parcela da influência da morfologia do português

nos resultados. De qualquer modo, a diferença observada deve ser levada em conta como

indício e não como prova definitiva de simplificação.

5.4. Explicitação

Há três índices que podem revelar a presença de explicitação:

(1) Tamanho dos textos traduzidos é em maior do que o dos textos originais. Textos

maiores podem ser fruto de tentativas do tradutor em explicitar conceitos e referências

culturais do texto original.

(2) Maior número de formas (‘types’) no texto traduzido em comparação ao original. O

número de formas indica o tamanho do vocabulário de um texto ou corpus. Um

aumento do tamanho do vocabulário, no texto traduzido, pode ser indício de

explicitação, na medida em que o tradutor precisa de mais palavras diferentes para

explicitar conceitos e referências culturais, por exemplo.

(3) Maior número de conjunções e locuções adjetivas no texto traduzido. Para explicitar

conceitos e aspectos culturais, o tradutor pode fazer uso de mais orações interligadas

por conjunções.

Para investigar esses pontos, precisamos retirar de cada corpus, respectivamente: número

de itens (tokens), números de formas (types) e número de conjunções.

61

5.4.1. Número de itens (‘tokens’)

O tamanho dos textos é indicado pelo número de palavras (‘tokens’) contido neles. O

WordSmith Tools mostra o número de ‘tokens’ por default na tela ‘Statistics’ da lista de

palavras, conforme mostrado acima. O analista deve simplesmente fazer uma lista de

palavras para cada corpus, com o Wordlist e depois anotar a informação referente ao

número de tokens, conforme fizemos:

Textos Itens (‘tokens’)

Originais 25429

Traduzidos 24886

Conforme mostram os resultados, o corpus de textos traduzidos é menor do que o de textos

originais; sendo assim, não há evidência de explicitação.

Isso parece ser conseqüência da presença de simplificação, indicada antes. Na medida em

que os textos eram simplificados, eles foram diminuídos também. Se houve explicitação,

ela não se revela por esse traço.

5.4.2. Número de formas (‘types’)

Da mesma forma que o número de ‘tokens’, o número de ‘types’ é informado

automaticamente pelo Wordlist quando as listas de palavras são geradas. O analista deve

simplesmente abrir as listas de Statistics de cada corpus e anotar o número de ‘types’

mostrado lá:

Textos Formas (‘types’)

Originais 3791

Traduzidos 2981

Os números mostram que o vocabulário dos textos traduzidos é menor do que o dos

originais. Desse modo, não há indícios aqui de explicitação.

62

A quantidade bruta de ‘types’ deve ser interpretada com cuidado, conforme comentamos

acima, porque os corpora não foram lematizados. Desse modo, cada forma ortográfica

diferente corresponde a um ‘type’, muito embora eles sejam apenas variações de uma

mesma forma canônica (correr, corro, corre, corres, etc). Isso faz com que os textos em

português possuam naturalmente um número maior de formas ortográficas do o inglês.

5.4.3. Número de conjunções

Para saber o número de conjunções, é preciso etiquetar os corpora automaticamente com

etiquetadores morfossintáticos. Felizmente, há dois etiquetadores disponíveis online no

sítio de corpora do CEPRIL: www2.lael.pucsp.br/corpora, um para português e outro para

inglês, conforme ilustra a tela a seguir. Assim, o primeiro passo foi etiquetar cada corpus

com o etiquetador correspondente, de acordo com a língua.

Os etiquetadores não indicam locuções de qualquer natureza, por isso nos restringimos às

conjunções propriamente ditas.

Depois de etiquetados, os arquivos foram salvos em formato ‘txt’ e foram feitas

concordâncias tendo como palavra de busca as etiquetas referentes a conjunções:

• Português: CJ

63

• Inglês: CC/CS. Cada etiqueta refere-se, respectivamente, a conjunções coordenadas

e subordinadas. As duas etiquetas foram digitadas juntas no campo ‘Search Word

or Phrase’, separadas por uma barra:

As concordâncias foram abertas e classificadas pela primeira palavra à esquerda (1L), isto

é, pela própria palavra etiquetada:

A seguir, cada concordância foi observada atentamente. Os casos de erro de etiquetagem

foram eliminados (com a tecla ‘delete’ e depois clicando no botão ‘zap’); havia 15 erros na

64

etiquetagem em português e três em inglês. Os números restantes foram anotados e são os

seguintes:

Textos Conjunções

Originais 1146

Traduzidos 1460

Os resultados mostram indícios de explicitação, pois os textos traduzidos possuem mais

conjunções do os originais.

5.5. Normalização

Ao contrário dos universais anteriores, não há uma medida quantitativa que indique a

presença ou não de normalização nos textos traduzidos. Por isso, precisamos enfocar

aspectos específicos do texto para empreender um estudo de cunho mais qualitativo. Tendo

o vocabulário em foque, podemos supor que uma possível marca de normalização nos

textos pode ser o uso de um vocabulário menos variado. Ao suprimir palavras ‘anormais’

do texto original e subsituí-las por outras mais gerais, por exemplo, o tradutor estaria

‘suavizando’ o estilo do texto traduzido e, portanto, normalizando-o. Porém, conforme

discutimos acima, uma comparação baseada no número de ‘types’ apenas pode ser

problemática porque português e inglês possuem morfologias diferentes. Dessa forma, se

quisermos saber se houve normalização do vocabulário, precisamos nos deter a classes

específicas de palavras e observar o uso de cada palavra em si. Pensamos, assim, em

enfocar a classe dos substantivos, por ela ser geralmente a mais numerosa.

Para obter os dados necessários para lidar com os substantivos, usamos os corpora

etiquetados morfossintaticamente, conforme descrito na seção anterior. A seguir, fizemos

concordâncias das etiquetas relativas a substantivo:

• Português: N

• Inglês: NN/NNS/NP/NPS. Cada etiqueta refere-se, respectivamente, a substantivos

comuns no singular, substantivos comuns no plural, substantivos próprios no

singular, substantivos próprios no plural. As quatro etiquetas foram digitadas juntas

65

no campo ‘Search Word or Phrase’, separadas por uma barra.

Depois de obtidas as concordâncias, observamos cada uma atentamente e apagamos os

casos de erro de etiquetagem. Foram marcados pelo etiquetador um total de 9119

substantivos no corpus de português, mas eliminamos 418 erros (4,6%), restando assim

8701 ocorrências de substantivos (34% do total de itens). No corpus de inglês, foram

etiquetados originalmente 7321 substantivos, sendo que 16 estavam incorretos (0,2%),

restando assim 7305 substantivos (29,4% do total de itens).

O próximo passo foi encontrar os substantivos de cada corpus, retirando os colocados de

cada concordância (‘Show Collocates’) e re-ordenando (‘Re-sort’) a listagem de

colocados pela primeira palavra à esquerda (isto é, a palavra etiquetada). As telas a seguir

mostram a listagem de colocados do corpus de português (textos originais) e do de inglês

(textos traduzidos), respectivamente:

66

A seguir, queríamos saber qual o número total de substantivos distintos (‘types’) em cada

corpus. Para fazer essa contagem, rolamos a lista até o ponto onde os colocados na posição

L1 possuíam freqüência zero e contamos quantos colocados havia até aquele ponto. Havia

816 deles no corpus de textos originais e 658 no corpus de textos traduzidos.

Essa contagem revelou que havia mais substantivos nos textos originais do que nos

traduzidos. Isso pode ser um indício de normalização, pois vários substantivos do original

devem ter sido traduzidos por um mesmo substantivo.

Contudo, para sabermos se de fato isso ocorreu, precisamos analisar a tradução de cada

substantivo.

Contudo, o programa WordSmith Tools não oferece recursos apropriados para fazer essa

análise, pois não possui meios automáticos de alinhar corpora parelelos, nem de fazer

buscas nesse tipo de corpus. O Concord faz concordâncias em corpora independentes; por

exemplo, se fizermos uma concordância de ‘language’ no corpus de textos traduzidos, não

saberemos como cada instância foi traduzida. Os recursos ideais nesse caso são:

(1) um corpus alinhado. Esse tipo de corpus engloba num mesmo arquivo os segmentos do

texto original emparelhados aos segmentos correspondentes do texto traduzido. Os

segmentos alinhados normalmente são períodos.

67

(2) Um concordanciador paralelo. Esse tipo de concordanciador apresenta a concordância

do item procurado ao lado dos segmentos correspondentes do corpus alinhado.

O recurso mais próximo que o WordSmith Tools possui é o utilitário Aligner (Viewer and

Aligner), que faz um alinhamento por período, texto a texto. O Aligner quebra cada texto

na marca de final de período e emparelha os períodos dos dois textos. O usuário tem a

possibilidade de consertar o alinhamento automático, fazendo edição manual do arquivo

alinhado. Os textos alinhados são chamados pelo WordSmith Tool de ‘Dual Texts’ e

possuem o formato ilustrado na tela abaixo.

Cada período do texto traduzido aparece (em azul) logo abaixo do período correspondente

do texto original (em vermelho), com um código no início. No exemplo acima, temos:

<!—L1, S 1 -->, significando significa ‘language 1’, ‘sentence 1’. Logo abaixo, vem <! --

L2, S 1 -->, isto é, ‘language 2, sentence 1’, e assim por diante.

Para verificar a normalização dos substantivos, seria preciso alinhar cada par de textos

com o Aligner e depois buscar em cada um a palavra escolhida (p.ex. ‘language’). Assim

que for encontrada cada ocorrência dessa palavra, o analista precisa procurar a palavra

corresponde no trecho do texto original (a linha logo acima). Como se pode imaginar, é um

processo bastante demorado, em se tratando de um corpus grande.

Há maneira mais eficientes de fazer isso, como por exemplo com o concordanciador

paralelo do CEPRIL (www2.lael.pucsp.br/corpora/parallelconc):

68

Esse concordanciador retorna o período onde está a palavra de busca lado a lado com o

período correspondente da tradução, conforme ilustra a tela abaixo.

69

O analista deve, então, localizar as palavras em negrito (que são as ocorrências da palavra

de busca, no caso ‘language’) e depois encontrar a tradução delas no trecho correspondente

ao lado. Fizemos esse procedimento e desse modo obtivemos uma lista com as palavras

nos textos originais que foram traduzidas por ‘language’ nos resumos. A tabela a seguir

traz os resultados.

Tradução Freqüência

linguagem 66

língua 44

(zero) 13

línguas 7

lingüística 6

LE 5

idiomas 4

inglês 4

corpus 1

cotidiano 1

enunciação 1

idioma 1

Total 153

Os resultados indicam que onze palavras dos textos originais foram traduzidas por

‘language’. Além disso, ‘language’ foi tradução de ‘zero’, isto é, foi empregada quando

70

não havia nenhuma palavra correspondente no texto original.

Esses dados sustentam a hipótese de normalização, pois indicam que doze modos de

expressão em português se ‘normalizaram’ em apenas uma na tradução. É bem verdade

que a maiora dos casos (110 de 153, ou 72%) é do par ‘língua / linguagem’, cuja tradução

prima facie no inglês é mesmo ‘language’. Mas mesmo descontando esses casos, há ainda

outros 43 que poderiam ser traduzidos de outros modos.


Encontramos no corpus traduzido evidências de três dos universais de tradução propostos

por Baker (1993):

Simplificação. Os resumos traduzidos possuem períodos mais curtos e um vocabulário

menos rico do que os originais.

Explicitação. Os resumos traduzidos são menores, e seu vocabulário também é menor. Isso

não indica explicitação. Por outro lado, os resumos traduzidos possuem mais orações

ligadas por conjunção, o que pode ser evidência de explicitação.

Normalização. Os resumos traduzidos possuem menos unidades (‘types’) de substantivos,

o que pode indicar que vários substantivos do texto original foram traduzidos em um

mesmo substantivo. Isso foi comprovado com relação a ‘language’, que serviu como

tradução de onze diferentes substantivos dos textos originais, além de ser empregado

mesmo quando não havia elemento correspondente no original.

Em resumo, a adequação do WordSmith Tools como ferramenta para pesquisa em

tradução variou. Ele se mostrou mais producente para investigar aspectos quantitativos dos

corpora, tais como os necesários para pesquisar os universais de simplificação e

explicitação, pois já traz prontas as contagens de formas e itens do corpus. Já na

investigação de aspectos qualitativos, como os exigidos na pesquisa da normalização, ele

se mostrou menos adequado, pois não possui recursos eficientes de alinhamento de corpora

nem de concordanciamento paralelo. Porém, como o WordSmith Tools se propõe a ser

uma ferramenta geral para pesquisa em corpora e não um conjunto de utilitários

específicos para uma determinada área, o fato de ele não contemplar rigorosamente a

pesquisa em tradução com corpus paralelo e alinhado não chega a ser uma falha. O

pesquisador de tradução pode hoje em dia completar os recursos com ferramentas gratuiras

71

disponíveis na Internet, conforme ilustramos aqui.

72

6. Lingüística Forense

6.1. Introdução

Neste capítulo, apresentaremos uma maneira de usar o WordSmith Tools no âmbito da

Lingüística Forense.

A Lingüística Forense é uma área praticamente desconhecida no Brasil. No exterior,

principalmente na Grã-Bretanha e Estados Unidos, contudo, ela é bastante atuante. A

Lingüística Forense se ocupa da análise da linguagem jurídica, de um lado, e do

fornecimento de evidências lingüísticas em processos judiciais, de outro. No primeiro

caso, ela consiste basicamente da descrição de gêneros como leis, estatutos e

regulamentos, o que é normalmente de interesse para a própria lingüística. No segundo

caso, o lingüista forense é chamado pela Justiça para fornecer testemunho em ações

judiciais, na condição de um especialista em teoria e uso da língua, para ajudar a elucidar

um aspecto de um processo judicial. As questões que um lingüista forense ajuda a

responder são, por exemplo: (a) quem é o autor do texto? (b) de quem é a pessoa cuja voz

está gravada na fita? (c) o teor do texto constitui uma ameaça / confissão / tentativa de

terrorismo, etc? (d) o texto / fita em questão é legítmo ou pode ter sido forjado? Como se

percebe por essas questões, o lingüista forense não trabalha com a tradução ou

interpretação simultânea em tribunais ou delegacias especializadas, mas ele entra em ação

quando o assunto é, por exemplo:

• A identificação da autoria de textos anônimos.

• A legitimidade da propriedade de certas palavras ou expressões como sendo marcas

registradas de uma empresa.

• A acusação de plágio.

• A veracidade de supostas provas lingüísticas de corrupção, ameaça, suicídio, rapto,

conspiração, terrorismo, etc.

• O significado de trechos ambíguos em contratos.

• A clareza de instruções para jurados.

• O infringimento de direitos autorais.

73

Essas são apenas algumas das questões para que o lingüista forense pode prestar serviços,

seja para a promotoria, seja para a defesa.

A análise que o lingüista forense apresenta é o que se chama (no direito norte-americano e

britânico) de ‘expert opinion’, ou seja, não é prova conclusiva, pois não está ‘beyond

reasonable doubt’ (French, Olsson et al., 2005). Por isso, na maior parte das vezes o

lingüista forense é chamado pela defesa (Coulthard, 1994 :31), pois sua análise pode

indicar ‘reasonable doubt’, o que é essencial para evitar a condenação ou abrandar a pena

do réu. Já a promotoria precisa trazer provas que vão além, implicando a culpa ‘beyond

reasonable doubt’.

A análise lingüístico-forense é conduzida de acordo com as evidências disponíveis,

podendo basear-se na linguagem escrita ou falada. Por exemplo, se a disputa judicial

envolver uma fita de áudio com gravações que incriminem uma pessoa no envolvimento

com corrupção, por exemplo, e essa pessoa nega que a voz gravada seja a dele, o lingüista

forense provavelmente lidará com a questão acústico-fonética, pois precisa julgar se a voz

contida na fita possui traços semelhantes com a voz do suspeito. Por outro lado, se a

questão judicial se centrar na suspeita de que uma certa pessoa foi a autora de uma ameaça

escrita em uma carta, bilhete ou e-mail, o lingüista forense precisará fazer uma análise da

linguagem escrita desse material.

O equipamento usado na Lingüística Forense também muda de acordo com o tipo de

material que precisa ser analisado. No caso da fonética / fonologia, são empregados

gravadores de alta sensibilidade. Já em relação à questões de falsificação da caligrafia,

podem ser usados equipamentos que permitem o exame minucioso dos padrões de escrita e

até mesmo dos sulcos produzidos pela caneta ou lápis no papel (ou na folha de cheque,

etc.). Por fim, em processos envolvendo o questionamento de autoria, utiliza-se geralmente

corpora contendo material autêntico do suspeito e programas de computador para verificar

a freqüência e associação de palavras e contrastar os dados.

Neste capítulo, enfocaremos justamente esse último aspecto, restringindo nossa análise a

aspectos passíveis de processamento com o WordSmith Tools.

6.2. Breve histórico da Lingüística Forense

A primeira menção do termo ‘Forensic Linguistics’ ocorreu em um livro de 1968 de

74

autoria de Jan Svartvik (Svartvik, 1968). Nele, o autor apresenta uma análise do caso de

Timothy Evans, um motorista inglês que havia sido condenado e executado pela morte de

sua filha. Em 1949, Evans havia confessado à polícia ter matado sua mulher e filha, em sua

casa. Durante seu julgamento, ele voltou atrás e acusou um vizinho, o policial John

Christie, de ser o culpado pelas mortes. Entretanto, com base na confissão apresentada à

polícia, o júri considerou Evans o autor do assassinato da filha e o condenou à morte por

enforcamento, o que aconteceu em 1950. Porém, três anos mais tarde, os corpos de seis

mulheres (incluindo o de sua mulher) foram encontrados na casa onde Christie havia

morado. Ele foi levado a julgamento, em 1953, e confessou ter realmente matado o filho

(mas não a mulher) de Evans. Christie também foi condenado à morte.

Isso suscitou muito interesse na mídia da época, principalmente do repórter Ludovic

Kennedy, cujo livro ’10 Rillington Place’7 acendeu o debate pelo fim da pena de morte no

Reino Unido, ao defender a idéia de que a execução de Evans havia ocorrido sem provas

suficientes. O governo britânico, então, comissionou uma revisão do caso, da qual

participou Svartvik. Ele notou que a confissão de Evans possuía incongruências graves,

principalmente a presença de registro policial, como o uso do padrão ‘I then’ seguido de

verbo. Svartvik mostrou que essa coligação era típica do linguajar policial e pouquíssimo

provável na fala de uma pessoa da classe trabalhadora (French, Olsson et al., 2005). Essas

e outras evidências ajudaram a colocar em dúvida a integridade da versão apresentada pela

polícia, o que resultou no perdão8 oficial a Evans em 1966. Esse é um caso que rendeu

muitas matérias na imprensa, TV e rádio, além de livros e até mesmo um fime (‘10

Rillington Place’, lançado em 1971, com John Hurt e Richard Attenborough no elenco).

Um outro caso importante foi o de Craig Bentley, que em 1952 foi condenado à pena de

morte e depois enforcado em 1953. Ele havia sido preso juntamente com seu colega Chris

Craig, quando os dois invadiram um depósito em Londres em 1951. A polícia chegou ao

7 O título do livro refere-se ao endereço onde Timothy Evans viveu e onde ocorreram os crimes.

8 O perdão oficial não significa reconhecer a inocência do acusado. Por isso, em 2004, familiares de Evans

tentaram conseguir a eliminação da culpa, mas a Justiça britânica considerou que o custo de tal ação oficial

não se justificava, embora reconheçam que Evans não tenha matado sua mulher e filha.

(http://en.wikipedia.org/wiki/10_Rillington_Place)

75

local e deteve Bentley; Craig, ao contrário, tentou fugir e atirou nos policiais, matando um

deles, mas acabou sendo preso. Segundo a polícia, Bentley teria dito ‘let him have it’ a

Craig, enquanto este tentava escapar, o que foi interpretado pela polícia como significando

‘pode atirar’, embora também possa ser interpretada como ‘entregue a arma’. Os dois

foram levados a julgamento; Bentley, que era mentalmente incapacitado (sua idade mental

era de 11 anos), foi condenado a morte por enforcamento, enquanto Craig, que não tinha

maioridade legal, foi preso por 10 anos. Em 1991, foi solicitado às autoridades inglesas o

perdão oficial a Craig Bentley, a partir da análise das evidências lingüísticas contidas no

seu depoimento prestado à polícia. O pedido foi negado pela Justiça Britânica, mas a

análise lingüístico-forense ajudaria o caso a ser reconsiderado pelo governo britânico mais

tarde, quando em 1998 seu perdão foi oficialmente sancionado.

A análise forense que ajudou o caso a ser revisto foi conduzida por Malcolm Coulthard.

Segundo ele, o depoimento de Bentley possuía muitas características que eram comuns ao

discurso policial, o que colocava em dúvida a versão dos fatos contida no depoimento. A

análise de Coulthard (1994) se assemelha à de Svartvik (1968), no sentido de que ambas

mostram evidências de manipulação da fala do depoente. Por outro lado, Coulthard

utilizou técnicas de análise diferentes das de Svartvik, colocando em uso corpora

eletrônicos. Coulthard comparou o depoimento de Bentley com um corpus de 1,5 milhão

de palavras de fala espontânea, retirado do Birmingham Corpus (predecessor do Bank of

English). Uma das características que se destacavam no depoimento foi o uso de ‘then’.

No depoimento, havia 10 ocorrências em 582 palavras (ou 1,7%); já no corpus de fala, as

ocorrências de ‘then’ atingiam apenas 0,2% do total de palavras, ou seja, no depoimento

(que supostamente era um relato falado espontâneo), havia quase 8 vezes mais ocorrências

de ‘then’. Além dessa comparação, Coulthard também verificou a freqüência de ‘then’ em

dois outros pequenos corpora: um corpus de depoimentos (com 930 palavras) e um de

declarações de policiais (com 1260 palavras). No primeiro, havia apenas uma ocorrência

de ‘then’ (0,1%), mas no segundo, existiam 29 ocorrências (2,3%). Isso demostra que

‘then’ é muito mais usado na fala policial do que na de não policiais, o que sugere um

envolvimento dos policiais no depoimento de Bentley. Além da freqüência de ‘then’

sozinho, Coulthard investigou o uso de ‘I then’, nesses corpora. Esse padrão responde por

apenas 0,001% do total de ocorrências do corpus de conversações (9 vezes), mas chega a

0,5% no corpus do depoimento de Bentley (3 vezes). Isso reforça a idéia de que houve

intrusão da polícia nas palavras de Bentley. Embora essa análise por si só não constitua

76

prova de que Bentley era inocente, ela ajudou os interessados a forçar as autoridades a

rever o caso com outros olhos.

6.3. Recursos

Os recursos empregados na análise mostrada neste capítulo são:

• Um texto escrito por Ailine Aleixo, cuja autoria foi atribuída a Arnaldo Jabor,

disponível em

http://www.autordesconhecido.blogger.com.br/2006_08_01_archive.html,

doravante, chamado de ‘texto questionado’. Ele possui 1026 palavras (‘tokens’) e

328 formas (‘types’).

• Um texto de autoria comprovada de Arnaldo Jabor, em

http://oglobo.globo.com/jornal/colunas/jabor.asp, publicado no Jornal O Globo em

13/6/2006, doravante, chamado de ‘texto comprovado’, com 1012 palavras

(‘tokens’) e 644 formas (‘types’).

• Um corpus de 190 colunas publicadas por Arnaldo Jabor, disponível em

http://www.geocities.com/cronistaarnaldo. O corpus possui 143.947 palavras

(‘tokens’) e 7906 formas (‘types’).

• Planilha eletrônica (p.ex. Microsoft Excel).

• Os seguintes elementos do WordSmith Tools:

o Lista de freqüência com ‘clusters activated’, no WordList.

o Lista de consistência simples, no WordList.

o Concordâncias dos ‘clusters’ realizadas no Concord.

6.4. Autoria questionada

Devido ao fato de os dados relacionados a processos criminais serem geralmente

confidenciais, a análise apresentada aqui tratará de um caso de autoria questionada que não

foi levado a julgamento, mas que incorpora elementos de processos nos quais o lingüista

forense poderia atuar criminalmente. Trata-se de um texto que circulou pela Internet em

2004, sem autor declarado, e cuja autoria foi atribuída a Arnaldo Jabor, diretor de cinema,

77

comentarista de TV e conhecido colunista de O Estado de São Paulo.

A autora do texto na verdade era Ailin Aleixo, colunista e ex-editora das revistas VIP,

Viagem e Turismo e Playboy. Segundo Ailin, ela teria contactado Arnaldo para esclarecer

o mal-entendido, mas ele teria se negado a ouvi-la, preferindo ‘xingar’ e ‘detonar o autor

real do texto, que na opinião dele é uma baranga que que tenta imitar seu estilo.’ (Aleixo,

2005).

O objetivo da análise é revelar se o texto em questão possui ou não características

compatíveis com o estilo de Arnaldo Jabor. Caso possua, isso indicaria que o texto pode

ter sido escrito por ele; caso não, a análise sugeriria que o texto possui traços que

desautorizam a atribuição de autoria a Arnaldo Jabor. Note que em nenhum dos casos

podemos expressar certeza sobre a autoria a partir do resultado da análise, pois conforme

dissemos acima, o trabalho do lingüista forense consegue apenas colocar dúvida

(‘reasonable doubt’) sobre a autoria ou na melhor das hipóteses revelar fortes indícios de

autoria.

Para efetuar a investigação, empregamos o WordSmith Tools da maneira descrita a seguir.

Primeiramente, foi feita uma lista de ‘clusters’ de três palavras do corpus de Arnaldo

Jabor, com o WordList (Settings, Min & Max Frequencies, Clusters Size 3, Clusters

Activated). Também foi produzida uma lista semelhante com o texto de autoria

questionada e com o texto de autoria comprovada. A figura a seguir reproduz o início da

lista na tela do WordList.

78

Em segundo lugar, foram feitas listas de consistência entre o texto de autoria questionada e

o corpus de Arnaldo Jabor, e entre o texto de autoria comprovada e o mesmo corpus de

Arnaldo Jabor. O intuito era descobrir qual dos dois textos mais se aproximava dos textos

legítimos de Jabor, de tal modo que o texto que possuísse mais clusters em comum com o

corpus seria considerado mais próximo do estilo de Jabor. As listas de consistência

mostram exatamente a quantidade de palavras ou de clusters compartilhadas entre duas

listas, o que nos permitiu saber qual dos dois textos (o questionado ou o comprovado) era

mais próximo do estilo de Jabor. As listas de consistência foram criadas a partir do próprio

WordList, clicando em Comparison, Consistency Simple. A tela a seguir mostra um trecho

da lista de consistência referente ao texto de autoria questionada.

79

Os clusters em comum aparecem na lista de consistência com a freqüência 2, significando

que eles aparecem nas duas listas (na do texto questionado e na do corpus de textos de

Arnaldo Jabor). Descobrimos que havia 8 clusters em comum entre os textos de Jabor e o

texto questionado e 31 entre o texto comprovado e o corpus de Jabor. Isso nos indicou que

o texto comprovado parecia mais próximo do de Jabor do que o questionado. Em outras

palavras, o texto comprovado seria um texto típico de Jabor, contendo mais marcas de seu

estilo, enquanto o texto questionado seria muito mais distante do estilo do autor, com

poucas marcas.

Contudo, essas observações por si só não convenceriam um júri da impossibilidade da

autoria de Arnaldo Jabor. Conforme dissemos antes, a análise lingüístico-forense não

oferece provas conclusivas, mas deve informar a probabilidade de um texto ter ou não ter

sido escrito por um determinado autor. Sendo assim, foi preciso calcular a probabilidade

de cada texto ter sido escrito por Jabor.

Para calcular a probabilidade de autoria, precisamos saber em quantos textos do corpus de

Jabor cada cluster de cada texto (comprovado e questionado) ocorre. Com essa informação

em mãos, podemos então calcular o lâmbda de Olkin, uma estatística que mostra ‘a

probabilidade de coincidência de fatores (variáveis)’ (Mcmenamin, 2002 :154). O lâmbda

de Olkin é calculado da seguinte maneira:

80

Probabilidade de ocorrência em conjunto Lambda =

Probabilidade de não ocorrência em conjunto

A probabilidade de ocorrência em conjunto é calculada multiplicando-se as probabilidades

individuais de cada marca de estilo. A probabilidade individual é simplesmente a divisão

do número de textos em que o cluster ocorreu pelo número total de textos. Por exemplo, se

o cluster 1 do texto questionado ocorreu uma vez nos 190 textos do corpus, então sua

probabilidade de ocorrência é 1/190, ou 0,0053. Assim, se o cluster 2 possui probabilidade

de 2/190 (0,0105) e o cluster 3 de 50/190 (0,2632), a probabilidade conjunta será 0,0105 x

0,00526 x 0,2632, o que resulta em 0,0000146, ou seja, uma chance em 68590 (isto é,

1/0,0000146) de que essas três marcas de estilo identificam um autor específico.

Como não sabemos qual a população de textos existentes no mundo, não temos idéia se

essa probabilidade de um texto a cada 68 mil é alta ou baixa. Porém, podemos usar alguns

dados de publicação como parâmetro. A Folha de S. Paulo, por exemplo, publica

aproximadamente 190 textos por dia; com essa média, 68 mil textos correspondem a quase

um ano de publicação. Se pensarmos que há pelo menos uma dúzia de jornais diários

brasileiros com esse volume de textos publicados a cada dia, esse volume de textos passa a

corresponder a cerca de um mês de publicação dos jornais principais do país. Em suma,

tomando como base apenas as edições de jornais, poderíamos estimar que há uma chance

a cada mês de encontrar um texto semelhante (com essas marcas de autor) nos grandes

jornais brasileiros. Posto desse modo, não poderíamos descartar outras pessoas como

potenciais autores desse texto, já que estatisticamente haveria um texto por mês em média

(escrito por outra pessoa) que teria tais características.

Por sua vez, a probabilidade de não ocorrência individual é calculada simplesmente

subtraindo de 1 a probabilidade de ocorrência. Assim, para o cluster 1 do exemplo acima

temos 1 – 0,0053, ou 0,9947 (isto é, 189/190); para o cluster 2, calculamos 1 – 0,0105 ou

0,9895 (isto é, 188/190) e para o cluster 3, 1 – 0,2632 ou 0,7368 (isto é, 140/180).

A probabilidade de não ocorrência conjunta é calculada multiplicando-se as probabilidades

de não ocorrência individuais. Dessa forma, temos 0,9947 x 0,9895 x 0,7368, ou 0,7252.

81

Agora podemos calcular lâmbda: 0,0000146 / 0,7252 = 0,00002. Isso significa que há uma

probabilidade de 1 caso em 49675 de que essas marcas de estilo apareceram juntas por

acaso. Tomando novamente como base nosso parâmetro informal de publicação nos

jornais brasileiros, poderíamos estimar que haveria uma chance a cada 9 meses de achar

um texto em que essas marcas de autor aparecessem juntas por acaso. Isso indicaria que

essas três marcas sozinhas não são suficientes para identificar o estilo de um autor.

Voltando à nossa pesquisa, para calcularmos o lâmbda, precisamos descobrir em quantos

textos diferentes cada cluster ocorre. Para tanto, fizemos concordâncias para cada um dos

39 clusters (8 do texto questionado e 31 do texto comprovado) no corpus de Arnaldo

Jabor. Como o WordSmith Tools não fornece essa informação diretamente (apenas

informa o número de ocorrências no conjunto de textos), foi preciso executar os seguintes

passos. Primeiramente, em cada concordância, fizemos reordenação (resort) pela coluna

‘File’. A seguir, identificamos as ocorrências do cluster em arquivos diferentes, anotando

uma letra qualquer (p.ex. ‘a’) na coluna Set para designar tais casos. Por exemplo, o cluster

‘que não se’ ocorreu duas vezes no arquivo 000017.txt e duas no arquivo 000051.txt. Foi

digitada a letra ‘a’ apenas em uma das ocorrências de cada um desses textos. A figura

abaixo ilustra esse processo.

Depois, reordenamos a concordância pela coluna Set. Isso fez com que as linhas que

possuíssem a letra ‘a’ fôssem deslocadas para a parte superior da concordância.

Percorremos a concordância até o ponto onde as letras ‘a’ da coluna Set terminavam e

anotamos o número da linha correspondente. Anotamos esse valor numa planilha Excel. A

figura a seguir mostra que o cluster ‘que não se’ ocorreu 14 vezes no corpus, sendo que 12

82

vezes em arquivos diferentes, conforme mostra a última ocorrência da letra ‘a’ na coluna

Set:

Em uma concordância específica, foi preciso ainda eliminar ocorrências indesejadas.

Trata-se do cluster ‘golpe de #’. A cerquilha (#) é empregada pelo WordSmith Tools para

substituir algarismos (qualquer seqüência deles é substituída por uma cerquilha apenas).

Porém, o Concord não interpreta a cerquilha do mesmo modo ao fazer uma busca, ou seja,

o usuário não pode digitar ‘golpe de #’ como termo de busca para encontrar ocorrências de

‘golpe de 64’ ou ‘golpe de 1964’, pois o programa vai interpretar esse símbolo de modo

literal. Assim, para esse cluster, foi usado um termo de busca reduzido (‘golpe de’) e as

ocorrências indesejadas (‘golpe de estado’) foram apagadas uma a uma da concordância,

restando apenas as ocorrências legítimas do cluster.

De posse desses dados, foi feito o cálculo de lâmbda para cada texto.

Cluster Freqüência x em

Prob.

ocorrência

Prob.

não ocorr.

A MÁQUINA DO 3 190 0.0158 0.9842

A SUBIDA DE 2 190 0.0105 0.9895

A VER COM 3 190 0.0158 0.9842

ANGÚSTIA DA VITÓRIA 1 190 0.0053 0.9947

BARRIGA DO TANCREDO 2 190 0.0105 0.9895

83

COMO SE A 8 190 0.0421 0.9579

COMO SE QUISÉSSEMOS 2 190 0.0105 0.9895

DE MEU AVÔ 2 190 0.0105 0.9895

DE SER UM 11 190 0.0579 0.9421

DE UM PAÍS 7 190 0.0368 0.9632

DO QUE PENSÁVAMOS 3 190 0.0158 0.9842

E EU ME 6 190 0.0316 0.9684

É MUITO MAIS 8 190 0.0421 0.9579

É O BRASIL 2 190 0.0105 0.9895

É TAMBÉM UM 3 190 0.0158 0.9842

EU ME LEMBRO 8 190 0.0421 0.9579

EXATAMENTE COMO NA 2 190 0.0105 0.9895

GOLPE DE # 6 190 0.0316 0.9684

HÁ ALGO DE 7 190 0.0368 0.9632

LEMBRO-ME DA 2 190 0.0105 0.9895

NA BARRIGA DO 3 190 0.0158 0.9842

NÃO VER O 2 190 0.0105 0.9895

NOS LEMBRA QUE 3 190 0.0158 0.9842

O NELSON RODRIGUES 2 190 0.0105 0.9895

O SONHO DO 6 190 0.0316 0.9684

QUALQUER TENTATIVA DE 3 190 0.0158 0.9842

84

QUE NÃO SE 20 190 0.1053 0.8947

TAMBÉM É UMA 2 190 0.0105 0.9895

UM POUCO DE 4 190 0.0211 0.9789

UM SONHO DE 5 190 0.0263 0.9737

UMA FORMA DE 14 190 0.0737 0.9263

Probabilidade em conjunto 1.7E-53 0.4412

1 em 5.9E+52 2.2665

Lâmbda 3.9E-53

Lâmbda 1 em 2.6E+52

Tabela 1: Probabilidades de clusters do texto comprovado.

No caso do texto comprovado, o valor de lâmba indica que a probabilidade de essas

marcas de autor terem ocorrido juntas por acaso em um texto é praticamente zero (3.9E-

53, isto é, 0.00000000000000000000000000000000000000000000000000039). Isso nos

mostra que os clusters devem indicar um estilo próprio.

A probabilidade em conjunto nos mostra que a chance de um autor possuir todas essas

marcas de estilo é também praticamente zero (1.7E-53, isto é

0.00000000000000000000000000000000000000000000000000017) ou uma em 590

sexdecilhões! Como sabemos que o texto é de autoria de Arnaldo Jabor, podemos dizer,

por conseguinte, que a chance de um outro autor ter esse estilo é praticamente zero.

Cluster Freqüência x em

Prob.

ocorrência

Prob.

não ocorr.

85

A SER UM 14 190 0.0737 0.9263

É O QUE 9 190 0.0474 0.9526

É QUE É 10 190 0.0526 0.9474

ELA É UM 6 190 0.0316 0.9684

O QUE A 68 190 0.3579 0.6421

O QUE QUISER 2 190 0.0105 0.9895

PODE ATÉ SER 2 190 0.0105 0.9895

SABE O QUE 8 190 0.0421 0.9579

Probabilidade em conjunto 9.7E-12 0.4875

1 em 1.0E+11 2.0512

Lâmbda 2.0E-11

Lâmbda 1 em 5.0E+10

Tabela 2: Probabilidades de clusters do texto questionado.

No caso do texto questionado, o valor de lâmbda é de 0.00000000002 (2.0E-11). Ou seja, a

probabilidade de esse conjunto de clusters ter ocorrido no texto por acaso é praticamente

zero: uma chance em 50 milhões (5.0E+10). A probabilidade de o texto questionado ser de

um escritor qualquer é praticamente zero: 0.0000000000097 (9.7E-12), ou uma em 100

bilhões (1.0E+11). Ou seja, o texto deve ser de um autor específico, no caso Jabor, pois os

oito clusters desse texto são encontrados em outras colunas do autor. Assim, o texto

questionado poderia ter sido escrito por Arnaldo Jabor, pois possui algumas marcas de seu

estilo, embora essas marcas sejam gerais da língua e ocorram aparentemente em muitos

outros autores.

Entretanto, ao compararmos as probabilidades do texto questionado com as do texto

comprovado, percebemos a diferença enorme que há entre os dois. O texto comprovado é

86

570 duodecilhões de vezes mais exclusivo de Jabor do que o texto questionado (5.9E+52 /

1.0E+11 = 5.7E+41).


Neste capítulo, mostramos uma maneira de usar o programa WordSmith Tools no exame

de suspeita de autoria de um texto. Os procedimentos descritos aqui podem ser

empregados em casos judiciais. Esses procedimentos são úteis para a lingüística forense,

pois permitem que se ajude a desevendar casos em que a autoria de certos textos seja

provada ou colocada em dúvida. Dessa maneira, esperamos ter contribuído para a

implantação da lingüística forense no país.

87

7. A ferramenta Concord

7.1. Visão Geral

O programa Concord produz concordâncias. Concordâncias são listagens das ocorrências

de um item específico (chamado termo de busca ou nódulo, que pode ser formado por uma

ou mais palavras) acompanhado do texto ao seu redor (o co-texto).

O Concord é acionado de duas maneiras: (1) clicando em ‘Tools / Concord’ no Controller,

(2) clicando numa palavra de uma lista de palavras (produzida pelo WordList), ou numa

uma palavra de uma lista de palavras-chave (produzida pelo KeyWords), ou ainda numa

palavra de um arquivo de índice (‘index file’) e depois (em qualquer dos últimos três

casos) no botão (na barra de ferramentas).

A tela abaixo mostra uma concordância produzida pelo Concord.

O termo de busca da concordância acima é ‘dito e feito’, que está centralizado na coluna

‘Concordance’. Os elementos que compõe as concordâncias do WordSmith Tools serão

explicados a seguir, juntamente com os menus, botões e opções disponíveis no programa

para efetuar ajustes nas concordâncias. Antes, porém, será apresentado um pequeno roteiro

com os comandos principais para a produção de concordâncias.

88

7.2. Procedimento básico para feitura de concordâncias no Concord

Abaixo é descrito o procedimento para produção de concordância diretamente no

programa Concord. Para produzir concordâncias a partir do WordList, KeyWords ou de

um arquivo de índice (index file) do WordList, basta selecionar a palavra e depois clicar

no botão presentes nesses programas.

(1) No Controller: clique em Tools e depois em Concord.

(2) Na janela do Concord, clique em File e depois em Start. Ou clique no botão Start.

(3) Na janela ‘Getting Started’, clique em Choose Texts Now, caso esteja fazendo a

primeira concordância desde que iniciou o programa. Se já tiver escolhido os textos e

quiser mantê-los, clique em ‘Make a WordList Now’, mas se quiser mudar de textos,

clique em ‘Change Selection’. Na janela ‘Choose Texts’, clique em ‘Clear Previous’ e

siga a próxima instrução.

(4) Selecione os arquivos que quiser, clicando nas pastas (porção esquerda da janela) e,

depois, nos arquivos (porção direita da janela).

(5) Clique em OK.

(6) Reaparecerá a janela ‘Getting Started’. Nela, clique em ‘Specify Search Word’.

(7) Ainda no espaço ‘Search Word or Phrase’ da janela ‘Getting Started’, digite o termo de

busca.

(8) Na janela ‘Getting Started’, clique em ‘Start Concordance’.

(9) Para interromper o processamento, clique em ‘Suspend’, na barra de andamento e

depois em ‘Stop Now’.

Esse é o conjunto mínimo de passos para realização de uma concordância no Concord.

Entretanto, há muitas outras opções possíveis do programa, realizáveis a partir de um

número extenso de comandos. Eles são descritos a seguir.

7.3. A janela Getting Started

Esta janela surge assim que o usuário clica em Start (no menu File / Start) ou no botão

89

‘Start’. Ela reúne vários botões que fazem atalhos aos comandos principais do programa e

que dirigem a criação da concordância. Abaixo aparece uma figura que a ilustra.

A seguir, são explicados os comandos disponíveis nessa janela.

Choose Texts Now. Permite ir à janela de seleção de arquivos, mostrada abaixo:

90

Esse botão aparece somente quando ainda não foi feita seleção de arquivos. Quando

arquivos já tiverem sido selecionados, esse botão muda de nome para ‘Change Selection’.

As partes dessa janela são descritos a seguir.

Janela de seleção de pastas: Espaço onde aparecem os nomes das pastas.

Janela para seleção de disco: Janela onde o usuário seleciona o drive em que estão os

arquivos que quer escolher.

Janela de listagem de arquivos: Mostra os arquivos disponíveis na pasta. Seu conteúdo é

condicionado ao que for especificado na janela para seleção de nome de arquivos, descrita

a seguir. Para escolher um arquivo apenas, clique nele. Para escolher mais de um arquivo,

segure a tecla Control e depois clique nos arquivos que desejar. Para selecionar uma

seqüência de arquivos, clique no primeiro arquivo da seqüência, segure a tecla Shift e

clique no último arquivo da seqüência. Para desmarcar um arquivo selecionado, segure a

91

tecla Control e clique nele.

Linhas de informação de arquivos selecionados: Indicam a quantidade de arquivos que já

foram selecionados, o número de bytes que corresponde à escolha e o número de pastas

onde residem os arquivos selecionados.

Janela para seleção de nome de arquivos: Digite o tipo de nome de arquivo que deseja

selecionar. Por exemplo, para escolher os arquivos terminados em .txt, digite *.txt . Para

escolher os arquivos iniciados em ‘jornal’ (p.ex. jornal01.txt, jornal02.asc, etc) digite

jornal*.*.

Favourites: Save: Botão para salvar uma seleção de arquivos. Caso deseje salvar uma

seleção de arquivos que acabou de efetuar, clique nesse botão. A sua seleção será salva

num arquivo-texto que poderá ser recuperada depois, economizando tempo. Ao clicar em

Save, aparecerá uma janela padrão do Windows pedindo um nome de arquivo. Selecione

uma pasta e digite um nome de arquivo. Prefira a terminação .txt.

Favourites: Get: Botão para recuperar uma seleção de arquivos, conforme descrita acima,

em Save. Clicando nesse botão aparecerá uma janela de seleção de arquivos. O usuário

deve escolher o arquivo desejado e depois clicar em OK. Caso já tenha sido feita uma

seleção de arquivos, antes desse janela de seleção aparecerá uma mensagem perguntando

‘Clear Previous Selection?’ (Apagar seleção anterior?). Clicando em OK, o usuário é

levado então à janela de seleção de arquivo.

Sort: Indica as opções de ordenamento dos nomes de arquivos para a seleção. N ordena os

arquivo alfabeticamente, T por tipo de arquivo, S por tamanho de arquivo, e D por data.

Clicando duas vezes seguidas em qualquer das opções, o ordenamento se fará de modo

inverso. Por exemplo, no caso de N, será pelo nome de arquivo começando por Z e indo

até A.

All: Botão que seleciona todos os arquivos mostrados na janela de listagem de arquivos.

Include sub-directories: Opção para escolher todos os arquivos das sub-pastas (caso

existam). Por exemplo, se a pasta selecionada for c:\corpus e ela contiver sub-pastas

chamadas de c:\corpus\coleta1 e c:\corpus\coleta2, para selecioná-las automaticamente

sem abri-las basta clicar em c:\corpus, escolher ‘include sub-directories’ e depois clicar

92

em ‘All’ ou OK.

View: Botão que abre o Viewer, um aplicativo para visualização de arquivos. É aberta uma

janela para cada arquivo selecionado. Por isso, caso tenha sido escolhido um número

grande de arquivos, o programa tentará abrir tantas janelas quantas forem necessárias para

exibir todos os arquivos. Muitas vezes o excesso de janelas faz com que o programa deixe

de funcionar, sendo necessário o encerramento forçado do programa (com as teclas

Control – Alt – Del).

Clear Previous: Botão para cancelar uma escolha de arquivo já existente. É importante

acioná-lo sempre que for necessário mudar uma seleção, pois o programa retém a

informação dos arquivos durante uma mesma seção, ou seja, até ser desligado. Por isso,

caso arquivos sejam selecionados sem ter sido clicado esse botão, os arquivos recém-

selecionados irão se somar aos já escolhidos antes.

OK: Botão que finaliza a escolha dos arquivos e fecha a janela.

Cancel: Fecha a janela sem ativar as escolhas de arquivo que estavam sendo feitas. Clicar

nesse botão, contudo, não cancela uma escolha de arquivos previamente realizada.

Change Selection. Remete também à janela de seleção de arquivos. É muito importante

lembrar de clicar em Clear Previous para cancelar uma escolha anterior de arquivos, caso

contrário a seleção atual irá se somar à anterior.

Specify search word. É o quarto botão da janela Getting Started. Remete à janela de

formulação do termo de busca (‘Concordance Settings’), que é ilustrada abaixo.

93

Essa janela aparece somente no caso de ser a primeira seleção da seção. Caso outros

termos de busca já tiverem sido especificados, o botão muda de nome para Change Search

Word. A janela é composta de vários elementos, descritos abaixo.

Search Word or Phrase. Termo de busca. O espaço referente a ‘Search word of phrase’ é

onde deve ser digitado o termo de busca, ou seja, a palavra ou palavras que o programa

usará para pesquisar os textos.

Context Word. Palavra de contexto. É o espaço onde pode ser digitado uma palavra (ou

expressão) que deve ou não ocorrer juntamente com o termo de busca.

Horizons. São os horizontes (ou ‘janela’ ou ‘span’), que representam a distância máxima

entre o termo de busca e a(s) palavra(s) de contexto.

7.3.1. Tipos de termos de busca

O sucesso da busca no Concord depende da correta especificação do termo de busca,

diante do resultado que o usuário pretende obter.

Há diversos tipos de termos de busca, dependendo do que se pretende achar e do tipo de

texto (layout, principalmente) onde é realizada a busca. Um termo de busca simples é

simplesmente uma palavra (por exemplo, casa). Já um termo complexo inclui outros

elementos, descritos abaixo.

Para encontrar casa, digite casa; para encontrar casa da sogra, digite casa da

94

sogra ; uma outra opção é digitar casa em Search word or phrase e sogra em

Context word e selecionar, em Context Search Horizons, 0L (isto é, nenhuma palavra à

esquerda, onde L representa ‘left’, ‘esquerda’ em inglês) e 2R (isto é, duas palavras para a

direita; R refere-se a ‘right’ em inglês, que significa ‘direita). Essa última opção irá buscar

todas as ocorrências de casa em que sogra aparece até duas palavras à sua direita. A

desvantagem dela é que a busca não se restringirá a casa da sogra somente, podendo

aparecer resultados como casa e sogra, casa de sogra, etc. A vantagem é que a busca

identificará, por exemplo, casa da sogra, em que há dois espaços entre da e sogra. Além

disso, a opção com palavras de contexto é indica para textos em que haja etiquetagem. Há

vários tipos de formato de texto etiquetado. Um formato comum é em colunas, em que

cada palavra aparece numa linha (também chamado de itemizado, ou tokenized). Por

exemplo, suponha que o texto etiquetado tenha o formato seguinte:

Aqui adv não adv é verbo a det casa subs da prepdet sogra subs . .

Nesse arquivo, cada palavra do texto tem a seu lado um código que representa uma

etiqueta morfossintática. Para o programa Concord, cada etiqueta é uma palavra; assim,

cada etiqueta deve ser levada em conta quando da formulação do termo de busca. Para

buscar casa da sogra num texto assim, é preciso digitar casa como Search Word, sogra

como Context Word e acionar o horizonte de 0L e 4R, visto que sogra está a quatro

palavras de distância, à direita, de casa (a etiqueta ‘subs’ é a primeira,

’da’ a segunda, ‘prepdet’ a terceira, e

’sogra’ a quarta.). Devido às características do arquivo, não é possível formular essa busca

sem usar palavra de contexto. As eventuais ocorrências indesejadas (‘casa e sogra’, etc.)

deverão ser eliminadas da concordância pelo usuário, a partir do exame cuidado dos

resultados.

Um outro formato comum de arquivo etiquetado é aquele em que a etiqueta aparece

seguida às palavras, com um caracter separador. Por exemplo:

95

Aqui_adv não_adv é_verbo a_det casa_subs

da_prepdet sogra_subs ._.

Nesse caso, a busca pode ser formulada deste modo:

Search Word or Phrase: casa_subs Context Word: sogra_subs Horizons: 0L, 2R

Ou mesmo assim:

Search Word or Phrase: casa_subs da_prepdet sogra_subs

Para encontrar ocorrências de casa que não estejam seguidas de sogra, digite um til (~)

diante da palavra de contexto. Por exemplo:

Search Word or Phrase: casa Context Word: ~sogra Horizons: 0L, 2R

Symbols. Botão que permite inserir símbolos e caracteres especiais no termo de busca. Útil

quando certos caracteres que se deseja buscar não estão visíveis no teclado do computador.

7.3.1.1.OK

Botão que fecha a janela e remete à janela ‘Getting Started’.

7.3.1.2.Go Now

Botão que fecha a janela e executa a concordância. Somente está ativo quando os textos já

foram selecionados e o termo de busca foi digitado.

7.3.2. Change Search Word.

Remete à janela de formulação do termo de busca (‘Concordance Settings’), assim como

Specify Search Word. Não está visível quando nenhum termo de busca tiver sido

especificado durante uma seção de uso do programa.

7.3.3. Add an Asterisk.

Inclui automaticamente um asterisco (um caracter especial) no final do termo de busca

96

digitado.

7.3.4. Horizons, etc.

Este é o terceiro botão da janela ‘Getting Started’. É opcional. Leva a uma tela onde há

vários comandos, detalhados abaixo.

7.3.4.1.Entries wanted.

Permite especificar quantas linhas de concordância (ocorrências da palavra de busca) são

desejadas. O número máximo é de cerca de 16 mil.

7.3.4.2.At random.

Caso for selecionada, faz uma seleção das ocorrências e exibe somente aquelas que passam

pelo critério de escolha. Serve para limitar a exibição das ocorrências. O valor de restrição

é o número constante na janela diante de 1 in . Por exemplo, se for escolhido o número 3,

somente 1 em cada 3 linhas serão exibidas; se for escolhido o valor de 5, apenas uma linha

em cada 5 será exibida, e assim por diante. É útil em buscas de corpora grandes, em que a

quantidade de ocorrências excede o número máximo permitido pelo programa. Por

exemplo, se o número de ocorrências do termo de busca for 32 mil, uma busca que não

ajuste esse critério de escolha retornará apenas as primeiras 16 mil ocorrências. Para que o

concordanceador retorne ocorrências retiradas do corpus inteiro, seria preciso, então,

selecionar o valor de 2, pois seriam exibidas 16 mil ocorrências, mas não as 16 mil

primeiras apenas. Desse modo, o programa exibiria uma ocorrência sim e uma não da

palavra de busca, chegando ao final das 16 ocorrências tendo pesquisado a extensão toda

do corpus. Para calcular um valor de restrição, basta dividir o total de ocorrências da

palavra de busca pelo total de ocorrências máximo. O resultado será o valor de restrição.

Os valores quebrados (com decimais) precisam ser arredondados (para cima). Por

exemplo, caso o número de ocorrências do termo de busca for 48 mil, basta dividir 48000

por 16000; o resultado é 3, que é o valor de restrição. Se o número de ocorrências fosse

45000, o resultado da divisão desse total por 16000 resultaria em 2,8125. Como não é

possível estabelecer um valor de restrição não inteiro, em princípio o valor poderia ser 2

ou 3. O valor de 2 excederia a capacidade de 16 mil linhas do programa, pois 45000 / 2 =

22500. Assim, o programa processaria o corpus apenas até obter 16 mil linhas e depois

cessaria o processamento. Escolhendo 3, seriam exibidas 15 mil linhas, o que está dentro

97

da capacidade do programa. Isso significa que todo o corpus seria pesquisado. Desse

modo, o melhor valor é 3.

7.3.4.3.Characters in Save as Text.

Define a quantidade de caracteres usada para salvar cada linha da concordância no formato

texto. Por exemplo, se estiver indicado 80 caracteres, a largura da concordância quando

salva em texto terá 80 caracteres, incluindo (se for pedido) os caracteres de numeração

seqüencial das linhas e o separador (um tab).

7.3.4.4.Sort.

Permite pré-selecionar como serão ordenadas as linhas da concordância. A janela diante de

first indica a ordenação (‘chave’) primária, e a diante de then, a secundária. As opções 5L a

1L significam palavras que estejam à esquerda do termo de busca: 5L leva à ordenação

pela quinta palavra à esquerda, 4L pela quarta, 3L pela terceira e assim sucessivamente. O

mesmo acontece com as opções 5R a 1R. A opção Center indica a ordenação pelo termo de

busca; Context faz ordenação pela palavra de contexto (aquela que foi selecionada

juntamente com o termo de busca como devendo estar necessariamente próxima ao termo);

Set ordena pelos códigos inseridos na coluna Set da concordância; File organiza a

concordância pela ordem em que elas apareceram nos arquivos pesquisados; Tag ordena

alfabeticamente pela etiqueta (tag) mais próxima ao termo de busca – para que seja

possível ativar essa opção, os textos devem possuir etiquetas, e essas etiquetas devem ter

sido especificadas num arquivo especial (tag file; vide mais explicações sobre etiquetas na

p. 112); Tag Distance classifica a concordância pela distância entre o termo de busca e a

etiqueta mais próxima – o uso dessa opção também está condicionado às mesmas

exigências das para a ordenação por Nearest Tag (vide p. 101).

As palavras a partir das quais o Concord faz a ordenação recebem uma cor diferente das

demais. O esquema de cores é definido no menu ‘Settings / Colours’. Por exemplo, abaixo

aparece uma tela de uma concordância ordenada pela terceira palavra à direita (3R) e

depois pela primeira à esquerda (1L).

98

A tela mostra que as palavras na terceira posição à direita (3R) do termo de busca (‘dito’)

aparecem em uma cor diferente (vermelho, no original); as palavras logo à esquerda (1L)

também (estão em azul, no original). Percebe-se que nos caso de empate, como nas três

primeiras linhas, o desempate foi feito pela primeira palavra à esquerda, conforme mostra

a tabela abaixo:

Primeira chave de ordenação (3R) Segunda chave de ordenação (1L) A A A

Estados Periferia Tomada

7.3.4.5.Collocates – Include them?

Caixa que ativa o cálculo de colocados. Colocados são palavras que estão perto do termo

de busca. Se a caixa estiver selecionada, os colocados serão processados pelo programa e

estarão à disposição do usuário quando da feitura da concordância por meio do

acionamento do botão Collocates ou Re-compute Collocates.

7.3.4.6.Horizons.

Os ‘horizontes’ indicam a distância máxima entre o termo de busca e os colocados que o

programa irá considerar para calcular os colocados (a tabela de colocados é explicada na p.

140). 0L representa um horizonte de zero palavras à esquerda do nódulo, isto é, nenhum

horizonte do lado esquerdo. 1L indica um horizonte de até uma palavra à esquerda; se for

selecionado, apenas as palavras que ocorreram imediatamente à esquerda do termo de

busca serão consideradas para o processamento dos colocados; 2L significa ‘duas palavras

99

à esquerda’, e portanto somente as palavras que ocorram dentro desse horizonte serão

levadas em conta; 3L representa um horizonte de três palavras à esquerda e assim

sucessivamente. 1R, 2R, 3R, etc indicam a distância à direita, e definem o horizonte de

modo similar a 1L, 2L, 3L, etc., mas atuam nas escolhas à direita do termo de busca. De

modo prático, o mais comum é estabelecer um horizonte de cinco palavras para cada lado

do termo de busca, portanto 5L e 5R. Isso garante que a maioria das palavras de interesse

para descrição dos padrões do termo de busca serão computadas quando do acionamento

da tabela de colocados. De posse da tabela de colocados, o usuário poderá, então, fazer a

seleção dos colocados que lhe interessa na própria tabela, podendo se concentrar nos

colocados mais relevantes para seu propósito.

7.3.4.7.Min Frequency and Length.

A janela à esquerda indica a freqüência mínima para inclusão dos colocados na tabela de

colocados. A janela à direita refere-se ao tamanho mínimo das palavras, em caracteres,

para consideração durante a formulação da mesma tabela de colocados. Por exemplo, um

valor de 5 para Min Frequency e de 1 para Length permitirão incluir palavras de uma letra

ou mais (isto é, todas) com freqüência 5 ou mais, na tabela de colocados.

7.3.4.8.Notepad.

Botão que aciona o programa Bloco de Notas do Windows (Notepad, nas versões em

inglês do sistema operacional). É somente um atalho para o programa, que pode ser usado

para criação de um arquivo de etiquetas (tag file) ou de palavras de exclusão (stop list),

conforme explicado na p. 112 e p. 192, respectivamente.

7.3.4.9.Save.

Se marcado, fará com que os ajustes feitos nessa janela sejam gravados como padrão para

as próximas sessões de uso do Concord.

7.3.4.10.OK

Aceita as escolhas e fecha a janela.

7.3.4.11.Cancel

Fecha a janela sem ativar as escolhas feitas.

100

7.3.4.12.Start Concordance.

Inicia a execução da concordância.

7.3.5. Start Concordance

É o último botão da tela ‘Getting Started’. Somente está ativo quando o termo de busca e

os arquivos onde a busca será feita foram determinados.

7.4. A janela do Concord

Essa janela surge quando é dado o comando de ‘Go Now’ ou ‘Start Concordance’. É a

janela principal do programa, onde são exibidos os resultados da busca. Caso não haja

nenhuma ocorrência do termo de busca especificado, surge uma mensagem de alerta que

se inicia com ‘No concordance entries found for’ e é seguida do termo de busca (p.ex. ‘No

concordance entries found for SOGRA). Note que o termo de busca aparece em letras

maiúsculas. Isso não significa que o termo de busca pedia a busca por uma palavra escrita

toda em letras maiúsculas. É apenas uma maneira de representar o termo de busca. Os

componentes dessa tela são especificados a seguir.

7.4.1. As colunas

A figura abaixo ilustra uma tela de concordância.

A tela da concordância é formada pelas seguintes colunas, conforme mostra a figura

acima:

101

• N: número de seqüência das linhas da concordância.

• Concordance: o texto onde ocorre o texto.

• Set: espaço para entrada de códigos de classificação em grupos (‘sets’), pelo usuário.

Quando a coluna está vazia, nenhum código foi entrado aí. Os códigos de classificação

aceitos pelo WordSmith Tools consistem das letras do alfabeto, em maiúscula ou

minúscula (o programa diferencia os dois tipos); desse modo, é possível estabelecer 52

grupos. Os códigos são úteis nos casos em que o analista deseje classificar as linhas da

concordância em grupos. Por exemplo, se o analista usar um sistema de classificação

que consistem em três grupos (digamos, ‘sentido A’, ‘sentido B’ e ‘sentido C’), ele

pode digitar, nas linhas correspondentes (e dentro da coluna ‘set’), as letras A, B ou C,

ou nenhuma delas, caso uma dada linha não se encaixe em nenhuma das categorias

escolhidas. Feito isso, o analista pode então fazer ‘re-sort’, escolhendo como primeira

ordenação ‘set’. O programa fará a ordenação, colocando as linhas marcadas com ‘A’

em primeiro lugar, seguidas de ‘B’ e terminando com as de ‘C’. As linhas que

porventura não possuam nenhum dos códigos tornar-se-ão cinza. Se desejar apagá-las,

o analista pode, então, selecionar tais linhas, teclar ‘delete’ e depois clicar em ‘Zap’.

• Tag: a etiqueta mais próxima (‘nearest tag’) à esquerda do termo de busca. Uma

etiqueta é um código de marcação do texto, opcional (vide p. 112 para mais detalhes

sobre etiquetas). Quando a coluna está vazia, é porque não há etiquetas no texto, ou as

etiquetas não foram definidas em ‘Tag set 1 (to be included)’. Para exemplificar,

podemos usar o texto que possui etiquetas que mostram a seção do texto

(<introduction> e <method>, vide p. 120) já mostrado acima. Para esse texto, é preciso

criar um arquivo de etiquetas contendo as etiquetas que nele aparecem; assim, o

arquivo deve possuir as seguintes linhas:

<introduction> <method>

A seguir, no menu ‘Settings / Tags’, é preciso especificar esse arquivo em ‘Tag File 1 (tags

to be included)’ e marcar a caixa ‘activated’. Agora, ao fazer uma concordância, por

exemplo, da palavra ‘etc.’, o resultado será o seguinte:

102

Como se percebe, a palavra ‘etc.’ aparece quatro vezes na concordância (já que há quatro

ocorrências dela no texto) e, em cada uma, aparece a indicação da etiqueta mais próxima

que está à sua esquerda no texto. Em duas ocorrências, a etiqueta mais próxima é

<introduction>, e em outras duas, <method>. Isso indica que há duas ocorrências de ‘etc.’

na seção de introdução e duas na seção de métodos do texto. Note que mesmo estando

‘etc.’ no final da introdução e, portanto, mais próximo da etiqueta de método, o programa

busca a etiqueta mais próxima que antecede o termo de busca e, por isso, mostra

corretamente as duas ocorrências de ‘etc.’ que estão dentro da introdução do texto.

• Word No.: O número da palavra a que corresponde o termo de busca. O número da

palavra é contado seqüencialmente a partir do início do arquivo, com a primeira

palavra recebendo o número 1. A contagem se reinicia a cada arquivo.

• File: O nome do arquivo.

• %: A porcentagem do total do texto a que corresponde o valor de ‘Word No.’.

7.4.2. Os menus

Abaixo serão descritos os menus do programa.

7.4.2.1.File

Esse menu dá acesso a várias opções do programa, descritas abaixo.

7.4.2.1.1.Start

Opção que remete à tela de Getting Started.

7.4.2.1.2.Open

103

Permite abrir uma concordância salva.

7.4.2.1.3.Merge

Possibilita mesclar duas concordâncias. O usuário deve escolher os dois arquivos de

concordância. Os dois arquivos devem estar na mesma pasta.

7.4.2.1.4.Print

Abre uma pequena janela de visualização da impressão. Nessa tela, no topo, encontram-se

botões de zoom e de envio do arquivo para a impressora.

7.4.2.1.5.Save

Permite salvar a concordância num arquivo. O nome do arquivo não deve ultrapassar oito

caracteres, seguido de uma extensão de no máxima três caracteres. A extensão padrão é

.cnc.

7.4.2.1.6.Save As

Opção usada para salvar uma concordância já salva com um nome diferente.

7.4.2.1.7.Save As Text

Faz com que a concordância seja salva num arquivo-texto. A tela correspondente pede que

o usuário especifique um nome para o arquivo, além de permitir fazer ajustes no tipo de

informação que é gravada no arquivo. A largura de cada linha da concordância no arquivo-

texto é determinada pela opção Characters in Save as Text, que não está disponível nessa

tela (vide 7.3.4.3, p. 97).

As opções dessa tela são:

Header: Linha de cabeçalho que ficará no topo do arquivo. A mensagem padrão, contendo

a data e hora do salvamento da concordância, aparece automaticamente. O usuário pode

digitar o que quiser lá. Caso não deseje um cabeçalho, basta apagar a informação do

campo.

Footer: Linha de rodapé. Não há um rodapé pré-formatado. Deixar em branco esse campo

faz com que o programa não insira nenhum rodapé.

104

Number each line: Se marcado, faz com que cada linha da concordância seja numerada,

seqüencialmente.

Column separator: Caracter que faz a separação entre as colunas de informação da

concordância. Tab: caracter de tabulação (é o default). Specify: o usuário pode especificar

um caracter ali, digitando-o.

Rows to save: linhas a serem salvas no arquivo. All: todas. Any highlighted: Somente as

linhas selecionadas (com o mouse ou tecla shift conjuntamente com tecla de seta, para

cima ou para baixo). Specify: número das linhas da lista a serem salvas.

Rows to save: colunas a serem salvas no arquivo. All: todas. Any highlighted: Somente as

colunas selecionadas (com o mouse ou tecla shift conjuntamente com tecla de seta, para

esquerda ou para direita). Specify: número das colunas da lista a serem salvas (zero é a

coluna ‘N’).

Pressionando OK faz com que o arquivo seja gravado.

7.4.2.1.8.Copy

Abre uma janela que permite que o conteúdo da concordância seja copiado para um destes

destinos: (a) clipboard, (b) arquivo-texto, (c) impressora, (d) arquivo CNC. A opção (a) faz

com que a concordância seja enviada para o clipboard do Windows. Desse modo, o

conteúdo pode ser colado, por exemplo, em um arquivo do Word. É a opção mais flexível,

mas ao mesmo tempo deve ser evitada caso o tamanho da concordância seja grande

(tamanho grande é relativo ao hardware), pois o a máquina pode travar. A opção (b)

funciona do mesmo modo que ‘Save as Text’, explicado acima, enquanto (c) faz a mesma

operação que o comando ‘Print’, e (d) a mesma que ‘Save’. As opções em ‘What data’

referem-se à porção da concordância que será copiada: ‘all’ copia tudo, ‘selected’ copia

somente a porção previamente escolhida com o mouse, e ‘specify a set’ seleciona apenas

um trecho que corresponda a um conjunto determinado pelos códigos que se insere na

coluna ‘set’ da concordância. Esta última opção abre um menu onde estão presentes todos

os códigos possíveis aceitos pelo WordSmith Tools Concord (que são as letras maiúsculas

e minúsculas). Para escolher, basta clicar naquele código que se refere ao desejado e

depois clicar em OK. (vide explicação de ‘set’ na p. 101).

105

7.4.2.1.9.Exit

Finaliza o programa. Faz uma série de perguntas antes de encerrar-se.

7.4.2.1.10.No-check exit

Finaliza o programa bruscamente, sem fazer perguntas.

7.4.2.2.View

Essas opções alteram a maneira de exibição da concordância, conforme detalhado abaixo.

7.4.2.2.1.Sentence only

Edita a concordância de tal modo que cada linha corresponda a uma ‘sentença’. Sentença

é entendida pelo programa como sendo um trecho que termine num ponto final, ponto de

interrogação ou ponto de exclamação seguido de um divisor de palavra (word separator),

que são o espaço em branco, tabulação, final de texto, page eject, carriage return e line

feed, seguido de uma letra maiúscula, um número ou um símbolo monetário (cifrão, libra,

etc.). O hífen também pode ser divisor de palavra, contanto que a opção ‘hyphen break

words’ esteja marcada no menu Settings, Text Characteristics, guia Text.

7.4.2.2.2.Tags cut

Edita a concordância, escondendo as etiquetas que foram indicadas em Tags to be included

no menu Settings, Text Characteristics, lapela Tags, janela Tag File 1.

7.4.2.2.3.Spaces cut

Edita a concordância, eliminando espaços redundantes. É útil em casos em que a opção

‘Tags cut’ tenha sido acionada, para remover os espaços onde apareciam as etiquetas.

7.4.2.2.4.Blanked out

Elimina o termo de busca da concordância, substituindo-o por uma série de asteriscos.

Somente o termo centralizado é apagado de cada linha, ou seja, caso ele seja repetido na

mesma linha, apenas aquele que está centralizado é removido.

106

7.4.2.3.Settings

Esse menu permite ajustes na especificação dos itens fundamentais do programa, além de

permitir efetuar mudanças nos ajustes usados pelo programa para processar os arquivos.

7.4.2.3.1.Search word

Remete à janela ‘Concordance Settings’ e permite especificar o termo de busca. Vide item

Search Word or Phrase (p. 93).

7.4.2.3.2.Horizons, etc.

Remete à janela WordSmith Tools Settings e permite fazer diversos ajustes que afetam a

busca. Vide item Horizons, etc. (p. 96).

7.4.2.3.3.Clusters

Permite definir os ajustes para levantamento de agrupamentos lexicais, que são seqüências

de palavras repetidas presentes na concordância. A tela abaixo ilustra uma lista de clusters

de três palavras:

107

Os ajustes existentes para a exibição dos clusters são:

• Words in clusters: especifica o tamanho dos clusters; o mínimo é dois e o máximo,

oito. Duas observações são pertinentes aqui:

• Clusters maiores são quase sempre em menor número do que os menores. Há mais

probabilidade de seqüências menores (p.ex. de duas palavras) se repetirem do que

seqüências maiores (p.ex. de cinco palavras).

• Clusters se combinam. Clusters menores fazem parte de clusters maiores. Por exemplo,

um cluster de três palavras contém dois de duas palavras:

• Três palavras: Casa de tijolos

• Duas palavras:

• Casa de

• De tijolos

• Porém, a quantidade de clusters menores não pode ser determinada diretamente da

quantidade de clusters maiores a partir dessa regra, porque nem todos os clusters

menores se agrupam em clusters maiores. Por exemplo, se ‘casa de tijolos’ tiver

freqüência três, ‘casa de’ não precisa ter necessariamente a mesma freqüência; ele pode

ter freqüência cinco, por exemplo, pois pode formar outros clusters, como ‘casa de

verão’, ‘casa de praia’, etc.

• Minimum frequency: determina a freqüência mínima do cluster para que seja incluído

na listagem. O mínimo recomendado é dois, já que a freqüência de um significaria uma

listagem de todos os clusters que existem na concordância.

• Horizons: ajusta a largura do horizonte colocacional em torno do termo de busca de

onde os clusters serão retirados. O ajuste deve levar em conta o tamanho do cluster.

Um cluster de tamanho três deve ser ajustado para um horizonte de, no máximo, duas

palavra para esquerda e duas para a direita. Isso porque os valores do horizonte são

calculados assim:

• 5L 4L 3L 2L 1L Termo_de_busca 1R 2R 3R 4R 5R

108

• Se o tamanho do cluster for três palavras e o horizonte for de duas palavras para cada

lado, os clusters retirados encontrar-se-ão na seguinte faixa:

• 2L 1L Termo_de_busca

ou

• 1L Termo_de_busca 1R

ou

• Termo_de_busca 1R 2R

Ou seja, todos os clusters conterão a palavra de busca. Mas se o horizonte for,

digamos, de cinco palavras para cada lado (que é o default), para clusters de tamanho três,

então os clusters poderão estar numa faixa que não inclui o termo de busca, como por

exemplo:

• 5L 4L 3L

• 4L 3L 2L

• 3L 2L 1L

• 1R 2R 3R

• etc.

Como exemplo, tomemos a concordância abaixo, cujo termo de busca é ‘e’:

que não tem nada mesmo. Mas tudo bem. E se não é niilismo clubber, o que é o des o, as provas aparecerão logo, e tudo bem. E se não for? Rafael Greca Ontem houv

Suponhamos que os ajustes sejam estes:

Words in cluster: 2. Minimum frequency: 2 Horizons: 3L, 3R

Isso fará com que os seguintes clusters sejam identificados:

109

E se Se não Tudo bem

Nesse caso, apenas o cluster ‘e se’ inclui o termo de busca (‘e’). Os demais clusters são

formados por outras palavras que se repetem próximas a ele.

Em alguns casos, essa característica não é necessariamente um problema, e o pesquisador

pode querer que o programa vasculhe a concordância buscando todos os agrupamentos

existentes lá. Mas na maioria das vezes o pesquisador desejará que o programa se restrinja

a detectar aqueles agrupamentos que são formados pelo termo de busca, o que requererá

que ele faça os ajustes necessários descritos aqui.

Os botões da barra de ferramentas da tela de Clusters são os seguintes:

• Resort: Re-ordena a listagem de clusters, alternando entre ordenação por freqüência e

alfabética (pela primeira palavra do cluster).

• Layout: Permite ao usuário re-organizar a tela, alterando cores, fontes, largura e

posição das colunas.

• Compute: Exibe uma calculadora para cálculo automático baseado nos números

presentes na tela. Vide p. 203 para explicação detalhada desse recurso.

• Change case: Altera as linhas de cluster, exibindo-as todas em maiúscula, todas em

minúscula ou somente iniciais em maiúscula.

• Zap: Elimina linhas que tenham sido previamente selecionadas e ‘acinzentadas’ por

meio do pressionamento da tecla ‘delete’, no teclado.

• Search: Permite buscar texto dentro das linhas dos clusters.

7.4.2.3.4.Uniform plot

Ajusta a aparência do gráfico (‘plot’), uniformizando-o. Os gráficos são explicados na p.

255.

Num gráfico uniformizado, todos os textos são representados por áreas que possuem o

mesmo tamanho. Já num gráfico não uniformizado, cada texto possui uma área de tamanho

110

proporcional à extensão do texto: um texto mais longo terá uma área maior e um mais

curto, uma área menor.

7.4.2.3.5.Choose texts

Leva à janela de seleção de textos, explicada na p. 89

7.4.2.3.6.Colours

Permite mudar as cores das janelas de concordância.

7.4.2.3.7.Directories

Remete a uma janela onde se pode especificar os diretórios default usados pelo programa

para escolher textos (‘Texts’)e para salvar e abrir concordâncias (‘Concord’), listas de

palavras-chave (‘KeyWords’) e listas de palavra (‘WordList’). É aconselhável não alterar

esses diretórios. Pode ser útil modificá-los temporariamente caso o usuário deseje trabalhar

por algum tempo com pastas diferentes, o que economizará tempo para acessar as pastas.

7.4.2.3.8.Font

Remete à lapela ‘General’ do menu ‘Settings’, que serve para especificar aspectos

relacionados à fonte e a outros tipos de ajuste.

No espaço ‘Startup’, permite especificar duas ações automáticas do programa:

Restore last work: quando marcado, o programa se iniciará carregando e mostrando

automaticamente a última lista de palavra, concordância ou lista de palavra-chave

utilizada. Na maioria das vezes, é melhor deixar desmarcada essa opção, pois o trabalho

feito por último pode ser recuperado facilmente também por meio da listagem de arquivos

que se encontra no final do menu File. Além disso, essa abertura automática torna mais

lento iniciar o programa.

Show help file: quando marcado, inicia o programa abrindo automaticamente o menu de

ajuda. Também é aconselhável deixar desmarcado, pois a lista de ajuda aberta

automaticamente tende a desviar a atenção do usuário e a ‘poluir’ sua tela. A ajuda pode

ser obtida facilmente pelo menu ‘Help’ ou pelo botão ‘?’ que se encontra na barra de

ferramentas.

111

No espaço ‘Printing’, é permitido definir se a impressão do trabalho será em cores ou em

preto e branco. O botão ‘Setup’ acessa os ajustes da impressora (tamanho do papel,

posição do papel, escolha de impressora, etc.).

O espaço ‘Font’ permite escolher a fonte usada para exibir os resultados, além do tamanho

da fonte.

Em ‘Internet browser’, é possível escolher o tipo de navegador da Internet a ser usado pelo

programa ‘Viewer’ para exibir textos no formato HTML. O botão ‘Browse’ traz uma tela

de escolha de arquivos do Windows, onde deve ser especificado o nome do arquivo .exe

que se refere ao navegador de Internet. Por exemplo, o Internet Explorer, no Windows 98,

está em C:\Arquivos de programas\ Internet Explorer\ IEXPLORE.EXE.

7.4.2.3.9.Printing

Permite ajustes na impressão do trabalho. Remete ao mesmo menu de ajustes de ‘Font’,

explicado acima. O espaço para ajuste da impressão é ‘Printing’, explicado no item

anterior.

A caixinha ‘Save’ grava os ajustes e os tornará ativos para a próxima sessão do programa.

7.4.2.3.10.Stop list

Permite especificar lista de palavras a serem excluídas do processamento dos textos. Cada

ferramenta exige a especificação independente de uma lista, no espaço diante do nome da

ferramenta (p.ex. Concord stop list). Clicando em ‘Browse’, o usuário tem acesso à lista de

pastas, de onde pode selecionar o arquivo correspondente. Depois de indicar o nome e a

pasta do arquivo, é necessário ainda marcar a caixa ‘Activated’, caso contrário a lista não

será levada em conta.

Uma stop list deve ter as características abaixo:

A lista deve ser um arquivo texto; não é permitido o formato .doc ou .rtf, por exemplo. Por

isso, é aconselhável usar um editor simples, como o notepad, para criar a lista. O botão

‘Notepad’, presente no menu, aciona esse programa.

A palavras podem ser escritas uma em cada linha ou várias numa mesma linha; nesse

último caso, devem ser separadas por vírgulas.

112

Cada linha pode ter no máximo 300 caracteres.

A palavras devem ser escritas em letras maiúsculas.

A quantidade máxima de palavras é 16 mil.

É aconselhável a terminação .stp na nomeação do arquivo.

As linhas que comecem com colchetes (‘[‘) são ignoradas; dessa forma, comentários ou

lembretes podem ser escritos na própria lista desde que precedidos, no início da linha, por

um colchete.

Uma stop list pode ser a seguinte:

[stop list para textos do corpus c:\texts\aaa DE,DA,DO,DOS,DAS,DUM,DUNS EM,NA,NO,NAS,NOS,NUM,NUNS

A caixinha ‘Save’ grava os ajustes e os tornará ativos para a próxima sessão do programa.

7.4.2.3.11.Tags

Tags, ou etiquetas, são códigos de anotação de corpus. Eles servem a muitas funções,

como por exemplo identificação da classe de palavra, nomeação dos falantes,

especificação de divisões do texto, etc. Para guardar os ajustes feitos nessa tela para

análises posteriores, o usuário deve selecionar a caixa ‘Save’.

As etiquetas podem ter diversos formatos, como por exemplo:

Determinação de classe de palavra:

Maria/SUBS é/VB bonita/ADJ ./PONT

As etiquetas /SUBS, /VB e /ADJ identificam a classe morfológica de cada palavra.

Nomeação dos falantes:

<falante=Maria> Quem é?

<falante=José> É o Zé.

As etiquetas <falante=Maria> e <falante=José> indicam o falante de cada

113

turno.

Nesse menu, há quatro opções:

(1) Tags to ignore. Serve para indicar um formato de etiqueta genérico que o

programa irá ignorar. A utilidade de ignorar as etiquetas é que

normalmente quando se faz uma concordância ou lista de palavras, o

pesquisador não quer que o texto que faz parte da etiqueta seja levado em

conta no processamento. O formato da etiqueta deve ser digitado na janela

logo abaixo ‘Tags to ignore’. O default é <*>. Caso selecionado, esse

formato fará com que tudo (devido ao asterisco) que esteja dentro dos

sinais de < e > seja desconsiderado. Para ativar essa opção, é preciso

marcar a caixa Activated. Por exemplo, no texto acima que mostra o

diálogo entre Maria e José, com a etiqueta do tipo <*> e a opção de

ignorar ativada, o programa desconsideraria a palavra ‘falante’. Mas se a

caixa de ignorar estivesse desmarcada, ou o tipo de etiqueta fosse outro

(p.ex. {*}), a palavra ‘falante’ faria parte da lista de palavra ou da

concordância.

Para verificar qual o resultado da seleção de etiquetas no processamento do

texto, pode-se usar o ‘Viewer’. O resultado que ele exibe significa a maneira

pela qual o WordSmith Tools processará o texto. Por exemplo, no caso do

diálogo acima, com ‘Tags to Ignore: <*>’ ativado, o resultado aparece na janela

abaixo. Como se percebe, o resultado é o desejado.

114

(2) Tag File 1 (Tags to be included). Permite que sejam especificadas etiquetas

para não serem ignoradas. Essa opção deve ser usada em conjunto com a

anterior, a fim de que algumas etiquetas sejam preservadas. As etiquetas

especificadas aqui aparecerão nas concordâncias e nas listas de palavras

como se fossem parte do texto ou da transcrição. Esse arquivo também

permite que as concordâncias exibam a etiqueta mais próxima na coluna

‘Tag’ (que indica o ‘nearest tag’, ou etiqueta mais próxima do termo de

busca; vide p. 101). As etiquetas devem ser digitadas num arquivo texto,

uma em cada linha, com no máximo mil etiquetas; o arquivo deve possuir a

terminação .tag . As etiquetas podem usar wildcards, como o asterisco (que

significa qualquer quantidade de qualquer caracter), o ponto de

interrogação (que significa apenas um caracter qualquer) e a cerquilha (#,

que identifica qualquer número). Tomando o texto anterior do diálogo

entre Maria e José como exemplo, o resultado de uma busca pela palavra

‘quem’ resultaria no seguinte:

• Sem nenhuma especificação de etiqueta ativada:

<falante=Maria> Quem é? <falante=José> É o Zé.

• Com ativação de Tags to Ignore: <*>, nota-se que todas as etiquetas desapareceram e

há um espaço em branco no local que elas ocupam no texto:

Quem é? É o Zé.

• Com ativação de Tags to Ignore: <*> e de Tags to include: <falante=Maria>, a etiqueta

referente a Maria volta a aparecer, e há uma lacuna no espaço onde consta a etiqueta de

José:

<falante=Maria> Quem é? É o Zé.

• Com ativação de Tags to Ignore: <*>, de Tags to include: <falante=Maria>, e de

Spaces Cut no menu View, o espaço onde havia a etiqueta de José desparece:

<falante=Maria> Quem é? É o Zé.

Tag File 2 (Tags to be translated). Permite que sejam convertidos códigos especiais em

caracteres legíveis. É útil, entre outros, para conversão de caracteres acentuados de textos

formatados em HTML. Por exemplo, em HTML, o caracter ‘Á’ é representado pelo código

Á . Se o usuário fizer uma concordância de um texto assim, palavras que

115

contenham ‘Á’ aparecerão de modo estranho (p.ex Ábaco aparecerá como Ábaco).

Para contornar esse problema, o usuário pode especificar um arquivo demonstrando como

os caracteres devem ser ‘traduzidos’. O arquivo deve ser de formato texto, por isso é

recomendável que seja criado e salvo num editor simples, como o Notepad; ele deve ainda,

preferivelmente, ser nomeado com extensão .tag. No arquivo, cada código deve ser escrito

numa linha, seguido de um espaço e do caracter que servirá de tradução. No caso acima, a

seguinte linha deverá ser adicionada ao arquivo:

Á Á

Text files and tags. Os botões dessa área do menu permitem especificar meios de

selecionar textos ou partes de textos com base em palavras ou etiquetas constantes neles.

• Only if Containing: Esse botão abre uma tela que contém 12 janelas, dispostas em

quatro linhas com três janelas cada. Nelas, o usuário pode especificar palavras como

‘selectors’ ou termos de inclusão e exclusão, que são palavras que devam ou não

aparecer no texto. Os textos que satisfizerem tais condições (caso haja algum) serão

selecionados pelo programa; os demais, não. Os critérios podem ser mais ou menos

complexos e podem ser formados por palavras ou por etiquetas. Cada palavra ou

etiqueta pode ter no máximo trinta caracteres; o programa diferencia maiúsculas de

minúsculas (‘case sensitive’).

• A entrada das palavras nas janelas deve obedecer a um critério pré-definido: as nove

primeiras janelas são para entrada de termos de inclusão, isto é, palavras que, caso

ocorram, farão com que o texto seja selecionado. Entre as janelas onde há a palavra

‘or’, o critério é ‘ou’, isto é, o usuário pode digitar palavras alternativas, do tipo ‘ou A

ou B ou C’. Nas linhas precedidas por ‘plus’, serão escolhidos os textos que possuam

pelo menos uma dessas palavras, mas não nenhuma delas. Nessas, o critério é ‘e’, isto

é, ‘A e B e C’; desse modo, serão escolhidos textos que possuam todas essas palavras.

Já na última linha, precedida por ‘but not’, as palavras digitadas nas janelas servem

como termos de exclusão, ou seja, os textos que as contiverem serão rejeitados. A

opção ‘Activated’ deverá ser marcada para que os termos tenham efeito. Marcando a

opção ‘favour.txt’ fará com que os textos que foram selecionados tenham seus nomes

gravados num arquivo chamado ‘favour.txt’ (em c:\wsmith), que poderá ser acessado

de novo por meio da opção ‘Get Favourites’ (vide p. 91); dessa forma, o usuário não

116

precisará digitar todos os termos de inclusão e exclusão novamente, numa outra sessão

do programa.

Para exemplificar, tomemos a tela abaixo, cujo resultado fará com que o programa

selecione somente textos que possuam a palavra ‘casa’:

•

Já na tela seguinte, os textos selecionados deverão conter a palavra ‘casa’ ou

‘apartamento’ (pelo menos um deles):

117

Na tela a seguir, os textos selecionados terão deverão ter ‘casa’ ou ‘apartamento’ e, além

disso, ‘cidade’:

Já de acordo com a tela abaixo, os textos deverão conter ‘casa’ e ‘cidade’ mas não ‘praia’:

De acordo com a janela abaixo, somente os textos que possuam a etiqueta <fonte=Folha>

serão selecionados:

118

• Only Part of File: Esse botão abre uma tela que permite determinar que partes do texto

serão processadas. Somente aquelas que satisfaçam os critérios determinados serão

consideradas pelo programa. Essa opção é útil em casos em que o pesquisador deseje

fazer análises separadas de, por exemplo, as introduções de artigos para comparar com

as conclusões. Ou em casos em que o corpus esteja anotado com cabeçalho, e o

pesquisador prefira excluir o conteúdo do cabeçalho do texto que é processado. As

diversas partes desse menu são explicadas abaixo.

• Cut start of each line/paragraph: aqui o usuário pode selecionar quantos caracteres

deseja ignorar no começo de cada linha. Essa opção pode ser útil para textos que

possuam algum tipo de marcação em cada linha do texto, como por exemplo números

de linha, como no caso abaixo, retirado do corpus Brown:

• A01 0010 The Fulton County Grand Jury said Friday an investigation

A01 0020 of Atlanta's recent primary election produced "no evidence"

• Como se percebe, o começo de cada linha é precedido por um código que identifica o

nome do arquivo (A01) seguido de um conjunto de algarismos que indicam a linha do

texto (0010, 0020). Nesse texto é importante eliminar essa marcação a fim de que a

concordância ou listagem de palavras, por exemplo, não confunda A01 com a palavra

‘A’ (artigo indefinido em inglês). Assim, o ajuste necessário para prevenir esse erro

119

consistiria em Cut start of each line/paragraph = 9, pois os oito primeiros caracteres de

cada linha são ocupados pelos códigos. Para deixar essa opção desativada, o usuário

deve certificar-se de que o número 0 esteja selecionado.

• Sections to Cut. Nessa área, o usuário pode especificar etiquetas que delimitam o

espaço do texto a ser omitido. Diante de ‘starting at’, o usuário deve digitar a etiqueta

que dá início ao trecho indesejado, e diante de ‘ending with’, a etiqueta que encerra

esse trecho. Se o trecho inciar-se com o primeiro caracter do texto, então o usuário

deve escolher ‘start of file’, em ‘starting at’. Para ativar essa opção, o usuário deve

marcar a caixa ‘activated’. Por exemplo, se o texto contiver um cabeçalho que se inicia

na primeira linha do arquivo e termina com o código </header>, então os ajustes para

eliminação desse trecho serão os seguintes:

• Há dois conjuntos dessas janelas: o segundo conjunto, à direita, indica uma alternativa

(‘or’), que pode ser preenchido do mesmo modo. Se o usuário fizer escolhas nesses

espaços, o programa tentará identificar o trecho indicado pela primeira escolha, mas se

não encontrar, tentará encontrar o trecho especificado pela segunda escolha. Se

nenhum desses trechos existir, o arquivo inteiro será processado.

• Sections to use. Nesse espaço, o usuário pode estabelecer critérios para seleção de

120

trechos do arquivo que deseja processar. Por exemplo, suponha que o seu texto seja

formatado assim:

<cabeçalho> <fonte: tesol> <responsável: patrícia> </cabeçalho> <introduction> In this article, we propose a new method for etc. etc. <method> We used protocol analysis as the basis for etc. etc.

• Nesse caso, se o usuário desejar fazer uma análise que se limite apenas aos trechos das

introduções dos textos (assumindo que todos os textos possuam as mesmas etiquetas,

sem variação de maiúscula / minúscula), o ajuste a ser feito deve ser o seguinte:

• Os dados inseridos nessa tela determinam que o programa deva desconsiderar o trecho

que se inicia pela primeira linha e vai até a etiqueta </cabeçalho>, e que o programa

deva processar somente o trecho que se situa entre as etiquetas <introduction> e

<method>.

• Devido a essas várias opções de especificação de etiquetas para retirar, manter e

121

traduzir, o programa WordSmith Tools usa uma seqüência fixa de processamento de

cada escolha. A seqüência é a seguinte:

• Only if Containing. O programa seleciona os textos que contenham os critérios

definidos nessa opção. Dentre os textos que obedeçam aos critérios determinados aqui,

os programa então:

• Omite as partes definidas em ‘Only Part of File / Sections to Cut’.

• Seleciona as partes definidas em ‘Only Part of File / Sections to Use’.

• Retira o início de cada linha, conforme definido em Cut Start of Each Line / Paragraph.

• Traduz os símbolos especificados em ‘Tag File 2 (tags to be translated)’.

• Apaga as etiquetas definidas em ‘Tags to Ignore’.

Obviamente, o programa somente inclui nessa ordem de processamento aquelas escolhas

que de fato foram ativadas (com a caixa ‘Activated’ marcada).

7.4.2.3.12.Text Characteristics

Essa opção, embora seja chamada de ‘Text Characteristics’ nos menus dos programas

Concord, WordList e KeyWords, na verdade refere-se à guia ‘Text’ da tela de ‘Settings’.

Nela, é possível fazer ajustes na maneira pela qual o programa processa a formatação dos

textos.

• Text Characteristics

A primeira área da tela é Text Characteristics, em que é possível especificar o idioma dos

textos e o formato dos caracteres (‘codepage’). A seleção do idioma influencia o tipo de

caracteres que o programa espera encontrar e a maneira pela qual ele faz a ordenação

desses caracteres. Por exemplo, se a língua especificada for o espanhol, o programa fará a

ordenação das letras na seguinte ordem:

A,B,C,CH,D,E,F,G,H,I,J,K,L,LL,M,N,Ñ,O,P,Q,R,S,T,U,V,W,X,Y,Z.

Note que a seqüência de letras CH aparecerá no final das demais iniciadas por C, quando

se fizer uma ordenação alfabética. O mesmo acontecerá com LL.

122

Na prática, se o usuário estiver processando textos escritos em línguas européias ocidentais

(português, inglês, francês, espanhol, alemão, etc.), é praticamente desnecessário corrigir a

definição do idioma quando houver mudança, já que os caracteres dessas línguas todas são

muito parecidos. O alemão, que possui ß, é a única grande exceção, mas como essa letra

está contemplada no conjunto de caracteres do Windows Western 1252, o programa

exibirá corretamente as palavras escritas com esse caracter, além de muitos outros, tais

como Å e Æ, que não fazem parte do alfabeto oficial do alemão.

A segunda área é onde se designa o conjunto de caracteres de computador a ser usado. O

conjunto de caracteres deve ser escolhido tendo em vista o idioma. Assim, se o idioma for

português, é preciso especificar o conjunto Windows Western 1252, que possui todas

letras dos alfabetos das línguas européias ocidentais (de línguas contemporâneas, como o

português e o inglês, até línguas já extintas, como o inglês medieval). Caso o usuário

escolha um conjunto de caracteres que é incompatível com a língua, o programa o rejeitará

e fará o ajuste automaticamente. Por exemplo, caso o idioma esteja definido para

português e haja uma tentativa de mudança do conjunto de caracteres para Cyrillic (que

serve para o russo, entre outros idiomas), ao se pressionar OK aparecerá uma mensagem

de erro informando ‘Codepage reset to 1252 to suit Portuguese’, e o conjunto de caracteres

retornará para Windows Western 1252.

A regra geral aqui é deixar selecionado o conjunto Windows Western 1252 e só substitui-

lo caso o usuário venha a analisar textos escritos em línguas de outras partes do mundo,

como o Tcheco (em cujo caso será preciso selecionar o conjunto Central European 1250)

ou o Turco (conjunto Turkish 1254), entre outras. Nesses casos, é aconselhável fazer a

mudança na seleção do idioma também. Mesmo nesses casos, normalmente o usuário deve

restringir-se aos conjuntos ‘Windows’, embora haja opções identificadas como ‘DOS’, que

são apenas para arquivos antigos, pré-Windows9. O WordSmith Tools não interpreta textos

escritos em alfabetos orientais, como o japonês, chinês ou árabe.

Esses ajustes podem ser vistos no arquivo langinfo.txt, que se encontra na pasta onde está

instalado o WordSmith Tools.

9 Os códigos de caracteres são diferentes no DOS e no Windows.

123

• Handling

Nessa área, o usuário pode especificar:

Hyphens break words: Quando marcada, essa opção faz com que palavras hifenizadas

sejam tratadas como palavras separadas (isto é, como se houvesse um espaço em branco

entre elas). Por exemplo, a palavras ‘mantenha-se’ seria desmembrada em ‘mantenha’ e

‘se’ numa lista de palavras. Para o Concord, essa opção não afeta o resultado da

concordância.

Characters within word: São especificados aqui os caracteres que fazem parte das palavras,

além das letras. No inglês, uma opção é a aspa simples (‘), que é usada em contrações

verbais, do tipo “I’m’ e “He’s”. Se a aspa simples estiver especificada aí, o WordList e o

KeyWords tratarão “I’m’ como uma palavra inteira; caso contrário, considerará ‘I’ uma

palavra e ‘m’ outra (a aspa restante não é levada em conta).

Em alguns tipos de textos especiais, em que haja uma forma específica de anotação, às

vezes torna-se necessário especificar caracteres inusitados nessa opção. Uma instância

disso são textos etiquetados com o analisador morfossintático VISL

(http://visl.hum.ou.dk), que geralmente incluem palavras compostas tratadas como uma

unidade inteira; tais palavras aparecem grafadas com um sinal de igual (‘=’) unindo as

diversas palavras que compõe a lexia complexa. O trecho abaixo traz um exemplo de texto

etiquetado pelo VISL:

because=of [because=of] <CompPP> PRP @N< @ADVL all [all] <Quant> PRON DET PRE SG/PL @>N … that [that] <**CLB> CONJ KS @SUB10

Percebe-se que a locução ‘because of’ apareceu grafada ‘because=of’, para indicar que o

programa a considerou como uma unidade lexical e não como duas (‘because’, ‘of’).

Nesses casos, se o analista desejar que o WordList e o KeyWords tratem ‘because of’

10 Não há espaço aqui para explicar os códigos presentes no exemplo. Para maiores

detalhes sobre o VISL, incluindo como usá-lo online e os códigos de etiquetagem

empregados, vide Berber Sardinha (2005).

124

como uma unidade lexical única, então será preciso especificar o sinal de igual como

‘character within word’.

Botões Plain text, HTML, SGML or XML: Esses botões indicam o tipo de formatação do

arquivo:

• Plain text: arquivo-texto que só possui caracteres disponíveis no teclado. Normalmente

possui nome com terminação .txt. É também conhecido como ‘ASCII11’, ‘texto puro’,

etc. Este é o formato preferido pelo WordSmith Tools (e pelos programas e scripts de

processamento de texto e de análise lingüística), pois não contém caracteres

‘estranhos’ que interferem com a legibilidade das palavras pelo programa.

Quando esta opção é selecionada, o WordSmith Tools faz alguns ajustes nas janelas

‘heading’, ‘sentence’ e ‘paragraph’ (na janela correspondente a ‘end’), logo abaixo dos

botões de tipo de formatação de arquivo, conforme mostra a figura abaixo:

11 Lê-se ‘ásqui’.

125

Em ‘Heading’, que indica subtítulos, aparece </head>, mas esse código é inócuo porque

normalmente não há codificação para isso em arquivos-texto. Em ‘Sentence’, surge o

código ‘auto’, que indica um ponto final, de interrogação ou de exclamação seguido de um

espaço e de uma letra maiúscula. Em ‘Paragraph’, o programa especifica automaticamente

<Enter><Tab>. É possível modificar esses códigos à vontade. Entretanto, em se tratando

de arquivo-texto, sem formatação especial, o único código que realmente pode valer a pena

modificar é o de parágrafo. Por exemplo, se o texto estiver formatado com dois ‘Enters’ no

final de cada parágrafo, então o usuário deve digitar <Enter><Enter> no campo apropriado

(o segundo referente a ‘paragraph’).

O usuário deve atentar para o fato de que os códigos mudam quando a opção de tipo de

texto é alterada e são retidos quando a opção ‘plain text’ é escolhida de novo. Por

exemplo, se for escolhida ‘HTML’ e depois ‘plain text’, os códigos dos campos de

‘heading’, ‘sentence’ e ‘paragraph’ serão, respectivamente, </h#>, auto e </p>, que são as

definições do tipo HTML. Em outras palavras, os códigos originais de ‘plain text’ não

retornam aos campos designados. Para que esses códigos voltem, é preciso desligar o

programa e reiniciá-lo ou digitá-los novamente.

126

É importante ressaltar que arquivos produzidos nativamente pelo Microsoft Word não são

arquivos-texto. O MS Word grava arquivos em seu formato próprio, reconhecido pelas

extensões .doc ou .rtf. Esses formatos possuem muitos códigos de formatação de página

(negrito, fonte, margens, tabelas, enfim, tudo que faz com que o texto assuma um certo

layout desejado pelo usuário) que estão presentes no arquivo mas que não se constituem

em palavras do texto. O usuário não vê esses caracteres na sua tela porque o programa os

esconde e os traduz em informação relevante para a formatação do texto na tela. Mas se

um arquivo .doc for aberto num editor de texto que não ‘entenda’ esses caracteres, torna-se

possível enxergá-los. Por exemplo, um arquivo .doc que tenha apenas a frase ‘O gato

sentou no tapete.’ assume a seguinte aparência quando visto no editor Bloco de Notas do

Windows:

Como se percebe, há uma quantidade grande de códigos que poluem a tela. Muitos desses

caracteres seriam ‘lidos’ pelo WordSmith Tools, que, à semelhança do Bloco de Notas,

não sabe traduzi-los ou ignorá-los, o que faria com que caracteres indesejados fossem

incorporados à lista de palavras ou fossem exibidos numa concordância. Para evitar esses

problemas, é fundamental que o usuário certifique-se de que não esteja usando arquivos

salvos em formato .doc, .rtf, .pdf ou de outros programas que possuam um formato próprio

(como o PowerPoint, PageMaker, etc.).

127

Para converter arquivos .doc em formato texto é muito simples: basta abrir o arquivo e

selecionar ‘Salvar como’ (Save as) no menu Arquivo (File). Depois, na caixa ‘Salvar como

Tipo’, é preciso selecionar ‘Somente texto’. O Word adiciona automaticamente uma

extensão .txt ao nome do arquivo. É recomendável não exceder oito caracteres na

nomeação do arquivo para que o WordSmith Tools não trunque o nome (modificando, por

exemplo, um arquivo chamado de ‘arquivo com um nome bem longo.txt’ para

‘arquiv1~.txt’).

Há outras opções para gravação do arquivo em formato texto no MS Word. Uma delas é

‘Arquivo MS-DOS’ ou DOS Text. Essa opção deve ser evitada quando se tratar de

arquivos escritos em língua portuguesa, porque esse formato não exibe muitos caracteres

acentuados corretamente. Por exemplo, a frase ‘Márcio comeu maçã e lingüiça’, quando

salva num formato de arquivo ‘MS DOS’, aparece desta maneira:

M rcio comeu ma‡Æ e ling�i‡a.

Uma outra opção disponível no Word é Texto com Layout (.ans). Esta opção preserva os

caracteres acentuados e, além disso, mantém (até certo ponto) a disposição do texto nas

páginas. Essa opção é indicada em casos em que o usuário faz questão de que tabelas ou

esquemas sejam mantidos aproximadamente parecidos ao que eram na versão .doc. Por

exemplo, a tela abaixo ilustra um texto formatado com recursos do MS Word:

128

A tela abaixo mostra o mesmo texto salvo no formato .ans:

129

Como se percebe, há uma disposição do texto na página que lembra o layout original do

texto .doc. Esse layout estaria totalmente perdido numa versão salva no formato .txt, que é

mostrada abaixo:

130

Deve ser enfatizado que, para o WordSmith Tools, o layout do texto, conforme mostrado

acima, é irrelevante, pois o programa deter-se-á na extração das palavras que formam o

texto e não será influenciado pela maneira segundo a qual as palavras estão dispostas no

arquivo.

Para converter diversos textos de uma vez, é possível fazer a conversão um por um,

conforme sugerido aqui, ou usar o Assessor de Conversão (Conversion Wizard). Para

maiores informações sobre essa opção, consulte a Ajuda do MS Word.

HTML: arquivo-texto que possui códigos de formatação específicos para exibição em

navegadores de WWW. Normalmente possuem extensão .html ou .htm . Esse tipo de

arquivo hoje é bastante comum, devido à popularização da WWW e à possibilidade de

retirada de arquivos da Internet para formação de corpora. Por isso, é importante conhecer

melhor como esse tipo de arquivo é formatado e como ele deve ser tratado no WordSmith

Tools.

Um arquivo HTML possui códigos do tipo:

131

<início>Texto etc.</fim>

Os códigos de início e fim delimitam o conteúdo que está entre eles.

Há muitos códigos disponíveis em HTML, e não há espaço aqui para discuti-los. Num

arquivo HTML esses códigos podem ser bastante numerosos, conforme mostra o trecho

abaixo, extraído de uma webpage da Internet:

<!doctype html public "-//w3c//dtd html 4.0 transitional//en"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <title>LAEL, PUCSP: Disciplinas e Horários</title> <link rel="stylesheet" type="text/css" href="lael.css" /> </head> <body> <h1><img border="0" src="images/disciplinas_1_2000.gif" width="600" height="60"></h1>

Esses códigos todos são considerados palavras para o WordSmith Tools caso o usuário não

faça os ajustes necessários no programa. Escolhendo a opção HTML no menu, o programa

ativará automaticamente algumas etiquetas para processamento do texto, conforme mostra

a figura abaixo:

132

A primeira será o ‘heading’, que são os códigos de formatação dos títulos e subtítulos. Um

‘heading’ de HTML tem a seguinte aparência básica:

<h1>Um subtítulo principal do texto</h1>

No espaço correspondente, o programa estabelecerá a etiqueta <h#> para início e </h#>

para término, onde # significa ‘qualquer número’. Isso significa que quaisquer códigos do

tipo <h1>, <h2>, </h1>, </h2>, etc. serão desconsiderados pelo programa. No caso acima,

o programa desconsideraria <h1> e </h1>.

Depois, em ‘sentence’, o programa informa ‘auto’, que significa ‘automático’, isto é, uma

quebra de linha (feita com a tecla ‘Enter’). Em outras palavras, o programa não estabelece

nenhum código para delimitar sentenças, pois não há nenhum código para isso em HTML.

Finalmente, em ‘paragraph’, o programa assume os códigos <p> e </p>, que são usados,

respectivamente, para início e fim de parágrafo. Parágrafos em HTML podem ser

marcados assim:

<p>Aqui vai o texto do parágrafo. Outra sentença do parágrafo. </p> <p>Aqui vai outro parágrafo. E outra sentença. Etc. </p>

Mas muitas vezes o parágrafo é identificado somente como:

Aqui vai o texto do meu parágrafo. Outra sentença do parágrafo. <p>

De qualquer modo, o programa desconsiderará os códigos <p> e </p> que ocorram no

texto. Além disso, as estatísticas de contagem de parágrafos (no programa WordList) serão

baseadas em contagens de parágrafos feitas a partir desses códigos.

Esses ajustes são básicos, e, mesmo com eles, muitas palavras que fazem parte de códigos

serão levadas em conta pelo programa. Além disso, outros códigos, que deveriam ser

interpretados corretamente, não o serão; este é o caso das palavras acentuadas. Por

exemplo, em HTML, uma palavra como ‘horários’ pode ser representada como

‘horários’, em que o caracter ‘á’ é representado por ‘á’. Assim, para que o

programa faça os ajustes devidos e processe um texto HTML de maneira consistente e

correta, será preciso, além de especificar HTML nesse menu ‘Text’, fazer ajustes no menu

‘Tags’, especificando etiquetas. Basicamente, será necessário:

133

(1) Marcar a caixa ‘Tags to ignore’ como <*> e selecionar ‘activated’.

(2) Em Tag File 2, deverá ser especificado uma seqüência de instruções para tradução

de caracteres acentuados. Um exemplo é o arquivo sgmltrns.tag, que vem com a

distribuição do programa. Marcar a caixa ‘activated’.

(3) Em Only Part of File, na área Sections to Cut, deverá ser especificado ‘starting at:

start of file’ e ‘ending with: <body>’. Ou, em vez disso, na área ‘Sections to Use’,

especificar ‘starting at: <body>’ e ‘ending with: </body>’. Marcar a caixa

‘activated’.

Mesmo com todos esses ajustes, não é garantido que o processamento será livre de erro,

pois muitos textos HTML não seguem estritamente o padrão.

Uma outra alternativa para o uso de arquivos HTML com o WS Tools é transformar os

arquivos HTML em formato texto antes de usá-los. Para fazer isso, basta abrir cada

arquivo do modo habitual (num navegador do tipo Internet Explorer, por exemplo) e

selecionar ‘Salvar Como’ (Save As) no menu ‘Arquivo’ (File). Lá, deve-se escolher

‘Arquivo texto .txt’ (‘Text File .txt’) na caixa ‘Salvar com o Tipo:’. Se isso for feito para

cada texto, as etiquetas e os códigos de acentuação serão eliminados ou convertidos, e o

resultado será um arquivo sem formatação, conforme explicado acima. O usuário deverá

então escolher o formato ‘Plain Text’ no WordSmith Tools para esses arquivos

convertidos.

• SMGL or XML. Estes formatos são semelhantes ao HTML, discutidos acima, ou seja,

são constituídos de etiquetas que permitem formatação e inclusão de informação sobre

o texto. SGML significa 'Standard Generalized Markup Language’ e é um tipo de

padrão internacional de marcação de textos, definido por um ISO (8879:1986). XML,

por sua vez, quer dizer ‘Extensible Markup Language’, e é um subtipo de SGML.

Os textos formatados em SGML possuem muitas etiquetas, conforme mostra o exemplo

abaixo, extraído de um arquivo do British National Corpus (BNC), que emprega esse

padrão de marcação:

<bncDoc id=BDA00 n=AidFct> <header type=text creator='dominic' status=new update=1994-11-24> <fileDesc> <titStmt> <title>

134

ACET Factsheets $1$21Newsletters -- an electronic collection </title> <respStmt> <resp> Data capture and transcription </resp> <name> Oxford University Press </name>

Como se percebe, a informação está codificada por meio de etiquetas do tipo:

<etiqueta_x> informação etc. </etiqueta_x>

Não há espaço aqui para explicar as muitas etiquetas empregadas pelo BNC ou as

existentes em SGML ou XML. Como há bastante variação no conjunto de etiquetas (tag

set) usado em arquivos SGML, será tomado como exemplo um arquivo do BNC;

entendendo os princípios do tipo de marcação SGML usado nesses textos permitirá que o

leitor adapte os ajustes do WordSmith Tools para outras situações.

O importante é perceber que, para o WordSmith Tools ler corretamente os arquivos

formatados nesses padrões, será preciso estabelecer quais etiquetas são as corretas para (1)

interpretar o layout do texto, (2) extrair as palavras que realmente compõem o texto (3)

omitir informações adicionadas ao arquivo mas que não fazem parte do texto (isto é, as

marcações de data, autor, fonte, etc., além dos códigos das etiquetas), e (4) traduzir

códigos especiais (isto é, acentuação e símbolos, caso haja) para caracteres legíveis.

Assim como em HTML, o primeiro passo é estabelecer os códigos para que o programa

interprete o layout do texto, preenchendo os campos ‘heading’, ‘sentence’ e ‘paragraph’.

É importante aqui abrir os textos a serem processados num editor de texto e observar o tipo

de marcação empregado neles. Os ajustes pré-selecionados pelo WordSmith Tools são

adequados para o BNC; são eles:

Beginning End Heading <head> </head> Sentence <s *> </s> Paragraph <p> </p>

Vale lembrar que esses ajustes podem ter mudado caso tenha sido selecionado outro tipo

de texto durante a mesma sessão de uso do programa. Nesse caso, será preciso reiniciar o

135

programa ou digitar os códigos nos campos apropriados.

Em segundo lugar, para extrair as palavras e ignorar os demais códigos das etiquetas, é

preciso trabalhar com o menu ‘Tags’, já explicado antes. Os ajustes necessários são

explicados a seguir.

A opção ‘Tags to Ignore’ precisa estar selecionada (‘Activated’) e o código <*> deve estar

inserido no campo apropriado. Isso fará com que o conteúdo das etiquetas seja ignorado, o

que é muito importante visto que o BNC possui, além dos códigos de SGML, outras

etiquetas que informam a classe morfológica de cada palavra do texto (part of speech tag).

Um exemplo aparece no trecho abaixo:

<item> <s n=006> <w PRP>through <w AJ0>infected <w NN1>blood <w CJC>or <w NN1>blood <w NN2>products <c PUN>. </item>

No trecho, percebe-se que cada palavra do texto é precedida por uma etiqueta do tipo <w

CÓDIGO>: ‘through’ é identificada como ‘preposição’ (<w PRP>), ‘infected’ como

adjetivo (<w AJ0>), ‘blood’ como substantivo singular (<w NN1>), e assim por diante, até

o ponto final, que recebeu a etiqueta de pontuação (<c PUN>). O acionamento da opção

‘Tags to ignore: <*>’ fará com que o trecho acima seja ‘limpo’ e visto como:

Em terceiro lugar, para omitir informações adicionadas ao arquivo, mas que não fazem

parte do texto propriamente dito, é preciso especificar em ‘Only Part of File’, as seções do

136

arquivo que não contém o texto, isto é, o cabeçalho. No BNC, o cabeçalho inicia-se na

primeira linha do arquivo (com algo parecido com <bncDoc id=BDA00 n=AidFct>) e

termina com </header>. Por isso, em ‘Sections to Cut’, é preciso selecionar ‘starting at:

beginning of file’ e ‘ending with: </header>’. Depois, é preciso marcar a caixa ‘Activated’.

Finalmente, para traduzir códigos, em Tag File 2 (tags to be translated), especifique um

arquivo que contenha instruções de como traduzir códigos de acentuação e de símbolos. O

WordSmith Tools já traz um arquivo com alguns desses códigos, chamado sgmltrns.tag,

que está no diretório do programa. O arquivo possui linhas do tipo:

— - é é É É

O formato do arquivo é:

Código_original espaço_em_branco caracter_traduzido

Assim, a primeira linha diz ao WordSmith Tools para traduzir a seqüência — por

um hífen (‘-‘). A segunda instrui o programa a substituir é por ‘é’, e assim por

diante. O arquivo sgmltrns.tag não contém todos os códigos, notadamente os de

acentuação, por isso deve ser complementado. Muitos códigos de acentuação não são

necessários para textos escritos em inglês.

Seguindo esses passos, o resultado é um texto ‘limpo’ das etiquetas de marcação do

SGML, conforme pode ser visto na figura abaixo, que ilustra como o ‘Viewer’ (e

conseqüentemente o Concord, WordList e KeyWords) interpreta o arquivo:

137

Conforme explicado antes, caso o analista queira manter alguns códigos visíveis, precisará

especificá-los num arquivo especial e selecionar esse arquivo na opção ‘Tag File 1 (tags to

be included)’ do menu ‘Tags’ de Settings.

7.4.2.3.13.Review all Settings

Essa opção abre uma janela que resume os ajustes feitos nos vários menus. Os botões

‘Text’, ‘Tags’, etc. localizados junto à margem direita simplesmente remetem o usuário a

partes da listagem de ajustes, facilitando a localização dos ajustes desejados. Entretanto,

não é possível modificar as opções diretamente nessa janela. É preciso ir novamente ao

menu ‘Settings’ da ferramenta desejada ou do Controller para processar as alterações.

7.4.2.4.Window

Esse menu organiza as janelas abertas na tela, no estilo padrão do Windows. ‘Tile’ coloca

as janelas de modo adjacente, ‘Cascade’ uma sobre as outras, ‘Arrange All’ as transforma

em ícones (não está ativo em algumas versões) e ‘Minimize All’ as minimiza.

7.4.2.5.Help

É o menu de ajuda, padrão do Windows.

A versão do WordSmith Tools instalada pode ser vista na opção ‘About & Memory’ do

menu ‘Help’.

138

7.5. Os botões da barra de ferramenta do Concord

Esses botões estão sempre visíveis, mesmo quando não há nenhuma concordância aberta.

Eles são descritos abaixo:

Remete à janela Getting Started (vide 7.3, p. 88)

Save. Abre a janela de salvamento da concordância, ou, se ela já tiver sido gravada,

salva-a novamente com o mesmo nome.

Save As. Abre a janela de salvamento de arquivo, permitindo salvar uma

concordância, lista de palavra ou lista de palavra-chave com outro nome.

Save as Text. Salva a concordância como texto. Vide 7.4.2.1.7, p. 103.

Print Preview. Permite ver a aparência da impressão antes de enviar o material para

a impressora.

Copy. Permite copiar a concordância inteira ou em partes para a área de

transferência (clipboard), arquivo-texto (equivalente a Save as Text), impressora

(equivalente a imprimir), e um arquivo de concordância (equivalente a Save ou Save As).

Em What Data, permite selecionar se a concordância será salva inteira (all), somente a

parte selecionada com o cursor (selected), ou (no caso do Concord somente) se somente as

linhas marcadas com códigos (Vide p. 101 sobre ‘sets’).

[?] Help. Abre o menu de ajuda.

Advice. Abre um menu mostrando um ‘mapa’ dos comandos e localizando o

usuário nesses comandos. Também sugere alguns comandos que o usuário pode utilizar.

Pode ser útil para o analista que se sente ‘perdido’ em meio aos comandos ou que

esqueceu algum comando.

7.6. Os botões da janela da concordância

Esses botões aparecem somente quando há uma concordância aberta. Eles são descritos

abaixo:

Grow. Aumenta o tamanho de cada linha da concordância, permitindo ver mais

139

texto de cada vez. O número aumenta a cada clique nesse botão. Ao aumentar o tamanho

de cada linha, o usuário pode perder de vista uma linha específica que estava analisando ou

lendo. Nesses casos, supondo que o cursor estivesse nessa linha antes de clicar em ‘Grow’,

para trazer de volta aquela linha para a tela, basta clicar na tecla de ‘seta para baixo’ no

teclado e depois na ‘seta para cima’.

Shrink. Reduz a quantidade de texto visível em cada linha da concordância.

Re-Sort. Reordena alfabeticamente a concordância de acordo com critérios

especificados pelo usuário. Vide p. 97, para mais detalhes.

Layout. Reordena a disposição dos elementos na tela da concordância. Ativa a

seguinte tela:

O quadro superior à esquerda indica os elementos da tela da concordância. Para mudá-los

de ordem, basta selecionar algum deles e depois clicar nos botões de movimento (setas

para cima e para baixo, junto a ‘Move’). Esses elementos subirão ou descerão de posição

na lista. Ao clicar em OK, a disposição dos elementos será alterada na tela.

Para apagar alguma coluna, clique nela e depois pressione a tecla ‘delete’, do teclado.

Surgirá uma mensagem pedindo confirmação. Clicando em OK, a coluna desaparecerá.

A área inferior à esquerda mostra os esquemas de cores disponíveis. Para alterá-los, é

140

preciso ir ao menu ‘Settings’, ‘Colours’.

As áreas referentes a Alignment, Visibility e Decimals não se aplicam à concordância.

‘Typeface’ permite modificar a aparência da fonte, para negrito (bold), italics (itálico) ou

sublinhado (underlined). Não está ativa.

Width permite modificar a largura das janelas em pixels. Não está ativa.

Compute. Ativa uma tela para entrada de dados, como uma calculadora. Não tem

utilidade para concordância.

Change Case. Não está ativa para concordância, mas funciona para a janela de

colocados (‘Collocates’, vide p.140 a seguir). Faz com que a aparência das palavras mude,

de maiúsculas para somente primeira letra em maiúscula, para todas as letras em

minúsculas. Para mudar, basta clicar seguidamente e selecionar o efeito desejado.

Zap. Permite apagar linhas da concordância. Para apagar uma linha, porém, é

preciso antes selecionar a linha (ou linhas) que o usuário deseja apagar, pressionar a tecla

‘delete’ e depois clicar em Zap. Caso contrário, o programa emite uma mensagem dizendo

‘Nothing to Zap’.

Search. Traz uma tela de busca. No campo ‘search for’ o usuário deve digitar o

texto que procura. ‘Case sensitive’ deve ser escolhido se a busca necessite diferenciar

maiúsculas de minúsculas; ‘Whole Word’, caso a busca deva se restringir a palavras

inteiras; ‘Down’, se a busca dever ser feita para baixo somente, e não na lista toda. Para

inserir símbolos e caracteres especiais (acentuados, por exemplo), é possível clicar no

botão ‘Symbols’ e depois selecionar os caracteres desejados. Eles serão entrados

automaticamente no campo ‘search for’.

Show Collocates. Traz uma janela que exibe os colocados do nódulo (o termo de

busca). Os colocados são as palavras que ocorrem próximas ao nódulo. A figura a seguir

ilustra essa janela:

141

As colunas são as seguintes:

Word: indica os colocados.

Total: total de ocorrências do colocado.

Left: total de ocorrências do colocado à esquerda do nódulo.

Right: total de ocorrências do colocado à direita do nódulo.

L5, L4, L3, L2, L1: total de ocorrências do colocado na quinta / quarta / terceira / segunda

e primeira posições à esquerda do nódulo. O ‘L’ significa ‘left’.

*: total de ocorrências do nódulo.

R1, R2, R3, R4, R5: total de ocorrências do colocado na primeira / segunda / terceira /

quarta e quinta posições à direita do nódulo. O ‘R’ significa ‘right’.

As palavras que são selecionadas para compor essa janela são influenciadas pelas

freqüências mínimas e ajustes estipulados no menu Settings / Horizons, etc, na área

‘Collocates’. Vide 7.3.4.6 e 7.3.4.7, p. 98 ff.

Essa tela traz ainda os seguintes botões não explicados até aqui:

Match. Aciona a tela de ‘Match List’. Essa opção permite especificar uma lista de

comparação (Match List), para identificar ou apagar palavras selecionadas da listagem de

colocados ou de uma lista de palavras ou de palavras-chave. A figura abaixo ilustra essa

tela:

142

Em ‘Basis’, ‘Text File’, é possível especificar um arquivo-texto com palavras a serem

comparadas, clicando em ‘Browse’, que abrirá a tela de seleção de arquivos do Windows.

O usuário pode, por exemplo, querer identificar ou retirar as palavras funcionais (‘function

words’) da listagem. Para isso, precisará de uma lista com todas essas palavras salvas num

arquivo-texto. Depois, basta especificar o nome e a pasta do arquivo no campo.

Em ‘Template’, é possível digitar uma instrução para o programa buscar na lista. Pode ser

apenas uma palavra ou uma parte de uma palavra. Por exemplo, para encontrar todas as

palavras terminadas em ‘ndo’ (correndo, andando, falando, etc.) da listagem, basta digitar

*ndo no espaço. Se precisar digitar símbolos especiais ou acentuados, pode ser usado o

botão ‘Symbols’.

Em Action, é especificado o tipo de processamento que o programa efetuará ao encontrar

as palavras indicadas no arquivo-texto ou no ‘template’. O cursor deve estar na coluna

onde o usuário quer que as palavras sejam encontradas; caso contrário, o programa emitirá

uma mensagem de erro dizendo ‘No matches found in column ...’ . As opções são:

143

Find Matches & Mark Them: faz com que o programa marque com um til (~) cada palavra

que corresponder à lista ou ao ‘template’.

Remove Match Marking: elimina o til adicionado com ‘Find Matches & Mark Them’.

Delete Entries which Match: Torna cinza as palavras que corresponderam à lista ou ao

‘template’. Para realmente apagá-las, é preciso clicar em ‘Zap’.

Delete UNmatched entries: Apaga as palavras que não estiverem na lista ou não

corresponderem ao ‘template’. Ou seja, mantém somente as palavras que corresponderem.

None: Não efetua nenhum processamento.

Para exemplificar, suponha que o analista deseje identificar conjunções entre os colocados.

Para isso, ele deve fazer uma lista delas e salvar num arquivo-texto. Depois, deve

especificar a localização desse arquivo em ‘Text File’ (clicando em Browse e depois

abrindo a pasta correspondente onde se encontra o arquivo). A seguir, deve especificar

‘Find Matches & Mark Them’ e clicar em ‘OK’. As palavras correspondentes serão

marcadas com til. É preciso alertar o usuário que essa opção de comparação com arquivo

não está funcionando em algumas versões do programa. O programa emite uma mensagem

de erro que diz ‘No Matches in Column 1’ mesmo quando as palavras estão presentes.

Outro exemplo é um caso em que o analista deseja identificar todos os possíveis gerúndios

da lista. Para tanto, basta digitar *ndo em Template e selecionar ‘Delete Entries which

Match’. Clicando em OK, aparecerá uma mensagem dizendo quantas palavras foram

encontradas que terminem em ndo. A seguir, para efetivamente eliminá-las da lista, o

analista deve clicar em Zap. As palavras restantes todas terão a terminação ndo. A tela

abaixo ilustra o resultado dessa operação numa concordância:

144

Como se percebe, embora todas as palavras possuam ndo, apenas uma delas é de fato um

gerúndio (sendo). Para eliminar as demais, o usuário pode então selecionar as indesejadas,

pressionar a tecla ‘delete’ e depois clicar em Zap. O resultado será uma tela que possuirá

apenas a linha referente a ‘sendo’.

Lemma Match with Text File. Essa opção efetua lematização de uma lista. Lematização é

a redução das diversas formas derivadas de uma palavra à sua forma canônica ou

dicionarizada, chamada de lema12. A lematização aqui é feita por meio de um arquivo de

regras de lematização, que informa a maneira pela qual a lematização deverá ser efetuada.

As regras devem ser especificadas seguindo o modelo abaixo:

Lema -> derivado1,derivado2,derivado3, etc.

Assim, por exemplo, para especificar um lema do verbo ‘correr’, o usuário pode digitar:

12 Muitas vezes, a forma ‘lemmata’ é usada para indicar o plural de ‘lemma’, mas ‘lema’ e

‘lemas’ também são empregados.

145

Correr -> correr,corro,corres,corre,corremos,correis,correm,corri,corriste,corriu ...

... e assim por diante, adicionando quantas formas mais desejar.

Para especificar esse arquivo, o analista deve clicar em ‘Browse’ e localizar o arquivo, ou

digitar seu caminho e seu nome diretamente no campo apropriado. A seguir, o programa

lerá o arquivo e informará quantos lemas foram informados e quantas formas estão

associadas a cada lema (esse valor aparece entre parênteses).

Depois, ao clicar OK, o programa processará a lista e juntará todas as formas que foram

encontradas sob o lema indicado no arquivo. Por exemplo, no caso de ‘correr’ acima, as

várias formas existentes na lista que estejam especificadas ali serão transformadas em

‘correr’.

Essa opção não funciona em algumas versões do programa. O programa não responde aos

comandos digitados no arquivo de regras de lematização.

Edit. Esse botão permite redigitar uma palavra da listagem. Para tanto, basta clicar na

palavra e depois no botão Edit. A seguir, surgirá uma tela com a palavra selecionada. O

usuário deve então clicar nela e digitar as alterações que desejar. A seguir, deve clicar em

OK, e a forma alterada será então incorporada à listagem. O botão Restore, dessa janela,

serve para desfazer as mudanças já digitadas, mas isso só é possível antes de o usuário

pressionar OK, isto é, somente durante a fase de edição.

Recompute collocates. Recalcula os colocados, atualizando a tela a listagem dos colocados

produzida por Show Collocates. ‘Recompute Collocates’ deve ser usado quando (1) o

usuário fizer mudanças na concordância, como por exemplo quando apaga linhas da

concordância, e (2) a tela da listagem de colocados permanecer aberta depois das

mudanças. Nos demais casos, o comando é redundante em relação a Show Collocates. Se a

tela de colocados for fechada após as mudanças, basta clicar novamente em Show

Collocates que a tela de colocados aparecerá atualizada. Clicar em Recompute Collocates

quando não há tela de colocados aberta simplesmente abre essa tela, como Show

Collocates faria.

Plot. Produz um gráfico (‘dispersion plot’) com a posição das ocorrências do termo de

busca. As ocorrências de cada palavra são identificadas por um pequeno traço vertical. Se

146

houver mais de um arquivo onde a busca foi efetuada, haverá tantos conjuntos de traços

quantos necessários, um para cada arquivo. A quantidade de ocorrências representada por

cada traço não é fixa, dependendo do tamanho do espaço disponível para a plotagem, de se

a opção ‘Uniform Plot’ estiver ativa e do tamanho do texto.

Para salvar o gráfico, vide explicações na página 150.

É muito importante ressaltar que as interpretações a seguir assumem que cada arquivo

representa um texto (entendidas aí as transcrições de fala também). Isso nem sempre é o

caso, pois um mesmo arquivo pode compreender vários textos, que foram agrupados por

conveniência.

O nome do arquivo aparece na margem esquerda. A aparência do gráfico pode se alterada

com a opção ‘Uniform Plot’, no menu Settings do Concord. Se ativada, ela faz com que o

retângulo de plotagem (coluna com o nome de ‘Plot’, onde aparecem os traços) seja a

mesma para todos os textos pesquisados, independente do tamanho do arquivo. Caso

contrário, todos os arquivos serão representados por um retângulo de plotagem da mesma

extensão. A tela abaixo ilustra a aparência de um gráfico com a opção ‘Uniform plot’

ativada:

Já a tela a seguir apresenta o gráfico com ‘Uniform plot’ ativado. Quando essa opção é

alterada com um gráfico já visível na tela, a mudança não é vista automaticamente. O

147

usuário deve rolar o gráfico com o mouse (ou com a tecla ‘Page Down’ do teclado) para a

mudança ter efeito. A largura da área de plotagem pode ser alterada simplesmente

aumentando ou diminuindo a largura da janela (da maneira habitual do Windows,

arrastando a borda da janela com o mouse).

A tela do gráfico possui várias colunas, que são:

• File: Nome do arquivo pesquisado.

• Words: Número de palavras (‘tokens’) no arquivo. Representa o tamanho do arquivo.

• Hits: Número de ocorrências da palavra de busca. Representa a freqüência do termo de

busca.

• Per 1,000: Média de ocorrências por mil palavras. Indica a densidade de ocorrência do

termo de busca. Um valor alto (em relação aos demais arquivos, mas não em termos

absolutos, pois não há ponto de referência para isso) indica que o termo de busca é

comum no texto. Um valor baixo, por sua vez, sugere que o termo é pouco comum.

Esse valor por mil palavras não é redundante frente à contagem simples das

ocorrências (‘hits’). Isso porque uma mesma freqüência (digamos 100) num arquivo

grande (de, por exemplo, 100 mil palavras) resultará numa freqüência por mil palavras

baixa em comparação a essa mesma freqüência de 100 palavras num arquivo menor

148

(de 10 mil palavras, por exemplo). No texto maior, o valor por 1 mil palavras será de 1

( = 100.000 / 100 * 1000), enquanto no menor será de 10 ( = 10.000 / 100 * 1000).

• Plot: A área de plotagem. A informação presente aqui pode ser interpretada de vários

modos, dependendo do tipo de ordenação aplicado (com ‘re-sort’). Isso é discutido

abaixo.

A janela do gráfico traz consigo os seguintes botões:

Re-Sort. Re-ordena o gráfico a partir das informações das colunas do gráfico. A ordenação

inicial é por ‘hits per 1,000 words’. Ao clicar no botão ‘Re-Sort’, a ordenação do gráfico

muda automaticamente, na seguinte ordem13:

• Segundo clique: ordenação por primeira ocorrência (‘text order’). Os arquivos em que

o termo de busca ocorrem primeiro aparecem primeira na listagem, e vice-versa. A

margem esquerda do retângulo de plotagem representa o início de cada texto. A tela

abaixo mostra o gráfico apresentado acima ordenado por primeira ocorrência. Como se

percebe, os traços indicativos de ocorrências formam uma linha diagonal, entre os

textos, que se distancia do início do arquivo.

13 Vide a observação feita acima sobre o fato de as interpretações sugeridas assumirem que

cada arquivo corresponde a um texto e não a vários.

149

Essa opção é útil para indicar, por exemplo, como cada texto se segmenta topicalmente, ou

seja, como cada um distribui a informação relativa ao termo de busca em relação aos

demais.

• Terceiro clique: re-ordena pela distância entre a primeira e a última ocorrência

(‘range’). Os arquivos em que a distância é maior aparecem no início da listagem, e

vice-versa. Os arquivos com apenas uma ocorrência do termo são dispostos em ordem

alfabética. Essa opção pode dar uma indicação da extensão de cobertura do termo de

busca. Na medida em que as aparições posteriores do termo de busca são repetições da

primeira e, portanto, fazem referência anafórica a ela (e às demais), a distância entre a

primeira e a última aparição do termo de busca pode ser vista como uma representação

da cobertura que o termo de busca possui no texto.

• Quarto clique: Lista os arquivos em ordem alfabética (de A a Z).

Layout. Esse botão ativa uma janela onde se pode fazer alterações na disposição dos

elementos da tela do gráfico. Na área superior à esquerda, encontram-se os nomes das

diversas colunas que compõem o gráfico. Para mudá-las de ordem, basta selecionar uma de

cada vez e clicar nos botões de seta (pequenos triângulos acima de ‘move’). A seguir, basta

clicar em OK para efetuar as mudanças. Maiores explicações sobre os demais elementos

dessa tela podem ser encontrados na p. 139.

150

Zap. Elimina da tela as linhas do gráfico previamente ‘apagadas’ com a tecla ‘delete’ do

teclado.

Search. Abre uma janela para localizar palavras na tela.

O usuário notará que os botões de salvamento de tela, que fazem parte da tela do Concord,

são desativados quando o gráfico é produzido. Isso significa que a tela do gráfico não pode

ser salva, desaparecendo quando a concordância é fechada. O usuário deve salvar a

concordância e produzir um novo gráfico a cada vez que quiser vê-lo novamente. Porém, é

possível copiar o gráfico para um editor de texto como o MS Word, por exemplo. Para

tanto, é preciso clicar em File, depois em Copy; a seguir, selecionar ‘clipboard’, em ‘where

to’; em ‘what data’, o usuário deve escolher ‘all’ para copiar o gráfico inteiro, ou ‘selected’

para transferir apenas as linhas selecionadas com o mouse (o que é feito simplesmente

arrastando o mouse sobre a porção desejada do gráfico). Depois, já no MS Word, basta

clicar em Editar, e Colar Especial e, por fim, selecionar ‘Figura’ ou ‘Figura (meta-arquivo

avançado)’.

A informação textual do gráfico (as colunas com os nomes dos arquivos e demais

números) pode ser copiada escolhendo ‘Copy e, a seguir, em ‘where to’, ‘a text file’. O

resultado é um arquivo com as informações textuais e numéricas presentes no arquivo, mas

sem o retângulo de plotagem, que aparece indicado como ‘(plot)’. Também se aplicam

aqui os comentários feitos acima para seleção de partes do gráfico para salvamento.

Também é possível imprmir o gráfico, clicando no botão ‘Print Preview’ ou no menu

‘File’ e depois em ‘Print’.

A tela do gráfico pode ser minimizada (da maneira habitual do Windows, isto é, clicando

em Window, Minimize, ou diretamente no botão correspondente na parte superior direita

da tela). Nesse caso, a tela desaparece e pode ser recuperada por meio do menu Window: a

tela do gráfico estará indicada por ‘dispersion plot’.

Clusters. Produz uma listagem dos agrupamentos lexicais da concordância. Vide p. 106

para uma explicação sobre ‘clusters’.

Patterns. Faz um tela que representa os colocados em ordem de freqüência em cada

posição relativa ao nódulo. Para uma explicação sobre colocados e nódulo, vide p. 140. A

151

tela de ‘patterns’ reorganiza a informação da tela de colocados, de tal modo que em cada

coluna (L5, L4, L3, etc até R5), a palavra que aparece na posição superior é aquela que

possui maior freqüência entre os colocados daquela posição. A palavra em segundo lugar é

a segunda mais freqüente, e assim por diante. A primeira linha da tela, portanto, traz os

colocados mais freqüentes em todas as posições ao redor do nódulo. A figura a seguir

ilustra essa tela:

A primeira linha informa que as palavras mais freqüentes ao redor do nódulo, da posição

L5 até R5, respectivamente, são ‘que, que, é, de, assim, né, né, est, e, e’. Para comprovar a

ordenação, podemos ir à tela de colocados e ordená-la pela posição ‘L5’. A palavra ‘que’

deve ser a mais freqüente nessa posição. A figura abaixo, que mostra a tela de colocados,

permite-nos conferir a freqüência dos colocados com sua ordenação na tela de ‘patterns’.

152

Como se percebe, a tela de ‘patterns’ de fato capturou a ordenação freqüencial dos

colocados. A palavra ‘que’ é mesmo a palavra mais freqüente em L5, com 662

ocorrências, seguida de ‘é, a, e, né, não, de, o’; essa é a mesma ordenação que se encontra

visível na tela de ‘patterns’, na coluna L5. A tela de ‘patterns’, dessa forma, traz um

resumo da tela de colocados, omitindo as freqüências. Ela permite visualizar, de modo

mais rápido, quais são os colocados em cada posição. Por sua vez, esse procedimento

permite uma visão mais rápida dos padrões (colocações, coligações, prosódia semântica)

mais freqüentes formados pelo nódulo. Se o usuário quiser saber a freqüência dos

colocados, deve então utilizar a tela de colocados (clicando em ‘Show Collocates’).

É preciso que o analista esteja bem atento para como a tela de ‘patterns’ é montada para

não fazer inferências errôneas a respeito dos dados. Um tipo de interpretação equivocada

seria considerar que cada linha da tela de ‘patterns’ representa uma seqüência real dos

colocados. Ou seja, no exemplo da figura acima, achar que ‘que’ e ‘que’ ocorrem de fato

juntos nas posições L5 e L4. Na verdade, os dois itens aparecem lado a lado em ‘patterns’

porque são as palavras mais freqüentes nessas posições (conforme já dito acima), mas não

há garantia nenhuma de que realmente ocorram lado a lado nos textos. O mesmo se aplica

a todas as outras posições da tela, obviamente.

A tela de Patterns não é exibida caso os colocados não tiverem sido computados com o

153

comando Show Collocates. Nesses casos, surge uma mensagem de erro informando que

‘no collocates found, so can’t compute patterns’. Para resolver o problema, basta clicar em

OK para apagar a mensagem de erro, calcular os colocados, clicando em Show Collocates,

e depois clicar em Patterns.

View. Esse botão aciona o Viewer, que abre automaticamente o texto em que se encontra o

cursor. O Viewer leva em conta os ajustes de ‘Tags’ (vide p. 112) na exibição dos textos.

Notes. Esse botão abre uma pequena janela que permite a entrada de notas, tais como

lembretes a respeito dos dados, curiosidades, maneira pela qual a concordância está

ordenada, etc. As anotações são salvas juntamente com a concordância e se referem à

concordância inteira, não a cada linha. Para fechar a janela, basta clicar em OK (salvando

as anotações) ou ‘Cancel’ (para fechar sem salvar). Para vê-las novamente, em outra

sessão do programa, é preciso clicar no botão ‘Notes’ de novo, a partir de qualquer linha

da concordância.

154

8. A ferramenta WordList

8.1. Visão Geral

O programa WordList produz listas de freqüência de palavras.

O WordList é acionado clicando em ‘Tools / WordList’ no Controller.

A tela abaixo mostra uma tela com lista de palavras produzida pelo WordList.

As palavras aparecem na coluna ‘Word’, seguidas da sua freqüência, na coluna ‘Freq.’ e da

porcentagem que essa freqüência representa frente ao total de palavras existentes no(s)

arquivo(s) selecionados(s) (isto é, no corpus), na coluna ‘%’; a coluna ‘Lemmas’,

reservada para os lemas (formas canônicas de palavras, como por exemplo, ‘casa’, que

encampa ‘casa’, ‘casinha’, ‘casas’, ‘casinhas, ‘casarão’, etc.) permanece vazia porque não

foi acionada essa função. Os elementos que compõe as listas de palavras do WordSmith

Tools serão explicados a seguir, juntamente com os menus, botões e opções disponíveis no

programa para efetuar ajustes nas listas. Antes, porém, será apresentado um pequeno

roteiro com os comandos principais para a produção de listas.

155

8.2. Tipos de lista de palavra

As listas de palavra do WordSmith Tools (com exceção daquela feita no arquivo de índice,

‘index file’) podem ser de dois tipos:

(1) Com palavras individuais.

(2) Com agrupamentos de palavras (clusters).

Para selecionar o tipo de lista, é preciso usar o menu Settings / Min. & Max Frequencies /

Clusters size (vide p. 192).

Para exemplificar, tomemos como texto o seguinte:

A casa do João é amarela. A casa do Pedro é branca. A casa do José é branca também.

Listas com palavras individuais são o default do programa. Elas são formadas por palavras

dispostas uma em cada linha. A lista de freqüência do texto acima aparece na figura

abaixo:

Como se percebe, cada palavra do texto aparece separadamente.

156

Já as listas com agrupamentos de palavras são formadas por seqüências de palavras

conforme apareceram no texto. Se essa opção estiver ativada para clusters de tamanho 2, a

lista terá a seguinte aparência:

Cada linha da lista é composta por uma seqüência de duas palavras. Note que há apenas

três seqüências idênticas de duas palavras no texto, contra dez palavras isoladas. Isso

acontece porque nem todas as palavras participam de clusters de duas palavras.

A freqüência mínima de cluster é 2, mas com um artifício é possível fazer o WordSmith

Tools listar os clusters do texto, mesmo os que somente ocorram uma vez. Para fazer isso,

basta copiar o mesmo texto para outra pasta e escolhê-lo novamente, ou copiá-lo com

outro nome para a mesma pasta. Depois, deve ser selecionado os dois arquivos e feito o

processamento, do modo normal. O WordSmith Tools tratará os dois arquivos como sendo

diferentes, embora o conteúdo deles seja idêntico. Ao ver as freqüências na lista de

palavras, o analista deve interpretá-las de tal modo que uma freqüência igual a 2 significa,

na verdade, um cluster que ocorreu apenas uma vez. Uma freqüência igual a 4 indica, na

realidade, uma freqüência igual a 2, e assim por diante. Não haverá números ímpares na

freqüências. Para fazer essa adaptação das freqüências automaticamente, é possível usar o

recurso ‘Compute’ (botão ), que é explicado na p. 203. A fórmula necessária para esse

caso é Rel(2)/2 , que significa ‘divida cada linha da coluna 2 por 2’. Essa fórmula assume

que as freqüências aparecem na coluna 2, que é o default. Se o layout da lista foi alterado,

é preciso mudar a posição na fórmula.

157

Os exemplos e referências a seguir, a menos que especifiquem ao contrário, fazem menção

a listas de palavras isoladas.

8.3. Procedimento básico para feitura de lista de palavras no WordList

Há três procedimentos básicos disponíveis no Word List: (1) criar uma lista apenas, para

um ou mais arquivos selecionados, (2) criar várias listas, uma para cada arquivo (‘batch’,

ou lote) e (3) criar um arquivo de índice (index file). Cada opção possui uma finalidade:

(1) Lista simples: É o procedimento básico, para quando o analista precisa criar uma

lista apenas. Pode conter palavras individuais ou agrupamentos (clusters).

(2) Lista produzidas em ‘batch’: Possuem o mesmo formato da lista única, mas são

produzidas em conjunto, uma para cada arquivo. A finalidade é tornar mais rápida

a produção das listas. A alternativa é o usuário produzir uma lista de cada vez,

usando a opção (1). Pode conter palavras individuais ou agrupamentos (clusters).

(3) Arquivo de índice. É um tipo especial de arquivo, diferente das listas tradicionais

(itens 1 e 2 acima), que engloba, além das freqüências de cada palavra, uma

estatística de associação (Mutual Information) para pares de palavras (selecionados

segundo critérios de freqüência), uma linha de concordância e a possibilidade de

fazer concordâncias completas de modo mais rápido. A estatística de Mutual

Information indica quais pares de palavras possuem uma co-ocorrência marcante.

Por isso, pode ser usado juntamente com a análise de concordâncias para

determinar se há associação estatística entre o nódulo e os colocados. Pode ser

somente de palavras isoladas, não aceitando agrupamentos (clusters).

Esse tipo de arquivo exige bastante recursos do computador, por isso a sua

produção é bem mais lenta que a da lista simples. O analista deve levar em conta

esse fato antes de optar por esse tipo de arquivo. As vantagens principais do

arquivo de índice são:

• Permite calcular a estatística Mutual Information para uma lista inteira de

palavras.

• Permite produzir concordâncias mais rapidamente.

158

As desvantagens são:

• Leva muito tempo para produzir. Como exemplo, tomemos um corpus de cerca

de 5 mil palavras. O índice levou 3 minutos e 50 segundos para produzir (com

os ajustes restritivos, feitos para poupar recursos e otimizar a produção,

detalhados na p. 164). Uma lista comum levou 1 ou 2 segundos.

• Os arquivos resultantes tomam muito mais espaço. Por exemplo, um corpus que

resulta num arquivo .lst de 19,5 KB exige 98,5 KB para armazenar os arquivos

.wdx, .xal, .xfo do arquivo de índice.

• Exige muito do hardware. O programa pode travar, em conseqüência disso.

• Não produz lista de estatística, que permite saber o tamanho do corpus. É

preciso produzir outra lista simples para obter essa informação.

Assim, em termos práticos, o analista deve optar por um arquivo de índice, se:

• Desejar calcular a estatística Mutual Information.

• Precisar fazer muitas concordâncias para o mesmo corpus.

• Necessitar fazer concordâncias apenas, o corpus não deve ser muito grande (o

que pode demorar muito tempo para produzir o arquivo) nem muito pequeno

(pois as concordâncias feitas sem o arquivo índice seriam rápidas de fazer,

também). A definição do que seria um corpus grande ou pequeno depende do

computador do usuário. Ele deve experimentar com seus textos e julgar por si

mesmo se o tempo extra gasto compensa a facilidade das concordâncias mais

rápidas. O analista deve lembrar que a intenção do arquivo de índice para

concordâncias é tornar o trabalho mais eficiente.

A produção de cada um desses tipos é descrita abaixo.

8.3.1. Como criar uma lista de palavras apenas (de um arquivo ou de

vários)

(1) No Controller, clique em Tools e depois em WordList.

(2) Na janela do WordList, clique em File e depois em Start ou no botão .

159

(3) Na janela ‘Getting Started’, clique em ‘Choose Texts Now’ se estiver fazendo a

primeira lista desde que iniciou o programa. Se já tiver escolhido os textos e quiser

mantê-los, clique em ‘Make a WordList Now’.

(4) Se quiser mudar de textos, clique em ‘Change Selection’. Na janela ‘Choose

Texts’, clique em ‘Clear Previous’. Selecione os arquivos que quiser, clicando nas

pastas (porção esquerda da janela) e, depois, nos arquivos (porção direita da

janela).

(5) Clique em OK.

(6) Reaparecerá a janela ‘Getting Started’. Nela, clique em ‘Make a WordList Now’.

(7) O processamento será iniciado. Para interrompê-lo, clique em Suspend, na janela

de andamento. Depois, clique em ‘Stop Now’.

(8) As listas serão mostradas na tela:

São três janelas: a janela chamada de ‘new wordlist (F)’ mostra a lista classificada

por ordem de freqüência das palavras, de modo descendente (as palavras mais

freqüentes aparecem em cima); ‘new wordlist (A) mostra a mesma lista ordenada

160

por ordem alfabética (de A a Z, segundo a escolha do idioma e do conjunto de

caracteres, em ‘Settings’); e ‘new wordlist (S)’ traz as ‘estatísticas’, que

compreendem a quantidade de ocorrências (tokens), unidades (types), variação

lexical (type-token ratio), etc. As listas não são salvas automaticamente; se o

usuário não as salvar, elas serão perdidas quando o programa for terminado. Para

salvá-las, é preciso usar o comando ‘Save’, no menu ‘File’, ou o botão na barra

de ferramentas. O formato do arquivo da lista é próprio do WordSmith Tools e

recebe a extensão padrão ‘.lst’. Esse formato não é legível por outros programas

(como o Word, por exemplo).

8.3.2. Como criar várias listas de palavras (‘batch’)





mantê-los, clique em ‘Make a Batch Now’.




janela).

(5) Clique em OK.

(6) Reaparecerá a janela ‘Getting Started’. Nela, clique em ‘Make a Batch Now’.

(7) Surgirá uma janela onde você deve especificar o local onde serão gravadas as listas

de palavras. Digite a pasta no espaço ‘Directory’. Na parte designada ‘Filenames’,

há duas escolhas a fazer. A primeira, que diz ‘based on original filename’, serve

para que cada lista de palavra possua o nome do arquivo correspondente, seguida

da extensão .lst. A segunda, que diz ‘use mask’, é indicada para que cada lista seja

nomeada de modo parecido, de acordo com um ‘nome padrão’. O nome padrão é

composto de algumas letras que formarão o início do nome de cada arquivo; o

nome do arquivo, por sua vez, será composto pelo ‘nome padrão’ seguido de vários

161

números. O nome padrão deve ser digitado na caixinha logo abaixo ‘use mask’. A

figura abaixo ilustra essa tela:

De acordo com a janela acima, o diretório foi definido como ‘c:\temp’, o que fará

com que as listas sejam gravadas nessa pasta. O nome padrão foi definido como

‘wl’; sendo assim, os nomes dos arquivos das listas serão ‘wl000001.lst’ e

‘wl000002.lst’, etc. (serão tantos arquivos .lst quantos forem os arquivos-texto

selecionados). Note que a numeração nem sempre começa por 1; ela é reiniciada a

partir do último arquivo numerado. Assim, se já houver um arquivo chamado

wl000001.lst na pasta, o primeiro arquivo do lote corrente será chamado

wl000002.lst. É possível alterar o nome das listas depois de criadas, usando o

comando de renomear arquivo no Windows Explorer.

O processamento será iniciado. Para interrompê-lo, clique em Suspend, na janela

de andamento. Depois, clique em ‘Stop Now’.

(8) Aparecerá uma janela informando o resultado do processamento:

162

Ao terminar, o usuário deve clicar em OK.

Se for refeito um novo ‘batch’ onde já existam arquivos nomeados com o mesmo

nome padrão, a numeração dos arquivos retomará o ponto onde o processamento

parou. Ou seja, o programa não sobrescreve arquivos. Por exemplo, se tiverem sido

criadas duas listas, ‘wl000001.lst’ e ‘wl000002.lst’ na primeira tentativa, as

próximas listas a serem geradas serão ‘wl000003.lst’ e ‘wl000004.lst’, conforme

mostra a tela a seguir. É possível alterar o nome das listas depois de criadas, usando

o comando de renomear arquivo no Windows Explorer.

163

(9) As listas não serão exibidas diretamente na tela. Para vê-las, o usuário deve abri-las

usando as opções do comando ‘File’: ‘Frequency + Alphabetical’ abre as listas de

freqüência e em ordem alfabética ao mesmo tempo, ‘Frequency List’ aciona a de

freqüência apenas, ‘Alphabetical List’ ativa a em ordem alfabética apenas, e

‘Statistics’ abre a de estatística. Para abrir a lista de estatística depois de ter aberto

a lista alfabética ou freqüencial (ou ambas), o usuário pode usar o menu ‘File /

Statistics’, ou clicar no botão , na barra de ferramentas. Note que não é possível

abrir as listas clicando-se diretamente no nome do arquivo correspondente (por

exemplo textos.lst) no Windows Explorer; o WordSmith Tools não aceita

associação de arquivos.

O formato em que os arquivos da lista foram salvos é próprio do WordSmith Tools

e recebe a extensão padrão ‘.lst’. Esse formato não é legível por outros programas

(como o Word, por exemplo).

8.3.3. Como produzir um arquivo de índice (‘index file’)

Uma lista de índice (‘index file’) é um arquivo que mostra uma estatística de associação

‘Mutual Information’ (vide p. 190) para pares de palavras. Ele também permite a criação

de concordâncias de modo bem mais rápido do que o habitual (sem o arquivo de índice).

164

Os passos necessários são os seguintes:





mantê-los, siga para o passo 6.




janela).

(5) Clique em OK.

(6) Na janela do WordList propriamente dita (não em ‘Getting Started’), faça os

ajustes necessários no menu Settings / Index Settings. Os seguintes ajustes são

recomendados:

• File name = digite a pasta, crie um nome de arquivo (com até oito letras) e use

terminação .wdx (p.ex. c:\wsmith\wordlist\temp.wdx)

• High-frequency cut-off: 100. Este número serve para facilitar o processamento,

visando à economia de memória do computador. Caso o texto ou corpus exija mais

memória do que o computador possui, o programa fará um corte nos dados, eliminando

as palavras que possuam freqüência inferior ao valor indicado aqui. Assim, nesse caso,

seriam mantidas para o cálculo de Mutual Information apenas as palavras que

possuíssem freqüência 100 ou mais.

• Activated = Marcado. Isso fará com que a função ‘index’ esteja pronta para ser

executada com o comando Index / New Index.

• File Order Too = Marcado. É necessário para calcular Mutual Information; se desejar

apenas as concordâncias, desmarque essa opção. Para efeito dos exemplos e referências

posteriores a esses ajustes, a opção será considerada ‘marcada’. Se essa opção não tiver

sido marcada e o usuário clicar em ‘Mutual Information’ quando a lista estiver aberta,

165

aparecerá uma mensagem de erro dizendo ‘Couldn’t find (nome do arquivo).xfo’.

• Procedure: Mutual Information.

• log-base 2 = Marcado.

• Ignore sentence, para. & heading breaks = Desmarcado, o que faz com que o programa

não ignore (isto é, leve em conta) as divisões de sentença, parágrafos e intertítulos

indicadas no menu Settings / Text Characteristics do WordList (vide p. 121 ff). Desse

modo, palavras que estejam separadas por sentenças, parágrafos e intertítulos não serão

computadas.

• Maximum percent: 10.0. Esse valor indica a porcentagem de freqüência máxima que

uma palavra deva possuir para ser levada em conta. A idéia é a de que palavras com

freqüência muito alta (p.ex. ‘de’, ‘o’, ‘para’, etc.) não são interessantes do ponto de

vista de Mutual Information, pois atraem muitas palavras para seu ambiente

colocacional. A melhor estratégia aqui, na maioria dos casos, é inscrever um valor alto,

de tal modo que nenhuma palavra seja deixada de lado. Um valor com 10%, sugerido

aqui, fará com que palavras estruturais como ‘de’ e ‘para’ tenham seu Mutual

Information calculado. Porém, por outro lado, não se corre o risco de deixar de fora

palavras potencialmente interessantes que tenham freqüência alta.

• Min. mutual info: 3. Esse é o valor mínimo de Mutual Information. Palavras com

valores inferiores não serão exibidas na tela de resultados.

• Min. frequency: 3. Freqüência mínima para que uma palavra tenha sua estatística

calculada. É a contrapartida do valor ‘Maximum percent’.

• Horizons: 5 L, 5 R. São os horizontes máximos de onde serão retiradas as palavras para

o cálculo de Mutual Information. Palavras que estejam mais distantes do que esses

parâmetros não serão levadas em conta.

A seguir, clique OK.

Para exemplificar, tomemos um corpus com um total de ocorrências igual a 5 mil palavras.

As palavras que terão seu Mutual Information exibido serão aquelas cuja freqüência for:

166

-menor ou igual a 50 (Max. percent), já que 1% de 5000 é 50. -maior ou igual a 3 (min. frequency).

Dentre as restantes, o programa exibirá ainda somente aquelas cujo Mutual Information for

maior ou igual a 3. Lembrando que o programa já escolheu, inicialmente, somente as

palavras com freqüência menor do que 100.

(7) Clique no menu Index, New Index. O programa começará a processar o corpus.

Para interrompê-lo, clique em Suspend, na janela de andamento. Depois, clique em

‘Stop Now’.

(8) Quando aparecer uma janela informando que o arquivo .wdx foi salvo, clique em

OK para fechá-la. Pode ainda aparecer uma janela de erro, dizendo algo como o

ilustrado na figura abaixo. Nesse caso, basta clicar em OK e continuar. Esse

problema não afetou a produção da lista.

(9) A lista não é exibida automaticamente. Para abri-la, clique em Index / Alphabetical

List, para abrir uma lista por ordem alfabética ou File Order, para abrir uma lista

ordenada por aparição no arquivo. Caso o programa trave, é preciso terminar o

WordList e reiniciá-lo. No Controller, clique em Tools / WordList. Se a opção

WordList já estiver marcada, e o WordList não se iniciar, será preciso fechar o

Controller, reiniciá-lo e somente então acionar Tools / WordList.

(10) Se o analista desejar fazer concordâncias, sem calcular a estatística de

associação ‘Mutual Information’, pode clicar na palavra escolhida e depois no

botão .

(11) Se quiser calcular a estatística de Mutual Information, será preciso clicar no

botão na barra de ferramentas da lista. Em seguida, o programa fará o cálculo

167

dessa estatística segundo os ajustes efetuados no passo 6. O andamento do cálculo

é mostrado palavra a palavra na janela de andamento. Se quiser interromper o

processamento, basta clicar em Suspend e depois em ‘quit now’. A figura a seguir

ilustra o resultado de uma tela do arquivo de índice.

Este resultado foi obtido a partir dos ajustes sugeridos no passo 6. As palavras do

corpus estão na coluna Word, seguidas de suas respectivas freqüências na coluna

Freq. A coluna ‘a concordance line’ mostra uma linha de concordância, como

exemplo. Para ver mais linhas, é preciso clicar no botão , que acionará o

programa Concord e mostrará a concordância dessa palavra. A coluna ‘Related 1’

mostra a palavra que possui o maior escore de Mutual Information, seguida de seu

escore propriamente dito, na coluna ‘Mutual 1’. As demais colunas trazem a

mesma seqüência de informação: palavra, seu valor de Mutual Information, em um

total de até 10 palavras.

A lista deve ser salva, caso contrário o cálculo de Mutual Information será perdido.

A lista é salva automaticamente, com o nome e a pasta já designadas (no passo 6).

Se o usuário tentar criar uma nova lista com o mesmo nome enquanto a lista estiver

aberta, o programa emitirá uma mensagem de erro dizendo que não pode salvar o

arquivo. Nesse caso, será necessário alterar o nome ou a pasta do arquivo (vide

passo 6) e somente então reiniciar o processamento. Para abrir uma lista já salva,

clique no menu Index / Alphabetical list.



168

‘Start’. Ela reúne vários botões que fazem atalhos aos comandos principais do programa e

que dirigem a criação da lista de palavras. Abaixo aparece uma figura que a ilustra.

A seguir, são explicados os comandos disponíveis nessa janela.

Choose Texts Now. Permite ir à janela de seleção de arquivos, mostrada abaixo:

169

Esse botão aparece somente quando ainda não foi feita seleção de arquivos. Quando

arquivos já tiverem sido selecionados, esse botão muda de nome para ‘Change Selection’.

As partes dessa janela são descritos a seguir.

Janela de seleção de pastas: Espaço onde aparecem os nomes das pastas.

Janela para seleção de disco: Janela onde o usuário seleciona o drive em que estão os

arquivos que quer escolher.

Janela de listagem de arquivos: Mostra os arquivos disponíveis na pasta. Seu conteúdo é

condicionado ao que for especificado na janela para seleção de nome de arquivos, descrita

a seguir. Para escolher um arquivo apenas, clique nele. Para escolher mais de um arquivo,

segure a tecla Control e depois clique nos arquivos que desejar. Para selecionar uma

seqüência de arquivos, clique no primeiro arquivo da seqüência, segure a tecla Shift e

clique no último arquivo da seqüência.

170

Linhas de informação de arquivos selecionados: Indicam a quantidade de arquivos que já

foram selecionados, o número de bytes que corresponde à escolha e o número de pastas

onde residem os arquivos selecionados.

Janela para seleção de nome de arquivos: Digite o tipo de nome de arquivo que deseja

selecionar. Por exemplo, para escolher os arquivos terminados em .txt, digite *.txt . Para

escolher os arquivos iniciados em ‘jornal’ (p.ex. jornal01.txt, jornal02.asc, etc) digite

jornal*.*.

Favourites: Save: Botão para salvar uma seleção de arquivos. Caso deseje salvar uma

seleção de arquivos que acabou de efetuar, clique nesse botão. A sua seleção será salva

num arquivo-texto que poderá ser recuperada depois, economizando tempo. Ao clicar em

Save, aparecerá uma janela padrão do Windows pedindo um nome de arquivo. Selecione

uma pasta e digite um nome de arquivo. Prefira a terminação .txt.

Favourites: Get: Botão para recuperar uma seleção de arquivos, conforme descrita acima,

em Save. Clicando nesse botão aparecerá uma janela de seleção de arquivos. O usuário

deve escolher o arquivo desejado e depois clicar em OK. Caso já tenha sido feita uma

seleção de arquivos, antes desse janela de seleção aparecerá uma mensagem perguntando

‘Clear Previous Selection?’ (Apagar seleção anterior?). Clicando em OK, o usuário é

levado então à janela de seleção de arquivo.

Sort: Indica as opções de ordenamento dos nomes de arquivos para a seleção. N ordena os

arquivo alfabeticamente, T por tipo de arquivo, S por tamanho de arquivo, e D por data.

Clicando duas vezes seguidas em qualquer das opções, o ordenamento se fará de modo

inverso. Por exemplo, no caso de N, será pelo nome de arquivo começando por Z e indo

até A.

All: Botão que seleciona todos os arquivos mostrados na janela de listagem de arquivos.

Include sub-directories: Opção para escolher todos os arquivos das sub-pastas (caso

existam). Por exemplo, se a pasta selecionada for c:\corpus e ela contiver sub-pastas

chamadas de c:\corpus\coleta1 e c:\corpus\coleta2, para selecioná-las automaticamente

sem abri-las basta clicar em c:\corpus, escolher ‘include sub-directories’ e depois clicar

em ‘All’ ou OK.

171

View: Botão que abre o Viewer, um aplicativo para visualização de arquivos. É aberta uma

janela para cada arquivo selecionado. Por isso, caso tenha sido escolhido um número

grande de arquivos, o programa tentará abrir tantas janelas quantas forem necessárias para

exibir todos os arquivos. Muitas vezes o excesso de janelas faz com que o programa deixe

de funcionar, sendo necessário o encerramento forçado do programa (com as teclas

Control – Alt – Del).

Clear Previous: Botão para cancelar uma escolha de arquivo já existente. É importante

acioná-lo sempre que for necessário mudar uma seleção, pois o programa retém a

informação dos arquivos durante uma mesma seção, ou seja, até ser desligado. Por isso,

caso arquivos sejam selecionados sem ter sido clicado esse botão, os arquivos recém-

selecionados irão se somar aos já escolhidos antes.

OK: Botão que finaliza a escolha dos arquivos e fecha a janela.

Cancel: Fecha a janela sem ativar as escolhas de arquivo que estavam sendo feitas. Clicar

nesse botão, contudo, não cancela uma escolha de arquivos previamente realizada.

Change Selection. Remete também à janela de seleção de arquivos. É muito importante

lembrar de clicar em Clear Previous para cancelar uma escolha anterior de arquivos, caso

contrário a seleção atual irá se somar à anterior.

Make a word list Now. É o segundo botão da janela Getting Started. Faz uma lista de

palavras dos arquivos selecionados. Vide p. 158 para mais detalhes.

Make a batch now. É o terceiro botão da janela Getting Started. Faz várias listas de

palavra, uma para cada arquivo selecionado. Vide p. 163 para maiores detalhes.

8.5. Janelas do WordList

Essas janelas surgem quando (a) é dado o comando de ‘Make a word list now’, (b) quando

é aberta uma lista de palavras, ou (c) quando é aberto um arquivo de índice. Para a lista

comum (isto é, exceto a de arquivo de índice), o programa produz rotineiramente três telas

para cada lista:

(1) uma ordenada por freqüência, indicada por (F) após o nome do arquivo, ou ‘new

wordlist (F), caso a lista ainda não tenha sido salva;

172

(2) Outra ordenada por ordem alfabética, sinalizada por (A) após o nome do arquivo,

ou ‘new wordlist (A) caso ainda não tenha sido salva;

(3) Uma terceira contendo informações estatísticas (tamanho dos textos, variação

lexical, etc.) indicada por (S) logo após o nome do arquivo, ou ‘new wordlist (S)

caso ainda não tenha sido salva.

Para a o arquivo de índice, o programa produz duas janelas:

(1) Uma ordenada por ordem alfabética, seguida de uma linha de concordância e de

colunas reservadas para o cálculo da estatística Mutual Information.

(2) Uma outra ordenada pela ordem em que as palavras apareceram nos textos (File

Order), seguida de um gráfico (plot) que ilustra a posição das palavras.

Essas janelas são explicadas na p. 179.

8.5.1. As listas de freqüência (F) e alfabética (A)

A figura abaixo ilustra uma tela de uma lista de palavras ordenada por ordem de

freqüência. O layout dessa lista é igual ao da lista ordenada por ordem alfabética. A lista

de estatística possui ordenação diferente, explicada mais a seguir.

173

Word. Essa coluna mostra as palavras (‘types’, isto é, cada item, forma ou vocábulo) que

aparecem no(s) arquivo(s).

Freq. Mostra a freqüência da palavra.

%. Mostra a freqüência em termos de porcentagem do total de palavras (‘tokens’, isto é, o

total de ocorrências das palavras, com todas as repetições).

Lemma. Coluna dedicada aos lemas, que são definidas como formas ‘canônicas’ das

palavras (p.ex. ‘correr’ é o lema de ‘corro, corres, corre, corremos, etc.). Essa coluna

aparece sempre vazia quando a lista é acabada de ser criada, pois o WordSmith Tools não

faz lematização automática, durante o processamento. A lematização é sempre feita uma

vez preparada a lista de palavras. Para o WordSmith Tools, lemas não precisam ser formas

canônicas; são apenas palavras que incorporam freqüências de mais de uma palavra. Por

exemplo, o usuário pode achar necessário agrupar as formas ‘casa’ e ‘casas’ juntas; desse

modo, pode escolher uma ou outra para ser o lema do grupo. Ao ativar os comandos

necessários, a lista exibirá a freqüência conjunta das duas formas ao lado daquela que for

escolhida como lema (pode ser ‘casa’ ou ‘casas’, conforme o analista preferir).

8.5.2. A lista de estatística (S)

Abaixo aparece uma janela que ilustra uma lista de estatística. Vale lembrar que essa lista

é exibida automaticamente quando uma lista é criada (não no modo ‘batch’), mas não é

mostrada quando um arquivo de lista de freqüência ou alfabética é aberto. Para abri-la, é

preciso usar o menu ‘File / Statistics’, ou clicar no botão .

174

Text File. Mostra o nome de cada arquivo processado (caso haja mais do que um). Quando

há mais do que um arquivo processado, a palavra ‘Overall’ é usada para indicar o total dos

arquivos.

Bytes. Tamanho do arquivo, em bytes (divida por 1000 para saber o tamanho em

Kilobytes, uma medida mais comum). Não deve ser usado para reportar o tamanho do

corpus ou do texto analisado, pois não possui valor lingüístico.

Tokens. Indica o total de ocorrências de palavras do texto. Também chamado de ‘running

words’, significa o total de palavras, levando em conta as repetições, desde a primeira até a

última de todos os arquivos selecionados. Por exemplo, o trecho abaixo possui 16 ‘tokens’:

O gato viu o cão, o galo viu a galinha, e o coelho viu a lebre. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

175

Types. Mostra o total de itens, formas ou vocábulos do(s) arquivo(s), sem levar em conta

as repetições. O mesmo trecho acima possui 10 ‘tokens’:

O gato viu o cão, o galo viu a galinha, e o coelho viu a lebre. 1 2 3 4 5 6 7 8 9 10

Type-Token Ratio. É o resultado da divisão do total de ‘types’ pelo total de ‘tokens’,

multiplicado por 100. A multiplicação por 100 serve para transformar o valor em

porcentagem. Esse valor significa a extensão da variação lexical do texto. Um número

maior indica uma variação maior, isto é, há menos repetições de palavras (do mesmo

‘type’); um número menor aponta para uma variação menor, pois há mais repetições do

mesmo ‘type’. Em suma, quanto maior o seu valor, mais palavras diferentes o texto

conterá. Em contraposição, um valor baixo indicará um número alto de repetições, o que

pode indicar um texto menos ‘rico’ ou variado do ponto de vista de seu vocabulário. Por

isso, ela é interpretada como uma medida da riqueza lexical do texto.

Por exemplo, na frase acima sobre o gato, o cão, etc., a razão type-token é:

10 / 16 * 100 = 62,5

Isso indica que, nesse texto, 62,5% das palavras (‘tokens’) não são repetidas. O restante

(37,5%) o são. Em números, isso significa:

16 * 37,5 / 100 = 6

Ou seja, seis ‘tokens’ são repetidos:

o, o, viu, o, viu, a

Standardized Type-Token Ratio. Mostra uma razão type-token média, calculada em blocos

do texto. O tamanho de cada bloco é definido pelo usuário (no menu ‘Settings / Min-Max

Frequencies / Type-Token Basis’), mas o valor padrão (‘default’) é 500 palavras. Quando

esse valor estiver ausente da lista de estatística significa que o tamanho do bloco é maior

do que o tamanho do texto(s) selecionado(s), já que os blocos que não atingem o tamanho

estipulado são ignorados.

Para exemplificar, suponhamos que o tamanho desse bloco seja 5. Tomando o exemplo

anterior, do texto sobre o galo, a galinha e os outros animais, o cálculo seria feito assim:

176

Bloco 1: O gato viu o cão, 1 2 3 4 5 (Tokens) 1 2 3 4 (Types) Bloco 2: o galo viu a galinha, 1 2 3 4 5 (Tokens) 1 2 3 4 5 (Types) Bloco 3: e o coelho viu a 1 2 3 4 5 (Tokens) 1 2 3 4 5 (Types) Ignorado, ou seja, não forma bloco: lebre.

Bloco Types Tokens Type-Token Ratio 1 4 5 80,0 2 5 5 100,0 3 5 5 100,0 Total 280,0 Média 280,0 / 3 = 93,3

O valor de 93,3 é consideravelmente mais alto do que os 62,5 da razão tradicional. Isso

sempre acontece com o type-token ratio padronizado, pois trechos maiores apresentam

mais repetição do que trechos menores.

A forma padronizada é empregada para neutralizar a influência do tamanho do texto na

computação da razão type-token, já que textos maiores por natureza apresentam mais

repetições e por isso tendem a possuir valores mais baixos do que textos curtos. A razão

type-token simples é portanto sensível à extensão do material textual, não sendo assim

confiável para uso em comparações entre textos de tamanhos diferentes (que são a norma,

aliás; textos autênticos de extensão igual são extremamente raros). A diferença entre os

valores da fórmula simples (63,5) e padronizado (93,3) obtidos acima ilustra este efeito. O

texto inteiro, por ser maior, dá mais espaço para repetições, que de fato ocorreram, e daí

seu valor é mais baixo. O cálculo padronizado, por sua vez, impediu que se levasse em

conta a repetição de palavras ocorridas no outro trecho, resultando assim em um valor

médio mais alto.

Ave. Word Length. Mostra a média do tamanho das palavras, em quantidade de letras.

Sentences. Mostra o total de sentenças do texto. As sentenças são definidas, por default em

177

arquivos-texto simples (‘plain text file’), como um ponto final seguido de um espaço e

uma palavra iniciada por letra maiúscula. A quantidade de sentenças relatada pelo

programa deve então ser encarada com cuidado, pois a contagem é mecânica. A contagem

também é influenciada pelo tipo de formatação de texto empregado nos arquivos (texto

simples, HTML, SGML, XML; vide mais a respeito na p.124 e ff. Os ajustes são feitos no

menu ‘Settings / Text Characteristics.’ Para mais explicações sobre o menu ‘Text

Characteristics’, vide p. 121 ff.).

Sent. Length: o tamanho médio de cada sentença (média aritmética, ou ‘mean’), em

número de palavras. Se estiver vazio, o texto só possui uma sentença (se possuir mais, é

preciso definir os ajustes corretos em Text Characteristics; vide p. 121 ff.).

Sd. Sent. Length. O desvio padrão (‘standard deviation’, ou ‘sd’) do tamanho médio das

sentenças. O desvio padrão é uma medida de dispersão dos dados, que normalmente

acompanha o valor da média aritmética. Ele indica se os valores observados estão

próximos ou distantes da média. Um valor baixo, no caso discutido aqui, mostra que as

sentenças possuem tamanhos parecidos com a média. Um valor alto revela o oposto: que

as sentenças possuem extensão distante da média, ou que há um grupo de sentenças que

difere bastante da média.

Não há valor absoluto para estabelecer se um desvio padrão é alto ou baixo, pois ele

depende da unidade que foi empregada no cálculo (frações, unidades, centenas, milhares,

etc.). Para saber se um desvio padrão é alto ou baixo, é preciso compará-lo ao valor da

respectiva média. Por exemplo, tomemos os valores abaixo:

Tamanho da Sentença 10 10 10 10 10 20 20 20 20 20

A média do tamanho de sentença (‘Sent. Length’) é 15, e o ‘Sd. Sent. Length’ é 5,27. Em

178

termos simples, 5,27 significa quantas unidades, aproximadamente, os valores individuais

das sentenças estão distantes (‘desviam’) da média. Quando comparado ao valor da média,

esse desvio padrão se revela alto, pois indica que há valores de tamanho de sentença que

estão aproximadamente 5 pontos acima ou abaixo da média (isto é, 15 – 5 = 10, e 15 + 5 =

20); ou seja, é alto porque há sentenças que são o dobro do tamanho das outras (20 / 10 =

2).

Paragraphs. Número de parágrafos contados pelo programa. Um parágrafo é entendido

pelo WordSmith Tools como uma seqüência de <Enter><Tab>. Essa definição pode ser

alterada no menu ‘Settings / Text Characteristics’ (vide p. 121). A definição de parágrafo

está condicionada ao tipo de formatação do arquivo (texto simples, HTML, SGML, XML;

vide p. 124).

Para. Length. Tamanho médio dos parágrafos, em palavras.

Sd. Para. Length. Desvio padrão da média do tamanho dos parágrafos. Vide discussão

sobre desvio padrão acima.

Headings. Quantidade de subtítulos nos textos. Um subítulo é algo, por exemplo, como ‘0.

Introdução’, ‘3. Metodologia’, etc., presentes em artigos de pesquisa. Os subtítulos são

definidos por etiquetas (‘tags’) específicas. Se o texto não possuir tais etiquetas, ou se as

etiquetas próprias de um texto não forem especificadas, não será efetuada a contagem.

Vide p. 124 para uma discussão sobre tipos de arquivo e formatação, e p. 112 sobre

etiquetas (‘tags’).

Heading length. Comprimento médio dos cabeçalhos, em palavras.

Sd. Heading length. Desvio padrão do comprimento médio dos cabeçalhos.

1-letter words, 2-letter words, etc. Mostra o comprimento médio das palavras do texto:

palavras formadas por uma letra, duas letras, etc. O comprimento máximo, padrão, é 14

letras, por isso a última categoria engloba as palavras com 14 ou mais letras. Mas esse

tamanho máximo pode ser alterado no menu ‘Settings / WordList / Word Length’. Se

houver alteração, a janela de estatística computará as contagens para esses novos valores.

179

8.5.3. As listas do arquivo de índice (‘index file’)

Conforme explicado acima (p. 172), há duas listas de arquivo de índice: uma ordenada por

ordem alfabética, outra por ordem de aparição no arquivo (File order).

8.5.3.1.A lista por ordem alfabética

Essa lista mostra as palavras ordenadas alfabeticamente e é aberta pelo menu Index,

Alphabetical List.

A figura a seguir ilustra a lista ordenada alfabeticamente, já com os valores de Mutual

Information calculados (vide p. 163 para explicação sobre como calcular essa estatística e

p. 190 para mais detalhes sobre essa estatística).

As colunas existentes na tela são as seguintes:

Word: as palavras do corpus.

Freq.: freqüências das palavras.

A concordance line: uma linha de concordância, como exemplo do uso da palavra. Para

ver mais linhas, é preciso clicar no botão , acionando o programa Concord.

Related 1: colocado que possui o maior escore de Mutual Information. Para saber a

freqüência dessa palavra como colocado, é preciso produzir uma concordância e verificar a

freqüência em Show Collocates. Se estiver em branco, significa que a freqüência da

palavra é alta ou baixa demais, ou seu escore de Mutual Information é baixo demais, de

acordo com os ajustes estabelecidos no menu Settings / Index Settings.

180

Mutual 1: escore de Mutual Information do colocado mencionado em Related 1. Se estiver

em branco, vide explicação acima, em Related 1.

Related 2, etc. até Related 10: colocados do nódulo, em ordem decrescente de Mutual

Information. Se estiverem em branco, vide explicação acima, em Related 1.

Mutual 2, etc. até Mutual 10: escores de Mutual Information de Related 2, etc., até Related

10, respectivamente. Se estiverem em branco, vide explicação acima, em Related 1

Este resultado foi obtido a partir dos ajustes sugeridos no item 8.3.3, p. 163, que estabelece

os ajustes de freqüência mínima e máxima para poupar tempo e otimizar o uso de recursos

para a produção do arquivo de índice. Eles são:

-High-frequency cut-off: 100 -maximum percent: 1.0 -min. frequency: 3 -Min. mutual info: 3

Esses valores fazem com que o programa, respectivamente:

-Compute, primeiramente, o Mutual Information para palavras com freqüência superior a 100. Se ainda houver recursos de memória suficientes, o programa processará as demais palavras. -Não compute o Mutual Information para palavras com freqüência equivalente a mais do que 1% do total de ocorrências do corpus. - Não compute o Mutual Information para palavras com freqüência inferior a 3. -Não mostre o resultado da estatística de Mutual Information quando esta for menor do que 3.

Esses ajustes produziram os seguintes efeitos no resultado exibido na figura acima:

• A palavra ‘A’ (na linha 1) foi ignorada porque possui mais de 1% do total de palavras

do corpus (‘maximum percent’). O corpus possui 4762 tokens, 1% disso equivale a

47,62, e ‘A’ possui 210 ocorrências.

• A palavra ‘À’, de freqüência 21, teve seu Mutual Information calculado porque possui

menos de 47 ocorrências (maximum percent) e mais do que 3 (min. frequency).

• A palavra ABBT, de freqüência 2, não teve seu Mutual Information calculado porque

sua freqüência é menor do que o mínimo estipulado (3, em min. frequency).

E assim por diante.

181

8.5.3.1.1.Os botões da tela de índice

Os botões constantes nessa lista são:

Layout: Faz alterações na disposição das colunas e nas cores da tela.

Compute: Calcula o resultado de uma fórmula definida pelo usuário.

Compute Mutual Information: calcula a estatística de associação Mutual

Information.

Change case. Transforma as palavras em minúsculas, iniciadas por maiúsculas, ou

inteiramente em maiúsculas. Para acionar cada tipo de transformação, basta clicar

no botão até alcançar a formatação desejada.

Mark-Unmark. Permite selecionar (ou desmarcar) palavras para terem suas

freqüências unidas (isto é, somadas), o que serve para fazer lematização manual (ou seja,

sem o auxílio de um arquivo de lematização). A palavra deve ser selecionada com o mouse

ou a tecla de seta. Depois, o botão Mark – Unmark deve ser clicado. Para anular uma

marcação, a palavra deve ser escolhida novamente e o botão Mark-Unmark clicado.

Search: Faz uma busca por alguma palavra ou número na lista.

Filenames: Mostra os nomes dos arquivos usados na preparação da lista. Esses

nomes podem ser editados usando o botão ‘replace’ (que não funciona em algumas

versões).

Concord. Faz uma concordância da palavra onde está o cursor ou daquelas

selecionadas.

8.5.3.2.A lista por ordem de arquivo (File Order)

Essa lista mostra as palavras ordenadas pela ordem em que elas primeiro apareceram nos

textos e é aberta pelo menu Index, File Order List.

A figura abaixo ilustra uma tela com lista ordenada por ordem de aparição no arquivo.

182

Os elementos dessa tela são:

Word: palavra.

Freq.: freqüência da palavra no corpus.

Plot: gráfico mostrando a posição das palavras. As ocorrências são sinalizadas por

pequenos traços verticais. Cada traço não representa, necessariamente, uma palavra, pois

se a freqüência for muito alta, não haverá espaço nem definição suficiente na tela para

mostrar em detalhe todas as posições exatas da palavra. Para saber com exatidão a posição

de cada palavra no texto, é preciso salvar a lista como texto (Save as Text, ). Como esse

recurso não mostra a separação entre os arquivos processados, ela é recomendada apenas

para análises de textos únicos. Vide discussão no final dessa seção.

Percebe-se que o gráfico está entrecortado por uma linha (azul, no original)

aproximadamente a dois terços do início da coluna onde o gráfico está inserido. Essa linha

foi acionada pelo botão Ruler . Esse recurso desenha uma linha no gráfico mostrando

onde um arquivo começa e outro termina, caso mais de um arquivo tenha sido selecionado.

Se apenas um arquivo tiver sido analisado, então o botão produz uma divisão em oito

partes iguais (esse recurso não está ativo em algumas versões). No caso da tela acima, a

linha mostra a separação entre os dois arquivos escolhidos para análise, mas ele não indica

qual arquivo corresponde a qual parte da divisão. O botão Filenames não fornece essa

183

informação, pois a ordem em que ele informa o nome dos arquivos não é necessariamente

a ordem em que eles aparecem na coluna Plot. Para saber qual arquivo cada divisão

representa, é possível usar o Concord. Para tanto, o usuário deve escolher uma palavra cuja

freqüência seja 1, colocando o cursor sobre ela. Depois, deve acionar o botão . O

resultado será uma concordância de uma linha apenas; a coluna File, do Concord,

informará a fonte dessa linha, que será, então, o arquivo a que pertence aquela ocorrência

encontrada no Plot. Voltando ao Plot, o usuário poderá então determinar qual seção do

gráfico corresponde aquele arquivo. Ele deve fazer isso com tantas divisões quantas forem

necessárias.

Os botões dessa lista são os mesmos da lista alfabética, mostrados na p. 181, com exceção

do botão Ruler, explicado no parágrafo acima.

O botão ‘Save as Text’ ( ) grava a lista transformando as posições do ‘plot’ em números,

que representam a posição da palavra no texto. Esse recurso não registra a divisão entre os

arquivos, mostrada pelo ‘Ruler’. Por isso, não é recomendada para análises de vários

textos ao mesmo tempo. Abaixo aparece um exemplo.

WordSmith Tools -- 25/12/2002 14:33:29 N Word Freq. Word Numbers 1 RECENTLY 1 1 2 A 14 2,34,49,69,81,243,296,410,466,506,533,563,583,598 3 RESEARCH 1 3 4 ABOUT 3 4,31,38 5 THE 43 5,10,59,62,92,96,105,110,121,156,158,162,167,171,178,194,210,234,274,301,304,317,329,340,353,359,379,384,407,424,435,438,476,480,494,513,521,527,546,555,567,576,586

Como se percebe, a formatação não é clara. Para melhorar a visualização do arquivo, é

recomendável transportá-lo para um editor como o MS Word. Lá, basta abri-lo ou colar

uma parte do arquivo, selecionar a lista (menos o cabeçalho), clicar em Tabela, Converter,

Texto em Tabela e depois em OK, ou simplesmete clicar no botão Tabela, da barra de

ferramentas. Depois, deve ser pedido Tabela, Auto-Ajuste, Auto-Ajuste para Conteúdo. O

resultado será parecido com o seguinte:

N Word Freq. Word Numbers 1 RECENTLY 1 1 2 A 16 2, 34, 49, 69, 81, 243, 296, 410, 466, 506, 533, 563, 583, 598,

629, 658 3 RESEARCH 1 3 4 ABOUT 5 4, 31, 38, 678, 783

184

5 THE 106 5, 10, 59, 62, 92, 96, 105, 110, 121, 156, 158, 162, 167, 171, 178, 194, 210, 234, 274, 301, 304, 317, 329, 340, 353, 359, 379, 384, 407, 424, 435, 438, 476, 480, 494, 513, 521, 527, 546, 555, 567, 576, 586, 620, 654, 660, 670, 679, 693, 10, 59, 62, 92, 96, 105, 110, 121, 156, 158, 162, 167, 171, 178, 194, 210, 234, 274, 301, 304, 317, 329, 340, 353, 359, 379, 384, 407, 424, 435, 438, 476, 480, 494, 513, 521, 527, 546, 555, 567, 576, 586, 620, 654, 660, 670, 679, 693, 695, 702, 735, 763, 772, 807, 829, 837, 841

A coluna ‘Word Numbers’ refere-se à área onde existia o gráfico. Agora, as posições

foram traduzidas para números, sendo que cada número refere-se à posição seqüencial da

palavra no texto.

8.5.4. Os menus

Esta seção descreve os menus existentes no WordList.

8.5.4.1.File

Esse menu dá acesso a várias opções do programa, descritas abaixo.

Start. Opção que remete à tela de Getting Started.

Frequency and Alphabetical. Abre listas de freqüência e alfabética, conjuntamente.

Frequency list. Abre listas ordenadas por ordem de freqüência.

Alphabetical list. Abre listas ordenadas por ordem alfabética.

Statistics. Abre listas de estatística.

Detailed consistency list. Abre lista de consistência detalhada.

Merge two word lists. Possibilita mesclar duas listas. O usuário deve escolher os dois

arquivos de lista. Os dois arquivos devem estar na mesma pasta.

Print. Abre uma pequena janela de visualização da impressão. Nessa tela, no topo,

encontram-se botões de zoom e de envio do arquivo para a impressora.

Save. Permite salvar a lista num arquivo. O nome do arquivo não deve ultrapassar oito

caracteres, seguido de uma extensão de no máxima três caracteres. A extensão padrão é

185

.lst.

Save As. Opção usada para salvar, com um nome diferente, uma lista já salva.

Save As Text. Faz com que a lista seja salva num arquivo-texto. A tela correspondente

pede que o usuário especifique um nome para o arquivo, além de permitir fazer ajustes no

tipo de informação que é gravado no arquivo. Pressionando OK faz com que o arquivo seja

gravado. As opções dessa tela são:


a data e hora do salvamento da lista, aparece automaticamente. O usuário pode digitar o

que quiser lá. Caso não deseje um cabeçalho, basta apagar a informação do campo.



Number each line: Se marcado, faz com que cada linha da lista seja numerdada,

seqüencialmente.

Column separator: Caracter que faz a separação entre as colunas de informação da lista.

Tab: caracter de tabulação (é o default). Specify: o usuário pode especificar um caracter

ali, digitando-o.







coluna ‘N’).

Copy. Abre uma janela que permite que o conteúdo da lista seja copiado para um destes

destinos: (a) clipboard, (b) arquivo-texto (text file), (c) impressora (printer), (d) arquivo lst

(lst file), conforme mostra a tela abaixo.

186

A opção ‘clipboard’ faz com que a lista seja enviada para o clipboard (‘área de

transferência’) do Windows. Desse modo, o conteúdo pode ser colado, por exemplo, em

um arquivo do Word. É a opção mais flexível, mas ao mesmo tempo deve ser evitada caso

o tamanho da lista seja grande (tamanho grande é relativo ao hardware), pois a máquina

pode travar. A opção ‘text file’ funciona do mesmo modo que ‘Save as Text’, explicado

acima, enquanto ‘printer’ faz a mesma operação que o comando ‘Print’, e ‘lst file’, a

mesma que ‘Save’. As opções em ‘What data’ referem-se à porção da lista que será

copiada: ‘all’ copia tudo, ‘selected’ copia somente a porção previamente escolhida com o

mouse (ou tecla shift mais teclas de seta). ‘Let me specify’ não está ativo (permanece em

cor cinza).

Exit. Finaliza o programa. Faz uma série de perguntas antes de encerrar-se.

No-check exit. Finaliza o programa bruscamente, sem fazer perguntas.

8.5.4.2.Settings

Abaixo são descritos os itens desse menu.

8.5.4.2.1.Choose Texts.

Leva à janela de seleção de textos, explicada na p. 168.

8.5.4.2.2.Colours.

Permite mudar as cores das janelas da lista.

187

8.5.4.2.3.Directories.


para escolher textos (‘Texts’) e para salvar e abrir listas (‘Concord’), listas de palavras-

chave (‘KeyWords’) e listas de palavra (‘WordList’). É aconselhável não alterar esses

diretórios. Pode ser útil modificá-los temporariamente caso o usuário deseje trabalhar por

algum tempo com pastas diferentes, o que economizará tempo para acessar as pastas.

8.5.4.2.4.Font.

Remete à guia ‘General’ do menu ‘Settings’, que serve para especificar aspectos


8.5.4.2.5.Index settings.

Permite fazer ajustes na maneira pela qual o programa criará arquivos de índice (‘index

files’), que são arquivos usados para cálculo da estatística de associação ‘Mutual

Information’ e que ainda permitem a criação de concordâncias de modo bem mais rápido

do que o habitual (sem o arquivo de índice). A tela a seguir ilustra esse item do menu:

188

As opções presentes na tela de ‘index settings’ são:

File name: Local para digitar a pasta e o nome do arquivo de índice a ser salvo. Deve

possuir a terminação .wdx. Esse é o arquivo-base do index file, que guarda apenas ajustes

do programa, mas o programa ainda produz um arquivo com terminação .xal e outro .xfo.

O primeiro (de tamanho maior do que o dos textos que compõem o corpus analisado)

registra a posição em ordem alfabética de todas as palavras do corpus; o segundo (que é

geralmente a metade do tamanho do corpus escolhido) guarda informação a respeito da

ordem das palavras em relação umas às outras.

High frequency cut-off: Freqüência mínima das palavras que serão levadas em conta no

primeiro processamento. Palavras que estiverem abaixo dessa freqüência mínima só serão

processadas se houver memória disponível na máquina, depois que as demais já tiverem

sido processadas. O número sugerido pelo programa é 500, o que significa que palavras

com freqüência igual ou maior a 500 receberão atenção especial e terão sua freqüência

computada. As demais ‘deverão esperar’ e só serão processadas se houver recursos no

computador. A necessidade desse passo é devida ao fato de que a produção de um arquivo

189

de índice é muito laborioso para o computador, tornando a produção do arquivo muito

demorada e com tendência a travar a máquina. O ideal seria que esse filtro não fosse

necessário, forçando a máquina a sempre computar todas as palavras. Computadores com

mais memória podem suportar um número de ‘high frequency cut-off’ mais baixo. A

sugestão é que o usuário experimente com esse número na sua máquina até encontrar um

valor confortável, ou seja, que não paralise seu computador, não leve tempo demasiado,

nem seja pouco informativa (isto é, com poucas palavras).

Activated: Quando marcada, ativa a produção do arquivo de índice.

File Order Too: Faz com que o programa leve em conta a posição de cada palavra nos

arquivos. Isso permite que seja computada a estatística de Mutual Information.

Procedure: Especifica a estatística a ser usada para estimar o grau de associação entre

palavras. ‘Mutual information’ é a única opção disponível.

Log base 2: Tira o logaritmo à base 2 do resultado da estatística de Mutual Information. O

resultado prático do logaritmo é reduzir as diferenças entre os valores originais. Por

exemplo, um escore de Mutual Information igual a 5 equivale a um igual a 2,32 com base

logarítmica 2. Já um escore igual a 10 é equivalente a 3,32 em base logarítmica e um de

100, a 6,64. Ou seja, uma mudança de 100% no escore bruto ocasionou apenas uma

mudança de 1 ponto no escore logarítimico (isto é, 43% de acréscimo em relação a 2,32),

enquanto um acréscimo de 20 vezes elevou o escore logarítmico a menos de três vezes.

Ignore sentence, para & heading breaks: Quando marcado, faz com que o programa leve

em conta colocados que estejam em sentenças e parágrafos diferentes, ou em seções

diferentes do texto (sinalizadas por subtítulos). Quando desmarcado, somente computa

colocados que estejam dentro da mesma sentença ou do mesmo parágrafo (caso uma marca

de final de sentença esteja faltando) e da mesma seção do texto (de acordo com os

subtítulos que porventura existam). Para formatar sentença, parágrafo e subtítulo, é preciso

estabelecer o tipo de texto e sua formatação, no menu ‘Settings / Text Characteristics’.

Vide p. 121 para uma explicação sobre esse assunto.

Max. Percent: Valor máximo de freqüência (expresso em porcentagem) aceito para incluir

palavras no cálculo de Mutual Information. Palavras com freqüência acima desse valor

serão desconsideradas. Por exemplo, um valor de 1.0 significa freqüência equivalente a 1%

190

do total. Assim, num texto ou corpus que possua 10 mil palavras (tokens), as palavras com

freqüência acima de 100 (que é 1% de 10 mil) não terão seu Mutual Information Score

calculado. Tem a finalidade de servir como filtro, para acelerar o processamento, do

mesmo modo que ‘High frequency cut-off’ explicado acima.

Min. Mutual Info: Valor mínimo de Mutual Information que irá aparecer na listagem. O

valor recomendado é 3. Não é um filtro de cálculo, como High frequency cut-off’ e ‘Max

Percent’. Apenas restringe a inclusão de palavras na listagem final, após o cálculo ter sido

realizado.

Min. Frequency: Freqüência mínima exigida para que uma palavra tenha seu Mutual

Information calculado. É outro filtro, assim como ‘High frequency cut-off’ e ‘Max

Percent’, detalhados acima. Palavras com freqüência muito baixa em geral não possuem

um grau de associação relevante. O valor recomendado é 4, mas dependendo do tamanho

do texto ou do corpus, pode ser mudado. Com corpora pequenos, é possível até mesmo

estabelecer um valor 2. A sugestão é que o analista experimente com alguns valores e

verifique o resultado, até encontrar um valor satisfatório.

Horizons. São os horizontes da concordância, ou seja, a distância máxima entre o nódulo e

seus colocados, para a esquerda e para a direita (vide p. p. 98 para explicação mais

detalhada). Esse horizonte será o utilizado pelo arquivo de índice para cálculo da

estatística Mutual Information. O valor normalmente usado é cinco palavras para esquerda

e cinco para a direita (5L e 5R). Somente serão levadas em conta as palavras que estejam

dentro dos horizontes definidos.

8.5.4.2.6.A estatística Mutual Information

A possibilidade de cálculo da estatística Mutual Information está presente no arquivo de

índice. Essa estatística é um dos tipos de medida de associação usados na análise de

concordância; as outras mais comuns são a Observado / Esperado (Observed / Expected) e

o Escore T (T-Score). Elas servem para mostrar até que ponto há uma relação de co-

ocorrência entre o nódulo (a palavra de busca) e os seus colocados (as palavras ao redor do

nódulo) que ultrapassa o que se poderia conseguir ao acaso. Em outras palavras, se a

atração entre o nódulo e o colocado não parece ser aleatória. Uma associação não aleatória

é aquela que é mais comum do que o esperado.

191

A estatística Mutual Information pode ser calculada sem o arquivo de índice, usando uma

calculadora ou uma planilha (tipo Excel). Contudo, a opção de cálculo automático no

WordSmith Tools tem a vantagem de facilitar esse processo, pois o programa calcula a

estatística para todas as palavras do corpus (que passem nas exigências colocadas em vigor

pelos ajustes do programa). Dessa forma, o cálculo automático torna-se, também, um meio

de filtrar os dados, permitindo ao analista descobrir mais facilmente quais palavras, entre

as muitas que existem no corpus, merecem sua atenção detalhada, por exibirem um grau de

associação alto. Normalmente, um valor de 3 ou mais para a estatística Mutual Information

é considerado alto.

A fórmula para o cálculo de Mutual Information é:

MI = log2 O / E

Sendo que:

O = f(n,c)/N

E = f(n)/N * f(c)/N

Onde:

f(n): a freqüência do nódulo no corpus.

f(c): a freqüência do colocado no corpus.

f(n,c): a freqüência da ocorrência mútua do nódulo (n) e do colocado (c).

N: o tamanho do corpus.

8.5.4.2.7.Min & Max Frequencies.

Permite efetuar os seguintes ajustes:

Numbers included: Quando marcado, faz com que o programa inclua números na lista, tais

como eles apareceram. Se estiver desmarcado, o programa não inclui números na lista de

palavras e os representa como ‘#’ no cálculo de lista de agrupamentos (clusters).

Word Length: As janelas indicam os tamanhos mínimo e máximo (em número de

192

caracteres) que as palavras terão na lista de palavras. Palavras maiores do que o valor

maior serão omitidas da lista (se a opção ‘abbreviate with’ não estiver marcada) ou

aparecerão truncadas (se estiver).

Abbreviate with + : Palavras que excederem o valor máximo permitido de Word Length

serão truncadas com ‘+’. Por exemplo, se o tamanho máximo for 14 caracteres, a palavras

‘inconstitucionalissimamente’ aparecerá como ‘inconstitucion+’.

Word Frequency. Valores mínimo e máximo permitidos na lista de palavras. Palavras fora

dessa faixa serão omitidas da lista.

Type / Token basis. Valor do bloco de texto usado para cálculo da razão Type-Token

padronizada (standardized). Vide p. 175 para detalhes desse índice.

Clusters size: define o tamanho dos clusters nas listas de agrupamentos. A caixa

‘Activated’ próxima a este campo deve estar marcada para ativar esse tipo de lista. Se esta

opção estiver ativada, as listas de palavra (simples e em modo ‘batch’, não as de arquivo

de índice) serão produzidas não com palavras isoladas, mas com agrupamentos, segundo a

extensão definida nesse campo. Vide seção 8.2 na p. 155 para mais detalhes.

Case sensitivity. Quando ativada (na caixa ‘activated’), faz a lista distinguir entre palavras

(todas ou em parte) escritas com letras maiúsculas e em minúsculas. Assim, por exemplo,

‘Mesmo’ e ‘mesmo’ serão computadas separadamente. Se não estivar ativada, a lista

desconsidera o uso de maiúsculas e minúsculas, e agrupa, por exemplo, as freqüências de

‘Mesmo’, ‘mesmo, ‘MESMO’, ‘mEsMO’, etc. Esses ajustes são subordinados ao tipo de

alfabeto e de caracteres usados nesse alfabeto conforme discriminado no arquivo

Save: guarda esses ajustes para uso posterior. Se marcado, esses ajustes estarão ativos para

a próxima sessão do programa.

8.5.4.2.8.Printing

Permite fazer ajustes na impressão, fontes e nos arquivos abertos automaticamente pelo

programa quando iniciado. Vide item 7.4.2.3.8 na p. 110.

8.5.4.2.9. Stop list


193





será levada em conta. Vide item 7.4.2.3.10 p. 111 para maiores detalhes.

8.5.4.2.10.Tag list

‘Tags’ (ou etiquetas) são códigos de marcação dos textos, que trazem informações dos

mais variados tipos. Os ajustes feitos nesse menu alteram a maneira como o programa

reage a esses códigos. Vide seção 7.4.2.3.11 na p. 112 para mais detalhes.


Essa opção refere-se à guia ‘Text’ da tela de ‘Settings’. Nela, é possível fazer ajustes na

maneira pela qual o programa processa a formatação dos textos. Vide seção 7.4.2.3.12 p.

121 para maiores informações.







8.5.4.3.Comparison

Esse menu permite fazer comparações entre listas, para saber (a) quais palavras possuem

freqüências acima do esperado (opção ‘compare 2 wordlists’), ou (b) quais palavras estão

presentes em várias listas (opções ‘consistency (simple)’ e ‘consistency (detailed)’).

8.5.4.3.1.Compare 2 wordlists

O intuito dessa comparação é mostrar as palavra-chave de uma lista de palavras, ou seja,

palavras de freqüência marcante. Por marcante entende-se freqüências mais altas ou mais

baixas, estatisticamente significativas, do que aquelas num conjunto de referência. Esse

conjunto de freqüências de referência é representado por outra lista, formada a partir do

194

chamado ‘corpus de referência’ (reference corpus). Para mais detalhes sobre palavras-

chave, vide o capítulo 0 (p. 210 e subseqüentes); para uma visão geral da tela de palavras-

chave, que é idêntica à mostrada pelo comando ‘compare 2 lists’, vide p. 210.

A comparação é feita pelo programa KeyWords. Assim, esse menu é, para todos os efeitos,

um atalho para o programa KeyWords, já que o mesmo poderia ser feito naquele

programa. A tela resultante é, de fato, do programa KeyWords, mas o programa que

permanece funcionando é o WordList.

Clicando nessa opção, surge uma tela que pede a escolha de duas listas de palavras (.lst) já

salvas. Se o analista quiser comparar a lista que acabou de fazer (e que está sendo exibida

na tela), deve salvá-la primeiro e depois compará-la.

A lista é feita usando os ajustes em vigor para o KeyWords (no menu Settings, Min & Max

Frequencies, guia KeyWords) e para os textos em geral (menu Settings, principalmente

guias Text, Tags e Stop List).

A lista resultante da comparação, com as palavras-chave, deve ser salva usando o comando

File, Save ou clicando no botão . Ela será salva no formato KeyWords (extensão .kws).

8.5.4.3.2.Consistency (simple)

Essa comparação produz uma lista que mostra as palavras consistentes, isto é, aquelas que

aparecem em várias listas de palavra. A listagem também mostra em quantas listas de

palavra cada palavra apareceu. É possível comparar mais de 16 mil listas ao mesmo tempo.

Para criar uma lista de consistência simples, é preciso clicar no menu Comparison e depois

em Consistency Simple. Surgirá um tela que permite escolher os arquivos a serem

comparados. A figura abaixo reproduz essa tela:

195

Cada arquivo deve ser uma lista de palavras (extensão .lst, por default) previamente

gravada no formato do programa WordList. Para selecionar as listas, o usuário deve

manter pressionada a tecla Shift do teclado e depois clicar no nome dos arquivos. Clicando

em OK, o processamento terá início, demonstrado numa janela de andamento. Para

interromper o processamento, é preciso usar as teclas Control, Alt, Del, conjuntamente,

para encerrar o programa WordList.

Uma vez terminado, o resultado aparece numa lista que possui formato semelhante à

mostrada abaixo.

196

A lista mostra as seguintes informações:

Word: As palavras constantes em uma das listas ou em ambas.

Freq.: A quantidade de listas em que a palavra aparece.

%: Porcentagem referente à quantidade de listas.

Lemmas: lemas.

Para que não seja perdida, a lista deve ser salva com o comando Save no menu File (ou

botão ). Ela é tratada como uma lista de palavras comum e portanto será gravada no

formato de lista de palavra, com a extensão .lst. Para abri-la, deve ser usado o menu File,

Open, Frequency & Alphabetical, Frequency, Alphabetical ou Statistics.

Na tela acima, nota-se que a palavra ‘Windows’ (posição 1004) ocorreu em duas listas,

isto é, em 100% das listas comparadas. Ela é, portanto, altamente consistente. Já a palavra

‘abacatada’ (posição 1012) não é consistente, pois apareceu em apenas uma lista (50% do

total). A dúvida que surge, nesse momento, é a respeito de que lista a palavra ‘abacatada’

faz parte. Para ter essa informação, é possível usar a função ‘Find Files’, acionada no

botão . Mas fazer isso com as muitas palavras de uma lista torna-se improdutivo. Por

197

isso, existe a lista de consistência detalhada, que mostra em que textos cada palavra

ocorreu. Ela é explicada na seção a seguir.

Os botões constantes na tela da lista de consistência simples são:

Re-sort: Faz a reordenação da lista. Funciona como na re-ordenação das

concordâncias (vide p. 97).


Compute: Calcula o resultado de uma fórmula definida pelo usuário.

More columns: Aumenta o número de colunas na tela, dispondo mais colunas lado

a lado; ajuda a economizar papel durante a impressão.


inteiramente em maiúsculas. Para alterar as opções, é preciso clicar várias vezes no botão.

Match. Abre a janela de ajuste de ‘match’, que permite a localização e apagamento

de palavras via arquivo.






Lemma-Match. Faz lematização por meio de um arquivo. Esse botão aciona uma

tela de lematização.

Join. soma a freqüência de palavras selecionadas (com a função ‘Mark – Unmark’)

e desabilita a palavra somada (torna cinza a palavra e transforma sua freqüência em zero).

Unjoin. Desfaz a soma das freqüências efetuada com join.

Zap. Retira da lista uma palavra apagada com a tecla ‘delete’.

Edit. Permite redigitar uma palavra constante na lista. A palavra aparecerá numa

pequena janela, onde deve ser feita a edição. Clicando OK, a nova versão é incorporada à

198

lista.



nomes podem ser alterados usando o botão ‘replace’ (que não funciona em algumas

versões).

Summary stats: mostra contagem de várias características da lista.

Rotate: Muda a orientação da lista, do sentido vertical (o default) para horizontal.

View. Abre o viewer, com o(s) texto(s) onde a palavra ocorreu.

Concord. Faz uma concordância da palavra onde está o cursor ou das palavras

selecionadas.

Files. Faz uma concordância e mostra somente as ocorrências das palavras naqueles

arquivos que contém todas elas Não funciona com palavras lematizadas (joined), emitindo

uma mensagem de erro. Vide p. 207 para mais detalhes.

8.5.4.3.3.Consistency (detailed)

Assim como a lista de consistência simples (explicada acima), a lista de consistência

detalhada mostra as palavras de consistência, isto é, aquelas que ocorrem em várias listas

de palavras. Mas ao contrário da lista simples, ela mostra, além do total de listas em que a

palavra ocorreu, quais arquivos cada uma ocorreu.

A lista detalhada, porém, possui algumas desvantagens em relação à simples:

• O tempo de processamento é maior.

• O número de palavras (types) em conjunto que pode ser processado é menor (cerca de

16 mil). Listas maiores que esse valor são truncadas.

• A lista não informa a porcentagem do total de listas em que cada palavra ocorreu.

Para produzir uma lista de consistência detalhada, é preciso escolher as listas, até um total

de 50 (embora o menu indique a possibilidade de escolher mais de 16 mil), usando a janela

199

de seleção, explicada acima.

A seguir, o programa inicia o processamento, que é mais lento do que para a lista de

consistência simples. Contudo, se as listas selecionadas somarem mais do que 16368

palavras (types), o programa emite uma mensagem de erro, pois excedeu o seu limite. A

tela que exibe esse aviso aparece na figura abaixo.

Depois de pressionar OK, o processamento prossegue, mas o resultado será referente às

16368 primeira palavras, contadas a partir da somatória das freqüências daquelas que

aparecem em todos as listas. Isso significa que o resultado será parcial. A lista resultante

aparece logo após e é ilustrada na figura a seguir.

A tela aparece ordenada de modo inverso, isto é, em ordem decrescente pela coluna Files,

seguida da coluna Total. Por isso, as palavras mais consistentes aparecem no final da lista.

200

Isso pode ser mudado por meio do botão Re-Sort ( ), com os ajustes seguintes:

• Main Sort: Files.

• Then by: Total.

• Caixa Activated: Marcada.

• Lines to sort: All.

• How to sort: Ascending, desmarcado.

Note que em algumas versões do programa, essa função de re-ordenação não funciona bem

para a lista de consistência detalhada; portanto, os resultados podem não ser os

pretendidos. Caso isso aconteça, é possível ordenar a lista corretamente numa planilha

eletrônica (p.ex. Excel).

Para que não seja perdida, a lista deve ser salva com o comando Save no menu File (ou

botão ). Ao contrário da lista de consistência simples, ela não é tratada como uma lista

de palavras comum, sendo gravada num formato especial, cujo arquivo possui terminação

.dcl. Para abri-la, é necessário usar o menu File, Open Detailed Consistency List.

Os elementos da tela da lista de consistência são:

Word: palavra.

Files: Quantidade de arquivos em que a palavra aparece.

Total: freqüência total da palavra nos arquivos.

(Penúltima coluna): freqüência da palavra na lista indicada pelo nome no alto da coluna

(‘conv’, no caso da tela anterior).

(Última coluna): freqüência da palavra na lista indicada pelo nome no alto da coluna

(‘reuni’, no caso da tela anterior).

Os itens que aparecem em vermelho são aqueles em que a freqüência ou porcentagem é

maior.

Para exemplificar, tomemos a palavra ‘A’, que está na posição 16368. Segundo a lista de

201

consistência, ela aparece em dois arquivos e possui freqüência total de 83716, sendo 83515

no arquivo ‘conv’ e 201 no arquivo ‘reuni’. Note que a lista não indica quantos arquivos

foram selecionados no total, portanto não é possível estimar, pela informação mostrada, se

essa palavra é consistente ou não. Mas como sabemos (por termos escolhido, mas também

pelo que nos informou a lista de consistência simples) que duas listas foram selecionadas,

podemos julgar que ‘A’ é uma palavra consistente, pois está presente nos dois arquivos.

Como se percebe, a lista de consistência não é muito útil para casos em que as palavras

ocorrem nos dois arquivos, pois essa informação a lista de consistência simples já fornece.

A lista detalhada é mais útil para descobrir em qual lista uma palavra ocorreu, ou deixou

de ocorrer.

Subindo mais na lista, chega-se a um ponto em que o total de arquivos passa a ser 1,

conforme mostra a tela abaixo.

A palavra ‘anos’ (posição 16081), por exemplo, segundo a tela acima, ocorre em um

arquivo apenas, qual seja, em ‘conv’. O mesmo acontece com as demais palavras acima

dessa.

Os botões da janela da lista de consistência detalhada são os mesmos da lista simples. Vide

p. 197.

202

8.5.4.4.Index

Esse menu permite produzir e abrir arquivos de índice (vide p. 157 para uma explicação

desse recurso).

8.5.4.4.1.New Index

Cria um arquivo de índice segundo os ajustes feitos no menu Settings, Index settings. Vide

p. 163 para um roteiro de como produzir um arquivo de índice e p. 187 para uma

explicação dos ajustes.

8.5.4.4.2.Alphabetical list

Abre um arquivo de índice formatado em ordem alfabética. Vide p. 179 para uma

explicação dessa tela.

8.5.4.4.3.File order list

Abre um arquivo de índice formatado por ordem de aparição no arquivo. Vide p. 181 para

uma explicação dessa tela.

8.5.4.5.Window

Esse menu organiza as janelas, no estilo padrão do Windows. ‘Tile’ coloca as janelas de

modo adjacente, ‘Cascade’ uma sobre as outras, ‘Arrange All’ as transforma em ícones

(não está ativo em algumas versões) e ‘Minimize All’ as minimiza.

8.5.4.6.Help

É o menu de ajuda, padrão do Windows. A versão do WordSmith Tools instalada pode ser

vista na opção ‘About & Memory’ do menu ‘Help’.

8.6. Os botões da barra de ferramenta do WordList

Esses botões fazem parte da janela do Word List. Alguns estão sempre visíveis, mesmo

quando não há nenhuma lista aberta, outros não. Eles são descritos abaixo:

Remete à janela Getting Started (vide 8.4, p. 167).

Save. Abre a janela de salvamento da lista, ou, se a lista de palavra já tiver sido

203

gravada, salva-a novamente com o mesmo nome.

Save As. Abre a janela de salvamento de arquivo, permitindo salvar uma lista de

palavra com outro nome.

Save as Text. Salva a lista de palavra como texto. Vide p. 185.


a impressora.

Copy. Permite copiar a lista de palavras inteira ou em partes para a área de


(equivalente a imprimir), e um arquivo .lst (equivalente a Save ou Save As). Em What

Data, permite selecionar se a lista de palavras ou lista de palavra-chave será salva inteira

(all), ou somente a parte selecionada com o cursor (selected).

Help. Abre o menu de ajuda.





8.7. Os botões da janela de lista de palavras (.lst)

Esta seção apresenta os botões encontrados na tela onde aparece a lista de palavras do tipo

simples (.lst).

Re-sort: Faz a reordenação da lista. Segue o exemplo da re-ordenação usada nas

concordâncias


Compute: Calcula o resultado de uma fórmula definida pelo usuário. Esse recurso

disponibiliza funções de planilha de cálculo para a lista de palavras. Por isso, o mesmo

resultado por ser obtido transportando a lista de palavras para uma planilha, com Excel e

realizando os cálculos lá. Mas a maior vantagem do recurso ‘Compute’ é que o cálculo é

feito diretamente na lista, economizando tempo. Além disso, o resultado é salvo no mesmo

204

arquivo, deixando os dados mais organizados. Alguns cálculos mais complexos talvez

necessitem de uma planilha eletrônica, mas para a maior parte deles, ‘Compute’ é

suficiente.

A figura a seguir ilustra a tela de entrada de dados.

O campo superior é destinado à entrada das fórmulas. As fórmulas utilizam uma notação

especial para representar as células (posições na tela), que lembra aquela usada em

planilhas de cálculo, como Excel. As posições, por sua vez, podem ser de dois tipos:

relativas ou absolutas. Uma posição relativa refere-se a cada linha de uma coluna. Por

exemplo, a posição Rel(2) indica todas as linhas da coluna 2. Uma posição absoluta, por

sua vez, representa uma coluna e linha específicas; Abs(2;1) indica a primeira linha (1) da

coluna 2.

As demais opções da tela representam atalhos para facilitar a entrada de dados e, portanto,

são opcionais. O usuário pode digitar diretamente a fórmula que desejar.

A primeira dessas opções é uma calculadora, que o usuário pode usar para entrar os dados

no campo de entrada de fórmulas. O sinal de divisão aparece na tela como ‘÷’, mas é

possível digitar a barra (/) para representar a mesma operação.

205

A caixinha ‘standard’, que se encontra no meio da tela traz algumas funções de cálculo,

como logaritmo, pi e raíz quadrada. O usuário pode clicar duas vezes naquela que desejar

para ela ser inserida no campo de entrada de fórmula. Também é possível digitar

diretamente o código da função.

O espaço ‘Your data’ refere-se às posições das colunas e linhas. A caixa ‘relative’ elenca

as colunas existentes na lista. Isso serve como atalho para a digitação, além de ser um

lembrete do conteúdo de cada coluna. Para incluir uma delas, basta clicar duas vezes. O

programa incluirá a coluna no código de posição relativa; assim, se a coluna 2 for

selecionada e clicada duas vezes, o código resultantes será Rel(2).

A caixinha ‘cumulative’ destina-se a fazer um cálculo cumulativo, mas não está ativo. Um

cálculo cumulativo adiciona o resultado da linha superior à linha inferior, sucessivamente.

A opção ‘Absolute’ também insere códigos automaticamente no campo de entrada de

fórmula. A caixinha existente indica os números de linha da lista. O usuário pode rolar a

lista (em incrementos de 10) até encontrar o número que deseja ou digitar diretamente no

espaço.

Ao clicar no botão OK, o cálculo é efetuado e o resultado exibido na tela. A fórmula que

deu origem à tela aparece no topo da coluna.

Para ilustrar o processo de cálculo, tomemos a fórmula exibida na tela acima, que é:

Rel(2)÷21234

Essa fórmula faz com que o programa divida o valor de cada linha da coluna 2 por 21234.

A intenção ao usar essa fórmula é saber a diferença entre as ocorrências da palavra mais

freqüente e as demais. O resultado aparece na figura abaixo.

206

Como se percebe, o resultado foi disposto na coluna ao lado de ‘Lemma’. A primeira linha

diz ‘1.00’, pois representa o resultado da divisão de 21234 (o valor da coluna 2, linha 1)

por 21234 (isto é, por si mesmo). A segunda linha mostra 0,69, que é o resultado da

divisão de 14656 (o valor da coluna 2, linha 2) por 21234. A terceira linha exibe 0,57, que

é a divisão de 12153 (o valor da coluna 2, linha 3) por 21234. E assim por diante.

More columns: Aumenta o número de colunas na tela, dispondo mais colunas lado

a lado; ajuda a economizar papel durante a impressão.










Lemma-Match. Faz lematização por meio de um arquivo. Esse botão aciona uma

tela de lematização.

Join. soma a freqüência de palavras selecionadas (com a função ‘Mark – Unmark’)

207

e desabilita a palavra somada (torna cinza a palavra e transforma sua freqüência em zero).

Unjoin. Desfaz a soma das freqüências efetuada com join.




lista.




versões).

Summary stats: mostra contagem de várias características da lista.

Statistics. Abre a lista de estatística relativa à lista (alfabética ou de freqüência).


View. Abre o texto no viewer.

Concord. Faz uma concordância da palavra onde está o cursor ou daquelas

selecionadas. Para selecionar duas palavras adjacentes na lista, basta clicar em uma,

pressionar a tecla shift no teclado e clicar na outra. Para selecionar palavras não

adjacentes, é preciso usar o botão Mark – Um-Mark ( ). Para fazer outra concordância

depois de usar ‘Mark’, é preciso, antes demarcar os itens, senão o Concord repetirá a

concordância das palavras marcadas. Para desmarcar, use o mesmo botão Mark Um-Mark.

As palavras estarão desmarcadas assim que o sublinhado (highlight em azul) desaparecer.


arquivos que contém todas elas. Para exemplificar, tomemos o exemplo da lista mostrada

na figura abaixo.

208

Segunda essa lista, os dois itens selecionados, ‘abandonando’ e ‘abandonar’, somam 19

ocorrências (6 de ‘abandonando’ e 13 de ‘abandonar’). Pressionando o botão de Concord

( ), o usuário produzirá uma concordância que mostra essas 19 ocorrências. Entretanto,

nem sempre as duas palavras aparecem nos mesmos textos (pelo menos uma vez). A

função faz justamente isso. Clicando nessa opção, o programa Concord buscará

somente as ocorrências de ‘abandonar’ e ‘abandonando’ que estejam nos mesmos textos. O

resultado aparece na figura a seguir.

209

Essa tela mostra apenas 9 ocorrências, que são aquelas em que ambas palavras aparecem

no mesmo texto. Na coluna ‘File’ é possível saber quais textos possuem as duas palavras:

visao.txt e veja/v9.txt.

Em certas versões do programa, esse comando não funciona com palavras lematizadas

(joined), emitindo uma mensagem de erro.

210

A ferramenta KeyWords

8.8. Visão Geral

8.8.1. Palavras-chave

O programa KeyWords produz listas de palavras-chave. Palavras-chave são aquelas cujas

freqüências são diferentes, de modo estatisticamente significativo, das freqüências

encontradas em um corpus de referência.

Embora o termo seja ‘palavra-chave’, na verdade elas não precisam ser, necessariamente,

palavras individuais (p.ex. ‘café’, ‘casa’), podendo ser seqüências de palavras ou ‘clusters’

(‘café com leite’, ‘casa da sogra’). O KeyWords também processa listas de palavra

formadas por clusters (vide p. 106). O default é palavra-chave individual. No restante do

texto, referência a ‘palavra-chave’ indicará referência a palavra-chave individual.

Palavras-chave não são o mesmo que palavras ‘importantes’. O programa usa um critério

estatístico, quantitativo, para identificar as palavras-chave; já uma pessoa usa outros

critérios de relevância. Seguindo o mesmo raciocínio, o programa não identifica

necessariamente aquelas palavras-chave encontradas, por exemplo, em artigos científicos

no campo ‘palavras-chave’ (ou key words, mot clefs, etc.).

O KeyWords é acionado clicando em ‘Tools / KeyWords’ no Controller.

As palavras-chave podem ser de dois tipos: positivas e negativas. Elas são:

• Positivas, quando sua freqüência é significativamente mais alta no corpus do estudo do

que no de referência.

• Negativas, quando sua freqüência é significativamente mais alta no corpus de

referência do que no de estudo.

As palavras-chave positivas e negativas são exibidas separadamente na tela de resultados.

As positivas aparecem no começo da lista, em cor amarela. As negativas surgem no final

da lista, em cor diferente (vermelho é o default).

As palavras-chave são úteis na análise lingüística para diversos fins, como por exemplo:

• Identificar a temática (‘aboutness’) de um corpus ou de um texto.

211

• Descrever a organização interna dos textos.

• Localizar marcas indicativas de posicionamento ideológico.

• Traçar um perfil lexical de um autor ou de outros indivíduos.

Uma análise por KeyWords exige dois elementos básicos:

(1) um corpus de estudo, representado em uma lista de freqüência de palavras. O

corpus de estudo é aquele que se pretende descrever. A ferramenta KeyWords

aceita a análise simultânea de mais de um corpus de estudo.

(2) um corpus de referência, também formatado como uma lista de freqüência de

palavras. Também é conhecido como ‘corpus de controle’, e funciona como termo

de comparação para a análise. A sua função é a de fornecer uma norma com a qual

se fará a comparação das freqüências do corpus de estudo. A comparação é feita

através de uma prova estatística selecionada pelo usuário (qui-quadrado ou log-

likelihood). As palavras cujas freqüências no corpus de estudo forem

significativamente maiores segundo o resultado da prova estatística são

consideradas chave (vide a distinção entre palavras-chave positivas e negativas

abaixo). O conteúdo do corpus de referência influencia quais palavras-chave serão

identificadas, de tal modo que é possível antecipar o tipo de influência que um

corpus de referência terá no resultado da lista de palavras-chave se compararmos os

perfis dos corpora, com relação a aspectos como: os gênero(s) incluídos, os

assuntos, os períodos, a autoria, etc. Vide item 8.10 (p. 225) para uma explicação

desse ponto.

As palavras-chave são extraídas a partir dos ajustes em vigor para o KeyWords (no menu

Settings, Min & Max Frequencies, guia KeyWords) e para os textos em geral (menu

Settings, principalmente guias Text, Tags e Stop List).

Palavras-chave positivas e negativas

As palavras-chave podem ser de dois tipos:

• Positivas: aquelas cujas freqüências são estatisticamente maiores no corpus de estudo

do que no corpus de referência.

212

• Negativas: aquelas cujas freqüências são estatisticamente menores no corpus de estudo

do que no corpus de referência.

As palavras-chave positivas são o tipo default, ou seja, quando não é especificado o tipo,

subentende-se que o tipo em questão é ‘positivo’.

Na verdade, uma definição mais completa de palavra-chave deve incorporar os tipos de

restrição de freqüência mínima estipulados no menu Settings / Min & Max Frequencies.

Desse modo, uma definição mais rigorosa seria:

Palavra-chave (positiva) é aquela cuja freqüência é estatisticamente superior à encontrada

num corpus de referência, de tal modo que sejam satisfeitas todas as seguintes condições:

a palavra possua uma freqüência de ocorrência maior ou igual ao valor estipulado pelo

usuário no menu Settings / Min & Max Frequencies, min frequency.

o nível de significância p oriundo do teste estatístico não deve ser superior ao estipulado

pelo usuário no menu no menu Settings / Min & Max Frequencies, max p. value.

o resultado da estatística qui-quadrado ou log-likelihood (qualquer que seja a escolhida

pelo usuário), representado por ‘keyness’, esteja entre os x maiores de todas as palavras,

sendo x o número máximo estipulado pelo usuário menu Settings / Min & Max

Frequencies, max wanted.

8.8.2. Palavras-chave chave

Palavras-chave chave (key key words) são palavras que são chave em um número

determinado de arquivos. Uma palavra será mais ‘chave chave’ na medida em que ela for

chave em um maior número de textos; por outro lado, palavras que são chave em menos

textos são menos ‘chave chave’. Elas são calculadas pelo programa KeyWords também,

mas exigem um conjunto de procedimentos diferentes por parte do usuário, necessitando

de um banco de dados de palavras-chave (key words database). As palavras-chave chave

podem ser úteis para:

• Identificar a temática de sub-conjuntos de textos, ou seja, especificar quais conjuntos

de textos contém quais palavras-chave em comum.

• Tornar a análise de palavras-chave mais sensível à distribuição das palavras nos textos.

213

O procedimento de palavras-chave ignora esse aspecto, e, dessa forma, uma palavra

pode ser chave devido à sua alta freqüência em um texto apenas, enquanto sua

freqüência nos demais textos não é distintiva o suficiente para lhe conferir o estatuto de

chave. Em outras palavras, as palavras-chave ajudam a classificar palavras-chave em

‘mais chave’ e ‘menos chave’.

Somente as palavras-chave positivas são levadas em conta para identificação das palavras-

chave chave.

É importante ressaltar que uma palavras-chave muito freqüente não é necessariamente uma

palavra-chave chave, pois sua freqüência pode ser resultado da ocorrência em poucos

textos (menos que o exigido pelo usuário).

8.9. Procedimentos básicos para feitura de lista de palavras-chave

Há três procedimentos básicos disponíveis no KeyWord: (1) criar uma lista apenas,

utilizando uma lista relativa ao corpus de estudo e uma ao corpus de referência; (2) criar

várias listas, usando diversas listas de corpora de estudo e uma única para corpus de

referência (‘batch’, ou lote); e (3) criar um arquivo de banco de dados (key words

database). Cada opção possui uma finalidade:

(1) Lista única. Permite identificar as palavras-chave de um único corpus de estudo.

(2) Listas em lote (‘batch’). Trata-se de um procedimento para produção de listas, não

de listas diferentes. As listas são idênticas à lista única, mas são produzidas

automaticamente pelo programa, em seqüência. Permitem identificar as palavras-

chave de vários corpora de estudo frente ao mesmo corpus de referência.

(3) Banco de dados. É um tipo de arquivo que engloba várias listas de palavras-chave.

Possui duas funções: (1) Ser um meio mais organizado de manter juntas várias

listas de palavras-chave relacionadas; para visualizar as várias listas individuais

que compõem o banco de dados, é preciso usar o comando Next list in .kdb, no

menu File. (2) Permitir identificar as palavras-chave chave de um conjunto de

corpora de estudo. As palavras-chave chave são provenientes da comparação de

vários corpora de estudo frente ao mesmo corpus de referência. A produção de um

banco de dados requer um processamento inicial por lote.

214

8.9.1. Como criar uma lista de palavras-chave apenas (de um arquivo ou

de vários)

(1) No Controller, clique em Tools e depois em KeyWords.

(2) Na janela do KeyWords, clique em Settings, Min Max Frequencies e faça os

ajustes pertinentes ou clique em OK nessa tela para aceitar os ajustes já existentes.

(3) Na janela do KeyWords, clique em File e depois em Start ou no botão .

(4) Na janela ‘Getting Started’, clique em ‘Find the key words in a text’, conforme

ilustra a figura abaixo:

(5) A tela seguinte pedirá a escolha de duas listas de palavras (.lst) já existentes,

conforme ilustra a figura abaixo. Se as listas não existirem, é preciso ir ao

WordList, criar e salvar as listas, antes de continuar.

215

(6) No espaço Word List 1, o analista deve escolher a sua lista de estudo (aquela que

tem interesse em analisar). No espaço Word List 2, deve selecionar a lista de

referência (aquela que possui as freqüências de referência, usadas para

comparação). A lista de referência (Word List 2) deve ser maior, em número de

types, do que a de estudo. Caso contrário, surgirá uma mensagem como a ilustrada

na figura abaixo. A recomendação é que a lista de referência seja cinco vezes, no

mínimo, maior do que a de estudo (Berber Sardinha, 2004).

216

(7) Se o usuário clicar em OK, o processamento continuará. Se quiser cessar o

processamento nesse ponto, é preciso usar as teclas Control, Alt e Del,

pressionadas juntas. Essa combinação de teclas faz parte do Windows, sendo usada

para fechar programas. Surgirá, então, uma tela, informando quais os programas

que estão em funcionamento. O usuário deverá selecionar KeyWords e clicar em

‘Finalizar Tarefa’. A figura abaixo ilustra essa tela.

(8) Surgirá mais uma tela de confirmação informando que o programa WordList teve

seu encerramento solicitado. O usuário deve então clicar em ‘Encerrar Tarefa’. O

programa WordList será encerrado e quaisquer listas não salvas serão perdidas.

Para reiniciar o processamento, o usuário deverá fechar o Controller, pois em seu

menu Tools, o programa WordList permanece selecionado e, portanto, não pode

ser reinicializado. A seguir, deverá iniciar o Controller novamente, escolher o

menu Tools e WordList e reiniciar os passos descritos aqui.

(9) Uma vez selecionadas as listas corretamente, o usuário deve clicar em OK na tela

de seleção de listas. Surgirá uma janela que mostra o andamento do processamento,

conforme ilustra a figura a seguir:

217

(10) Para interromper o processamento, é preciso usar as teclas Control, Alt e

Del, pressionadas juntas, e depois confirmar ‘Encerrar Tarefa’, conforme já

explicado acima, o que fechará o programa WordList por inteiro. Listas não salvas

serão perdidas.

(11) Se o andamento não for interrompido e houver diferenças significativas

entre as freqüências das palavras das duas listas, surgirá uma tela com o resultado

da comparação. Caso contrário, aparecerá uma tela informando que não há

palavras-chave, conforme ilustra a tela abaixo. Para encerrar essa mensagem, o

usuário deve clicar em OK.

(12) Se a análise detectar palavras-chave, o resultado aparece numa tela como a

reproduzida na figura abaixo. A porção da tela a seguir mostra algumas das

palavras-chave positivas, isto é, aquelas cujas freqüências são mais altas,

estatisticamente falando, no corpus de estudo do que no de referência. Como a lista

está ordenada por ordem de chavicidade (‘keyness’), as palavras localizadas no

início da lista mostram aquelas cujas freqüências são mais discrepantes em relação

ao corpus de referência. Por exemplo, ‘Mendonça’ é a palavra-chave mais

distintiva, pois sua freqüência corresponde a 2,44% do total de palavras (‘tokens’)

do corpus de estudo, contra menos do que 0,01% no corpus de referência; ela é,

assim, cerca de 250 vezes mais freqüente no corpus de estudo. Vale lembrar que as

células em branco nas colunas de freqüência indicam valores abaixo de 0,01.

218

(13) Na parte inferior da tela, aparecem as palavras-chave negativas, que são

aquelas cujas freqüências são mais altas, estatisticamente falando, no corpus de

referência. As palavras-chave negativas são identificadas na lista por sua cor

diferente (vermelho, no default). A figura a seguir ilustra parte dessa tela. A

palavra mais negativamente chave está localizada no final da lista. As palavra-

chave se tornam menos negativas à medida que se sobe na lista. Como se percebe,

a palavra-chave mais negativa é ‘de’, que ocorre o equivalente a 1,79% do total das

palavras no corpus de estudo, mas 4,84% no corpus de referência, ou seja, ela é

cerca de 2,5 vezes menos freqüente no corpus de estudo.

219

(14) A lista deve ser salva com o comando Save, no menu File, ou clicando no

botão . A lista será salva no formato nativo do programa KeyWords, com a

extensão .kws.

8.9.2. Como criar várias lista de palavras-chave ao mesmo tempo (‘batch’)

Este se trata de um procedimento para criação, em série, de várias listas de palavras-chave.

Essas listas são idênticas às comuns, que são produzidas uma a uma a partir de listas de

palavras individuais (e cujos passos estão descritos acima).

(1) No Controller, clique em Tools e depois em KeyWords.

(2) Na janela do KeyWords, clique em Settings, Min Max Frequencies e faça os

ajustes pertinentes ou clique em OK nessa tela para aceitar os ajustes já existentes.

(3) Clique em File e depois em New Batch of Key Word Lists.

(4) Surgirá uma janela de escolha das listas. Se as listas não existirem, é preciso ir ao

WordList, criar e salvar as listas, antes de continuar. No espaço Word List 1, o

analista deve escolher a sua lista de estudo (aquela que tem interesse em analisar).

No espaço Word List 2, deve selecionar a lista de referência (aquela que possui as

freqüências de referência, usadas para comparação). A lista de referência (Word

List 2) deve ser maior, em número de types, do que a de estudo. Caso contrário,

220

surgirá uma mensagem como a ilustrada na figura abaixo. A recomendação é que a

lista de referência seja cinco vezes, no mínimo, maior do que a de estudo (Berber

Sardinha, 1999). O usuário deve, então, clicar em OK, para iniciar o

processamento. Uma vez iniciado, será preciso usar as teclas Ctrl, Alt, Del,

simultaneamente, para interromper o andamento. Vide p. 216 para mais detalhes

sobre como interromper o uso do programa dessa maneira.

A próxima janela permite fazer processamento por lote (batch of files). No espaço

superior, aparece a pasta onde o banco de dados será salvo. Lá aparece

automaticamente o endereço default, especificado no menu Settings / Directories.

Os ajustes de tipo de nomeação instruem o programa sobre como nomear o arquivo

de banco de dados. A opção ‘based on original filename’ faz com que o programa

nomeie os arquivos .kws com um nome derivado dos textos usados na lista de

palavras (.lst). Por exemplo, se um texto chamado meutexto.txt foi usado para criar

a lista de palavras estudo.lst, a opção ‘based on original filename’ faria com que o a

lista de palavras-chave fosse chamada meutext1.kws ou algo parecido. Ou seja, o

arquivo não recebe um nome derivado do nome dado à lista de palavras (que seria

algo como estudo.kws). A outra opção da janela, ‘use mask’, dá um nome genérico

para o arquivo .kws, que começa com os caracteres especificados no campo logo

abaixo a essa opção (o máximo são quatro caracteres-base). O default é ‘kw’,

portanto, a lista de palavras-chave é chamada de kw000001.kws, caso não haja

nenhum outro arquivo com esse nome já salvo na pasta; se houver, o nome passará

para kw000002.kws, e assim por diante. É possível alterar o nome das listas depois

de criadas, usando o comando de renomear arquivo no Windows Explorer. Estes

detalhes da nomeação dos arquivos são importantes porque as listas não são abertas

automaticamente ao término do processamento. Dessa forma, o usuário deverá

encontrar as listas nas pastas. Se ele não souber como o programa nomeou as listas

(embora o nome delas seja mostrado na janela de finalização de procedimento –

vide passo abaixo), poderá não encontrar as listas que deseja. A figura a seguir

ilustra essa janela.

221

(5) Uma vez terminado o processamento, aparece uma janela de confirmação,

mostrando os nomes dos arquivos criado. Os arquivos de palavras-chave recebem a

terminação .kws por default. Para continuar é preciso clicar em OK. Ao lado desse

botão, aparece um número que indica a quantidade de listas produzidas. No

exemplo apresentado aqui, foram duas listas; portanto, aparece o número 2,

conforme mostra a figura abaixo.

222

(6) Está encerrada a feitura das listas de palavras-chave em lote. Os arquivos não são

abertos automaticamente, por isso o usuário deve usar o comando Open Key Word

List, no menu File, para vê-las. Se o usuário desejar abri-las, a aparência da lista

será idêntica à da lista de palavras-chave comum.

8.9.3. Como criar uma lista de palavras-chave chave (‘database’)

A criação de uma lista de palavras-chave chave requer a produção de um arquivo de banco

de dados (database), que é descrito abaixo.

(1) No Controller, clique em Tools, KeyWords.

(2) No KeyWords, clique em Settings, Min Max Frequencies e faça os ajustes

pertinentes ou clique em OK nessa tela para aceitar os ajustes já existentes.

(3) Clique no menu File, Create a New Database.

(4) Surgirá a janela de escolha de listas de palavra (choose word lists). No espaço à

esquerda, selecione pelo menos duas listas referentes a corpora de estudo. Para

selecionar a primeira lista, simplesmente clique nela; para selecionar as demais,

segure a tecla ‘Control’ e clique no nome da lista. Para selecionar uma seqüência

de listas, clique na primeira, segure a tecla ‘Shift’ e clique na última. Para

desmarcar a seleção de uma lista, segure a tecla Control e clique na lista. No espaço

à direita, selecione apenas uma lista referente ao corpus de referência. Depois,

clique em OK para continuar. A figura a seguir ilustra este passo.

223

(5) Surgirá a janela que permite fazer processamento por lote (batch of files), ilustrada

na figura a seguir. Na verdade, o programa fará um processamento por batch mas

salvará os arquivos de lista de palavras todos num arquivo só (com extensão .kdb).

Esse mega-arquivo, por assim dizer, é o banco de dados (key words database).

Nessa janela, portanto, a providência mais importante que o usuário deve tomar é

marcar a caixinha ‘store in a database’. No espaço superior, aparece a pasta onde o

banco de dados será salvo. Lá aparece automaticamente o endereço default,

especificado no menu Settings / Directories. Os ajustes de tipo de nomeação

instruem o programa sobre como nomear o arquivo de banco de dados. A opção

‘based on original filename’ faz com que o programa nomeie o arquivo .kdb com

um nome derivado dos textos usados na lista de palavras (.lst). Por exemplo, se um

texto chamado meutexto.txt foi usado para criar a lista de palavras estudo.lst, a

opção ‘based on original filename’ faria com que o arquivo de banco de dados

fosse chamado meutex01.kdb ou algo parecido. Ou seja, o arquivo não recebe um

224

nome derivado do nome dado à lista de palavras (que seria algo como estudo.kdb).

A outra opção da janela, ‘use mask’, dá um nome genérico para o arquivo .kdb, que

começa com os caracteres especificados no campo logo abaixo a essa opção. O

default é ‘kw’, portanto, o arquivo de banco de dados é chamado de

kw000001.kdb, caso não haja nenhum outro arquivo com esse nome já salvo na

pasta; se houver, o nome passará para kw000002.kdb, e assim por diante. É

possível alterar o nome das listas depois de criadas, usando o comando de

renomear arquivo no Windows Explorer.

(6) Uma vez terminado o processamento, aparece uma janela de confirmação,

mostrando o nome do arquivo criado. O arquivo de banco de dados, conforme dito

acima, recebe a terminação .kdb por default. Para continuar é preciso clicar em OK.

Ao lado desse botão, aparece um número que indica a quantidade de listas

incluídas no arquivo .kdb. No exemplo apresentado aqui, foram duas listas;

portanto, aparece o número 2, conforme mostra a figura abaixo.

225

(7) Está encerrado o processamento do arquivo de banco de dados, que agrupa as

palavras-chave chave. O arquivo não é aberto automaticamente, por isso o usuário

deve usar o comando Open Database, no menu File, para inspecioná-lo.

8.10. O corpus de referência

As palavras-chave são identificadas por meio da comparação de freqüências entre um

corpus de estudo (que o usuário deseja analisar) e um corpus de referência. Desse modo, o

corpus de referência desempenha um papel fundamental no resultado da análise. Não há

palavras-chave absolutas: elas são sempre relativas ao corpus de referência empregado.

Duas análises com o mesmo corpus de estudo, usando dois corpora de referência

diferentes, mostrarão resultados distintos.

Não há regras sobre qual o corpus de referência correto. A responsabilidade é do analista

em utilizar um corpus que seja apropriado. Os corpora de referência normalmente

utilizados possuem algumas características em comum, discutidas abaixo.

Os corpora de referência são maiores do que o corpus de estudo. O corpus de referência

deve ser, obrigatoriamente, maior do que o de estudo, caso contrário o programa emite um

aviso (‘... is bigger than the reference corpus file’). O corpus de referência deve ser maior

em relação ao número de types (itens diferentes, vocábulos ou formas), mas como

226

geralmente um número maior de types advém de um número maior de tokens (total de

palavras, ou running words), os corpora de referência também são maiores do que o de

referência em relação à quantidade de tokens. O corpus de referência deve ser maior, em

primeiro lugar, porque sua função é a de representar as freqüências da língua de um modo

geral. Em segundo lugar, deve ser maior a fim de garantir que o maior número de palavras

do corpus de estudo esteja representada no corpus de referência, o que permite a

comparação das freqüências, caso contrário as freqüências não existiriam para serem

comparadas!

Os corpora de referência são muitas vezes de grandes proporções. Geralmente usa-se

corpora de grande extensão como referência. Para o inglês, muitas vezes é usado o BNC,

com 100 milhões de palavras, ou uma coletânea de textos do jornal britânico ‘The

Guardian’ com mais de 90 milhões de palavras. Ambas as listas estão disponibilizadas no

site do autor do programa WordSmith Tools, Mike Scott, em www.liv.ac.uk/ ~ms2928/ .

Para o português do Brasil, pode ser usado o Banco de Português, com mais de 200

milhões de palavras, advindo do projeto DIRECT (CEPRIL, LAEL, Pontifícia

Universidade Católica de São Paulo), disponível pelo site http://lael.pucsp.br/ lael .

Apesar dessa preferência em usar corpora de referência com mais de 100 milhões de

palavras, o corpus de referência não precisa ser tão maior do que o de estudo; algo em

torno de cinco vezes o tamanho do corpus de estudo já é o suficiente (Berber Sardinha,

1999).

O corpus de referência não deve conter o corpus de estudo, porque senão, de certo modo,

estaria sendo feita uma comparação do corpus de estudo consigo mesmo. Além disso, se o

corpus de estudo estiver contido no de referência, as freqüências do corpus ‘inflacionam’

as freqüências do corpus de referência: devido à soma das freqüências, algumas

freqüências salientes no corpus de estudo podem se obscurecer, e portanto, deixar de

indicar palavras-chave. Por exemplo, se no corpus de estudo a palavra ‘banana’ tiver

freqüência 10 e, no corpus de referência, possuir freqüência 1, a diferença será grande

(‘banana’ é dez vezes maior no corpus de estudo) e possivelmente significativa, ou seja, a

palavra ‘casa’ tem chances de ser chave. Mas, se adicionarmos o corpus de estudo ao de

referência, as freqüências passariam a ser 10 no corpus de estudo e 11 no de referência, ou

seja, um diferença de apenas 1, o que diminui as chances de ‘banana’ ser chave.

Quanto à sua composição, não há corpus de referência certo ou errado. Vale o conselho

227

presente na Ajuda do programa WordSmith Tools:

‘Compare apples with pears, or, better still, Coxes with Granny Smiths. So choose your

reference corpus in some principled way. The computer is not intelligent and will try to do

whatever comparisons you ask it to, so it's up to you to use human intelligence and avoid

comparing apples with phone boxes!’

A composição do corpus de referência influencia os tipos de palavra que podem se tornar

chave. Um corpus de características genéricas semelhantes ao corpus de estudo tende a

‘filtrar’, ou seja, eliminar, os elementos genéricos (i.e. relativos a um mesmo gênero) em

comum, resultando em uma lista de palavras-chave que não inclui estes elementos. Alguns

traços lingüísticos que podem vir a ser filtrados são, entre outros, marcadores discursivos

privilegiados, escolhas lexicais típicas, e formas verbais flexionadas em comum. Por

exemplo, se for feita a comparação entre um corpus de estudo de artigos de pesquisa

acadêmicos de medicina e um corpus de referência do mesmo tipo, pode se esperar que

palavras como ‘resultados’, ‘análise’, ‘sugerem’ não se tornem chave. Já um corpus de

referência de um gênero distinto do de estudo tende a não excluir tais palavras ‘genéricas’.

Por isso, um corpus de referência geral, que inclua vários gêneros, é tida como a escolha

não-marcada para estudos de palavras-chave.

Para se ter uma idéia do tipo de filtragem que pode vir a ocorrer nas palavras-chave, pode-

se utilizar um quadro semelhante ao mostrado abaixo.

1 2 3 4 Característica Corpus de

estudo Corpus de referência Resultado

Na coluna 2, deve-se colocar as características referentes ao corpus de estudo, um por

linha. Faz-se o mesmo com o corpus de referência, na coluna 3. As características que

coincidirem, entre as duas colunas, podem promover filtragem entre as palavras-chave. Por

outro lado, as características que diferirem, entre os dois corpora, tendem a se manter entre

as palavras-chave na forma que aparecem no corpus de estudo. Ou seja, a característica

referente ao corpus de estudo se mantém. O quadro a seguir ilustra uma situação hipotética

de comparação de dois corpora:

1 2 3 4

228

Característica Corpus de estudo Corpus de referência

Resultado

Modo Falado Escrito Traço retido: Linguagem falada

Gênero Aulas de inglês Jornais Traço retido: Gênero aula de inglês

Assunto Vários Vários Traço filtrado: Assuntos variados em comum

Período Contemporâneo Contemporâneo Traço filtrado: Tópicos em comum relativos ao cotidiano

Tendo em vista as características retidas, mostradas acima na coluna ‘Resultados’,

podemos supor que as palavras-chave resultantes indicariam:

• Traços da linguagem falada

• Traços do gênero ‘aula de inglês’



‘Start’. Ela contém apenas um botão, que diz Find the Key Words in a Text, ao contrário

das demais ferramentas (Concord e WordList), em que Getting Started propicia atalhos aos

comandos principais do programa. A diferença resulta do fato de que o KeyWords

compara listas já produzidas pelos WordList; sendo assim, os ajustes devem ser feitos para

a produção das listas, no WordList e não no KeyWords.

Abaixo aparece uma figura que a ilustra.

229

8.12. A janela do KeyWords

As principais janelas do programa KeyWords são: (a) a de palavras-chave e (b) a de

palavras-chave chave (database).

8.12.1. A janela da lista de palavras-chave

A figura abaixo ilustra uma janela do programa KeyWords, com palavras-chave:

Os elementos dessa tela são:

230

Word: palavra-chave.

Freq.: (primeiro da esquerda para a direita) Freqüência da palavra-chave no corpus de

estudo.

(nome dos textos) %: (primeiro da esquerda para a direita) porcentagem da freqüência da

palavra-chave, referente ao total de tokens do corpus de estudo.

Freq.: (segundo da esquerda para a direita) Freqüência da palavra-chave no corpus de

estudo.

(nome dos textos) %: (segundo da esquerda para a direita) porcentagem da freqüência da

palavra-chave, referente ao total de tokens do corpus de referência.

Keyness: resultado da estatística de comparação (qui-quadrado ou log-likelihood).

P: valor da estatística p, que indica o grau de significância da estatística de comparação.

As células de porcentagem que estiverem em branco indicam valores abaixo de 0,01, que é

o mínimo exibido.

Valores menores significam maior significância. O máximo geralmente aceitável é 0,05.

Para palavras-chave, o default de p máximo é 0,000001, isto é, diferenças com valor de p

maior não são consideradas chave. Esse valor pode ser alterado a partir do WordList na

opção Max p value, no menu Settings, Min & Max Frequencies, guia KeyWords.

As células de porcentagem que estiverem em branco indicam valores abaixo de 0,01, que é

o mínimo exibido.

A lista é apresentada com ordenação pela coluna Keyness. Desse modo, as palavra-chave

positivas que possuem freqüências mais discrepantes são colocadas no topo da lista. As

que possuem freqüências menos diferentes aparecem perto do final da lista. As negativas

aparecem no final da lista. As negativas são ordenadas por keyness em ordem inversa, ou

seja, a última é a que possui a freqüência mais discrepante (a freqüência no corpus de

referência é marcadamente mais alta do que no corpus de estudo).

É importante atentar para o fato de que a diferença entre as freqüências deve ser procurada

olhando-se para as colunas de porcentagem de freqüência e não para as colunas de

231

freqüência absoluta. Isso porque os corpora de estudo e de referência são, por definição, de

extensão diferente. Desse modo, as diferenças de freqüência entre eles não indicam,

necessariamente, freqüências discrepantes o bastante para serem consideradas indicativas

de palavras-chave. A coluna de porcentagem permite uma visão melhor dessas diferenças,

pois relativiza as freqüências.

No exemplo acima, a palavra ‘Né’ é a mais chave, pois possui uma freqüência de 2,06%

no corpus de estudo e 0,03% no corpus de referência. Daí o seu valor de p tão expressivo

(0,000000). Descendo para o final da lista, o resultado é o seguinte:

Nota-se que as palavras-chave negativas surgem a partir do número 66, com a palavra

‘Inint’, que não aparece no corpus de estudo (freqüência zero), mas ocorre 10374 vezes no

de referência (0,33%). A palavra-chave mais negativa é a que está na posição 77: ‘F’, com

freqüência 0 no corpus de estudo e 45285 (1,44%) no de referência.

8.12.2. A janela da lista de palavras-chave chave (‘database’)

A figura abaixo ilustra uma janela do programa KeyWords, com palavras-chave chave

(‘database’):

232

As colunas constantes nessa tela são:

Word: A palavra-chave chave.

Of 2: Em quantos textos (arquivos) a palavra é chave. O número logo após ‘of’ indica a

quantidade total de arquivos usados nesse banco de dados (database) e é, portanto,

variável. Um banco de dados formado por dez textos teria uma tela onde nesta coluna

apareceria ‘Of 10’.

As %: Porcentagem do total de arquivos em que a palavra é chave. Por exemplo, a palavra

‘Roberto’ é chave em todos (isto é, em 2 dos 2) textos que compõem o banco de dados, por

isso é sinalizado com ‘100’ nessa coluna, significando 100%.

8.12.3. Os menus

Os menus do programa KeyWords são apresentados abaixo. Eles valem tanto para a lista

de palavras-chave quanto para a de palavras-chave chave.

8.12.3.1.File

As opções do menu File são descritas abaixo.

8.12.3.1.1.Start

Inicia a preparação de listas de palavras-chave individuais (isto é, não em lote – ‘batch’). É

233

equivalente ao botão .

8.12.3.1.2.New batch of key word lists

Inicia a preparação de listas de palavras-chave em lote (‘batch’). Vide p. 219.

8.12.3.1.3.Open key word lists

Abre uma lista de palavras-chave.

8.12.3.1.4.Find

Efetua busca de palavras em listas de palavras-chave (.kws, não .kdb). As palavras de

busca são especificados na janela reproduzida abaixo.

É possível perceber que a janela surge truncada. O botão OK, que inicia a pesquisa, não

aparece totalmente visível. O usuário deve abrir a janela para ter acesso a esse botão. A

janela já aberta aparece na figura abaixo. Nos campos ‘search words’, o usuário deve

digitar as palavras que quer encontrar nas listas. Se preencher mais de um campo, o

programa interpreta que ambas as palavras devem estar presentes (relação ‘e’); se um

arquivo contiver apenas uma delas (relação ‘ou’), esse arquivo é desconsiderado. Depois

de digitar a(s) palavra(s) que deseja, basta clicar em OK. O resultado é mostrado como na

janela reproduzida abaixo.

234

No espaço ‘Results’, são indicados os arquivos que contém a(s) palavra(s). O número em

parênteses significa a freqüência da última palavra digitada; se apenas uma palavra for

digitada, a freqüência será referente a essa palavra. No caso acima, o valor ‘(259)’ indica

que ‘até’ possui 259 ocorrências. Esse comando não distingue letras maiúsculas de

minúsculas; as palavras aparecem digitadas automaticamente em letra maiúscula. Além

disso, o resultado mostrado não distingue palavras-chave positivas de negativas. A

freqüência mostrada pode ser relativa a uma palavra-chave de qualquer um dos dois tipos.

8.12.3.1.5.Next list in .kdb

Permite abrir as listas individuais de um banco de dados (arquivo .kdb). Este comando

somente está ativo quando há um arquivo de palavras-chave chave (extensão .kdb) aberto

(por meio do menu File / Database); nas demais ocasiões, ele permanece cinza

(inoperante). Este comando traz uma janela que dá acesso à abertura das listas que fazem

parte do banco de dados, conforme ilustra a figura abaixo:

235

O usuário deve clicar no número que deseja, depois em OK e a lista se abrirá. Para abrir as

demais, é preciso acionar o comando Next List in .kdb novamente. A lista aberta possui o

formato de uma lista de palavras-chave comum (.kws), não o de um banco de dados.

8.12.3.1.6.New database

Abre a tela de seleção de arquivos para a produção de um novo arquivo de banco de dados

(.kdb).

8.12.3.1.7.Open database

Aciona a janela de abertura de arquivos de banco de dados. A janela é do tipo padrão do

Windows, com um espaço para seleção de pastas e outro para a escolha dos arquivos.

8.12.3.1.8.Merge two databases

Opção não implementada no programa. Emite um mensagem de aviso.

8.12.3.1.9.Print

Abre uma pequena janela de visualização da impressão. Nessa tela, no topo, encontram-se

botões de zoom e de envio do arquivo para a impressora. Somente funciona com uma lista

aberta.

8.12.3.1.10.Save

Permite salvar uma lista ou arquivo de banco de dados (database) num arquivo. O nome do

arquivo não deve ultrapassar oito caracteres, seguido de uma extensão de no máxima três

236

caracteres. A extensão padrão da lista comum é .kws e do arquivo de banco de dados é

.kdb.

8.12.3.1.11.Save As

Opção usada para salvar uma lista ou arquivo de banco de dados já salva com um nome

diferente.

8.12.3.1.12.Save as Text

Faz com que a lista seja salva num arquivo-texto. A tela correspondente pede que o

usuário especifique um nome para o arquivo, além de permitir fazer ajustes no tipo de

informação que é gravado no arquivo. Pressionando OK faz com que o arquivo seja

gravado. As opções dessa tela são:


a data e hora do salvamento da lista, aparece automaticamente. O usuário pode digitar o

que quiser lá. Caso não deseje um cabeçalho, basta apagar a informação do campo.



Number each line: Se marcado, faz com que cada linha da lista seja numerdada,

seqüencialmente.

Column separator: Caracter que faz a separação entre as colunas de informação da lista.

Tab: caracter de tabulação (é o default). Specify: o usuário pode especificar um caracter

ali, digitando-o.







coluna ‘N’).

237

8.12.3.1.13.Copy

Abre uma janela que permite que o conteúdo da lista seja copiado para um destes destinos:

(a) clipboard, (b) arquivo-texto (text file), (c) impressora (printer), (d) arquivo lst (lst file),

conforme mostra a tela abaixo.

A opção ‘clipboard’ faz com que a lista seja enviada para o clipboard (‘área de

transferência’) do Windows. Desse modo, o conteúdo pode ser colado, por exemplo, em

um arquivo do Word. É a opção mais flexível, mas ao mesmo tempo deve ser evitada caso

o tamanho da lista seja grande (tamanho grande é relativo ao hardware), pois a máquina

pode travar. A opção ‘text file’ funciona do mesmo modo que ‘Save as Text’, explicado

acima, enquanto ‘printer’ faz a mesma operação que o comando ‘Print’, e ‘kws file’, a

mesma que ‘Save’. As opções em ‘What data’ referem-se à porção da lista que será

copiada: ‘all’ copia tudo, ‘selected’ copia somente a porção previamente escolhida com o

mouse (ou tecla shift mais teclas de seta). ‘Let me specify’ não está ativo (permanece em

cor cinza).

8.12.3.1.14.Exit

Finaliza o programa. Faz uma série de perguntas antes de encerrar-se.

8.12.3.1.15.No-check Exit

Finaliza o programa bruscamente, sem fazer perguntas.

238

8.12.3.2.Settings

As opções do menu Settings são descritas abaixo.

8.12.3.2.1.Colours.

Permite mudar as cores das janelas da lista.

8.12.3.2.2.Directories.


para escolher textos (‘Texts’) e para salvar e abrir concordâncias (‘Concord’), listas de

palavras-chave (‘KeyWords’) e listas de palavra (‘WordList’). É aconselhável não alterar

esses diretórios. Pode ser útil modificá-los temporariamente caso o usuário deseje trabalhar

por algum tempo com pastas diferentes, o que economizará tempo para acessar as pastas.

8.12.3.2.3.Font.

Remete à guia ‘General’ do menu ‘Settings’, que serve para especificar aspectos


8.12.3.2.4.Min & Max Frequencies

Nessa tela são feitos os ajustes relativos a critérios de preparação das listas e de execução

do teste estatístico que determina as palavras-chave. A tela é reproduzida abaixo.

239

Chi-square e Log-likelihood

As opções ‘chi-square’ (qui-quadrado) e ‘log-likelihood14’ se referem aos cálculos

estatísticos que fazem as comparações de freqüências de cada palavra nas listas de palavras

relativas ao corpus de estudo e ao de referência.

A estatística log-likelihood, também chamado de G2, é calculada por meio da preparação

de uma tabela (‘contingency table’) de valores observados, como a apresentada abaixo15,

para cada palavra que se encontra nos dois corpora (de estudo e de referência, o corpus de

estudo pode ser o 1 ou o 2).

Estudo Referência Total Freqüência da palavra a b a+b Freqüência das demais c-a d-b c+d-a-b

14 Pode ser traduzido como ‘log-verossimilhança’.

15 Paul Rayson, em http://ucrel.lancs.ac.uk/llwizard.html

240

palavras no corpus Total c d c+d

A seguir, são calculadas as chamadas freqüências esperadas (‘expected frequencies’), que

representam os valores que seriam obtidos caso não houvesse diferença entre as

freqüências. Esses valores esperados também compõem uma tabela, mostrada abaixo.

Estudo Referência Freqüência esperada da palavra Ea Eb

Para calcular o valor Ea (a freqüência esperada de ‘a’), o cálculo é o seguinte:

Ea = c*(a+b) / (c+d)

Para calcular o valor Eb (a freqüência esperada de ‘b’), o cálculo é o seguinte:

Eb = d*(a+b) / (c+d)

Esses valores das freqüências observadas e esperadas, bem como o tamanho dos corpora,

devem ser transpostos para a fórmula de cálculo de log-likelihood, que é a seguinte:

Essa fórmula pode ser re-escrita da seguinte maneira:

G2 = 2*((a*ln (a/E1)) + (b*ln (b/E2)))

Onde ln significa o logaritmo natural.

Para ilustrar, tomemos os seguintes dados:

Corpus de estudo Corpus de referência Freqüência da palavra ‘banana’

125 100.000

Tamanho dos corpora 10.000 10.000.000

Em termos de porcentagem do total do corpus, temos:

241

Corpus de estudo

Corpus de referência

Porcentagem da freqüência da palavra ‘banana’ em relação ao tamanho do corpus

1,25% 1%

Transpondo esses números para a tabela completa, chegamos a:

Estudo Referência Total Freqüência de ‘banana’ 125 100.000 100.125 Freqüência das demais palavras no corpus 9875 9.900.000 9.909.875

Total 10.000 10.000.000 10.010.000

Aplicando a fórmula, obtemos:

G2 = 5,83

O próximo passo consiste em saber se o valor de G2 = 5,83 indica uma diferença de

freqüência estatisticamente significativa ou não. Se indicar, então a palavra é chave; caso

contrário, não é. Os valores de significância indicam os níveis de probabilidade de que as

diferenças entre as freqüências poderiam ter acontecido por acaso. A significância

estatística é indicada por meio da letra p. Quanto menor o valor de p, mais significante é a

diferença. O valor máximo de p normalmente adotado é 0,05. Esse valor significa que a

probabilidade é de uma chance em 20 (1/20=0,05) de os resultados terem sido obtidos por

acaso; com p = 0,01, a probabilidade é de 1 em 100, com p = 0,001 de uma de 1.000, e

assim em diante. Na comparação de palavras-chave, o valor de p adotado é bem menor do

que p = 0,05, porque as diferenças de freqüência entre o corpus de estudo e o de referência

são geralmente expressivas, já que o corpus de referência deve, por definição, ser maior do

que o de estudo. Normalmente, o valor escolhido está entre 0,000001 e 0,000000001.

Quanto menor o valor, maior a diferença entre as freqüências deverá ser para que a palavra

se torne chave.

Para saber se o resultado de G2 indica uma diferença significativa entre as freqüências, é

preciso consultar uma tabela de valores críticos (mínimos) de significância estatística para

esse teste. Alguns valores críticos importantes para o tipo de tabela mostrado acima são:

Valor de G2 Significância Menor que 3,8 Não significante (isto é, p > 0,05)

242

Entre 3,8 e menor que 6,6 Significante (p < 0,05) Maior ou igual a 6,6 Significante (p < 0,01)

O valor de G2 = 5,83 está entre 3,8 e 6,6 e, portanto, é significante (p < 0,05). Ou seja,

‘banana’ é uma palavra-chave desse corpus.

Contudo, seguindo o raciocínio exposto acima, o valor de significância deve ser menor do

que 0,05 em análise de palavras-chave, para que sejam escolhidas palavras cujas

freqüências demonstrem diferenças realmente marcantes. Assim, a palavra ‘banana’

poderia não fazer parte da lista palavras-chave, porque:

• Caso o valor máximo de p escolhido para a análise (no próprio menu ‘Min & Max

Frequencies’, no campo ‘max p. value’) fosse menor (digamos 0,000001), ‘banana’

não seria considerada chave.

• Se o valor de G2 obtido por ela não a colocasse entre as aquelas possíveis diante da

quantidade máxima estabelecida no campo ‘max wanted’, a palavra não seria incluída

na lista. Por exemplo, se ‘max wanted’ fosse 500 e existissem outras 1000 palavras

com G2 maior, ‘banana’ estaria fora da lista de palavras-chave.

• Mesmo que o valor de p estivesse em 0,05 (o máximo possível) e ‘max wanted’ desse

conta da posição em que ‘banana’ se encontra, uma lista ordenada por ‘keyness’ (isto

é, pelo resultado do teste estatístico) não exibiria a palavra ‘banana’ entre as primeiras

da lista.

O programa KeyWords exibe tanto as freqüências observadas quanto as porcentagens das

palavras-chave. Desse modo, o analista pode ter uma idéia da freqüência relativa das

palavras em relação ao corpus, evitando um erro de julgamento que poderia acontecer caso

se detivesse nas freqüências absolutas. Por exemplo, no caso acima, a palavra ‘banana’

possuía freqüência de 125 em um corpus e de 100 mil em outro; essas freqüências por si só

dão a impressão de que ‘banana’ é muito mais freqüente no corpus de estudo (100 mil), o

que não faz dela uma palavra-chave positiva. O analista poderia até ser levado a pensar

que ela poderia ser palavra-chave negativa, visto que sua freqüência no corpus de estudo é

bem maior. Mas, quando levamos em conta a freqüência da palavra e quanto isso

representa em termos do tamanho do corpus (em tokens), conforme mostram as

freqüências em porcentagem, percebemos que a palavra ‘banana’ possui freqüência

243

parecida nos dois corpora (1,25% versus 1%).

Por exemplo, tomemos o caso abaixo:

Estudo Referência Freqüência de ‘banana’ 2965 1.152.203 Tamanho do corpus (tokens) 592.860 230.460.560

% da freqüência em relação ao tamanho do corpus (tokens)

0,5% 0,5%

Nesse caso, as freqüências de ocorrência são muito diferentes, mas representam a mesma

porcentagem em ambos os corpora: 0,5%. Sendo assim, a palavra não é chave. O valor de

G2 resultante é zero (p não significante).

Para o cálculo do qui-quadrado (χ2), os dados são dispostos no mesmo tipo de tabela com

os valores observados, conforme mostrado acima (p. 241). Também são calculados os

valores esperados, mas desta vez para a tabela inteira:

Corpus 1 Corpus 2 Freqüência esperada da palavra Ea Eb

Freqüência esperada das demais palavras no corpus E(c-a) E(d-b)

Para calcular os valores de E(c-a) (a freqüência esperada de ‘c-a’) e de E(d-b) (a

freqüência esperada de ‘d-b’), os cálculos são os seguintes:

E(d-b)=d*(c+d-a-b)/ c+d

E(c-a)=c*(c+d-a-b)/ c+d

A seguir, são calculadas as diferenças entre as freqüências observadas e os esperadas para

cada valor da tabela usando a fórmula abaixo:

(Valor observado – valor esperado)2 / valor esperado

Assim, para o cálculo dessa diferença para o valor ‘a’ da tabela, temos:

244

(a-Ea) 2 / Ea

e para b:

(b-Eb) 2 / Eb

e assim por diante.

Depois, são somadas as diferenças das quatro células da tabela. O resultado é o valor do

qui-quadrado. Desse modo, temos a tabela abaixo como referência:

Corpus 1 Corpus 2 Diferença entre a freqüência observada e a esperada da palavra

W X

Diferença entre a freqüência observada e a esperada das demais palavras no corpus

Y Z

Qui-quadrado será então:

W + X + Y + Z

Ou, em notação matemática:

!"

=E

EO2

2 )(#

O valor de qui-quadrado deve então ser comparado a uma tabela de valores críticos

específica, do mesmo modo que o log-likelihood:

Valor de χ2 Significância Menor que 5,99 Não significante (isto é, p > 0,05) Entre 5,99 e menor que 9,21 Significante (p < 0,05) Maior ou igual a 9,21 Significante (p < 0,01)

Tomando o exemplo acerca da palavra ‘banana’ mostrado acima, o resultado da estatística

qui-quadrado seria:

χ2 = 6,31

245

que é significante no nível de p < 0,05. Esse valor é idêntico ao obtido com log-likelihood.

Como se percebe pela exposição acima, os dois testes operam com o mesmo princípio:

comparam as freqüências observadas no corpus com as freqüências esperadas. Contudo,

nem por isso os resultados são idênticos, usando um método ou outro. Para ilustrar, abaixo

aparecem os resultados referentes às 20 primeiras palavras-chave de uma lista ordenada

por ‘keyness’, usando a opção log-likelihood (lembrando que as células em branco

indicam valores abaixo de 0,01):

N WORD FREQ. ESTUDO.LST FREQ. REFER.LST KEYNESS P 1 DÓLARES 730 0,12 16.312 2766,3 0,000000 2 VEJA 628 0,11 20.863 1925,6 0,000000 3 COPYRIGHT 196 0,03 385 1597,7 0,000000 4 VINTE 293 0,05 4.963 1260,3 0,000000 5 SE 6.064 1,02 1.459.885 0,63 1199,4 0,000000 6 RESERVADOS 190 0,03 1.179 1170,2 0,000000 7 UM 7.158 1,21 1.903.447 0,83 918,8 0,000000 8 QUARENTA 161 0,03 1.832 811,5 0,000000 9 ANOS 1.890 0,32 377.564 0,16 678,2 0,000000 10 NUM 686 0,12 81.781 0,04 668,0 0,000000 11 TRINTA 166 0,03 3.567 640,9 0,000000 12 NOVECENTOS 104 0,02 697 625,9 0,000000 13 UMA 5.528 0,93 1.511.965 0,66 612,4 0,000000 14 QUINZE 146 0,02 2.652 609,0 0,000000 15 NUMA 573 0,1 65.526 0,03 591,1 0,000000 16 QUILÔMETROS 209 0,04 9.631 519,5 0,000000 17 SETENTA 94 0,02 1.001 485,4 0,000000 18 NÄO 52 54 473,8 0,000000 19 SESSENTA 93 0,02 1.173 451,0 0,000000 20 REAIS 240 0,04 15.839 450,2 0,000000

A seguir aparecem as 20 primeiras palavras-chave, usando os mesmos corpora, retiradas

com a estatística qui-quadrado:

N WORD FREQ. ESTUDO.LST FREQ. REFER.LST KEYNESS P 1 COPYRIGHT 196 0,03 385 25.313,10 0,000000 2 DÓLARES 730 0,12 16.312 10.783,20 0,000000 3 RESERVADOS 190 0,03 1.179 9.872,80 0,000000 4 NÄO 52 54 9.674 0,000000 5 VEJA 628 0,11 20.863 5.956,50 0,000000 6 VINTE 293 0,05 4.963 5.787,40 0,000000 7 FORCAS 34 47 5.347 0,000000 8 MILHÖES 28 28 5.222 0,000000

246

9 NOVECENTOS 104 0,02 697 5.020,00 0,000000 10 QUARENTA 161 0,03 1.832 4.733,70 0,000000 11 EVELYNE 30 43 4.599 0,000000 12 VISAO 32 53 4.498,20 0,000000 13 CINCOENTA 32 55 4.393 0,000000 14 GORBACHEV 36 77 4.287 0,000000 15 SÄO 22 23 3.971 0,000000 16 CROSSAN 20 22 3.499 0,000000 17 PINTASSILGO 27 56 3.253 0,000000 18 BONAB 17 17 3.095,70 0,000000 19 PODERA 19 24 3.073 0,000000 20 VILINHA 18 21 3.033 0,000000

Comparando as duas listas, o resultado é o seguinte:

Ocorrem* em ambas as listas 8 40% Ocorrem em apenas uma das listas 12 60% Total 20 100%

* Os números referem-se à contagem de itens (‘types’)

As oito palavras que acontecem em ambas as listas são:

COPYRIGHT DÓLARES NÄO NOVECENTOS QUARENTA RESERVADOS VEJA VINTE

Todas as demais palavras são exclusivas de um ou outro método.

Esses resultados sugerem que os dois testes produzem listas razoavelmente diferentes, pelo

menos entre as palavras-chave mais distintivas (entre as 20 primeiras), já que menos da

metade das palavras-chave extraídas por qualquer um dos métodos é semelhante às

extraídas pelo outro método. A razão disso parece estar relacionada à freqüência das

palavras selecionadas como chave por cada método. A tabela abaixo mostra as freqüências

médias das 20 primeiras palavras-chave identificadas por cada estatística.

Estudo Referência Log-likelihood 1.260 274.016 Qui-quadrado 133 2.338

247

As freqüências das palavras na lista preparada com qui-quadrado parecem ser

sensivelmente mais baixas do que na lista com log-likelihood. Na verdade, trata-se de uma

tendência do teste qui-quadrado de atribuir significância mesmo a palavras de freqüência

baixa quando elas ocorrem em corpora grandes (Kilgariff). Devido a isso, o log-likelihood

é um teste mais robusto, que se protege desse problema. As palavras-chave indicadas por

ele tendem a ser mais claramente indicativas de freqüências realmente distintivas. Assim, é

recomendável que o analista dê preferência ao log-likelihood como método de extração de

palavras-chave.

Max p. value

Este é o espaço onde o usuário deve escolher o nível de significância máximo

(representado por p) para uma palavra poder ser considerada chave. Palavras cujo

resultado da comparação estatística resultar em um p igual ou menor (isto é, com mais

zeros) que o indicado poderão ser consideradas chave. Note que nem todas as palavras que

passam nesse critério são incluídas na listagem de palavras-chave, pois elas ainda sofrerão

outro corte, feito pelo critério de número máximo desejado (max wanted).

O valor de significância é obtido a partir do cálculo estatístico comparativo das

freqüências, usando o método qui-quadrado (chi-square) ou o log-likelihood (explicados

na subseção acima). Em termos práticos, a escolha de um nível de significância menor

(isto é, com mais zeros) implica na identificação de menos palavras-chave.

Max wanted

Permite a especificação do número máximo de palavras-chave a serem incluídas na

listagem. O programa escolhe as primeiras x palavras (dentre aquelas com valor de p

satisfatório, conforme explicado acima), de acordo com o valor de ‘keyness’, que é o valor

da prova estatística. Quanto mais alto o valor de ‘keyness’, maior a discrepância entre a

freqüência do corpus de estudo e a do corpus de referência (guardadas as especificidades

de cada método estatístico). Assim, se o for especificado o valor de 500 palavras para

‘Max wanted’, o programa escolherá as 500 palavras-chave com ‘keyness’ mais alto, que

serão aquelas cujas diferenças de freqüência são estatisticamente mais marcantes.

Esse critério pode parecer redundante em relação ao de valor máximo de p, mas não o é.

Isso porque muitos valores de ‘keyness’ podem possuir um mesmo valor de p, já que este é

248

expresso em valores que compreendem uma faixa: p=0.00001 aceita todos os valores que

são menores do que ele, em incrementos de uma casa decimal (p=0.000001, p=0.0000001,

etc.).

Min frequency

Permite determinar a freqüência mínima da palavra para se tornar chave. Para que todas as

palavras sejam levadas em conta durante o processamento estatístico, é preciso especificar

o valor 1. Entretanto, normalmente o analista não deseja que palavras com freqüência 1

possam ser consideradas chave, por isso é recomendável usar o mínimo de 2 para esse

campo. Quanto menor o corpus, menor deve ser este valor. Não há recomendações

objetivas acerca de qual o valor da freqüência mínima em razão do tamanho do corpus

usado na pesquisa. O usuário pode tanto experimentar com vários valores até considerar os

resultados satisfatórios, ou simplesmente especificar o valor mínimo de 2. Os demais

ajustes (max p. value e max wanted) farão a seleção das palavras.

Database min frequency

Indica a quantidade mínima de arquivos em que uma palavra foi chave para que seja

incluída num banco de dados (database) de palavras-chave. Um banco de dados de

palavras-chave é usado para identificação de palavras-chave chave.

Algumas indicações para estabelecimento do valor desse campo aparecem abaixo:

• O valor mínimo deve ser dois. Caso contrário, qualquer palavra-chave será palavra-

chave chave.

• Se houver muitos arquivos no banco de dados, é melhor estabelecer um valor maior do

que dois. Uma maneira de chegar a um número minimanente criterioso é fazer com que

seja representativo da maioria dos textos (arquivos), isto é, a metade mais um. Assim,

se o banco de dados possuir 50 textos, então o valor seria 26 (50 / 2 = 25; 25 + 1 = 26).

• O valor deve ser maior do que o referente a ‘associates min frequency’, caso contrário

o programa não distinguirá entre palavra-chave chave e associado: qualquer associado

poderá palavra-chave chave, desde que ocorra nos mesmo textos (arquivos) em uma

palavra-chave chave ocorreu. Vide explicação sobre diferença entre palavra-chave

chave e associado na subseção abaixo.

249

Quanto mais alto o valor digitado nesse campo, menor será o número de palavras-chave

chave. Por exemplo, suponha que a palavra ‘Brasil’ tenha sido chave em apenas um texto

(arquivo). Se o número mínimo exigido em Database Min Frequency for 2, a palavra

Brasil não será incluída no banco de dados.

Porém, isso não significa que ‘Brasil’ seria totalmente descartado da análise. Na verdade,

‘Brasil’ ainda poderá ser um associado (‘associate’) de uma outra palavra-chave, caso

possua a freqüência mínima para isso (vide abaixo).

Associate min frequency

Indica a quantidade mínima de arquivos em que uma palavra foi chave juntamente com

uma palavra-chave chave para que seja considerada associada à palavra-chave chave.

Por exemplo, suponha que ‘Brasil’ seja chave em 10 textos (arquivos) e o número mínimo

estipulado para ser chave chave (em database min frequency) seja 5. Dessa forma, ‘Brasil’

é palavra-chave chave. Agora suponha que ‘país’ seja chave em cinco dos 10 textos em

que ‘Brasil’ também é chave e que o valor mínimo estipulado em ‘associate min

frequency’ seja 2; dessa forma, ‘país’ é considerado associado da palavra-chave chave

‘Brasil’.

Não há um valor exato para a freqüência mínima do associado. A ajuda do WordSmith

Tools fala em um valor igual a 5, o que significa que uma palavra-chave terá de ocorrer em

pelo menos cinco dos textos (arquivos) em que uma outra palavra é chave chave para ser

um associado a ela.

Uma dúvida que surge a respeito das noções de palavra-chave chave e de associado é se

todo associado é palavra-chave chave. A resposta é não. Os ajustes de freqüência mínima

são independentes para cada um. Conforme explicado acima, para palavra-chave chave, a

freqüência mínima é estipulada em ‘Database Min Frequency’ e para associado, em

‘associate min frequency’.

Porém, os dois poderão ser a mesma coisa (ou seja, uma palavra-chave chave terá como

associado uma outra palavra-chave chave e vice-versa) em circunstâncias especiais. Mais

especificamente:

• Se as freqüências mínimas exigidas (em database min frequency e associate min

250

frequency) forem iguais, e ...

• ... se o associado ocorrer sempre nos mesmos textos (arquivos) que a palavra-chave

chave.

Para ilustrar as diferenças entre palavra-chave chave e associado, vide o exemplo abaixo.

Os valores mínimos levados em conta são:

• Min database frequency: 3

• Min associate frequency: 2

Imagine que as palavras-chave dos textos do banco de dados (database) sejam as

mostradas na tabela a seguir:

Texto Texto 1 Texto 2 Texto 3 Texto 4 Palavras-chave

Maçã (a) Banana (c) Laranja Figo

Maçã (a) Banana (c) Limão (d) Abacaxi (b)

Maçã (a) Manga (e) Limão (d) Abacaxi (b)

Pêssego Manga (e) Uva Abacaxi (b)

A análise resultante aparece abaixo.

Palavra-chave chave:

Maçã, porque ocorre como chave em três textos (1, 2 e 3).

Abacaxi, porque ocorre como chave em três textos (2, 3 e 4).

Associados:

Banana: Associado de ‘maçã’ porque ocorre em dois textos em que ‘maçã’ é chave (1 e 2).

Limão: Associado de ‘maçã’ porque ocorre em dois textos em que ‘maçã’ é chave (2 e 3).

Manga: Associado de ‘abacaxi’ porque ocorre em dois textos em que ‘abacaxi’ é chave (3

e 4).

8.12.3.2.5.Printing

251

Permite fazer ajustes na impressão, fontes e nos arquivos abertos automaticamente pelo

programa quando iniciado. Vide item 7.4.2.3.8 na p. 110.

8.12.3.2.6.Stop list






será levada em conta. Vide item 7.4.2.3.10 p. 111 para maiores detalhes.

8.12.3.2.7.Tag list

‘Tags’ (ou etiquetas) são códigos de marcação dos textos, que trazem informações dos

mais variados tipos. Os ajustes feitos nesse menu alteram a maneira como o programa

reage a esses códigos. Vide seção 7.4.2.3.11 na p. 112 para mais detalhes.


Essa opção refere-se à guia ‘Text’ da tela de ‘Settings’. Nela, é possível fazer ajustes na

maneira pela qual o programa processa a formatação dos textos. Vide seção 7.4.2.3.12 p.

121 para maiores informações.







8.12.3.3.Window

Esse menu organiza as janelas abertas na tela, no estilo padrão do Windows. ‘Tile’ coloca

as janelas de modo adjacente, ‘Cascade’ uma sobre as outras, ‘Arrange All’ as transforma

em ícones (não está ativo em algumas versões) e ‘Minimize All’ as minimiza.

252

8.12.3.4.Help

É o menu de ajuda, padrão do Windows.

A versão do WordSmith Tools instalada pode ser vista na opção ‘About & Memory’ do

menu ‘Help’.

8.13. Os botões da barra de ferramentas

Esses botões fazem parte da janela do KeyWords. Alguns estão sempre visíveis, mesmo

quando não há nenhuma lista aberta, outros não. Eles são descritos abaixo:

Remete à janela Getting Started (vide 8.10, p. 225).

Save. Abre a janela de salvamento da lista, ou, se ela já tiver sido gravada, salva-a

novamente com o mesmo nome.

Save As. Abre a janela de salvamento de arquivo, permitindo salvar uma lista com

outro nome.

Save as Text. Salva a lista de palavra como texto. Vide p. 236.


a impressora.

Copy. Permite copiar a lista de palavras inteira ou em partes para a área de


(equivalente a imprimir), e um arquivo .lst (equivalente a Save ou Save As). Em What

Data, permite selecionar se a lista de palavras ou lista de palavra-chave será salva inteira

(all), ou somente a parte selecionada com o cursor (selected). Vide p. 237.

Help. Abre o menu de ajuda.





253

8.14. Botões da janela de palavras-chave

Esta seção apresenta os botões encontrados na tela onde aparece a lista de palavras-chave

do tipo simples (.kws). Os botões da tela de arquivo de banco de dados (.kdb) são

apresentados na p. 261 ff.

Re-sort: Faz a reordenação da lista. Segue o tipo de re-ordenação usado nas

concordâncias.


Compute: Calcula o resultado de uma fórmula definida pelo usuário. Esse recurso

disponibiliza funções de planilha de cálculo para a lista de palavras.













lista.




versões).

254

Plot: gráfico mostrando a posição das palavras-chave. É semelhante ao gráfico

produzido pelo arquivo de índice do tipo File Order (vide p 181). Ao acionar esse

comando, o programa começa o processamento, fazendo uma concordância para cada

palavra-chave constante na lista, tanto as positivas quanto as negativas. Por isso, o

processamento pode demorar vários minutos. Para interromper o andamento, é preciso

teclar, conjuntamente, Control, Alt, Del, depois encerrar o programa KeyWords. Vide mais

detalhes sobre a janela do ‘plot’ em 8.14.1 p. 255.


View. Abre o viewer, com o(s) texto(s) onde a palavra ocorreu.

Concord. Faz uma concordância da palavra onde está o cursor ou das palavras

selecionadas.

Word list. Salva a lista de palavras-chave (.kws) como uma lista de palavras no formato

.lst. Por exemplo, a lista de palavras mostrada na p. 260 transforma-se numa lista de

palavras conforme a mostrada na figura abaixo.

255


arquivos que contém todas elas. Serve para encontrar os arquivos que contém a(s)

palavra(s) desejada(s). Não funciona com palavras lematizadas (joined), emitindo uma

mensagem de erro. Vide p. 207 para mais detalhes.

8.14.1. A janela do gráfico (‘plot’)

A figura abaixo ilustra a tela do ‘plot’.

As colunas dessa tela são as seguintes:

Word: A palavra-chave.

Links: Número de ligações (‘links’) da palavra. Uma ligação acontece quando uma

palavra-chave ocorre no mesmo horizonte colocacional de outra palavra-chave. Horizonte

colocacional é a distância máxima de cada lado de uma palavra de onde são extraídos os

colocados. A distância padrão do horizonte é de cinco palavras para a esquerda e cinco

para a direita (a distância pode ser alterada no menu Settings / Text Characteristics, na guia

Concord, horizons). O número indicado nessa coluna mostra a freqüência somada das

ocorrências da palavra-chave em questão no horizonte colocacional das demais. Devido ao

fato de uma palavra poder ocorrer com mais de uma ao mesmo tempo, a soma das

ocorrências pode ultrapassar o total de ocorrências da palavra. Por exemplo, na janela

reproduzida acima, a palavra-chave ‘MINUTINHO’ (na linha 7) aparece com 17 ligações

256

(‘links’) em 5 ocorrências (‘In’). As cinco ocorrências da palavra geraram 17 ligações

porque uma mesma ocorrência de ‘minutinho’ qualquer ocorreu com várias outras

palavras-chave ao mesmo tempo. Para ver quais palavras formaram as ligações, é preciso

acionar o botão ‘Links’ ( ) (vide p. 258).

In: Freqüência da palavra-chave.

Plot: O gráfico. As ocorrências são sinalizadas por pequenos traços verticais. Cada traço

não representa, necessariamente, uma palavra, pois se a freqüência for muito alta, não

haverá espaço nem definição suficiente na tela para mostrar em detalhe todas as posições

exatas da palavra. Algumas vezes, quando muitos traços se aglomeram, eles podem formar

uma área sólida no gráfio. Para saber com exatidão a posição de cada palavra no texto, é

preciso salvar a lista como texto (Save as Text, ). Como esse recurso não mostra a

separação entre os arquivos processados, ela é recomendada apenas para análises de textos

únicos. Vide discussão no final dessa seção.

O gráfico está entrecortado por uma linha tracejada (azul, no original) aproximadamente a

um quarto do início da coluna onde o gráfico está inserido. Essa linha foi acionada pelo

botão Ruler . Esse recurso desenha uma linha no gráfico mostrando onde um arquivo

começa e outro termina, caso mais de um arquivo tenha sido selecionado. Se apenas um

arquivo tiver sido analisado, então o botão produz uma divisão em oito partes iguais (esse

recurso não está ativo em algumas versões). No caso da tela acima, a linha mostra a

separação entre os dois arquivos escolhidos para análise, mas ele não indica qual arquivo

corresponde a qual parte da divisão. O botão Filenames não fornece essa informação,

pois a ordem em que ele informa o nome dos arquivos não é necessariamente a ordem em

que eles aparecem na coluna Plot. Para saber qual arquivo cada divisão representa, é

possível usar o Concord. Para tanto, o usuário deve escolher uma palavra cuja freqüência

seja 1, colocando o cursor sobre ela. Depois, deve acionar o botão . O resultado será

uma concordância de uma linha apenas; a coluna File, do Concord, informará a fonte dessa

linha, que será, então, o arquivo a que pertence aquela ocorrência encontrada no Plot.

Voltando ao Plot, o usuário poderá então determinar qual seção do gráfico corresponde

aquele arquivo. Ele deve fazer isso com tantas divisões quantas forem necessárias.

Para detalhes sobre o botão ‘Save as Text’ ( ), que grava a lista transformando as

posições do ‘plot’ em números, vide p. 183.

257

A janela do gráfico traz consigo os seguintes botões:

Re-Sort. Re-ordena o gráfico a partir das informações das colunas do gráfico. A

ordenação inicial é por ‘hits per 1,000 words’. Ao clicar no botão ‘Re-Sort’, a ordenação

do gráfico muda automaticamente, na seguinte ordem:

Segundo clique: ordenação por primeira ocorrência (‘text order’). Os arquivos em que o

termo de busca ocorrem primeiro aparecem primeira na listagem, e vice-versa. A margem

esquerda do retângulo de plotagem representa o início de cada texto. A tela abaixo mostra

o gráfico apresentado acima ordenado por primeira ocorrência. Como se percebe, os traços

indicativos de ocorrências formam uma linha diagonal, entre os textos, que se distancia do

início do arquivo.

Essa opção é útil para indicar, por exemplo, como cada texto se segmenta topicalmente, ou

seja, como cada um distribui a informação relativa ao termo de busca em relação aos

demais.

Terceiro clique: re-ordena pela distância entre a primeira e a última ocorrência (‘range’).

Os arquivos em que a distância é maior aparecem no início da listagem, e vice-versa. Os

arquivos com apenas uma ocorrência do termo são dispostos em ordem alfabética. Essa

opção pode dar uma indicação da extensão de cobertura do termo de busca. Na medida em

258

que as aparições posteriores do termo de busca são repetições da primeira e, portanto,

fazem referência anafórica a ela (e às demais), a distância entre a primeira e a última

aparição do termo de busca pode ser vista como uma representação da cobertura que o

termo de busca possui no texto.

Quarto clique: Lista os arquivos em ordem alfabética (de A a Z).

Layout. Esse botão ativa uma janela onde se pode fazer alterações na disposição

dos elementos da tela do gráfico. Na área superior à esquerda, encontram-se os nomes das

diversas colunas que compõem o gráfico. Para mudá-las de ordem, basta selecionar uma de

cada vez e clicar nos botões de seta (pequenos triângulos acima de ‘move’). A seguir, basta

clicar em OK para efetuar as mudanças. Maiores explicações sobre os demais elementos

dessa tela podem ser encontrados na p. 139.



Zap. Elimina da tela as linhas do gráfico previamente ‘apagadas’ com a tecla

‘delete’ do teclado.

Search. Abre uma janela para localizar palavras na tela.

Ruler. Desenha uma linha no gráfico mostrando onde um arquivo começa e outro

termina, caso mais de um arquivo tenha sido selecionado. Se apenas um arquivo tiver sido

analisado, então o botão produz uma divisão em oito partes iguais (esse recurso não está

ativo em algumas versões). Vide p. 256 para exemplo.

Links. Mostra as ligações (‘links’) entre a palavra-chave em questão e as demais.

View. Mostra, no Viewer, os textos onde a palavra selecionada aparece.

Concord. Faz uma concordância da palavra selecionada.

Wordlist. Salva a lista de palavras-chave como uma lista de palavras, no formato

.lst. Pode ser útil para permitir a utilização de recursos que a lista de palavras dispõe, como

a lista de consistência.

O usuário notará que os botões de salvamento de tela, que fazem parte da tela do

259

KeyWords, são desativados quando o gráfico é produzido. Isso significa que a tela do

gráfico não pode ser salva, desaparecendo quando a concordância é fechada. O usuário

deve salvar a concordância e produzir um novo gráfico a cada vez que quiser vê-lo

novamente. Porém, é possível copiar o gráfico para um editor de texto como o MS Word,

por exemplo. Para tanto, é preciso clicar em File, depois em Copy; a seguir, selecionar

‘clipboard’, em ‘where to’; em ‘what data’, o usuário deve escolher ‘all’ para copiar o

gráfico inteiro, ou ‘selected’ para transferir apenas as linhas selecionadas com o mouse (o

que é feito simplesmente arrastando o mouse sobre a porção desejada do gráfico). Depois,

já no MS Word, basta clicar em Editar, e Colar Especial e, por fim, selecionar ‘Figura’ ou

‘Figura (meta-arquivo avançado)’.

A informação textual do gráfico (as colunas com os nomes dos arquivos e demais

números) pode ser copiada escolhendo ‘Copy e, a seguir, em ‘where to’, ‘a text file’. O

resultado é um arquivo com as informações textuais e numéricas presentes no arquivo, mas

sem o retângulo de plotagem, que aparece indicado como ‘(plot)’. Também se aplicam

aqui os comentários feitos acima para seleção de partes do gráfico para salvamento.

Também é possível imprmir o gráfico, clicando no botão ‘Print Preview’ ou no menu

‘File’ e depois em ‘Print’.

A tela do gráfico pode ser minimizada (da maneira habitual do Windows, isto é, clicando

em Window, Minimize, ou diretamente no botão correspondente na parte superior direita

da tela). Nesse caso, a tela desaparece e pode ser recuperada por meio do menu Window: a

tela do gráfico estará indicada por ‘dispersion plot’.

Caso os textos de onde as listas foram criadas não forem encontrados pelo programa, será

emitida uma mensagem de erro (‘Can’t locate...’). Para continuar basta clicar em OK. Os

textos não encontrados não serão incluídos no processamento, mas o gráfico será feito.

As palavras-chave negativas aparecem em vermelho, no plot.

8.14.1.1.A tela de ‘links’

Esta tela é acionada pelo botão Links ( ), na tela de plot.

Como exemplo, tomemos a lista de palavras-chave reproduzida parcialmente abaixo:

260

A janela de ‘Links’ para a palavra-chave ‘Mendonça’ (na linha 1) é a seguinte:

As colunas são as seguintes:

Word: Palavras com que ‘Mendonça’ faz ligações.

Links: Freqüência das ligações da palavra-chave ‘Mendonça’ com as demais palavras. A

somatória dessa coluna é que fornece o resultado apresentado na coluna ‘links’ do plot.

Para ‘Mendonça’, esse total é 2670, segundo a figura na p. 255.

261

In: Freqüência de ‘Mendonça’ no corpus de estudo.

=%: Porcentagem relativa ao total de ‘links’ em relação a ‘In’.

8.15. Botões da janela de palavras-chave chave (‘database’)

Os botões da janela do banco de dados (database) são os seguintes:

Re-sort: Faz a reordenação do banco de dados. Segue o modo de re-ordenação

usado nas concordâncias.






Zap. Retira do banco de dados uma palavra apagada com a tecla ‘delete’.

Edit. Permite redigitar uma palavra constante no banco de dados. A palavra

aparecerá numa pequena janela, onde deve ser feita a edição. Clicando OK, a nova versão

é incorporada à banco de dados.

Search: Faz uma busca por alguma palavra ou número no banco de dados.

Filenames: Mostra os nomes dos arquivos usados na preparação do banco de dados.

Esses nomes podem ser alterados usando o botão ‘replace’ (que não funciona em algumas

versões).

Associates. Mostra os associados (‘associates’) das palavras-chave chave.

Associados são palavras que são chave em um certo número de textos (arquivos) em que

uma palavra-chave chave ocorre. Esse comando abre uma janela de resultados. A

freqüência mínima para que uma palavra-chave seja um associado é definida pelo usuário

no menu Settings, Min & Max Frequencies.

Rotate: Muda a orientação do banco de dados, do sentido vertical (o default) para

horizontal.

262

View. Abre o viewer, com os textos onde a palavra-chave chave ocorreu.

Concord. Faz uma concordância da palavra onde está o cursor ou das palavras-

chave chave selecionadas.

Word list. Salva o banco de dados (.kdb) como uma lista de palavras no formato .lst.

8.15.1. A tela dos associados (‘associates’)

Abaixo aparece uma reprodução de uma tela dos associados, obtida clicando no botão

‘Associates’ ( ) na barra de ferramentas do banco de dados (‘database’). A listagem de

associados refere-se à palavra ‘Roberto’, que é chave chave num banco de dados.

As colunas constantes na tela são:

Word: Os associados de ‘Roberto’.

Of files: Quantidade de arquivos em que a palavra-chave aparece juntamente com

‘Roberto’.

As %: Porcentagem de ‘Of files’ em relação ao total de textos usados na preparação do

banco de dados. Por exemplo, na figura acima, ‘problema’ aparece como associado de

Roberto em todos (100%) os arquivos do banco de dados. Há sete associados na lista, no

total, pois o critério de freqüência mínima necessário para que uma palavra-chave seja

263

associado, nesse caso, foi estabelecido como 2 (menu Settings, Min & Max Frequencies).

Desse modo, as palavras-chave que co-ocorreram com a palavra-chave chave ‘Roberto’

em apenas um texto não foram incluídas na listagem.

8.15.1.1. Os botões da tela de associados

Os botões constantes na tela de associados são idênticos aos da tela de banco de dados,

mostrados na p. 261, com exceção de ‘clumps’ ( ). Clumps são grupos de palavras-chave

que ocorrem em um ou mais textos onde uma palavra-chave chave também ocorre. É

preciso ressaltar que o comando de clumps, embora esteja na janela de associados, produz

os grupos de palavras-chave relacionados à palavra-chave chave (de onde foram retirados

os associados, isto é, a duas janelas atrás) e não a um associado específico. Por exemplo,

ao selecionar a palavra-chave chave ‘Roberto’ na lista do arquivo de banco de dados e

depois clicar em associates ( ), foi produzida a lista de associados mostrada acima. Nessa

tela, clicando no botão ‘Clumps’ ( ), surgem os grupos de palavras-chave de ‘Roberto’, e

não de qualquer associado. O botão de clumps pertence, mais naturalmente, à tela de

palavras-chave chave e não à de associados, já que os grupos de palavras-chave não são

derivados dos associados, mas sim das palavras-chave chave.

O quadro a seguir explica algumas das diferenças entre palavra-chave chave, associado e

grupo de palavras-chave (‘clump’).

Tipo Resultados exibidos pelo programa

Comentários

Palavra-chave chave

Roberto (2) A palavra ‘Roberto’ é chave chave porque ocorre em dois arquivos. Dois é a freqüência mínima exigida para que uma palavra se torne chave, segundo o valor estipulado no espaço ‘Database Min Freq.’ no menu Settings, Min & Max Frequencies.

Associados (‘Associates’)

Problema (2) (100%) Pra (2) (100%) Roberto (2) (100%) Tá (2) (100%) etc.

Essas palavras são associados de ‘Roberto’ porque ocorrem nos mesmos arquivos que ‘Roberto’. Todas ocorrem como chave em todos (100%) os arquivos em que ‘Roberto’ é chave (2). ‘Roberto’ é mostrado como associado, mas é uma redundância: ela é chave nos mesmos arquivos em que ela o é!

Grupos de palavras-chave (‘Clumps’)

Abraço, aceitar, acertado, acionistas, problema, pra, roberto, tá, tendências,

Essas palavras são todas chave nos arquivos em que ‘Roberto’ é chave. Há mais palavras aqui do que em associados porque a freqüência mínima para fazer parte de um clump é 1. Os associados estão todos incluídos nesta lista porque possuem

264

trabalhados, ... freqüência 2 (isto é, aparecem como chave em dois textos pelo menos), que é maior do que o mínimo exigido para ser membro de um clump (1, ou seja, ser chave em pelo menos um texto). Em outras palavras, qualquer associado faz parte de um clump, mas o reverso não é verdade, a menos que o critério para ser associado seja freqüência 1 (ser chave em pelo menos um texto).

8.15.1.2. A janela de ‘clumps’

Ao clicar no botão ‘clumps’ ( ) na tela de associados, aparece uma tela que exibe os

clumps da palavra-chave chave que deu origem aos associados. Abaixo aparece uma

reprodução de uma tela de ‘clumps’.

As seguintes colunas aparecem nessa tela:

n: número do ‘clump’.

Members: as palavras-chave que formam o ‘clump’.

Files: número de arquivos onde as palavras-chave do ‘clump’ aparecem. Não está operante

em algumas versões (permanece em branco).

File-names: nomes dos arquivos onde as palavras-chave do ‘clump’ aparecem. Não está

265

operante em algumas versões (permanece em branco).

Os ‘clumps’ podem ser juntados

Os botões constantes na tela de ‘clumps’ são idênticos aos da tela de banco de dados,

mostrados na p. 261, com exceção de ‘match clumps’ ( ). A função desse botão é indicar

ao analista quais pares de ‘clumps’ são parecidos, em virtude de possuírem palavras-chave

mútuas. Uma tela especial (vide abaixo) se abre mostrando quais palavras são

compartilhadas por um par de ‘clumps’ e quais são exclusivas a cada um deles. O analista

decide se deve agrupar os ‘clumps’ ou não. Esse agrupamento faz com que se tenham

agrupamentos de textos que possuem palavras-chave em comum, girando em torno de uma

palavra-chave chave. Essa palavra-chave chave é o eixo em torno do qual os ‘matched

clumps’ (re-agrupamentos de palavras-chave) giram.

Um ‘clump’ unido é composto de todas as palavras-chave que existiam nos dois ‘clumps’

originais. As repetições de palavra são eliminadas (por exemplo, se ‘casa’ faz parte tanto

do ‘clump’ 1 quanto do 2, no clump unido ela aparecerá apenas uma vez).

Para unir ‘clumps’, não é preciso usar o botão ‘match clumps’. Basta selecionar um dos

‘clumps’ que queira juntar e arrastar o cursor para cima do outro ‘clump’. Os dois serão

unidos. Um ‘clump’ unido recebe o número do ‘clump’ original de número inferior. Por

exemplo, se os ‘clumps’ 1 e 4 foram unidos, o novo ‘clump’ receberá o número 1.

A tela evocada pelo botão ‘match clumps’ ( ) aparece reproduzida abaixo.

266

Essa janela possui os seguintes elementos:

‘only in one’: mostra as palavras-chave que ocorrem somente no primeiro dos ‘clumps’ do

par.

In both: mostra quais palavras-chave aparecem nos dois ‘clumps’ do par.

Only in the other: mostra as palavras-chave que ocorrem somente no segundo dos ‘clumps’

do par.

Join: Botão que une os dois clumps.

Skip: Botão que não autoriza a união dos clumps exibidos e mostra outros dois clumps. Os

dois clumps mostrados anteriormente permanecem separados e são mantidos na memória

do programa.

Clear Skip: Botão que limpa a memória do programa dos clumps cuja união não foi

autorizada.

A área abaixo desses campos mostra a quantidade de palavras-chave compartilhadas, a

porcentagem dessas palavras do total e pergunta se deve ser feita a união dos ‘clumps’. Por

exemplo, na tela acima, a informação fornecida é: ‘Clump 1 overlaps most with no. 2.

(11% of the 59 words in 2 are in 1.). Join them?’. Isto é: ‘ ‘Clump 1 aproxima-se mais do

267

(‘clump’) n o 2. (11% das 59 palavras no 2 estão no 1.). Unir os ‘clumps’?’. Com base

nessa informação de que há apenas 11% de redundância entre os dois ‘clumps’, a decisão

mais prudente parece ser a de não unir os ‘clumps’.

A tela acima mostra que as palavras-chave compartilhadas pelos dois ‘clumps’ são os sete

associados.

Para ilustrar, retomemos o exemplo da palavra ‘Roberto’:

(1) A função ‘associados’ mostrou sete palavras-chave que aparecem nos mesmos

(dois) textos em que ‘Roberto’ é chave.

(2) A função ‘clumps’, por sua vez, exibiu todas as palavras-chave que ocorrem com

‘Roberto’, mesmo as que ocorrem em apenas um dos textos que ‘Roberto’ é chave

(por isso não são associados).

(3) Já a função de ‘match clumps’ indicou a possibilidade de unir os dois ‘clumps’ que

possuem ‘Roberto’ como palavra-chave chave. Essa mesma função indicou haver

apenas 11% de redundância entre os ‘clumps’. A pergunta que se coloca nesse

estágio é se os dois textos em que ‘Roberto’ é chave possuem léxico-chave em

comum. A resposta é negativa (11%). Daí a melhor decisão é considerar os dois

textos como diferentes, apesar de possuírem ‘Roberto’ como palavra-chave.

268

269

Os utilitários

8.16. File Manager

Essa opção apenas inicializa um gerenciador de arquivos (File Manager), para realizar

operações de busca, cópia, apagamento, etc. de arquivos no Windows. O Gerenciador a ser

aberto é especificado no arquivo Wshell.ini (que se encontra na pasta onde o WordSmith

Tools está instalado, p.ex. c:\wsmith).

É preciso esclarecer que a função de acionamento de gerenciador é supérflua, visto que ele

pode ser acessado diretamente do Windows.

Mas caso o usuário deseje ativá-la, basta clicar nessa opção no menu Utilties / File

Manager.

Se essa opção não funcionar (ou emitir uma mensagem de erro), isso significa que nenhum

gerenciador foi especificado no arquivo Wshell.ini. Para especificá-lo, abra o arquivo num

editor de texto e digite o caminho (path) do gerenciador na linha que se inicia por ‘File

Manager=’, localizada no começo do arquivo. Se o gerenciador estiver no caminho

C:\WINDOWS\EXPLORER.EXE, será preciso digitar essa informação. Abaixo aparece o

trecho do Wshell.ini com o caminho especificado (indicado pela linha sublinhada – o

sublinhado foi adicionado):

[WORDSMITH TOOLS DEFAULTS] [GENERAL SETTINGS] restore last file=NO numbering=YES Internet Browser= ; eg. c:\netscape\netscape.exe File Manager=C:\WINDOWS\EXPLORER.EXE ; eg. c:\progra~1\powerd~1\pdexplo.exe ; (note: see line above for Win 95 long file name example) show help automatically=NO

Para descobrir o caminho do gerenciador, o usuário pode clicar com o botão direito do

mouse no ícone do programa, depois (com o botão esquerdo) em Propriedades e verificar o

caminho na caixa ‘objeto’. É preciso descartar símbolos como /n,/e,C:\ que podem estar

adicionados ao final do caminho (como em C:\WINDOWS\EXPLORER.EXE /n,/e,C:\) e

copiar apenas o nome do disco, das pastas e do programa.

270

Se as pastas e arquivos tiverem nomes longos (mais de oito caracteres), será preciso digitar

os nomes curtos de arquivo do DOS, que podem ser vistos abrindo o prompt do MS-DOS

e digitando dir | more na pasta desejada. Para ir adiante na exibição dos arquivos, tecle

Enter ou a barra de espaço. Para interromper a exibição dos arquivos, segure a tecla Ctrl e

tecle C. Para chegar à pasta desejada, digite:

cd drive:\nome_da_pasta para ir a uma pasta (p.ex. c:\wsmith) cd nome_da_sub-pasta para ir a uma sub-pasta (p.ex. c:\wsmith\concord) cd .. para ir a uma pasta superior (p.ex. para ir de

c:\wsmith\concord para c:\wsmith)

O nome curto de arquivo aparece na parte esquerda da listagem dos arquivos:

BLOCOS~1 BMP 2.754 05/05/99 22:22 Blocos vermelhos.bmp

O arquivo ‘Blocos vermelhos.bmp’ possui o nome curto ‘blocos~1.bmp (note que o ponto

não aparece na listagem dos nomes curtos, sendo substituído por um espaço).

Para sair do prompt do DOS, digite exit e depois tecle Enter.

O usuário pode especificar qualquer gerenciador que se encontre instalado na sua máquina.

8.17. Splitter

Para utilizar o Splitter, é preciso selecionar a opção Utilities / Splitter, no menu Tools do

Controller.

Esse utilitário serve para dividir arquivos grandes em porções menores. É reccomendado

para casos em que num mesmo arquivo estejam contidos vários textos, que precisam ser

desmembrados para efeitos de análise.

Para utilizar o Splitter, clique na opção Splitter no menu Utilities, o que abrirá a tela a

seguir:

271

A seguir, clique no botão clique no botão Start, que abrirá a tela Getting Started:

Depois, clique em Source File(s), para especificar um ou mais arquivos fontes, ou seja,

aqueles a ser desmembrados (vide p.89 para uma explicação). Quando terminar, clique em

OK. Volte para a janela Getting Started e clique em Settings, para especificar onde os

arquivos serão divididos, conforme ilustra a figura a seguir.

272

Nessa janela, as opções são as seguintes:

• End of text separator: Código que indica o final de cada texto. Será usado pelo

programa como local de divisão do arquivo, de tal modo que cada trecho do arquivo

maior que termine até o ponto indicado será salvo num arquivo diferente. Na tela que

aparece na figura, o código é [FF]. É importante ter em mente que esse código deve ser

uniforme e que normalmente não consta do arquivo, devendo ser acrescentado pelo

usuário. Abaixo aparece um exemplo de arquivo que contém vários textos, usando o

código [FF] como separador:

aqui é o início do texto 1 [FF] aqui é o início do texto 2 [FF] aqui é o início do texto 3 [FF]

• Destination directory: Pasta onde os arquivos desemembrados serão salvos.

• Required sizes: Configuração de tamanho mínimo e máximo permitidos dos arquivos

desmembrados.

• Bracket first line: Quando selecionado, faz com que a primeira linha do arquivo

apareça dentro dos sinais < >. Pode ser útil quando a primeira linha após o código

273

separador é algo que o usuário deseja omitir da análise, como um título. Nesse caso, o

título apareceria delimitado pelos sinais. Para omiti-lo de listas de palavras ou de

concordâncias, seria preciso configurar a opção Settings, Text Characteristics, Tags,

Tags to Ignore, marcando a opção Activated (vide p. 112 ff para mais informações

sobre a opção Tags).

• OK: aceita as informações inseridas na tela Settings. Caso o programa emita uma

mensagem de erro dizendo ‘File Access Denied’, é preciso corrigir a opção relativa ao

arquivo fonte (Source file) ou à pasta de destino (Destination directory). O arquivo

fonte pode estar sendo ocupado por um editor de texto, como o Word; nesse caso, basta

fechar o arquivo no editor. Em relação à pasta de destino, é preciso certificar-se de que

ela exista e de que não foi digitada com o nome errado.

Se tudo estiver certo, o programa retornará o usuário à tela Getting Started. Depois, é

preciso clicar em Go Now para iniciar o processamento.

O andamento do processamento será indicado por uma janela de barras coloridas,

semelhantes às que cumprem a mesma função no WordList, Concord e KeyWords. Será

exibida ainda uma tela com os nomes dos arquivos criados seguidoos da quantidade de

linhas em cada um, entre parênteses. Tomando o exemplo anterior de arquivo fonte, o

resultado seria o seguinte:

274

Para fechar a janela, basta clicar em OK.

Para ilustrar, o arquivo te000001.txt possui o seguinte conteúdo:

aqui é o início do texto 1

Os nomes dos arquivos são gerados automaticamente. Cada nome é formado pelas duas

primeiras letras do nome do arquivo fonte mais seis dígitos seqüenciais. A numeração dos

arquivos obedece a numeração dos arquivos que porventura já existam na pasta, iniciando-

se a partir do último arquivo criado. Caso não haja arquivos com o mesmo tipo de nome na

pasta, a numeração começa com 000001. Os nomes dos arquivos são incrementados dentro

da mesma sessão de uso do Splitter, mesmo que o usuário apague os arquivos da pasta. Por

exemplo, na primeira divisão do arquivo temp.txt mostrado acima, o resultado seria três

arquivos: te000001.txt, te000002.txt e te000003.txt (uma vez que a pasta estava vazia). Se

o usuário não ficar satisfeito e apagar os arquivos da pasta e fizer outra tentativa de

desmembramento, os arquivo criados serão te000004.txt, te000005.txt e te000006.txt (e

não te000001.txt, te000002.txt e te000003.txt novamente), muito embora a pasta estivesse

vazia. Mas caso o Splitter seja encerrado e reiniciado, a numeração começará com o

000001 novamente. Se houver arquivos na pasta quando essa nova seção for iniciada, os

números dos arquivos prévios serão ‘pulados’. Por exemplo, se na pasta houver o arquivo

275

te000003.txt criado numa sessão prévia, os próximos arquivos serão te000001.txt,

te000002.txt, te.txt, te000005.txt, te000006.txt, etc. Note que curiosamente, o arquivo

te000004.txt (o primeiro a seguir ao já existente) não foi criado; em seu lugar, aparece

te.txt.

8.18. Text Converter

Esse utilitário possui várias funções:

• Mover arquivos para pastas diferentes.

• Renomear arquivos.

• Modificar os atributos de arquivos.

• Alterar arquivos.

Para utilizar o Converter, é preciso selecionar a opção Utilities / Converter, no menu Tools

do Controller.

A tela de entrada do programa aparece abaixo.

276

A janela acima pode aparecer incompleta. Para torná-la totalmente visível, é preciso

alargá-la com o mouse.

8.18.1. Move if

Essa opção move arquivos para uma pasta diferente caso eles possuam certas palavras ou

expressões, normalmente no cabeçalho de cada arquivo. Um cabeçalho (‘header’) é uma

seqüência de informações adicionadas ao arquivo, com detalhes sobre, por exemplo, a

autoria do texto, a fonte, o gênero, a data de coleta, etc, anotadas com códigos (etiquetas)

uniformes e únicas, de tal modo que não se confundam com o restante do texto (aquilo que

foi realmente dito ou escrito numa situação de comunicação). Isso pode ser útil para

selecionar arquivos de um corpus grande (como o British National Corpus). Para ativar

essa opção, é preciso fazer os ajustes abaixo:

• Na área ‘Choose Files’, selecione a pasta que deseja. A opção ‘Process sub-directories

too’ deve ser marcada caso deseje que o programa busque os arquivo também em sub-

pastas da pasta selecionada. Para restringir a busca somente a certos arquivos da pasta,

digite uma ‘máscara’ na caixa onde aparecem os dois asteriscos (*.*), logo abaixo da

janela com os nomes dos arquivos. Por exemplo, se na pasta c:\temp o usuário desejar

ativar apenas os arquivo terminados em .txt, deve digitar *.txt como máscara.

• Na área ‘Move if’, marque a caixa Activated.

• first ... lines: digite o número de linhas onde deve ser procurado o critério de

busca. Por exemplo, suponha que alguns arquivos do corpus contenham, na

primeira linha, a seguinte etiqueta:

<coleta: 1999>

Nesse caso, o número a ser digitado é 1. Mas se a etiqueta possuir posições

variáveis, como por exemplo desde a primeira até a última linha do cabeçalho (p.ex. a

quinta do arquivo), então o número a ser inserido é 5. É possível sempre digitar um

número alto que leve em conta a extensão máxima do cabeçalho do corpus. Assim, em

ambos os casos seria 5. Mas isso torna o programa mais lento, pois ele precisa procurar

em uma extensão maior de texto em cada arquivo.

• contain: digite o critério de seleção, exatamente como aparece no arquivo

277

(incluindo espaços, etc.). No exemplo acima, o critério seria coleta: 1999 . É

possível omitir os delimitadores da etiqueta (< >).

• to: informe o nome da pasta para onde serão movidos os arquivos. Caso não exista,

será criada uma sub-pasta do diretório onde estão os arquivos. Na tela anterior, a

pasta informada é 1999. Desse modo, será criada uma pasta chamada 1999 em

c:\temp\temp2

• Go Now: Inicia o programa, ativando as opções marcadas (com a caixa Activated).

Nesse exemplo, é iniciada a mudança dos arquivos.

• Os resultados do processamento aparecem na área logo acima do botão Help, na

forma de ‘... files done’ (além de uma contagem de caracteres e palavras).

Aparecerá também um botão Results, que quando clicado simplesmente pinta a

janela de escolha de arquivos na cor azul.

8.18.2. Renaming

Essa opção renomeia arquivos, adicionando numeração seqüencial. Serve para uniformizar

o formato de nomeação de arquivos de um corpus.

Para ativá-lo, marque a caixa Activated e selecione os arquivos. Faça os ajustes das opções

de renomeação (vide abaixo) e clique Go Now.

• Na caixa ‘mask’, digite o formato de nomeação dos arquivos que deseja. As

alternativas são as seguintes (note que somente são aceitos caracteres maiúsculos):

• . (ponto): Significa separador de extensão do nome do arquivo. Tudo aquilo que

segue o ponto é usado como extensão. Tudo o que o precede é tido como parte do

nome do arquivo. Por exemplo, .FOO faz com que todos os arquivos sejam

renomeados com a extensão .foo.

• ? (ponto de interrogação): Significa um caracter do nome original do arquivo. Por

exemplo, TE??.TXT faz com que todos os arquivos recebam um nome que começa

com ‘TEXT’ seguido de dois caracteres restantes do nome original (o terceiro e

quarto caracteres, pois a máscara TE já encobre o primeiro e segundo), seguido de

.TXT. Assim, se os arquivos originais fossem MARIA.TXT e JOAO.TXT, os

278

arquivos renomeados seriam TERI.TXT (isto é, MARIA) e TEAO.TXT (isto é,

JOAO). É importante atentar para o fato de que uma máscara como essa pode

causar ambigüidades, pois os nomes resultantes podem ser iguais. Por exemplo, se

os arquivos originais fossem JOCA.TXT e JECA.TXT, os dois arquivos teriam de

possuir o mesmo nome, TECA.TXT. Como isso não é permitido pelo sistema

operacional, o Converter emitirá uma mensagem de erro, indicando a duplicidade

pontencial:

Clicando em OK na mensagem de erro, o programa prosseguirá com o

processamento (ou emitirá outras mensagens de erro); contudo, o arquivo indicado

receberá um nome com formato numérico, formado pelas letras iniciais propostas (TE)

seguido de seis números. O sistema de numeração é semelhante ao do Splitter,

explicado antes (vide p. 274).

Note que os arquivos de nome longo (mais de oito caracteres ou mais de três

caracteres de extensão) são tratados com o curto nome do DOS (vide p. 270 para uma

explicação). Assim, um arquivo chamado ‘um nome muito longo 1.txt’ seria

interpretado pelo programa por meio do nome curto do DOS (algo como

UMNOME~1 TXT). Por exemplo, suponhamos que na pasta existissem os arquivos

seguintes:

UMNOME~1 TXT 16 05/08/02 5:31 um nome muito longo 1.txt UMNOME~2 TXT 16 05/08/02 5:32 um nome muito longo 2.txt UMNOME~3 TXT 16 05/08/02 6:05 um nome muito longo 3.txt

Aplicando-se a máscara TE??.TXT faria com que um nome muito longo 1.txt (que

é na verdade UMNOME~1.TXT) fosse renomeado para TENO.TXT, pois os dois caracteres

seguintes são NO (UMNOME~1). O mesmo aconteceria com um nome muito longo

2.txt e com um nome muito longo 3.txt . Isso geraria mensagens de erro do tipo da

279

mencionada acima devido à duplicidade de nomes, e o programa atribuiria um nome de

arquivo formado por números, abandonando a máscara proposta.

• * (asterisco): Significa os caracteres restantes do nome original do arquivo, até o

máximo de oito. Por exemplo, T*.TXT faz com que todos os arquivos recebam um

nome que começa com ‘T’ seguido de sete caracteres do nome original (os quais,

acrescidos de ‘T’, atingem oito caracteres), seguido de .TXT. Assim, se os arquivos

originais fossem MARIA.TXT e JOAO.TXT, os arquivos renomeados seriam

TMARIA.TXT e TJOAO.TXT. Note que esta alternativa está sujeita aos mesmos

problemas de duplicidade potencial discutidos acima.

• # (cerquilha): Significa um número seqüencial. Por exemplo, T###.TXT faz com que

todos os arquivos recebam um nome que começa com ‘T’ seguido de três números,

seguido da extensão original. Assim, se os arquivos originais fossem MARIA.TXT

e JOAO.TXT, os arquivos renomeados seriam T002.TXT e T001TXT,

respectivamente (pois JOAO vem antes de MARIA, alfabeticamente).

8.18.3. Attributes

Essa opção altera os atributos de leitura e visualização de arquivos. Esses atributos

(conhecidos por proteções ou permissões) passam despercebidos pela maioria dos usuários

de Windows e DOS.

Para ativá-lo, marque a caixa Activated e selecione os arquivos. A seguir, selecione as

opções de atributo desejadas e clique Go Now.

Via de regra, o usuário não deve alterar as configurações de atributos dos arquivos, com a

possível exceção de ‘read only’, conforme explicado a seguir.

As opções de atributo disponíveis são:

• Archive: Indica um arquivo texto. O default é marcado. Não deve ser alterado.

• Read only: Somente leitura. O default é desmarcado. Quando marcada, significa que o

arquivo está protegido contra alteração (de nome ou de conteúdo). Alguns usuários

somente se dão conta dessa propriedade dos arquivos quando tentam editar arquivos-

texto provenientes de um CD-ROM, pois são informados que o arquivo somente pode

280

ser aberto para ‘leitura’. O mesmo acontece quando tentam renomear um arquivo

copiado de um CD-ROM. Para alterar tal condição no sistema operacional, basta clicar

no nome do arquivo com o botão direito do mouse, abrir o menu Propriedades e

selecionar ‘somente leitura’. Isso cria uma ‘proteção contra modificação’. O Converter

disponibiliza essa opção por conveniência e porque tem o poder de alterar várias

subpastas ao mesmo tempo, o que não é possível, diretamente, via o gerenciador de

arquivos do Windows.

• Hidden: Quando marcado, o arquivo fica oculto. O default é desmarcado. Se estiver

oculto, pode deixar de ser exibido pelo gerenciador de arquivos, caso esteja a opção

‘Show all files’ não esteja selecionada.

• System: Indica arquivos que fazem parte do sistema operacional. O default é

desmarcado. Não deve ser alterado.

8.18.4. Text Conversion

Essa opção permite que o usuário faça várias alterações no texto de um ou mais arquivos.

É muito útil para, por exemplo:

• Corrigir problemas de digitação presentes em vários arquivos.

• Padronizar a formatação de arquivos.

• Retirar códigos de HTML, por exemplo, de textos baixados da web.

Para ativá-lo, marque a caixa Activated e selecione os arquivos. A seguir, selecione as

opções de alteração e clique Go Now.

As opções existentes na tela são:

• Over-write source text: Faz com que o arquivo com as alterações seja gravado em cima

do arquivo sem as modificações. Não é recomendado, porque o usuário pode não ficar

satisfeito com as mudanças e precisar refazê-las. Com o arquivo antigo reescrito, isso

não se torna possível.

• Or (safer) copy to: Faz com que as modificações sejam gravadas em outros arquivos,

noutra pasta, que deve ser indicada na caixa logo abaixo (p.ex. c:\temp).

281

• What to convert… : Fornece duas opções de modificação: apenas uma (‘just one

change’) ou muitas (‘or more, using conversion file’):

• Just one change, so...: Na caixa à esquerda, entre com a seqüência de busca

(‘search string’) que quer modificar e na caixa à direita, com a forma modificada.

Por exemplo, se quiser alterar ‘faze-lo’ por ‘fazê-lo’, digite:

Para apagar uma seqüência, deixe a caixa à direita vazia.

• Case sensitive: distingue maiúsculas de minúsculas.

• Whole word: somente efetua a mudança se a palavra indicada for inteira. Por

exemplo, se o usuário desejar modificar ‘tá’ por ‘está’, com a opção ‘whole word’

selecionada, palavras como ‘paquetá’ não serão alteradas para ‘paqueestá’, nem

‘está’ se tornará ‘esestá’.

• Confirm each: pergunta o usuário se confirma cada alteração. É útil para casos em

que nem todas as ocorrências devem ser alteradas. No exemplo acima, com ‘tá’ é

preciso certificar-se que frases como ‘eu vou, tá?’ não se tornem ‘eu vou, está?’.

Nesses casos, é mais aconselhável marcar a opção ‘confirm each’.

• Or more, using conversion file: Essa opção é a mais poderosa do converter, pois

permite a alteração de várias seqüências ao mesmo tempo. Quando selecionada, o

usuário deve indicar, na caixa logo abaixo, um arquivo de conversão, onde estão

especificas as regras de conversão. O arquivo de conversão é apenas um arquivo texto

(formato txt) com as regras de conversão digitadas segundo um formato próprio. O

formato básico de uma regra de conversão é:

282

“seqüência de busca original” -> “seqüência de busca alterada”

Note que a regra se inicia por aspas. Tudo que não se inicia por aspas, por um til ou pela

barra para frente (/) é tido como comentário, ou seja, não é uma regra de conversão e

portanto não é executado.

O símbolo entre as duas seqüências nada mais é do que o hífen (-) seguido do sinal de

maior que (>), dando idéia de uma seta.

Por exemplo, para substituir ‘faze-lo’ por ‘fazê-lo’, a instrução deve ser:

“faze-lo” -> “fazê-lo”

Há vários símbolos especiais empregados nas regras de conversão:

• Qualquer caracter (até mil em seguida, no máximo): *

• Qualquer caracter até um limite: *(limite) . Por exemplo, se o limite for 100, a

instrução é: *(100)

• Qualquer número: #

• Qualquer caracter único, exceto espaço: ?

• Exceto um caracter específico: ~ . Por exemplo, para apagar tudo que está entre

parênteses, exceto parênteses onde está escrito ‘não apagar’, digite:

~”(não apagar)” “(*)” -> “”

Os caracteres acima são interpretados de modo especial pelo converter. Assim, se o

usuário desejar incluí-los literalmente na busca, será preciso utilizar códigos próprios para

fazer referência a eles. Os códigos são:

• Aspas duplas: {CHR(34)}

• Asterisco: {CHR(42)}

• Cerquilha (#): {CHR(35)}

• Ponto de interrogação: {CHR(63)}

283

• Til: {CHR(126)}

Além desses, há ainda códigos de final de linha, que são:

• ‘Carriage return’: {CHR(13)}

• ‘Line feed’: {CHR(10)}

• Juntos, os dois códigos acima formam o código de final de linha que se consegue

quando se tecla ‘Enter’: {CHR(13)}{CHR(10)}

• Tabulação: {CHR(9)}

• Printer form-feed: {CHR(12)}

• Apagamento de espaços e tabulações redundantes: /S . Ele serve para apagar espaços

repetidos em trechos como o seguinte:

Ele ganhou na loteria.

O qual se tornaria assim:

Ele ganhou na loteria.

Para eliminar tabulações repetidas, usa-se /S "{CHR(9)}" . Ao contrário dos demais

comandos que se iniciam pela barra, o de redutor de espaços não deve ser combinado,

devendo aparecer numa linha individual.

Há ainda caracteres de controle de fluxo de alteração, que se iniciam por uma barra (/).

Esses códigos, descritos abaixo, podem ser combinados (p.ex. /CW faz com que o programa

peça a confirmação de cada mudança e que cada mudança seja apenas feita em palavras

inteiras).

• Confirmação de cada mudança: /C . Possui o mesmo efeito de ‘confirm each change’

da opção ‘just one change’, mostrada acima.

• Busca de palavra inteira: /W

• Não-diferenciação entre maiúscula e minúscula: /I . O default é respeitar as diferenças

284

entre maiúscula e miníscula.

• Busca restrita ao início do arquivo (primeiros 30 mil caracteres): /F . Pode ser útil na

alteração de muitos arquivos longos, quando se sabe que a seqüência de busca

encontra-se no início de cada arquivo apenas, permitindo ao programa que rode mais

rápido.

Há caracteres especiais iniciados por barra que possuem funções de adição:

• Adicionar texto: /A seguido do trecho a ser inserido, entre aspas, e de START ou END. Por

exemplo:

/A "<CORPUS DE REUNIÕES>" START inserirá <CORPUS DE REUNIÕES> no começo da

primeira linha de cada texto selecionado. Por exemplo, suponha que o texto selecionado

seja assim:

Este é o começo do meu texto. Este é o meio do meu texto. Este é o final do meu texto.

Aplicando a regra acima, o resultado será:

<CORPUS DE REUNIÕES>Este é o começo do meu texto. Este é o meio do meu texto. Este é o final do meu texto.

Para que a linha adicionada apareça numa linha individual, é preciso adicionar o

código de final de linha ({CHR(13)}{CHR(10)}), mostrado acima. Assim, a instrução seria a

seguinte:

/A "<CORPUS DE REUNIÕES>{CHR(13)}{CHR(10)}" START

Já /A "<FIM DO TEXTO>" END inserirá <FIM DO TEXTO> na última linha do(s) texto(s).

Para evitar que <FIM DO TEXTO> seja acionado junto a texto existente, como no exemplo

anterior, é melhor inserir um código de final de linha antes dele (“{CHR(13)}{CHR(10)}<FIM

DO TEXTO>"). Aqueles textos que possuírem uma linha em branco no final aparecerão com

uma linha em branco a mais. Para evitar isso, pode-se acrescentar uma outra instrução para

apagar eventuais linhas duplas em branco ({CHR(13)}{CHR(10)}{CHR(13)}{CHR(10)}) junto

ao código:

/A "{CHR(13)}{CHR(10)}<FIM DO TEXTO>" END “{CHR(13)}{CHR(10)}{CHR(13)}{CHR(10)}<FIM DO TEXTO>" -> “{CHR(13)}{CHR(10)}<FIM

285

DO TEXTO>"

• Inserir título: /T "<title>*</title>" -> "trecho_a_inserir" . Por exemplo:

/T "<title>*</title>" -> "Título do texto"

incluirá o seguinte trecho no início de cada texto:

<TITLE> Título do texto </TITLE> <title></title>

Note que o programa insere, erroneamente, uma linha extra de título, sem informação

(<title></title>). Assim, para limpar essa linha equivocada, é preciso colocar mais uma

linha de comando no arquivo de alterações, de tal modo que ele fique assim:

/T "<title>*</title>" -> "Título do texto" “<title></title>” -> “”

Isso fará com que a linha errada seja apagada.

O comando /T é muito semelhante ao de adicionar texto (/A). A diferença é que /T insere o

código de título (<title></title>) automaticamente. Devido ao problema mostrado,

contudo, é mais eficiente usar /A.

8.18.5. Exemplo de arquivo de alterações

Para ilustrar um uso básico dos comandos em um caso concreto, tomemos a questão de

transformar textos que possuam etiquetas de indicação de falante no início dos turnos, no

formato <FALANTE> ., como por exemplo:

<ALDA> . Mas qual foi a data que o Ernesto pediu para o mostruário? <MÁRCIA> . Ele falou que pode ser assim, dia 25 é a feira,<I> < ALDA > . Dia 25 de quê? < MÁRCIA > . De janeiro.

Embora o WordSmith Tools possa ser instruído a ignorar essas etiquetas, em alguns casos

é preciso produzir uma versão do arquivo em que elas não existam. Lembre sempre de (1)

fazer uma cópia de segurança (backup) do seu texto antes de fazer as modificações, (2)

escolher a opção ‘or (safer) copy to’ na janela de ajustes, para evitar perder o arquivo

original.

286

Para eliminar essas etiquetas, o arquivo de alterações deverá conter apenas uma regra:

“{CHR(13)}{CHR(10)}<*> .” -> “{CHR(13)}{CHR(10)}”

Isso fará com que:

(1) O programa procure por um final de linha ({CHR(13)}{CHR(10)}) seguido do

caracter <, seguido de qualquer caracter, uma ou mais vezes, seguido do caracter >,

seguido de espaço, seguido de ponto final. É preciso declarar o código de final de

linha para indicar o início de uma nova linha. Assim, o programa não se confundirá

procurando uma seqüência de caracteres semelhante à de falante em outra posição

do texto que não seja a de início de linha.

(2) Ao encontrar tal seqüência, transforme-a em marca de final de linha

({CHR(13)}{CHR(10)}). Isso preserva a separação entre os turnos dos falantes.

Caso fosse omitida, o resultado seria um texto ‘corrido’, sem as divisões entre os

turnos.

8.19. Viewer & Aligner

Esse utilitário possui duas funções:

• Viewer: Exibir um texto.

• Aligner: Alinhar dois textos.

Para acionar cada um, os procedimentos iniciais são os seguintes:

• Viewer: Clique em File, Viewer, Open a text.

• Aligner: Clique em File, Aligner, Start.

A seguir são apresentadas informações mais detalhadas sobre cada função desse utilitário.

8.19.1. Viewer

Essa função exibe um texto na tela, conta e enumera períodos e parágrafos e exibe textos

em HTML e SGML. Se o usuário desejar apenas ler um arquivo na tela, pode optar por

abri-lo no seu editor de texto tradicional.

287

Para exibir um texto no Viewer & Aligner, abra o programa no Controller, com o menu

Utilities / Viewer & Aligner. Depois, no próprio Viewer & Aligner, clique em File /

Viewer / Open a text.

O arquivo será exibido com as unidades numeradas (períodos ou parágrafos, de acordo

com os sinais ou etiquetas definidos em Settings, Text Characteristics, Tags), conforme

ilustra a figura a seguir:

A parte superior do visualizador traz a quantidade de sentenças (ou parágrafos) e

cabeçalhos encontrados. No caso acima, são dois (2 Paragraphs and headings). Esse

número será computado com base nas definições de sentença e cabeçalho fornecidas no

menu Settings / Text. Para que o programa considere um parágrafo como um trecho que

termina no sinal de Enter, digite <Enter> no espaço reservado a ‘paragraph’; e para que o

programa entenda um período como um trecho que se encerra com um ponto final, digite

auto no espaço correspondente a ‘sentence’. O programa não distingue parágrafos vazios

de não vazios; assim, uma linha em branco, demarcada por sinais de <Enter>, será

computada como um parágrafo válido. Para evitar esses problemas, revise seus textos ou

os normalize usando o Converter (explicado acima).

Os botões do Viewer & Aligner são descritos abaixo.

Menu File:

• Start: Inicia o Aligner apenas. Para inciar o Viewer, clique em File / Viewer / Open a

text.

• Save: Salva o texto com o nome atual.

• Save as ...: Permite salvar o texto com outro nome.

288

• Save as text: Salva o texto com numeração de período ou de parágrafo, de acordo com

a visualização exibida no momento.

• Copy: Copia um trecho da tela de exibição para a área de transferência (‘clipboard’) do

Windows.

• Exit: Sai do utilitário.

• No-check Exit: Sai do utilitário sem perguntar se o arquivo precisa ser salvo antes.

Menu Edit:

• Trim Extra Spaces: Remove espaços em branco redundantes. Por exemplo, a frase a

seguir possui espaços redundantes: a primeira palavra

Já a seguinte não os possui: a primeira palavra

• Find lower-case lines: Identifica o próximo período ou parágrafo que não se inicia por

letra maiúscula. Isso serve para indicar frases ou parágrafos quebrados, que precisam

ser reparados antes do alinhamento. Por exemplo: Este é uma período que se inicia por letra maiúscula

mas este não.

Nesse caso, ‘mas este não’ aparece como outro período porque está separado do

restante do texto por uma marca de final de linha (Enter). Devido ao fato de esta marca

poder passar despercebida, já que é invisível, é necessário uma ferramenta para indicar

os trechos que estão indevidamente separados por ela.

• Find short lines: Encontra trechos com menos de 30 caracteres. A função desse

comando é também de identificar trechos mal-formatados. Nesse caso, os trechos

curtos demais podem indicar pedaços de períodos ou de parágrafos que se

desprenderam do bloco principal por erro de formatação.

• Insert tags: Insere etiquetas de demarcação de período (<s>) e de parágrafo (<p>), com

base na formatação do arquivo. Para remover as etiquetas, basta clicar mais uma vez

nesse item. A figura abaixo ilustra a tela do Viewer & Aligner com um texto onde

foram inseridas essas etiquetas:

289

Menu View.

• Mode. Clicando nele, alterna-se entre ‘sentence’ e ‘paragraph’. ‘Sentence’ exibe o

texto com as sentenças numeradas, enquanto ‘paragraph’ o faz com os parágrafos. O

Viewer usa as etiquetas especificadas em Settings / Text Characteristics / Text,

‘sentence’ ou ‘paragraph’ para entender onde começam e terminam períodos e

parágrafos.

• Display. Alterna entre ‘normal’ e ‘accents, etc. as codes’. O primeiro mostra o texto de

modo legível (como exibido na figura anterior). ‘Accents, etc. as codes’ exibe o texto

com códigos no lugar dos caracteres acentuados.

• Ignored tags. Alterna entre ‘cut’ e ‘visible’. No primeiro caso, remove as etiquetas

indicadas como sendo ‘para ignorar’ em Settings / Text Characteristics / Tags. No

segundo caso, deixa essas etiquetas visíveis no texto. Serve para mostrar o efeito da

exclusão de etiquetas do texto.

• Format: Alterna entre ‘ASCII’, ‘HTML’ e ‘SGML’. Exibe o texto de acordo com a

opção selecionada, interpretando os códigos de formatação existentes em cada caso.

Caso a formatação escolhida não seja a correta, o texto pode ser exibido como se

estivesse em branco.

• Header: Serve para mostrar (‘visible’) or retirar (‘cut’) o cabeçalho do texto, de acordo

com as etiquetas de delimitação apontadas em Text Characteristics / Text / heading,

start – end.

Menu Settings: Possui botões para ajustes das propriedades dos textos, semelhantes às

290

demais ferramentas.

Menu Window: Organiza as janelas do programa.

Menu Help: Fornece acesso à ajuda.

8.19.2. Aligner

Essa função permite o alinhamento de dois textos no nível do período ou do parágrafo.

Alinhamento significa fazer uma correspondência entre dois textos de tal modo que cada

unidade alinhada corresponda à outra, seja em termos de ser original ou tradução da outra,

ou de ser tematicamente análoga, ou qualquer outro critério de interesse do pesquisador.

Para iniciar o Aligner:

(1) Clique em File, Aligner, Start.

(2) Aparecerá uma janela ‘Getting Started’. Lá, clique em ‘Source text’.

(3) Selecione um texto (normalmente, o texto fonte – que pode ser o original, numa

situação de tradução) e clique em OK. O texto aparecerá na tela.

(4) Volte à janela ‘Getting Started’, clique em ‘Translation’, selecione o texto e clique

em OK. Esse texto também aparecerá na tela.

(5) Volte mais uma vez a ‘Getting Started’ e clique em ‘View Dual Text’. Se aparecer

uma janela dizendo ‘No more sentences not beginning with a capital letter found’,

clique em OK.

(6) O texto alinhado aparecerá na tela, conforme ilustra a figura abaixo. Os períodos do

texto 1 aparecerão intercalados aos do texto 2. Os períodos do texto 1 aparecerão

em vermelho, precedidos por uma etiqueta do tipo <! -- L1, S xx-->, onde xx

significa o número do período. Já os períodos do texto 2 surgirão na cor azul e

serão iniciados pela etiqueta <! – L2, S xx-->. L1 significa ‘language 1’ e L2,

‘language 2’.

291

Obviamente, raramente os textos traduzidos possuem essa relação direta com o texto

original. Por isso, o resultado inicial do alinhamento precisa ser melhorado, de tal modo

que alguns períodos precisem ser agrupados para mostrar a equivalência entre os textos.

Na tela abaixo, aparece um exemplo do alinhamento inicial de dois textos que possuem

números diferentes de períodos (dois no original em inglês e três na tradução em

português):

Para melhorar esse alinhamento, é preciso juntar os períodos 4 e 6, do texto em português,

num período apenas. Dessa forma, ele seria automaticamente alinhado com o período 3 do

texto em inglês. Para fazer isso, os passos são os seguintes:

292

(1) Clique no primeiro período que será unido (no caso do exemplo, o 4).

(2) Clique no botão ‘Mark’, da barra de tarefa. O período permanecerá selecionado (na

cor azul).

(3) Clique no segundo período que será unido (no caso do exemplo, o 6).

(4) Clique novamente no botão ‘Mark’, da barra de tarefa. Esse período também

permanecerá selecionado. Note que a ordem de seleção dos períodos é importante.

Caso fosse escolhido e marcado o período 6 antes do 4, o programa emitiria uma

mensagem de erro dizendo ‘can only join to the one above’. Caso erre na seleção

do período, clique novamente em ‘Mark’ para desmarcar, selecione o período

correto e clique em ‘Mark’, desta vez para marcar.

(5) Clique em ‘Join’. Os dois períodos serão unidos, conforme mostra a tela abaixo:

(6) Caso precise desmanchar a união, clique no botão ‘Un-join’, da barra de

ferramentas. Depois, aparecerá uma tela pedindo que seja indicada a posição onde

será feita a separação do período. No nosso caso, para retornar o texto em

português ao seu formato inicial, é preciso selecionar a palavra ‘outro’:

293

(7) Clique em OK para efetuar o desmembramento. O texto retornará ao formato

inicial.

(8) Para salvar o texto alinhado, clique em File, Save, ou no botão de Salvar da barra

de ferramentas. A seguir, aparecerá uma tela para digitação do nome do arquivo e

para escolha da pasta. Lembre-se de não alterar a terminação do arquivo, que é

.vwr . Clique em OK, e aparecerá uma janela indicando que a gravação funcionou.

(9) Para abrir um texto já alinhado, clique em File, Aligner, Open Saved Dual Text.

8.19.2.1.Barra de ferramentas

Os botões da barra de ferramentas do Viewer / Aligner são os seguintes:

• Start: Inicia o Aligner.

• Save: Grava o arquivo.

• Save as: Grava o arquivo com outro nome.

• .txt: Salva o texto no formato ASCII (.txt).

• Print Preview: Permite visualizar a impressão.

• Copy: Copia conteúdo selecionado para a área de transferência (‘clipboard’) do

Windows.

294

• Help: Inicia a ajuda do programa.

• Advice: Tenta trazer à tela tópicos de ajuda mais pertinentes à tarefa em curso.

• Grow: Aumenta a altura de cada linha do texto, para permitir melhor visualização de

linhas com muito texto.

• Shrink: Diminui a altura de cada linha do texto.

• Auto-size: Ajusta automaticamente a altura da linha à quantidade de texto.

• Layout: Permite mudar a cor da linha e a aparência da fonte (negrito, etc.). Não

funciona em algumas versões.

• Mark/Unmark: Seleciona texto para junção durante alinhamento.

• Join: Junta duas linhas (períodos ou parágrafos) durante alinhamento.

• Unjoin: desfaz junção de linhas.

• Zap: Quando o usuário seleciona linhas e pressiona a tecla ‘delete’, essas linhas

permancem na tela. Para eliminá-las, é preciso clicar o botão ‘Zap’. Caso não tenha

sido teclado ‘delete’ ainda, aparece mensagem de erro dizendo ‘nothing to zap’.

• Edit: Abre uma janela de edição para alteração do texto da linha. O usuário pode

digitar na linha, incluindo ou apagando texto. Ao clicar OK, a nova versão editada

passa a integrar o texto exibido na tela. Apenas os caracteres visíveis do teclado são

permitidos. Marcas de tabulação ou de final de linha (‘Enter’) aparecerão como

códigos incompreensíveis (‘quadradinhos’). Para ver o que esses códigos significam, é

preciso clicar no menu View e selecionar Display: Accents, etc as codes. Por exemplo,

se tivesse sido inserido um final de linha, ele agora seria exibido como <13> <10>, que

são os números dos caracteres do DOS que indicam o final de linha (caracter 13

seguido de caracter 10).

• Search: lança para fazer busca no texto exibido.

• Skim: Rola automaticamente a tela (‘scroll down’) do Viewer / Aligner. O objetivo é

auxiliar o usuário na revisão do texto alinhado ou na inspeção do texto exibido, em

geral. Ao selecionar skimming, o cursor transforma-se num pequeno relógio, cujo

295

ponteiro se movimenta continuamente. Ele possui efeito apenas estético, mostrando ao

usuário a velocidade de rolagem em operação (perceptível pela velocidade de rotação

do ponteiro). Também aparece, no canto inferior direito da tela, uma pequena barra

horizontal deslizante para controlar a velocidade de rolagem da tela. Caso ela não

esteja visível, aumente a área de visão da tela. Quando o tempo de exibição da tela é

excedido, ela é rolada para baixo e outro trecho é exibido. Para aumentar ou diminuir a

duração de exibição de cada tela, deslize a barra. Para interromper o ‘skimming’, basta

clicar no botão novamente.

296

9. Referências bibliográficas

Aleixo, A. Eu não sou o Jabor, não. Revista VIP. Março 2005. Baker, M. Corpus Linguistics and translation studies: Implications and applications. In: M. Baker, G. Francis, et al (Ed.). Text and Technology: In Honour of John Sinclair. Philadelphia/Amsterdam: John Benjamins, 1993. Corpus Linguistics and translation studies: Implications and applications, p.233-250 Bakhtin, M. Estética da Criação Verbal. São Paulo: Martins Fontes. 1997 Bazerman, C. Shaping Written Knowledge: The Genre and Activity of the Experimental Article in Science. Madison, Wis.: University of Wisconsin Press. 1988. xi, 356 p. (Rhetoric of the human sciences) Berber Sardinha, T. Automatic identification of segments in written texts. (Tese de Doutoramento). AELSU/English Department, University of Liverpool, UK. , 1997. ______. Lingüística de Corpus. São Paulo: Manole. 2004 ______, Ed. A Língua Portuguesa no Computador. Campinas / São Paulo: Mercado de Letras / FAPESPed. 2005. ______. Metaphor probabilities in corpora. In: M. S. Zanotto, L. Cameron, et al (Ed.). Confronting Metaphor in Use: An Applied Linguistic Approach. Amsterdam/Atlanta, GA: Benjamins, no prelo. Metaphor probabilities in corpora Bhatia, V. K. Analysing Genre: Language Use in Professional Settings. London: Longman. 1993 Biber, D. Variation across Speech and Writing. Cambridge: Cambridge University Press. 1988 Biber, D. e S. Conrad. Lexical bundles in conversation and academic prose. In: H. Hasselgard e S. Oksefjell (Ed.). Out of Corpora - Studies in Honour of Stig Johansson. Amsterdam/Atlanta,GA: Rodopi, 1999. Lexical bundles in conversation and academic prose, p.181-190 Biber, D. e E. Finegan. Drift and the Evolution of English Style: A History of Three Genres Language, v.65, n.3, p.487-517. 1989. Bronckart, J. P. Le Fonctionnement des Discours - Un Modèle Psychologique et un Méthode D'Analyse. Neuchatel, Paris: Delachaux & Niestlé. 1985 Celani, M. A. A., A. F. Deyes, et al. ESP in Brazil - 25 Years of Evolution and Reflection. São Paulo / Campinas: EDUC, Mercado de Letras. 2005 Coulthard, M. On the use of corpora in the analysis of forensic texts. Forensic Linguistics, v.1, n.1, p.27-44. 1994.

297

Deignan, A. Metaphor and Corpus Linguistics. Amsterdam/Philadelphia: John Benjamins. 2005 Eggins, S. An introduction to Systemic Functional Linguistics. London: Pinter. 1994 Fairclough, N. Language and Power. London and New York: Longman. 1989 French, P., J. Olsson, et al. Textual Evidence - BBC Radio 4 2005. Halliday, M. A. K. e R. Hasan. Language, Context, and Text: Aspects of Language in a Social-Semiotic Perspective. Oxford: Oxford University Press. 1989 Halliday, M. A. K. e C. M. I. M. Matthiessen. Construing Experience through Meaning: A Language-based Approach to Cognition. London ; New York: Continuum. 2000. (Open linguistics series) Kilgariff, A. Comparing word frequencies across corpora: Why chi-square doesn't work, and an improved LOB-Brown comparison. ITRI, University of Brighton, UK. Dispon°vel no site http://www.itri.bton.ac.uk/~Adam.Kilgarriff. Lakoff, G. e M. Johnson. Metaphors We Live By. Chicago: University of Chicago Press. 1980 Martin, J. R. English Text. Philadelphia/Amsterdam: John Benjamins. 1992 Mcmenamin, G. R. Forensic Linguistics - Advances in Forensic Stylistics. Boca Raton, Fla.: CRC Press. 2002. Meurer, J. L., A. Bonini, et al., Eds. Gêneros - Teorias, Métodos, Debates. São Paulo: Parábolaed. 2005. Olson, A. Authoring a Code of Ethics - Observation on Process and Organization 2006. Scott, M. e C. Tribble. Textual Patterns - Key Words and Corpus Analysis in Language Education. Amsterdam/Philadelphia: John Benjamins. 2006 Sinclair, J. Corpus, Concordance, Collocation. Oxford: Oxford University Press. 1991 Svartvik, J. The Evans Statements - A Case for Forensic Linguistics. Goteborg: Goteborg University. 1968 Swales, J. M. Genre Analysis - English in Academic and Research Settings. Cambridge: Cambridge University Press. 1990 ______. Other Floors, Other Voices - A Textography of a Small University Building. Mawmah, NJ: Lawrence Earlbaum. 1998 Thompson, G. e S. Hunston. System and corpus: Two traditions with a common ground. In: G. Thompson e S. Hunston (Ed.). System and Corpus. London: Equinox, 2006. System and corpus: Two traditions with a common ground, p.1-14

298

299

10.Outras fontes de referência

O número de pesquisadores que se valem do WordSmith Tools como ferramenta de análise

aumenta constantemente. Não há um registro centralizado dessa informação, mas há

websites que trazem registros dessa bibliografia, com ou sem acesso aos trabalhos online.

• http://www.pucsp.br/pos/lael: o ponteiro ‘Teses e dissertações’ leva a uma listagem das

pesquisas defendidas pelos alunos do Programa de Estudos Pós-Graduados em

Lingüística Aplicada e Estudos da Linguagem da PUC-SP, muitos dos quais

empregaram WordSmith Tools para análise dos dados, todos com acesso online aos

trabalhos.

• http://www.lexically.net: Seguindo o ponteiro referente a Publications e depois a ‘other

authors’, chega-se a uma listagem crescente de artigos, capítulos, livros e dissertações

que utilizaram WordSmith Tools. Não há ponteiros para fazer download dos trabalhos

elencados.

• http://www2.lael.pucsp.br/direct: Esse website inclui acesso online aos DIRECT

Papers, muitos dos quais referem-se a pesquisa realizada com WordSmith Tools. Há

ainda trabalhos sobre o uso de WordSmith Tools, tanto de divulgação para iniciantes

quanto de aprofundamento em relação a questões relativas à extração de palavras-

chave com KeyWords.

Documents

Como Usar o WSTools