50
2 Pressupostos Teóricos Conforme explicitamos em nossa introdução, nossa proposta é a de identificar automaticamente as relações lexicais entre os itens lexicais de um texto através da conjunção de processos associativos e quantitativos. Os processos associativos se baseiam na comparação entre as informações de uma estrutura de dados e os itens do texto. Essa seção tem como objetivo esclarecer ao leitor as motivações e o posicionamento adotado na construção dessa estrutura. Em termos lingüísticos, como o objeto básico dessa estrutura é a unidade lexical, esclarecemos a sua natureza na subseção 2.1.1 Sobre a delimitação da unidade lexical. Nas subseções 2.1.2 Sobre significado e referência e 2.1.3 Sobre a relação entre palavra e significado, explicitamos nossas posições sobre esses assuntos e demonstramos por que acreditamos na validade de nossa abordagem, Na subseção 2.1.3 Sobre o léxico computacional e mental, começamos a fazer uma ligação entre os conhecimentos lingüísticos e os extra-lingüísticos. Na seção 2.2 Sobre os conceitos extralingüísticos, falamos sobre alguns processos de recuperação da informação automatizados e sobre o nosso posicionamento sobre questões de arquitetura da mente, uma vez que esse processo simula um processo cognitivo. 2.1 Sobre alguns conceitos lingüísticos Apesar de esse não ser um estudo semântico, iremos abordar aqui questões relativas à semântica. Por isso, consideramos importante discutir alguns conceitos pertinentes à teoria semântica. Os critérios de adequação de uma teoria semântica nos parecem bem resumidos em Kempson (1980), apesar de nos colocarmos de maneira diversa à dela em vários outros aspectos. Segundo a autora, uma teoria semântica: “(...) (i) deve apreender, para qualquer linguagem, a natureza do significado de palavras e de sentenças e explicar a natureza da relação entre eles; (ii) deve ser capaz de prever as ambigüidades nas formas de uma linguagem, seja em palavras ou sentenças; (iii) deve caracterizar e explicar as

2 Pressupostos Teóricos - DBD PUC RIO · Quanto à questão do reconhecimento intuitivo do falante nativo, ... a indefinição na definição de flexão. Além do que, a flexão

  • Upload
    lyanh

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

2 Pressupostos Teóricos

Conforme explicitamos em nossa introdução, nossa proposta é a de identificar

automaticamente as relações lexicais entre os itens lexicais de um texto através da

conjunção de processos associativos e quantitativos. Os processos associativos se

baseiam na comparação entre as informações de uma estrutura de dados e os itens do

texto. Essa seção tem como objetivo esclarecer ao leitor as motivações e o

posicionamento adotado na construção dessa estrutura. Em termos lingüísticos, como o

objeto básico dessa estrutura é a unidade lexical, esclarecemos a sua natureza na subseção

2.1.1 Sobre a delimitação da unidade lexical. Nas subseções 2.1.2 Sobre significado e

referência e 2.1.3 Sobre a relação entre palavra e significado, explicitamos nossas

posições sobre esses assuntos e demonstramos por que acreditamos na validade de nossa

abordagem,

Na subseção 2.1.3 Sobre o léxico computacional e mental, começamos a fazer

uma ligação entre os conhecimentos lingüísticos e os extra-lingüísticos. Na seção 2.2

Sobre os conceitos extralingüísticos, falamos sobre alguns processos de recuperação da

informação automatizados e sobre o nosso posicionamento sobre questões de arquitetura

da mente, uma vez que esse processo simula um processo cognitivo.

2.1 Sobre alguns conceitos lingüísticos

Apesar de esse não ser um estudo semântico, iremos abordar aqui questões

relativas à semântica. Por isso, consideramos importante discutir alguns conceitos

pertinentes à teoria semântica. Os critérios de adequação de uma teoria semântica nos

parecem bem resumidos em Kempson (1980), apesar de nos colocarmos de maneira

diversa à dela em vários outros aspectos. Segundo a autora, uma teoria semântica: “(...) (i) deve apreender, para qualquer linguagem, a natureza do significado de palavras e de sentenças e explicar a natureza da relação entre eles; (ii) deve ser capaz de prever as ambigüidades nas formas de uma linguagem, seja em palavras ou sentenças; (iii) deve caracterizar e explicar as

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

18

relações sistemáticas entre palavras e entre sentenças de uma linguagem - isto é , deve proporcionar uma explicação explícita das relações de sinonímia, inclusão, acarretamento, contradição etc.” (KEMPSON, 1980, p. 16)

Além desses princípios básicos, concordamos também com relação à necessidade

de estabelecimento de princípios gerais que possam ser aplicados a todo os casos

conhecidos e que permitam, além disso, o reconhecimento de novas situações. Sem esse

caráter de generalidade das hipóteses, esvazia-se a validade das conclusões obtidas

através delas. As decisões tomadas no decorrer desse trabalho tentam se adequar a esses

parâmetros sempre que possível.

Nas abordagens propostas para uma teoria semântica até hoje, são propostas

explicações a partir ou da unidade lexical, ou das sentenças, ou da intenção do processo

de comunicação. Vamos nos concentrar somente nas considerações a respeito da

palavra/unidade lexical, já que esse será o objeto base de nossa estrutura.

2.1.1 Sobre a delimitação da unidade lexical

Vamos agora estabelecer os limites e características da unidade lexical, o nosso

objeto de manipulação. O termo comumente usado para tratar desse objeto é palavra. A

discussão sobre o que é palavra é maior do que o escopo desse trabalho, mas é necessário

que deixemos claras as características do objeto a que nos referimos, por isso vamos

apresentar algumas definições que ajudam a traçar alguns limites. Consideramos esse

esclarecimento fundamental para a compreensão do leitor dos critérios de classificação

em nosso estudo.

Partimos então da definição de Crystal (1985) sobre o termo. Primeiro, por ser

uma definição simples, mas bastante abrangente. Segundo, porque não está, dentro do

possível, em uma definição feita por um estudioso, comprometida com essa ou aquela

linha. Vamos a ela: “Palavra. Uma unidade de expressão que os falantes nativos reconhecem intuitivamente, tanto na língua escrita quanto na falada. No entanto, existem diversas dificuldades quando se tenta chegar a um uso coerente do termo em relação a outras categorias da descrição lingüística e na comparação das línguas de tipos estruturais diferentes.” (CRYSTAL, 1985, p. 193)

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

19

Chamamos atenção para a frase: “Uma unidade de expressão que os falantes

nativos reconhecem intuitivamente”. Ela demonstra vários pressupostos do autor: que ela

é uma unidade; que ela expressa algo; que o falante tem um conhecimento não-consciente

sobre ela que lhe permite reconhecê-la. Essa definição, apesar de sua simplicidade, pode

levar a alguns questionamentos, conforme o próprio autor levanta mais à frente: como

definir os limites da unidade? Por exemplo, devemos considerar “máquina de lavar”

como uma ou como três unidades? Ele prossegue dizendo que definições baseadas na

noção de significado ou idéia sofrem o efeito da incerteza da definição dessas palavras.

Quanto à questão do reconhecimento intuitivo do falante nativo, parece-nos que o

fato de ser nativo não é o fundamental. Tendo algum conhecimento de uma língua

estrangeira, um falante reconhecerá uma palavra como sendo dessa língua pela sua

ocorrência contextual, pela aplicação de regras morfossintáticas da língua em questão.

Como, no caso de uma L2, esse conhecimento pode ter sido adquirido formalmente, em

um curso por exemplo – esse reconhecimento não pode ser creditado a uma intuição, mas

antes a um reconhecimento de padrões. O questionamento sobre a forma de aquisição

desse conhecimento deve ficar fora dessa definição. Em termos do que consideramos

adotar dessa definição, mantemos a afirmativa de que ela é uma unidade de expressão

reconhecida pelos falantes da língua.

O autor prossegue dizendo que, por conta de todas essas dificuldades: “Três tipos de 'palavras' são geralmente encontrados (embora a terminologia varie). (1) as palavras são unidades fisicamente definíveis encontradas na escrita (entre os espaços) ou na fala. (...) (2) Existe um sentido mais abstrato, referindo ao fator comum que está por baixo das formas, que são as variantes da mesma unidade como andar, andei, andaste, andando. A unidade de palavra “subjacente” é chamada de lexema.(...). (3) Surge então uma necessidade de se estabelecer uma unidade abstrata para mostrar como as palavras funcionam na gramática de uma língua; e “palavra”, sem qualificação, fica geralmente reservada para esse papel (...). Uma palavra, então é uma unidade gramatical, do mesmo tipo teórico que morfema e sentença.(...)” (CRYSTAL, 1985, p. 193-4)

Analisando mais profundamente a definição, vemos que os três tipos de palavras

arrolados se completam mutuamente na construção de um conceito de palavra – eles

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

20

seriam características do objeto pesquisado observado por prismas diferentes. Como os

tipos de palavras listados pelo autor são aspectos diferentes do mesmo objeto, nenhum é

inadequado, mas também nenhum é completo. Em nosso experimento, o tipo (1) e o tipo

(2) são os aspectos que nos interessam, e o tipo (3) está fora de nosso escopo porque não

abordaremos aspectos morfológicos ou sintáticos. O tipo (1) trata, em última instância, do

dado com o qual trabalharemos: uma seqüência ininterrupta de caracteres alfabéticos e

hífensi. Convencionaremos então que o tipo (1) será chamado, a partir de agora, de item

lexical, para evitarmos ambigüidades.

Com relação ao tipo (2), a questão se torna mais delicada. Quando devemos

considerar que um item lexical é uma variante de uma unidade lexical maior e qual é a

definição dessa unidade lexical, isto é, o que a caracteriza? Em termos práticos, será que

devemos considerar homem, humano e humanitário como unidades distintas? Ou

devemos considerar que elas são realizações formais distintas de um mesmo conceito? E

como será a relação que devemos estabelecer entre esse conceito – homem – e o que é

expresso em mulher? Será que são dois conceitos diferentes ou dois resultados da junção

de traços ANIMAL+ HUMANO + MACHO em um, e ANIMAL + HUMANO +

FÊMEA em outro? Ainda não temos, e não esperamos ter, uma resposta definitiva para a

identificação do tipo (2). Temos, porém, algumas diretrizes que consideramos acertadas.

Comecemos por analisar o posicionamento expresso em Basílio (1995) com as

restrições já levantadas pela própria autora.

“Normalmente, a diferença entre palavras distintas e diferentes formas da mesma palavra é colocada a partir da diferença entre flexão e derivação. O problema é que não há uma distinção nítida e definitiva entre os conceitos de flexão e derivação (...)” (BASÍLIO, 1995, p. 12)

A classificação exposta por Basílio é baseada em conceitos tradicionaisii, e carrega

todos os prós e contras inerentes a essa característica. Os contras se manifestam nas

incongruências das definições, conforme apontado pela própria Basílio. Definições

tradicionais pecam essencialmente pela sua circularidade e falta de clareza no uso dos

termos. Mas têm a seu favor o aval de nossa intuição, já que geralmente reconhecemos

com facilidade os elementos destacados. Têm também a seu favor a popularidade. Ao se

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

21

usar uma definição ou nomenclatura tradicional, acredita-se que todo mundo entenderá

do que está-se tratando. E esse parece ser o ponto mais problemático na utilização de

definições tradicionais, em nosso modo de ver, uma vez que nem sempre o entendimento

é comum. Em nosso caso, por exemplo, a teoria lingüística não está plenamente

resolvida com relação ao conceito de palavra. Usar termos cujo entendimento possa ser

dúbio ou difuso não é uma estratégia razoável. Por isso, nos colocamos a favor da

utilização de nomenclatura especializada.

Observemos as colocações de Biderman (1999), que também se manifesta a favor

do uso da nomenclatura especializada.

“Consideremos, antes de mais nada, questões terminológicas. Assim termos como palavra e vocábulo se prestam a muitos eqüívocos por serem usuais na linguagem comum. (...) No caso da unidade lexical abstrata, será melhor utilizar o termo lexema para denominar as unidades virtuais que compõem o léxico e chamar de lema sua representação canônica no dicionário. (BIDERMAN, 1999, p. 89)”

Infelizmente, porém, o uso de uma nomenclatura específica somente não garante

a especificidade e objetividade desejadas. Uma vez que o novo termo não seja claramente

definido, seu uso não trará os benefícios desejados. Por definição clara, entendemos uma

definição que faça uso de termos ineqüívocos, de maneira que, ao se aplicar à definição

proposta, só haja um resultado possível. Talvez esse critério seja um tanto rígido, mas é

necessário que assim o seja. Esse é um problema do uso de lexema, para nós. Voltando,

por exemplo, às palavras de Crystal, vemos que um lexema é representado por várias

formas - “fator comum que está por baixo das formas que seriam variantes da mesma

unidade como andar, andei, andaste, andando” (CRYSTAL, 1985, p. 193-4). O exemplo

dado é o que tradicionalmente seria identificado como flexões verbais e por ele, a

definição, conforme apresentada, é correta. Mas onde está o limite entre uma forma

básica ou original e uma variante? Na ortografia da palavra? Em critérios morfológicos?

Diacrônicos ou sincrônicos? Podemos ter mais de um resultado possível, dependendo da

linha que for adotada. Essa definição só nos serve se tivermos um critério formal

aplicável a todos casos da relação unidade/variantes ou lexema/lemas.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

22

No texto de Biderman, ela diz que “a unidade denominativa para um conjunto de

formas flexionadas, que compõem um paradigma, será denominada lexema/lema”

(BIDERMAN, 1999, p. 89). Esse critério também não nos serve pelo aspecto já apontado

por Basílio, a indefinição na definição de flexão. Além do que, a flexão é,

tradicionalmente, um construto da morfologia e, portanto, está relacionada a questões

sobre a estrutura da palavra ou da unidade lexical. Apesar de aparentemente

compartilharmos a manifestação física do objeto de estudo – uma cadeia de caracteres

separada por espaços em branco –, não estamos lidando com o mesmo objeto e não temos

os mesmos propósitos ou questionamentos. Nosso propósito é o de explicitar e reproduzir

as estratégias pelas quais as relações semânticas se estabelecem através dessas unidades

lexicais, não o de prever ou descrever a criação das mesmas. Sendo assim, a utilização de

um conceito que privilegie esses aspectos não servirá em nossa análise.

Uma solução oposta à utilização de conceitos morfológicos ou morfossintáticos,

mas radical, seria partir da conceituação semântica para determinar quais seriam as

variantes de uma unidade lexical, isto é, primeiramente seriam eleitas algumas

propriedades semânticas de um item lexical e depois, caso encontrado outro item que

compartilhasse as mesmas propriedades semânticas, eles seriam agrupados sob o mesmo

rótulo. Esse procedimento, porém, poderia nos levar ao agrupamento somente de

sinônimos perfeitos e não seria satisfatório com relação aos outros tipos de relações,

como a que existe entre andava e andei. Seria preciso considerar TEMPO como uma

propriedade não semântica para que essas formas fossem entendidas como variantes de

uma unidade, e ficaríamos sem ter como demonstrar as propriedades de hoje e ontem, por

exemplo. Depois, teríamos que considerar NÚMERO do mesmo modo, para agrupar

andei e andamos e não teríamos como demonstrar a diferença entre coletivos e unidades.

Não encontramos motivação para uma classificação colocada dessa maneira, pois, além

de parecer não intuitiva, gera mais problemas do que resolve. Como, de alguma forma,

parece que voltamos à questão da flexão, procuramos analisar esses conceitos sob um

novo prisma.

Anderson (1992) coloca a flexão como um processo externo ao léxico, porque as

suas regras de formação de palavra “tratam do conhecimento, não de palavras

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

23

especificamente, mas sim das formas assumidas por elas como conseqüência da estrutura

sintática em que ocorrem.” (ANDERSON, 1992, p. 184). Apesar da relativização

colocada pelo próprio autor sobre a sua afirmativa, ela pode nos ajudar a formar um

critério claro. Se voltarmos às definições de Saeed (1997) sobre o significado das

expressões lingüísticas, temos que

“O significado das expressões lingüísticas deriva de duas fontes: a língua da qual elas fazem parte e o mundo que elas descrevem. Palavras mantêm um relacionamento com o mundo e fazem asserções sobre ele. (...) Contudo, palavras também derivam seu valor de sua posição dentro do sistema lingüístico.”(SAEED, 1997, p.12)

Elocubrando sobre essas duas percepções, podemos considerar que os processos

flexionais abarcam muito desse significado derivado da posição dentro sistema

lingüístico. Por exemplo, as noções de número, pessoa, modo e tempo são expressas

através de desinências nos verbos em português. Sendo assim, parte do valor semântico

de andei é obtida através do sistema lingüístico por oposição a andava, mas em paralelo

com comi. Por outro lado, as relações lexicais estabelecidas por andei se assemelham

mais às relações obtidas por andava, andarei do que às obtidas por comi, bebi, ganhei. O

importante é perceber que informações semânticas não existem somente no léxico, mas

em todo o sistema lingüístico. No caso das formas flexionadas, parte da informação

semântica está refletida nos ajustes formais usados para a ocorrência do item na

configuração sintática acionada. As informações semânticas que as diferenciam estarão

disponíveis através de outro domínio lingüístico – a sintaxe para uns, a morfologia para

outros –, assim com as informações semânticas contextuais estão relacionados ao

domínio extralingüístico.

Associações podem ser feitas por meio de vários aspectos e nos parece coerente

então que usemos os aspectos pertinentes ao léxico somente, ou seja, aspectos que

estejam no seu domínio. Uma vez que algumas informações semânticas são representadas

em outros componentes que não o léxico e não são ativadas por ele, não devem ser

consideradas como parâmetro da organização do léxico.

Sendo assim, podemos suavizar a solução radical apresentada anteriormente e

considerar como parâmetro de agrupamento de itens lexicais em uma unidade lexical,

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

24

somente as informações semânticas encontradas e ativadas no e pelo componente lexical.

Voltando ao nosso exemplo anterior, andar e andei poderiam ser agrupadas como

variantes da mesma unidade lexical porque as informações semânticas que as diferenciam

– tempo e número – são ativadas e controladas em outro componente lingüístico.

Para mantermos uma coerência com esse raciocínio, da mesma forma que

consideramos formas flexionadas como variantes de uma unidade, as formas derivadas

também poderão ser. Não há por que considerar que as informações semânticas dos

sufixos de diminutivo ou aumentativo em português, por exemplo, estão no léxico.

Evidentemente, há que se levar em consideração os casos em que a forma derivada

carrega uma informação diferente da informação do sufixo, como no clássico exemplo

mulherzinha.

Mantendo nosso raciocínio de considerar como parâmetro de agrupamento de

itens lexicais em uma unidade lexical somente as informações semânticas encontradas e

ativadas no e pelo componente lexical, resta ainda a definição da natureza dessa unidade

lexical. Quais seriam os parâmetros para a escolha dessa ou daquela forma como uma

unidade lexical hierarquicamente superior às outras?

Basílio (1980) defende, para o fenômeno da nominalização, a tese de que o mesmo

“seja uma relação paradigmática geral entre verbos e nomes no léxico” (BASÍLIO, 1980,

p. 73). A autora afirma também que “a direcionalidade do processo morfológico é

irrelevante no fenômeno da nominalização” (BASÍLIO, 1980, p. 74). A posição da autora

leva à não pressuposição de hierarquia entre formas verbais e nominais para os processos

de nominalização.

Por outro lado, Lyons (1977) diz o seguinte sobre lexemas:

“(...) são entidades abstratas e não têm uma forma. Eles estão associados a um conjunto de uma ou mais formas.” (LYONS, 1977 , p.22)

Concluímos que a natureza da unidade lexical que propomos é a de uma relação

paradigmática entre itens lexicais. Não há uma origem ou expressão formal para ela. Com

essa abordagem, nossa classificação será capaz de lidar não só com o surgimento de itens

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

25

novos dentro de um conjunto já existente, como também poderá lidar com questões

como:

– A existência de um item lexical em um grupo, sem contrapartida em um grupo

homógrafo. Por exemplo, conto – forma substantiva – no grupo contar_narrativa

não encontra similar no grupo contar_números.

– Uma acepção específica de um item lexical que se distancie da acepção comum

ao grupo, como é o caso de propaganda – anúncio no grupo de propagar.

– A sinonímia entre itens lexicais com formas diferentes, como é o caso de dim-

dim, bufunfa¸ grana.

Resumindo, vamos assumir nesse estudo a seguinte posição: se, no processo de

classificação das propriedades semânticas, conforme previstas em nosso modelo, de um

item lexical, observamos a ocorrência dos mesmos parâmetros de outro item, assumimos

a existência de uma relação lexical – chamada de MetaEntrada –, caracterizada por essas

propriedades semânticas comuns. Isso nos leva a classificar, em alguns casos, flexões e

derivações como membros do mesmo conjunto, mas essa decisão também tem outras

implicações em nossa classificação, que podem parecer estranhas a alguns. Por exemplo,

os itens lexicais dinheiro, dim-dim e grana estarão classificados dentro de uma mesma

unidade, mas comercial, substantivo referente a anúncio, estará catalogado em uma

unidade diferente de comércio e comercial, adjetivo. Essa configuração não usual é

esperada, já que é resultado de uma política de abordagem inovadora. Optamos

conscientemente por arriscar uma configuração não-tradicional, mas é nossa opinião que

estamos nos baseando em parâmetros lingüísticos mais apropriados ao objetivo proposto,

ou seja, nas propriedades lexicais.

Esse assunto será novamente abordado no capítulo IV, com as devidas

exemplificações de classificação adotadas.

2.1.2 Sobre significado e referência

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

26

Outro dos pontos fundamentais a serem explicitados em nosso estudo é a questão

do(s) significado(s) da palavra. Uma vez que nos propomos a identificar relações lexicais

para a descoberta de tópicos/palavras-chave de um texto como nossa metodologia, é

natural que o leitor assuma que o significado do texto esteja plenamente refletido nesses

resultados. Como demonstramos nessa subseção, isso não é necessariamente verdade.

Antes de discutir essa questão, porém, é preciso, a nosso ver, esclarecer uma certa

confusão entre os conceitos de significado e referência, causada pela natureza da relação

entre ambos.

Como não nos consideramos enquadrados em nenhuma das correntes

semanticistas que conhecemos e consideramos a argumentação de Kempson (1980) sobre

essa relação bem apresentada, usaremos a linha de raciocínio da autora como linha mestra

para nossos comentários.

Conforme a autora, existem várias formas de se encarar a relação entre os

conceitos de significado e referência. Uma dessas abordagens é chamada de

extensionalismo, e, segundo a autora, “trata o significado em termos dos objetos,

chamados extensões, a que se referem os itens da linguagem” (KEMPSON, 1980, 23-4).

Nessa visão, toda palavra relaciona-se com um objeto no mundo exterior e é a natureza

dessa relação que explicita o seu significado. Usando os exemplos da autora, a relação

entre “a expressão Ruth Kempson e o indivíduo Ruth Kempson é diretamente comparável

à relação entre a palavra camundongos e o conjunto de objetos aos quais podemos nos

referir com o uso dessa palavra.” (KEMPSON, 1980, 24). A abordagem extensionalista,

porém, encontra dificuldades em explicitar as relações de significado em casos como os

das preposições e dos objetos inexistentes, para citar alguns. Considerando-se os

princípios gerais expostos anteriormente, essa abordagem falha no item (iii), em relação à

caracterização e explicitação das relações sistemáticas dos exemplos dessas categorias.

Em nossa opinião, o problema maior dessa abordagem é a suposição de que a

língua é usada para descrições do mundo exterior. Nos casos em que existe uma intenção

de descrição, a abordagem funciona, mas falha nos outros. O homem não usa a língua

somente para descrever o mundo que o cerca; ele usa a língua para se apropriar do mundo

que o cerca, para adaptá-lo às suas necessidades e desejos. Desse modo, o que é expresso

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

27

através da língua não é uma mera descrição; portanto não há a necessidade de existir um

objeto ao qual se referir. O que se pretende expressar é resultado das impressões e do

histórico de quem produz o ato de enunciação; portanto, é muito mais uma descrição do

mundo conhecido – vamos chamá-lo assim – pelo falante do que de um mundo exterior.

Novamente concordamos com a autora quando ela diz que “(...) qualquer teoria do

significado que tente explanar todos os aspectos do significado de palavras em termos de

referência, estará errada.” (KEMPSON, 1980, p. 24).

Uma outra abordagem – a teoria imagística do significado – propõe uma

explicação para a natureza do significado das palavras através de imagens que seriam

ativadas no cérebro do falante. A questão de como seriam essas imagens é o problema

maior dessa proposta. Por exemplo, o que seria a imagem de CASA? Para alguns, seria

uma construção feita pelo homem, para outros cavernas. E, conforme aponta Kempson,

dizer que não se trata necessariamente de imagens visuais, mas de construtos mentais, é

fugir ao pressuposto originário da teoria, ou seja, o de imagem(ns) representativa(s).

Os argumentos da autora sobre o fracasso da teoria imagística na caracterização

de algumas relações lexicais são interessantes. Sobre ambigüidade, ela começa dizendo

que “Segundo uma teoria que identifique o significado de uma palavra com uma imagem,

qualquer palavra que se relacione com mais de uma imagem é prevista como ambígua.”

(KEMPSON, 1980, p 26). A seguir demonstra como essa caracterização é falha a partir

de seu exemplo de uma criança cansada que pode suscitar a imagem de uma criança

fazendo manha, ou de uma criança recostada, quase adormecida. Nosso exemplo de

CASA também serve para demonstrar esse fracasso na caracterização.

Com relação à sinonímia, ela lembra que “(...) se duas expressões portam a

mesma imagem, a teoria imagística do significado prevê que são sinônimas.” Após o que,

evoca a imagem de uma criança chorando e batendo os pés, que pode ser associada a

expressões como uma criança cansada, uma criança irritada, um futuro tirano e outras.

Como essas expressões não são sinônimas, fica caracterizada uma incongruência na

teoria.

Além disso, essa abordagem também esbarra em um problema comum à anterior:

qual seria a imagem representativa de preposições ou conjunções, por exemplo?

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

28

Assumindo-se como solução para esse impasse o pressuposto de que não se trata

de imagens visuais, mas sim de conceitos, troca-se a nomenclatura, mas mantém-se o

caráter indefinido da solução. Se o problema anterior era definir imagem, passamos agora

a ter que definir conceito. Segundo a autora, “(..) Saussure avança um pouco no sentido

de oferecer essa caracterização. (...) ele enfatiza que o conceito (...) representado por uma

palavra é resultado apenas do seu valor no sistema.” (KEMPSON, 1980, p. 27)

Como já foi dito anteriormente, não temos a pretensão de apontar uma solução,

mas sim de evidenciarmos nosso ponto de vista. Dentre as abordagens para a explicação

da natureza do significado através das palavras que apresentamos, a colocação de

Saussure é uma das que mais nos agrada, por propor a possibilidade de uma interação

para o estabelecimento do significado das palavras.

Deve-se ressaltar que não supomos que o significado nas línguas naturais possa ser

totalmente explicado através das palavras, até porque a própria definição de palavra ainda

é uma questão em aberto. Acreditamos que o processo de estabelecimento do significado

é uma relação de negociação entre os interlocutores envolvidos no processo. Essa

negociação se dá através da manipulação dos elementos disponíveis na língua. Cada

elementoiii tem uma gama de valores intrínsecos pelos quais são escolhidos para esse ou

aquele contexto, de acordo com a combinação final a que se pretende chegar. E essa

combinação final tem como autenticador o outro, o ouvinte.

Consideramos o texto literário como o exemplo mais claro para esse processo de

negociação. Um autor literário pode lançar mão de um sem número de estratégias

lingüísticas na construção de seu texto, e, quanto maior for a sensibilidade do autor nessa

escolha, mais o seu texto terá profundidade e qualidade literária. Mas essa profundidade e

qualidade passará pelo crivo do leitor, que reconhecerá aquele “novo” uso como bom. Se

observarmos o jogo de combinações de morfemas feito por Guimarães Rosa,

especificamente, veremos que o autor escolhe elementos que, colocados em um contexto

não usual, causam surpresa, mas não provocam uma recusa do enunciado. A estranheza

inicial acaba se transformando em um novo entendimento, com o qual a comunicação se

completa.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

29

Como já mencionamos na nossa introdução, o elemento com o qual nos dispusemos

a trabalhar nesse estudo são as palavras e, conseqüentemente, as relações entre elas e seus

possíveis significados. Por isso, devemos procurar um posicionamento que nos permita

lidar com as possibilidades intrínsecas de valor que as palavras têm, sem perder de vista a

influência do todo nessas possibilidades.

Nesse sentido, a colocação de John Saeed, em seu livro Semantics, nos parece

interessante e elucidativa:

“O significado das expressões lingüísticas deriva de duas fontes: a língua da qual elas fazem parte e o mundo que elas descrevem. Palavras mantêm um relacionamento com o mundo e fazem asserções sobre ele. (...) Contudo, palavras também derivam seu valor de sua posição dentro do sistema lingüístico.” (SAEED, 1997, p.12) iv

Concordamos com o autor nessa colocação: a referência de uma palavra e seu

significado não são fatores de explicação entre si, mas sim dois aspectos que constroem a

unidade palavra. A referência estabelece relações entre a palavra e o mundo

extralingüístico em que ela se insere, enquanto o significado estabelece relações entre as

palavras e suas funções e usos, portanto, no âmbito lingüístico. Ambos são parte do

objeto que chamamos palavra – a explicitação ou caracterização de um desses aspectos

não pressupõe uma explicitação ou caracterização do outro.

Existem ainda dois outros aspectos a serem levados em consideração sobre essa

questão. Um é o fato de que o mundo extralingüístico não é composto somente de

elementos concretos; conseqüentemente, não há somente elementos concretos para serem

referidos na língua. Existem outros elementos que compõem o mundo extralingüístico

sobre o qual fazemos asserções. Podemos ter relações de valor – que podem ser

representadas na língua por modificadores ou superlativos, por exemplo.

Ex.: Esse carro é mais rápido que o outro.

O filho bonito estudava piano.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

30

Podemos ter relações lógicas – que podem ser representadas por conjunções

indicadoras de causa e conseqüência, por exemplo.

Ex.: Comprei um avião porque ganhei na loto.

Temos também o que vamos chamar aqui de construtos sociais – fórmulas de

saudação ou expressões ligadas a um fenômeno social específico, que são fruto de um

conhecimento cultural. Sendo assim, elas têm como referente aquela situação social

determinada.

Ex.: - Ave, César!

- Alô?

A referência a essas situações no mundo exterior não pode ser representada por

um só elemento, o que cria uma dificuldade para as teorias que expusemos anteriormente.

O outro aspecto a ser levado em consideração sobre a relação entre significado e

referência é o fato de o sistema lingüístico ser também um produto social. A configuração

diversa para a expressão de categorias como tempo, pessoa do discurso, número e outras

em uma língua reflete também a visão de mundo da comunidade que a usa. Visto dessa

maneira, cada sistema lingüístico em si expressa também as referências ao mundo

exterior. Como já afirmamos aqui, o homem não usa a língua somente para descrever o

mundo que o cerca, mas também para se apropriar do mundo que o cerca.

A relação entre significado e referência nos parece ser bem descrita se

assumirmos dois conjuntos que podem estabelecer relações entre seus elementos. Cada

possibilidade de relacionamento tem um valor próprio, que é validado pelos falantes e

que compõe, junto com outros fatores, o resultado final.

Tendo em vista essa conceituação, dentro dos limites propostos nesse trabalho,

temos consciência de que estamos trabalhando somente com o significado de um item

lexical, ou seja, somente com parte do seu valor comunicativo. As relações de valor,

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

31

relações lógicas e os construtos sociais mencionados anteriormente, por exemplo, não

estarão sendo levados em conta. Por essa razão, em alguns momentos, teremos alguma

estranheza com relação às classificações ou resultados que podem parecer incompletos ou

até incorretos.

Vamos agora, então, estabelecer, com mais propriedade, o que é o significado de

que falamos e até que ponto podemos supor sua autenticidade.

2.1.3 Sobre a relação entre palavra e significado

No capítulo introdutório de seu livro Lexical Semantics, de 1986, Cruse apresenta

a sua concepção a respeito da relação entre palavra e significado. Logo no início, ele

deixa claro que, em sua visão do fenômeno: “as propriedades semânticas de um item

lexical estão plenamente refletidas nos aspectos de adequação das relações que ele pode

contrair em contextos existentes e potenciais.”v (CRUSE, 1986, p.1) Ao colocar assim a

questão, Cruse está assumindo que o chamado significado de uma palavra não tem uma

existência independente, ele se constrói no contexto, dentro de determinados limites e

aspectos que seriam inerentes à palavra. Esses limites e aspectos seriam as “propriedades

semânticas”.

Mais adiante, ainda sobre o que seria o significado de uma palavra, Cruse diz que

uma palavra em si não teria um significado, mas, sim, várias possibilidades de

significados, encapsulados em suas várias possibilidades de realização contextual. Dentre

essas possibilidades de realização contextual, a que for ativada determina o significado da

palavra naquele caso de uso.

“(…) cada aspecto do significado de uma palavra é refletido por um padrão de normalidade (ou anormalidade) semântica em contextos gramaticalmente apropriados” (CRUSE, 1986, p.15-6)vi

Com esta afirmação, Cruse elimina a idéia de um ou mais significados para uma

palavra, e apresenta o conceito de relações contextuais. Essas relações contextuais seriam

o conjunto completo de possibilidades de combinações entre um item lexical e todos os

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

32

contextos gramaticais possíveis. Como a combinação usada só se define na realização do

contexto, não há sentido em falar em um significado da palavra, mas sim das relações

contextuais que ela pode assumir. Nas palavras do autor:

“O conjunto completo de relações normais que um item lexical contrai com todos os contextos concebíveis será referido como suas relações contextuais. Devemos dizer, então, que o significado de uma palavra está plenamente refletido em suas relações contextuais, e até mais além, dizer que, para os presentes propósitos, o significado de uma palavra se constitui das suas relações contextuais. ” (CRUSE, 1986, p 15-6vii)

Segundo essa visão, a necessidade de analisar o contexto se torna primordial para a

análise do léxico. Cruse, porém, chama a atenção para algumas das conseqüências dessa

abordagem: a inevitável arbitrariedade das delimitações do significado de uma palavra e

o fato de não existir um motivo teórico para se separar o sentido pragmático do lexical.

Além disso, existe uma dificuldade metodológica, que talvez seja o ponto mais

importante, no momento: a construção de uma representação formal e lógica, de acordo

com os modelos já existentes, para essa abordagem. Vejamos em suas próprias palavras:

“A adoção da abordagem contextual para estabelecer o significado das palavras (..) tem algumas conseqüências inevitáveis, conseqüências estas que alguns podem considerar como desvantagens. Primeiro, qualquer critério para estabelecer limites para o significado de uma palavra será certamente arbitrário; segundo, não existe nenhuma motivação para se propor que o “significado pragmático” seja um domínio separado do significado lexical. E, talvez a mais importante, parece não haver subsídios para se acreditar que o significado de uma palavra, visto sob este prisma, seja totalmente codificável – sem a adoção de critérios severos, ele é um candidato não promissor para a formalização ou representação em termos de formulações lógicas ou quasi-matemáticas”. (CRUSE, 1986 , p.19)viii

Apesar disso, a abordagem contextual ainda se apresenta como uma possibilidade

factível pelo seu apelo intuitivo. Conforme o autor, essa abordagem “(…) tem a

vantagem de ser intuitivamente plausível” (CRUSE, 1986, p. 19)ix.

A favor desse apelo intuitivo, podemos observar as palavras anteriores do autor:

“As palavras contribuem, através das suas propriedades semânticas, para o significado de unidades mais complexas, mas individualmente não suscitam nossas experiências de linguagem mais diretas e vívidas. Nós nos comunicamos através de enunciados; é razoável então supor que, conseqüentemente, nossas intuições referentes a enunciados são mais profundas, claras e mais confiáveis do que aquelas referentes a palavras individualmente.”(CRUSE, 1986, p. 9-10)x

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

33

Podemos concluir então que, para o autor, o problema da extração do conteúdo com

uma análise que privilegie a estratificação das propriedades semânticas de uma palavra é

o caráter incompleto do resultado obtido, mas não uma inadequação do mesmo.

Concordamos com essa visão, mas também fica evidente que a estratificação dessas

propriedades semânticas é um fator para se alcançar esse objetivo. Consideramos que

nossa proposta é um avanço no sentido de demonstrar as possibilidades do uso da

estratificação dessas propriedades semânticas para o levantamento de relações

contextuais estabelecidas em um texto.

2.1.4 Sobre o léxico computacional e o léxico mental

2.1.4.1 O léxico mental

Em teoria lingüística, o conceito de léxico mental surge com a redefinição da

natureza do léxico. Nas palavras de Basílio (1999) em seu texto sobre “Questões

clássicas e recentes na delimitação da unidade lexical”, temos que: “Em abordagens gerativas, o léxico deixa de ser o vocabulário da língua como realidade externa; o objeto de estudo do lingüista é o léxico mental, usualmente descrito ora como uma lista de entradas lexicais (...), ora abarcando também o conhecimento das relações lexicais e/ou suas projeções na definição de construções lexicais possíveis (...) (BASÍLIO, 1999, p. 10)

Essa redefinição traz, conforme relatado por Basílio, diversas implicações para a

teoria lingüística como um todo. Resumindo os aspectos mais relevantes, ela destaca que:

“As grandes questões da teoria lexical em abordagens gerativas, portanto, se referem às fronteiras entre os limites do conhecimento lingüístico e não lingüístico no e do léxico; a interação (ou não) entre o léxico e os diferentes componentes da gramática; a existência e forma de regras, morfológicas ou lexicais; e a pertinência ou não de objetos ao léxico.” (BASÍLIO, 1999, p. 11)

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

34

Não há um consenso em lingüística, ainda, sobre a natureza do léxico mental, e

sobre a sua função dentro do sistema lingüístico. Mas existem algumas posições que

consideramos e que apresentamos adiante, especificamente com relação a dois pontos de

suma importância em nosso estudo: a organização do léxico e os limites entre ele e a

morfologia.

Primeiramente, vamos discutir a organização do léxico, ou seja, se ele deve ser

entendido como uma lista de itens lexicais ou como uma estrutura de organização mais

complexa.

Dentro da perspectiva proposta em Anderson (1992) o léxico não é entendido

somente como uma base de dados, cuja única função é a de armazenamento dos itens

lexicais. O autor se coloca a favor da idéia de que o léxico é um componente do

conhecimento lingüístico, assim como a sintaxe ou a fonologia, e que, como tal, deve ser

entendido como “o conhecimento que um falante tem sobre como palavras podem ocupar

posições em uma estrutura sintática.” (ANDERSON, 1992, p.182)xi. Anderson afirma que

esse conhecimento se manifesta não só na lista de itens lexicais e seus significados, mas

também nas relações que se estabelecem entre um item e outro, tanto mais que essas

relações podem ser, na maioria das vezes, sistematizadas. Uma confirmação desse fato se

encontra na capacidade que um falante tem de analisar uma dada palavra de sua língua,

mesmo sem conhecer o seu significado e/ou existência. Essa capacidade existe através da

aplicação de um conhecimento específico a respeito da natureza dos elementos que

compõem o léxico.

Partindo dessas premissas, o autor explica que, ao se dizer que uma determinada

palavra está dentro do léxico, estamos dizendo que ela é reconhecida por esse

componente da gramática, e não necessariamente que está dentro de uma lista finita de

itens.

Essa discussão a respeito do que seria o conhecimento lingüístico do componente

lexical leva inclusive o autor a discutir o papel da flexão e da derivação dentro do

mesmo. Ressaltando o fato de que o conhecimento contido nas regras flexionais trata das

relações de adequação entre as palavras e a estrutura sintática em que são solicitadas, ele

coloca a flexão como “fora do léxico”. Ele chama atenção, porém, para o fato de

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

35

considerar essa decisão mais como uma elaboração teórica do que como uma

característica da flexão. Por outro lado, ao considerar que na derivação existem “regras

que operam dentro do léxico para relacionar itens (...) uns aos outros, e para criar novos

itens lexicais baseados nesses quando for preciso” (ANDERSON, 1992, p. 184)xii, o autor

coloca a derivação como o tipo de conhecimento que compõe o conhecimento do léxico.

Perini (1999) apresentando sua proposta radical, de acordo com o próprio, para a

definição de item léxico, diz que:

“O léxico deve ser entendido em termos de redes de correspondência em vários níveis e conceitua o item léxico como uma trilha de propriedades fonológicas, morfológicas sintáticas e semânticas.” (PERINI, 1999, p.140)

Percebe-se que Perini também considera que o léxico pressupõe uma organização

diferente de uma lista e um tipo de conhecimento peculiar.

Também trabalhos relacionados à lingüística computacional indicam que o léxico

não pode ser considerado somente uma lista de itens lexicais. Vejamos as conclusões de

Dias (1994) em seu estudo:

“O estudo aqui realizado sugere que o Léxico não seja considerado como um sinônimo para dicionário. Muitas informações importantes parecem estar presentes no Léxico em forma de entradas lexicais, mas outras informações necessárias para que os falantes utilizem as palavras de sua língua sugerem outro tipo de organização.

(...) o léxico se constitui num componente com duas funções, conforme previsto na teoria de Jackendoff. A primeira função é fornecer um espaço para o armazenamento do conhecimento conceitual lexical. A segunda viabiliza, em parte, a própria aquisição de itens (...) ”(DIAS, 1994, p. 117)

Colocando em termos simples, podemos dizer que o léxico é o domínio das

palavras existentes e em uso de uma língua e que a morfologia é o domínio das regras de

formação dessas palavras. No entanto, o limite entre o léxico e a morfologia é um assunto

importante para discussão, uma vez que ambos compartilham o mesmo objeto. Conforme

argumentam Aronoff e Anshen (1998): “Esta interseção tem levado alguns lingüistas a afirmar que a morfologia está ‘dentro do léxico’ (Jensen and Stong-Jensen, 1984), embora, ao fazer isso, esses lingüistas estejam usando o termo léxico em um sentido diferente, mais amplo, como se esse fosse a fonte de todas as palavras, atuais e potenciais, do que no sentido mais restrito de uma lista de itens imprevisíveis que nós herdamos da

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

36

gramática tradicional e de Bloomfield (Bloomfield, 1933, Zwicky, 1989, Aronoff, 1994)” (ARONOFF e ANSHEN, 1998, p. 237)xiii

Além do que, lembram os autores, o léxico e a morfologia são interdependentes; a

morfologia cria palavras novas em cima das palavras, digamos, aferidas pelo léxico. Este,

por sua vez, lança mão das regras morfológicas da língua para validar um item novo.

Mesmo quando o item novo é importado de outra língua, ele é inserido dentro do

contexto das regras morfológicas da língua em questão. Tomemos por exemplo a

atribuição de gênero, que é imprescindível aos substantivos em português, mesmo para os

itens que têm origem externa, como futebol e abajur, que recebem uma definição de

gênero.

2.1.4.2 O léxico computacional

O conceito de léxico computacional difere do conceito de léxico mental. A

semelhança que se pode encontrar entre eles é o fato de ambos serem entendidos como

componentes de um sistema maior, que tem como função principal alimentar outros

componentes do mesmo sistema com as informações possíveis. Fora esse aspecto,

diferentemente do que acontece em teoria lingüística, os questionamentos sobre léxico

computacional não passam por sua natureza, mas sim por sua organização e limites.

Essa é a primeira diferença entre os dois conceitos: um léxico computacional não é

composto somente de uma lista de entradas lexicais; ele pressupõe uma organização de

entradas lexicais. A segunda diferença é que ele também abarca conhecimentos relativos

a outras áreas, como a morfologia e a semântica.

Observemos o verbete do MITECS, feito por J. Pustejovsky: “Um léxico computacional era considerado tradicionalmente como um repositório de informações lexicais, concebido para auxiliar o processamento de atividades específicas, como parsing, geração de textos ou tradução. Desse modo, ele deveria conter dois tipos de conhecimento: (1) o conhecimento necessário para análise e síntese sintática, e (2) o conhecimento necessário para interpretação semântica. Mais recentemente, a definição de um léxico computacional tem sido objeto de revisão à medida que a lingüística computacional e a semântica têm evoluído. Em particular, dois novos objetivos têm norteado as preocupações de modelagem dos pesquisadores:

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

37

- (1) esforços no sentido de uma maior integração entre as operações semânticas de composição e as estruturas lexicais de informações que as produzem. - (2) uma preocupação constante com o modo pelo qual os tipos lexicais refletem as categorias ontológicas subjacentes do sistema a ser modelado.” (Computational lexicons - Linguistics and Language http://cognet.mit.edu/MITECS/Entry/pustejovsky)xiv

Por “esforços no sentido de uma maior integração entre as operações semânticas de

composição e as estruturas lexicais de informações que as produzem”, deve-se entender a

procura de formalizações que permitam ao sistema inferir o sentido a ser aplicado na

realização contextual de um item. Um bom exemplo apresentado por Pustejovsky é o de

DOOR, que vamos apresentar em português. O item lexical PORTA pode, a depender do

contexto, fazer referência ao local determinado para passagem e ao objeto físico que

serve para controlar essa passagem. Tendo as duas frases abaixo podemos observar essa

dualidade:

Ela passou pela porta. (passagem)

Eu pintei a porta de verde. (objeto físico)

O processo de identificação da referência correta para cada contexto é

fundamental para a qualidade da informação retornada. Um léxico computacional deve

trazer em si informações que permitam a inferência correta dessas relações.

Por “uma preocupação constante com o modo pelo qual os tipos lexicais refletem

as categorias ontológicas subjacentes do sistema a ser modelado”, entenda-se a

preocupação em refletir no modelo computacional a organização da linguagem natural

entendida como um produto da mente humana e de seus processos cognitivos.

Para avaliarmos melhor a relevância dessa preocupação, devemos ter em mente que

um léxico computacional é, grosso modo, composto formalmente de:

• uma base de dados composta de itens lexicais a que são atribuídos valores e

classificações que construirão uma organização entre eles. Vamos chamá-la nesse

trabalho de corpus lexical.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

38

• um conjunto de regras que são aplicadas aos valores e classificações atribuídas

aos itens lexicais para a obtenção dos resultados pretendidos, chamados aqui de

estratégias.

Um léxico computacional se manifesta como o léxico de um só usuário; apesar de

ser modelado tendo como modelo um léxico geral, ele pertencerá a um só usuário, o

sistema que o utilizará. Sendo assim, ele poderá não ser completo em termos de itens

conhecidos, mas deverá ser completo em termos de aplicação das regras lingüísticas

específicas da língua que trata e relativas aos domínios lingüísticos com que ele se

proponha a lidar – morfologia, sintaxe, fonologia, etc. Com isso queremos dizer que ele

deverá ter disponível em si as informações lexicais que forem necessárias para a

aplicação das regras referidas. E, na verdade, como as regras específicas podem mudar,

ele deverá ter disponível em si as informações lexicais necessárias para a aplicação de

regras lingüísticas gerais.

Um léxico computacional que não corresponda a esses requisitos será de pouca valia

além do objetivo imediato para que foi concebido, pois não poderá fornecer a informação

necessária a outras aplicações.

2.2 Sobre alguns conceitos extralingüísticos

2.2.1 Processos de recuperação da informação

Como afirmamos na nossa introdução, pode-se considerar que qualquer forma de

procura em uma determinada base de conhecimento é um processo de recuperação da

informação. Desde que a informação produzida pelo homem se tornou maior do que a

capacidade de assimilação do cérebro humano, existe a necessidade de armazenamento

para posterior recuperação. A escolha de um processo de armazenamento define as

possibilidades de recuperação. O homem elegeu a língua como sua ferramenta

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

39

preferencial. Antes da invenção da escrita, quando só havia a transmissão oral, as

informações eram memorizadas através de uma estratégia melódica que podia ser

refletida em versos e rimas. O processo de recuperação era ativado através da repetição

da melodia ou da lembrança de um verso. Com o advento da escrita, o homem passou a

usar outros processos: o sistema bibliotecário é um deles, sistemas de arquivos, índices –

remissivos ou analíticos –, resumos, enciclopédias, etc. Todos os sistemas citados

prevêem a catalogação da informação, o que pressupõe a análise da mesma. Em todos

eles, também, a questão sensível é a recuperação da informação. Por mais bem idealizado

que seja o sistema, ele só poderá refletir o ponto de vista abordado na análise. Quem já

fez um trabalho de pesquisa sobre um assunto desconhecido, sabe como ajuda ter uma

indicação bibliográfica. É que antes de conhecer algo sobre o assunto, não se sabe o que

procurar. Acontece também do catalogador ter uma opinião diferente do pesquisador

sobre o assunto, de forma que colocará a informação em um local que não será cogitado

pelo pesquisador, que conseqüentemente não a encontrará. Quanto maior se torna a

quantidade de informação armazenada pelo homem, tanto maior esse problema se torna.

No mundo atual, onde o controle e o acesso à informação são fatores decisivos para a

economia, e com a crescente digitalização da informação, o problema se agrava. Um

sistema de recuperação mais satisfatório é uma das prioridades na Internet.

Os sistemas usados em soluções anteriores enfrentam um problema incontornável

na Internet: a falta de controle das informações veiculadas. Os processos de classificação

manual e indexação automática são implementados, mas não podem ser aplicados à

totalidade do universo. E o retorno das buscas efetuadas tem, geralmente, um espectro

amplo que demanda nova pesquisa.

Ora, a Internet é um grande sistema de informações, que usa como meio para

armazenamento a língua escrita - em alguns casos, na variante padrão do vernáculo, em

outros em uma variante informal. Acreditamos que as técnicas de recuperação de

informação aplicáveis a bancos de dados ou similares não são aplicáveis à Internet com

os mesmos resultados porque a Internet não é um banco de dados ou similares. Para que

se tenha um acesso de qualidade a essas informações, deve-se aplicar uma estratégia de

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

40

análise adequada, que leve em consideração a diferença entre informação digitalizada e

informação lingüística digitalizada, que é o caso da Internet.

2.2.1.1 Diferença entre informação digitalizada e informação lingüística digitalizada

Obviamente, existem vantagens indiscutíveis na utilização do meio digital para

armazenamento das informações, antes armazenadas em celulose. Desde a reprodução da

informação até a economia de espaço físico, passando pela perenidade do meio de

armazenamento à preservação ambiental, inúmeras melhorias são conseguidas através da

digitalização. A única questão que permanece, e para a qual uma solução inadequada tem

sido adotada, a nosso ver, é a da recuperação da informação. Isso acontece por um

entendimento errôneo do objeto.

Ao se digitalizar a informação lingüística, passou-se a tratar o seu conteúdo como

se fosse uma informação digitalizada, o que é um engano. A informação digitalizada –

considerada como tal - segue uma uniformização e compartilha características formais de

uma maneira diferente da informação lingüística. Trata-se de um engano similar ao de se

supor que a expressão lingüística oral é igual à expressão lingüística escrita. Apesar de

compartilharem a natureza lingüística, cada uma delas se apropria das facilidades e

limitações do meio em que se propaga. Ao digitalizarmos a expressão lingüística escrita –

ou qualquer outra informação –, mudamos o meio, mas mantemos as características

formais e organizacionais da expressão escrita. A produção escrita é a mesma em uma

folha de papel, tela de computador ou pedra, com as respectivas mudanças de registro.

O fato de se digitalizar um texto, ou filme, ou som, não torna o seu conteúdo

digitalizado, mas sim o seu meio de reprodução. O que pode ser considerado como

informação digitalizada tem sua identidade e função definidas a priori, por uma

convenção formal que predetermina suas partes e possibilidades. Essa é a sua

característica fundamental e os processos de recuperação são baseados nessa

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

41

uniformidade. Tal característica é resultado da natureza dos processos a que essa

informação pode ser submetida: os algoritmos.

Tomando como exemplo de informação digitalizada um banco de dados, vemos

que ele se caracteriza pela uniformidade e pelo relacionamento das informações

armazenadas. O relacionamento dentro do banco de dados é definido antes de sua

criação, de acordo com o relacionamento entre as informações no mundo real, e é o que

garante determinadas inferências durante o processo de recuperação. Para maiores

informações sobre bancos de dados, ver Mitra (1991) e Parsave, Chignell, Khoshafian &

Wong (1989).

Consideremos, por exemplo, três itens - bananas, batom e conta de luz – para

serem armazenados em um banco de dados cujo conteúdo seja despesas pessoais.

Bananas e batom têm em comum o fato de serem mercadorias, mas uma conta de luz

seria um serviço. Pode ser interessante, porém, que, ao considerarmos uma relação de

despesas, os três itens sejam arrolados como tal. Como se pode ver, a definição de

relacionamentos é um reflexo do mundo real, mas é dependente do objetivo com o qual

se aborda a informação e por isso é definida anteriormente. Quando as informações são

armazenadas, além do valor intrínseco a elas, recebem também uma definição que

estabelece a sua rede de relacionamentos. No nosso exemplo anterior, ao cadastrar

banana e batom, os dois itens poderiam ter também definida a característica de

mercadoria, entre outras coisas, como valor e data da despesa. O mesmo se daria com

conta de luz, que receberia a característica de serviço. Mercadoria e serviço, porém,

teriam em comum o fato de serem despesas, o que seria a discriminação de sua natureza.

Ao realizarmos uma busca de despesas, teríamos os três itens arrolados por causa da

relação imposta no banco de dados. Supondo que o banco de dados não fosse de controle

pessoal, mas sim o controle de um supermercado, banana e batom não seriam mais

despesas e sim produtos para venda, e a lista seria diferente.

A uniformidade, que é condição para a criação das tabelas – que representam os

objetos do mundo real -, é garantida através de um padrão de formato para elas. As

informações são recortadas em várias peças que se tornam os campos das tabelas. Na

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

42

hora de buscar uma informação específica, a procura é feita pelos valores armazenados

nos vários recortes feitos - os campos.

Tomemos como exemplo as informações sobre os programas da grade normal

constantes no site do canal de assinatura SPORTV. Lá temos os nomes dos programas, o

nome dos apresentadores e o assunto de que tratam, conforme se pode observar no

quadro abaixo. Se fôssemos montar um banco de dados com essas informações,

poderíamos ter uma tabela com os seguintes campos:

Programa Apresentador Assunto

Dossiê Jornalismo Grid Motor Automobilismo Passando a Guarda Joinha Artes marciais Tá na área Betty Goffman Futebol Supervolley Bruno Voloch e Ana Paula Vôlei

Quadro 1 Exemplo de tabela sobre a programação do SPORTV

Observemos como a informação se apresenta na página do site, ou seja, em sua

forma lingüística:

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

43

Programa Texto

Dossiê

Confira a pauta do próximo programa e participe do nosso programa escrevendo para a produção do Dossiê. Envie sugestões e críticas, assim o nosso programa será cada vez melhor para você!

Grid Motor

Os amantes da velocidade tem hora certa no SPORTV. Agora, todas segundas, quartas e sextas, às 11 da noite você pode assistir ao Grid Motor. O melhor do automobilismo na TV por assinatura.

Passando a Guarda

Passando a Guarda é o programa de artes marciais do SPORTV. Apresentado por Jorge Guimarães, o Joinha, você verá tudo sobre Jiu-Jitsu, Ultimate Fighting, lutas, desafios e campeonatos, com comentários e convidados exclusivos.

Tá na área

Futebol com muita ginga. Esta é a proposta do Tá na Área. Com reportagens de Alê Primo e apresentação da atriz Betty Gofman, o programa mudou a tática do jornalismo esportivo, trocando a tabela oficial por uma tabela bem humorada com craques da bola, artistas, cineastas, estilistas, músicos e muita galera.

Supervolley

Um saque certeiro pelas principais quadras do mundo. Assim é o Supervolley, uma revista semanal dedicada exclusivamente ao vôlei internacional. Apresentado por Bruno Voloch e pela jogadora Ana Paula, o programa apresenta uma verdadeira panorâmica do voleibol mundial.

Quadro 2

Reprodução do texto da Página de programação do Site da Sportv

Como se pode perceber, as informações estão disponíveis, mas não estão

uniformizadas formalmente como em um banco de dados. Como saber quem é o

apresentador do programa sobre futebol? O padrão de informação encontrado nos outros

(Apresentado por) não se encontra no texto sobre o “Tá na Área”. E por aí seguem as

dificuldades.

Como já afirmamos, não se pode supor que as técnicas de recuperação usadas

para recuperação da informação digital tenham a mesma eficiência na recuperação da

informação lingüística digitalizada. Como solução para esse problema, resolveu-se

processar a informação lingüística de maneira a organizá-la como informação

digitalizada.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

44

Uma das alternativas recentes foi propor uma mudança na estrutura das páginas na

Internet. As páginas são escritas em sua maioria no formato HTMLxv. O formato HTML

dá conta das questões de formatação e diagramação do texto, e como solução para as

dificuldades de organização da informação, outros formatos, como o XML, foram

propostos. O formato XML pretende lidar com a organização das informações que a

página veicula; ele é uma ferramenta para a estruturação dos dados. Para uma visão mais

aprofundada, ver a introdução de Abiteboul, Bunemam & Suciu, 2000.

O uso efetivo do XML, ou de soluções similares, implica reorganizar todo o

conteúdo da rede. E a comunidade da Internet não aceita com facilidade mudanças que

impliquem em restrições de qualquer tipo. Se um dos grandes atrativos da rede é a

liberdade e facilidade para se disponibilizar as informações, como impor um formato que

pressupõe um conhecimento técnico específico? Estruturação de dados é tarefa de

analistas de sistema. Tais soluções acabam restritas a grande corporações ou à espera de

ferramentas de uso e disponibilização fácil para o usuário leigo.

Outra alternativa, mais interessante para o público em geral, foi a de aplicar

algumas técnicas de processamento para reorganizar o produto lingüístico com o objetivo

de recuperar a informação veiculada. Vamos ilustrar algumas dessas técnicas de

processamento a seguir.

2.2.1.2 Técnicas de processamento para recuperação da informação lingüística

Primeiramente, é preciso esclarecer que todas as técnicas de processamento de

que tivemos notícia, até hoje, utilizam como base para o referido processamento uma

unidade formal: a palavra escrita. Entenda-se palavra aqui como o tipo (1) mencionado

em seção anterior, ou seja, uma cadeia de caracteres cujo limite é definido pela presença

de espaços em branco ou sinais de pontuação. Acreditamos que a escolha da palavra

como material de manipulação tem dois motivos principais. O primeiro é função da

facilidade de reconhecimento da unidade pela máquina; afinal, espaços em branco ou

sinais de pontuação são parâmetros formais inequívocos. O segundo é a crença leiga de

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

45

que palavras têm um significado isolado e que essa informação refletirá o conteúdo da

informação veiculada.

Em segundo lugar, as técnicas que descrevemos a seguir são geralmente usadas

em conjunto; estamos separando as duas principais somente para fins de apresentação.

Não há critérios definidos para seu uso e cada grupo de trabalho procura aproveitar o

melhor de cada uma, aplicando-se os critérios considerados mais apropriados pelo

próprio grupo.

Talvez a designação técnicas de processamento não seja a mais correta para esses

procedimentos, mas consideramos melhor chamá-los assim para fins de organização do

texto. Lembramos que o objetivo é somente o de ilustrar as técnicas, portanto não

faremos críticas ou apresentações exaustivas sobre as mesmas.

2.2.1.2.1 Indexação de palavras

Uma das técnicas mais usadas na organização da informação lingüística visando a

recuperação é a indexação. A indexação consiste basicamente na listagem dos endereços

de cada item lexical encontrado no corpus. O endereço pode ser composto do nome do

texto, número de linha, número de parágrafo, posição na frase, etc. A intenção é fazer um

mapeamento das ocorrências para agilizar o processo de busca: em vez de passar por todo

o corpus a cada procura, o algoritmo analisa o corpus uma só vez e gera as tabelas que

serão usadas para a pesquisa. Velocidade nas respostas e menor esforço de

processamento foram os primeiros objetivos na idealização dessa técnica. Mais tarde, as

possibilidades de tratamento estatístico com fins de análise de conteúdo também se

tornaram um atrativo.

Exemplificaremos essa técnica, usando um texto retirado de nosso corpus:

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

46

“Você já deve ter ouvido falar de empresas de Recurso de Multas mas nunca confiou.

Agora existe a Multiprest!

Uma empresa com experiência e acima de tudo Honestidade. Você entra com o recurso agora e só paga os Honorários se seu processo for deferido.

Visite agora www.multprest.com.br ou ligue 0xx11 xxx-xxxx” (PINTO, 2002, anexos).

Exemplo 1

Texto extraído do corpus

Usando esse critério de mapeamento, poderíamos obter a ordem em que as palavras

aparecem no texto. Apresentamos a seguir, para exemplificação, uma parte do resultado

obtido com esse critério:

Palavra Ordem

você 1 já 2 deve 3 Ter 4 ouvido 5 falar 6 de 7 empresas 8

Quadro 3

Exemplo de tabela com mapeamento ordenado dos itens lexicais

Conforme a técnica foi sendo aplicada, alguns resultados estatísticos passaram a

ser obtidos e usados como base para análise. Além dos percentuais de ocorrência do item

com relação ao corpus, passou-se a medir, entre outros, o percentual de co-ocorrência dos

itens, exemplificados abaixo. Os resultados seriam os que se seguem, onde # representa o

número de ocorrências da palavra e % é o percentual de ocorrência arredondado. Os itens

em negrito foram os de maior ocorrência em um total de 58.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

47

Palavra #

%

A 1 0,02

Acima 1 0,02

Agora 3 0,05

Com 3 0,05

confiou 1 0,02

De 4 0,07

deferido 1 0,02

Deve 1 0,02

E 2 0,03

empresa 1 0,02

empresas 1 0,02

Palavra #

%

entra 1 0,02

existe 1 0,02

experiência 1 0,02

falar 1 0,02

Foi 1 0,02

For 1 0,02

honestidade 1 0,02

honorários 1 0,02

Já 1 0,02

ligue 1 0,02

Mais 1 0,02

Palavra #

%

mas 1 0,02

multado 1 0,02

multas 2 0,03

multiprest 2 0,03

não 1 0,02

nunca 1 0,02

o 1 0,02

os 1 0,02

ou 1 0,02

ouvido 1 0,02

paga 1 0,02

Palavra #

%

pague 1 0,02

processo 1 0,02

recurso 2 0,03

se 1 0,02

seu 2 0,03

só 1 0,02

ter 1 0,02

tudo 1 0,02

uma 1 0,02

veiculo 1 0,02

visite 1 0,02 você 2 0,03

Quadro 4 Percentuais de ocorrência do Exemplo 1

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

48

Consideremos, para a ilustração da co-ocorrência, a palavra DE, que foi a que

apresentou o maior percentual de ocorrência.

Co-ocorrências com DE

ter ouvido falar de empresas de recurso falar de empresas de recurso de multas

empresas de recurso de multas mas nunca experiência e acima de tudo honestidade você

Quadro 5 Co-ocorrências com a palavra DE

A palavra em questão co-ocorreu imediatamente no texto com falar (1) ,

empresas (2), recurso (2) , multas (1) , acima (1) e tudo (1). Observe-se que a contagem é

feita por ocorrências, por isso empresas e recurso são contadas duas vezes, uma

ocorrência antes e uma depois. Esse critério foi determinado por nós, para esse exemplo,

mas existem outros critérios para a co-ocorrência.

A co-ocorrência é usada para se medir uma correlação entre as palavras,

baseando-se na hipótese de que palavras tendem a ocorrer mais freqüentemente próximas

de palavras com que compartilhem algum valor semântico. Essa co-ocorrência poderia

fornecer indicações sobre o tópico do texto. Em nosso exemplo, a correlação semântica é

fraca, pois DE é uma preposição. Acontece que as palavras mais freqüentes nos textos

são palavras gramaticais, o que vai causar uma série de co-ocorrências com correlação

semântica fraca. Para evitar esse resultado, usa-se uma técnica para eliminar stop-words,

isto é, uma lista de palavras vazias de conteúdo (palavras gramaticais e outras do tipo

“coisa”) e essas palavras não são computadas. Por outro lado, empresa e empresas são

computadas em separado, pois são duas cadeias de caracteres diferentes do ponto de vista

da máquina. Por causa desses e de outros problemas, outra técnica de processamento foi

projetada: a classificação dos itens.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

49

2.2.1.2.2 Classificação de palavras

A grosso modo, a classificação de palavras pode ser descrita como o

estabelecimento de relações, que podem ser tanto morfológicas quanto semânticas, entre

palavras. Por exemplo, para cada palavra existente na língua, poderíamos relacionar as

flexões e derivações pertinentes. Assim, no momento da análise do texto, empresa e

empresas serão consideradas duas formas diferentes da mesma ocorrência e serão

computadas juntas. Se estivéssemos usando categorias semânticas de agrupamento de

palavras, as ocorrências de recurso, processo, deferido e honorários, por exemplo,

poderiam remeter ao frame “legislação”.

Uma questão técnica imediata nesse processo é a forma pela qual as palavras são

classificadas: manualmente – por seres humanos - ou automaticamente – por meio de

algoritmos que deduzem as classificações após serem submetidos a grandes massas de

textos. A classificação manual é, comparada com a automática, lenta e dispendiosa; por

outro lado, a classificação automática ainda não foi implementada de maneira a ser mais

eficiente do que a classificação manual. Existem esforços nesse sentido como alguns

lematizadores para o português, para flexão e derivação, e o uso da wordnet para inglês,

por exemplo, para agrupamento semântico.

Thesauri são o mais conhecido exemplo da técnica de classificação. Um

thesaurus é uma coleção de palavras selecionadas dentro de um vocabulário, geralmente

específico, entre as quais se estabelecem relações de sinonímia, equivalência, hierarquia e

outras formas de relacionamento lexical. Para se ter uma idéia melhor, vejamos os passos

recomendados por Peter Morville (1998):

“(…) Os passos básicos incluem: Coletar termos do maior número de fontes possível: (usuários, especialistas, o próprio conteúdo e thesauri existentes). Os ‘termos de entrada’ devem incluir sinônimos e abreviações, acrônimos, e formas alternativas de ortografia para todos os conceitos importantes em sua coleção de documentos.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

50

Definir os termos chave. Você precisará definir critérios para selecionar os termos chave. (…) Qualquer que seja a terminologia que você use, é importante que seja consistente com sua abordagem para a definição dos termos chave. Conectar sinônimos e quase-sinônimos. É aqui que você mapeia os sinônimos, abreviações, acrônimos e formas alternativas de ortografia como variações para os termos chave (…). Agrupar os termos chave por assunto. É o que define a base da hierarquia em seu thesaurus'. Definições dos assuntos da hierarquia devem ser feitas com base em um balanceamento entre considerações sobre enfoques do tipo top-down (missão, visão, audiência pretendida) e análises de conteúdo do tipo bottom-up. Identificar termos próximos e ligados. Você estará definindo a posição de cada termos na hierarquia. Thesauri já existentes que abordem a sua área de atuação podem ser de extrema utilidade para a geração de sugestões. Criar conexões associativas. A definição de termos relacionados é altamente subjetiva. Para cada termo, faça a seguinte pergunta: "Onde mais o usuário pode querer ir a partir daqui?" Escolha somente as mais óbvias e importantes relações.” (MORVILLE, How Do You Build a Thesaurus?, outubro de 1998, http://webreview.com/1998/10_30/developers/10_30_98.shtml)xvi

Enquanto a indexação é uma técnica aplicada posteriormente ao texto, a

classificação de palavras é uma técnica que pode ser aplicada antes mesmo da existência

do texto. A indexação depende do texto, a classificação pode independer do mesmo;

basta ser implementada pensando-se em um domínio.

Como já mencionamos anteriormente, atualmente essas técnicas são

implementadas em conjunto, aproveitando-se o que há de melhor em cada uma delas.

Pode-se tanto proceder a indexação de textos para facilitar os processos de classificação,

como usar o conhecimento gerado pela classificação para agilizar e enriquecer a

indexação, gerando melhores resultados estatísticos. A tendência atual é a de combinação

efetiva dos dois processos, visando também um processo de aprendizagem para itens

novos.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

51

2.2.1.2 O quadro atual na Internet

Faremos agora um breve levantamento sobre os processos mais usados nas

ferramentas de busca na Internet para verificar quanto de conhecimento da teoria

lingüística é utilizado nessa automação. Existem dois tipos básicos de processos: os

mecanismos de busca e os indexadores de tópico, que se inspiram nas técnicas de

indexação e na classificação manual, respectivamente.

Mecanismos de busca: Os mecanismos de busca utilizam uma técnica de indexação, ou

seja, primeiramente analisam o escopo de busca para depois estarem aptos a procurar um

assunto ou tópico pela entrada de palavras que o descrevem, conforme definido pelo

usuário. Essas máquinas analisam o conteúdo dos arquivos disponíveis na Internet e

retornam uma lista de palavras representativas do conteúdo dos mesmos que serão

guardadas no banco de dados. O banco de dados é composto basicamente pelas palavras

encontradas e endereço urlxvii onde elas se encontram e é alimentado automaticamente. O

método de escolha das palavras representativas varia de mecanismo para mecanismo, mas

pode se dar através de cálculos de freqüência das palavras e co-ocorrências e/ou através

da catalogação das palavras-chaves usadas na tag META da páginaxviii. Usam esse

método, por exemplo, o sistema Altavista, em inglês, e o Radix, em português.

O conteúdo abaixo reproduzido foi encontrado no site do Radix –

http://www.radix.com.br – em 18/04/2000.

“O Radix é uma empresa de tecnologia e serviços de informação formada por uma parceria entre o CVC/Opportunity e professores e alunos do Centro de Informática da UFPE ligados ao CESAR (Centro de Estudos e Sistemas Avançados do Recife). A missão do Radix é desenvolver e estabelecer os maiores, melhores e mais eficientes serviços de indexação, busca, categorização, filtragem e integração de informação sobre o conteúdo, em língua portuguesa, da Internet mundial.” “Nossa Tecnologia Este sistema depende de software para indexação, busca e filtragem de informação com foco principal no problema de escala, ou seja, software capaz de tratar grandes quantidades de documentos com altos níveis de eficiência computacional e precisão de respostas. O software está organizado em três componentes principais: sistemas centralizados, sistemas

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

52

distribuídos/cooperativos e sistemas baseados em metadados, alguns dos quais ainda em desenvolvimento pela equipe do Radix. A estrutura básica tem três componentes principais: um robô, que coleta páginas de um subconjunto da Web, um banco de índices, onde o robô armazena informações de referência sobre as páginas coletadas, e um serviço de consulta, que oferece ao usuário uma interface para fazer buscas utilizando, por exemplo, palavras-chave. Esta arquitetura centralizada é a mesma utilizada pelos engenhos de busca como Altavista, Northern Light e Google. As diferenças entre esses engenhos se concentram em técnicas específicas para indexação e busca, e estruturas de armazenamento para o banco de índices. Somadas a restrições de poder computacional, capacidade de armazenamento e taxa de conexão à Internet, essas diferenças determinam a qualidade e velocidade das respostas oferecidas ao usuário. O sistema de indexação (i.e., robô) do Radix pode ser configurado para focalizar um subconjunto da Web conforme quatro critérios: assunto (i.e., a partir de uma descrição dos interesses do usuário, indexar somente páginas com conteúdo relacionado), domínio de rede (e.g., intranet, domínio Internet), região geográfica (e.g., cidade, país), e região de hipertexto (i.e., conjuntos de páginas mais fortemente interligadas por links da Web). A base do empreendimento é a experiência e os protótipos do projeto de pesquisa Bright!, desenvolvido desde 1996 no DI/UFPE e CESAR, em Recife, e cujos resultados parciais têm sido publicados em conferências especializadas de destaque internacional.” Transcrição do Conteúdo das páginas do Radix. / www.radix.com.br / em 18/04/2000

Indexadores de tópicos: Os Indexadores de tópicos organizam as urls – endereços - em

listas de assuntos relacionadas a tópicos. O banco de dados é composto basicamente pelos

assuntos e tópicos relacionados aos endereço url. É alimentado manualmente por uma

equipe de pesquisadores – websurfers - que navega na Internet e cataloga os endereços

dentro dos assuntos. É similar à classificação manual, só que as unidades usadas são

tópicos e não palavras. São exemplos desse tipo de mecanismo o Yahoo , em inglês, e o

Cadê, em português.

Existem também os Meta-mecanismos de buscas, que são máquinas que

submetem o pedido do usuário a vários mecanismos de busca diferentes ao mesmo tempo

e retornam um apanhado dos resultados obtidos. Os meta-mecanismos submetem os

resultados já obtidos a uma reorganização, auxiliando consideravelmente o trabalho de

pesquisa do usuário. Por usar vários mecanismos de busca, o espectro de ação é maior ;

por outro lado, a extensão da lista a ser pesquisada também é maior, o que aumenta o

tempo do processo. Não encontramos nenhuma informação disponível sobre quais

critérios são usados no processo de reorganização, mas podemos supor desde uma análise

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

53

de freqüência de visitação das páginas - páginas mais visitadas devem ser mais úteis ou

interessantes - a totais de ocorrência de palavras. São exemplos o InFind –

www.infind.com –, o Jarbas – www.jarbas.com.br –, e o Google – www.google.com.br

Outros tipos de soluções, aparentemente mais sofisticadas, como o Ask Jeeves, também

são encontradas. A apresentação da tecnologia Jeeves em sua página é a seguinte:

“JEEVES SOLUTIONS auxilia as empresas com o uso de aplicativos próprios baseados em linguagem natural. Através de uma caixa de perguntas de fácil utilização, seus clientes perguntarão sobre as informações, produtos e serviços que desejam. Seu (o do cliente Jeeves) conteúdo já existente e recursos de TI proverão as respostas que eles querem. A solução é completada por análises sofisticadas que retornam informações de incalculável valor para as perguntas feitas.” (www.jeevessolutions.com)xix

Até onde podemos perceber, a utilização de linguagem natural é limitada à pergunta

do usuário, tornando a interface amigável e confortável, mas a busca é feita através de

“recursos de TIxx”. Por “recursos de TI” podemos entender qualquer uma das técnicas já

apresentadas ou uma fusão delas. De qualquer forma, não há menção de conhecimentos

ou processos relativos à linguagem natural nessa etapa.

Como conclusão desse breve levantamento, podemos afirmar que pouco do

conhecimento, ou nenhum conhecimento, da teoria lingüística é utilizado em algum tipo

de automação para as buscas na Internet pelo menos nos produtos comerciais. Os

indexadores de tópicos não utilizam a automação para a catalogação. Os mecanismos de

busca fazem levantamento e procura por combinação de cadeia de caracteres: mato,

substantivo, e mato, verbo matar, são considerados como a mesma ocorrência.

Continuamos afirmando que não só a relação entre os modelos utilizados – a base

de dados que compõe a inteligência do sistema – como também a forma de avaliação de

seu uso – os algoritmos que decidem o valor das informações – precisam aproveitar

melhor os conhecimento lingüísticos obtidos até hoje. A noção de que o conteúdo de um

texto pode ser obtido através da lista dos itens lexicais considerados isoladamente não

encontra respaldo na teoria lingüística atual. Essa abordagem ingênua do fenômeno

lingüístico impede um melhor aproveitamento no quadro atual.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

54

2.2.1.2.1 Vector Space Model

Uma das técnicas que se apresentam como uma evolução dentro da questão de

recuperação da informação é denominada de Vector Space Model.

A técnica do Vector Space Model baseia-se no uso de vetores para a comparação

entre textos e não de itens isolados. Nessa técnica, cada documento é reorganizado na

forma de um vetor indexado, constituído pelos itens encontrados dentro do documento,

para os quais são calculados pesos. As fórmulas usadas para o cálculo podem ser

encontradas na Internet. Consideramos as informações apresentadas por Jose Castano, da

Brandeis University, como as mais acessíveis para leigos, como nós.xxi

Uma vez criados os vetores para os documentos que compõem a base de

conhecimento, cria-se, para cada consulta feita, um vetor com a mesma metodologia,

baseado nos parâmetros da consulta. Após cálculos de comparação entre o vetor da

consulta e os vetores da base, chega-se a uma decisão sobre os mais pertinentes. Para

maiores informações sobre os cálculos aplicados, ver

www.cs.brandeis.edu/~jcastano/marcnotes.html e também a explicação encontrada em

www.birkhauser.com/hypermedia/cyb7.html

Como podemos constatar, já há indícios de consciência da não-adequação de uma

busca exata, baseada somente em cadeias de caracteres. Por outro lado, continuam-se

usando as informações estatísticas de freqüência como parâmetro de comparação.

2.2.2 Abordagem Lexical vs. Probabilística: reflexos da escolha

Na área de Processamento da Linguagem Natural, tanto para a geração, quanto

para a compreensão de textos, é necessário, em algum momento, extrair o significado do

texto que é o objeto de trabalho. A dificuldade encontrada na automação dessa atividade

é uma das grandes questões que se colocam para a área. Entre as abordagens usadas para

a recuperação de informação, podemos citar a abordagem lexical e a abordagem

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

55

probabilística como as duas vertentes mais comuns. Em ambas as abordagens, uma base

de conhecimento, comumente chamada de dicionário, é utilizada para a extração do

significado. Os pontos que as diferenciam são a qualidade do conhecimento acumulado e

os processos de inferência utilizados no tratamento desse conhecimento.

Na abordagem lexical, o conhecimento é estruturado por relações de hierarquia

entre os elementos que compõem a base - as entradas lexicais. Na abordagem

probabilística, os elementos têm relações de co-ocorrência medidas pela freqüência. Em

termos de qualidade de conhecimento, na abordagem lexical, a informação armazenada

na base de conhecimento tem uma estrutura hierarquizada e remete a um conjunto de

tipologias pré-estabelecidas – sejam classes de palavras, domínios semânticos ou outras.

Essas tipologias, por sua vez, também remetem a tipologias em sua especificação –

tempo, número, modo, sinônimos, antônimos, etc. Dentro desse sistema, cada elemento

tem um valor intrínseco e independente, que é somado ao de outros itens nos processos

de inferência.

Já na abordagem probabilística, a informação armazenada na base de

conhecimento tem uma estrutura modular, onde os elementos não têm um valor

intrínseco, mas, sim, possibilidades e/ou probabilidades de combinação com outros

elementos. Sendo assim, os processos de inferência se fazem por meio de cálculos

freqüenciais e/ou probabilísticos, que indicam as melhores combinações para a

construção do valor único: o do conjunto.

Levantamos essa questão porque consideramos que as abordagens mencionadas

são representativas de dois modelos de arquitetura da mente discutidos na ciência

cognitiva: o classicista ou simbolista e o conexionista. Na abordagem lexical, temos um

tratamento estruturado das informações, o que implica assumir que estamos

representando um sistema simbólico. Na abordagem probabilística, temos um tratamento

modular das informações, o que implica assumir a representação de um sistema

conexionista. Com isso, escolher entre uma ou outra abordagem acaba em implicar a

escolha entre um ou outro modelo.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

56

2.2.2.1 Os modelos Classicista e Conexionista

Para começar a explanação sobre as duas correntes, é necessário colocar que o

nível de análise considerado adequado para uma teoria da arquitetura cognitiva em cada

uma delas é o mesmo. Como tanto conexionistas quanto classicistas são

representacionistas, em ambas as correntes a postulação de estados representacionais é

vista como essencial ao estudo da cognição e, portanto, para ambas, qualquer nível cujos

estados representem propriedades do mundo é um nível cognitivo. A diferença entre as

duas se dá no modo como se pretende essa representação.

O primeiro aspecto em que as duas teorias diferem é o da natureza das entidades

ou representações mentais. Na corrente clássica, postulam-se representações mentais

como combinações sintáticas e semânticas, nas quais temos:

1. uma diferença entre representações estruturalmente atômicas, ou seja,

compostas por uma unidade - ou moleculares - compostas de estruturas;

2. representações estruturalmente moleculares que possuem constituintes

sintáticos, que, por sua vez, também são estruturalmente atômicos ou

moleculares;

3. a idéia de que o conteúdo semântico de uma representação é uma função

tanto do conteúdo semântico de suas partes quanto de sua constituição

estrutural.

Como conseqüência dessa característica de complexidade das representações

mentais, a sua própria estrutura é também uma representação mental e pode ser usada

como input no processo. Isso caracteriza um processo sensível à estrutura, pois uma

modificação na mesma implica em uma mudança do input.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

57

Na corrente conexionista, postulam-se representações mentais como uma rede de

elementos interconectados. O processo fica representado na configuração total da rede e

não nos elementos que a compõem. A complexidade dessas estruturas é muito menor do

que a proposta pela corrente classicista e ela não é sensível a estrutura, pois seus

processos de decisão não estão ligados a ela.

O segundo ponto de diferença entre as duas correntes, conseqüência do primeiro,

é o da natureza das relações primitivas estabelecidas entre as entidades, nós (“nodes”)

para os conexionistas e expressões (“expressions”) para os classicistas. Para o

conexionismo, a relação entre os nós é puramente causal. Para os classicistas, a relação

entre expressões é não só causal, como também, estrutural, isto é, é reflexo da estrutura

interna dos elementos.

Segue-se que, enquanto na corrente conexionista postula-se a existência de

símbolos – o produto final, a rede, é um símbolo -, na corrente clássica postula-se um

sistema de símbolos. Como reflexo dessa diferença na postulação da arquitetura, vários

outros pontos são também diferentes, como veremos adiante.

Muitas vezes, esses pontos são interpretados incorretamente, na maior parte dos

casos por uma compreensão falha do conexionismo. Para evitar essas incorreções, basta

levar em conta a diferença na concepção da arquitetura cognitiva mencionada no

parágrafo anterior. Os pontos mais comumente interpretados de forma errônea são

levantados a seguir.

Em um modelo conexionista, não existe função alguma para os rótulos dos nós no

processo; o processo é definido pelas relações entre os nós, não por eles em si.

Diferentemente, em um modelo clássico, os rótulos são, ao mesmo tempo, resultado e

determinantes do processo, são uma parte intrínseca; se forem substituídos, o

comportamento do sistema será outro. Em uma máquina conexionista, a substituição não

provocará mudanças no processo.

Outro ponto de confusão seriam as redes conexionistas: como elas, visualmente,

são parecidas com estruturas gráficas, tende-se a interpretar suas relações da mesma

maneira, o que é incorreto. As relações primitivas entre os nós, como já foi dito, é

simplesmente causal. Dois rótulos relacionados em um diagrama devem ser entendidos

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

58

somente como “acionadores” um do outro, dentro daquele processo específico; qualquer

outra interpretação foge à interpretação conexionista.

A distribuição representacional também é qualitativamente diferente em um

modelo clássico e em um conexionista. No segundo, a representação é neurologicamente

distribuída; no primeiro, existe uma estrutura constituinte que cria a representação. Ser

neurologicamente distribuída significa que a representação é criada pelas relações

apresentadas entre os nós – between level relation. Ao contrário, em uma estrutura

constituinte, a relação existe entre as unidades – within level relation – já que as partes

têm que ser equivalentes semânticas para comporem juntas.

Exemplificando esses processos, consideremos a expressão menino bonito. Dentro

de um modelo classicista, poderíamos propor a seguintes representações moleculares:

Menino

Gênero: masculino

Número: singular

Classe: substantivo

menina

Gênero: feminino

Número: singular

Classe: substantivo

homem

Gênero: masculino

Número: singular

Classe: substantivo

bonito

Gênero: masculino

Número: singular

Classe: adjetivo

meninos

Gênero: masculino

Número: plural

Classe: substantivo

bonita

Gênero: feminino

Número: singular

Classe: adjetivo

Quadro 6 Proposta de representações moleculares dentro de um modelo classicista

Cada uma dessas representações é formada por uma estrutura. A construção de

uma outra representação, que pode ser chamada de SN – sintagma nominal –, usaria os

valores dessas representações para criar a sua estrutura, que só é possível por conta

desses valores harmônicos. Seu valor é uma função das estruturas que a compõem. As

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

59

representações menino e bonito, por sua vez, também são acionadas para essa estrutura

porque possuem equivalências semânticas, no nosso exemplo, tanto de gênero e número,

quanto de classes relacionáveis.

SN Menino

Gênero: masculino

Número: singular

Classe: substantivo

Bonito

Gênero: masculino

Número: singular

Classe: adjetivo

A representação SN, por sua vez, também poderá ser usada como input para outra

representação, uma SV, e assim por diante. As expressões menina bonita e homem

bonito também serão reconhecidas, mas a expressão menino bonitos não será

reconhecida.

Caso considerássemos uma representação conexionista, teríamos as seguintes

entidades:

menino

menina

homem

bonito

bonitos

bonita

Quadro 7

Proposta de representações moleculares dentro de um modelo conexionista

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

60

As entidades menino e bonito seriam encontradas acionando uma a outra e

formariam uma rede, logo, uma representação mental. As entidades menino e homem ou

menino e bonita podem formar outra rede e assim por diante. A diferença seria o valor da

relação entre elas: a primeira relação teria um valor maior do que a segunda, que teria um

valor maior do que a outra. Esse valor pode ser obtido através de uma análise das

probabilidades de ocorrências dessas redes. Analisando-se a freqüência de ocorrências

das redes em textos escritos na norma padrão do português, por exemplo, a rede menino

bonito deverá ocorrer mais vezes do que a rede meninos bonito que por sua vez deverá

ocorrer mais vezes do que a rede menino bonita. Assumindo-se um valor X para a rede

menino bonita, a probabilidade de ocorrência de menino bonito é de 3X, isto é, de 3

(três) vezes maior do que anterior. Já a rede meninos bonito teria o valor de 2X, isto é,

de 2 (duas) vezes maior do que a de menino bonita, mas seria 1X menor do que a de

menino bonito. Ao tomar qualquer decisão sobre essas redes, o sistema conexionista

escolherá preferencialmente a rede menino bonito.

Valor da Relação

Menino 3X bonito

Meninos 2X bonito

Menino X bonita

Quadro 8

Valores de rede dentro de um modelo conexionista

Os pontos comentados até agora são relativos à questão da representação mental;

passaremos agora a tratar de algumas questões relativas ao processo. Classicistas

acreditam que (a) algumas características das estruturas sintáticas de uma fórmula

correspondem a características semânticas da mesma e (b) símbolos podem ser

transformados durante o processo por operações que são sensíveis à estrutura sintática

dos símbolos com os quais opera. É nesse sentido que se diz que o processo é sensível à

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

61

estrutura. Já no modelo conexionista, os processos são sensíveis a freqüências, isto é, o

processo de aprendizado é feito através de um processamento estatístico de seus inputs,

onde se calcula o peso probabilístico das conexões. O mesmo acontece com relação ao

processo de raciocínio: no conexionismo, a probabilidade de uma idéia elucidar outra é

calculada em função das propriedades estatísticas dos caminhos usados para conectá-las.

Já na corrente clássica, as combinações estruturais das representações são o fator usado

para determinar qual delas serve para elucidar a outra.

2.2.2.2 Propondo uma alternativa

No desenvolvimento de soluções computacionais, procura-se utilizar sempre

aquelas que sejam mais econômicas. O conceito de solução econômica é compreendido

em termos de uma relação de equilíbrio entre o tempo e dinheiro gasto tanto com a

implementação quanto com a manutenção do sistema. Um dos pontos considerados fortes

para a abordagem probabilística é o da confecção do “dicionário”. Como o conhecimento

utilizado é baseado em freqüências de combinações, esses dados podem ser obtidos

automaticamente, dispensando a intervenção humana. Já na abordagem lexical, até hoje,

a intervenção humana é indispensável. Por outro lado, as regras de inferência, que são

sempre válidas neste último, não o são no primeiro. Exemplificando melhor, as regras de

inferência usadas na abordagem lexical são válidas em qualquer “domínio” – exceto para

linguagem técnica. Já as baseadas em probabilidades de ocorrência não o serão. Esses

mesmos aspectos se evidenciam na questão da capacidade de expansão. Um sistema

baseado na abordagem lexical pode se expandir, mas a um custo alto e em um processo

lento. Já um sistema probabilístico tem mais facilidades de expansão, porque ela pode ser

feita automaticamente, porém os resultados podem ser afetados por essa expansão.

Se, por um lado, a abordagem probabilística apresenta resultados mais

satisfatórios a curto e até a médio prazo, por outro se mostra ineficaz a longo prazo, uma

vez que o produto – língua – do processo cognitivo simulado é mutável. Por quanto

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

62

tempo pode-se assumir que as co-ocorrências de itens mantenham a mesma freqüência e

probabilidade de ocorrência?

Relacionando nosso objetivo – a utilização de um léxico computacional para

auxiliar o processo de recuperação da informação – com a questão dos modelos de

arquitetura da mente, o ideal seria termos um sistema que mesclasse as características de

ambas as abordagens. Esse sistema teria a informação da base de conhecimento

armazenada em uma estrutura hierarquizada – um modelo classicista –, mas o valor de

um elemento passaria a ser construído não só pela sua própria natureza, mas também

pelas relações que ele estabelecesse com outros itens – um modelo conexionista.

Consideramos essa abordagem especialmente válida para o tratamento do

léxicoxxii, pela natureza híbrida do mesmo conforme entendido até hoje. Conforme já

abordado na seção anterior Sobre alguns conceitos lingüísticos, os limites entre o

conhecimento lingüístico e não lingüístico no léxico são difíceis de traçar. Essas

dificuldades se refletiriam na construção de um léxico computacional que se orientasse

por uma ou outra corrente exclusivamente.

Se o sistema for unicamente classicista, tipologias e caracterizações semânticas

serão criadas como base para a hierarquia do sistema. Como esse trabalho de catalogação

será manual – ainda não existe uma proposta automatizada satisfatória devido à

dificuldade de estruturar formalmente a informação semântica –, o resultado é que ele

será baseado em experiências de falantes. Ela herdará as características do sistema desses

falantes, seu histórico cultural e social, por mais que se procure evitar essa influência.

Isso poderá se tornar um problema para o aprendizado: no caso de uma situação nova

cuja tipologia não tenha sido prevista, o sistema apontará um erro e falhará no

reconhecimento e identificação. Já um sistema conexionista reconhecerá a existência da

nova ocorrência e tentará atribuir um valor a ela. O problema no sistema conexionista é a

determinação dos parâmetros comparativos para a atribuição de valores, pelo mesmo

motivo que não existe uma proposta automatizada satisfatória para a classificação de

tipos: a dificuldade de estruturar formalmente a informação semântica.

Exemplificando, supondo a existência do item janela em um sistema classicista

ligado a um “domínio casa”, a ocorrência desse item no “domínio computador” não seria

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

63

reconhecida. Já um sistema conexionista reconheceria a relação entre a ocorrência e o

domínio, mas não poderia compartilhar as características entre janela_casa e

janela_computador porque não teria a distinção entre as entidades. O sistema classicista,

uma vez informado da existência de um item janela ligado ao “domínio computador”,

poderia fazê-lo.

Parece razoável propor, como solução para essa situação, uma base de informação

nos moldes classicistas que também utilize processos conexionistas para tomada de

decisões.

Retomando nossa proposta, acreditamos que a melhor abordagem para o processo

de recuperação de informação é a abordagem lexical remodelada em termos

representacionais e com a incorporação dos processos práticos da abordagem

probabilística, tais como expansão automatizada, identificação de novos itens e atribuição

de valores.

Esse é o modelo que pretendemos seguir: nossa forma de representação é

simbolista em sua modelagem para armazenamento das informações. Uma unidade – o

item lexical – é decomposta em vários níveis e pode ser tratada tanto como uma

representação estruturalmente atômica quanto molecular, uma vez que os seus níveis de

representação são preenchidos por outras representações estruturalmente atômicas.

Existe um valor diferente para cada unidade atribuído pela sua representação, mas esse

valor não é fixo. No momento da análise o valor de cada unidade é recalculado de acordo

com as ligações que sua configuração pode ativar com as outras unidades do texto. O

resultado a ser considerado é o do conjunto e não o de unidades isoladas. Nesse sentido,

nosso modelo é conexionista, pois a representação é encontrada na configuração total da

rede e não nos elementos que a compõem.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

64

i O levantamento dos itens é feito automaticamente, por decisão metodológica, portanto ocorrências com hífens, como abanar-se, foram considerados como uma cadeia ininterrupta, e formam um item lexical. Ocorrências do tipo máquina de bordar resultam em três itens diversos. ii Por conceitos tradicionais entendam-se os conceitos como formulados na gramática normativa tradicional. iii Ressalte-se que elemento aqui é qualquer unidade que possa ser recortada em qualquer nível, até no fonético-fonológico, como quando usamos um determinado sotaque para caracterizar uma brincadeira. Não é necessariamente uma palavra ou uma frase ou um morfema, mas sim qualquer um deles. iv The meaning of linguistic expressions derives from two sources: the language they are part of and the world they describe. Words stand in a relationship with the world, and make statements about them. (…) However words also derive their value from their position within the language system.” (SAEED, 1997, p.12) v “the semantic properties of a lexical item are fully reflected in appropriate aspects of the relations it contracts with actual and potential contexts.” (CRUSE , 1986, p.1) vi “(…) every aspect of the meaning of a word is reflected in a characteristic pattern of semantic normality and abnormality in grammatically appropriate contexts.” (CRUSE, 1986, p.15-6) vii “The full set of normality relations which a lexical item contracts with all conceivable contexts will be referred to as its contextual relations. We shall, say then, that the meaning of a word is fully reflected in its contextual relations; in fact, we can go further, and say that, for present purposes, the meaning of a word is constituted by its contextual relations.“ (CRUSE, 1986, p.15-6) viii “The adoption of the contextual approach to word-meaning (..) has certain inescapable consequences that some might consider to be disadvantages. One is that any attempt to draw a line between the meaning of a word would be quite arbitrary; another is that there is no motivation for isolating ‘pragmatic meaning’ as a separate domain of lexical meaning. Perhaps most importantly, it would seems that we have no grounds for believing that the meaning of a word, when viewed in this fashion, is finitely describable – without severe circumscription it is an unpromising candidate for formalization or representation in terms of logical or quasi-mathematical formulae.” (CRUSE, 1986, p. 19) ix “(…) has the advantage of being intuitively plausible” (CRUSE, 1986, p. 19) x “Words contribute, via their own semantic properties, to the meanings of more complex units, but individually they do not occasion our most vivid and direct experiences of language. We communicate with utterances; it seems to be reasonable to suppose, therefore, that ours intuitions concerning utterances will be sharper, clearer and more reliable than those concerning individual words. “ (CRUSE , 1986, p. 9-10) xi “the knowledge a speaker has of how words can instantiate (...) positions in a syntactic structure.” (ANDERSON, 1992, p.182) xii “rules that operate within the lexicon to relate stems (...) to one another, and to create new lexical stems on the basis of existing ones when required.” (ANDERSON, 1992, p. 184), xiii “This overlap has even led some linguists to say that morphology is ‘in the lexicon’ (Jensen and Stong-Jensen, 1984), although in doing so, these linguists are using the term lexicon in a much broader and different sense, to mean the source of all the words, actual and potential, rather in the narrow sense of a list of unpredictable item that we have inherited from traditional grammar and from Bloomfield (Blomfield, 1933, Zwicky, 1989, Aronoff, 1994)” (ARONOFF e ANSHEN, 1998, p. 237)

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

65

xiv “A computational lexicon has traditionally been viewed as a repository of lexical information for specific tasks, such as parsing, generation, or translation. From this viewpoint, it must contain two types of knowledge: (1) knowledge needed for syntactic analysis and synthesis, and (2) knowledge needed for semantic interpretation. More recently, the definition of a computational lexicon has undergone major revision as the fields of computational linguistics and semantics have matured. In particular, two new trends have driven the design concerns of researchers: (1) Attempts at closer integration of compositional semantic operations with the lexical information structures that bear them. (2) A serious concern with how lexical types reflects the underlying ontological categories of the systems being modeled.” (Computational lexicons - http://cognet.mit.edu/MITECS/Entry/pustejovsky) xv HTML ou hypertext marked language é uma linguagem destinada à formatação de textos a serem exibidas por um browser – programa utilizado para a navegação na Internet. O usuário utiliza tags – marcadores de início e fim de formatação – para definir a formatação e diagramação do texto que o browser lê e decodifica visualmente no formato de páginas. xvi “(…) The basic steps include: Gather terms from as many sources as possible (e.g., users, subject experts, the content itself, existing thesauri). These "entry terms" should include synonyms and abbreviations, acronyms, and alternate spellings for all of the important concepts in your document collection. Define the preferred terms. You'll need to create guidelines for selecting preferred terms. (…) Whichever terminology you choose, it's important to be consistent in your approach to defining the preferred terms. Link synonyms and near-synonyms. This is where you map the synonyms, abbreviations, acronyms, and alternate spellings as "variant terms" to the preferred terms.(…). Group preferred terms by subject. This forms the foundation of your thesaurus' hierarchy. Definition of the subject hierarchy should be informed by a balance of top-down considerations (e.g., mission, vision, intended audiences) and bottom-up content analysis. Identify broader and narrower terms. You're defining where each term fits within the hierarchy. Existing thesauri that cover your subject area or industry can prove extremely useful in generating ideas for broader and narrower terms. Perform associative linking. The definition of related terms is highly subjective. For each term ask the question: "Where will users want to go from here?" Choose only the most obvious and important relationships.” (MORVILLE, outubro de 1998, http://webreview.com/1998/10_30/developers/10_30_98.shtml) xvii URL é a sigla para universal resource locator. É o endereço completo de um objeto – site, página, recurso - na WEB. Em poucas palavras, um endereço é composto a identificação da máquina através da qual o conteúdo pode ser acessado e a localização exata desse em seu interior. A identificação da máquina pode ser feita através de nomes como www.oglobo.com.br ou através de IP´s - internet protocols como 192.168.0.100,. A localização exata do conteúdo seria algo como jornal/esportes/coluna.htm. A URL em nosso exemplo, seria www.oglobo.com.br/jornal/esportes/coluna.htm ou 192.168.0.100/jornal/esportes/coluna.htm xviii Uma página em HTML é formatada através de tags que são os indicativos de formatação a serem lidos e aplicados pelo browser (Internet Explorer, Netscape, Opera, etc) para a exibição da mesma. As tags <B> .. </b> fazem como o que o texto encontrado entre elas apareça em negrito na tela. A tag META não é usada para fins de exibição e pode conter desde comandos para atualização controlada da página a

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA

66

palavras-chave determinadas pelo autor. Essas palavras também podem ser usadas pelos mecanismos de busca. xixJEEVES SOLUTIONS provides companies with natural language-based self-service applications. Through an easy-to-use question box, your customers ask for the information, products and services they're looking for. Your existing content and IT assets provide the answers they seek. The solution is completed by sophisticated analysis that deliver invaluable information from the questions users ask. (http://www.jeevessolution.com) xx Ti significa Tecnologia da Informação. A Teoria da Informação foi desenvolvida por Claude Shannon matemático do Bell Labs e diz que a informação está contida nos elementos imprevisíveis e/ou irregulares em um sistema. Sendo assim, transmitir ou receber informação passa por administrar e compreender esses elementos. O objetivo da teoria da informação é o de prover métodos de medição da eficiência de sistemas de comunicação. xxi “Two useful measures are: Croft 83: FREQi,j K + (1-K). --------------- MAXFREQj Harman 86: LOG2(FREQi,j + 1) ---------------- LOG2(LENGTHj + 1) Where:

FREQi,j frequency of term i in document j

MAXFREQj frequency of the most frequent term in j LENGTHj length of document j

K a value between 0 and 1, usually set to 0.5

The use of a stop list can be seen as introducing zero weights for elements on that list. Similarly, some elements can be favored by giving them heavier weights. You could for example double the weight of nouns and triple the weights of elements in headers.” (CASTANO, The Vector Space Model - Class Notes , www.cs.brandeis.edu/~jcastano/marcnotes.html) xxii A aplicação dessa alternativa para outros componentes lingüísticos deve ser analisada com mais rigor, mas parece também uma solução razoável.

DBD
PUC-Rio - Certificação Digital Nº 9815999/CA