Upload
lyanh
View
212
Download
0
Embed Size (px)
Citation preview
2 Pressupostos Teóricos
Conforme explicitamos em nossa introdução, nossa proposta é a de identificar
automaticamente as relações lexicais entre os itens lexicais de um texto através da
conjunção de processos associativos e quantitativos. Os processos associativos se
baseiam na comparação entre as informações de uma estrutura de dados e os itens do
texto. Essa seção tem como objetivo esclarecer ao leitor as motivações e o
posicionamento adotado na construção dessa estrutura. Em termos lingüísticos, como o
objeto básico dessa estrutura é a unidade lexical, esclarecemos a sua natureza na subseção
2.1.1 Sobre a delimitação da unidade lexical. Nas subseções 2.1.2 Sobre significado e
referência e 2.1.3 Sobre a relação entre palavra e significado, explicitamos nossas
posições sobre esses assuntos e demonstramos por que acreditamos na validade de nossa
abordagem,
Na subseção 2.1.3 Sobre o léxico computacional e mental, começamos a fazer
uma ligação entre os conhecimentos lingüísticos e os extra-lingüísticos. Na seção 2.2
Sobre os conceitos extralingüísticos, falamos sobre alguns processos de recuperação da
informação automatizados e sobre o nosso posicionamento sobre questões de arquitetura
da mente, uma vez que esse processo simula um processo cognitivo.
2.1 Sobre alguns conceitos lingüísticos
Apesar de esse não ser um estudo semântico, iremos abordar aqui questões
relativas à semântica. Por isso, consideramos importante discutir alguns conceitos
pertinentes à teoria semântica. Os critérios de adequação de uma teoria semântica nos
parecem bem resumidos em Kempson (1980), apesar de nos colocarmos de maneira
diversa à dela em vários outros aspectos. Segundo a autora, uma teoria semântica: “(...) (i) deve apreender, para qualquer linguagem, a natureza do significado de palavras e de sentenças e explicar a natureza da relação entre eles; (ii) deve ser capaz de prever as ambigüidades nas formas de uma linguagem, seja em palavras ou sentenças; (iii) deve caracterizar e explicar as
18
relações sistemáticas entre palavras e entre sentenças de uma linguagem - isto é , deve proporcionar uma explicação explícita das relações de sinonímia, inclusão, acarretamento, contradição etc.” (KEMPSON, 1980, p. 16)
Além desses princípios básicos, concordamos também com relação à necessidade
de estabelecimento de princípios gerais que possam ser aplicados a todo os casos
conhecidos e que permitam, além disso, o reconhecimento de novas situações. Sem esse
caráter de generalidade das hipóteses, esvazia-se a validade das conclusões obtidas
através delas. As decisões tomadas no decorrer desse trabalho tentam se adequar a esses
parâmetros sempre que possível.
Nas abordagens propostas para uma teoria semântica até hoje, são propostas
explicações a partir ou da unidade lexical, ou das sentenças, ou da intenção do processo
de comunicação. Vamos nos concentrar somente nas considerações a respeito da
palavra/unidade lexical, já que esse será o objeto base de nossa estrutura.
2.1.1 Sobre a delimitação da unidade lexical
Vamos agora estabelecer os limites e características da unidade lexical, o nosso
objeto de manipulação. O termo comumente usado para tratar desse objeto é palavra. A
discussão sobre o que é palavra é maior do que o escopo desse trabalho, mas é necessário
que deixemos claras as características do objeto a que nos referimos, por isso vamos
apresentar algumas definições que ajudam a traçar alguns limites. Consideramos esse
esclarecimento fundamental para a compreensão do leitor dos critérios de classificação
em nosso estudo.
Partimos então da definição de Crystal (1985) sobre o termo. Primeiro, por ser
uma definição simples, mas bastante abrangente. Segundo, porque não está, dentro do
possível, em uma definição feita por um estudioso, comprometida com essa ou aquela
linha. Vamos a ela: “Palavra. Uma unidade de expressão que os falantes nativos reconhecem intuitivamente, tanto na língua escrita quanto na falada. No entanto, existem diversas dificuldades quando se tenta chegar a um uso coerente do termo em relação a outras categorias da descrição lingüística e na comparação das línguas de tipos estruturais diferentes.” (CRYSTAL, 1985, p. 193)
19
Chamamos atenção para a frase: “Uma unidade de expressão que os falantes
nativos reconhecem intuitivamente”. Ela demonstra vários pressupostos do autor: que ela
é uma unidade; que ela expressa algo; que o falante tem um conhecimento não-consciente
sobre ela que lhe permite reconhecê-la. Essa definição, apesar de sua simplicidade, pode
levar a alguns questionamentos, conforme o próprio autor levanta mais à frente: como
definir os limites da unidade? Por exemplo, devemos considerar “máquina de lavar”
como uma ou como três unidades? Ele prossegue dizendo que definições baseadas na
noção de significado ou idéia sofrem o efeito da incerteza da definição dessas palavras.
Quanto à questão do reconhecimento intuitivo do falante nativo, parece-nos que o
fato de ser nativo não é o fundamental. Tendo algum conhecimento de uma língua
estrangeira, um falante reconhecerá uma palavra como sendo dessa língua pela sua
ocorrência contextual, pela aplicação de regras morfossintáticas da língua em questão.
Como, no caso de uma L2, esse conhecimento pode ter sido adquirido formalmente, em
um curso por exemplo – esse reconhecimento não pode ser creditado a uma intuição, mas
antes a um reconhecimento de padrões. O questionamento sobre a forma de aquisição
desse conhecimento deve ficar fora dessa definição. Em termos do que consideramos
adotar dessa definição, mantemos a afirmativa de que ela é uma unidade de expressão
reconhecida pelos falantes da língua.
O autor prossegue dizendo que, por conta de todas essas dificuldades: “Três tipos de 'palavras' são geralmente encontrados (embora a terminologia varie). (1) as palavras são unidades fisicamente definíveis encontradas na escrita (entre os espaços) ou na fala. (...) (2) Existe um sentido mais abstrato, referindo ao fator comum que está por baixo das formas, que são as variantes da mesma unidade como andar, andei, andaste, andando. A unidade de palavra “subjacente” é chamada de lexema.(...). (3) Surge então uma necessidade de se estabelecer uma unidade abstrata para mostrar como as palavras funcionam na gramática de uma língua; e “palavra”, sem qualificação, fica geralmente reservada para esse papel (...). Uma palavra, então é uma unidade gramatical, do mesmo tipo teórico que morfema e sentença.(...)” (CRYSTAL, 1985, p. 193-4)
Analisando mais profundamente a definição, vemos que os três tipos de palavras
arrolados se completam mutuamente na construção de um conceito de palavra – eles
20
seriam características do objeto pesquisado observado por prismas diferentes. Como os
tipos de palavras listados pelo autor são aspectos diferentes do mesmo objeto, nenhum é
inadequado, mas também nenhum é completo. Em nosso experimento, o tipo (1) e o tipo
(2) são os aspectos que nos interessam, e o tipo (3) está fora de nosso escopo porque não
abordaremos aspectos morfológicos ou sintáticos. O tipo (1) trata, em última instância, do
dado com o qual trabalharemos: uma seqüência ininterrupta de caracteres alfabéticos e
hífensi. Convencionaremos então que o tipo (1) será chamado, a partir de agora, de item
lexical, para evitarmos ambigüidades.
Com relação ao tipo (2), a questão se torna mais delicada. Quando devemos
considerar que um item lexical é uma variante de uma unidade lexical maior e qual é a
definição dessa unidade lexical, isto é, o que a caracteriza? Em termos práticos, será que
devemos considerar homem, humano e humanitário como unidades distintas? Ou
devemos considerar que elas são realizações formais distintas de um mesmo conceito? E
como será a relação que devemos estabelecer entre esse conceito – homem – e o que é
expresso em mulher? Será que são dois conceitos diferentes ou dois resultados da junção
de traços ANIMAL+ HUMANO + MACHO em um, e ANIMAL + HUMANO +
FÊMEA em outro? Ainda não temos, e não esperamos ter, uma resposta definitiva para a
identificação do tipo (2). Temos, porém, algumas diretrizes que consideramos acertadas.
Comecemos por analisar o posicionamento expresso em Basílio (1995) com as
restrições já levantadas pela própria autora.
“Normalmente, a diferença entre palavras distintas e diferentes formas da mesma palavra é colocada a partir da diferença entre flexão e derivação. O problema é que não há uma distinção nítida e definitiva entre os conceitos de flexão e derivação (...)” (BASÍLIO, 1995, p. 12)
A classificação exposta por Basílio é baseada em conceitos tradicionaisii, e carrega
todos os prós e contras inerentes a essa característica. Os contras se manifestam nas
incongruências das definições, conforme apontado pela própria Basílio. Definições
tradicionais pecam essencialmente pela sua circularidade e falta de clareza no uso dos
termos. Mas têm a seu favor o aval de nossa intuição, já que geralmente reconhecemos
com facilidade os elementos destacados. Têm também a seu favor a popularidade. Ao se
21
usar uma definição ou nomenclatura tradicional, acredita-se que todo mundo entenderá
do que está-se tratando. E esse parece ser o ponto mais problemático na utilização de
definições tradicionais, em nosso modo de ver, uma vez que nem sempre o entendimento
é comum. Em nosso caso, por exemplo, a teoria lingüística não está plenamente
resolvida com relação ao conceito de palavra. Usar termos cujo entendimento possa ser
dúbio ou difuso não é uma estratégia razoável. Por isso, nos colocamos a favor da
utilização de nomenclatura especializada.
Observemos as colocações de Biderman (1999), que também se manifesta a favor
do uso da nomenclatura especializada.
“Consideremos, antes de mais nada, questões terminológicas. Assim termos como palavra e vocábulo se prestam a muitos eqüívocos por serem usuais na linguagem comum. (...) No caso da unidade lexical abstrata, será melhor utilizar o termo lexema para denominar as unidades virtuais que compõem o léxico e chamar de lema sua representação canônica no dicionário. (BIDERMAN, 1999, p. 89)”
Infelizmente, porém, o uso de uma nomenclatura específica somente não garante
a especificidade e objetividade desejadas. Uma vez que o novo termo não seja claramente
definido, seu uso não trará os benefícios desejados. Por definição clara, entendemos uma
definição que faça uso de termos ineqüívocos, de maneira que, ao se aplicar à definição
proposta, só haja um resultado possível. Talvez esse critério seja um tanto rígido, mas é
necessário que assim o seja. Esse é um problema do uso de lexema, para nós. Voltando,
por exemplo, às palavras de Crystal, vemos que um lexema é representado por várias
formas - “fator comum que está por baixo das formas que seriam variantes da mesma
unidade como andar, andei, andaste, andando” (CRYSTAL, 1985, p. 193-4). O exemplo
dado é o que tradicionalmente seria identificado como flexões verbais e por ele, a
definição, conforme apresentada, é correta. Mas onde está o limite entre uma forma
básica ou original e uma variante? Na ortografia da palavra? Em critérios morfológicos?
Diacrônicos ou sincrônicos? Podemos ter mais de um resultado possível, dependendo da
linha que for adotada. Essa definição só nos serve se tivermos um critério formal
aplicável a todos casos da relação unidade/variantes ou lexema/lemas.
22
No texto de Biderman, ela diz que “a unidade denominativa para um conjunto de
formas flexionadas, que compõem um paradigma, será denominada lexema/lema”
(BIDERMAN, 1999, p. 89). Esse critério também não nos serve pelo aspecto já apontado
por Basílio, a indefinição na definição de flexão. Além do que, a flexão é,
tradicionalmente, um construto da morfologia e, portanto, está relacionada a questões
sobre a estrutura da palavra ou da unidade lexical. Apesar de aparentemente
compartilharmos a manifestação física do objeto de estudo – uma cadeia de caracteres
separada por espaços em branco –, não estamos lidando com o mesmo objeto e não temos
os mesmos propósitos ou questionamentos. Nosso propósito é o de explicitar e reproduzir
as estratégias pelas quais as relações semânticas se estabelecem através dessas unidades
lexicais, não o de prever ou descrever a criação das mesmas. Sendo assim, a utilização de
um conceito que privilegie esses aspectos não servirá em nossa análise.
Uma solução oposta à utilização de conceitos morfológicos ou morfossintáticos,
mas radical, seria partir da conceituação semântica para determinar quais seriam as
variantes de uma unidade lexical, isto é, primeiramente seriam eleitas algumas
propriedades semânticas de um item lexical e depois, caso encontrado outro item que
compartilhasse as mesmas propriedades semânticas, eles seriam agrupados sob o mesmo
rótulo. Esse procedimento, porém, poderia nos levar ao agrupamento somente de
sinônimos perfeitos e não seria satisfatório com relação aos outros tipos de relações,
como a que existe entre andava e andei. Seria preciso considerar TEMPO como uma
propriedade não semântica para que essas formas fossem entendidas como variantes de
uma unidade, e ficaríamos sem ter como demonstrar as propriedades de hoje e ontem, por
exemplo. Depois, teríamos que considerar NÚMERO do mesmo modo, para agrupar
andei e andamos e não teríamos como demonstrar a diferença entre coletivos e unidades.
Não encontramos motivação para uma classificação colocada dessa maneira, pois, além
de parecer não intuitiva, gera mais problemas do que resolve. Como, de alguma forma,
parece que voltamos à questão da flexão, procuramos analisar esses conceitos sob um
novo prisma.
Anderson (1992) coloca a flexão como um processo externo ao léxico, porque as
suas regras de formação de palavra “tratam do conhecimento, não de palavras
23
especificamente, mas sim das formas assumidas por elas como conseqüência da estrutura
sintática em que ocorrem.” (ANDERSON, 1992, p. 184). Apesar da relativização
colocada pelo próprio autor sobre a sua afirmativa, ela pode nos ajudar a formar um
critério claro. Se voltarmos às definições de Saeed (1997) sobre o significado das
expressões lingüísticas, temos que
“O significado das expressões lingüísticas deriva de duas fontes: a língua da qual elas fazem parte e o mundo que elas descrevem. Palavras mantêm um relacionamento com o mundo e fazem asserções sobre ele. (...) Contudo, palavras também derivam seu valor de sua posição dentro do sistema lingüístico.”(SAEED, 1997, p.12)
Elocubrando sobre essas duas percepções, podemos considerar que os processos
flexionais abarcam muito desse significado derivado da posição dentro sistema
lingüístico. Por exemplo, as noções de número, pessoa, modo e tempo são expressas
através de desinências nos verbos em português. Sendo assim, parte do valor semântico
de andei é obtida através do sistema lingüístico por oposição a andava, mas em paralelo
com comi. Por outro lado, as relações lexicais estabelecidas por andei se assemelham
mais às relações obtidas por andava, andarei do que às obtidas por comi, bebi, ganhei. O
importante é perceber que informações semânticas não existem somente no léxico, mas
em todo o sistema lingüístico. No caso das formas flexionadas, parte da informação
semântica está refletida nos ajustes formais usados para a ocorrência do item na
configuração sintática acionada. As informações semânticas que as diferenciam estarão
disponíveis através de outro domínio lingüístico – a sintaxe para uns, a morfologia para
outros –, assim com as informações semânticas contextuais estão relacionados ao
domínio extralingüístico.
Associações podem ser feitas por meio de vários aspectos e nos parece coerente
então que usemos os aspectos pertinentes ao léxico somente, ou seja, aspectos que
estejam no seu domínio. Uma vez que algumas informações semânticas são representadas
em outros componentes que não o léxico e não são ativadas por ele, não devem ser
consideradas como parâmetro da organização do léxico.
Sendo assim, podemos suavizar a solução radical apresentada anteriormente e
considerar como parâmetro de agrupamento de itens lexicais em uma unidade lexical,
24
somente as informações semânticas encontradas e ativadas no e pelo componente lexical.
Voltando ao nosso exemplo anterior, andar e andei poderiam ser agrupadas como
variantes da mesma unidade lexical porque as informações semânticas que as diferenciam
– tempo e número – são ativadas e controladas em outro componente lingüístico.
Para mantermos uma coerência com esse raciocínio, da mesma forma que
consideramos formas flexionadas como variantes de uma unidade, as formas derivadas
também poderão ser. Não há por que considerar que as informações semânticas dos
sufixos de diminutivo ou aumentativo em português, por exemplo, estão no léxico.
Evidentemente, há que se levar em consideração os casos em que a forma derivada
carrega uma informação diferente da informação do sufixo, como no clássico exemplo
mulherzinha.
Mantendo nosso raciocínio de considerar como parâmetro de agrupamento de
itens lexicais em uma unidade lexical somente as informações semânticas encontradas e
ativadas no e pelo componente lexical, resta ainda a definição da natureza dessa unidade
lexical. Quais seriam os parâmetros para a escolha dessa ou daquela forma como uma
unidade lexical hierarquicamente superior às outras?
Basílio (1980) defende, para o fenômeno da nominalização, a tese de que o mesmo
“seja uma relação paradigmática geral entre verbos e nomes no léxico” (BASÍLIO, 1980,
p. 73). A autora afirma também que “a direcionalidade do processo morfológico é
irrelevante no fenômeno da nominalização” (BASÍLIO, 1980, p. 74). A posição da autora
leva à não pressuposição de hierarquia entre formas verbais e nominais para os processos
de nominalização.
Por outro lado, Lyons (1977) diz o seguinte sobre lexemas:
“(...) são entidades abstratas e não têm uma forma. Eles estão associados a um conjunto de uma ou mais formas.” (LYONS, 1977 , p.22)
Concluímos que a natureza da unidade lexical que propomos é a de uma relação
paradigmática entre itens lexicais. Não há uma origem ou expressão formal para ela. Com
essa abordagem, nossa classificação será capaz de lidar não só com o surgimento de itens
25
novos dentro de um conjunto já existente, como também poderá lidar com questões
como:
– A existência de um item lexical em um grupo, sem contrapartida em um grupo
homógrafo. Por exemplo, conto – forma substantiva – no grupo contar_narrativa
não encontra similar no grupo contar_números.
– Uma acepção específica de um item lexical que se distancie da acepção comum
ao grupo, como é o caso de propaganda – anúncio no grupo de propagar.
– A sinonímia entre itens lexicais com formas diferentes, como é o caso de dim-
dim, bufunfa¸ grana.
Resumindo, vamos assumir nesse estudo a seguinte posição: se, no processo de
classificação das propriedades semânticas, conforme previstas em nosso modelo, de um
item lexical, observamos a ocorrência dos mesmos parâmetros de outro item, assumimos
a existência de uma relação lexical – chamada de MetaEntrada –, caracterizada por essas
propriedades semânticas comuns. Isso nos leva a classificar, em alguns casos, flexões e
derivações como membros do mesmo conjunto, mas essa decisão também tem outras
implicações em nossa classificação, que podem parecer estranhas a alguns. Por exemplo,
os itens lexicais dinheiro, dim-dim e grana estarão classificados dentro de uma mesma
unidade, mas comercial, substantivo referente a anúncio, estará catalogado em uma
unidade diferente de comércio e comercial, adjetivo. Essa configuração não usual é
esperada, já que é resultado de uma política de abordagem inovadora. Optamos
conscientemente por arriscar uma configuração não-tradicional, mas é nossa opinião que
estamos nos baseando em parâmetros lingüísticos mais apropriados ao objetivo proposto,
ou seja, nas propriedades lexicais.
Esse assunto será novamente abordado no capítulo IV, com as devidas
exemplificações de classificação adotadas.
2.1.2 Sobre significado e referência
26
Outro dos pontos fundamentais a serem explicitados em nosso estudo é a questão
do(s) significado(s) da palavra. Uma vez que nos propomos a identificar relações lexicais
para a descoberta de tópicos/palavras-chave de um texto como nossa metodologia, é
natural que o leitor assuma que o significado do texto esteja plenamente refletido nesses
resultados. Como demonstramos nessa subseção, isso não é necessariamente verdade.
Antes de discutir essa questão, porém, é preciso, a nosso ver, esclarecer uma certa
confusão entre os conceitos de significado e referência, causada pela natureza da relação
entre ambos.
Como não nos consideramos enquadrados em nenhuma das correntes
semanticistas que conhecemos e consideramos a argumentação de Kempson (1980) sobre
essa relação bem apresentada, usaremos a linha de raciocínio da autora como linha mestra
para nossos comentários.
Conforme a autora, existem várias formas de se encarar a relação entre os
conceitos de significado e referência. Uma dessas abordagens é chamada de
extensionalismo, e, segundo a autora, “trata o significado em termos dos objetos,
chamados extensões, a que se referem os itens da linguagem” (KEMPSON, 1980, 23-4).
Nessa visão, toda palavra relaciona-se com um objeto no mundo exterior e é a natureza
dessa relação que explicita o seu significado. Usando os exemplos da autora, a relação
entre “a expressão Ruth Kempson e o indivíduo Ruth Kempson é diretamente comparável
à relação entre a palavra camundongos e o conjunto de objetos aos quais podemos nos
referir com o uso dessa palavra.” (KEMPSON, 1980, 24). A abordagem extensionalista,
porém, encontra dificuldades em explicitar as relações de significado em casos como os
das preposições e dos objetos inexistentes, para citar alguns. Considerando-se os
princípios gerais expostos anteriormente, essa abordagem falha no item (iii), em relação à
caracterização e explicitação das relações sistemáticas dos exemplos dessas categorias.
Em nossa opinião, o problema maior dessa abordagem é a suposição de que a
língua é usada para descrições do mundo exterior. Nos casos em que existe uma intenção
de descrição, a abordagem funciona, mas falha nos outros. O homem não usa a língua
somente para descrever o mundo que o cerca; ele usa a língua para se apropriar do mundo
que o cerca, para adaptá-lo às suas necessidades e desejos. Desse modo, o que é expresso
27
através da língua não é uma mera descrição; portanto não há a necessidade de existir um
objeto ao qual se referir. O que se pretende expressar é resultado das impressões e do
histórico de quem produz o ato de enunciação; portanto, é muito mais uma descrição do
mundo conhecido – vamos chamá-lo assim – pelo falante do que de um mundo exterior.
Novamente concordamos com a autora quando ela diz que “(...) qualquer teoria do
significado que tente explanar todos os aspectos do significado de palavras em termos de
referência, estará errada.” (KEMPSON, 1980, p. 24).
Uma outra abordagem – a teoria imagística do significado – propõe uma
explicação para a natureza do significado das palavras através de imagens que seriam
ativadas no cérebro do falante. A questão de como seriam essas imagens é o problema
maior dessa proposta. Por exemplo, o que seria a imagem de CASA? Para alguns, seria
uma construção feita pelo homem, para outros cavernas. E, conforme aponta Kempson,
dizer que não se trata necessariamente de imagens visuais, mas de construtos mentais, é
fugir ao pressuposto originário da teoria, ou seja, o de imagem(ns) representativa(s).
Os argumentos da autora sobre o fracasso da teoria imagística na caracterização
de algumas relações lexicais são interessantes. Sobre ambigüidade, ela começa dizendo
que “Segundo uma teoria que identifique o significado de uma palavra com uma imagem,
qualquer palavra que se relacione com mais de uma imagem é prevista como ambígua.”
(KEMPSON, 1980, p 26). A seguir demonstra como essa caracterização é falha a partir
de seu exemplo de uma criança cansada que pode suscitar a imagem de uma criança
fazendo manha, ou de uma criança recostada, quase adormecida. Nosso exemplo de
CASA também serve para demonstrar esse fracasso na caracterização.
Com relação à sinonímia, ela lembra que “(...) se duas expressões portam a
mesma imagem, a teoria imagística do significado prevê que são sinônimas.” Após o que,
evoca a imagem de uma criança chorando e batendo os pés, que pode ser associada a
expressões como uma criança cansada, uma criança irritada, um futuro tirano e outras.
Como essas expressões não são sinônimas, fica caracterizada uma incongruência na
teoria.
Além disso, essa abordagem também esbarra em um problema comum à anterior:
qual seria a imagem representativa de preposições ou conjunções, por exemplo?
28
Assumindo-se como solução para esse impasse o pressuposto de que não se trata
de imagens visuais, mas sim de conceitos, troca-se a nomenclatura, mas mantém-se o
caráter indefinido da solução. Se o problema anterior era definir imagem, passamos agora
a ter que definir conceito. Segundo a autora, “(..) Saussure avança um pouco no sentido
de oferecer essa caracterização. (...) ele enfatiza que o conceito (...) representado por uma
palavra é resultado apenas do seu valor no sistema.” (KEMPSON, 1980, p. 27)
Como já foi dito anteriormente, não temos a pretensão de apontar uma solução,
mas sim de evidenciarmos nosso ponto de vista. Dentre as abordagens para a explicação
da natureza do significado através das palavras que apresentamos, a colocação de
Saussure é uma das que mais nos agrada, por propor a possibilidade de uma interação
para o estabelecimento do significado das palavras.
Deve-se ressaltar que não supomos que o significado nas línguas naturais possa ser
totalmente explicado através das palavras, até porque a própria definição de palavra ainda
é uma questão em aberto. Acreditamos que o processo de estabelecimento do significado
é uma relação de negociação entre os interlocutores envolvidos no processo. Essa
negociação se dá através da manipulação dos elementos disponíveis na língua. Cada
elementoiii tem uma gama de valores intrínsecos pelos quais são escolhidos para esse ou
aquele contexto, de acordo com a combinação final a que se pretende chegar. E essa
combinação final tem como autenticador o outro, o ouvinte.
Consideramos o texto literário como o exemplo mais claro para esse processo de
negociação. Um autor literário pode lançar mão de um sem número de estratégias
lingüísticas na construção de seu texto, e, quanto maior for a sensibilidade do autor nessa
escolha, mais o seu texto terá profundidade e qualidade literária. Mas essa profundidade e
qualidade passará pelo crivo do leitor, que reconhecerá aquele “novo” uso como bom. Se
observarmos o jogo de combinações de morfemas feito por Guimarães Rosa,
especificamente, veremos que o autor escolhe elementos que, colocados em um contexto
não usual, causam surpresa, mas não provocam uma recusa do enunciado. A estranheza
inicial acaba se transformando em um novo entendimento, com o qual a comunicação se
completa.
29
Como já mencionamos na nossa introdução, o elemento com o qual nos dispusemos
a trabalhar nesse estudo são as palavras e, conseqüentemente, as relações entre elas e seus
possíveis significados. Por isso, devemos procurar um posicionamento que nos permita
lidar com as possibilidades intrínsecas de valor que as palavras têm, sem perder de vista a
influência do todo nessas possibilidades.
Nesse sentido, a colocação de John Saeed, em seu livro Semantics, nos parece
interessante e elucidativa:
“O significado das expressões lingüísticas deriva de duas fontes: a língua da qual elas fazem parte e o mundo que elas descrevem. Palavras mantêm um relacionamento com o mundo e fazem asserções sobre ele. (...) Contudo, palavras também derivam seu valor de sua posição dentro do sistema lingüístico.” (SAEED, 1997, p.12) iv
Concordamos com o autor nessa colocação: a referência de uma palavra e seu
significado não são fatores de explicação entre si, mas sim dois aspectos que constroem a
unidade palavra. A referência estabelece relações entre a palavra e o mundo
extralingüístico em que ela se insere, enquanto o significado estabelece relações entre as
palavras e suas funções e usos, portanto, no âmbito lingüístico. Ambos são parte do
objeto que chamamos palavra – a explicitação ou caracterização de um desses aspectos
não pressupõe uma explicitação ou caracterização do outro.
Existem ainda dois outros aspectos a serem levados em consideração sobre essa
questão. Um é o fato de que o mundo extralingüístico não é composto somente de
elementos concretos; conseqüentemente, não há somente elementos concretos para serem
referidos na língua. Existem outros elementos que compõem o mundo extralingüístico
sobre o qual fazemos asserções. Podemos ter relações de valor – que podem ser
representadas na língua por modificadores ou superlativos, por exemplo.
Ex.: Esse carro é mais rápido que o outro.
O filho bonito estudava piano.
30
Podemos ter relações lógicas – que podem ser representadas por conjunções
indicadoras de causa e conseqüência, por exemplo.
Ex.: Comprei um avião porque ganhei na loto.
Temos também o que vamos chamar aqui de construtos sociais – fórmulas de
saudação ou expressões ligadas a um fenômeno social específico, que são fruto de um
conhecimento cultural. Sendo assim, elas têm como referente aquela situação social
determinada.
Ex.: - Ave, César!
- Alô?
A referência a essas situações no mundo exterior não pode ser representada por
um só elemento, o que cria uma dificuldade para as teorias que expusemos anteriormente.
O outro aspecto a ser levado em consideração sobre a relação entre significado e
referência é o fato de o sistema lingüístico ser também um produto social. A configuração
diversa para a expressão de categorias como tempo, pessoa do discurso, número e outras
em uma língua reflete também a visão de mundo da comunidade que a usa. Visto dessa
maneira, cada sistema lingüístico em si expressa também as referências ao mundo
exterior. Como já afirmamos aqui, o homem não usa a língua somente para descrever o
mundo que o cerca, mas também para se apropriar do mundo que o cerca.
A relação entre significado e referência nos parece ser bem descrita se
assumirmos dois conjuntos que podem estabelecer relações entre seus elementos. Cada
possibilidade de relacionamento tem um valor próprio, que é validado pelos falantes e
que compõe, junto com outros fatores, o resultado final.
Tendo em vista essa conceituação, dentro dos limites propostos nesse trabalho,
temos consciência de que estamos trabalhando somente com o significado de um item
lexical, ou seja, somente com parte do seu valor comunicativo. As relações de valor,
31
relações lógicas e os construtos sociais mencionados anteriormente, por exemplo, não
estarão sendo levados em conta. Por essa razão, em alguns momentos, teremos alguma
estranheza com relação às classificações ou resultados que podem parecer incompletos ou
até incorretos.
Vamos agora, então, estabelecer, com mais propriedade, o que é o significado de
que falamos e até que ponto podemos supor sua autenticidade.
2.1.3 Sobre a relação entre palavra e significado
No capítulo introdutório de seu livro Lexical Semantics, de 1986, Cruse apresenta
a sua concepção a respeito da relação entre palavra e significado. Logo no início, ele
deixa claro que, em sua visão do fenômeno: “as propriedades semânticas de um item
lexical estão plenamente refletidas nos aspectos de adequação das relações que ele pode
contrair em contextos existentes e potenciais.”v (CRUSE, 1986, p.1) Ao colocar assim a
questão, Cruse está assumindo que o chamado significado de uma palavra não tem uma
existência independente, ele se constrói no contexto, dentro de determinados limites e
aspectos que seriam inerentes à palavra. Esses limites e aspectos seriam as “propriedades
semânticas”.
Mais adiante, ainda sobre o que seria o significado de uma palavra, Cruse diz que
uma palavra em si não teria um significado, mas, sim, várias possibilidades de
significados, encapsulados em suas várias possibilidades de realização contextual. Dentre
essas possibilidades de realização contextual, a que for ativada determina o significado da
palavra naquele caso de uso.
“(…) cada aspecto do significado de uma palavra é refletido por um padrão de normalidade (ou anormalidade) semântica em contextos gramaticalmente apropriados” (CRUSE, 1986, p.15-6)vi
Com esta afirmação, Cruse elimina a idéia de um ou mais significados para uma
palavra, e apresenta o conceito de relações contextuais. Essas relações contextuais seriam
o conjunto completo de possibilidades de combinações entre um item lexical e todos os
32
contextos gramaticais possíveis. Como a combinação usada só se define na realização do
contexto, não há sentido em falar em um significado da palavra, mas sim das relações
contextuais que ela pode assumir. Nas palavras do autor:
“O conjunto completo de relações normais que um item lexical contrai com todos os contextos concebíveis será referido como suas relações contextuais. Devemos dizer, então, que o significado de uma palavra está plenamente refletido em suas relações contextuais, e até mais além, dizer que, para os presentes propósitos, o significado de uma palavra se constitui das suas relações contextuais. ” (CRUSE, 1986, p 15-6vii)
Segundo essa visão, a necessidade de analisar o contexto se torna primordial para a
análise do léxico. Cruse, porém, chama a atenção para algumas das conseqüências dessa
abordagem: a inevitável arbitrariedade das delimitações do significado de uma palavra e
o fato de não existir um motivo teórico para se separar o sentido pragmático do lexical.
Além disso, existe uma dificuldade metodológica, que talvez seja o ponto mais
importante, no momento: a construção de uma representação formal e lógica, de acordo
com os modelos já existentes, para essa abordagem. Vejamos em suas próprias palavras:
“A adoção da abordagem contextual para estabelecer o significado das palavras (..) tem algumas conseqüências inevitáveis, conseqüências estas que alguns podem considerar como desvantagens. Primeiro, qualquer critério para estabelecer limites para o significado de uma palavra será certamente arbitrário; segundo, não existe nenhuma motivação para se propor que o “significado pragmático” seja um domínio separado do significado lexical. E, talvez a mais importante, parece não haver subsídios para se acreditar que o significado de uma palavra, visto sob este prisma, seja totalmente codificável – sem a adoção de critérios severos, ele é um candidato não promissor para a formalização ou representação em termos de formulações lógicas ou quasi-matemáticas”. (CRUSE, 1986 , p.19)viii
Apesar disso, a abordagem contextual ainda se apresenta como uma possibilidade
factível pelo seu apelo intuitivo. Conforme o autor, essa abordagem “(…) tem a
vantagem de ser intuitivamente plausível” (CRUSE, 1986, p. 19)ix.
A favor desse apelo intuitivo, podemos observar as palavras anteriores do autor:
“As palavras contribuem, através das suas propriedades semânticas, para o significado de unidades mais complexas, mas individualmente não suscitam nossas experiências de linguagem mais diretas e vívidas. Nós nos comunicamos através de enunciados; é razoável então supor que, conseqüentemente, nossas intuições referentes a enunciados são mais profundas, claras e mais confiáveis do que aquelas referentes a palavras individualmente.”(CRUSE, 1986, p. 9-10)x
33
Podemos concluir então que, para o autor, o problema da extração do conteúdo com
uma análise que privilegie a estratificação das propriedades semânticas de uma palavra é
o caráter incompleto do resultado obtido, mas não uma inadequação do mesmo.
Concordamos com essa visão, mas também fica evidente que a estratificação dessas
propriedades semânticas é um fator para se alcançar esse objetivo. Consideramos que
nossa proposta é um avanço no sentido de demonstrar as possibilidades do uso da
estratificação dessas propriedades semânticas para o levantamento de relações
contextuais estabelecidas em um texto.
2.1.4 Sobre o léxico computacional e o léxico mental
2.1.4.1 O léxico mental
Em teoria lingüística, o conceito de léxico mental surge com a redefinição da
natureza do léxico. Nas palavras de Basílio (1999) em seu texto sobre “Questões
clássicas e recentes na delimitação da unidade lexical”, temos que: “Em abordagens gerativas, o léxico deixa de ser o vocabulário da língua como realidade externa; o objeto de estudo do lingüista é o léxico mental, usualmente descrito ora como uma lista de entradas lexicais (...), ora abarcando também o conhecimento das relações lexicais e/ou suas projeções na definição de construções lexicais possíveis (...) (BASÍLIO, 1999, p. 10)
Essa redefinição traz, conforme relatado por Basílio, diversas implicações para a
teoria lingüística como um todo. Resumindo os aspectos mais relevantes, ela destaca que:
“As grandes questões da teoria lexical em abordagens gerativas, portanto, se referem às fronteiras entre os limites do conhecimento lingüístico e não lingüístico no e do léxico; a interação (ou não) entre o léxico e os diferentes componentes da gramática; a existência e forma de regras, morfológicas ou lexicais; e a pertinência ou não de objetos ao léxico.” (BASÍLIO, 1999, p. 11)
34
Não há um consenso em lingüística, ainda, sobre a natureza do léxico mental, e
sobre a sua função dentro do sistema lingüístico. Mas existem algumas posições que
consideramos e que apresentamos adiante, especificamente com relação a dois pontos de
suma importância em nosso estudo: a organização do léxico e os limites entre ele e a
morfologia.
Primeiramente, vamos discutir a organização do léxico, ou seja, se ele deve ser
entendido como uma lista de itens lexicais ou como uma estrutura de organização mais
complexa.
Dentro da perspectiva proposta em Anderson (1992) o léxico não é entendido
somente como uma base de dados, cuja única função é a de armazenamento dos itens
lexicais. O autor se coloca a favor da idéia de que o léxico é um componente do
conhecimento lingüístico, assim como a sintaxe ou a fonologia, e que, como tal, deve ser
entendido como “o conhecimento que um falante tem sobre como palavras podem ocupar
posições em uma estrutura sintática.” (ANDERSON, 1992, p.182)xi. Anderson afirma que
esse conhecimento se manifesta não só na lista de itens lexicais e seus significados, mas
também nas relações que se estabelecem entre um item e outro, tanto mais que essas
relações podem ser, na maioria das vezes, sistematizadas. Uma confirmação desse fato se
encontra na capacidade que um falante tem de analisar uma dada palavra de sua língua,
mesmo sem conhecer o seu significado e/ou existência. Essa capacidade existe através da
aplicação de um conhecimento específico a respeito da natureza dos elementos que
compõem o léxico.
Partindo dessas premissas, o autor explica que, ao se dizer que uma determinada
palavra está dentro do léxico, estamos dizendo que ela é reconhecida por esse
componente da gramática, e não necessariamente que está dentro de uma lista finita de
itens.
Essa discussão a respeito do que seria o conhecimento lingüístico do componente
lexical leva inclusive o autor a discutir o papel da flexão e da derivação dentro do
mesmo. Ressaltando o fato de que o conhecimento contido nas regras flexionais trata das
relações de adequação entre as palavras e a estrutura sintática em que são solicitadas, ele
coloca a flexão como “fora do léxico”. Ele chama atenção, porém, para o fato de
35
considerar essa decisão mais como uma elaboração teórica do que como uma
característica da flexão. Por outro lado, ao considerar que na derivação existem “regras
que operam dentro do léxico para relacionar itens (...) uns aos outros, e para criar novos
itens lexicais baseados nesses quando for preciso” (ANDERSON, 1992, p. 184)xii, o autor
coloca a derivação como o tipo de conhecimento que compõe o conhecimento do léxico.
Perini (1999) apresentando sua proposta radical, de acordo com o próprio, para a
definição de item léxico, diz que:
“O léxico deve ser entendido em termos de redes de correspondência em vários níveis e conceitua o item léxico como uma trilha de propriedades fonológicas, morfológicas sintáticas e semânticas.” (PERINI, 1999, p.140)
Percebe-se que Perini também considera que o léxico pressupõe uma organização
diferente de uma lista e um tipo de conhecimento peculiar.
Também trabalhos relacionados à lingüística computacional indicam que o léxico
não pode ser considerado somente uma lista de itens lexicais. Vejamos as conclusões de
Dias (1994) em seu estudo:
“O estudo aqui realizado sugere que o Léxico não seja considerado como um sinônimo para dicionário. Muitas informações importantes parecem estar presentes no Léxico em forma de entradas lexicais, mas outras informações necessárias para que os falantes utilizem as palavras de sua língua sugerem outro tipo de organização.
(...) o léxico se constitui num componente com duas funções, conforme previsto na teoria de Jackendoff. A primeira função é fornecer um espaço para o armazenamento do conhecimento conceitual lexical. A segunda viabiliza, em parte, a própria aquisição de itens (...) ”(DIAS, 1994, p. 117)
Colocando em termos simples, podemos dizer que o léxico é o domínio das
palavras existentes e em uso de uma língua e que a morfologia é o domínio das regras de
formação dessas palavras. No entanto, o limite entre o léxico e a morfologia é um assunto
importante para discussão, uma vez que ambos compartilham o mesmo objeto. Conforme
argumentam Aronoff e Anshen (1998): “Esta interseção tem levado alguns lingüistas a afirmar que a morfologia está ‘dentro do léxico’ (Jensen and Stong-Jensen, 1984), embora, ao fazer isso, esses lingüistas estejam usando o termo léxico em um sentido diferente, mais amplo, como se esse fosse a fonte de todas as palavras, atuais e potenciais, do que no sentido mais restrito de uma lista de itens imprevisíveis que nós herdamos da
36
gramática tradicional e de Bloomfield (Bloomfield, 1933, Zwicky, 1989, Aronoff, 1994)” (ARONOFF e ANSHEN, 1998, p. 237)xiii
Além do que, lembram os autores, o léxico e a morfologia são interdependentes; a
morfologia cria palavras novas em cima das palavras, digamos, aferidas pelo léxico. Este,
por sua vez, lança mão das regras morfológicas da língua para validar um item novo.
Mesmo quando o item novo é importado de outra língua, ele é inserido dentro do
contexto das regras morfológicas da língua em questão. Tomemos por exemplo a
atribuição de gênero, que é imprescindível aos substantivos em português, mesmo para os
itens que têm origem externa, como futebol e abajur, que recebem uma definição de
gênero.
2.1.4.2 O léxico computacional
O conceito de léxico computacional difere do conceito de léxico mental. A
semelhança que se pode encontrar entre eles é o fato de ambos serem entendidos como
componentes de um sistema maior, que tem como função principal alimentar outros
componentes do mesmo sistema com as informações possíveis. Fora esse aspecto,
diferentemente do que acontece em teoria lingüística, os questionamentos sobre léxico
computacional não passam por sua natureza, mas sim por sua organização e limites.
Essa é a primeira diferença entre os dois conceitos: um léxico computacional não é
composto somente de uma lista de entradas lexicais; ele pressupõe uma organização de
entradas lexicais. A segunda diferença é que ele também abarca conhecimentos relativos
a outras áreas, como a morfologia e a semântica.
Observemos o verbete do MITECS, feito por J. Pustejovsky: “Um léxico computacional era considerado tradicionalmente como um repositório de informações lexicais, concebido para auxiliar o processamento de atividades específicas, como parsing, geração de textos ou tradução. Desse modo, ele deveria conter dois tipos de conhecimento: (1) o conhecimento necessário para análise e síntese sintática, e (2) o conhecimento necessário para interpretação semântica. Mais recentemente, a definição de um léxico computacional tem sido objeto de revisão à medida que a lingüística computacional e a semântica têm evoluído. Em particular, dois novos objetivos têm norteado as preocupações de modelagem dos pesquisadores:
37
- (1) esforços no sentido de uma maior integração entre as operações semânticas de composição e as estruturas lexicais de informações que as produzem. - (2) uma preocupação constante com o modo pelo qual os tipos lexicais refletem as categorias ontológicas subjacentes do sistema a ser modelado.” (Computational lexicons - Linguistics and Language http://cognet.mit.edu/MITECS/Entry/pustejovsky)xiv
Por “esforços no sentido de uma maior integração entre as operações semânticas de
composição e as estruturas lexicais de informações que as produzem”, deve-se entender a
procura de formalizações que permitam ao sistema inferir o sentido a ser aplicado na
realização contextual de um item. Um bom exemplo apresentado por Pustejovsky é o de
DOOR, que vamos apresentar em português. O item lexical PORTA pode, a depender do
contexto, fazer referência ao local determinado para passagem e ao objeto físico que
serve para controlar essa passagem. Tendo as duas frases abaixo podemos observar essa
dualidade:
Ela passou pela porta. (passagem)
Eu pintei a porta de verde. (objeto físico)
O processo de identificação da referência correta para cada contexto é
fundamental para a qualidade da informação retornada. Um léxico computacional deve
trazer em si informações que permitam a inferência correta dessas relações.
Por “uma preocupação constante com o modo pelo qual os tipos lexicais refletem
as categorias ontológicas subjacentes do sistema a ser modelado”, entenda-se a
preocupação em refletir no modelo computacional a organização da linguagem natural
entendida como um produto da mente humana e de seus processos cognitivos.
Para avaliarmos melhor a relevância dessa preocupação, devemos ter em mente que
um léxico computacional é, grosso modo, composto formalmente de:
• uma base de dados composta de itens lexicais a que são atribuídos valores e
classificações que construirão uma organização entre eles. Vamos chamá-la nesse
trabalho de corpus lexical.
38
• um conjunto de regras que são aplicadas aos valores e classificações atribuídas
aos itens lexicais para a obtenção dos resultados pretendidos, chamados aqui de
estratégias.
Um léxico computacional se manifesta como o léxico de um só usuário; apesar de
ser modelado tendo como modelo um léxico geral, ele pertencerá a um só usuário, o
sistema que o utilizará. Sendo assim, ele poderá não ser completo em termos de itens
conhecidos, mas deverá ser completo em termos de aplicação das regras lingüísticas
específicas da língua que trata e relativas aos domínios lingüísticos com que ele se
proponha a lidar – morfologia, sintaxe, fonologia, etc. Com isso queremos dizer que ele
deverá ter disponível em si as informações lexicais que forem necessárias para a
aplicação das regras referidas. E, na verdade, como as regras específicas podem mudar,
ele deverá ter disponível em si as informações lexicais necessárias para a aplicação de
regras lingüísticas gerais.
Um léxico computacional que não corresponda a esses requisitos será de pouca valia
além do objetivo imediato para que foi concebido, pois não poderá fornecer a informação
necessária a outras aplicações.
2.2 Sobre alguns conceitos extralingüísticos
2.2.1 Processos de recuperação da informação
Como afirmamos na nossa introdução, pode-se considerar que qualquer forma de
procura em uma determinada base de conhecimento é um processo de recuperação da
informação. Desde que a informação produzida pelo homem se tornou maior do que a
capacidade de assimilação do cérebro humano, existe a necessidade de armazenamento
para posterior recuperação. A escolha de um processo de armazenamento define as
possibilidades de recuperação. O homem elegeu a língua como sua ferramenta
39
preferencial. Antes da invenção da escrita, quando só havia a transmissão oral, as
informações eram memorizadas através de uma estratégia melódica que podia ser
refletida em versos e rimas. O processo de recuperação era ativado através da repetição
da melodia ou da lembrança de um verso. Com o advento da escrita, o homem passou a
usar outros processos: o sistema bibliotecário é um deles, sistemas de arquivos, índices –
remissivos ou analíticos –, resumos, enciclopédias, etc. Todos os sistemas citados
prevêem a catalogação da informação, o que pressupõe a análise da mesma. Em todos
eles, também, a questão sensível é a recuperação da informação. Por mais bem idealizado
que seja o sistema, ele só poderá refletir o ponto de vista abordado na análise. Quem já
fez um trabalho de pesquisa sobre um assunto desconhecido, sabe como ajuda ter uma
indicação bibliográfica. É que antes de conhecer algo sobre o assunto, não se sabe o que
procurar. Acontece também do catalogador ter uma opinião diferente do pesquisador
sobre o assunto, de forma que colocará a informação em um local que não será cogitado
pelo pesquisador, que conseqüentemente não a encontrará. Quanto maior se torna a
quantidade de informação armazenada pelo homem, tanto maior esse problema se torna.
No mundo atual, onde o controle e o acesso à informação são fatores decisivos para a
economia, e com a crescente digitalização da informação, o problema se agrava. Um
sistema de recuperação mais satisfatório é uma das prioridades na Internet.
Os sistemas usados em soluções anteriores enfrentam um problema incontornável
na Internet: a falta de controle das informações veiculadas. Os processos de classificação
manual e indexação automática são implementados, mas não podem ser aplicados à
totalidade do universo. E o retorno das buscas efetuadas tem, geralmente, um espectro
amplo que demanda nova pesquisa.
Ora, a Internet é um grande sistema de informações, que usa como meio para
armazenamento a língua escrita - em alguns casos, na variante padrão do vernáculo, em
outros em uma variante informal. Acreditamos que as técnicas de recuperação de
informação aplicáveis a bancos de dados ou similares não são aplicáveis à Internet com
os mesmos resultados porque a Internet não é um banco de dados ou similares. Para que
se tenha um acesso de qualidade a essas informações, deve-se aplicar uma estratégia de
40
análise adequada, que leve em consideração a diferença entre informação digitalizada e
informação lingüística digitalizada, que é o caso da Internet.
2.2.1.1 Diferença entre informação digitalizada e informação lingüística digitalizada
Obviamente, existem vantagens indiscutíveis na utilização do meio digital para
armazenamento das informações, antes armazenadas em celulose. Desde a reprodução da
informação até a economia de espaço físico, passando pela perenidade do meio de
armazenamento à preservação ambiental, inúmeras melhorias são conseguidas através da
digitalização. A única questão que permanece, e para a qual uma solução inadequada tem
sido adotada, a nosso ver, é a da recuperação da informação. Isso acontece por um
entendimento errôneo do objeto.
Ao se digitalizar a informação lingüística, passou-se a tratar o seu conteúdo como
se fosse uma informação digitalizada, o que é um engano. A informação digitalizada –
considerada como tal - segue uma uniformização e compartilha características formais de
uma maneira diferente da informação lingüística. Trata-se de um engano similar ao de se
supor que a expressão lingüística oral é igual à expressão lingüística escrita. Apesar de
compartilharem a natureza lingüística, cada uma delas se apropria das facilidades e
limitações do meio em que se propaga. Ao digitalizarmos a expressão lingüística escrita –
ou qualquer outra informação –, mudamos o meio, mas mantemos as características
formais e organizacionais da expressão escrita. A produção escrita é a mesma em uma
folha de papel, tela de computador ou pedra, com as respectivas mudanças de registro.
O fato de se digitalizar um texto, ou filme, ou som, não torna o seu conteúdo
digitalizado, mas sim o seu meio de reprodução. O que pode ser considerado como
informação digitalizada tem sua identidade e função definidas a priori, por uma
convenção formal que predetermina suas partes e possibilidades. Essa é a sua
característica fundamental e os processos de recuperação são baseados nessa
41
uniformidade. Tal característica é resultado da natureza dos processos a que essa
informação pode ser submetida: os algoritmos.
Tomando como exemplo de informação digitalizada um banco de dados, vemos
que ele se caracteriza pela uniformidade e pelo relacionamento das informações
armazenadas. O relacionamento dentro do banco de dados é definido antes de sua
criação, de acordo com o relacionamento entre as informações no mundo real, e é o que
garante determinadas inferências durante o processo de recuperação. Para maiores
informações sobre bancos de dados, ver Mitra (1991) e Parsave, Chignell, Khoshafian &
Wong (1989).
Consideremos, por exemplo, três itens - bananas, batom e conta de luz – para
serem armazenados em um banco de dados cujo conteúdo seja despesas pessoais.
Bananas e batom têm em comum o fato de serem mercadorias, mas uma conta de luz
seria um serviço. Pode ser interessante, porém, que, ao considerarmos uma relação de
despesas, os três itens sejam arrolados como tal. Como se pode ver, a definição de
relacionamentos é um reflexo do mundo real, mas é dependente do objetivo com o qual
se aborda a informação e por isso é definida anteriormente. Quando as informações são
armazenadas, além do valor intrínseco a elas, recebem também uma definição que
estabelece a sua rede de relacionamentos. No nosso exemplo anterior, ao cadastrar
banana e batom, os dois itens poderiam ter também definida a característica de
mercadoria, entre outras coisas, como valor e data da despesa. O mesmo se daria com
conta de luz, que receberia a característica de serviço. Mercadoria e serviço, porém,
teriam em comum o fato de serem despesas, o que seria a discriminação de sua natureza.
Ao realizarmos uma busca de despesas, teríamos os três itens arrolados por causa da
relação imposta no banco de dados. Supondo que o banco de dados não fosse de controle
pessoal, mas sim o controle de um supermercado, banana e batom não seriam mais
despesas e sim produtos para venda, e a lista seria diferente.
A uniformidade, que é condição para a criação das tabelas – que representam os
objetos do mundo real -, é garantida através de um padrão de formato para elas. As
informações são recortadas em várias peças que se tornam os campos das tabelas. Na
42
hora de buscar uma informação específica, a procura é feita pelos valores armazenados
nos vários recortes feitos - os campos.
Tomemos como exemplo as informações sobre os programas da grade normal
constantes no site do canal de assinatura SPORTV. Lá temos os nomes dos programas, o
nome dos apresentadores e o assunto de que tratam, conforme se pode observar no
quadro abaixo. Se fôssemos montar um banco de dados com essas informações,
poderíamos ter uma tabela com os seguintes campos:
Programa Apresentador Assunto
Dossiê Jornalismo Grid Motor Automobilismo Passando a Guarda Joinha Artes marciais Tá na área Betty Goffman Futebol Supervolley Bruno Voloch e Ana Paula Vôlei
Quadro 1 Exemplo de tabela sobre a programação do SPORTV
Observemos como a informação se apresenta na página do site, ou seja, em sua
forma lingüística:
43
Programa Texto
Dossiê
Confira a pauta do próximo programa e participe do nosso programa escrevendo para a produção do Dossiê. Envie sugestões e críticas, assim o nosso programa será cada vez melhor para você!
Grid Motor
Os amantes da velocidade tem hora certa no SPORTV. Agora, todas segundas, quartas e sextas, às 11 da noite você pode assistir ao Grid Motor. O melhor do automobilismo na TV por assinatura.
Passando a Guarda
Passando a Guarda é o programa de artes marciais do SPORTV. Apresentado por Jorge Guimarães, o Joinha, você verá tudo sobre Jiu-Jitsu, Ultimate Fighting, lutas, desafios e campeonatos, com comentários e convidados exclusivos.
Tá na área
Futebol com muita ginga. Esta é a proposta do Tá na Área. Com reportagens de Alê Primo e apresentação da atriz Betty Gofman, o programa mudou a tática do jornalismo esportivo, trocando a tabela oficial por uma tabela bem humorada com craques da bola, artistas, cineastas, estilistas, músicos e muita galera.
Supervolley
Um saque certeiro pelas principais quadras do mundo. Assim é o Supervolley, uma revista semanal dedicada exclusivamente ao vôlei internacional. Apresentado por Bruno Voloch e pela jogadora Ana Paula, o programa apresenta uma verdadeira panorâmica do voleibol mundial.
Quadro 2
Reprodução do texto da Página de programação do Site da Sportv
Como se pode perceber, as informações estão disponíveis, mas não estão
uniformizadas formalmente como em um banco de dados. Como saber quem é o
apresentador do programa sobre futebol? O padrão de informação encontrado nos outros
(Apresentado por) não se encontra no texto sobre o “Tá na Área”. E por aí seguem as
dificuldades.
Como já afirmamos, não se pode supor que as técnicas de recuperação usadas
para recuperação da informação digital tenham a mesma eficiência na recuperação da
informação lingüística digitalizada. Como solução para esse problema, resolveu-se
processar a informação lingüística de maneira a organizá-la como informação
digitalizada.
44
Uma das alternativas recentes foi propor uma mudança na estrutura das páginas na
Internet. As páginas são escritas em sua maioria no formato HTMLxv. O formato HTML
dá conta das questões de formatação e diagramação do texto, e como solução para as
dificuldades de organização da informação, outros formatos, como o XML, foram
propostos. O formato XML pretende lidar com a organização das informações que a
página veicula; ele é uma ferramenta para a estruturação dos dados. Para uma visão mais
aprofundada, ver a introdução de Abiteboul, Bunemam & Suciu, 2000.
O uso efetivo do XML, ou de soluções similares, implica reorganizar todo o
conteúdo da rede. E a comunidade da Internet não aceita com facilidade mudanças que
impliquem em restrições de qualquer tipo. Se um dos grandes atrativos da rede é a
liberdade e facilidade para se disponibilizar as informações, como impor um formato que
pressupõe um conhecimento técnico específico? Estruturação de dados é tarefa de
analistas de sistema. Tais soluções acabam restritas a grande corporações ou à espera de
ferramentas de uso e disponibilização fácil para o usuário leigo.
Outra alternativa, mais interessante para o público em geral, foi a de aplicar
algumas técnicas de processamento para reorganizar o produto lingüístico com o objetivo
de recuperar a informação veiculada. Vamos ilustrar algumas dessas técnicas de
processamento a seguir.
2.2.1.2 Técnicas de processamento para recuperação da informação lingüística
Primeiramente, é preciso esclarecer que todas as técnicas de processamento de
que tivemos notícia, até hoje, utilizam como base para o referido processamento uma
unidade formal: a palavra escrita. Entenda-se palavra aqui como o tipo (1) mencionado
em seção anterior, ou seja, uma cadeia de caracteres cujo limite é definido pela presença
de espaços em branco ou sinais de pontuação. Acreditamos que a escolha da palavra
como material de manipulação tem dois motivos principais. O primeiro é função da
facilidade de reconhecimento da unidade pela máquina; afinal, espaços em branco ou
sinais de pontuação são parâmetros formais inequívocos. O segundo é a crença leiga de
45
que palavras têm um significado isolado e que essa informação refletirá o conteúdo da
informação veiculada.
Em segundo lugar, as técnicas que descrevemos a seguir são geralmente usadas
em conjunto; estamos separando as duas principais somente para fins de apresentação.
Não há critérios definidos para seu uso e cada grupo de trabalho procura aproveitar o
melhor de cada uma, aplicando-se os critérios considerados mais apropriados pelo
próprio grupo.
Talvez a designação técnicas de processamento não seja a mais correta para esses
procedimentos, mas consideramos melhor chamá-los assim para fins de organização do
texto. Lembramos que o objetivo é somente o de ilustrar as técnicas, portanto não
faremos críticas ou apresentações exaustivas sobre as mesmas.
2.2.1.2.1 Indexação de palavras
Uma das técnicas mais usadas na organização da informação lingüística visando a
recuperação é a indexação. A indexação consiste basicamente na listagem dos endereços
de cada item lexical encontrado no corpus. O endereço pode ser composto do nome do
texto, número de linha, número de parágrafo, posição na frase, etc. A intenção é fazer um
mapeamento das ocorrências para agilizar o processo de busca: em vez de passar por todo
o corpus a cada procura, o algoritmo analisa o corpus uma só vez e gera as tabelas que
serão usadas para a pesquisa. Velocidade nas respostas e menor esforço de
processamento foram os primeiros objetivos na idealização dessa técnica. Mais tarde, as
possibilidades de tratamento estatístico com fins de análise de conteúdo também se
tornaram um atrativo.
Exemplificaremos essa técnica, usando um texto retirado de nosso corpus:
46
“Você já deve ter ouvido falar de empresas de Recurso de Multas mas nunca confiou.
Agora existe a Multiprest!
Uma empresa com experiência e acima de tudo Honestidade. Você entra com o recurso agora e só paga os Honorários se seu processo for deferido.
Visite agora www.multprest.com.br ou ligue 0xx11 xxx-xxxx” (PINTO, 2002, anexos).
Exemplo 1
Texto extraído do corpus
Usando esse critério de mapeamento, poderíamos obter a ordem em que as palavras
aparecem no texto. Apresentamos a seguir, para exemplificação, uma parte do resultado
obtido com esse critério:
Palavra Ordem
você 1 já 2 deve 3 Ter 4 ouvido 5 falar 6 de 7 empresas 8
Quadro 3
Exemplo de tabela com mapeamento ordenado dos itens lexicais
Conforme a técnica foi sendo aplicada, alguns resultados estatísticos passaram a
ser obtidos e usados como base para análise. Além dos percentuais de ocorrência do item
com relação ao corpus, passou-se a medir, entre outros, o percentual de co-ocorrência dos
itens, exemplificados abaixo. Os resultados seriam os que se seguem, onde # representa o
número de ocorrências da palavra e % é o percentual de ocorrência arredondado. Os itens
em negrito foram os de maior ocorrência em um total de 58.
47
Palavra #
%
A 1 0,02
Acima 1 0,02
Agora 3 0,05
Com 3 0,05
confiou 1 0,02
De 4 0,07
deferido 1 0,02
Deve 1 0,02
E 2 0,03
empresa 1 0,02
empresas 1 0,02
Palavra #
%
entra 1 0,02
existe 1 0,02
experiência 1 0,02
falar 1 0,02
Foi 1 0,02
For 1 0,02
honestidade 1 0,02
honorários 1 0,02
Já 1 0,02
ligue 1 0,02
Mais 1 0,02
Palavra #
%
mas 1 0,02
multado 1 0,02
multas 2 0,03
multiprest 2 0,03
não 1 0,02
nunca 1 0,02
o 1 0,02
os 1 0,02
ou 1 0,02
ouvido 1 0,02
paga 1 0,02
Palavra #
%
pague 1 0,02
processo 1 0,02
recurso 2 0,03
se 1 0,02
seu 2 0,03
só 1 0,02
ter 1 0,02
tudo 1 0,02
uma 1 0,02
veiculo 1 0,02
visite 1 0,02 você 2 0,03
Quadro 4 Percentuais de ocorrência do Exemplo 1
48
Consideremos, para a ilustração da co-ocorrência, a palavra DE, que foi a que
apresentou o maior percentual de ocorrência.
Co-ocorrências com DE
ter ouvido falar de empresas de recurso falar de empresas de recurso de multas
empresas de recurso de multas mas nunca experiência e acima de tudo honestidade você
Quadro 5 Co-ocorrências com a palavra DE
A palavra em questão co-ocorreu imediatamente no texto com falar (1) ,
empresas (2), recurso (2) , multas (1) , acima (1) e tudo (1). Observe-se que a contagem é
feita por ocorrências, por isso empresas e recurso são contadas duas vezes, uma
ocorrência antes e uma depois. Esse critério foi determinado por nós, para esse exemplo,
mas existem outros critérios para a co-ocorrência.
A co-ocorrência é usada para se medir uma correlação entre as palavras,
baseando-se na hipótese de que palavras tendem a ocorrer mais freqüentemente próximas
de palavras com que compartilhem algum valor semântico. Essa co-ocorrência poderia
fornecer indicações sobre o tópico do texto. Em nosso exemplo, a correlação semântica é
fraca, pois DE é uma preposição. Acontece que as palavras mais freqüentes nos textos
são palavras gramaticais, o que vai causar uma série de co-ocorrências com correlação
semântica fraca. Para evitar esse resultado, usa-se uma técnica para eliminar stop-words,
isto é, uma lista de palavras vazias de conteúdo (palavras gramaticais e outras do tipo
“coisa”) e essas palavras não são computadas. Por outro lado, empresa e empresas são
computadas em separado, pois são duas cadeias de caracteres diferentes do ponto de vista
da máquina. Por causa desses e de outros problemas, outra técnica de processamento foi
projetada: a classificação dos itens.
49
2.2.1.2.2 Classificação de palavras
A grosso modo, a classificação de palavras pode ser descrita como o
estabelecimento de relações, que podem ser tanto morfológicas quanto semânticas, entre
palavras. Por exemplo, para cada palavra existente na língua, poderíamos relacionar as
flexões e derivações pertinentes. Assim, no momento da análise do texto, empresa e
empresas serão consideradas duas formas diferentes da mesma ocorrência e serão
computadas juntas. Se estivéssemos usando categorias semânticas de agrupamento de
palavras, as ocorrências de recurso, processo, deferido e honorários, por exemplo,
poderiam remeter ao frame “legislação”.
Uma questão técnica imediata nesse processo é a forma pela qual as palavras são
classificadas: manualmente – por seres humanos - ou automaticamente – por meio de
algoritmos que deduzem as classificações após serem submetidos a grandes massas de
textos. A classificação manual é, comparada com a automática, lenta e dispendiosa; por
outro lado, a classificação automática ainda não foi implementada de maneira a ser mais
eficiente do que a classificação manual. Existem esforços nesse sentido como alguns
lematizadores para o português, para flexão e derivação, e o uso da wordnet para inglês,
por exemplo, para agrupamento semântico.
Thesauri são o mais conhecido exemplo da técnica de classificação. Um
thesaurus é uma coleção de palavras selecionadas dentro de um vocabulário, geralmente
específico, entre as quais se estabelecem relações de sinonímia, equivalência, hierarquia e
outras formas de relacionamento lexical. Para se ter uma idéia melhor, vejamos os passos
recomendados por Peter Morville (1998):
“(…) Os passos básicos incluem: Coletar termos do maior número de fontes possível: (usuários, especialistas, o próprio conteúdo e thesauri existentes). Os ‘termos de entrada’ devem incluir sinônimos e abreviações, acrônimos, e formas alternativas de ortografia para todos os conceitos importantes em sua coleção de documentos.
50
Definir os termos chave. Você precisará definir critérios para selecionar os termos chave. (…) Qualquer que seja a terminologia que você use, é importante que seja consistente com sua abordagem para a definição dos termos chave. Conectar sinônimos e quase-sinônimos. É aqui que você mapeia os sinônimos, abreviações, acrônimos e formas alternativas de ortografia como variações para os termos chave (…). Agrupar os termos chave por assunto. É o que define a base da hierarquia em seu thesaurus'. Definições dos assuntos da hierarquia devem ser feitas com base em um balanceamento entre considerações sobre enfoques do tipo top-down (missão, visão, audiência pretendida) e análises de conteúdo do tipo bottom-up. Identificar termos próximos e ligados. Você estará definindo a posição de cada termos na hierarquia. Thesauri já existentes que abordem a sua área de atuação podem ser de extrema utilidade para a geração de sugestões. Criar conexões associativas. A definição de termos relacionados é altamente subjetiva. Para cada termo, faça a seguinte pergunta: "Onde mais o usuário pode querer ir a partir daqui?" Escolha somente as mais óbvias e importantes relações.” (MORVILLE, How Do You Build a Thesaurus?, outubro de 1998, http://webreview.com/1998/10_30/developers/10_30_98.shtml)xvi
Enquanto a indexação é uma técnica aplicada posteriormente ao texto, a
classificação de palavras é uma técnica que pode ser aplicada antes mesmo da existência
do texto. A indexação depende do texto, a classificação pode independer do mesmo;
basta ser implementada pensando-se em um domínio.
Como já mencionamos anteriormente, atualmente essas técnicas são
implementadas em conjunto, aproveitando-se o que há de melhor em cada uma delas.
Pode-se tanto proceder a indexação de textos para facilitar os processos de classificação,
como usar o conhecimento gerado pela classificação para agilizar e enriquecer a
indexação, gerando melhores resultados estatísticos. A tendência atual é a de combinação
efetiva dos dois processos, visando também um processo de aprendizagem para itens
novos.
51
2.2.1.2 O quadro atual na Internet
Faremos agora um breve levantamento sobre os processos mais usados nas
ferramentas de busca na Internet para verificar quanto de conhecimento da teoria
lingüística é utilizado nessa automação. Existem dois tipos básicos de processos: os
mecanismos de busca e os indexadores de tópico, que se inspiram nas técnicas de
indexação e na classificação manual, respectivamente.
Mecanismos de busca: Os mecanismos de busca utilizam uma técnica de indexação, ou
seja, primeiramente analisam o escopo de busca para depois estarem aptos a procurar um
assunto ou tópico pela entrada de palavras que o descrevem, conforme definido pelo
usuário. Essas máquinas analisam o conteúdo dos arquivos disponíveis na Internet e
retornam uma lista de palavras representativas do conteúdo dos mesmos que serão
guardadas no banco de dados. O banco de dados é composto basicamente pelas palavras
encontradas e endereço urlxvii onde elas se encontram e é alimentado automaticamente. O
método de escolha das palavras representativas varia de mecanismo para mecanismo, mas
pode se dar através de cálculos de freqüência das palavras e co-ocorrências e/ou através
da catalogação das palavras-chaves usadas na tag META da páginaxviii. Usam esse
método, por exemplo, o sistema Altavista, em inglês, e o Radix, em português.
O conteúdo abaixo reproduzido foi encontrado no site do Radix –
http://www.radix.com.br – em 18/04/2000.
“O Radix é uma empresa de tecnologia e serviços de informação formada por uma parceria entre o CVC/Opportunity e professores e alunos do Centro de Informática da UFPE ligados ao CESAR (Centro de Estudos e Sistemas Avançados do Recife). A missão do Radix é desenvolver e estabelecer os maiores, melhores e mais eficientes serviços de indexação, busca, categorização, filtragem e integração de informação sobre o conteúdo, em língua portuguesa, da Internet mundial.” “Nossa Tecnologia Este sistema depende de software para indexação, busca e filtragem de informação com foco principal no problema de escala, ou seja, software capaz de tratar grandes quantidades de documentos com altos níveis de eficiência computacional e precisão de respostas. O software está organizado em três componentes principais: sistemas centralizados, sistemas
52
distribuídos/cooperativos e sistemas baseados em metadados, alguns dos quais ainda em desenvolvimento pela equipe do Radix. A estrutura básica tem três componentes principais: um robô, que coleta páginas de um subconjunto da Web, um banco de índices, onde o robô armazena informações de referência sobre as páginas coletadas, e um serviço de consulta, que oferece ao usuário uma interface para fazer buscas utilizando, por exemplo, palavras-chave. Esta arquitetura centralizada é a mesma utilizada pelos engenhos de busca como Altavista, Northern Light e Google. As diferenças entre esses engenhos se concentram em técnicas específicas para indexação e busca, e estruturas de armazenamento para o banco de índices. Somadas a restrições de poder computacional, capacidade de armazenamento e taxa de conexão à Internet, essas diferenças determinam a qualidade e velocidade das respostas oferecidas ao usuário. O sistema de indexação (i.e., robô) do Radix pode ser configurado para focalizar um subconjunto da Web conforme quatro critérios: assunto (i.e., a partir de uma descrição dos interesses do usuário, indexar somente páginas com conteúdo relacionado), domínio de rede (e.g., intranet, domínio Internet), região geográfica (e.g., cidade, país), e região de hipertexto (i.e., conjuntos de páginas mais fortemente interligadas por links da Web). A base do empreendimento é a experiência e os protótipos do projeto de pesquisa Bright!, desenvolvido desde 1996 no DI/UFPE e CESAR, em Recife, e cujos resultados parciais têm sido publicados em conferências especializadas de destaque internacional.” Transcrição do Conteúdo das páginas do Radix. / www.radix.com.br / em 18/04/2000
Indexadores de tópicos: Os Indexadores de tópicos organizam as urls – endereços - em
listas de assuntos relacionadas a tópicos. O banco de dados é composto basicamente pelos
assuntos e tópicos relacionados aos endereço url. É alimentado manualmente por uma
equipe de pesquisadores – websurfers - que navega na Internet e cataloga os endereços
dentro dos assuntos. É similar à classificação manual, só que as unidades usadas são
tópicos e não palavras. São exemplos desse tipo de mecanismo o Yahoo , em inglês, e o
Cadê, em português.
Existem também os Meta-mecanismos de buscas, que são máquinas que
submetem o pedido do usuário a vários mecanismos de busca diferentes ao mesmo tempo
e retornam um apanhado dos resultados obtidos. Os meta-mecanismos submetem os
resultados já obtidos a uma reorganização, auxiliando consideravelmente o trabalho de
pesquisa do usuário. Por usar vários mecanismos de busca, o espectro de ação é maior ;
por outro lado, a extensão da lista a ser pesquisada também é maior, o que aumenta o
tempo do processo. Não encontramos nenhuma informação disponível sobre quais
critérios são usados no processo de reorganização, mas podemos supor desde uma análise
53
de freqüência de visitação das páginas - páginas mais visitadas devem ser mais úteis ou
interessantes - a totais de ocorrência de palavras. São exemplos o InFind –
www.infind.com –, o Jarbas – www.jarbas.com.br –, e o Google – www.google.com.br
Outros tipos de soluções, aparentemente mais sofisticadas, como o Ask Jeeves, também
são encontradas. A apresentação da tecnologia Jeeves em sua página é a seguinte:
“JEEVES SOLUTIONS auxilia as empresas com o uso de aplicativos próprios baseados em linguagem natural. Através de uma caixa de perguntas de fácil utilização, seus clientes perguntarão sobre as informações, produtos e serviços que desejam. Seu (o do cliente Jeeves) conteúdo já existente e recursos de TI proverão as respostas que eles querem. A solução é completada por análises sofisticadas que retornam informações de incalculável valor para as perguntas feitas.” (www.jeevessolutions.com)xix
Até onde podemos perceber, a utilização de linguagem natural é limitada à pergunta
do usuário, tornando a interface amigável e confortável, mas a busca é feita através de
“recursos de TIxx”. Por “recursos de TI” podemos entender qualquer uma das técnicas já
apresentadas ou uma fusão delas. De qualquer forma, não há menção de conhecimentos
ou processos relativos à linguagem natural nessa etapa.
Como conclusão desse breve levantamento, podemos afirmar que pouco do
conhecimento, ou nenhum conhecimento, da teoria lingüística é utilizado em algum tipo
de automação para as buscas na Internet pelo menos nos produtos comerciais. Os
indexadores de tópicos não utilizam a automação para a catalogação. Os mecanismos de
busca fazem levantamento e procura por combinação de cadeia de caracteres: mato,
substantivo, e mato, verbo matar, são considerados como a mesma ocorrência.
Continuamos afirmando que não só a relação entre os modelos utilizados – a base
de dados que compõe a inteligência do sistema – como também a forma de avaliação de
seu uso – os algoritmos que decidem o valor das informações – precisam aproveitar
melhor os conhecimento lingüísticos obtidos até hoje. A noção de que o conteúdo de um
texto pode ser obtido através da lista dos itens lexicais considerados isoladamente não
encontra respaldo na teoria lingüística atual. Essa abordagem ingênua do fenômeno
lingüístico impede um melhor aproveitamento no quadro atual.
54
2.2.1.2.1 Vector Space Model
Uma das técnicas que se apresentam como uma evolução dentro da questão de
recuperação da informação é denominada de Vector Space Model.
A técnica do Vector Space Model baseia-se no uso de vetores para a comparação
entre textos e não de itens isolados. Nessa técnica, cada documento é reorganizado na
forma de um vetor indexado, constituído pelos itens encontrados dentro do documento,
para os quais são calculados pesos. As fórmulas usadas para o cálculo podem ser
encontradas na Internet. Consideramos as informações apresentadas por Jose Castano, da
Brandeis University, como as mais acessíveis para leigos, como nós.xxi
Uma vez criados os vetores para os documentos que compõem a base de
conhecimento, cria-se, para cada consulta feita, um vetor com a mesma metodologia,
baseado nos parâmetros da consulta. Após cálculos de comparação entre o vetor da
consulta e os vetores da base, chega-se a uma decisão sobre os mais pertinentes. Para
maiores informações sobre os cálculos aplicados, ver
www.cs.brandeis.edu/~jcastano/marcnotes.html e também a explicação encontrada em
www.birkhauser.com/hypermedia/cyb7.html
Como podemos constatar, já há indícios de consciência da não-adequação de uma
busca exata, baseada somente em cadeias de caracteres. Por outro lado, continuam-se
usando as informações estatísticas de freqüência como parâmetro de comparação.
2.2.2 Abordagem Lexical vs. Probabilística: reflexos da escolha
Na área de Processamento da Linguagem Natural, tanto para a geração, quanto
para a compreensão de textos, é necessário, em algum momento, extrair o significado do
texto que é o objeto de trabalho. A dificuldade encontrada na automação dessa atividade
é uma das grandes questões que se colocam para a área. Entre as abordagens usadas para
a recuperação de informação, podemos citar a abordagem lexical e a abordagem
55
probabilística como as duas vertentes mais comuns. Em ambas as abordagens, uma base
de conhecimento, comumente chamada de dicionário, é utilizada para a extração do
significado. Os pontos que as diferenciam são a qualidade do conhecimento acumulado e
os processos de inferência utilizados no tratamento desse conhecimento.
Na abordagem lexical, o conhecimento é estruturado por relações de hierarquia
entre os elementos que compõem a base - as entradas lexicais. Na abordagem
probabilística, os elementos têm relações de co-ocorrência medidas pela freqüência. Em
termos de qualidade de conhecimento, na abordagem lexical, a informação armazenada
na base de conhecimento tem uma estrutura hierarquizada e remete a um conjunto de
tipologias pré-estabelecidas – sejam classes de palavras, domínios semânticos ou outras.
Essas tipologias, por sua vez, também remetem a tipologias em sua especificação –
tempo, número, modo, sinônimos, antônimos, etc. Dentro desse sistema, cada elemento
tem um valor intrínseco e independente, que é somado ao de outros itens nos processos
de inferência.
Já na abordagem probabilística, a informação armazenada na base de
conhecimento tem uma estrutura modular, onde os elementos não têm um valor
intrínseco, mas, sim, possibilidades e/ou probabilidades de combinação com outros
elementos. Sendo assim, os processos de inferência se fazem por meio de cálculos
freqüenciais e/ou probabilísticos, que indicam as melhores combinações para a
construção do valor único: o do conjunto.
Levantamos essa questão porque consideramos que as abordagens mencionadas
são representativas de dois modelos de arquitetura da mente discutidos na ciência
cognitiva: o classicista ou simbolista e o conexionista. Na abordagem lexical, temos um
tratamento estruturado das informações, o que implica assumir que estamos
representando um sistema simbólico. Na abordagem probabilística, temos um tratamento
modular das informações, o que implica assumir a representação de um sistema
conexionista. Com isso, escolher entre uma ou outra abordagem acaba em implicar a
escolha entre um ou outro modelo.
56
2.2.2.1 Os modelos Classicista e Conexionista
Para começar a explanação sobre as duas correntes, é necessário colocar que o
nível de análise considerado adequado para uma teoria da arquitetura cognitiva em cada
uma delas é o mesmo. Como tanto conexionistas quanto classicistas são
representacionistas, em ambas as correntes a postulação de estados representacionais é
vista como essencial ao estudo da cognição e, portanto, para ambas, qualquer nível cujos
estados representem propriedades do mundo é um nível cognitivo. A diferença entre as
duas se dá no modo como se pretende essa representação.
O primeiro aspecto em que as duas teorias diferem é o da natureza das entidades
ou representações mentais. Na corrente clássica, postulam-se representações mentais
como combinações sintáticas e semânticas, nas quais temos:
1. uma diferença entre representações estruturalmente atômicas, ou seja,
compostas por uma unidade - ou moleculares - compostas de estruturas;
2. representações estruturalmente moleculares que possuem constituintes
sintáticos, que, por sua vez, também são estruturalmente atômicos ou
moleculares;
3. a idéia de que o conteúdo semântico de uma representação é uma função
tanto do conteúdo semântico de suas partes quanto de sua constituição
estrutural.
Como conseqüência dessa característica de complexidade das representações
mentais, a sua própria estrutura é também uma representação mental e pode ser usada
como input no processo. Isso caracteriza um processo sensível à estrutura, pois uma
modificação na mesma implica em uma mudança do input.
57
Na corrente conexionista, postulam-se representações mentais como uma rede de
elementos interconectados. O processo fica representado na configuração total da rede e
não nos elementos que a compõem. A complexidade dessas estruturas é muito menor do
que a proposta pela corrente classicista e ela não é sensível a estrutura, pois seus
processos de decisão não estão ligados a ela.
O segundo ponto de diferença entre as duas correntes, conseqüência do primeiro,
é o da natureza das relações primitivas estabelecidas entre as entidades, nós (“nodes”)
para os conexionistas e expressões (“expressions”) para os classicistas. Para o
conexionismo, a relação entre os nós é puramente causal. Para os classicistas, a relação
entre expressões é não só causal, como também, estrutural, isto é, é reflexo da estrutura
interna dos elementos.
Segue-se que, enquanto na corrente conexionista postula-se a existência de
símbolos – o produto final, a rede, é um símbolo -, na corrente clássica postula-se um
sistema de símbolos. Como reflexo dessa diferença na postulação da arquitetura, vários
outros pontos são também diferentes, como veremos adiante.
Muitas vezes, esses pontos são interpretados incorretamente, na maior parte dos
casos por uma compreensão falha do conexionismo. Para evitar essas incorreções, basta
levar em conta a diferença na concepção da arquitetura cognitiva mencionada no
parágrafo anterior. Os pontos mais comumente interpretados de forma errônea são
levantados a seguir.
Em um modelo conexionista, não existe função alguma para os rótulos dos nós no
processo; o processo é definido pelas relações entre os nós, não por eles em si.
Diferentemente, em um modelo clássico, os rótulos são, ao mesmo tempo, resultado e
determinantes do processo, são uma parte intrínseca; se forem substituídos, o
comportamento do sistema será outro. Em uma máquina conexionista, a substituição não
provocará mudanças no processo.
Outro ponto de confusão seriam as redes conexionistas: como elas, visualmente,
são parecidas com estruturas gráficas, tende-se a interpretar suas relações da mesma
maneira, o que é incorreto. As relações primitivas entre os nós, como já foi dito, é
simplesmente causal. Dois rótulos relacionados em um diagrama devem ser entendidos
58
somente como “acionadores” um do outro, dentro daquele processo específico; qualquer
outra interpretação foge à interpretação conexionista.
A distribuição representacional também é qualitativamente diferente em um
modelo clássico e em um conexionista. No segundo, a representação é neurologicamente
distribuída; no primeiro, existe uma estrutura constituinte que cria a representação. Ser
neurologicamente distribuída significa que a representação é criada pelas relações
apresentadas entre os nós – between level relation. Ao contrário, em uma estrutura
constituinte, a relação existe entre as unidades – within level relation – já que as partes
têm que ser equivalentes semânticas para comporem juntas.
Exemplificando esses processos, consideremos a expressão menino bonito. Dentro
de um modelo classicista, poderíamos propor a seguintes representações moleculares:
Menino
Gênero: masculino
Número: singular
Classe: substantivo
menina
Gênero: feminino
Número: singular
Classe: substantivo
homem
Gênero: masculino
Número: singular
Classe: substantivo
bonito
Gênero: masculino
Número: singular
Classe: adjetivo
meninos
Gênero: masculino
Número: plural
Classe: substantivo
bonita
Gênero: feminino
Número: singular
Classe: adjetivo
Quadro 6 Proposta de representações moleculares dentro de um modelo classicista
Cada uma dessas representações é formada por uma estrutura. A construção de
uma outra representação, que pode ser chamada de SN – sintagma nominal –, usaria os
valores dessas representações para criar a sua estrutura, que só é possível por conta
desses valores harmônicos. Seu valor é uma função das estruturas que a compõem. As
59
representações menino e bonito, por sua vez, também são acionadas para essa estrutura
porque possuem equivalências semânticas, no nosso exemplo, tanto de gênero e número,
quanto de classes relacionáveis.
SN Menino
Gênero: masculino
Número: singular
Classe: substantivo
Bonito
Gênero: masculino
Número: singular
Classe: adjetivo
A representação SN, por sua vez, também poderá ser usada como input para outra
representação, uma SV, e assim por diante. As expressões menina bonita e homem
bonito também serão reconhecidas, mas a expressão menino bonitos não será
reconhecida.
Caso considerássemos uma representação conexionista, teríamos as seguintes
entidades:
menino
menina
homem
bonito
bonitos
bonita
Quadro 7
Proposta de representações moleculares dentro de um modelo conexionista
60
As entidades menino e bonito seriam encontradas acionando uma a outra e
formariam uma rede, logo, uma representação mental. As entidades menino e homem ou
menino e bonita podem formar outra rede e assim por diante. A diferença seria o valor da
relação entre elas: a primeira relação teria um valor maior do que a segunda, que teria um
valor maior do que a outra. Esse valor pode ser obtido através de uma análise das
probabilidades de ocorrências dessas redes. Analisando-se a freqüência de ocorrências
das redes em textos escritos na norma padrão do português, por exemplo, a rede menino
bonito deverá ocorrer mais vezes do que a rede meninos bonito que por sua vez deverá
ocorrer mais vezes do que a rede menino bonita. Assumindo-se um valor X para a rede
menino bonita, a probabilidade de ocorrência de menino bonito é de 3X, isto é, de 3
(três) vezes maior do que anterior. Já a rede meninos bonito teria o valor de 2X, isto é,
de 2 (duas) vezes maior do que a de menino bonita, mas seria 1X menor do que a de
menino bonito. Ao tomar qualquer decisão sobre essas redes, o sistema conexionista
escolherá preferencialmente a rede menino bonito.
Nó
Valor da Relação
Nó
Menino 3X bonito
Meninos 2X bonito
Menino X bonita
Quadro 8
Valores de rede dentro de um modelo conexionista
Os pontos comentados até agora são relativos à questão da representação mental;
passaremos agora a tratar de algumas questões relativas ao processo. Classicistas
acreditam que (a) algumas características das estruturas sintáticas de uma fórmula
correspondem a características semânticas da mesma e (b) símbolos podem ser
transformados durante o processo por operações que são sensíveis à estrutura sintática
dos símbolos com os quais opera. É nesse sentido que se diz que o processo é sensível à
61
estrutura. Já no modelo conexionista, os processos são sensíveis a freqüências, isto é, o
processo de aprendizado é feito através de um processamento estatístico de seus inputs,
onde se calcula o peso probabilístico das conexões. O mesmo acontece com relação ao
processo de raciocínio: no conexionismo, a probabilidade de uma idéia elucidar outra é
calculada em função das propriedades estatísticas dos caminhos usados para conectá-las.
Já na corrente clássica, as combinações estruturais das representações são o fator usado
para determinar qual delas serve para elucidar a outra.
2.2.2.2 Propondo uma alternativa
No desenvolvimento de soluções computacionais, procura-se utilizar sempre
aquelas que sejam mais econômicas. O conceito de solução econômica é compreendido
em termos de uma relação de equilíbrio entre o tempo e dinheiro gasto tanto com a
implementação quanto com a manutenção do sistema. Um dos pontos considerados fortes
para a abordagem probabilística é o da confecção do “dicionário”. Como o conhecimento
utilizado é baseado em freqüências de combinações, esses dados podem ser obtidos
automaticamente, dispensando a intervenção humana. Já na abordagem lexical, até hoje,
a intervenção humana é indispensável. Por outro lado, as regras de inferência, que são
sempre válidas neste último, não o são no primeiro. Exemplificando melhor, as regras de
inferência usadas na abordagem lexical são válidas em qualquer “domínio” – exceto para
linguagem técnica. Já as baseadas em probabilidades de ocorrência não o serão. Esses
mesmos aspectos se evidenciam na questão da capacidade de expansão. Um sistema
baseado na abordagem lexical pode se expandir, mas a um custo alto e em um processo
lento. Já um sistema probabilístico tem mais facilidades de expansão, porque ela pode ser
feita automaticamente, porém os resultados podem ser afetados por essa expansão.
Se, por um lado, a abordagem probabilística apresenta resultados mais
satisfatórios a curto e até a médio prazo, por outro se mostra ineficaz a longo prazo, uma
vez que o produto – língua – do processo cognitivo simulado é mutável. Por quanto
62
tempo pode-se assumir que as co-ocorrências de itens mantenham a mesma freqüência e
probabilidade de ocorrência?
Relacionando nosso objetivo – a utilização de um léxico computacional para
auxiliar o processo de recuperação da informação – com a questão dos modelos de
arquitetura da mente, o ideal seria termos um sistema que mesclasse as características de
ambas as abordagens. Esse sistema teria a informação da base de conhecimento
armazenada em uma estrutura hierarquizada – um modelo classicista –, mas o valor de
um elemento passaria a ser construído não só pela sua própria natureza, mas também
pelas relações que ele estabelecesse com outros itens – um modelo conexionista.
Consideramos essa abordagem especialmente válida para o tratamento do
léxicoxxii, pela natureza híbrida do mesmo conforme entendido até hoje. Conforme já
abordado na seção anterior Sobre alguns conceitos lingüísticos, os limites entre o
conhecimento lingüístico e não lingüístico no léxico são difíceis de traçar. Essas
dificuldades se refletiriam na construção de um léxico computacional que se orientasse
por uma ou outra corrente exclusivamente.
Se o sistema for unicamente classicista, tipologias e caracterizações semânticas
serão criadas como base para a hierarquia do sistema. Como esse trabalho de catalogação
será manual – ainda não existe uma proposta automatizada satisfatória devido à
dificuldade de estruturar formalmente a informação semântica –, o resultado é que ele
será baseado em experiências de falantes. Ela herdará as características do sistema desses
falantes, seu histórico cultural e social, por mais que se procure evitar essa influência.
Isso poderá se tornar um problema para o aprendizado: no caso de uma situação nova
cuja tipologia não tenha sido prevista, o sistema apontará um erro e falhará no
reconhecimento e identificação. Já um sistema conexionista reconhecerá a existência da
nova ocorrência e tentará atribuir um valor a ela. O problema no sistema conexionista é a
determinação dos parâmetros comparativos para a atribuição de valores, pelo mesmo
motivo que não existe uma proposta automatizada satisfatória para a classificação de
tipos: a dificuldade de estruturar formalmente a informação semântica.
Exemplificando, supondo a existência do item janela em um sistema classicista
ligado a um “domínio casa”, a ocorrência desse item no “domínio computador” não seria
63
reconhecida. Já um sistema conexionista reconheceria a relação entre a ocorrência e o
domínio, mas não poderia compartilhar as características entre janela_casa e
janela_computador porque não teria a distinção entre as entidades. O sistema classicista,
uma vez informado da existência de um item janela ligado ao “domínio computador”,
poderia fazê-lo.
Parece razoável propor, como solução para essa situação, uma base de informação
nos moldes classicistas que também utilize processos conexionistas para tomada de
decisões.
Retomando nossa proposta, acreditamos que a melhor abordagem para o processo
de recuperação de informação é a abordagem lexical remodelada em termos
representacionais e com a incorporação dos processos práticos da abordagem
probabilística, tais como expansão automatizada, identificação de novos itens e atribuição
de valores.
Esse é o modelo que pretendemos seguir: nossa forma de representação é
simbolista em sua modelagem para armazenamento das informações. Uma unidade – o
item lexical – é decomposta em vários níveis e pode ser tratada tanto como uma
representação estruturalmente atômica quanto molecular, uma vez que os seus níveis de
representação são preenchidos por outras representações estruturalmente atômicas.
Existe um valor diferente para cada unidade atribuído pela sua representação, mas esse
valor não é fixo. No momento da análise o valor de cada unidade é recalculado de acordo
com as ligações que sua configuração pode ativar com as outras unidades do texto. O
resultado a ser considerado é o do conjunto e não o de unidades isoladas. Nesse sentido,
nosso modelo é conexionista, pois a representação é encontrada na configuração total da
rede e não nos elementos que a compõem.
64
i O levantamento dos itens é feito automaticamente, por decisão metodológica, portanto ocorrências com hífens, como abanar-se, foram considerados como uma cadeia ininterrupta, e formam um item lexical. Ocorrências do tipo máquina de bordar resultam em três itens diversos. ii Por conceitos tradicionais entendam-se os conceitos como formulados na gramática normativa tradicional. iii Ressalte-se que elemento aqui é qualquer unidade que possa ser recortada em qualquer nível, até no fonético-fonológico, como quando usamos um determinado sotaque para caracterizar uma brincadeira. Não é necessariamente uma palavra ou uma frase ou um morfema, mas sim qualquer um deles. iv The meaning of linguistic expressions derives from two sources: the language they are part of and the world they describe. Words stand in a relationship with the world, and make statements about them. (…) However words also derive their value from their position within the language system.” (SAEED, 1997, p.12) v “the semantic properties of a lexical item are fully reflected in appropriate aspects of the relations it contracts with actual and potential contexts.” (CRUSE , 1986, p.1) vi “(…) every aspect of the meaning of a word is reflected in a characteristic pattern of semantic normality and abnormality in grammatically appropriate contexts.” (CRUSE, 1986, p.15-6) vii “The full set of normality relations which a lexical item contracts with all conceivable contexts will be referred to as its contextual relations. We shall, say then, that the meaning of a word is fully reflected in its contextual relations; in fact, we can go further, and say that, for present purposes, the meaning of a word is constituted by its contextual relations.“ (CRUSE, 1986, p.15-6) viii “The adoption of the contextual approach to word-meaning (..) has certain inescapable consequences that some might consider to be disadvantages. One is that any attempt to draw a line between the meaning of a word would be quite arbitrary; another is that there is no motivation for isolating ‘pragmatic meaning’ as a separate domain of lexical meaning. Perhaps most importantly, it would seems that we have no grounds for believing that the meaning of a word, when viewed in this fashion, is finitely describable – without severe circumscription it is an unpromising candidate for formalization or representation in terms of logical or quasi-mathematical formulae.” (CRUSE, 1986, p. 19) ix “(…) has the advantage of being intuitively plausible” (CRUSE, 1986, p. 19) x “Words contribute, via their own semantic properties, to the meanings of more complex units, but individually they do not occasion our most vivid and direct experiences of language. We communicate with utterances; it seems to be reasonable to suppose, therefore, that ours intuitions concerning utterances will be sharper, clearer and more reliable than those concerning individual words. “ (CRUSE , 1986, p. 9-10) xi “the knowledge a speaker has of how words can instantiate (...) positions in a syntactic structure.” (ANDERSON, 1992, p.182) xii “rules that operate within the lexicon to relate stems (...) to one another, and to create new lexical stems on the basis of existing ones when required.” (ANDERSON, 1992, p. 184), xiii “This overlap has even led some linguists to say that morphology is ‘in the lexicon’ (Jensen and Stong-Jensen, 1984), although in doing so, these linguists are using the term lexicon in a much broader and different sense, to mean the source of all the words, actual and potential, rather in the narrow sense of a list of unpredictable item that we have inherited from traditional grammar and from Bloomfield (Blomfield, 1933, Zwicky, 1989, Aronoff, 1994)” (ARONOFF e ANSHEN, 1998, p. 237)
65
xiv “A computational lexicon has traditionally been viewed as a repository of lexical information for specific tasks, such as parsing, generation, or translation. From this viewpoint, it must contain two types of knowledge: (1) knowledge needed for syntactic analysis and synthesis, and (2) knowledge needed for semantic interpretation. More recently, the definition of a computational lexicon has undergone major revision as the fields of computational linguistics and semantics have matured. In particular, two new trends have driven the design concerns of researchers: (1) Attempts at closer integration of compositional semantic operations with the lexical information structures that bear them. (2) A serious concern with how lexical types reflects the underlying ontological categories of the systems being modeled.” (Computational lexicons - http://cognet.mit.edu/MITECS/Entry/pustejovsky) xv HTML ou hypertext marked language é uma linguagem destinada à formatação de textos a serem exibidas por um browser – programa utilizado para a navegação na Internet. O usuário utiliza tags – marcadores de início e fim de formatação – para definir a formatação e diagramação do texto que o browser lê e decodifica visualmente no formato de páginas. xvi “(…) The basic steps include: Gather terms from as many sources as possible (e.g., users, subject experts, the content itself, existing thesauri). These "entry terms" should include synonyms and abbreviations, acronyms, and alternate spellings for all of the important concepts in your document collection. Define the preferred terms. You'll need to create guidelines for selecting preferred terms. (…) Whichever terminology you choose, it's important to be consistent in your approach to defining the preferred terms. Link synonyms and near-synonyms. This is where you map the synonyms, abbreviations, acronyms, and alternate spellings as "variant terms" to the preferred terms.(…). Group preferred terms by subject. This forms the foundation of your thesaurus' hierarchy. Definition of the subject hierarchy should be informed by a balance of top-down considerations (e.g., mission, vision, intended audiences) and bottom-up content analysis. Identify broader and narrower terms. You're defining where each term fits within the hierarchy. Existing thesauri that cover your subject area or industry can prove extremely useful in generating ideas for broader and narrower terms. Perform associative linking. The definition of related terms is highly subjective. For each term ask the question: "Where will users want to go from here?" Choose only the most obvious and important relationships.” (MORVILLE, outubro de 1998, http://webreview.com/1998/10_30/developers/10_30_98.shtml) xvii URL é a sigla para universal resource locator. É o endereço completo de um objeto – site, página, recurso - na WEB. Em poucas palavras, um endereço é composto a identificação da máquina através da qual o conteúdo pode ser acessado e a localização exata desse em seu interior. A identificação da máquina pode ser feita através de nomes como www.oglobo.com.br ou através de IP´s - internet protocols como 192.168.0.100,. A localização exata do conteúdo seria algo como jornal/esportes/coluna.htm. A URL em nosso exemplo, seria www.oglobo.com.br/jornal/esportes/coluna.htm ou 192.168.0.100/jornal/esportes/coluna.htm xviii Uma página em HTML é formatada através de tags que são os indicativos de formatação a serem lidos e aplicados pelo browser (Internet Explorer, Netscape, Opera, etc) para a exibição da mesma. As tags <B> .. </b> fazem como o que o texto encontrado entre elas apareça em negrito na tela. A tag META não é usada para fins de exibição e pode conter desde comandos para atualização controlada da página a
66
palavras-chave determinadas pelo autor. Essas palavras também podem ser usadas pelos mecanismos de busca. xixJEEVES SOLUTIONS provides companies with natural language-based self-service applications. Through an easy-to-use question box, your customers ask for the information, products and services they're looking for. Your existing content and IT assets provide the answers they seek. The solution is completed by sophisticated analysis that deliver invaluable information from the questions users ask. (http://www.jeevessolution.com) xx Ti significa Tecnologia da Informação. A Teoria da Informação foi desenvolvida por Claude Shannon matemático do Bell Labs e diz que a informação está contida nos elementos imprevisíveis e/ou irregulares em um sistema. Sendo assim, transmitir ou receber informação passa por administrar e compreender esses elementos. O objetivo da teoria da informação é o de prover métodos de medição da eficiência de sistemas de comunicação. xxi “Two useful measures are: Croft 83: FREQi,j K + (1-K). --------------- MAXFREQj Harman 86: LOG2(FREQi,j + 1) ---------------- LOG2(LENGTHj + 1) Where:
FREQi,j frequency of term i in document j
MAXFREQj frequency of the most frequent term in j LENGTHj length of document j
K a value between 0 and 1, usually set to 0.5
The use of a stop list can be seen as introducing zero weights for elements on that list. Similarly, some elements can be favored by giving them heavier weights. You could for example double the weight of nouns and triple the weights of elements in headers.” (CASTANO, The Vector Space Model - Class Notes , www.cs.brandeis.edu/~jcastano/marcnotes.html) xxii A aplicação dessa alternativa para outros componentes lingüísticos deve ser analisada com mais rigor, mas parece também uma solução razoável.