7

Click here to load reader

INDEXAÇÃO DOCUMENTÁRIA: UMA FORMA DE · PDF fileprocurei no “Alta Vista” e no “Yahoo”. Tive 193 respostas compostas pelas palavras “banco”, ... nos documentos, os seus

Embed Size (px)

Citation preview

Page 1: INDEXAÇÃO DOCUMENTÁRIA: UMA FORMA DE · PDF fileprocurei no “Alta Vista” e no “Yahoo”. Tive 193 respostas compostas pelas palavras “banco”, ... nos documentos, os seus

Rev. de Letras - N0. 22 - Vol. 1/2 - jan/dez. 2000 63

ResumoA indexação documentária é uma das áreas da Ciên-

cia da Informação que mais evoluiu nestes últimos anos.Esta evolução está estritamente ligada às mudanças deparadigmas que ocorrem na nossa sociedade, independentedo domínio do conhecimento. Ela faz parte de um sistemaglobal: o Sistema de Recuperação de Informação (SRI) oqual é constituído por um conjunto de atividades que con-templam desde o processo de seleção e aquisição até a re-cuperação da informação ou de documentos nas Unidadesde Documentação3. A indexação tem por objetivo teóricoexpressar de maneira o mais fiel possível, a representaçãodos elementos que pertencem ao conteúdo de um documen-to - seja ele real ou virtual- a fim de que o mesmo possa serrecuperado posteriormente. Por se ocupar do tratamentoda informação visando a representação mínima do conteú-do do documento, esta atividade possui uma forte cargacognitiva. Neste estudo é apresentado o estado da arte daindexação documentária, os seus fundamentos teóricos e aindexação manual.

Palavras-chave: Indexação documentária; indexação ma-nual; sociedade da informação.

AbstractOne domain of Information Science that has most

developed in the last 30 years is the documentary indexing.This evolution is strictly linked to the changes of paradigms

that happen in our society, independent of the domain of theknowledge. This article is concerning the new changes ofindexing and it is the first part of a sequence of two papersconcerning indexing.

Key words: Indexing documentary; indexing manual; so-ciety of the information.

1 INTRODUÇÃO

O desenvolvimento científico e tecnológico favoreceo aumento da produção do conhecimento, de um lado, e asua fragmentação de outro, em função do aparecimento denovos campos do saber. Essa fragmentação não implica emuma individualização das ciências, muito menos da tecno-logia, muito pelo contrário, ambas buscam apoio intra e/ouentre elas e em outros domínios do conhecimento, a fim deserem melhor compreendidas nesse novo paradigma da so-ciedade dita da informação (Information Society), do conhe-cimento (Knowledge Society) ou do “aprendizado” (LearningSociety).

Neste contexto interdisciplinar, observamos que aprodução do saber se apresenta formalmente estruturada so-bre várias formas, como por exemplo sobre a forma impres-sa (livros, periódicos, folhetos, patentes, relatórios técnicos,normas técnicas, etc.), sobre a forma de imagem (fotogra-fias, desenhos, etc.), sobre a forma de multimídia (combina-

INDEXAÇÃO DOCUMENTÁRIA: UMA FORMADE REPRESENTAÇÃO DO

CONHECIMENTO REGISTRADO1

1 Artigo baseado no capitulo II da tese de doutorado “La representatio des connaissances dans le contexte de la documentation tecnique:proposition d’um modèle d’indexation.

2 Doutora em Ciência d Informação e da Comunicação-Institut de Communication et des Médias-Université Stendhal Grenoble 3-França. Professôrado Departamento de Comunicação Social e Biblioteconomia-UFC.

3 Em todo o decorrer deste trabalho nós consideramos “Unidades de Documentação” como sinônimo de Bibliotecas, Centros de Documentaçãoe outros do gênero.

Virgínia Bentes Pinto2

Page 2: INDEXAÇÃO DOCUMENTÁRIA: UMA FORMA DE · PDF fileprocurei no “Alta Vista” e no “Yahoo”. Tive 193 respostas compostas pelas palavras “banco”, ... nos documentos, os seus

Rev. de Letras - N0. 22 - Vol. 1/2 - jan/dez. 200064

ção de textos, de imagens, de sons e outros dados). Alémdestas, existem ainda os conhecimentos tácitos, os materiali-zados nos próprios produtos, como é o caso das máquinas eequipamentos, e também aqueles apresentados informalmentesobre a forma oral em feiras, exposições e outros do gênero,sem contar com o conhecimento tácito.

Ora, se a forma de apresentação do conhecimentomudou, seu suporte de estocagem também mudou e, hoje,encontramos os conhecimentos registrados tanto em suportestradicionais como o papel, quanto em suportes eletrônicos,ópticos e magnéticos.

Esse aumento do conhecimento se traduz pela dispo-nibilidade de uma quantidade enorme de informação, recursoque está sendo considerado como o capital mais importantede nossa sociedade, posto que ele representa um alto valoragregado para o setor produtivo industrial e empresarial. Ora,se nesta sociedade a informação tem um papel fundamentalpara o avanço da ciência e da tecnologia, ela tem igualmenteum lugar importante na vida cotidiana dos cidadãos, que pre-cisam estar bem informados para que possam exercer digna-mente a sua cidadania.

Foi à partir destas observações que produzimos esteartigo, tecendo comentários, inicialmente, a respeito do aces-so a informação na sociedade do conhecimento, em seguidatrabalhamos a indexação em seu estado da arte e finalmentea indexação manual como forma de representação do conhe-cimento registrado visando a sua recuperação posterior.

2 ACESSO À INFORMAÇÃO NA SOCIEDADEDA INFORMAÇÃO

A enorme quantidade de informações que hoje estãodisponíveis favorece a que se tenha a ilusão de que:

“jamais nous n’avons été mieux informés, ce qui neveut pas dire que nous savons traiter et intégrer cesdonnées qui litteralment nous soubmergent. Tropd’information tue peut-être l’information, suscite desévasions imaginaires, des refus de savoir, et se heurtede toute façon à la « clôture informationnelle » dechacun (un organisme n’utilise qu’une infime partiedes signaux qui traversent son envirtonement »(BOUGNOUX, 1993, p.11).

Corroborando, Pierre LÉVY (1997, p.17), afirma que:

« nous ne disposons que de très peu d’instrumentspour filtrer l’information pertinente, pour opérer desrapprochements selon des significations et des besoinstoujours subjectifs, pour nous repérer dans le fluxinformationnel.” (LÉVY, 1997, p.24)

Estas duas reflexões mostram claramente o paradoxodesta sociedade, a qual pode ser caracterizada, entre ou-tras, como:

1) uma sociedade grande produtora e consumidora deinformações, portanto a sua matéria-prima é a infor-mação;

2) uma sociedade que, mesmo sendo produtora e consumidorade uma quantidade enorme de informações, se depara cominúmeras dificuldades para acessar esta avalanche de in-formações que nos submerge quotidianamente;

3) uma sociedade produtora e utilizadora das ferramentas detratamento, estocagem e recuperação da informação, pro-piciadas pelas Tecnologias da Informação e da Comuni-cação (TIC´s);

4) uma sociedade onde as TIC’s possibilitam, por um lado,alto alcance, predominam as lógicas das redes e a supostaflexibilidade. Por outro lado convivemos com a chamadainfoexlusão e com inúmeras perdas;

5) uma sociedade na qual o ser humano necessita, ansiosa-mente, estar atualizado para poder acompanhar as trans-formações que se processam, quotidianamente, em umavelocidade infreável;

Dentre estas variáveis, as correspondente ao ser hu-mano, são infinitamente atingida pelas outras, pois este su-jeito vive submerso pelas informações, necessita estar atua-lizado para não ficar a reboque das mudanças que se proces-sam a todo momento e, se depara com as dificuldades paraacessar tais informações, mesmo com a existência das ferra-mentas das NTIC´s. Essas barreiras de acesso a informaçãosão explicadas por KURAMOTO (1999), quando afirma quepara navegar sobre o “espaço do saber” é preciso conhecereste espaço, saber utilizar as ferramentas das NTIC´s e igual-mente conhecer as estratégias de busca e recuperação deinformação, ou ainda ter a ajuda de um especialista nestedomínio para que as necessidades de informação dos usuá-rios possam ser atendidas de maneira eficaz e eficiente.Nesta perspectiva, torna-se imprescindível que saibamos oque fazer com as NTIC’s e quais as conseqüências de suamá utilização o que pode, certamente, comprometer tanto atecnologia (produto/serviço) quanto os que estão sendo seususuários.

Além destas variáveis, consideramos ainda; a ausên-cia e/ou deficiência no processo de indexação. Esse fato énotório, tanto quando buscamos informações nas Unidadesde Documentação, ou ainda sobre a rede Internet que, quasesempre nos fornece como respostas um calhamaço de dadosque muitas vezes não condizem com o que foi demandado.Por exemplo, um dia havia necessidade de uma informaçãosobre a minha conta no “Banco do Brasil” em Fortaleza.Estava na França e, o acesso podia ser feito pela Internet.Com a estratégia de busca “Banco do Brasil” & “Fortaleza”,procurei no “Alta Vista” e no “Yahoo”. Tive 193 respostascompostas pelas palavras “banco”, “Brasil”, “Fortaleza” e“do”, mas nenhuma resposta com “Banco do Brasil”. Pro-blemas desta natureza são enfrentados por inúmeros usuá-

Page 3: INDEXAÇÃO DOCUMENTÁRIA: UMA FORMA DE · PDF fileprocurei no “Alta Vista” e no “Yahoo”. Tive 193 respostas compostas pelas palavras “banco”, ... nos documentos, os seus

Rev. de Letras - N0. 22 - Vol. 1/2 - jan/dez. 2000 65

rios da rede e, certamente, pode ter sido decorrente de umaindexação baseada em unitermos, que considera cada pa-lavra individualmente, e não os grupos sintagmáticos, daí, ofornecimento quase sempre de respostas insatisfatórias.

Este exemplo mostra, explicitamente, a necessida-de de se investir no tratamento técnico dos recursos infor-macionais, assim como na sua organização, de maneira maisconveniente, visando a racionalização de sua estocagem e,naturalmente, a busca e a recuperação de informaçãode maneira eficaz e eficiente, porque como afirmaCHAUMIER(1990 p.278), « rien ne sert d’archiver undocument que l’on ne saura pas trouvée parce qu’il n’aurapas été indexé » ou ainda porque ele foi indexado de ma-neira incorreta.

Diante disto perguntamos, o que significa exatamentea atividade de indexação? Como ela deve ser efetuada? Quaissão os problemas enfrentados para a sua execução?

3 INDEXAÇÃO: UMA FORMA DEREPRERSENTAÇÃO DO CONHECIMENTO

Para se trabalhar a indexação, inicialmente é precisoconsiderar que este conceito é utilizado em vários domíniosdo conhecimento, por exemplo na economia, na demografia,no comércio e nas ciências da Informação. Este ultimo é oque nos interessa.

Seguindo o raciocínio do professor Jean-ClaudeGARDIN ( 1974), consideramos a indexação documentária,como um conjunto de atividades que consiste em identificar,nos documentos, os seus “Traços Descritivos” (TD´s) oumacroproposições e em seguida extrair os elementos/descritores (sintagmas) indicadores do seu conteúdo visan-do à sua recuperação posterior. Estes descritores vão se cons-tituir na representação dos elementos indicadores do con-teúdo do documento e não a sua representação, pois esta sópode ser pelo documento mesmo.

A representação do conhecimento registrado, tendoem vista a indexação de documentos pode ser realizada to-mando-se por base os conceitos /palavras-chave/unitermosou ainda, em uma visão mais moderna, os sintagmas nomi-nais (proposta apresentada pelo grupo SYDO), ou frases(proposta de Alain F. Smeaton e Paraic Sheridan), ou aindaos sintagmas verbais (proposta de Geneviève Lallich e deVirginia Bentes Pinto). No caso dos conceitos palavras-cha-ve, eles podem ser extraídos4 do documento mesmo ou aindaatribuídos à partir de outras fontes, como por exemplo asLinguagens Documentárias (LD´s)5. Em contrapartida, ossintagmas ou as frases só podem ser extraídos do docu-mento mesmo, portanto em uma línguagem natural (LN).

A primeira forma de indexar nos parece representati-va dos descritores constitutivos dos documentos, ou seja doconjunto de suas unidades lexicais. Aqui é desmontado o dis-curso do autor, onde as palavras tinham um sentido em fun-ção do contexto ditado por seu criador, ou seja elas eramligadas ao mundo real do documento. Retiradas do seu con-texto tais palavras ou conceitos passam a significar apenaspropriedades, portanto, seu sentido vai mudar, naturalmente.

Ex. A geração das tensões de alimentação, variáveis emamplitude e Freqüência.

Na indexação por palavras-chave/unitermos, teremoso conjunto seguinte: A, geração, das, tensões, de, alimen-tação, variáveis, em, amplitude, e, freqüência .

Nesta maneira de indexar, as palavras são retiradasdo contexto do logico-semântico onde elas tinham uma sig-nificação determinada por este contexto. Elevadas do mun-do real, elas designam um conjunto de propriedades, seu sen-tido muda e se resume a um conjunto de unidades lexicais.Ora, segundo Michel LE GUERN (1991, p.23)

“Le mot de la langue, contrairement à ses occurrencesdans le discours, n’a pas de référence extra-linguistique. (...) La relation signe/objet, au sens dePeirce, correspond sommairement à la relationsaussurienne signifiant/signifié; les signifiés font euxaussi partie de la structure de la langue. Pour que ledescripteur remplisse sa fonction, qui est de mettre enrelation un objet du monde-une entité extra-linguistique-avec le document qui apportera desinformations sur cet objet, il faut que le descripteursoit un signe indiciaire.(...) Les mots de la langue, entant qu’ils sont mots de la langue, ne signifient quedes propriétés, jamais des entités: ils signifient desattributs, et non des substances, tant qu’ils ne sontpas mis en oeuvre dans le discours. Le descripteur,quant à lui, signifie une entité, une substance au sensde la philosophie d’Aristote. Le descripteur ne peutdonc pas être considéré, à l’instar des mots de lalangue, comme un symbole sans référence.”

Ao contrário, se a indexação é realizada tendo comobase os sintagmas ou as frases, os índices serão constituídos porpassagens do texto portadoras de informação, neste caso pode-se ter uma representação mínima do conteúdo do documento àmedida que esses grupos não são isolados do contexto no qualeles são inseridos (onde eles tem um valor referencial).

No exemplo apresentado anteriormente, se tomar-mos como elementos representativos os sintagmas, iremoster os seguintes:

4 O primeiro caso é chamado por LANCASTER(1991) de indexação por extração e o segundo indexação por atribuição. PAIJMANS (1993) os chamade “assigned indexing” e “derivad indexing”.

5 No decorrer deste trabalho, consideramos as Linguagens Documentárias (LD), como um conjunto de termos estruturados utilizados como tradu-tores dos elementos indicarores do conteúdo dos documentos visando a construção de índices para facilitar a recuperaça da informação.

Page 4: INDEXAÇÃO DOCUMENTÁRIA: UMA FORMA DE · PDF fileprocurei no “Alta Vista” e no “Yahoo”. Tive 193 respostas compostas pelas palavras “banco”, ... nos documentos, os seus

Rev. de Letras - N0. 22 - Vol. 1/2 - jan/dez. 200066

Sintagama1= A geração das tensões de alimentação, variá-veis em amplitude e freqüênciaSintagma2 = as tensões de alimentação, variáveis em ampli-tude e freqüênciaSintagma3= as tensões de alimentaçãoSintagma4= a amplitude e freqüênciaSintagma5= a freqüênciaSintagma6= a amplitude

Neste caso, podemos ter uma representação mínimado conteúdo veiculado no documento pois as suas unidadesgramaticais não são retiradas de seu contexto, onde eles ti-nham um valor referencial. Além do mais, é preciso levar emconsideração as características destes sintagmas, pois elespoderão ser portadores seja de um conjunto de informações,seja de um simples fragmento.

A representação em nível de indexação documenta-ria perpassa, ao menos, por três etapas:

a) análise conceptualb) traduçãoc) controle de qualidade

Quanto à maneira de indexar, ela pode ser feita atra-vés de:

1) uma análise manual, chamada igualmente intelectual, queé feita pelos humanos;

2) uma análise mecânica, feita pelas ferramentas da in-formática;

3) uma análise que combina as duas: humana e mecânica.Esta ultima é chamada indexação semi-automática ou as-sistida pelo computador, sendo realizada da seguinte ma-neira: inicialmente o sistema faz uma indexação automá-tica dos documentos levando em conta as ocorrências daspalavras mais freqüentes no texto. Em um segundo mo-mento, o indexador humano refina a lista dos descritorespropostos pelo sistema fazendo os ajustes e/ou com-plementações necessárias.

Com relação à dimensão da indexação, ela foi pro-posta pelo professor F.W. LANCASTER (1979), e trata-seda extensão com a qual um documento pode ser indexado,ou seja a exaustividade (exhausrivity), e a especificidade(specificity). A indexação exaustiva procura extrair do do-cumento, o maior número de conceitos de forma à cobrir o

seu conteúdo da maneira mais completa possível. É certoque esta maneira de indexar oferece a oportunidade de aces-so a um grande número de conceitos, mas ao mesmo tempoela pode ser responsável pelo ruído6 durante a recuperaçãoda informação. Segundo SOERGEL(1994), a exaustividadepode ser vista de dois aspectos: a exaustividade de pontosde vista e a exaustividade de importância. A primeira, as-segura que as facetas ou os pontos de vista considerados úteispara a representação proposta pelas LD’s serão disponíveispara a recuperação da informação. A segunda, determina onível de importância dos descritores propostos pelas regrasde indexação. Outro fator observado nesta maneira de indexardiz respeito ao seu custo-eficácia, pois quanto mais exausti-va a indexação, naturalmente, maior será o seu custo. Por-tanto, uma decisão neste sentido deve ser fundamentalmentejustificada pelo conhecimento do perfil dos usuários e pelosobjetivos da instituição (LANCASTER, 1991).

A indexação especifica, como o nome o diz, leva emconsideração os conceitos específicos em função dos temastratados no documento. Esta maneira de indexar diz respeitoa profundidade com a qual o conteúdo de um documento étratado. Se de uma parte ela favorece a precisão, de outra,ela contribui para aumentar o silêncio7 na recuperação dainformação, pois é levado em consideração apenas o con-teúdo principal do documento, deixando de fora outros as-suntos tratados, mesmo que de maneira não elementar.

Um outro aspecto que deve se levar em conta na ati-vidade de indexação refere-se à definição das Unidades deInformação8 que poderão entrar na construção do índice.

A indexação é uma atividade que desmonta o discur-so montado pelo autor do documento, à medida que ela fazrecortes neste discurso. Assim, ela permite passar de umdocumento constituído (um documento primário) à suareconstituição em um novo documento- índice (um docu-mento secundário), o qual é formado não pela representaçãodo conteúdo do documento inicial, mas pela representaçãodos elementos indicadores do seu conteúdo e que vão se cons-tituir na chave de acesso a recuperação da informação.

A maneira de indexar depende, naturalmente, do tipode documento à indexar. Se tomarmos como exemplo umamonografia, como devemos indexa-la? Analisando o con-teúdo predominante no documento, ou de maneira mais finalevando em conta por exemplo os capítulos, os parágrafos eas seções? No que concerne aos periódicos e aos anais deeventos, a indexação deve se apoiar sobre os artigos, sobreas conferências e comunicações ou a partir de seus títulos?

6 Consideramos como barulho, o excesso de documentos propostos pelos organismos de documentação para responder a uma demanda mas narealidade não respondem ao assunto demandado. Ele é medido pela relação entre o número de documentos não pertinentes relacionados enúmero total de documentos propostos: B=dn/d, onde dn=documentos não pertinentes, d=documentos da base

7 Neste trabalho, o silêncio corresponde a ausência de documentos que responderiam as necessidades dos usuários, mas na realidade não foramencontrados, mesmo que façam parte da coleção. A taxa de silêncio corresponde a relação entre o numero de documentos pertinentes encontradose o número total de documentos da base= Sl=dp/d, onde dp=documentos pertinentes, d=documentos da base

8 Consideramos como Unidades de Informação, os fragmentos de textos reconhecidos como unidades de indexação

Page 5: INDEXAÇÃO DOCUMENTÁRIA: UMA FORMA DE · PDF fileprocurei no “Alta Vista” e no “Yahoo”. Tive 193 respostas compostas pelas palavras “banco”, ... nos documentos, os seus

Rev. de Letras - N0. 22 - Vol. 1/2 - jan/dez. 2000 67

Tratando-se da indexação de documentos técnicos - manuaistécnicos, patentes, normas técnicas, bulas de medicamentos,laudos médicos etc., a indexação deve ser conduzida le-vando-se em conta os títulos, os capítulos, as passagens.....?

Os estudos e experiências, mostram que ainda nãotemos uma resposta precisa a estas interrogações. No entan-to, o que se observa é que a indexação de monografias, deperiódicos e de anais de eventos pode ser realizada tanto demaneira específica - levando-se em conta a estrutura lógicadas monografias, dos artigos de periódicos e das comunica-ções de eventos- quanto de maneira bem geral, tomando-secomo referência os títulos. Com relação a indexação de do-cumentos técnicos, ela deve ser conduzida no sentido daespecificidade, pois os usuários deste tipo de documentosdemandam uma informação pontual para responder às suasnecessidades que são bem específicas. Assim, talvez a solu-ção seja indexar estes documentos levando-se em conta assuas estruturas lógicas pois, normalmente, elas refletem commais clareza o conteúdo tratado no documento. Neste con-texto a indexação pode ser realizada à partir dos capítulos,seções, parágrafos, passagens, etc.

Estas considerações mostram que não existe uma re-gra única para a execução da atividade de indexação, a ma-neira segundo a qual um documento vai ser indexado deveser estabelecida nas políticas de indexação definidas pelasUnidades de Documentação. Estas políticas devem ser defi-nidas em função dos objetivos e da missão destes organis-mos, em função do perfil de seus clientes potenciais, e deveestar contida em um manual, de maneira que os indexadorespossam tomar conhecimentos das regras estabelecidas e pos-sam segui-las. Esta decisão poderá contribuir para reduzirde certa forma a subjetividade suscitada por esta atividade.

Em que concerne a indexação de documentosaudiovisuais, cujas características são o conteúdo (informa-ção), a mídia vetor deste conteúdo e o suporte de estocagem.Isto nos traz problemas, pois neste caso a indexação deman-da muito mais detalhes e muito mais informações do gênero:Quem? O quê? Como? Onde, Quando.... ? A maneira deindexar estes tipos de documentos coloca em jogo além dasinformações visuais, outros tipos de informações percebidaspor outros órgãos sensoriais desde que o sujeito conheça oconteúdo (CHELLAPPA, 1995). Segundo a professoraJohanna SMIT (1989) as dificuldades para a indexação dedocumentos audiovisuais resulta da tentativa de passagemda denotação (o que o documento mostra) para a conotação(o que é percebido pelo indexador). Então, como deve serfeita a indexação destes documentos? Levando-se em contaos objetos representados e suas formas? A percepção visual( cor) A cena? O acontecimento?

4 INDEXAÇÃO MANUAL

A indexação manual, chamada igualmente intelectualou humana, como o próprio nome o diz, é realizada pelos

humanos, sejam eles bibliotecários ou especialistas do (s)domínio (s) no qual (is) as bases de dados são consagradas.Este tipo de indexação se baseia, sobretudo, no julgamento,normalmente intuitivo, dos indexadores, em função do textoe do interesse para a sua comunidade de usuários.

Para realizar essa indexação, é preciso, inicialmente,analisar o conteúdo do documento, lendo-o não do inicio aofim, mas por partes, ou seja lendo suas estruturas lógicas.Por exemplo, a introdução, os capítulos, as seções, os pará-grafos, a conclusão e outras passagens consideradas impor-tantes. Esta análise pode ser estabelecida partindo-se dasestruturas fornecidas pelos autores ou pelos editores de do-cumentos ou ainda por uma segmentação proposta peloindexador. Em resumo, ela comporta a leitura de documen-tos a compreensão de seu conteúdo, a identificação e a sele-ção de conceitos para representar os elementos indicativosdeste conteúdo. Segundo FIDEL (1994), se faz necessárioconsiderar neste contexto dois aspectos: o documento pro-priamente, ou seja o seu lado objetivo e a razão ou motivopelo qual o documento poderá ser utilizado neste caso, osaspectos subjetivos. Aqui a indexação manual enfrenta umgrande problema: a dificuldade de escolher os conceitos quepodem melhor representar os elementos indicadores do con-teúdo do documento e, a subjetividade desta escolha, o quepode explicar os desacordos freqüentes entre os indexadoreshumanos.

Após esta análise, passa-se a uma segunda etapa, achamada tradução na qual os indexadores fazem uma com-paração entre os conceitos pré selecionados em línguagemnatural com os descritores das LD´s. Se esses conceitoscoincidirem com os das LD´s, eles poderão ser escolhidoscomo representantes dos elementos que fazem parte doconteúdo do documento. Na prática nós sabemos que, se osconceitos selecionados não coincidirem com os descritoresdas LD´s, mesmo assim os indexadores poderão os esco-lher. Esta decisão vai depender de seu conhecimento sobreo assunto, do seu conhecimento sobre o perfil dos usuári-os, da política de indexação adotada e, igualmente de suaexperiência no domínio da indexação.

A tradução é uma etapa bem complexa, à medida queela exige o seguimento de regras que foram definidas à priori,como por exemplo, os tesauros, as listas de autoridades, etc.Essas regras são consideradas como uma faca de dois gu-mes, pois se de um lado, elas parecem assegurar a qualidadeda indexação, no que diz respeito à desambiguisação daspalavras, a organização e normalização dos índice. De ou-tro, elas podem ser responsáveis pelo silêncio ou pelo ruídono momento da recuperação da informação. Assim, segundoFIDEL (1994), as experiências dos indexadores tem mostra-do que quando da etapa de tradução, é necessário levar emconsideração alguns questionamentos, entre os quais ela cita:

1) as fontes dos termos de indexação: em quais fontes devocabulários de indexação os indexadores podem se apoi-

Page 6: INDEXAÇÃO DOCUMENTÁRIA: UMA FORMA DE · PDF fileprocurei no “Alta Vista” e no “Yahoo”. Tive 193 respostas compostas pelas palavras “banco”, ... nos documentos, os seus

Rev. de Letras - N0. 22 - Vol. 1/2 - jan/dez. 200068

ar para escolher os termos que vão compor os índices ?Existem regras que limitam o indexador aos descritoresdos tesauros utilizados pelo sistema, e outras permitemque sejam utilizados os termos da língua natural;

2) a precisão: que grau de precisão o indexador pode utili-zar para traduzir os conceitos em termos de indexação?Os termos selecionados para o índice devem ser tão pre-cisos que substituam o conceito ou eles devem ter um sen-tido mais geral ?Ex.: Fruticultura tropical no semi-árido: manga e cajuEste documento deve ser indexado por:Frutas cítricas?Manga?Caju?

3) o peso: o peso relativo dos conceitos de um documentopode ser definido pelo indexador ? No exemplo anterior,qual conceito terá o peso maior?

4) a fidelidade: em que medida a tradução deve ser fiel ?Como ser fiel em uma tradução quando o conceito nãotem um descritor correspondente? O indexador poderá usaros termos aproximados ?Ex.: Ciência→ Científico

5) a linguagem do usuário: o indexador pode designar ostermos de um índice em uma linguagem mais próxima dado usuário ? Por exemplo, através dos seus perfis é possí-vel estabelecer regras que poderão lhes guiar na escolhados termos de indexação mais adequados aos seus ?Ex.: Dor de cabeça→Cefaléia

Estas interrogações são de fundamental importânciaquando do estabelecimento das políticas de indexação queserão adotadas pelas unidades de documentação. As solu-ções as questões 1, 2 e 5 são mais fáceis de ser resolvidas,porque elas são ligadas à tomada de decisão operacional. Aocontrário, as soluções às questões 3 e 4 não são fáceis a re-solver pois a definição do peso dos conceitos pertencentes aum documento implica em um processo subjetivo, portantodifícil a se colocar em prática. Com relação à fidelidade datradução dos conceitos que não possuem descritores equiva-lentes, talvez a solução seja conservar os conceitos, pois osdescritores considerados próximos certamente que não pos-suem o mesmo sentido.

Além destes entraves, a indexação manual apresentaoutras barreiras, entre as quais destacamos:

⇒ custo elevado; pois ela exige pessoal especializa-do e demanda muito tempo. Segundo BERTRAND(1994), o tempo médio de indexação de um docu-mento é de aproximadamente 30 minutos, podendovariar de 10 à 45 minutos, segundo as dificuldadesencontradas com relação à compreensão do conteú-do do documento ;⇒ fraca coerência intra e entre os indexadores; a co-erência na identificação dos conceitos e na escolhados termos de indexação, pelo mesmo indexador em

momentos diferentes de indexação, ou por outrosindexadores eqüivale a aproximadamente 30%(CLEVELAND, 1977);⇒ a dificuldade para escolher uma grande quantida-de de conceitos, normalmente, no processo deindexação manual a escolha dos conceitos não ultra-passa de 05 (cinco). Assim, muitos assuntos tratadosem um documento poderão não ser percebidos pelosindexadores, o que vai provocar um aumento do si-lêncio no momento da Recuperação da Informação.Na indexação manual, observamos que, se de um lado,

o indexador tem um grande poder de decisão na definiçãodos conceitos que representarão os elementos indicadoresdo conteúdo do documento, de outro lado, encontramos vá-rios inconvenientes os quais causam problemas que são difí-ceis a administrar por que:

⇒ nem sempre o indexador é especialista no domí-nio do(s) que ele indexa;⇒ nem sempre o indexador é especialista no domí-nio da indexação ;⇒ existem novos domínios do conhecimento poucocobertos ou ainda não cobertos pelas LD’s es-pecializadas;⇒ as inovações terminologias que se verificam emvários domínios do conhecimento exigem uma cons-tante atualização tanto por parte das LD’s, como pe-los indexadores. Conteúdo, o que se verifica é que narealidade, nem sempre os indexadores são treinadose/ou reciclados neste sentido, e muito menos as LD’ssão atualizadas.Embora a atividade de indexação manual pareça obje-

tiva e neutra, na realidade isto não é verdade, pois esta ativi-dade consiste em um trabalho de análise e síntese e, portan-to, tem uma forte carga cognitiva, à medida que ela demandauma compreensão do conteúdo do documento, a extração doselementos correspondentes a este conteúdo, a representa-ção destes elementos e a sua organização em forma de índi-ces. Sendo naturalmente uma atividade subjetiva, ela é influ-enciada pelos conhecimentos sobre o domínio do documen-to, pelas experiências do indexador, pelo conhecimento daatividade de indexação, pelo meio ambiente onde se realiza aindexação, entre outros. Assim ela não poderá ser desprovi-da da neutralidade, mesmo que seja desejável.

Outra observação no que diz respeito a indexação ma-nual, é que, apesar da evolução da indexação semi-automáticae automática, elas não excluíram esta prática. Assim, mesmoconsiderada como obsoleta para uns, a indexação manual éainda utilizada tanto nos países do chamado primeiro mundocomo nos do terceiro. Ora, se este tipo de indexação ainda éutilizada nos países grande produtores e consumidores de re-cursos informáticos é, principalmente, por dois motivos:

⇒ porque a indexação semi-automática e automáticanão oferecem respostas totalmente satisfatórias nomomento da recuperação da informação;

Page 7: INDEXAÇÃO DOCUMENTÁRIA: UMA FORMA DE · PDF fileprocurei no “Alta Vista” e no “Yahoo”. Tive 193 respostas compostas pelas palavras “banco”, ... nos documentos, os seus

Rev. de Letras - N0. 22 - Vol. 1/2 - jan/dez. 2000 69

⇒ porque os sistemas de indexação automática ain-da não atingem 100 % das unidades de documenta-ção desses países.

5 CONCLUSÕES

Nossa problemática, neste trabalho, foi apresentar oestado da arte da indexação, mostrando o seu conceito, as-sim como a sua prática.

Nós observamos que graças à interdisciplinaridadeda ciência da informação, notadamente, com a informática,a estatística, a lingüística, e a psicologia cognitiva, o campoda indexação vem evoluindo bastante. Essa evolução é bemconhecida através da literatura quando observamos que ini-cialmente, as experiências foram calcadas em uma práticamanual simples e de forma intuitiva, cujo o objetivo era for-necer um conjunto de palavras que fossem capazes de ofere-cer algumas pistas para o usuário encontrar o documento queele tinha necessidade.

Salientamos ainda, que a indexação coloca em cenatrês atores: o autor do documento, o indexador e o usuário.Consequentemente, para cada um a noção de pertinênciainformacional será percebida diferentemente segundo as suasexperiências, os interesses de cada um no momento da pro-dução ou de leitura do texto. Assim a cobertura dos con-ceitos escolhidos para representar os elementos do conteúdodo documento, não podem certamente chegar a 100%. Poisesta indexação nem sempre é feita de maneira exaustiva, por-tanto, certas partes do documento não são levadas em consi-deração. Assim, ela vai provocar a perda de certas informa-ções, o que contribui para aumentar o silencio. No queconcerne ao indexador e ao usuário, é desejável que a taxade cobertura dos termos seja ótima pois isto vai influenciar apertinência das respostas fornecidas no momento da recupe-ração da informação.

Assim, qualquer que seja o método de indexação uti-lizado, manual, semi-automático e automático, a indexação,através dos componentes do índice, deverá permitir aos cli-entes o acesso ao documento que contém a informação queele necessita. Seu resultado se constituirá em um dispositivochave entre o documento primário a ser lido e compreendidoe um documento secundário (índice) a ser constituído, demaneira tal que a representação dos elementos indicadoresdo conteúdo do primeiro sejam encontrados no segundo do-cumento de maneira mais completa e fiel possível. Pois éeste documento índice que, durante a busca de informação,vai oferecer « pistas » para que o usuário possa decidir, semver o documento primário, se ele vai considera-lo ou não,como possível para responder à sua necessidade. Portanto, aatividade de indexação visando a representação dos elemen-tos do conteúdo de documentos é calcada em dois objeti-vos fundamentais:

⇒ um teórico: estabelecer os mecanismos para aelaboração dos índices ;⇒ outro operacional: possibilitar a busca e a recu-peração da informação.Para finalizar, lembramos que a indexação docu-

mentária é uma atividade que pode ser aplicada aos documen-tos textuais, visuais, sonoros, pictóricos, multimídia, etc.

6 REFERÊNCIAS BILBIGRÁFICAS

1. BENTES PINTO, V. (1999) La representation desconnaissances dans le contexte de la documentationtechnique: proposition d’un modèle d’indexation.Grenoble, (Thèse de doctorat, Université StendhalGrenoble-3).

2. BERTRAND, A. (1993) Comprehension et catego-risation dans une activité complexe: indexation dedocuments scientifiques. Toulouse, (Thèse dedoctorat, Université de Toulouse).

3. BOUGNOUX, D. (1993) Sciences de l’information etde la communication. Paris, Larousse, .

4. CHAUMIER, J. (1990) L’indexation documentaire; del’analyse conceptuelle humaine à l’analyseautomatique morphosyntaxique. Documentaliste,vol.27, n.6., p.275-284, nov.dec.

5. CHELLAPPA, R. (1995) Human and machine recognitionof faces: a survey. Proc. of. the IEEE, v.83, n. 5, may.

6. FIDEL, R.. (1994) User-centered indexing. JASIS, v.45,n.8, p.572-576.

7. GARDIN, J. C. (1974) Les analyses des discours.Neuchatel, Delachaux et Nestlé.

8. KURAMOTO, H. (1999) Proposition d’un système derecherche d’information assisté par ordinateur,avec application à la langue portugaise. Lyon.(Thèse de Doctorat l’Université Lumiére).

8. LALLICH BOIDIN, G. (1986) Analyse syntaxiqueautomatique du fraçais application à l’indexationautomatique. Grenoble. (Thèse de doctorat Uni-versité des Sciences Sociales de Grenoble).

9.LANCASTER, F. W. (1991) Indexing and abstracting intheory and practice.London, Library Association.

10. _____. (1979) Information retrieval system charac-teristies, testing end evolution. New York, JohnWiley, 381p. cap.1, p.1-14.

11. LE GUERN, M. (1991) Un alalyseur morpho-syntaxiquepour l’indexation automatique. Le français moderne.v.59, n.1, p.22-35.

12. LEVY, P. (1997) L’intelligence collective: pour uneanthropologie du cyperspace. Paris, Découverte/Poche, p.21-24.

13. SOERGEL, D. (1994) Indexing and retrieval performance:the logiciel evidence. JASIS, v.45, n.8, p.589-599.