Instituto Superior de Línguas e Administração
Pós-graduação
Gestão de Bibliotecas Escolares
A distância
Indexação
Trabalho 2
Dina Cordeiro
Fernanda Picão
Isabel Silva
Patrícia Marques
Vera Saraiva
Março de 2014
Trabalho 1 – Indexação 2
I – As linguagens documentais
a) Defina linguagem documental. Descreva, por palavras suas, as características
que a distinguem da linguagem natural.
Se a Linguagem Natural está intrinsecamente ligada à construção do pensamento e à
necessidade de expressão, é esta a linguagem usada para a comunicação verbal entre
suas pessoas. A linguagem documental é aquela que procura descrever o conteúdo dos
documentos, de uma forma artificial, convencional e controlada, permitindo o arquivo
da informação e posterior recuperação da mesma, o que possibilita ultrapassar os riscos
de dispersão, incoerência e ambiguidade inerentes à linguagem natural.
A linguagem documental possui três características que a distingue da linguagem
natural: Artificial ou subordinada a regras próprias utilizadas em contexto específico,
pois representa conceitos através do uso de símbolos alfabéticos ou numéricos;
Controlada, com o objetivo de evitar ambiguidades na representação de conceitos,
centrando-se, assim, num único termo de indexação cujo significado seja claro/distinto e
não permita interpretações diversas; Convencional, com vista à partilha útil e unívoca
de conteúdos bibliográficos entre bibliotecas, sendo portanto convencional e também
normativa, pois faz uso de símbolos ou códigos alfabéticos, numéricos ou
alfanuméricos.
Figura 1 – Linguagem documental versus Linguagem natural
Trabalho 1 – Indexação 3
b1) As linguagens documentais são tipificadas de acordo com três critérios,
segundo Gil Urdician. Quais são esses critérios?
São três os critérios de tipificação das linguagens documentais, a saber: de controlo
sobre o vocabulário; da coordenação dos termos; da estrutura, como se pode ver na
figura 2.
Figura 2 – Linguagens documentais segundo Gil Urdician
b2) Que tipo de linguagens documentais conhece?
Os dois primeiros tipos de linguagens documentais que apareceram em finais do século
XIX designam-se de classificações universais ou sistemas para organização do
conhecimento, pois incluem um conjunto de esquemas que organizam, gerem e
recuperam a informação; são elas, a Classificação Decimal de Dewey e a Classificação
Decimal Universal. Estas duas classificações são hierárquicas e preveem a organização
sistemática do conhecimento. No entanto, a classificação CDD é marcadamente
enumerativa, enquanto que a CDU, é marcadamente sintética, tendo esta um maior
suporte a nível das ferramentas da gestão documental (SLAVIC, 2000:7). Estas
classificações, que seguem os princípios da pré-coordenação, podem ser tipificadas de
acordo com a figura 3.
Trabalho 1 – Indexação 4
Figura 3 – Linguagens documentais CDD e CDU
As linguagens vocabulares, terminológicas ou combinatórias surgem, igualmente, nos
finais do século XIX, com a utilização da primeira lista de cabeçalhos de assunto ou
lista de encabeçamento de matérias e serviram de base concetual ao SIPORbase. Os
tesauros aparecem apenas em meados do século XX (anos 50) com uma linguagem que,
embora controlada, era mais próxima da linguagem natural e uma resposta adequada às
necessidades da explosão e informatização documental.
b3) Como professor bibliotecário com qual/quais as linguagens documentais que
trabalha?
A Professora Bibliotecária do nosso grupo utiliza a Classificação Decimal Universal,
que é aquela com que nós, enquanto utilizadores da BE, também tomamos contacto.
c) Qual a fase do processo de indexação em que as linguagens documentais
intervêm? Justifique a sua afirmação.
São três as fases de indexação: Análise e compreensão do texto e do seu conteúdo
informativo; Representação verbal do conteúdo informativo, identificação e seleção dos
conceitos; Tradução ou representação desses conceitos na linguagem documental.
As linguagens documentais intervêm quando pretendemos pesquisar sobre um tema ou
um assunto e, assim, responder à seguinte questão: Qual é o assunto deste documento?
Deste modo, recorremos às linguagens documentais na terceira fase do processo de
indexação, ou seja, na tradução dos conceitos escolhidos em termos de linguagem
documental, como se pode observar, de forma esquemática, na figura 4.
Trabalho 1 – Indexação 5
Figura 4 – Fases do processo de indexação
d) As linguagens documentais ou de indexação caraterizam-se pelo seu vocabulário
controlado que pretende obviar um conjunto de situações que geram ambiguidade
na comunicação. Identifique essas situações e dê alguns exemplos.
Sendo a linguagem de indexação um “conjunto controlado de termos escolhidos numa
linguagem natural…”, segundo a NP 4036 (1992), é por isso que surgem, com
frequência, obstáculos linguísticos à prática documental (aquando do uso controlado de
uma linguagem terminológica).
Os obstáculos linguísticos mais frequentes são diversos, a saber: Sinonímia; Polissemia;
Homonímia; Homografia; Homofonia; Singular e Plural; os quais se encontram
devidamente identificados no esquema abaixo.
Figura 5 – Obstáculos linguísticos frequentes à prática documental
Trabalho 1 – Indexação 6
e) O controlo do vocabulário deve ser estabelecido a dois níveis. Identifique-os e
justifique essa necessidade.
O controlo do vocabulário documental tem como objetivo a elaboração de termos numa
linguagem controlada, por oposição à linguagem natural. Este controlo faz-se em dois
níveis essenciais, a forma dos termos (nível formal) e o seu significado (nível
semântico). Esta normalização pretende, através do controlo vocabular, contornar
ambiguidades inerentes à linguagem natural, tais como as questões de sinonímia e
homonímia, dos singulares e plurais.
f) Defina relação semântica. Identifique e defina as que conheces.
As relações semânticas devem ser controladas ou mostradas nas linguagens de
indexação, com o objetivo de se indicarem os termos alternativos de indexação e
pesquisa. Estas relações podem ser de três tipos: de equivalência, hierárquicas e
associativas.
As relações semânticas de equivalência são assimétricas e irreversíveis e têm como
objetivo o controlo da sinonímia. As relações semânticas hierárquicas são recíprocas e
assimétricas, pois estruturam-se segundo graus/níveis de superioridade ou de
subordinação, em três tipos: relação genérica; relação partitiva ou todo/parte; relação de
instância. As relações semânticas associativas, que são recíprocas e simétricas, dizem
respeito às relações entre pares de termos mentalmente associados, mas que não
pertencem a um mesmo conjunto de equivalência.
II – OS TESAUROS
a) Defina tesauro.
São várias as definições de tesauros, como, por exemplo: “vocabulário controlado de
termos com relações semânticas abrangendo um ou vários domínios particulares do
conhecimento” (NP 4285-4, 2000, p.5) ou “vocabulário de uma linguagem de indexação
controlada, organizado formalmente de maneira a explicitar as relações estabelecidas a
priori entre os conceitos” (NP 4036, 1992, p.5).
Os tesauros são, portanto, listas de termos autorizados, em cada domínio particular do
conhecimento, relacionados entre si de forma logica e semântica. Os tesauros utilizam-
se na fase de caraterização do conteúdo de um documento e na fase de resposta às
questões de busca dos utilizadores. Conclui-se que a função dos tesauros é a
intermediação entre documentos e os utilizadores. Assim, os tesauros são construídos
Trabalho 1 – Indexação 7
segundo o princípio combinatório, baseado na combinação de termos, utilizando os
operadores booleanos (AND; OR; NOT) quando se realiza a pesquisa.
O termo "thesauros", com origem no termo grego "thesaurós" que significa “tesouro ou
repositório”, popularizou –se com a publicação do dicionário analógico de Peter Mark
Roget, em 1852, denominado de "Thesaurus of English words and phrases". A
designação de "thesaurus" prende-se com o facto de este também designar vocabulário,
dicionário ou léxico. Assim o thesaurus de Roget era um vocabulário organizado
segundo o significado dos termos.
No entanto, desde Roget até aos nossos dias, o conceito e conteúdo de um tesauro
evoluiu, e segundo Currás (1995, citado por Moreira, Oliveira & Alvarega, 2004), trata-
se de uma linguagem especializada (do domínio das ciências da documentação),
normalizada ou controlada, pós-coordenada, pois os termos são combinados no
momento do seu uso. É composta por termos linguísticos simples e
compostos relacionados entre si sintática e semanticamente.
Os tesauros evoluíram em duas frentes: A abordagem alfabética (Unitermo) originária
da América do Norte; A linha da classificação bibliográfica (Teoria da Classificação
Facetada) da Europa. Mais recentemente, surge a linha dos tesauros-com-base-em-
conceitos, também denominado de tesauros terminológicos.
b) Quais são as funções de um tesauro?
As funções de um tesauro são a normalização do vocabulário, indução e representação.
A normalização do vocabulário ou unificação do léxico num tesauro é feita a partir da
construção das listas de termos autorizados, segundo cada área particular do
conhecimento, relacionados entre si de forma lógica e semântica. A segunda função é a
indução, pois o tesauro permite identificar, de forma sistematizada, todas as alternativas
possíveis de entradas, para uma eficaz recuperação de informação numa pesquisa. Já a
função de representação que o tesauros encerra, decorre da correspondência entre os
descritores (termos de indexação de um tesauro) e os conceitos presentes nos
documentos, pois permite que o indexador identifique os termos representativos dos
assuntos de um documento e os traduza para termos permitidos do tesauro.
As funções de um tesauro encontram-se esquematizadas na figura abaixo apresentada.
Trabalho 1 – Indexação 8
Figura 6 - Funções de um tesauro
c) Qual é a composição de um tesauro?
Um tesauro é constituído por unidades lexicais (os descritores e os não-descritores ou
termos equivalentes) e relações semânticas (de equivalência, hierárquicas e
associativas).
Um Tesauro é composto por unidades lexicais, identificadoras de uma unidade
concetual, cujas entradas são individuais e ordenadas de acordo com as suas relações
recíprocas, acrescidas de notas explicativas.
Para representar unidades conceituais num Tesauro usam-se descritores, não-descritores
(palavras ou termos empregados para remeter a um equivalente, utilizado em um
Tesauro), qualificadores (símbolo ou palavra diferenciadora de significados ou que
poderá ajudar a precisar a utilização do termos num determinado contexto) e
modificadores (adjetivo ou frase que se adiciona ao núcleo para expressar um conceito
diferente, precisando ou delimitando seu alcance).
Num Tesauro estabelecem-se relações entre conceitos, definidas por: relações de
equivalência, relações hierárquicas, relações partitivas e relações associativas. As
primeiras, relações de equivalência, criam-se quando um conceito é expresso por dois
ou mais termos e se seleciona um deles como sendo o “preferido”. Já as segundas
relações, designadas de hierárquicas, surgem quando temos dois termos diferentes
Trabalho 1 – Indexação 9
com características idênticas, em que um deles é mais amplo ou extenso que o outro.
Finalmente, as relações associativas surgem quando se unem dois termos, não
equivalentes nem hierárquicos, com conotações diferentes mas proximidade de
significados no contexto do universo de referência (Exemplo: Estudo/Investigação;
Estudo/escola; Estudo/Universidade).
d) O que entende por descritor?
A NP 4285-4 (2000:5) define descritor – termo de um tesauro que pode ser utilizado
para representar um conceito de um documento ou de uma pesquisa bibliográfica. Por
seu lado, a NP 4036 (1992:5) define tesauro como “vocabulário de uma linguagem de
indexação controlada, organizado formalmente de maneira a explicitar as relações a
priori entre os conceitos (por exemplo, relação genérica e específica)”.
Descritor é o termo de indexação, ou conjunto e palavras, que representa de forma
unívoca uma unidade concetual e é definido como preferencial (um único). Já os termos
não preferenciais, sinónimos dos termos definidos como descritores, designam-se de
não descritores.
e) Tipifique os descritores.
Os descritores podem ser tipificados quanto à sua carga informativa, ao seu conteúdo e
à composição. Em relação à sua carga informativa, podem ser primários (usa um único
termo, apresentando o conceito de forma unívoca) e secundários (usam termos
compostos para representar conceitos). Quanto ao seu conteúdo, estes podem ser
onomásticos (referem-se ao nome de uma pessoa individual ou coletiva), geográficos
(representam conceitos de âmbito geográfico), materiais ou temáticos (representam
entidades concretas e abstratas) e cronológicos (associados a um espaço de tempo.
Quanto à composição, os descritores podem ser simples (recorrem a uma única palavra)
e compostos (recorrem a um grupo de palavras - sintagmas - para designar os
conceitos).
f) Num tesauro os descritores podem ser apresentados de diferentes formas.
Identifique cada uma delas e exemplifique.
Um tesauros pode ser apresentado de forma alfabética, sistemática ou gráfica.
Na apresentação alfabética, todos os termos, descritores e não-descritores, estão
organizados numa sequência alfabética única. Sendo que os não descritores são
acompanhados pela referência USE que os remete para o descritor. As informações de
Trabalho 1 – Indexação 10
um descritor devem estar enunciadas segundo uma ordem: NE ou (SN); UP ou (UF);
TT; TG ou (BT); TE ou (NT); TR ou (RT).
No exemplo da figura abaixo, fizemos uma pesquisa, no tesauro FORMEI, por
Educação de adultos, e surgiram as informações do descritor pela seguinte ordem: NE,
notas explicativas; UP, com a indicação e um não descritor, Formação de adultos, que é
um termo relacionado com o da pesquisa, mas não preferencial e portanto não descritor;
Não tem TC, pois também não é obrigatório; TG, com a indicação dos termos
genéricos, Educação; TE, com a indicação dos termos específicos, mais precisamente
Educação da mulher, Educação dos trabalhadores, Educação informal e Educação não-
formal; TR, indicação dos termos relacionados que são neste exemplo, autoajuda,
educação permanente e formação profissional.
Figura 7 – Apresentação alfabética do termo “Formação de adultos” no tesauro FORMEI
Relativamente à apresentação sistemática, um tesauro em que os termos estejam
organizados sistematicamente deve conter categorias ou hierarquias de termos, segundo
o seu significado, relações lógicas e índice alfabético que direciona o utilizador para o
local apropriado da apresentação sistemática. Com este tipo de apresentação, a parte
sistemática é muitas vezes considerada como a parte principal do tesauro, isto é, a que
contém a maior quantidade de informação definidora e relacional. A organização
primária de um tesauro sistemático pode obedecer a diferentes formas de organização:
Organização em domínios ou disciplinas; Organização em facetas; Combinação das
Trabalho 1 – Indexação 11
duas anteriores. Exemplo de organização em domínios: neste tipo de organização,
começa-se por organizar o universo dos conhecimentos em classes principais e depois
em subclasses, como se pode ver no exemplo abaixo:
No Eurovoc, escolhemos Ciências e educação em português e, por exemplo, para o
descritor “atividade escolar”, temos o seguinte:
Figura 8 – Apresentação sistemática do termo “Ciências e educação” em português, no
tesauro Eurovoc
Já numa organização por facetas, os termos são organizados em classes ou conjuntos,
segundo as noções que representam, sem ter em conta o ou os domínios com o qual ou
os quais a noção é habitualmente associada. É aplicável a qualquer área do
conhecimento.
A combinação dos dois tipos de organização pode ser feita de diversas formas, como,
por exemplo, a organização primária definida por domínios e, em seguida, subdividido
segundo as facetas.
Na apresentação gráfica, os termos de indexação e as suas relações são dispostas numa
figura a duas dimensões, que permite ao indexador ou utilizador dispor de toda uma
gama de termos e suas relações. Existem várias formas de apresentação gráfica, sendo
os dois tipos principais: Estrutura arborescente (NP 4036, 1992:43); Esquema em flecha
(NP 4036, 1992:45)
Um tesauro que inclua uma apresentação gráfica deve comportar duas partes:
Apresentação gráfica (limitada aos descritores); Índice alfabético (contém as notas
explicativas e relações de equivalência, podendo também incluir as relações
hierárquicas e associativas).
Trabalho 1 – Indexação 12
A partir do descritor bebida, temos os seguintes não descritores e a apresentação gráfica
dos termos de indexação, abaixo indicada na figura 9.
Bebida
Bebida hídrica
Bebida hídrica natural
Água potável
Água mineral
Bebida hídrica artificial
Bebida estimulante
Bebida láctea
g) Realize uma pesquisa na Internet e identifique alguns tesauros disponíveis.
Selecione e copie três endereços de páginas Web que contenham tesauros. Escolha
um desses tesauros, explore-o, realize pesquisas e justifique a preferência.
Tesauro SPINES
O Tesauro SPINES foi elaborado no âmbito de um programa da Unesco (1972) e
destinava-se à implantação de um sistema internacional de intercâmbio de informações
no campo da política científica e tecnológica. A presente versão preliminar, em língua
portuguesa, foi realizada a partir de um trabalho conjunto que envolveu diversas
instituições.
Links:
livroaberto.ibict.br/bitstream/1/999/5/Tesauro%20Spines.pdf
ou
Figura 9 – Apresentação gráfica do termo bebida num tesauro
Trabalho 1 – Indexação 13
http://livroaberto.ibict.br/handle/1/999
Thesaurus Brasileiro da Educação
O Thesaurus Brasileiro da Educação (Brased) é um vocabulário controlado que reúne
termos e conceitos, a partir de documentos analisados no Centro de Informação e
Biblioteca em Educação (Cibec), relacionados entre si a partir da estrutura concetual na
área da educação.
Link
http://portal.inep.gov.br/pesquisa-thesaurus
Tesauro FORMEI
O Tesauro FORMEI visa uniformizar as práticas de indexação dos Centros de
Recursos em Conhecimento que integram a Base FORMEI, servindo, também, como
ponto de acesso dos utilizares aos documentos disponíveis no catálogo.
Na base FORMEI encontram-se referências bibliográficas de monografias,
publicações periódicas, documentos audiovisuais e em suporte eletrónico. Atualmente
integra as seguintes áreas temáticas: Formação, Emprego, Educação, Inovação, Higiene
e Segurança no Trabalho, Segurança Social e Gestão.
Link
http://www.crcvirtual.org/upload/imgs/TESAUROFinal..pdf
Escolhemos este tesauro porque, uma vez que estamos a tirar uma PG em Gestão de
Bibliotecas Escolares, este trata de indexação em Centros de Recursos e Conhecimento
e, como somos professoras/ formadoras, tem tudo a ver connosco.
A pesquisa através do tesauro surge como mais um ponto de acesso aos documentos, na
página inicial do módulo de pesquisa através da Internet, atualmente disponível em
http://opac.iefp.pt:8082/winlib/winlib.aspx?&pesq=6.
A formulação da pesquisa pode ser por palavra, por expressão, por cada palavra dentro
da expressão, por todas as palavras dentro da expressão. Para se ver as relações do
termo pesquisado, deve ser selecionada, em formato, a opção termo. Doutra forma,
serão apresentados apenas os descritores que correspondem à pesquisa por ordem
alfabética. Para se aceder à listagem dos registos indexados por esse termo, basta clicar
no símbolo colocado à direita de cada descritor.
Exemplo de uma apresentação “hierárquica” a partir do termo educação:
Trabalho 1 – Indexação 14
Em relação à educação relacionada com o ambiente físico, obtemos:
Figura 10 – Apresentação hierárquica do termo educação no tesauro FORMEI
Figura 11 – Descritores de educação relacionados com o ambiente físico
Trabalho 1 – Indexação 15
Para os termos relacionados com educação obtêm-se os descritores da figura 12 abaixo.
Quando há dúvidas quanto à forma singular ou plural do termo que se pretende
pesquisar, basta usar o singular que o sistema apresenta também os descritores que
tenham uma forma plural, desde que este seja formado regularmente.
Figura 13 – Singular remete para o plural
No caso de plurais irregulares, pode digitar-se apenas a parte do termo que é comum,
substituindo o restante por um asterisco * (truncatura à direita). O mesmo método deve
Figura 12 – Termos relacionados com educação
Trabalho 1 – Indexação 16
ser utilizado quando se pretende pesquisar termos que tenham uma raiz comum.
Figura 14 – Como pesquisar plurais irregulares
Uma das dúvidas muito frequentes, quando se usam expressões de pesquisa, refere-se
aos elementos de ligação dos termos (preposições ou contrações de proposições com
pronomes). Nestes casos, deve usar-se também um asterisco em substituição desse
elemento. O sistema recuperará todas as ocorrências independentemente da forma como
estão ligados.
Referências Bibliográficas
Moreira, A., Alvarenga, L., & Oliveira, A. d. (Dezembro de 2004). O nível do
conhecimento e os instrumentos de representação: tesauros e ontologias. Obtido
em 28 de Março de 2014, de DataGramaZero:
http://www.dgz.org.br/dez04/Art_01.htm
NP 3485 - 4. (2000). Documentação e informação Vocabulário Parte 4: Linguagens
documentais. Lisboa: IPQ.
NP 4036 - 1992. (1992). Documentação: Tesauros monolingues: diretrizes para a sua
construção e desenvolvimento. Lisboa: IPQ.