115
MINISTÉRIO DO EXÉRCITO DEP - OPET TESE DE MESTRADO ESTUDO E CORREÇÃO DE DISTORÇÕES EM UM SISTEMA DE DISSEMINAÇÃO SELETIVA DE INFORMAÇÕES Cap Luiz Otávio de Freitas Queiroz

TESE DE MESTRADO - inis.iaea.org

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

MINISTÉRIO DO EXÉRCITO

DEP - OPET

TESE DE MESTRADO

ESTUDO E CORREÇÃO DE DISTORÇÕES EM UM

SISTEMA DE DISSEMINAÇÃO SELETIVA

DE INFORMAÇÕES

Cap Luiz Otávio de Freitas Queiroz

INSTITUTO MILITAR DE ENGENHARIA

ESTUDO E CORREÇÃO DE DISTORÇÕES EM UM SISTEMA

DE DISSEMINAÇÃO SELETIVA DE INFORMAÇÕES

POR

LUIZ OTÁVIO DE FREITAS QUEIROZ

TESE SUBMETIDA

COMO REQUISITO PARCIAL

PARA A OBTENÇÃO DO GRAU DE

MESTRE EM CIÊNCIAS

Assinatura do Orientador da Tese

Rio de Janeiro, RJ

Março, 1978

à Nilsa, Esposa e Companheira

AGRADECIMENTOS

Ao professor Altair Carvalho de Souza, pela orienta-

ção, estimulo e confiança demonstrada ao longo do desenvoj^

vimer. to deste trabalho.

Ao Dr. Ivano Humbert MacheiÉi, diretor do CTN, pela

gentileza em franquear o acesso as instalações do Centro e

a seu acervo de informações.

Ao analista José Augusto Alves Berna^hi, do CIN, pe_

Ia colaboração prestada ao transmitir-me as miaucias do

sistema e ao modificar seus programas de computador quando

necessário ao desenvolvimento desta tese.

Aos professores do IME que me proporcionaram esta

nova fronteira de conhecimentos.

Aos funcionários e colegas do CIN e do IME pelas su

gestões, apoio e espirito de camaradagem com que rne distin.

gui ram.

SUMARIO

Apresentou-se o sistema de SDI do CIN/CNEK e defi

niram-se parâmetros do avaliação, de desempenho e do dis-

torção, que foram quantificados para uma amostra de 35 u -

suãrios e de 25.818 documentos.

Foram analisados possíveis fatores de distorção e

selecionados alguns passíveis de processamento automático.

De terninaram-se dois algoritmos que foram aplicados aos

perfis da amostra e que novas quantificações dos pararae -

tros demonstraram terem reduzido as distorções e aumentado

a eficiência.

Aspectos sensíveis do sistema foram identificados e

sugeriram-se novos estudos abrangendo tópicos pesquisados

superficialmente no trabalho.

111

ABSTRACT

The Selective Dissemination of Information (S D I)

system of CIN/CNEN was presented, and some parameters, for

the evaluation of performance and distortion^ were defi-

ned. These parameters were quantified for a sample of 35

user's profiLes and 25.818 documents.

Possible distortion factors were analysed, and some

were selected /so that they could be automatically processed.

The 35 profiles were up-dated by use of two algorithms de_

veloped for this purpose. For the up-dated profiles new

values of the parameters were determined and showed that

distortion decreased and efficiency improved.

Critical points of the system were identified and

new studies, on topics investigated superficially, were

proposed . > <•'< \ r. t;

IV

ÍNDICE

P a r, •

SUMÁRIO i i i-

ABSTRACT i v

LISTA DE ILUSTRAÇÕES ix

I - SISTEMAS DE DISSEMINAÇÃO SELETIVA DE INFORMA

ÇÕES - SDI

1 .1 - I n t r o d u ç ã o 1

1 .2 - C o n c e i t o s B á s i c o s 2

1.2.1 - Modelo Matemático 2

1.2.2 - Exaustividade e Especificiadade de

Indexação 5

1.2.3 - Relevância e Pertinência 6

1.2.4 - Coordenação e Afinidade de Descrito

res 7

1.2.5 - Parâmetros de Avaliação de Desempe-

nho 9

1.3 - 0 INIS - International Nuclear Informa

tion System 12

1.4 - O SDI/CIN/CNEN 12

1.4.1 - 0 Thesaurus 13

1.4.1.1 - 0 Mini thesaurus 16

1.4.2 - Os Documentos 17

1.4.3 - Os Usuários 18

1.4.4 - Algoritmo de Seleção 21

Pag.

II - DISTORÇÕES DO SDI/CIN/CNEN

2 . 1 - I n t r o d u ç a o 2 4

2 . 2 - A A m o s t r a 2 5

2 . 3 - P a r â m e t r o s de D i s t o r ç ã o 26

2 . 3 . 1 - A R e l e v â n c i a 26

2 . 3 . 2 - A R e c u p e r a ç ã o 28

2 . 3 . 3 - A I n c e r t e z a 30

2 . 3 . 4 - A I n v e r s ã o 31

2 . 4 - 0 P a r â m e t r o E f i c á c i a 36

2 . 5 - V a l o r e s dos P a r â m e t r o s de D i s t o r ç ã o e

de E f i c á c i a 38

I I I - ANALISE DOS FATORES DE DISTORÇÃO

3 . 1 - Introdução 41

3.2 - Indexação de Documentos 4 3

3 . 3 - M i n i t h e s a u r u s 45

3 . 4 - A l g o r i t m o de S e l e ç ã o 46

3.5 - P a t a m a r d e C o r t e 50

3 .6 - P e r f i l I n i c i a l do U s u á r i o 51

3.7 - I t e r a ç ã o dos U s u á r i o s com o Sistema 53

3.8 - Aspectos Ligados Na Arquitetura do Si_s_

tema 5 3

vi

Pag.

IV - REDUÇÃO DE DISTORÇÕES DO SDI/CIN/CNEN

4.1 - I n t r o d u ç ã o 56

4.2 - Procedimentos Adotados na Redução de

Dis torções 5 7

4 . 2 . 1 - E l i m i n a ç ã o de A r e a s 5 7

4 . 2 . 1 . 1 - I n f l u e n c i a da C l i n i n a ç a o de A

rens 5 9

4 . 2 . 2 - V, 1 i n i i n a ç a o d e D e s c r i t o r e s I r r e l e -

vantes 60

4 . 2 . 2 . 1 - Inf luência da Eliminação de

Descri tores 64

4 .2 .3 - Introdução de Descr i tores no P e r f i l 66

4 . 2 . 3 . 1 - Inf luência da Introdução de De£

c r i t o r e s 68

4.2.4 - Alteração de Peso de Descritores 69

4.2.4.1 - Influencia da Alteração de Peso

de Des cri tore s 71

4.2.5 - Elevação do Patamar de Corte 7 3

4.3 - Algoritmo I de Redução de Distorções e

Resultados Obtidos 75

4.4 - Extensão do Algoritmo I e Resultados

Obtidos 82

4.5 - Comparação dos Resultados Obtidos com

os dois Algoritmos 89

vi i

V - CONCLUSÃO

5.1 - Considerações finais

5.2 - Distorções - Novos Estudos Sugeridos

VI 1 1

LISTA DE ILUSTRAÇÕES

Pag.

Figura 1 - Partição do conjunto de documentos 10

Figura 2 - 0 efeito inversão 32

Figura 3 - Tendência dos parâmetros de disto_r

çao ao se alterar o vetor de ava

liaçao 34

Figura 4 - Curvas de eficácia num grafico PxR

para diferentes valores de a 37

Figura 5 - Valores dos parâmetros de distorção

e de eficácia por Perfil I no con-

junto dos envios 40

Figura 6 - Valores dos parametros de distor -

çao e de eficácia por envio para o

conjunto dos Perfil I 40

Figurí7. 7 - Perfis que tiveram areas elimina -

das 58

Figura 8 - Perfis com descritores incluídos e

/ou eliminados 62

ix

Pag.

Figura 9 - Valores dos parâmetros de distorção

e de eficácia por Perfil II no con_

junto dos envios 77

Figura 10 - Valores dos parâmetros de distorção

e de eficácia por envio para o con

junto dos Perfis II 77

Figura 11 - Perfis que sofreram redução era P e

/ou R utilizando-se o Perfil II 78

Figura 12 - Grupos de Perfis II com redução de P

e/ou R provocada pelas mesmas cau-

sas 79

Figura 13 - Valores dos parâmetros de distorção

e de eficácia por Perfil III no con

junto dos envios 84

Figura 14 - Valores dos parâmetros de distorção

e de eficácia por envio para o con

junto dos Perfis III 84

Figura 15 - Perfis que sofreram redução em P e

/ou R utilizando-se o Perfil III 85

Figura 16 - Grupos de Perfis III com redução de

P e/ou R provocada pelas mesmas causas 86

CAPITULO I

SISTEMAS DE DISSEMINAÇÃO SELETIVA

DE INFORMAÇÕES - SDI

1.1 - Introdução

0 crescimento exponencial da produção de informações

cienti fico-tecnológicas nas últimas décadas tornou impera-

tiva a evolução acelerada de métodos e técnicas de coleta,

armazenamento, recuperação e disseminação de informações .

A aplicação de tais métodos e técnicas na implementação e

desenvolvimento de sistemas de SDI , que sejam eficientes

e eficazes, têm demandado um grande esforço dos centros de

informação a fim de viabilizar o acesso fácil a todo este

trabalho produtivo, pela comunidade cientifica.

Os sistemas de Disseminação Seletiva de Informações

(SDI) enviam periodicamente aos usuários do serviço, infojr

mações sobre os documentos recém incorporados e julgados de

particular interesse. 0 sistema ideal recuperaria para

cada usuário todas as informações pertinentes e apenas es_

tas. Contudo perturbações causadas por fatores diversos

introduzem distorções no sistema, comprometendo seu desem-

penho e dificultando sua operação ideal. Entre estas di£

torções salienta-se o efeito denominado inversão: inforina

ções selecionadas pelo sistema com elevado grau de simil£

-1-

-2-

ridade coro o perfil de interesse do usuário são avaliadas

por este como menos relevantes que outras selecionadas com

menor grau de similaridade.

Esta tese está voltada para a identificação e anãli^

se dos principais fatores de distorções de um SDI e apre

sentação de procedimentos que minimizem estes efeitos. 0

sistema de SDI do Centro de Informações Nucleares da C£

missão Nacional de Energia Nuclear (SDI/CIN/CNEN) serviu

de suporte e laboratório para o presente trabalho.

1.2 - Conceitos Básicos

1.2.1 - Modelo Matemático

Um SDI pode ser representado pela quintuple:

SDI - < C, O, ü, t, T > (1)

C - conjunto de áreas de interesse ;#= C • &

D - conjunto de documentos; £ D » n

U - conjunto de usuários; # U - m

T - conjunto de termos de um dicionário; T - k

V - função da forma:

4» : u » 2 D (2)

-3-

Esta função é um algoritmo que mediante opera

ções de confronto ("Matching") entre D e U faz aloca-

ção de documentos para cada usuário u. E U, i = 1 m.

Em sistemas de SDI que utilizam palavras - ch£

ves (descri tores) ponderadas na estratégia de pesquisa, c£

da usuário pode ser representado assim:

u - < IDENTIFICADORES, V >

IDENTIFICADORES - < conjunto ordenado de valo -

res de atributos do usuário >

V - < A, B > (3)

i, wi)|piET, v. E IR , i - 1, ..., n} (A)

{(a , v )|a EC, v e m , j - 1 &} (5)J J J U

Os pares ordenados de (4) compõem-se de descrito

res do perfil do usuário, com seus respectivos pesos e os

de (5), de áreas de interesse, com respectivos pesos.

0 conjunto A ou o conjunto B poderá ser va-

zio assim como w. e/ou v. poderão ter o mesmo valor.

O conjunto C das áreas de interesse possue uma

estrutura de árvore. Ao considerar-se a estrutura C a-

crescida dos documentos como elementos terminais, ter-se-ã

uma estrutura de grafo orientado, uma vez que um mesmo do

cumento poderá ser terminal de mais de uma ãrea de interes

se .

Cada documento pode ser representado no sistema

assim:

d " < REFERÊNCIAS, W >

REFERÊNCIAS • < conjunto ordenado de valores de

atributos do documento >

W » < E, F > (6)

K - {(qit w.)|q.£T, w, £ B , i - 1 r} (7)

F - {(a., v.)|a.€C, v. e K , j « 1, .... ò} (8)J J J J

Os pares ordenados de (7) são compostos por def_

critores do documento com seus respectivos pesos e cada

par ordenado de (8) compõe -se de uma area de interesse na

qual o documento foi indexado e de um valor que define a

prioridade desta área em relação as outras era que o mesmo

documento foi indexado.

As equações de definição 3 a 8 aplicam-se também

aos casos particulares em que:

- os descritores do perfil e/ou do documento não

são ponderados ou possuem peso implícito;

- cada documento só pode pertencer a uma área de

interesse;

- documentos pertencentes a várias áreas de in_

teresse possuem a mesma prioridade em todas

elas;

- o conjunto C das areas nao possui estrutura.

0 dicionário controlado T normalmente é consú

tuído de um conjunto de termos e de um conjunto de rela

ções que definem a sua estrutura, quando então é denomina^

do thesaurus. Os sistemas mais rudimentares nao possuem

thesaurus, mas apenas uma lista de termos autorizados e um

conjunto vazio de relações.

1.2.2 - Exaustividade e Especificidade de Indexação

Exaustividade e especificidade são termos que se

aplicam tanto para a indexação de documentos ( atribuição

de descritores ), como para a construção de perfis de usuá

rios .

-6-

Por exaustividade de indexação entende-se a ex-

tensão na qual os itens potencialmente indexãveis no assun

to contido no documento são de fato reconhecidos na análi-

se conceituai do estágio de indexação e convertidos para a

linguagem do sistema1. Teoricamente a exaustividade com

pleta implica na indexação de todo o texto de um documento,

palavra por palavra.

Por especificidade de indexação entende-se o ní

vel de detalhe no qual um conceito particular ê reconheci^

do quando da indexação1.

1.2.3 - Relevância e Pertinência

Os conceitos de relevância e pertinência são con

ceitos básicos usados na determinação da eficiência de sis_

temas de informação.

0 conceito de relevância ê expresso pelo formal-

mente calculado grau de similaridade entre os perfis .....

("search patterns") dos documentos e o perfil do usuário2.

0 conceito de pertinência é expresso pelo infor-

melmente calculado grau de similaridade entre o conteúdo

de documentos particulares e a necessidade de informações

de um dado usuário do sistema de informação2.

Segundo Butterly3 a distinção básica entre relê-

-7-

vância e pertinência repousa na diferença entre a declara-

ção pelo usuário de suas necessidades e as necessidades re

ais do usuário. Pertinência e avaliada subjetivamente por

ura usuário conforme suas necessidades de informação; a re

levância, contudo, deve ser avaliada em acordo com a decl£

ração do usuário, de suas necessidades.

Todavia quando sistemas em operação devem ser a-

valiados ou sistemas experimentais estão sendo testados ,

há necessidade de avaliações menos subjetivas e torna-se

indispensável utn critério baseado no consenso de opinião

de vários especialistas. Tal consenso somente pode ser

obtido pela medida da necessidade declarada em confronto

com os resultados obtidos, isto é, pela avaliação da rel£

vância que é uma avaliação objetiva1*.

1.2.A - Coordenação e Afinidade de Descritores

Em certo sentido todos os descritores do perfil

de um documento ou usuário podem ser considerados relacio-

nados, pois possuem sempre a relação de proximidade: estão

no mesmo perfil1.

Coordenação de descritores e o grau de relacionai

mento entre eles; por falsa coordenação de descritores eri

tende-se a inexistência de uma relação semântica direta en

t re eles.

-8-

Exemplo de falsa coordenação:

- Interesse do usuário : "Corrosão do cobre e

suas ligas"

- Expressão de consulta : "Corrosão e Cobre"

- Documento recuperado : "Corrosão de ligas fer

rosas em equipamentos de metalurgia do cobre".

Os descritores "corrosão" e "cobre" embora pre_

sentes no documento recuperado não estão diretamente rela-

cionados .

Afinidade de descritores é o sentido semântico

da relação existente entre eles; por incorreta afinidade

de descritores entende-se a existência de uma relação em

um sentido semântico que não o desejado1.

Exemplo de incorreta afinidade:

- Interesse do usuário : "Processos de secagem a

gás"

- Expressão de consulta : "Secagem e Gás"

- Documento recuperado : Processos de secagem de

gases".

Os descritores "secagem" e "gás" apesar de dire-

tamente relacionados não formam o relacionamento semântico

desejado pelo usuário.

-9-

1.2.5 - Parâmetros de Avaliação de Desempenho

0 desempenho de un SDI tem vários enfoques en

tie os quais ressalta-se o do ponto de vista do usuário.

Genericamente o desempenho (E) pode ser descrito

como uma função de duas variáveis*:

E - f (x, y) (10)

x - eficácia do sistema; determina sua habilida-

de em realizar as tarefas para as quais foi

proj e tado;

y - eficiência do sistema; e uma função do tempo

normalmente e mede o custo de realização das

tarefas para as quais foi projetado.

A tarefa mais importante de ura SDI e atender

bem as necessidades dos usuários, necessidades estas muito

subjetivas e que assim dificultam a avaliação precisa da e_

ficacia dos sistemas.

Vários parâmetros objetivos sao utilizados visan_

do a avaliação da eficácia dos sistemas de informação refe_

renciada, sendo que os parâmetros denominados recuperação

("recall") e relevância ("precision") sao os mais utiliza,

dos .

-10-

A recuperação (R) é a proporção entre o número

de referências relevantes recuperadas e o total de referêii

cias relevantes existentes na coleção considerada. Este

parâmetro mede a capacidade do sistema de recuperar refe-

rências relevantes.

A relevância (P) S a proporção entre o numero

de referências relevantes recuperadas e o total de referên

cias recuperadas e mede a capacidade de filtragem do siste_

roa.

A não recuperação de uma referencia relevante de

nomina-se ruído de 1. ordem ou "perda". A recuperação de

uma referencia irrelevante denomina-se ruído de 2. ordem ,

ou simplesmente "ruído".

Para se medir a recuperação e a relevância hã ne

cessidade de se separar o conjunto de documentos em quatro

subconjuntos disjuntos. Inicialmente faz-se a separação

entre os documentos recuperados e os não-recuperados e a

seguir faz-se a separação em cada um dos subconjuntos ante_

riores, dos documentos relevantes e dos irrelevantes. A

Fig. 1 ilustra o exposto acima.

DOCUMENTOS

Recuperados

Não Recuperados

RELEVANTES

aacertos

bperdas

IRRELEVANTES

cruídos

dignorados

Figura 1 - Partição do conjunto de documentos

-11-

a N9 de referências relevantes recuperadas

a + b N9 de referências relevantes na coleção

(11)

a __ N9 de referências relevantes recuperadas

a + c N9 total de referências recuperadas

(12)

Tomados isoladamente estes parâmetros nada dizem.

Assim pode-se sempre ter uma recuperação de 100%, ao recu-

perar-se toda a coleção, sem que nada possa ser afirmado so

bre a eficácia do sistema.

A dificuldade de calculo desses parâmetros res i -

de na necessidade de conhecimento prévio de quais documen-

tos são relevantes na coleção. Esta dificuldade nos s i s -

temas de SDI 2 menor para os documentos recuperados grji

ças a avaliação que os usuários fazem das referencias que

lhes são enviadas. A avaliação pelo usuário, embora faci^

l i tada, apresenta alguns inconvenientes como o risco da u-

ti l ização do cr i tér io de pertinência ao invés do cr i té r io

de relevância. Para os documentos não recuperados, fre_

quentemente tem-se de recorrer a técnicas de amostragem pe_

Ia inviabilidade de uma análise exaustiva de todos os docu

mentes de uma grande coleção6.

-12-

Os cálculos de recuperação e relevância são tam

bem afetados pelo ponto de corte ("patamar") escolhido p£

ra distinguir referências recuperadas de não recuperadas6.

Apesar destes dois parâmetros serem objetivos a

estimativa do compromisso ideal entre eles, em um sistema,

é" muito difícil, pois cada usuário possui prioridades dife_

rentes e dinâmicas para os mesmos, assim como diferentes e

dinâmicos são os seus interesses.

1.3 - 0 INIS : International Nuclear Information System

0 INIS é um sistema internacional de informações

nucleares, planejado e operado pela International Atomic E

nergy Agency (IAEA) em colaboração com seus estados mem

bros?

0 sistema é descentralizado e tem por base a coopera

ção internacional; cada país participante tem um centro n£

cional encarregado da coleta de literatura gerada em seu

território, de sua catalogação, indexação e remessa para o

órgão central, cuja sede funciona em Viena8.

1.4 - 0 SDI/CIN/CNEN

0 CIN/CNEN funciona como centro nacional do INIS e

seu SDI tem como objetivo principal a disseminação sele-

-13-

tiva de informações para a comunidade brasileira, da base

de dados do INIS. Esta base de dados consiste de fitas

magnéticas contendo as referências bibliográficas e resJi

mos de documentos recém incorporados ao acervo. As fitas

possuem em média 2.500 referências e sua distribuição é

quinzena!.

0 sistema esta operativo desde 1974, contando em se_

tembro de 1977 com mais de mil usuários.

1.4.1 - 0 Thesaurus

0 thesaurus (T) do INIS pode ser representado

pela tripla:

T - < D, N, R > (13)

D - é o conjunto de termos permitidos (descrito-

res) . (Cerca de 15.000 termos em jan 1977)

N - é* o conjunto de termos proibidos (Ceica de

4.300 termos em jan 1977)

R - é o conjunto de relações que define a estru-

tura do thesaurus, compondo-se de tvês tipos:

- Relações de preferencia (RP)

- Relações de hierarquia (RH)

- Relação de afinidade (RT).

-14-

Estas relações sao transitivas, sendo RP e RH aii

ti-simStricas e RT simétrica.

0 conjunto de relações de preferencia e o respon

savel pelas relações entre os descritores e os termos pro^

bidos do thesaurus, que sejam sinônimos ou quase sinoni_

D1OS .

Consta de 4 tipos de relações:

RP = { ÜF, SF, USE, SEE } (14)

UF - usado por UF C D X N

SF - visto de SF C D X N

USE - use USE C N X D

SEE - veja SEE C N X D

0 conjunto de relações de hierarquia define a e£

trutura hierárquica do thesaurus, que é a de um grafo ori

entado; Consta de dois tipos de relações:

RH » { BT, NT } (15)

BT - termo mais genérico ("broader term")

BT C D X D

-15-

BT - NT

NT - termo mais restrito ("narrower term")

NT C D X D

BT e NT são relações anti-simetricas e transitivas,e

-I

Se d. BT d. , diz-se que o descritor d. é mais

amplo do que o descritor d. ou que d. é mais especifi-

co do que d. (dif d. e D).

Se d> NT d. , diz-se que o descritor d. é mais

especifico do que d. ou que o descritor d. é mais am-

plo (genérico) do que d..

A estrutura de T não é" a de uma árvore, porque

um descritor pode possuir vários ascendentes diretos ( de£

critores mais amplos). Através das relações BT e NT p£

de-se obter todos os ascendentes e descendentes, respecti-

vamente, de determinado descritor.

A relação de afinidade relaciona termos de mesmo

nível de especificidade, sem vinculação hierárquica, mas

com razoável grau de similaridade semântica.

RT - termos com afinidade ("related term")

RT C D X D

-16-

1.4.1.1 - O Minithesaurus

O SDI/CIN/CNEN foi implementado num computa-

dor de pequeno porte, o que inviabilizou a utilização ple_

na do thesaurus do INIS. Optou-se então pela formação de

uma lista de termos autorizados (minithesaurus), não estru

turada, composta por um subconjunto T* dos descri tores do

thesaurus, mediante a aplicação do seguinte algoritmo expe_

rimen tal:

1) - Ler o descritor d, F e F

2) - Se F_ for menor ou igual a FA , ir para

o passo 7

3) - Se F2 menos F for maior do que FB , ir

para o passo 7

4) - Se descritor não possuir ascendente direto,

ir para o passo 6

5) - Se F_ for menor ou igual a FC , ir para

o passo 7

6) - Incluir descritor no minithesaurus

7) - Se há descritores ainda não analisados, ir

para o passo 1

8) - Fim.

F - número de vezes que o descritor foi usado por

indexação direta

-17-

F- - número de vezes que o descritor foi usado por

pôs-indexação ("up posting") (§ 1.4.2)

FA - 50

FB - 3.000

FC - 100

Obteve-se assim uma l i s t a de 2.491 termos a_u

toriz^dos (maio 1977).

1.4.2 - Os Documentos

0 processo de elaboração dos perfis dos documen

tos do INIS consta essencialmente de duas etapas; A pri -

meira etapa, denominada indexação, executada no centro n£

cional que coletou a publicação, consiste em:

- Identificar as idéias ou conceitos centrais do

documento;

- Selecionar uma área de interesse principal p_a

ra o documento;

- Selecionar ãreas de interesse secundário, se

for o caso, para o documento;

- Selecionar os descritores mais específicos que

melhor representam o conteúdo do documento;

- Definir, entre os descritores selecionados,um

como principal (M - "Main heading") e outro

-18-

como qualificador (Q - "Qualifier"), para ca-

da um dos conceitos principais expressos no do

cumen to.

A segunda etapa, denominada pós-indexaçao ("up-

posting") é realizada automaticamente pelo computador do

INIS e consiste na introdução de novos descritores que sje_

jam BT daqueles selecionados na primeira etapa, através

de caminhamento ascendente no grafo do thesaurus. 0 si£

tema mantém separados os descritores selecionados por inde

xação ("Tag 800"), daqueles selecionados por pos-indexação

("Tag 801") .

0 perfil de utn documento do INIS, no SDI/CIN, p£

de ser representado formalmente pelas equações 6 a 8, §

1.2.1, mediante a utilização de algumas convenções adicio-

nais, uma vez que o INIS não pondera áreas de interesse ou

descritores de documentos.

1.4.3 - Os Usuários

0 perfil de um usuário do SDI/CIN pode ser repre_

sentado com fidelidade pela equação 3, § 1.2.1, mediante a

introdução de algumas restrições:

- V. e T1 (mini thesaurus) ;

- w e [-2,4] , i í 20;

-19-

- v. e [0.59, 0.99] , j 4? 5;

- as convenções são as mesmas do § 1.2.1.

A construção do perfil inicial é feita pelo prci

prio usuário, com auxilio ou não de especialistas do CIN,

median te:

- definição de sua atividade principal;

- seleção de até 5 áreas de interesse, e£

pecificas e relacionadas com sua ativi-

dade principal;

- atribuição de "pesos positivos" v 1. as

áreas selecionadas de modo que E v'.-*5;

- seleção de ate" 20 descritores do mini -

thesaurus, relacionados com as áreas e£

colhidas;

- atribuição de "pesos positivos" v'. aos

descritores selecionados, de modo que

l w1. - 20.

Os usuários incluídos no sistema antes de set 76

ecionar até 40 de;

ta condição foi respeitada.

podiam.selecionar até 40 descritores com E w'. - 40 e

Antes do perfil inicial ser incluído no SDI , os

pesos atribuídos pelo usuário ãs áreas (v1.) e aos des-

-20-

critores (w1.) são normalizados pelo sistema mediante as

funções 4> e í>:

^ v!)} -{(a., Vj

: {(Plt wj)} {(p., w.)}

v. - 0,59 + 0,40 x (v'./v1 ) (16)3 J max

w. - 3 + wf/w' (17)i 1 max

v' - é o maior valor de peso atribuído pelo u

suãrio a uma ãrea

w' - é o maior valor de peso atribuído pelo umax r —

suário a um descritor

Cada usuário recebe periodicamente, via postal,

uma listagem das informações que lhe foram selecionadas p£

Io sistema, juntamente com um cartão para avaliação e soli

citação de cópias de documentos, denominado "cartão respos^

ta".

Estas listagens são feitas em cartelas usualmen

te chamadas de "sanfonas" e contém alem das referências b£

bliograficas, os resumos dos documentos (estes a partir de

-21-

mar 7 7) .

Os usuários são solicitados a avaliarem os do

cumentos recebidos pelo critério de relevância, e não de

pertinência, devendo para isso assinalarem no cartão re£

posta, ao lado do número de cada referência:

M - muito interesse

R - relativo interesse

N - nenhum interesse

0 conjunto das avaliações dos usuários, proces-

sado e realimentado no sistema sob a forma de vetores de

avaliação, constitui uma base para análises estatísticas

e de desempenho, bem como, para atualização de perfis. 0

índice de usuários que deixam de remeter ao CIN o cartão

resposta é muito elevado (cerca de 40%), comprometendo as

sim a validade dos parâmetros de desempenho levantados pa

ra o sistema e dificultando a implementação de um sistema

automático de atualização de perfis. Esta realimentaçao

deficiente pode igualmente vir a comprometer os esforços

dispendidos na melhoria de sua eficiência e eficácia.

1.4.4 - Algoritmo de Seleção

Um dos elementos básicos de um SDI , conforme

visto no § 1.2.1, é* o algoritmo de seleção, "expressão for_

-22-

mal do critério de seleção, devendo representar a tradução

do subjetivo para o objetivo"6.

0 SDI/CIN seleciona documentos apenas através

de sua area principal e o peso de cada publicação é cal -

culado através da equação9:

„„„. j-PERF-X PUB-X i / 1 O X

PESO - w A . max l-^j- , -g^yj- > (18)

X = COINC - I PDESC

PESO - peso calculado para o documento;

w. - peso da área a que pertence o documen-

to, no perfil do usuário;

PERF - número de descritores no perfil do usu

ário;

PUB - número de descritores no perfil do d£

cumento ("tag 800" e "tag 801");

COINC - número de descritores dos dois perfis

que coincidiram;

PDESC - somatório dos pesos dos descritores

coincidentes.

A equação 18 mostra implicitamente que os descri_

tores não coincidentes nos dois perfis são considerados co

-23-

mo tendo peso um e que portanto, documentos cujos perfis

não possuem qualquer descritor em comum com o perfil do u-

suário, terão peso superior a zero (igual ao da área a que

pertencem). Verifica-se igualmente, em decorrência do ex

posto acima, que descritores com peso menor do que um,quan_

do coincidentes, contribuem menos para a elevação do peso

da publicação do que se fossem não coincidentes.

0 algoritmo de seleção do SDI/CIN S uma função

que, através da equação 18 e mediante operações do confron

to ("matching") entre o perfil de cada usuário e os perfis

dos documentos pertencentes as suas áreas de interesse ,

compõe um vetor de seleção por ordem crescente de sua medi_

da de correlação (peso da publicação). 0 sistema possui

um patamar de corte (peso mínimo de publicação), abaixo do

qual nenhuma referência serã introduzida no vetor de sele-

ção, bem como um numero máximo de referencias que podem ser

introduzidas no referido vetor. 0 usuário pode solicitar

elevação de seu patamar e/ou redução do numero máximo de re

ferencias que deseja receber quando então o número de en-

tradas no vetor de seleção poderá não ser determinado pelo

patamar de corte.

CAPITULO II

DISTORÇÕES DO SDI/CIN/CNEN

2.1 - Introdução

Uma distorção em um SDI pode ser conceituada como

qualquer desvio de seu funcionamento ideal contudo no pre_

sente trabalho foram consideradas apenas algumas distor -

ções quanti fi caveis e cujos valores estivessem ligados, di

reta ou indiretamente, ã eficácia do sistema.

Devido ã inexistência de valores padrões para avalia

ção da eficácia, os parâmetros representativos de distor -

ções, § 2.3, foram quantificados, antes e depois da altera

ção de possíveis fatores de distorção, proporcionando as-

sim um estudo comparativo do desempenho do SDI/CIN. Al

guns desses fatores foram estudados e analisados sem que

se fizesse uma avaliação quantitativa de sua influência ,

por estarem sendo alvos de trabalhos paralelos ou terem si

do julgados pelo autor, em análise prévia, menos perturba-

dores do sistema.

Apesar da utilização de parâmetros objetivos a variji

çio de dois ou mais parâmetros em sentidos contrários (fa_

vorável versus desfavorável) exigiu que se definisse o que

é", sob certas circunstâncias, um "desempenho melhor"do que

-24-

-25-

outro. Embora tenha sido feito um esforço para que a me_

lhoria do desempenho do sistema não se fizesse em detrimen

to de certos usuários, por vezes isto ocorreu, tendo as caia

sas sido determinadas.

2.2 - A Amostra

A existência de uma coleção de documentos totalmente

avaliada, quanto ã relevância, para um conjunto de usuári-

os do SDI/CIN, foi o critério determinante da escolha da £

mostra utilizada.

A amostra consta de 35 usuários, cujos perfis estão

mostrados no anexo 1, e dos documentos correspondentes ao

volume 6 de número 5 a 14, totalizando assim 350 consultas.

Suas características, restrições e seu critério de escolha

foram descritos por Araújo10 que a preparou e utilizou ini

cialmente.

Embora desprovida de aleatoridade e reduzida, e ape_

sar de algumas mutações por que passou o SDI/CIN, a amos-

tra prestou-se 90s fins desejados, tendo em vista que:

- cerca de 40% dos usuários atuais não devolvem ao

CIN o cartão resposta;

- as restrições existentes foram analisadas e criti-

cadas nos aspectos que pudessem comprometer o tra_

balho.

-26-

2.3- Parâmetros de Distorção

Um SDI ideal quanto ã eficácia deveria apresentar

valores de relevância e de recuperação, iguais a um. Os

atuais sistemas não conseguiram alcançar este resultado, a_

presentando assim distorções em maior ou menor escala , e

que podem ser avaliadas em função dos valores obtidos para

esses parâmetros. Além destes parâmetros a incerteza e a

inversão (§ 2.3.3 e § 2.3.4 respectivamente) foram

lizados no estudo e analise dos fatores de dis torções . ^

do utilizados percentualmente os parâmetros foram denomina_

dos de índice. DM, DR e DN referem-se ao número de docu-

mentos julgados de muito, razoável enenhum interesse, res

pectivamente.

2.3.1 - A Relevância

A relevância de um SDI é definida objetivamen_

te pela equação 12, contudo o sistema de avaliação do SDI/

CIN, § 1.4.3, introduz a variável de como enquadrar as re_

ferências julgadas de relativo interesse (R). 0 autor é

de opinião que este julgamento encerra um elevado grau de

incerteza e que dificilmente um conjunto de usuários soli-

citado a reavaliar estas referências, apenas como M ou N,

a faria de modo uniforme. Por esta razão optou-se por di

vidir as referências, julgadas de relativo interesse, numa

proporção direta entre o número DMe DN; Um estudo rigor£

so desse aspecto, utilizando-se da teoria dos conjuntos ne

-27-

bulosos, pode determinar uma função que melhor expresse a

relevância, mas foge ao escopo do presente trabalho.

Seja,

DR - R + R (19)m n

R - número de referências recuperadas, conside-

radas como de muito interesse (M),mesmo ten

do sido avaliadas como R;

R - número de referências recuperadas considers^

das como de nenhum interesse (N), mesmo ten

do sido avaliadas como R.

Para uma divisão de DR diretamente proporcio -

nal a DM e DN , ter-se-ã:

5Ü .'. R - (R + R ) .m m nR + R DM + DN

m n

. DM/(DM + DN) • DR.DM/(DM+DN) (20)

7}

2 - 22 .-. R - (R + R ) .R + R DM + DN n m n

m n

. DN/(DM + DN) - DR.DN/(DM+DN) (21)

-28-

A relevância do SDI/CIN foi calculada pela equa

ção 22, obtida a partir das equações 1.2 e 20, do seguinte

modo:

P = (DM + Rm)/(DM + DN + DR) .\

P - (DM + DR . DM/(DM + DN))/(DM + DN +

+ DR . DM/ (DM + DN) + DR . DN/(DM+DN)).'

P - (DM2 + DM . DN + DM . DR)/((DM + DN +

+ DR) (DM + DN)) :.

P - DM / (DM + DN) (22)

As equações 20 e 21 mostram que se DM e DN forem

iguais a zero a relevância é indeterminada, e ter-se-á sem

pre:

(DM + DR)/(DM + DN + DR) » DM/(DM + DN) »

> DM/(DM + DN + DR)

2.3.2 - A Recuperação

0 problema de enquadrar-se o R como M ou N,

analisado em 2.3.1, ocorre também no cálculo da recupera-

ção, contudo outro critério foi adotado, sem que houvesse

inconsistência.

-29-

Sejam DM1 , DRf e DN' quantidades de referen

cias não recuperadas de muito, relativo e nenhum interes -

se, respectivamente.

Se todos os R e R' forem considerados como N

e N' , respectivamente, a recuperação (R.) é calculada p£

Ia equação:

R - DM/(DM + DM') (2 3)

Se todos os R e R' forem considerados como M

e M1 , respectivamente, a recuperação (R2) é" calculada pe_

Ia equação:

R 2 « (DM+DR)/(DM + DR + DM' + DR1) (24)

Adotou-se a equação 23 para cá lculo da recupera-

ção, pa r t i ndo - se da premissa de que a i nce r t e za e x i s t e n t e

na ava l iação R , das r e f e rênc i a s recuperadas , e x i s t i r a em

igua l proporção na ava l iação R' , das r e f e rênc i a s nao recti

peradas , em re lação a DM e DM* , respec t ivamente , ou seja:

DR / DR1 - DM / DM1 . (25)

-30-

Nestas condições os resultados obtidos pelas e

quaçoes 23 e 24 sao iguais e pode ser considerado um resul

tado intermediário, uma vez que, para DR j4 DR' t 0:

DR/DR' > DM/DM' • R > R

DR/DR 1 < DM/DM1 • R2 < R

e para DR ou DR' igual a zero tem-se

DR

DR

2.3.3 - A Incerteza

Viu-se no § 2.3.1 e § 2.3.2 que a avaliação de

referências como R obrigou que se adotassem premissas que

possibilitassem seu enquadramento em M ou N . A incor -

reçlo total ou parcial destas premissas podem reduzir ou

ampliar as distorções do sistema em relação a determinado

usuário ainda que se comportem de modo transparente para a

média do sistema.

-31-

Introduziu-se assim um novo parâmetro, denomina-

do incerteza, com os objetivos de se estimarem parcialmen

te, a segurança das avaliações de cada usuário e a confia-

bilidade da relevância calculada, e que ê representado pe

Ia equação:

INC - DR / (DM + DN + DR) (26)

Um sistema sem distorções deve ter uma incerteza

igual a zero, uma vez que as referências recuperadas devem

ser todas relevantes. Por outro lado, para um mesmo nume

ro de referências M e N recuperadas, o usuário que apre

senta maior número de R tem uma relevância menos confiá-

vel, ou mais incerta, uma vez que a distribuição de DR' eii

tre DM e DN é artificial e provavelmente não corresponde

a realidade individual dos usuários.

2.3.4 - A Inversão

As inversões se manifestam no SDI/CIN do seguin-

te modo: ao se fazer o confronto do vetor de seleção com

o vetor de avaliação, de determinado usuário, verifica -se

com freqüência que referencias com maior peso tiveram ava-

liação mais desfavorável que outras de menor peso.

Objetivamente isto é caracterizado pelo apareci-

mento no vetor de avaliação, de N precedidos de M ou R,

-32-

ou de R precedidos de M . Corao as avaliações do tipo

R encerram um elevado grau de incerteza, as inversões en

volvendo R não foram levadas em consideração no estudo

feito. A Fig. 2 ilustra o efeito denominado inversão.

Peso

2.8

2.3

1.8

1.3

1.3 1.8 2.3

Vetor de seleção

N M N N

Vetor de avaliação

Figura 2 - 0 efeito inversão

M Avaliação

Os vetores de seleção e de avaliação possuem as

referencias na mesma seqüência, (ordenados pelo peso do d£

cumento) e a ordem, de referências que possuem o mesmo pe-

so, foi considerada irrelevante, visando a simplificação da

abordagem do problema na analise que se fez.

A inexistência de inversões não significa que o

sistema possui um desempenho ideal, embora facilite a , ob-

tenção de melhores resultados, contudo sua existência 5 a

certeza da presença de distorções no SDI, A eliminação

de inversões é uma ferramenta que possibilita principalmen_

te obter-se melhor relevância, mediante reajuste do pata -

-33-

mar de cada usuário.

Três medidas de inversão foram estudadas para que

se pudesse escolher uma que melhor representasse o efeito .

A inversão por quantidade (I ) e uma distânciaq

positiva, obtida através da soma do numero de inversões, on

de cada M que antecede cada N , no vetor de avaliação, é

considerado uma inversão (distância um). A inversão por

quantidade máxima (I ) ocorre quando todos os N e£

tão apôs todos os M , e seu valor e:

max " D M ' D N (27>

A inversão por peso (I ) é a relação entre o so

matõrio das diferenças de peso em cada inversão e o número

de inversões, e representa o peso médio das inversões9.

A inversão percentual (I?) ê a relação entre a

inversão por quantidade e a inversão por quantidade máxima,

expressa por percentagem.

A Fig. 3 ilustra a tendência dos parâmetros de dis_

torção ao se alterar o vetor de avaliação pela inclusão, re

tirada, ou mudança de posição relativa, de M e N . Deii_

ne-se como "mudança favorável" e troca de posição de M e N

no vetor de avaliação, com redução do número de inversões .

-34-

À troca com aumento do numero de inversões é* denominada

"mudança desfavorável".

As seguintes notações sao utilizadas:

+ — aumento do valor do parâmetro;

— diminuição do valor do parâmetro;

— parâmetro com valor inalterado

ALTERAÇÃO DO VETOR DEAVALIAÇÃO

Mudança favorável

Mudança desfavorável

Retirada de M invertido

Retirada de N invertido

Retirada de M não invertido

Retirada de N não invertido

Inclusão de M invertido

Inclusão de N invertido

Inclusão de M não invertido

Inclusão de N não invertido

Iq

-

+

-

-

+

+

ip

lz

-*

*

- .

p

-

-

- •

-

R

-

-

*

+

*

INC

OBS

1

2

3

A

5

6

7

8

9

10

Figura 3 - Tendência dos parâmetros de distorção

ao se alterar o vetor de avaliação

A análise da Fig. 3 mostra que, qualquer que seja

o parâmetro de inversão utilizado, seu aumento ou diminui -

-35-

ção não traduz, por si so, uma eficácia do sistema menor

ou maior, respectivamente. Utilizou-se neste trabalho a

inversão por quantidade, em detrimento dos outros parame -

tros de inversão, por ser o único cuja variação é perfeit£

mente definida ao se fazer alterações genéricas no vetor de

avaliação, embora necessitando da conjunção dos outros p£

râmetros de distorção para a definição do desempenho do

SDI. Não se conseguiu um parâmetro simples, englobando a

inversão, que representasse o desempenho do sistema de mo_

do satisfatório.

Segundo Cleverdon11, em um mesmo sistema, admi -

tindo que uma seqüência de eubconsultas para um particular

problema é feita em uma ordem lógica de relevância decres-

cente esperada e as exigências são aquelas declaradas no

problema, hã uma relação inversa entre a recuperação e a

relevância se o resultado de um número de diferentes con

sultas são avaliados.

Esta assertiva diz implicitamente que sob a pre

missa admitida, não se pode eliminar as inversões de um

sistema, pois de outro modo não haveria uma relação inver-

sa. 0 autor deste trabalho concorda com esta idéia, não

tendo tido assim a pretensão de eliminar tal distorção. 0

que se fêz em última análise foi estabelecer um conjunto de

procedimentos que possibilitem a translação da curva de de_

sempenho em direção ao ponto de recuperação e relevância i_

-36-

guais a um ou uma rotação de modo a obter-se um compromis-

so mais favorável entre estes dois parâmetros.

2.4 - 0 Parâmetro Eficácia

0 CIN não levantou ainda a curva de eficácia de seu

SDI , assim optou-se pela adoção de um parâmetro que possi_

b i l i t a s s e comparar o desempenho do sistema em situações dj

ferentes. Vários parâmetros simples foram estudados por

diferentes a u t o r e s 1 2 ' 1 3 ' 1 1 1 1 1 5 com este objetivo tendo - se

optado pelo de Van Rijsbergen15 . Dada a recuperação R e

a relevância P para um conjunto de documentos recupera -

dos por um p e r f i l , a medida da eficácia (E) é uma combina-

ção ponderada de R e P

E - l / ( a ( l /P ) + (1 - a)( l /R)) 0 ^ a £ 1 (28)

onde a é um parâmetro através de cujo valor pode-se atn

buir maior importância a R ou a P.

0 SDI/CIN não possibilita que a o usuário expresse

seu maior interesse pela recuperação ou pela relevância,

cabendo ao sistema esta decisão e que é uniforme para to-

dos os usuários. A Fíg. 4 apresenta as curvas de E em

gráficos P x R , para diferentes valores de a.

Os valores de E para usuários isolados e para o

- 3 7 -

i a ' EiC-'J

R *

1 0 3 '

9 0 '

BO'

7 0 '

SB '

SO1

/li'A = 0-33[.100

Figura 4 - Curvas de eficácia num gráfico P x R para

diferentes valores de a

-38-

sistema como um todo foram calculados para possibilitar a

avaliação da eficácia, antes e depois de alterações feitas

no sistema. "Eficácia maior" e definida como um valor de

E mais alto, quer para um usuário, quer para o sistema.

Um valor de E mais baixo indica uma eficácia menor. Os

valores 0,2 e 0,4 foram utilizados para a por aceitar-

se que em um SDI a recuperação é mais importante do que

a relevância, para a média dos usuários16.

2.5 - Valores dos Parâmetros de Distorção e de Eficácia

De posse de toda a coleção de documentos da amostra

avaliada para os 35 perfis calculou-se os valores dos para

metros de distorção e de desempenho de modo a obter-se o

estado do sistema antes da aplicação de procedimentos cor

retivos de distorções, A eficácia foi calculada pela e-

quação 28, tomando-se a - 0,2 e a • 0,4 , para que se

pudesse verificar o efeito de valorizações diferentes da

recuperação sobre a relevância.

0 anexo 2 apresenta para cada usuário, por envio, os

valores obtidos para os parâmetros de distorção e de eficã_

cia, tabelados juntamente com a quantidade de documentos

recuperados e não recuperados de muito, relativo e nenhum

interesse .

Os valores dos parâmetros de distorção e de desempe-

nho, para cada usuário no conjunto dos dez envios, juntji

-39-

mente com seus valores médios, são ilustrados na Fig. 5.

A última linha da figura apresenta os valores dos mesmos

parâmetros para todos os usuários.

A Fig. 6 apresenta para o conjunto dos usuários como

um todo, e em relação a cada envio, os valores dos mesmos

parâmetros constantes da Fig. 5.

Os valores ilustrados no anexo 2, bem como nas figu-

ras 5 e 6 serão comparados com aqueles que foram obtidos

após os perfis terem sido alterados, sendo assim o ponto

de partida para se verificar qual foi o comportamento do

sistema frente aos procedimentos corretivos de distorções.

Vale ressaltar que os parâmetros recuperação e incej:

teza foram utilizados apenas para aferição, não se tendo

procurado objetivamente provocar modificações de seus valo^

res. As modificações que houveram foram resultantes dos

procedimentos utilizados, visando obter-se melhores resul-

tados para a relevância e para a inversão, sem prejuízo da

eficácia.

- 4 0 -

l r t «OCCC-U.-OOOO**-* u *.' c - j c* e- o o

n

I

13 <O OH M

o

O O*o

O»H, *O

O 0)> r

fõ_ rt3 Hui-O

U

NtfcC C*1 -C*-"JM»~

8

gg-g1

O H- • • '(0 (0

13 O(D h r , ..

H l C l l ?:>''P- O(0

H ^ °'0-J

(D

Oo»»o

JS" -J -*J -J 01 -^ ^

n: t1 O"T> II . — I

O01

(D

1 Cjr-I —nt1 Xi •ii i •+i

m2•-•fi

*

(D3<H-QC/l

H-CO(-{•

QM

«OJül0

C L i O í - f JC3

I + I

OF—U.O JC »—C

(0

m-n io— i—O IO> I

CAPITULO I IT

ANÁLISE DOS FATORES l)K DISTORÇÃO

3 . 1 - I n t ro due a o

Os fatores de distorção atuam era um SDI da geração

ao con.-; uni o da informação, de modo isolado ou comb in ado, to-

nando assim bastante complexa a tarefa de avaliar quan tit a

tivamente sua influencia individual. No que concerne a e_

ficacia, isto envolveria para cada falha de recuperação, se

gundo Lancaster , um exame:

- do texto completo do documento

- de sua indexação

- da formulação das necessidades do usuário

- da formulação da . insulta (perfil)

- do julgamento que o usuário fez do documento (par-

ticularmente das razoes para julgamento de urna p_u

blicaçao como de nenhum interesse)

- de. outras i n f o rmaç oe s disponíveis

para so depois se poder tomar uma decisão sobre a causa prin

cipal da falha analisada.

Uma falha de recuperação pode ser definida objetiva-

men te como: 1 7

-42-

a.) Um artigo julgado relevante pelo usuário,mas nao

recuperado pelo sistema;

b.) Um artigo julgado irrelevante pelo usuãrio, mas

recuperado pelo sistema.

Uma avaliação quantitativa das causas de falhas fe_i_

ta deste modo, seria pouco prática para um sistema operatí^

vo que buscasse procedimentos automáticos de redução de dij>_

torções. Assim fez-se ura estudo qualitativo de possíveis

fatores de distorção, procurando- se dar ênfase àqueles

cujos efeitos pudessem ser eliminados, reduzidos ou competi

sados, por processo automático; a realiiaentaçao do SDI/CIN,

obtida pelas avaliações de documentos pelos usuários, foi

o fator que forneceu maior quantidade de elementos para e£

tudo e análise,e principalmente, para a adoção de procedi-

mentos experimentais de redução de distorções.

Todos os resultados experimentais foram obtidos atrja

vés de um sistema especifico, o SDI/CIN/CNEN e sob condi -

ções bem determinadas, não se podendo em conseqüência, ejK

trapolar seus resultados para outros sistemas sem se incoj:

rer em riscos de graves erros. A aplicabilidade dos pro-

cedimentos a outro SDI exige pois uma nova experimenta -

çao precedida de meticulosa analise do sistema.

-43-

3.2 - Indexação de Documentos

A indexação de um documento pode provocar distorções

por uma ou mais das seguintes causas:

a.) Omissão de um ou mais descritores necessários a

descrição de um tópico importante do documento ;

b.) Uso de descritores inadequados;

c.) Omissão total de descritores que cubram um tõpjL

co marginal do documento.

Os dois primeiros erros sao tipicamente do indexador,

embora possam ser devidos a falhas da linguagem de indexa-

ção (thesaurus). 0 último é decorrência da política de e_

xaustividade de indexação adotada.

A base de dados do SDI/CIN pertence ao INIS , que

como foi dito é um sistema internacional descentralizado ;

0 INIS congrega países em diferentes estágios de desen -

volvimento e das mais diversas formações culturais, enfren

tando assim problemas de uniformidade na indexação de do-

cumentos nos países geradores» apesar de todos os esforços

no sentido de sua padronização; Assim nos 24 envios do

volume 4 o INIS apresentou uma média de 9,53 descritores

por documento quando a média apresentada pelo centro dos

EUA, o maior fornecedor mundial de "inputs" para o sistema

foi de 7,68 descritores por documento51 (por indexação).

-44-

A analise da influência de fatos como o exemplifies

do e de outros decorrentes de uma indexação heterogênea, s£

bre o desempenho do SDI/CIN , exigiria um trabalho extre-

mamente penoso e complexo, e que dificilmente comportaria

a introdução de procedimentos corretivos automáticos sobre

eventuais falhas.

A exaustividade e a especificidade de indexação dos

documentos do INIS varia acentuadamente de área para ã -

rea, em decorrência da linguagem de indexação que cobre me_

lhor as áreas centrais do campo da energia nuclear. Esta

diferença é naturalmente extrapolada para a pós-indexaçao,

que acrescenta em média um pouco mais de descritores do

que os introduzidos por indexação; (Segundo Butterly3, do

volume 3 envio 8 ao volume 4 envio 7, a média de descrito-

res por documento introduzidos por indexação foi de 9,57 e

acrescentados por pós-indexaçao foi de 10,88).

A exaustividade e a especificidade de indexação es_

tão intimamente relacionadas a recuperação e a relevância

de um sistema, sendo assim de se esperar que o comportamen

to do SDI/CIN não seja o mesmo em relação a áreas cen

trais e marginais (ou periféricas), do mesmo modo como e

de se esperar diferenças de comportamento do sistema ao u_

tilizar-se ou nao a pós-indexaçao.

A fõrumula de seleção do SDI/CIN leva em conta o

-45-

número de descritores do documento. Assim, diferentes n_

veis de exaustividade e especificidade influem no calculo

do peso da publicação, quer através dos descritores coínci_

dentes quer através do maior ou menor número de descrito -

res não coincidentes; No presente trabalho, § 3.4 fez-se

um estudo da influência do número de descritores (do do

cumento e do perfil), no desempenho do sistema, sem que f^

zesse contudo sua avaliação quantitativa.

3.3 - Minithesaurus

0 minithesaurus do CIN foi construído aplicando o

algoritmo do § 1.4.1.1 sobre os descritores do thesaurus e

é utilizado na construção dos perfis dos usuários (seleção

dos descritores). Os documentos por pertencerem a base de

dados do INIS são indexados através do thesaurus.

A análise do algoritmo mencionado deixa claro os se_

guintes aspectos do minithesaurus:

a.) A inexistência de qualquer tipo de estrutura di

ficulta sua consulta pelos usuários e compromete

a criação de processos automáticos de construção

de perfis;

b.) Não leva em conta as diferenças de exaustividade

e especificidade de indexação proporcionadas pe_

Io thesaurus as diversas áreas. 0 nível relati

-46-

vo de especificidade e exaustividade entre as ã_

reas e assim alterado, sendo questionável sua in_

fluência no desempenho do sistema.

Nao obstante o thesaurus ser dinâmico, o minithesau-

rus permaneceu estático, a menos da eliminação de desicrito

res que deixaram de pertencer ao thesaurus; Tendo em vista

a evolução permanente da ciência e da tecnologia nuclear ,

evolução que se manifesta através do surgimento de novas ã

reas de pesquisa ou da mudança de áreas de concentração de

esforços, é dificilmente justificável que a lista de ter -

mos autorizados do mini thesaurus permaneça inalterada ao

longo de mais de três anos. Neste período a curva de di_s_

tribuiçao de freqüência acumulada dos descritores deve ter

sofrido alterações e assim seria desejável a formação de

um novo dicionário controlado ou a utilização de técnicas

e métodos que viabilizassem a utilização do thesaurus do

INIS.

3.4 - Algoritmo de Seleção

0 algoritmo de seleção do SDI/CIN nao se utiliza de

todos os recursos oferecidos por seu "input". Neste seii

tido merecem destaque:

- Â não valorização, pelo sistema, dos descritores

que compõem os pares M-Q e que por certo melhora -

riam sua relevância;

- 4 7 -

- A nao distinção entre descritores introduzidos por

indexação ou pos-indexação. Esta diferenciação

possibilitaria ao sistema dar maior ênfase a recu-

peração ou a relevância na recuperação de documen-

tos para determinado usuário;

- A nao recuperação de documentos através das áreas

marginais em que foi indexado diminuindo assim a

recuperação do sistema.

As restrições apontadas acima nao foram eliminadas na

fase de projeto do SDI/CIN visando não apenas uma maior

eficiência para o sistema, mas sobretudo objetivando sim -

plificaçoes que viabilizassem sua implantação em um compu-

tador de pequeno porte. A segunda restrição apontada, jun_

tamente com a utilização ou nao da põs-indexação, está sen

do alvo de outra tese, que visa quantificar seus efeitos

no desempenho do sistema.

É questionável a validade do processo sofisticado e

pouco eficiente que o SDI/CIN util iza na determinação do

peso de um documento, se considerar-se que:

a.) A marginalidade do perfil de um usuário em rela-

ção a um documento, ou vice-versa, é aparente uma

vez que os descritores do perfil de um usuário

nao estão vinvulados a qualquer área em particu-

lar, ao contrário dos descritores de documento .

-48-

Assim um usuário cujo perfil tivesse 20 descrit£

res dos quais 2 coincidissem com descritores de

um documento, seria considerado como tendo 18 de£

critores marginais para efeito de calculo do pe_

so do documento. Isto contudo dificilmente se_

ria verdadeiro pois parte dos 18 descritores cem

siderados marginais poderiam jamais ter ocorrido

ou vir a ocorrer, na área a que o documento em

questão pertence. A marginalidade considerada

é verdadeira para os casos em que todos os des -

critores de determinado usuário tiverem possibi-

lidade de ocorrer na área a que determinado do_

cumento pertence.

b.) 0 peso de um documento é mais sensível ao número

total de descritores do que aos pesos dos descri^

tores coincidentes. Considerando-se que o nume_

ro de descritores de um perfil de usuário nada

diz sobre o número de descritores que podem ocor

rer em determinada área seria de toda conveniên-

cia que os pesos dos critores coincidentes tive^

sem grande influência no valor do peso do documen

to ou que se vinculasse grupos de descritores a

áreas. A vinculaçao de descritores a áreas nao

apení - tornaria a fórmula de seleção mais consij^

tente em beneficio da eficácia do sistema, como

também aumentaria sua eficiência, por reduzir o

número de descritores dos perfis de usuários, a

-49-

serem confrontados com descritores de documentos.

c.) Â existência de "splits" nos documentos do IN IS

com o objetivo de minimizar falsas coordenações

e incorretas afinidades de descritores perde em

grande parte seu sentido, pois os efeitos indese_

jáveis que se propõem a eliminar, sao introduzi-

dos pela utilização de descritores do perfil do

usuário comuns a todas suas areas.

d.) 0 critério utilizado na normalização dos pesos

dos descritores e dasãreas, juntamente com o ele_

vado número de variáveis que compõem a formula de

seleção impedem que o usuário possa ter, quando

da construção de seu perfil, alguma percepção das

condições sob as quais um documento pode ser re-

cuperado. Exemplificando:

se um certo usuário deseja que todos os d£

cumentos da área A12 sejam recuperados sem-

pre que contenham os descritores d e d_ ele

nao saberá que pesos atribuir a esta área e a

estes descritores, bem como as demais áreas e

demais descritores, de modo a possibilitar a

realização de seu desejo. Assim, se ele ej

colhesse apenas a area A12 e mais 5 descri-

tores além de d., e d?, independentemente dos

pesos a eles atribuidos, qualquer documento

que contivesse um só de seus descritores se -

-50-

ria recuperado.

e.) 0 peso do documento é o maior de dois valores de

terminados pela formula de seleção ; Diz-se que

a recuperação e feita pelo perfil do usuário ou

pelo perfil do documento, conforme aquele ou es^

te contenha menor número de descritores. Como a

média de descritores de documentos do INIS é a

proximadamente 20 os usuários cujos perfis te -

nham um número de descritores superior a 20 te -

rao uma probabilidade maior de terem documentos

recuperados pelo perfil do documento, o inverso

acontecendo com aqueles que tenham o número de

descritores do perfil abaixe da média citada.

3.5 - Patamar de Corte

0 patamar de corte mínimo do SDI/CIN é 1.0. Este

valor pode ser elevado para usuários isolados ou para o si£

tema como um todo (atualmente 1.25).

A manipulação do patamar de corte possibilita que se

opere em pontos distintos da curva de desempenho ( P x R )

do sistema ou de determinados usuários, uma vez que o sis-

tema ordena os documentos por ordem crescente de similari-

dade com o perfil de cada usuário (maior similaridade, mai_

or peso do documento). Um modo de se determinar para cji

da usuário o patamar de corte ideal é o levantamento das

-51-

curvas de distribuição de pesos dos documentos avaliados

como de muito interesse (M), em cada área, em um número e^

tatisticamente significativo de envios. Estas curvas po£

sibilitariam nao apenas a determinação do patamar de corte

ideal como também um reajuste no peso já normalizado das

áreas que tornasse consistente a adoção de um único pata -

mar para todas as áreas de um mesmo usuário.

3.6 - Perfil Inicial do Usuário

0 perfil inicial de cada usuário do SDI/CIN é cons_

truido pelo próprio interessado, com auxilio de um manual

de instruções, podendo para esta tarefa utilizar-se da o n

entação de especialistas do Centro.

Deficiências na construção do perfil inicial ou na

declaração por parte do usuário de seu interesse sao res -

ponsáveis por um grande volume de falhas ; As últimas sao

mais sérias desde que a declaração do interesse é a base

sobre a qual o perfil é construído e fica fora do controle

do especialista em informação2. Se um usuário fornece uma

descrição pobre de seu interesse é provável que seu perfil

será pobre e que o especialista sera incapaz de auxilia-lo

a obter melhores resultados2. Com mais forte razão se o

perfil inicial for muito mal construído é pouquíssimo pro

vãvel que um processo de atualização automática de perfis

consiga resultados apreciáveis.

-52-

0 perfil inicial que o usuário constrói é freqüente-

mente comprometido pelos seguintes fatores:

a.) Existência de descritores pertencentes a uma me£

ma relação BT ou NT ;

b.) Existência de areas de interesse e de descrito -

res que propiciam falsa coordenação e incorreta

afinidade de descritores de modo acentuado;

c.) Existência de áreas e/ou descritores inconsisteti

tes com a declaração de interesses do usuário;

d.) Existência de áreas no perfil sem possibilidade

de recuperar documentos; (Inexistência ou número

insuficiente de descritores que podem ocorrer na

área) ;

e.) Numero de descritores no perfil muito reduzido

provocando a recuperação de todos os documentos

onde haja coincidência de qualquer dos descrito-

res;

f.) Utilização de descritores indevidos para o inte-

resse do usuário;

g.) Adoção de níveis nao adequados de exaustividade

e/ou especificidade de descritores.

Os fatores mencionados acima poderiam em parte serem

reduzidos, ou eliminados, mediante:

- adoção de um mini thesaurus estruturado e/ou de mais

-53-

fácil consulta.

- Utilização de programas de computador para críti -

ca do perfil inicial.

- Vinculaçao de cada descritor a uma determinada ã_

rea.

- Adoção de um manual de instruções mais elucidativo,

no que se refere ao critério de seleção

3.7 - Iteração dos Usuários com o Sistema

A iteração dos usuários com o sistema e extremamente

importante principalmente por possibilitar sua avaliação e

a atualização automática de perfis; A atualização de pejr

fis é importante nao só devido ao aspecto dinâmico do int£

resse do usuário, que esta sempre em mutação, mas também

devido ãs falhas inerentes a construção de seu perfil ini_

ciai, § 3.7. 0 processo iterativo com os usuários é "off

line" no SDI/CIN, possibilitando contudo a realimentacao do

sis tema.

A realimentacao do SDI/CIN apresenta alguns aspec-

tos que podem comprometer sua utilização:

- o critério de avaliação de documentos pelos usuá -

rios é desconhecido, pois embora estes sejam ins-

truídos por carta neste sentido, nenhuma verificai

çao foi feita.

-54-

- O sistema mantém para cada usuário uma estatística

da freqüência acumulada com que os descritores do

mini thesaurus apareceram em documentos avaliados

como M, R ou N. Esta estatística 2 em parte in_

consistente devido ao fato de que usuários que tj

veram seus perfis alterados continuam acumulando a

freqüência de descritores no mesmo registro. (Foi

adotado para cada usuário um novo registro de acii

mulaçao de freqüências quando o sistema passou a

enviar o resumo dos documentos junto com suas ref£

rencias bibliográficas).

- 0 arquivo de freqüências acumuladas de descritores

em documentos M, R e N é feito por usuário, po-

rém independentemente de área, irapossibi li tando que

se determine que descritores sao mais convenientes

para cada área.

- A utilização apenas dos descritores do minithesau-

rus na estatística de freqüência dificulta sua atii

alizaçao através da inclusão e/ou substituição de

descritores, utilizando-se daqueles resultados.

0 fato do mini thesaurus nao possuir uma estrutura hie

rárquica impossibilita a utilização de descritores de ele_

vada especificidade e que possuam alto poder discriminante,

deixando assim sem utilização informações fornecidas pela

interação dos usuários com o sistema.

-55-

3.8 - Aspectos Ligados a Arquitetura do Sistema

Alguns aspectos da arquitetura do SDI/CIN embora

nao sejam propriamente fatores de distorção impedem uma ti

tilizaçao mais flexível e eficaz do sistema.

Assim quando do projeto do sistema e visando econo -

mia de memória de massa, vários campos de dados dos arqui-

vos foram dimensionados para as necessidades da época,exem

pio: número de dígitos para peso de áreas de descritores

e de documentos. Este dimensionamento bem como a inexis-

tência de "dummys" nos registros, que possibilitem utilizji

çao de atributos então nao empregados, sao um entrave a

certas modificações e experimentações no sistema pois im -

plicariam em refazê-lo.

CAPÍTULO IV

REDUÇÃO DE DISTORÇÕES NO SDI/CIN/CNEN

4.1 - Introdução

Apesar do grande volume de publicações sobre avalija

çao de SDI a literatura é escassa no que se refere a cons

truçao e atualização automática de perfis nao obstante es_

tas serem as tarefas mais importantes e criticas deste ser

viço. Assim, sistemas sao avaliados e causas de falhas

de recuperação sao estudadas mas poucos trabalhos apresen_

tam procedimentos automáticos para corrigir as falhas, me£

mo as relacionadas com a construção de perfis iniciais de

usuários.

Embora se tenha feito no capitulo anterior um estudo

sumario de diversos fatores que podem provocar distorções

ou comprometer sua redução, procurou-se apenas neutralizar

alguns efeitos decorrentes de incorreções na construção

do perfil inicial ou mudança de interesse do usuário ao lon

go do tempo; Nao se fez igualmente nenhuma analise de pe_r

fil com exceção daquelas passíveis de um tratamento automã

tico e que independessem de iteração do usuário com o sÍ£

tema; A participação dos usuários restringiu-se ao proces^

samento dos cartões resposta por eles devolvidos ao CIN

apôs o recebimento de cada "sanfona".

-56-

-57-

Este nível de participação do usuário constituiu - se

numa restrição ao presente trabalho principalmente se con

siderar-se que a maior parte dos trabalhos atuais sobre

construção automática de perfis baseia-se em processos ite_

rativos. 1 8 , 1 9 , 2 0

4.2 - Procedimentos Adotados na Redução de Distorções

4.2.1 - Eliminação de Ãreas

As referencias dos envios mensais do INIS são

numeradas seqüencialmente dentro da area principal a que

pertencem facilitando assim para cada documento a determi-

nação da ãrea principal em que foi indexado.

Através da facilidade mencionada acima, determi-

nou-se quais as areas, para cada perfil da amostra, em que

nao houve recuperação de nenhuma referencia julgada de rau_i_

to interesse (M) em qualquer dos dez envios em estudo.Tais

ãreas foram eliminadas dos respectivos perfis mesmo conten

do documentos de muito interesse entre as referências não

recuperadas.

A figura 7 ilustra os usuários cujos perfis sja

freram modificações neste aspecto, apresentando o número

de ãreas no perfil inicial e o número de ãreas eliminadas

em cada perfil.

-58-

PERFIL

2 - 1

5 - 1

7 - 1

10 - 1

1 9 - 1

2 5 - 1

3 9 - 1

4 8 - 1

6 2 - 1

9 2 - 1

9 6 - 1

9 9 - 1

106 - 1

1 2 3 - 1

146 - 1

NÚMERO DE ÃREAS

INICIAIS

3

5

3

3

4

4

4

4

3

4

4

2

3

3

4

ELIMINADAS

1

1

1

2

1

2

2

2

1

3

1

1

2

2

3

Figura 7 - Perfis que tiveram áreas eliminadas

-59-

Utilizando-se de uma amostra de 60.000 docuraen -

tos Bernachi9 fez um levantamento da freqüência com que.

os descritores do mini thesaurus incidiram em cada ãrea de

interesse passível de utilização pelo INIS. Embora este

levantamento possibilitasse um estudo para determinação de

algumas causas de falhas de recuperação em certas areas,

de usuários específicos, a impossibilidade de se eliminar

tais causas por processo automático levou a que se abando-

nasse tal estudo partindo-se simplesmente para a elimina -

çao das referidas áreas.

4.2.1.1 - Influência da Eliminação de Áreas

As á r ea s e l iminadas nao exerceram qualquer

influencia sobre as áreas restantes no perfil uma vez que

estas ja estavam com seu peso normalizado e nao sofreram

alteração.

A base de dados de cada usuário do SDI/CIN ,

é constituída apenas de documentos pertencentes as áreas

por ele selecionadas, quer para efeito de recuperação de

referências pelo sistema quer para determinação de parâme-

tros de distorção e de desempenho. Deste modo a elimina-

ção de áreas de certos perfis reduziu suas bases de dados

com as seguintes conseqüências diretas ou indiretas:

a.) Redução do tempo de processamento em decor -

rência do menor número de referências a se

rem confrontadas.

-60-

b.) Aumento do índice de recuperação quando exis_

tiam documentos de muito interesse (M) nas

areas eliminadas.

c.) Aumento do índice de relevância quando atra

ves das areas eliminadas eram recuperadas _a

penas referências irrelevantes.

d.) Redução da inversão por quantidade (I ) quan

do através de áreas eliminadas eram introdu-

zidas referências invertidas ao vetor de ava

liaçao.

e.) Variação do índice de incerteza, ora para ma

is ora para menos, dependendo dos valores de

DM, DR e DN.

f.) Impossibilidade de mediante outros tipos de

alterações no perfil se vir a recuperar os

documentos relevantes pertencentes as areas

eliminadas.

4.2.2 - Eliminação de Descritores Irrelevantes

0 SDI/CIN periodicamente processa os cartões res_

posta e um dos produtos obtidos a partir deste processameri

to é um registro, por usuário, de todos os descritores do

mini thesaurus constantes das referencias recebidas, com a

discriminação do número de ocorrências em documentos ava-

-61-

liados como M, N ou R recebidos até então. Quando o

CIN passou a remeter junto com as referências os respecti

vos resumos foi criado um novo registro para cada usuário,

denominado "registro II".

Os dez envios que contribuem para este trabalho

tiveram seus cartões resposta processados para a obtenção

dos registros iniciais ("registro I"), dos usuários da £

mostra, e possibilitaram a eliminação em cada perfil dos

descritores de peso positivo que nao ocorreram nenhuma vez

no registro do respectivo usuário ou que ocorreram apenas

como N e/ou R. A figura 8 apresenta, juntamente com o

numero inicial de descritores no perfil, o número de de£

critores que foram eliminados para os usuários que sofre-

ram alterações.

A eliminação de descritores dos perfis de usuá -

rios foi em parte comprometida pelos seguintes fatores:

a.) Cada registro de usuário acumulou dados fora

do período compreendido pelos 10 envios em

es tudo.

b.) Nem todos os envios tiveram seus cartões re£

posta processados.

c.) Alguns usuários deixaram de ter seus cartões

resposta processados por terem feito sua de_

volução ao CIN em data posterior a do proce£

- 6 2 -

PERFIL

1 - 1

2 - 1

5 - 1

7 - 1

10 - 1

1 9 - 1

2 5 - 1

2 9 - 1

2 9 - 2

3 7 - 1

3 9 - 1

40 - 1

4 3 - 1

4 8 - 1

5 6 - 1

6 4 - 1

72 - 1

8 0 - 1

NÚMERO DE DESCRITORES

INICIAIS

8

32

26

20

19

24

14

12

3

2 7

23

16

33

39

19

40

32

28

INCLUÍDOS

0

0

! 0

0

0

0

0

5

5

0

0

3

0

5

5

0

1

2

ELIMINADOS

3

5

1

1

0

6

1

7

0

1

4

2

1

10

2

1

1

2

1,00 **

1,00 **

1,00 **

1,00 **

1,30

1,27

1,25

1.31

1,00

1,27

1,28

1,00

1,00 **

1,00

1,00

1,00 **

1,00

1,00

Figura 8 - Perfis cora descritores incluídos e/ou eli-

minados

- 6 3 -

PERFIL

81 - 1

9 6 - 1

9 7 - 1

99 - 1

104 - 1

106 - 1

112 - 1

115 - 1

123 - 1

125 - 1

146 - 1

NÚMERO

INICIAIS

40

3 7

23

25

32

22

26

25

14

35

21

DE

INCLUI

5

3

4

0

5

5

0

0

5

0

0

DESCRITORES

DOS ELIMINADOS

9

14

4

1

11

7

7

3

8

4

2

1,00 **

1,26

1,25

1,00 **

1,25

1,44

1,36

1,26

1,36

1,00 **

1,26

Figura 8 - Continuação

-64-

saraento dos cartões resposta daquele envio .

d.) Usuários que sofreram alteração no perfil nao

tiveram seu registro reinicializado e nem

lhes foi criado outro registro.

e.) 0 sistema nao mantém controle dos usuários

cujos perfis foram alterados.

A fim de que nao houvesse inconsistência todos

os usuários da amostra com perfis alterados apôs a data de

processamento do volume 06 número 14, tiveram seus perfis

iniciais restaurados. Os fatores "a", "b" e "c", mencio-

nados acima foram julgados como tendo efeito irrelevante no

trabalho ao considerar-se que os registros dos usuários fc

ram compostos por uma média de 30 cartões resposta.

0 fator "d" embora considerado comprometedor nao

foi sanado por exigir um reprocessamento de todos os env^

os, após a correção do fator "e"; (Fator este que nao pode

igualmente ser sanado para dois usuários pela impossibili-

dade de obtenção de seus perfis iniciais).

4.2.2.1 - Influência da Eliminação de Descritores

 eliminação de descritores traz consigo ,

além dos efeitos marginais provocados pelos fatores enume-

rados no § 4.2.2, outros efeitos decorrentes da diminuição

-65-

do número de descritores no perfil e da eliminação de con

ceitos existentes (uma vez que cada descritor encerra em si

um concei to).

A diminuição da cardinal idade dos descrito^

res interfere diretamente na fórmula de seleção, equação 18

§ 1.4.4, sempre que o número de descritores do perfil do _u

suario se tornar menor do que o numero de descritores que

indexam determinado documento. No SDI/CIN , como todos

os descritores positivos possuem peso superior a um, a el^

minação de um descritor aumentará o peso dos documentos nao

indexados por ele, provocando a recuperação de documentos

antes nao recuperados, com melhoria ou estabilização do 111

dice de recuperação e efeitos imprevisíveis sobre os de -

mais índices de distorção e desempenho. Os documentos in

dexados pelo descritor eliminado sofrerão redução de peso

tendendo assim a nao serem recuperados, provocando raelho-

ria ou estabilização dos índices.

Do exposto acima conclui-s'e que a eliminação

de um descritor:

a.) Dificulta ou impede a recuperação de documen

tos indexados pelo descritor eliminado.

b.) Possibilita que documentos anteriormente nao

recuperados agora o sejam, quando nao indexji

dos pelo descritor eliminado e possuam mais

-66-

descritores do que o perfil do usuário.

c.) Necessita de procedimentos que impeçam ou ini

nimizem o efeito "b" quando desejado, tais

como, redução do peso das áreas ou elevação

do patamar de corte.

d.) Reduz o tempo de processamento.

4.2.3 - Introdução de Descritores no Perfil

Pode-se a partir do registro I, conforme se viu

no § 4.2.2, determinar descritores que, para cada usuário,

ocorreram apenas em documentos de muito ou nenhum interes-

se (M ou N ) . A introdução no perfil de um usuário de de^

critores que ocorreram apenas em documentos julgados por

ele como de muito in te resse, embora pudesse aumentar seu lia

dice de recuperação provavelmente prejudicaria seu índice

de relevância quando o descritor introduzido fosse muito

genérico. Face a inexistência de estrutura no minithesaij

rus, impossibilitando que se intrc .luzissem no perfil ape-

nas descritores de sentido específico, (por processo auto-

mático), este recurso para melhoria da recuperação não foi

utilizado.

Optou-se assim pela introdução apenas de descri-

tores, nao pertencentes ao perfil, que só* ocorreram em d_o

cumentos de nenhum e/ou relativo interesse (N e/ou R). Os

novos descritores foram introduzidos com peso - 2 , a fim

-67-

de que sua coincidência exercesse na recuperação o papel

de um NÃO lógico. A figura 8 apresenta os perfis que

sofreram esta modificação ilustrando o número de descrito-

res introduzidos.

Com o objetivo de evitar-se a introdução de

critores negativos, que pudessem impedir a recuperação de

referências relevantes, algumas condições adicionais foram

requeridas:

Seja DM e DN o numero total de referências de

muito e nenhum interesse, respectivamente, recebido por um

us uario.

gativos:

Freqüência mínima para inclusão de descri tores ne

1.) 5% de DM + DN se P

2.) 5% de DN se P < 60%

60%

Por razoes de ordem operacional do sistema, £

tringiu-se a 5 o número máximo de descritores a serem in-

troduzidos em cada perfil. Quando mais de 5 descritores

atendiam a condição 1 ou 2 , enumerada acima, foram intro

duzidos os de maior freqüência.

-68-

4.2.3.1 - Influência da Introdução de Descritores no

Perfil

A introdução de um descritor negativo no pe£

fil aumenta o número de descritores do perfil, além do efei_

to de um NÃO lógico que elimina falsas coordenações e in_

corretas afinidades de descritores em benefício dos parâm^.

tros relevância e inversão.

Alguns descritores negativos poderão ser paj:

ciai ou totalmente redundantes e isto ocorrera quando:

a.) 0 perfil possuir descritores com peso positji_

vo que ocorram apenas em documentos avalia -

dos como N e/ou R.

b.) 0 descritor a ser introduzido for BT de ou,

tro descritor que também deva ser introduzi-

do.

c.) 0 perfil possui alguma ãrea através da qual

apenas documentos irrelevantes foram recupe-

rados. A redundância se deve ao fato de que

a eliminação da área dispensaria a introdu -

çao de descritores que recuperaram apenas do_

cumentos pertencentes a respectiva area.

A introdução de um descritor negativo em um

perfil traz como conseqüências:

-69-

1.) Dificuldade ou impossibilidade de recupera -

çao de documentos indexados pelo descritor

introduzido.

2.) Possibilidade de que documentos relevantes

anteriormente recuperados nao mais o sejam ,

quando nao indexados pelo descritor introdu-

zido e possuirem mais descritores do que o

perfil do usiT io (isto se deve ao fato de

que aumentando o número de descritores no pej

fil o peso dos documentos tende a diminuir fi

cando inferior ao patamar de corte).

3.) Necessidade de procedimentos que impeçam ou

minimizem o efeito anterior quando desejado,

tais como, aumento do peso das áreas ou redia

çao do patamar de corte.

4.) Aumento do tempo de processamento.

Nao obstante a introdução de descritores re_

dundantes nao trazer qualquer benefício, nenhum esforço fc£

feito para impedir que isto ocorresse.

4.2.4 - Alteração de Peso de Descritores

Determinados descritores ocorrem com maior fre-

qüência em documentos relevantes do que na base de dados

como um todo, formando ura conjunto de descritores para con

-70-

sultas, em potencial19. A utilidade de qualquer descri -

tor para consulta é quantificáve1 através de várias funções

utilizadas na literatura ' 8 ' l 9'2 l'22 ' 2 3 com o objetivo não

apenas de selecionar os descritores de maior utilidade co

mo também de atribuir-lhes maior peso.

No presente trabalho a função utilizada, denomi-

nada especificidade de descritor (S ) , é a seguinte:P

S - 3 + FM/(FM + FN) , S £ [3,4] (29)

onde

FM - numero total de referencias de muito inte -

resse (M) , contendo o descritor, recebi -

das pelo usuário

FN - número total de referências de nenhum inte-

resse (N) , contendo o descritor, recebj^

das pelo usuário.

Os pesos atribuídos por cada usuário a seus de_s_

critores dificilmente estão coerentes com a maior ou menor

utilidade dos mesmos, ou seja, são atribuídos pesos eleva-

dos a descritores de baixa especificidade e vice-versa.

-71-

Com o objetivo de sanar esta falha, porém respei^

tando parcialmente o peso atribuído pelo usuário, alterou-

se os pesos dos descritores de cada usuário através da e-

quação:

W « (2W. + S .)/3n í pi

(30)

onde

W - novo ieso do descritor in

W. - antigo peso normalizado do descritor i

S .- especificidade do descritor iPi

Utilizou-se no cálculo de S apenas resultadosP

obtidos através do cartão resposta ao invés de toda a base

de dados, afim de se avaliar este processo que embora des_

tituido de base estatística é bem mais rápido e menos one_

roso do que os utilizados por Barkla 2 2 e, Yu e Salton23

que exigem um novo processamento da toda a base de dados .

4.2.4.1 - Influência da Alteração de Peso de Descrito-

res

A análise da equação 29 deixa claro os se

guintes aspectos:

-72-

1.) Descritores que ocorrem em documentos de mu_i_

to e de nenhum interesse na mesma proporção

terão o mesmo valor para a especificidade, iii

dependentemente da freqüência absoluta de o-

corrência.

2.) 0 fato de existirem documentos indexados por

um descritor, porém nao recuperados, nao iri

terfere no valor da S para este descritor.

3.) Â especificidade de um descritor nao é in

fluenciada pelo número de documentos da base

de dados, relevantes ou nao, recuperados por

outros descritores do mesmo perfil.

A aplicação da equação 30 aos descritores de

um perfil teve influencia mais acentuada nos casos em que

provocou variação sensível no peso médio dos descritores

do perfil. Isto porque uma diminuição (ou aumento) no pe_

so médio dos descritores de um perfil provoca uma diminui-

ção (ou aumento) do peso dos documentos como um todo, ao

invés de simplesmente eliminar inversões e nao recuperar

referências irrelevantes, como seria de se desejar. A el£

vação do peso dos documentos foi benéfica para usuários com

patamar de corte acima do ideal e prejudicial aos demais.

A diminuição do peso dos documentos beneficiou usuários com

patamar de corte abaixo do ideal prejudicando os demais.

-73-

A alteração de pesos através das equações 29

e 30 nao se mostrou um processo efetivo para melhoria do

desempenho do sistema. As equações de Barkla 22 e Yu e

Salton 3 também foram testadas, considerando-se no levan-

tamento de seus parâmetros apenas os documentos recupera -

dos, nao se conseguindo igualmente resultados favoráveis .

A utilização de três equações distintas sem

bons resultados confirmou a idéia inicial do autor de que

o valor calculado para a especificidade de um descritornão

tem sentido quando nao se leva em conta sua ocorrência em

toda a base de dados.

4.2.5 - Elevação do Patamar de Corte

Viu-se no § 4.2.2.1 que a eliminação de um de_s_

critor tende a aumentar o peso dos documentos não indexa -

dos por ele, recuperando assim referências antes nao recu-

peradas; Viu-se igualmente, § 4.2.3.1 , que a introdução

de um descritor tende a diminuir o peso dos documentos nao

indexados por ele, impedindo a recuperação de documentos

antes recuperados.

Numa tentativa de neutralização parcial destes e_

feitos elevou-se o patamar de corte dos usuários que, após

a eliminação e a introdução de descritores no perfil, ficji

ram com um número de descritores superior ao existente no

-74-

perfil inicial. O novo patamar foi calculado do modo

posto a seguir, a partir da equação 18 e considerando-se

- coincidência de 1 descritor

- recuperação pelo parfil do usuário

- peso da área igual a 1

onde

Pa = (Pm + Nda

Pd = (Pm + Ndd ~ D > Ndd ( 3 2 )

N » P. * 1,24 / P (33)p d a

P - peso de seleção de um documento, coma coin

cidência de um descritor, antes da atuali-

zação do perfil

P - peso do descritor de menor pesom

N, - número de descritores no perfil inicialda

P, - peso de seleção de um documento, com a coin_

cidência de um descritor, apôs a atualiza-

ção do perfil

N,, - número de descritores no perfil atualizadoda

-75-

N - novo patamar de corte para o perfil atualj^

zado.

Através da analise dos vetores de avaliação e de

seleção de cada usuário para os envios de número 5 a 14, vo_

lume 6, pode-se determinar o menor peso entre aqueles das

referências relevantes recuperadas por cada perfil. Sele_

cionou-se para cada usuário, entre este peso mínimo e aqu_e_

le valor obtido pela equação 33 o de maior valor para ser

o novo patamar.

Nao se pode fazer experimentos com a redução do

patamar de corte, tendo-se em vista que todos os usuários

estavam com o patamar do sistema e para tanto seria nece£

sario a redução dos patamares de todos os usuários.

A figura 8 ilustra os perfis que sofreram alterai

çao no patamar de corte.

4.3 - Algoritmo I de Redução de Distorções e Resultados Ob

tidos

Aplicou-se ao perfil inicial de cada usuário, denomi_

nado Perfil I (anexo 1) o algoritmo abaixo:

1.) Eliminação de áreas, § 4.2,1, considerando-se as

referências do volume 6, número 5 a 14;

-76-

2.) Eliminação de descritores, § 4.2.2, conside-

rando-se o registro I e desde que o usuário:

- tivesse recebido um mínimo de 6 envios e

- tivesse recebido mais de 50 referências de

muito e/ou nenhum interesse;

3.) Introdução de descritores, § A.2.3, conside-

rando-se o registro I e atendendo as mesmas

condições do item anterior;

4.) Elevação do patamar de corte, § 4.2.4.

Com o novo perf i l assim obtido, denominado Per-

f i l II (anexo 3) e cujas alterações constara das figuras 7

e 8, fez-se outra recuperação através do algoritmo de sele

çao do sistema, § 1.4.4, obtendo-se os resultados i lus t ra -

dos no anexo 4 e figuras 9 e 10 que obedecem aos mesmos es

quemas do anexo 2 e figuras 5 e 6, § 2.5.

Comparando-se os resultados obtidos pelos Perfis

I e II , verifica-se que com respeito a inversão média to

dos os usuários melhoraram ou permaneceram estáveis no con

junto dos 10 envios, tendo havido para o todo uma redução

de 17% na quantidade de inversões; Verifica-se igualmente

que o número total de refei3ncias recuperadas sofreu uma

redução de 16% e o número de operações de confronto (" ina

tching ") reduziu-se em 16%.

- 7 7 -

I I 1 I I I

r\> i— t\>

O'COOOOK H' \ Co»£)r j>"N»j^oC-vCOOJ

1 oDo«^*)C••'OclOJ•-•^>JO•J^^i'-^o-4^^^-o•—

I < II O II f I

tI -n i

—rn i

I —C II o II • I1 l

Iw I

i i< I• 1

II * 1

II

P>JOI

i mm

I irmi a—i « o

i ii ;cm iI m |

-78-

PERFIL

NÚMERO

25 - 1

2 9 - 2

39 - 1

5 6 - 1

7 0 - 1

96 - 1

104 - 1

112 - 1

115 - 1

146 - 1

TODOS

RECUP.

- 1

- 73

0

- 3

- 2

- 2

- 11

- 1

18

0

RE LEV.

2

8

r-l

2

0

- 3

21

2

0

- 3

12

INVER.

MÉDIA

- 3

- 9

0

- 1

0

0

- 8

- 1

- 1

0

- 1

EFICÁCIA

a •= 0 .20

0

- 4

0

- 1

- 1

11

11

3

- 1

19

3

Figura 11 - Perfis que sofreram redução em P e/ou

R ütilizando-se o Perfil II

-79-

A figura 11 ilustra os perfis nos quais houve re_

duçao da recuperação e/ou da relevância, mesmo com melho-

ria da eficácia; 0 sinal menos indica uma redução do v<*

lor do parâmetro no Perfil II em relação ao Perfil I; Uma

analise e feita apontando-se as causas prováveis destas re_

duções .

Os perfis cujas falhas tiveram as mesmas causas

foram reunidos em 4 grupos, apresentados na figura 12, a

fim de que a analise fosse mais sucinta e objetiva.

GRUPO

1

2

3

4

NUMERO DOS P E R F I S

2 5 . 1 , 1 0 4 . 1 , 1 1 2 . 1 , 1 1 5 . 1

2 9 . 2 , 5 6 . 1

3 9 . 1 , 9 6 . 1 , 1 4 6 . 1

7 0 . 1

Figura 12 - Grupos de Perfis II com redução

de P e/ou R provocada pelas

mesmas causas.

Ao grupo I pertencem os perfis que embora tenham

sofrido uma redução no número de descritores, com o conse-

-80-

quente aumento do peso de suas referências, deixaram de re_

cuperar referencias antes recuperadas; Isto deveu-se ao

aumento do patamar que foi superior ao aumento de peso de

algumas referências H e N ; Além do mais, referencias re_

cuperadas pelo perfil do documento não sofreram aumento de

peso.

Os perfis do grupo 3 igualmente sofreram redução

no número de descritores contudo o aumento do patamar, por

ter sido inferior ao aumento de peso de algumas referên-

cias possibilitou a recuperação de referências antes naore_

cuperadas.

0 grupo 2 é constituido de perfis que tiveram o

número de descritores aumentado deixando assim de recupe_

rar referencias antes recuperadas uma ver que houve redu-

ção em seus pesos sem que o mesmo ocorresse com o patamar

de corte. 0 perfil 29.2 em especial, por possuir antes ji

penas 3 descritores, recuperava qualquer referencia em que

houvesse pelo menos uma coincidência, o que deixou de ocor

rer com o aumento de 5 descritores que reduziu drasticamen

te o índice de recuperação.

0 perfil 70.1, pertencente ao grupo 4, nao so-

freu qualquer modificação e contudo os resultados da apli^

cação do algoritmo de seleção não foram os mesmos. Este

usuário teve seu perfil modificado apôs o envio do volume

6, número 14, tendo-se tomado o cuidado de reconstituir seu

-81-

perfil; Pelos resultados alcançados o autor acredita que

o perfil tido como inicial na verdade nao o seja uma vez

que o controle de manutenção de perfis do SDI/CIN e pre_

cario.

A análise dos grupos 1, 2 e 3 mostra que o alg£

ritmo de seleção é muito sensível ao reajuste de patamar,

principalmente devido ao fato de uma referencia poder ser

recuperada pelo perfil do usuário ou do documento; Esta

sensibilidade interfere acentuadamente na recuperação de

referências cujos pesos estão no entorno do patamar de co_r

te, provocando ora aumento ora redução da recuperação de

documentos.

0 cálculo do índice de recuperação, levando - se

em conta apenas a base de dados do usuário (documentos pejr

tencentes as áreas selecionadas como de seu interesse) p£

de possibilitar a obtenção de um melhor Índice, principal-

mente através da eliminação de áreas que nao recuperam re_

ferências relevantes. Possibilita igualmente a obtenção

de um índice de recuperação para o sistema que pode afãs -

tar-se de sua realidade.

Admitindo-se a consistência do critério de ado-

ção da base de dados, a aplicação do algoritmo I é um pro

cesso altamente eficaz, uma vez que:

- 0 índice de recuperação do sistema permaneceu

-82-

estável em 80% nao obstante a influencia nega-

tiva do perf i l 29.2 que deixou de recuperar 19

referencias M antes recuperados, das 24 que

a amostra como ura todo deixou de recuperar:

- 0 índice de relevância teve um acréscimo de 12%

indo de 56% para 68%;

- A inversão média sofreu uma redução de uma in_

versão por usuário, por envio (17%);

- A eficiência do sistema, para a = 0.20 , me -

lhorou 3%, mesmo jã estando muito e levada(74%);

- Com exceção dos perfis do grupo 2, nenhum USUJ»

rio sofreu redução s ignif icat iva em seu desem-

penho .

4.4 - Extensão do Algoritmo I e Resultados Obtidos

Aplicou-se ao Perfi l I uma extensão do algoritmo I ,

§ 4 .3 , mediante a inclusão do procedimento de alteração de

pesos de descri tores , § 4.2.2 obtendo-se assim oPerfi l I I I .

Como os resultados alcançados com os perfis assim ob_

tidos fossem sensivelmente semelhantes aos alcançados, com

os Perfis I I , algumas modificações foram feitas em determi^

nados usuários do Perf i l II afim de se verif icar o acerto

ou não na determinação de causas de redução de P e/ou R

-83-

ocorridas com o Perfil II:

1.) Deixou-se de incluir os 5 descritores negad

vos no Perfil 19.1 (por ter área eliminada

que recuperava referências N);

2.) Elevou-se o peso das areas B25 e E43 do pej:

f i l 29.2 afim de compensar o aumento do núme_

ro de descritores, por não se poder abaixar

o patamar, e assim recuperar referências com

apenas uma coincidência com descritor posit_i_

vo;

3.) Deixou-se de reajustar o patamar de alguns

perfis a fim de se analizar sua influência

(figura 8);

4.) Elevou-se o patamar do perfi l 39.1, que de_

via ser 1.26, para 1.28 a fim de se analizar

sua influência.

0 anexo 3 apresenta os Perfis I II com as modificações

mencionadas acima, e as figuras 7 e 8 apresentam os perfis

que sofreram alterações, com exceção das de peso de descn

tores, em relação ao Psrfi l I .

Os resultados obtidos com o novo perfil sao i lus t ra -

dos no anexo 5 e figuras 13 e 14 que obedecem também aos

esquemas do anexo 2 e figuras 5 e 6, § 2.5.

-84 -

— — - - . _ e . o o o o

O

• rr iI » II <T1 I( O ~ Ii r-r- i

c I

r • - i

—rn I

—C I

I • II

•-• IX IO Im t

II >»I •III 3»t mmI onI —CI

Ii

i ü» iI mrr II Or- II —m i

"II

I 3C~ I

i o n t

Im I

o-n i

IIIi re

i — o ii o» ii • i

(D

! a,

O

aO

M

30C/3

U)

aS - 1

M

Pu

a>

o

0)1

(D

(D

H-O

OH-P>

i i i i i i

J <* *•* »-*w i—u

I —O I

I f

I

Z I

i mz ii m i

ji ~ c ti >-o i

> iI

I fTTTl Ii or- iI —>rn ll J>< I

i 4-n I

II I) m-n ii i

je iI nrn i

i •-«(•» iI O> II • II I

-85-

PERFIL

NUME RO

5 - 1

7 - 1

1 9 - 1

3 9 - 1

4 0 - 1

5 6 - 1

6 2 - 1

7 0 - 1

81 - 1

9 6 - 1

104 - 1

112 - 1

125 - 1

146 - 1

TODOS

RE CUP .

(%)

2

4

-13

-1

-9

-5

1

-3

-4

14

-11

0

18

1

RE LEV.

(%)

-1

-3

-4

0

2

2

-3

-1

5

-3

13

2

-6

-3

8

INVER.

MÉDIA

0

0

-1

0

-12

-1

0

0

-3

-1

-8

-1

0

0

-2

EFICÁCIA

a * 0.20

1

2

-10

-1

5

-3

0

-2

-1

11

11

3

0

19

3

Figura 15 - Perfis que sofreram redução em P e/ou R

utilizando-se o Perfil III

-86-

Assira como no § 4.3 comparou - se os resultados ob t i_

dos pelos Perfis I e III verificando-se que:

- Todos os perfis tiveram a inversão média melhorada

ou estabilizada em relação aos 10 envios;

- 0 número total de referências recuperadas, sofreu

uma redução de 11%;

- 0 número total de operações de confronto sofreu uma

redução de 16%.

Os perfis que apresentaram redução de P e/ou R são

ilustrados na figura 15, e na figura 16 foram grupados em

função das causas destas reduções.

GRUPO

1

2

3

4

N Ú M E R O D E P E R F I S

1 9 . 1 , 3 9 . 1 , 8 1 . 1 , 1 0 4 . 1 , 1 1 2 . 1

4 0 . \ , 5 6 . 1

5 . 1 , 7 . 1 , 6 2 . 1 , 9 6 . 1 , 1 2 5 . 1 , 1 4 6 . 1

7 0 . 1

Figura 16 - Grupos de Perfis III com redução de

P e/ou R provocada pelas mesmas

causas.

-87-

Os grupos da figura 16 foram numerados de modo a hja

ver una correspondência com os números de grupo da figura

12 no que se refere a identidade de causas de redução de P

e/ou K. Por este motivo serão analizados apenas os per-

fis que sofreram modificações em relação ao algoritmo e_x

tendido ou apresentaram alguma peculiaridade decorrente da

alteração de pesos de descrítores, uma vez que as causas ge

rais foram verificadas no § 4.3.

A nao inclusão dos 5 descritores negativos do perfil

19.1 no Perfil III, como fora feito no Perfil II, nao alte_

rou o número de referências de nenhum interesse (N), que

deixou de ser recuperado, (quatro referencias N),mostrando

que os descritores negativos eram redundantes e decorren -

tes da area irrelevante eliminada; Contudo a redução do

numero de descritores, com reajuste do patamar, impediu a

recuperação de 2 referências M anteriormente recuperadas

pelos Perfis I c II.

0 perfil 3lJ . 1 que teve o patamar reajustado para 1.23

ao invés de 1.26 como no perfil II, mesmo com elevação do

peso médio de seus descritores (de 3,57 para 3,72) deixou

de recuperar uma referência M, ao contrátio do Perfil II

que recuperou um '• a mais, o que confirma a sensibilidade

do algoritmo de seleção em relação a mudanças de patamar.

0 perfil 81.1, também pertencente ao grupo 1, embora

-88-

tenha sofrido redução do numero de descritores sem reajus-

te de patamar, deixou de recuperar algumas referências de

vido a redução do peso médio de seus descritores (de 4.0 pji

ra 3.91) que diminuiu o peso dos documentos.

A redução do peso médio dos descritores do perfil

104.1 provocou uma redução no peso das referências fazendo

com que documentos M e N recuperados pelo Perfil II de^

xassem de ser recuperados, embora mantendo a eficácia anU

riormente obtida.

0 perfil 56.1 mesmo com aumento do peso médio de seus

descritores (de 3,53 para 3,59) teve resultado semelhante

ao obtido com o Perfil II, confirmando assim as conclusões

obtidas no § 4.3 para os perfis do grupo 2. As referidas

conclusões sao igualmente confirmadas pelos resultados ob_

tidos pelo perfil 29.2 que teve os pesos de suas áreas el£

vadas; Com isto compensou-se a redução de peso de suas re_

ferências, decorrentes do aumento do número de descritores,

não deixando de recuperar nenhuma referencia M.

Todos os perfis do grupo 3 tiveram o peso médio de

seus descritores aumentado e com isto, mesmo aqueles que

sofreram reajuste de patamar, nao deixaram de recuperar r£

ferências antes recuperadas pelos Perfis I e II.

0 perfil 70.1 teve uma recuperação anômala em rela -

ção ao Perfil I confirmando assim sua inconsistência já ve

-39-

rificada no § 4.3 com o Perfil II; (Foram recuperadas 6 r e_

fare ii ei as M a menos e 2 N a mais).

Os resultados alcançados com o Perfil III, mostram

que a inversão nedia em relação aos dez envios melhorou ou

estabilizou-se para todos os perfis tendo havido uma redii

çao de 33Z em relação ao todo daamostra; Obteve-se igual -

mente um menor tempo de processamento em decorrência da re_

duçao do número, de referências recuperadas e de operações

de confronto.

4.5 - Comparação dos Resultados Obtidos com os Dois Algo -

ri tmos

A comparação dos resultados obtidos com os Perfis II

e III para a amostra como um todo deixa claro os seguintes

aspectos:

~ 0 índice de recuperação mais elevado obtido com o

Perfil III foi decorrente da baixa recuperação do

perfil 29.2 no Perfil II; A elevação dos pesos de

suas areas teria invertido esta situação;

- 0 aumento do índice de relevância obtido com o Pe£

fil II foi sensivelmente superior;

- A redução do tempo de processamento obtido pelo Per

fil II foi superior devido a sua raenor recuperação;

-90-

- A redução da inversão média nos dez envios conse -

guida pelo Perfil III, foi superior ( 33Z contra

17% ) , graças ao maior numero de referencias de muí_

to interesse (M) que deixaram de ser recuperadas

por este Perfil (a menor do perfil 2 9.2). A alte_

ração dos pesos dos descritores teria também pr£

porcionado, embora em menor escala, o mesmo efei-

to;

- 0 índice de eficácia conseguido pelos 2 Perfis foi

igual; A modificação conveniente do usuário 29.2

(e de quantos houvessem com aumento do numero de

descritores - grupo 2) teria proporcionado ao Ver_

fil II um Índice mais elevado.

A vista dos aspectos mencionados acima, e dos resul-

tados alcançados, conclui-se que:

1.) Perfis que tenham sofrido aumento do número de

descritores deverão ter os pesos de suas areas

aumentados afim de que referencias antes recupe-

radas nao deixem de se-lo devido a redução de

seus pesos;

2.) Os pesos das ãreas de cada perfil deverão ser rea

justados em função do menor peso de referencia M

recuperada pela area em questão;

3.) 0 algoritmo de seleção do SDI/CIN e muito sensí-

vel a reajustes de patamar; Antes de se reajus-

-91-

tar o patamar de um usuário que tenha sofrido r£

duçao no número de descritores deve-se saber se

o desejado é aumentar o índice de recuperação ou

de relevância;

4.) A eliminação de uma área que não recupera refe-

rencias relevantes reduz a base de dados do pej:

fil a que pertence; 0 critério de se considerar

para cada usuário apenas os documentos pertenceji

tes as suas áreas de interesse como formadores de

sua base de dados possibilita que perfis com ã-

reas eliminadas venham a ter acréscimo do índice

de recuperação;

5.) A introdução de descritores de baixa especifici-

dade, com peso negativo (nao lógico), auxilia o

aumento do índice de relevância, quando nao au

tnenta o número de descritores do perfil;

6.) Os perfis que forem alterados deverão ter seus

registros reinicializados a fim de se manter a

consistência dos arquivos. (A criação de um nc>

vo registro é preferível a sua reinicializaçao);

7.) Perfis com patamar de corte igual ou acima do pji

taraar do sistema recuperam apenas referências com

peso superior ao patamar de corte; Caso contrá-

rio recuperam também as referências de peso i -

gual, o que aparentemente é uma incoerência;

-92-

8.) O algoritmo I é mais eficiente, diminuindo invejr

soes e melhorando o índice de relevância, mesmo

reduzindo o número de referências de muito inte-

resse ( M ) recuperadas.

CAPÍTULO V

CONCLUSÃO

5.1 - Considerações Finais

Os fatores que interferem no desempenho de um S D I

sao de toda ordem e seus efeitos ora somam-se, ora subtraem

-se, dependendo das circunstâncias era que ocorrem.

Esta tese objetivou o levantamento e análise desses fa

tores, em diferentes contextos do SDI/CIN/CNEN," bem como bus

cou procedimentos automáticos que reduzissem ou eliminassem

seus efeitos; Não obstante os resultados positivos alcança

dos pelo trabalho, constitui-se em apenas mais um passo vj

sando o desenvolvimento de sistemas eficie.ites de tnanuten -

ção de perfis. 0 estudo possibilitou o levantamento de pon

tos sensíveis do sistema de SDI do CIN/CNEN e o autor acre-

dita que este tenha sido o principal beneficio prestado p^

Io trabalho.

No § 4.5 foram enumeradas as principais conclusões es_

pecificas para a atual versão do SDI/CIN/CNEN. A seguir são

apresentadas algumas conclusões mais abrangentes e que pojr

tanto se aplicam a sistemas de SDI em geral:

a.) A adoção de um modelo matemático, que reflita com

a maior fidelidade possível o comportamento do sis_

tema, é ferramenta de grande valia, em seu estudo

e avaliação, por possibilitar que se simule seu

funcionamento em diferentes situações.

-93-

-94-

b.) Todas as informações disponíveis nas diferentes

bases de dados deverão, sempre que possível, ser

passíveis de utilização quando desejado, sem que

para tanto se tenha que refazer o sistema.

c.) A definição precisa e consistente dos critérios

de avaliação de um SDI, é extremamente importaji

te uma vez que critérios diferentes podem levar

um mesmo sistema a ser avaliado como eficiente ou

não.

d.) 0 perfeito dimensionamento do sistema, quando de

seu projeto, é condição sem a qual não se pode a_

tingir com sucesso o previsto no item "b".

e.) 0 critério de seleção, de referências bibliográ-

ficas para cada usuário,deve ser expresso por um

algoritmo onde a variação de valor dos parârae

tros intervenientes, sob condições predetermina-

das, conduza a resultados esperados e adequados

a cada perfil de usuário.

5.2 - Distorções - Novos Estudos Sugeridos

No desenrolar deste trabalho, ao se fazer o estudo

do SDI/CIN e de seus prováveis fatores de distorção, esbajr

rou-se freqüentemente em problemas que demandavam um estu-

do mais alongado. Considerando-se que o sísteisa e novo e

foi pouco estudado (o único trabalho de extensão é o de A

-95-

raújo lc) optou-se por uma abordagem geral dos aspectos j uJL_

gados mais relevantes ao invés de ura estudo em profundida-

de a respeito de algum tópico especial.

Julgou-se que assim procedendo se estaria abrindo no

vas áreas para pesquisa e desenvolvimento quer do atual SDI

quer de suas futuras versões.

A seguir são enumerados alguns tópicos que explícita

ou implicitamente foram abordados e que o autor considera

merecedores de maiores atenções em futuros trabalhos:

a.) Estudo de um critério ótimo para se julgar uma

referencia de razoável interesse (R) como sendo

M ou N. A discrepância entre os resultados obti-

dos por Araújo10 e pelo autor para os índices de

recuperação e de relevância, a partir de uma mej3_

ma amostra avaliada igualmente, demonstra que o

referido critério pode alterar de modo acentuado

os valores destes parâmetros.

b.) Influencia no desempenho do sistema da valoriza-

ção dos descritores que compõem os pares M-Q das

referências, sobre os demais descritores;

c.) Estudo da distribuição das referências recupera-

das pelo perfil do documento e do usuário, por jí

rea. É sabido que o número médio de descritores

que indexam os documentos do INIS é aproximada -

-96-

mente 20 e que portanto perfis cora mais de 20 _

critores deveriam ter mais referências recupera -

dos pelo perfil ào documento; Isto contudo nem

sempre acontece comprometendo os critérios de re^

juste de patamar ao se alterar o número de descri^

tores de um perfil;

d.) Influência da alteração de peso dos dcscritores de

um perfil nos parâmetros de distorção ao calcular

-se a especificidade de cada descritor através das

referencias da base de dados, ao invés das refe -

rencias recuparadas, e mediante equações como as

utilizadas por Robertson e Spark Jones 2 "* .

e.) Estudo das causas de variação muito acentuada (

mais de 3 desvios padrão) dos valores de P e/ou

R, de um envio para outro, para determinados usuá

rios. As avaliações destes usuários seriara inco_n

sistentes ou existiria tamanha aleatoriedade ine-

rente ao processo de recuperação? As curvas de

distribuição de P e R sao normais?

f.) Influência da utilização de um minithesaurus es-

truturado e por área para a construção e manuten-

ção de perfis, (inclusive introdução de descrito-

res de elevada especificidade) no desempenho do

sis tema.

-97-

g.) Estudo de processos que possibilitem dar priori-

dade a relevância ou a recuperação conforme des^

jado pelo usuário; Implementação de métodos de

atualização automática que respeitem esta priorjL

dade individual, dentro do contexto atual do sͣ

tema.

BIBLIOGRAFIA

1. F. W. Lancaster, Evaluation of the Medlars Demand

Search Service, Pb-178660, Washington, National Librji

ry of Medicine, (1968).

2. T. Radecki, New Approach to the Problem of Informa -

tion System Effectiveness Evaluation, Information Pr£

cessing & Management, _1_2, 319-326, (1976).

3. E. Butterly, Selective Dissemination of Information

with Special Reference to SA/INIS/SDI, Pretoria Uni-

versity (South Africa) Faculty of Arts and Philophy

(Thesis, M.Sc), 115 p., (1974).

4. D. A. Kemp, Relevance, Pertinence and Information Sys_

tem Development, Inf. Stor., Retr., H), 37-47, (1974).

5. W. Goffman e V. A. Newill, A Methodology for Test and

Evaluation of Information Retrieval System, Inf.Stor.

Retr., 2» 19-25, (1966) .

6. G. Salton, Automatic Information Organization and Re_

trieval, McGraw-Hill, (1968).

7. Inis Today, An Introduction to the International Nu -

clear Information System, IAEA (Viena), (1977).

-98-

-99-

8. A. C. Souza, Representação Sistêmica de um Serviço de

Informações Tecnico-Cientificas, 1. Reunião Brasilei-

ra de Ciência da Informação, 20 p., (1975).

9. CIN/CNEN, Documento Interno.

10. E. E. R. Araújo, Atualização de Perfis em um Sistema

de Disseminação Seletiva de Informações, Instituto M_i_

litar de Engenharia (Tese de Mestrado), 98 p., (1977).

11. C. W. Cleverdan et ai., Factors Determining the Per-

formance of Indexing Systems, As lib- Cran f ie 1 d Research

Project', Cranfield England, (1966).

12. A. E. Cawkell, A Measure of "Eficiency Factor" - Com

munication Theory Aplied to Document Selection Sys -

tems, Information Processing & Management, 11, 243-

248, (1975).

13. J. Belzer, Information Theory as a Mesure of Informa-

tion Content, JASIS, 300-304, (1973).

14. A. R. Meetham, Communication Theory and the Evalua-

tion of Information Retrieval Systems, 5_, 129 - 134 ,

(1969) .

15. C. J. Van Rijsbergen, Information Retrieval, Buther-

worths, London, (1975).

-100-

16. R. H. Wagner e T. H. Higins , A Se lec t ive Current-Awa

reness System Using Engineering Index 's P l a s t i c s Data

Base, J . Chemical Docum. , 9_, 80-88, (1969).

17. P. Leggate et a l , Evaluation of an SDI Service Based

on the Index Chemicus Registry System, JJ3, 192 - 203,

(1973) .

18. F. H. Barker, D. C. Veal e B. K. Wyatt, Towards Auto-

matic P ro f i l e Construct ion, J . Docum., 2_8, 44-55, . .

(1972) .

19. A. Robson e J . S. Lougman, Automatic Aids to P ro f i l e

Const ruct ion, JASIS, 213-223, (1976).

20. J . M. Carrol e J . M. Tague, Use of an Automatic Text

Analyzer in Prepara t ion of SDI P r o f i l e s , JASIS,24(4),

277-281, (1973).

2 1 . G. Sal ton , A. Wong e C. T. Yu, Automatic Indexing U-

sing Term Discr iminat ion and Term Prec i s ion Measure -

ments, Information Processing & Manegement, 12(1) , 43

- 5 1 , (1976).

22. J . K. Barkla, Construction of Weighted Term P r o f i l e s

by Measuring Frequency and Spec i f i c i t y in Relevant _I_

terns, Second I n t e r n a t i o n a l Cranfield Conference on Me_

chanized Information Storage and Ret r ieva l Systems ,

Cranf ie ld , Bedford, (1969).

-101-

23. C. T. Yu e G. Salton, Precision Weighting - An Effec-

tive Automatic Indexing Method, J. ACM, 2_3, 76 - 88,

(1976).

24. S. E. Robertson e K. Spark Jones, Relevance Weighting

of Search Terms, JASIS, 129-146, (1976).

T c s e apresentada por

e aprovada pelos Srs

LUIZ OTÁVIO DE FREITAS QUEIROZ

7ALTAÍR CARVALHO DE J5OUZA - MSc

/ •

•ZCzJà •y,y.

E D U A R D < V Á Í J G Í J 5 T 0 OROSC(h OArCVÃO MS c

IVAÍTO HUMBERT MARCHEZI - MS<

INSTITUTO MILITAR DE ENGENHARIA

PRAÇA QEN TIBÜRaO S/N — PRAIA VERMELHA — ZC 82

Tal.: 266-7922 R. 226 ( Livraria )

20.000 — Rio <• Janair© — Eat. do Rio

BRASIL

lnrtpr»»*e rm. I M A tf IME