12
Como Escolher os Campos para um Banco de Dados Anna da Soledade Vieira Professora da Escola de Biblioteconomia da UFMG RESUMO Partindo de dados obtidos no Arquivo da FINEP (Financiadora de Estudos e Projetos) e com a finalidade de montar um banco de dados sobre documentação típica de administração de projetos, duas metodologias de bases estatísticas são apresentadas para a definição de campos de informação. Uma, baseada na ordenação dos campos segundo sua freqüência nas consultas dos usuárias, seria cabível quando estes tivessem interesses e atividades comuns. A segunda metodologia — teste do x 2 seria aplicável quando os usuários tivessem interesses e atividades diversificados. Não obstante alguns dos mais sérios problemas da sociedade industrial ainda estarem associados a métodos desatualizados ou inadequados de tratar e interpretar informações, o interesse emergente pela formação de coleções de documentos relevantes ligadas a serviços de informação nas áreas de Ciência e Tecnologia são indicativos de que o registro dos eventos naquele domínio tornou-se um requisito básico da civilização. (1) Cada elemento isolado que o sistema registra constitui um dado, o qual, ao ser elaborado ou conjugado a outros para fins de comunicação, transforma-se em informação. Poder-se-ia dizer que, em um sistema de recuperação de informações o dado é a matéria prima e a informação é o produto capaz de gerar uma ação, modificar um comportamento ou propiciar uma tomada de decisão. No processamento e transferência da informação tendo em vista a pesquisa cientifica, o desenvolvimento econômico e o bem-estar social, arquivos, bibliotecas e centros de documentação tem igual responsabilidade e importância. Entretanto, estas três instituições não tem recebido idêntico tratamento, seja em âmbito oficial, seja no setor privado, ficando os arquivos relegados a um plano inferior. Com relação ao Brasil, J. Esposel (2) denuncia o descaso no tratamento da documentação administrativa e história nacional, embora esforços isolados venham recentemente sendo feitos no sentido de modernização do tratamento de arquivos oficiais e empresariais. Por se constituírem de documentos gráficos, geralmente não publicados ou de publicação limitada, os arquivos representam uma importante parcela dos registros nacionais, seja no aspecto da documentação histórica, econômica e social, seja no que concerne à documentação cientifica e técnica. Do ponto de vista empresarial, os arquivos são também imprescindíveis uma vez que as possibilidades de êxito se baseiam na programação do trabalho, na precisão das informações e na rapidez com que estas são fornecidas. Com este enfoque, a Financiadora de Estudos e Projetos — FINEP decidiu-se pela reorganização de seu Arquivo e a criação de um banco de dados, que informasse sobre a documentação ali arquivada e sobre os projetos financiados pela Empresa. Planejado o novo sistema e implantado um primeiro módulo, como projeto piloto, surgiu a necessidade de avaliação de sua estrutura e de seus produtos. Esse trabalho foi a motivação inicial para a pesquisa a seguir relatada, a qual foi anteriormente objeto de tese (3) para obtenção do Grau de Mestre pelo Curso de Pós-Graduação em Ciência da Informação, do Instituto Brasileiro de Bibliografia e Documentação. Banco de dados, no presente trabalho, é tomado como uma coleção de informações inter-relacionadas de maneira coerente e que podem ser recuperadas sob quaisquer chaves de classificação ou condições lógicas, embora armazenadas de maneira não redundante. (4) Um banco de dados é constituído de unidades físicas denominadas arquivo. Estes, por sua vez, são formados por um conjunto de registros lógicos, os quais se constituem de campos, isto é, áreas do banco de dados, destinadas a receber dados com idênticas características. AMBIENTE DO SISTEMA A fim de que quaisquer generalizações aqui feitas para arquivos de administração de projetos possam ser compreendidas dentro de suas limitações, é necessário que se descreva a FINEP e seu Arquivo, ambiente em que se desenvolveu a pesquisa e a partir do qual todas as conclusões foram extraídas. A FINEP, órgão da Secretaria de Planejamento Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 41

Como escolher campos

Embed Size (px)

Citation preview

Page 1: Como escolher campos

Como Escolher os Campos para um Banco de Dados

Anna da Soledade VieiraProfessora da Escola de Biblioteconomia da UFMG

RESUMO

Partindo de dados obtidos no Arquivo da FINEP(Financiadora de Estudos e Projetos) e com afinalidade de montar um banco de dados sobredocumentação típica de administração de projetos,duas metodologias de bases estatísticas sãoapresentadas para a definição de campos deinformação. Uma, baseada na ordenação doscampos segundo sua freqüência nas consultas dosusuárias, seria cabível quando estes tivesseminteresses e atividades comuns. A segundametodologia — teste do x2 — seria aplicávelquando os usuários tivessem interesses e atividadesdiversificados.

Não obstante alguns dos mais sérios problemas dasociedade industrial ainda estarem associados amétodos desatualizados ou inadequados de tratar einterpretar informações, o interesse emergentepela formação de coleções de documentosrelevantes ligadas a serviços de informação nasáreas de Ciência e Tecnologia são indicativos de queo registro dos eventos naquele domínio tornou-seum requisito básico da civilização. (1)Cada elemento isolado que o sistema registraconstitui um dado, o qual, ao ser elaborado ouconjugado a outros para fins de comunicação,transforma-se em informação. Poder-se-ia dizerque, em um sistema de recuperação de informaçõeso dado é a matéria prima e a informação é oproduto capaz de gerar uma ação, modificar umcomportamento ou propiciar uma tomada dedecisão.No processamento e transferência da informaçãotendo em vista a pesquisa cientifica, odesenvolvimento econômico e o bem-estar social,arquivos, bibliotecas e centros de documentaçãotem igual responsabilidade e importância.Entretanto, estas três instituições não tem recebidoidêntico tratamento, seja em âmbito oficial, seja nosetor privado, ficando os arquivos relegados a umplano inferior.Com relação ao Brasil, J. Esposel (2) denunciao descaso no tratamento da documentaçãoadministrativa e história nacional, embora esforçosisolados venham recentemente sendo feitos nosentido de modernização do tratamento de arquivosoficiais e empresariais.

Por se constituírem de documentos gráficos,geralmente não publicados ou de publicaçãolimitada, os arquivos representam uma importanteparcela dos registros nacionais, seja no aspecto dadocumentação histórica, econômica e social, seja noque concerne à documentação cientifica e técnica.Do ponto de vista empresarial, os arquivos sãotambém imprescindíveis uma vez que aspossibilidades de êxito se baseiam na programaçãodo trabalho, na precisão das informações e narapidez com que estas são fornecidas.Com este enfoque, a Financiadora de Estudos eProjetos — FINEP decidiu-se pela reorganizaçãode seu Arquivo e a criação de um banco de dados,que informasse sobre a documentação ali arquivadae sobre os projetos financiados pela Empresa.Planejado o novo sistema e implantado umprimeiro módulo, como projeto piloto, surgiu anecessidade de avaliação de sua estrutura e de seusprodutos. Esse trabalho foi a motivação inicialpara a pesquisa a seguir relatada, a qual foianteriormente objeto de tese (3) para obtençãodo Grau de Mestre pelo Curso de Pós-Graduaçãoem Ciência da Informação, do Instituto Brasileirode Bibliografia e Documentação.Banco de dados, no presente trabalho, é tomadocomo uma coleção de informações inter-relacionadasde maneira coerente e que podem ser recuperadassob quaisquer chaves de classificação ou condiçõeslógicas, embora armazenadas de maneira nãoredundante. (4) Um banco de dados éconstituído de unidades físicas denominadasarquivo. Estes, por sua vez, são formados por umconjunto de registros lógicos, os quais seconstituem de campos, isto é, áreas do banco dedados, destinadas a receber dados com idênticascaracterísticas.

AMBIENTE DO SISTEMA

A fim de que quaisquer generalizações aqui feitaspara arquivos de administração de projetos possamser compreendidas dentro de suas limitações, énecessário que se descreva a FINEP e seu Arquivo,ambiente em que se desenvolveu a pesquisa e apartir do qual todas as conclusões foram extraídas.A FINEP, órgão da Secretaria de Planejamento

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 41

Page 2: Como escolher campos

ANNA DA SOLEDADE VIEIRA

da Presidência da República, é constituída portreze setores, a saber: Presidência (PRES),Více-Presidência (VICE-PRES), Departamentojurídico (DEJ), Departamento Administrativo(DAD), Departamento Financeiro-Contábil (DFC),Centro de Processamento de Dados (CPD), Grupode Ciência e Tecnologia (GCT), Grupo deEstudos e Projetos (GEP), Grupo de Pesquisa(GP), Grupo de Estudos de Fontes Alternativas deEnergia (GE), Núcleo do Banco Interamericanode Desenvolvimento (N. BID), Grupo de Assessoriapara o Gás Combustível (G. GAS) e ProgramaNacional de Treinamento de Executivos (PNTE).Seu campo básico de atuação é o financiamento deestudos, projetos e programas de desenvolvimentoeconômico, social, científico e tecnológico,apresentados por entidades públicas e privadas.Embora cada programa tenha característicaspróprias, em geral todos os projetos incluemdocumentos de natureza administrativa, financeiro-contábil e jurídica. Toda a documentaçãogerada desde a solicitação inicial e durante todasas etapas da vigência dos contratos vai agregar-seao Arquivo, de uso reservado aos funcionáriosda Empresa.Para otimizar as tarefas de administração decontratos foi criado um banco de dados,compreendendo quatro partes ou arquivos: um,referente aos eventos esperados e ocorridos sobrecada contrato (ADM-CONT); o segundo,relativo ao controle financeiro-contábil(CASH-FLOW); o terceiro, contendo ascaracterísticas de todos os projetos em andamento(CADASTRO)) e, finalmente, o quarto, objetodesse estudo, referente à documentação do Arquivo(DOCUMENTOS).

TEMA DA PESQUISA

Duas perguntas básicas deveriam ser respondidasdurante a avaliação do banco de dados da FINEP,nos aspectos concernentes a seu arquivo

DOCUMENTOS:

— os campos incluídos eram realmente os devidos?— qual a força de recuperação seletiva desses

campos?

A primeira etapa dessa investigação foi a busca deuma metodologia para a definição do conjuntoideal de campos para o banco de dados da FINEP,segundo as necessidades do ambiente aqui descrito.O presente trabalho descreve essa pesquisa e,assim sendo, enfoca:

— arquivos especializados em administração deprojetos;

— definição de campos de informação para umbanco de dados em computador.

OBJETIVO DA PESQUISA

A investigação se constitui em uma tentativa dedesenvolvimento de metodologias alternativas, comvistas a estabelecer um modelo de sistema derecuperação de informações para arquivos deadministração de projetos, podendo, entretanto, asmetodologias resultantes servir de orientação paraarquivos de outras áreas.No atual contexto, sistema de recuperação deinformações deve ser compreendido como oconjunto ideal de campos que comporão o banco dedados e aos quais a indexação deverá se estenderpara a caracterização exata de cada documento.Desde que o propósito de qualquer sistema deinformação é prover o usuário com documentosrelevantes ao seu interesse, ele deve ser solicitado aestabelecer os parâmetros da recuperação e a julgaro produto recebido. As medidas mais comumenteusadas para avaliar a relevância da recuperaçãosão precisão e revocação ("recall"). Precisãorefer-se à capacidade do sistema de rejeitar osdocumentos não-relevantes à pergunta, enquantorevocação mede sua capacidade de recuperar todosos documentos relevantes (5).A observação do comportamento dos usuários doArquivo da FINEP leva à conclusão de que aprecisão é mais importante que a revocação narecuperação de documentos para efeitos deadministração de projetos. Assim é que, para oadministrador saber se uma atitude do mutuárioapoia-se nos termos do acordo firmado,somente através do contrato referente àqueleprojeto específico poderá ser esclarecida suadúvida; nenhum outro documento do mesmo projetoou qualquer contrato de outro projeto dar-lhe-á asinformações necessárias. Solicitações de todos osdocumentos de um certo conjunto são poucofreqüentes, o que confirma a menor importância darevocação para o sistema.Partindo-se da premissa anterior e em se tratandode documentos com caracteres diferenciais(facetas) muito numerosos e diversificados, épressuposto que a maior precisão está diretamenterelacionada com três fatores:

— a exaustividade na definição do banco de dados,isto é, a criação de tal variedade de campos deinformação que possibilite exaustividade naindexação e na estratégia de busca;

— a profundidade da indexação, isto é, cadadocumento deverá ser descrito sob todas as suasfacetas (exaustividade) e, dentro de cadafaceta, da maneira mais exata (especificidade).Este cuidado levará ao equilíbrio ideal entreurna força generalizadora e outra restritiva,atingindo-se aquele nível ótimo de indexaçãoque, segundo Cleverdon (6), existe paracada sistema;

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 42

Page 3: Como escolher campos

COMO ESCOLHER OS CAMPOS PARA UM BANCO DE DADOS

— a exatidão da estratégia de busca, ou seja:exaustividade quanto ao número decaracterísticas do documento, especificidadequanto ao nível dentro de cada uma dascaracterísticas e lógica no estabelecimento dasconexões entre os termos. Esta afirmativaconfirma as conclusões a que chegou Lancaster(7) : para recuperação de informações sãoimportantes tanto o alto nível de exaustividadequanto o de especificidade na busca, uma vezque eles reduzem a classe dos documentosaceitáveis, conduzindo à alta precisão e à baixarevocação pois quanto menor o número dedocumentos recuperados, maior a probabilidadede precisão.

Considerando-se que, em banco de dados, asfunções de indexação e de recuperação sãodependentes da existência do campo no sistema,concluiu-se que a definição dos campos de maneiraexaustiva é condição necessária, embora nãosuficiente, para uma recuperação precisa.Pode-se deduzir, então, que o modelo capaz deatender à precisão requerida pelos usuários dearquivos de administração de projetos ou dearquivos de quaisquer outras áreas com idênticanecessidade de precisão seria um sistema queabrigasse todos os campos de informação existentesnos documentos arquivados, a fim de permitir, nasfases posteriores do trabalho, a perfeitaidentificação de cada documento, sob todas as suasfacetas, tanto em relação aos seus aspectos formaisquanto aos de conteúdo e situacionais. Cada umadas características rejeitadas na definição dosistema redundaria em indexação e buscadeficientes, resultando, portanto, em recuperaçãocom baixa precisão.Pesquisa interna do Centro de Processamento deDados (CPD) da FINEP concluiu pela avaliaçãodo custo de cada novo termo (unidades deinformação armazenadas em um campo) de seubanco de dados em cerca de Cr$ 0,19. Uma vez quea cada novo campo incluído no sistema correspondeum aumento de custo igual ao produto de Cr$ 0,19pelo total de seus termos a serem indexados,o equilíbrio na definição do banco de dadosdeverá ser encontrado através do grau deutilização dos campos pelos usuários.Essa decisão apresenta uma novidade em relaçãoàs metodologias descritas na literatura de Ciênciada Informação. Enquanto usualmente seconsidera a freqüência de termos emdocumentos, no presente trabalho propõe-seinvestigar a partir da ocorrência dos campos nasperguntas dos usuários.

MATERIAL

Com a finalidaed de identificar as necessidades dosusuários do Arquivo, bem como seu comportamentoem relação à busca de documentos, foramcoletadas todas as 224 perguntas feitas por eles ao

Arquivo, tanto pessoalmente quanto por telefone,durante o mês de julho de 1974.Sendo a análise e a execução dos projetosatividades continuadas, cada mês se iniciam e seconcluem contratos. Não há, portanto, épocas depique, nem de baixa procura ao Arquivo. Daí sejustificar uma amostra aleatória simples, tendosido escolhido o mês de julho, após consulta àtabela de números equiprováveis de Hald (8).Os pedidos, no total de 224, foram anotadosexatamente conforme o solicitante se expressou. Aseguir cada pergunta foi analisada paraidentificação dos campos que a compunham eregistrada a ocorrência desses campos nas perguntas.Paralelamente, foi feita a análise da documentaçãofornecida, identificados os campos de informaçãoexistentes e verificada a freqüência de suaocorrência nos 224 documentos.Os cálculos foram parcialmente executados emcomputador IBM/360-40, do Centro de Computaçãoda UFMG, utilizando-se o Programa de TabulaçãoCruzada - PRTC.Os campos identificados nas perguntas foramreconhecidos também na documentação, diferindoapenas na freqüência. São ao todo 29, a saber:

— tipo de documento: o aspecto formal dodocumento. Exemplo: carta, contrato, ofício etc.

— veículo da informação: o canal de comunicação.Exemplo: Diário Oficial da União onde sepublicam os contratos aprovados;

— número do documento: número com que ainstituição de origem caracteriza o documento;

— número do protocolo: número através do qual aFINEP incorpora o documento ao seu acervo;

—' data do documento: data de origem;

— data do protocolo: data da incorporação dodocumento ao Arquivo da FINEP;

— instituição de origem: nome da entidade daqual provém o documento;

— instituição de destino: nome da entidade à qualo documento se destina;

— signatário: nome da pessoa que assina odocumento;

— pessoa destinatária: nome da pessoa a quem odocumento é endereçado;

— cargo do signatário: posto ocupado pelosignatário do documento;

— cargo do destinatário: posto ocupado pelodestinatário do documento;

— assunto: as ações administrativas com que odocumento se relaciona ou o campo doconhecimento sobre o qual versa;

CL Inf., Rio de Janeiro, 4(l):41-53, 1975 43

Page 4: Como escolher campos

ANNA DA SOLEDADE VIEIRA

— referências: correlação de conteúdo entredocumentos, um mencionando outro;

— anexos: correlação física entre documentos,um apenso a outro;

— código do projeto: código alfanuméricorepresentativo do projeto;

— nome do projeto: nome oficial do projeto;

— variações do nome do projeto: apelidos que oprojeto recebe internamente;

— mutuário: entidade responsável pelo projeto;

— executor: setor subordinado ao mutuário, ondeé implantado o projeto;

— setor FINEP: nome do programa da FINEP aoqual o projeto está vinculado;

— classificação do projeto: área em que o projetose enquadra, seja na classificação interna doGEP, seja na do Plano Básico deDesenvolvimento Científico e Tecnológico(PBDCT) utilizada pelo GCT;

— fonte de recursos: Instituições nacionais einternacionais de onde se provêm os recursosaplicados ao projeto;

— Estado(s) do Brasil: unidade federativa ondese realiza o projeto;

— agente financeiro (AF): Banco deDesenvolvimento regional responsável pelorepasse de verbas;

— agência do AF: subdivisão estadual dos Bancosregionais;

— nome da consultoria: nome do escritóriotécnico que dá consultoria ao projeto;

— registro da consultora: número de registro quea consultora tem no cadastro da FINEP;

— valor: quantia a que o documento se refere.Exemplos: valor do financiamento, no contrato;ou valor pago, em um recibo.

TRATAMENTO, ANALISE E INTERPRETAÇÃO

Os dados da amostra foram tratadosestatisticamente, buscando elementos quepermitissem a identificação de quais os camposideais que o banco de dados deveria incluir, a fimde cobrir todas as facetas da documentação útil.Os passos seguidos para cumprimento do objetivoforam:

a) comparação entre o potencial informativoexistente nos documentos e seu uso efetivopelos usuários;

b) análise das perguntas para verificação daexistência de um núcleo de campos, comum atodos os Departamentos.

Duas metodologias básicas foram seguidasutilizando instrumentos estatísticos para tratamentodos dados obtidos com as perguntas dos usuários:

a) estudo da freqüência relativa dos campos nasperguntas, sem distinção de Departamentoou tipo de documento;

b) teste do x2 (qui-quadrado) para identificaçãode necessidades comuns a todos osDepartamentos com referência aos campos deinformação.

POTENCIALIDADE VERSUS USO DOSCAMPOS

A observação das Tabelas 1-2 permite a análisecomparativa da ocorrência dos campos deinformação nos documentos e nas perguntas.

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 44

Page 5: Como escolher campos

COMO ESCOLHER OS CAMPOS PARA UM BANCO DE DADOS

TABELA 1: CAMPOS IDENTIFICADOS NAS PERGUNTAS DOS USUÁRIOS DO ARQUIVO

(FINEP, RIO DE JANEIRO, JULHO DE 1974)

Fonte: Pesquisa da autora no Arquivo da FINEP.

* O somatório dessa coluna não é significativo,

fr : freqüência relativa ao somatório de f (755)

frp : freqüência relativa ao total de perguntas feitas ao Arquivo (224)

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 45

Nome dos Campos

Tipo de documento

Assunto .

Instituição de origem

Nome da consultoraAgente financeiroInstituição de destinoVariações do nome do projetoPessoa destinatáriaNúmero do protocoloVeículo da informaçãoNº registro da ConsultoraNome do projetoData do protocoloValor

Signatário . .Anexos . . . .Cargo do signatárioCargo do destinatárioExecutor do projetoSetor FINEPAgência do AFlistados do BrasilClassificação do projetoFontes de recursos . . . .

T O T A L

f

14811972705441382725211614141111109987755433211

755

fr

0196015800950,0930072005400500,0360,0330,0280,0210,0190,01900150,0150,0130,0120,0120,011000900090,00700070,00500040,0040,0030,0010,001

1,000

frp

06610532032203130242018401700 1210,11200940,07100630063004900490045004000400036003100310,02200220,01800130,0130,0090,0040,004

Page 6: Como escolher campos

ANNA DA SOLEDADE VIEIRA

TABELA 2: CAMPOS IDENTIFICADOS NOS DOCUMENTOS DO ARQUIVO

(FINEP, RIO DE JANEIRO, JULHO DE 1974)

Fonte: Pesquisa da autora no Arquivo da FINEP

* O somatório dessa coluna não é significativo

fr : freqüência relativa ao somatório de f (4069)

frp : freqüência relativa ao total dos documentos fornecidos (224)

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 46

Nome do Campo

Tipo de documento . . . . . . . . . . . .

Instituição de origemSetor FINEPNome do projeto . . •Classificação do projeto

Data do documentoSignatárioMutuárioEstados do BrasilCódigo do projetoInstituição de destinoCargo do signatárioPessoa destinatáriaNúmero do documentoVariações do nome do projetoNúmero do protocolo . .Data do protocoloNome da consultoraNº> registro da consultoraCargo do destinatárioReferênciasAgente financeiroAnexosValorExecutorAgência do AFVeículo da informação

T O T A L

f

224224220213207207207202202202202200184153135121106979797979072705952504534

4069

fr

0,0550,0550,0540,0520,0510,0510,0510,0500,0500,0500,0500,0490,0450,0380,0330,0300,0260,0240,0240,0240,0240,0220,0170,0170,0140,0130,0120,0110008

1,000

frp

1,0001,0000,9820,9510,9240,9240,9240,9020,9020,9020,9020,8930,8210,6830,6030,5400,4730,4330,4330,4330,4330,4020,3210,3130,2630,2320,2230,2010,152

Page 7: Como escolher campos

COMO ESCOLHER OS CAMPOS PARA UM BANCO DE DADOS

Verifica-se pela simples observação dessas tabelasque a ocorrência dos campos nos documentosmostra-se bem maior que a dos campos nasperguntas em relação a todos os itens da série.A comparação entre o potencial de uniformaçõesexistentes nos documentos e sua utilização pelosusuários leva a três conclusões parciais sobre asituação particular do Arquivo da FINEP:

a) apenas uma parcela desse potencial é utlizadapelos usuários quando buscam um documentono Arquivo;

b) poucos campos são muito utilizados, enquantoque muitos campos são sub-utilizados;

c) a definição do banco de dados a partir dafreqüência dos campos nos documentos seriaanti-econômica, uma vez que a baixautilização de alguns campos não justifica ocusto de sua manutenção no sistema. Quantoa este aspecto pode-se observar (Tabelas 1-2)a disparidade no uso de certos campos.Alguns, com baixa utilização pelos usuários,apresentam alta freqüência nos documentos.Fontes de recursos e classificação do projeto,por exemplo, foram usados uma única vez(f r = 0,001 e frp = 0,004), embora houvesse207 possibilidades (fr = 0,051 e frp = 0,024)Isso eqüivale a dizer que esses campos,ainda que ocorrendo em 92,4% dadocumentação solicitada, foram explicitados emapenas 0,4% das solicitações. Fato semelhanteocorre com Estados do Brasil e setor FINEP.Já por outro lado, campos de baixa freqüêncianos documentos (Tabela 2) foram utilizadoscom freqüência relativamente alta (Tabela 1),se considerada sua baixa disponibilidade. Sãoexemplos: agente financeiro, veículo dainformação, valor e referências.

IDENTIFICAÇÃO DOS COMPONENTES APARTIR DAS QUESTÕES DOS USUÁRIOS

A partir dos dados originais levantados pela análisedas perguntas, a ocorrência dos campos foiobservada segundo distribuição geral e porDepartamentos solicitantes.Nos diferentes casos, os campos foram ordenadosdecrescentemente segundo sua ocorrência nasperguntas e essa ocorrência estudada pelasfreqüências simples e relativa, bem como atravésdo x2- Desse estudo resultaram os elementosnecessários para a avaliação dos dados:

a) Distribuição Geral

Estando a série em ordem decrescente eanalisando-se esta a partir da freqüência simples(f, Tabela 1), pode-se verificar que os campos não

foram igualmente preferidos pelos usuários: háuma concentração no uso de alguns campos e umabaixa procura de outros.A freqüência relativa (fr, Tabela 1) é, então, capazde expressar o peso ou valor relativo do campo nosistema, sendo esse valor determinado pelapreferência do usuário.Quando os campos escolhidos para o sistema foremum sub-conjunto (a) dos campos utilizados (A)pelos usuários e considerando-se que o somatóriodas freqüências relativas de todos os camposusados eqüivale à unidade, o desempenho dosistema poderá ser previsto segundo esse critériobásico: quanto mais o somatório dos pesos doscampos incluídos (a) no sistema se aproximar del (frA) melhor será seu desempenho, ocorrendo oinverso quando o somatório dos pesos tender a zero.Isso leva a concluir que a escolha dos camposfeita a partir da freqüência deverá recair sobre oselementos mais freqüentes na utilização, isto é,aqueles que obtiveram maior peso ( f r ) segundo apreferência dos usuários.Assim sendo, analisando-se a série a partir dafreqüência relativa (fr, Tabela 1) constata-se que50% da soma dos valores ou pesos ( f r ) abrangemapenas os 6 primeiros campos da série, e os 75%do total dos valores já correspondem a 16 campos.Os 25% restantes do total dos valores incorporam os13 campos de valores ( f r ) mais baixos da série.Os 6 campos correspondentes aos 50% da soma dospesos têm conceito muito extenso. São eles: tipode documento, código do projeto, assunto,mutuário, instituição de origem e data dodocumento. Tais campos devem ser incluídos; docontrário, sua extensão não limitada prejudicaria odesempenho do sistema. Porém, sua inclusão, como objetivo de se obter recuperação precisa, implicaem especificidade na indexação dos termos quecada campo abrigará.Os 10 campos seguintes na série (do sétimo aodécimo sexto item) correspondem a mais de 25%do total dos pesos. São eles: número dodocumento, nome da consultora, agente financeiro,instituição de destino, variações do nome doprojeto, pessoa destinatária, número do protocolo,veículo da informação, número de registro daconsultora, e nome do projeto. Sua posiçãomediana na série parece indicar que estes camposmerecem uma preferência equilibrada por partedos usuários e têm, por conseguinte, seu lugarassegurado no sistema.Os restantes 25% do total dos pesos correspondemàqueles 13 últimos campos da série. São eles: datado protocolo, valor, referências, signatário,anexos, cargo do signatário, cargo do destinatário,executor do projeto, setor FINEP, agência do AF.Estados do Brasil, classificação do projeto, efontes de recursos. Tais campos, pouco freqüentesnas perguntas, podem ser considerados deconteúdo informativo menor ou efêmero e,portanto, de importância secundária para o sistema.

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 47

Page 8: Como escolher campos

ANNA DA SOLEDADE VIEIRA

A inclusão daqueles campos de baixa freqüência —os últimos da série, cuja soma dos pesos perfaz 25%dos valores de todos os campos — deverá serconsiderada pelo administrador do banco de dados,do ponto de vista de custo/benefício: compensapara a Empresa investir em informações poucoutilizadas? Ou serf, admissível uma recuperaçãomenos precisa em favor de mais baixo custo dosistema?

b) Distribuição por Departamento

A Tabela 3 dá uma visão completa da utilização decada campo pelos diversos Departamentos, bemcomo do volume de solicitações de cada um.

Ordenando-se os campos decrescentemente, porlinha, ter-se-ia o perfil dos Departamentos, isto é, oscampos preferidos por cada setor individualmente.A freqüência de utilização dos campos se apresentabastante dispersa. Essa dispersão é demonstradapela baixa freqüência dos campos em geral. Essefato parece estar relacionado à diversificação deatividades e necessidades dos Departamentos.Ainda como apoio a essa suposição, pode-severificar a semelhança existente entre os dadosreferentes ao GEP e ao GCT, Departamentos comatuação muito semelhante, ambos trabalhandodiretamente com análise técnica e avaliação deprojetos.

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 48

Page 9: Como escolher campos
Page 10: Como escolher campos

COMO ESCOLHER OS CAMPOS PARA UM BANCO DE DADOS

Admitindo-se que os Departamentos exercematividades diversificadas, a metodologia maisindicada para identificação do núcleo de campos,comum a todos os Departamentos, seria o teste designificância do x2, medida estatística capaz deestabelecer os limites de discrepância entrediferentes classes, a partir da comparação entre afreqüência probabilisticamente esperada e aquelaobtida. Essa medida pode ser expressa através daseguinte fórmula:

ftsendo fe a freqüência empírica ou obtida e fta freqüência teórica ou esperada.Para efeitos da presente metodologia, para 12 G.L.

foi adotado o nível de significância 0,01,rejeitando-se por conseguinte, os valores acima de26,2 conforme distribuição do x2 (9), uma vez

Pque se buscavam os campos de uso generalizado enão aqueles estreitamente relacionados aDepartamentos específicos.

Os resultados (Tabelas 4-5) apresentaram 23campos aceitos e 8 campos rejeitados por não seremde importância no consenso geral e sim deinteresse particular de algum Departamento.Observando a tabela 3, verifica-se que 2 daquelescampos aceitos apresentaram-se homogêneos,porém em torno de zero, justificando sua exclusão.São eles: classificação do projeto e Estados doBrasil.

Os campos aceitos são: nome do projeto, referência,agência do AF, pessoa destinatária, agentefinanceiro, veículo da informação, anexos, variaçõesdo nome do projeto, número do documento,mutuário, executor do projeto, signatário, instituiçãode destino, data do protocolo, valor, tipo dedocumento e assunto.Tais campos representam o núcleo comum a todosos Departamentos e constituem o conjunto mínimocapaz de satisfazer as necessidades básicas dosusuários. Os restantes seriam incorporados aobanco de dados conforme as possibilidades daEmpresa, na medida em que a satisfação dasnecessidades específicas de cada Departamento seconstituir uma meta.

TABELA 4: CAMPOS ACEITOS SEGUNDO OTESTE DE SIGNIFICÂNCIA *

(RIO DE JANEIRO, JULHO DE 1974)

* 12 G.L. e nível de significância 0,01

Fonte: Pesquisa da autora no Arquivo da FINEP

TABELA 5: CAMPOS REJEITADOS SEGUNDOO TESTE DE SIGNIFICÂNCIA *

(RIO DE JANEIRO, JULHO DE 1974)

Nome dos Campos x2

* 12 G.L. e nível de significância 0,001Fonte: Pesquisa da autora no Arquivo da FINEP

RESULTADOS

Com relação à FINEP, se se considerar que háatividades comuns como há também as específicasde cada setor, parece que a combinação das duasmetodologias — teste do x2 corrigido pelaordenação simples de freqüência — é orecomendado, para maior segurança.Assim sendo, seriam considerados para inclusão nobanco de dados os campos aceitos pelo x2 eaqueles rejeitados que estivessem situados dentreos 16 campos (Tabela 1) de maior freqüência nasérie (fr = 0,752). Desses 24 componentesaceitos, 5 poderiam ser ainda descartados peksrazões que se seguem:

Ci. Inf., Rio de Janeiro, 4(l):55-66, 1975 51

Nome dos Campos

Estados do BrasilClassificação do projetoNome do projetoReferênciasAgência do AFPessoa destinatáriaAgente financeiroVeículo da informaçãoAnexosVariações do nome do projetoNúmero do documentoMutuárioExecutor do projetoInstituição de destinoSetor FINEPNome da consultoraCódigo do projetoSignatárioInstituição de origemData do protocoloValorTipo de documentoAssunto

x2

2,3542,8093,2393,6425,0015,1497,2887,7018,3069,984

11,04311,08411,31411,72912,56912,81317,48319,00720,45620,82922,30422,41425,262

Nome dos Campos

Número do protocoloData do documentoFonte de recursosNúmero de registro da consultora . . .Cargo do signatárioCargo do destinatário

x2

. . 27,60630,47831,1393235150,93752,538

Page 11: Como escolher campos

ANNA DA SOLEDADE VIEIRA

— Setor FINEP: porque a Empresa é aindarelativamente pequena e todos os funcionáriosconhecem os diferentes programas dainstituição, sendo capazes de com eles relacionaros projetos;

— nome do projeto: existe uma parte do banco dedados destinada ao cadastro, no qual todasas características dos projetos são registradas.Portanto, bastaria relacionar o arquivoDOCUMENTOS com o CADASTRO, para queas informações gerais se tornassem disponíveis;

— variações do nome do projeto: ficaria melhorno CADASTRO, onde este campo deveria serintroduzido;

— mutuário: Já existe no CADASTRO;

— nome da consultora: já existe no CADASTRO,além de poder ser substituído economicamentepelo número de registro da consultora.

Os 19 campos restantes parecem satisfazer àsnecessidades básicas de todos os Departamentos:tipo de documento, código do projeto, assunto,instituição de origem, data do documento, númerodo documento, agente financeiro, instituição dedestino, número do protocolo, veículo dainformação, número de registro da consultora,pessoa destinatária, signatário, data do protocolo,valor, referências, anexos, executor do projeto eagência do AF.A adoção do sistema integral, visando a atingir odesempenho ótimo, ou a adoção de apenas partedos campos ficará a critério da Administração daEmpresa, segundo sua política interna.

CONCLUSÕES GERAIS

A partir da presente pesquisa conclui-se que:

— a escolha dos componentes do banco de dadosdeve ser determinada em função de seu peso(f r ) , uma vez que esse é indicativo dapreferência do usuário;

— só é economicamente justificável a definição doscampos a partir de sua ocorrência nadocumentação, quando esta freqüência coincidecom a de uso, pois a alta freqüência nosdocumentos está diretamente relacionada com oalto custo da inclusão dos campos no sistema;

— o número de campos a serem eleitos após aduração dos mais importantes dependerá dapolítica da Empresa quanto à canalização derecursos para o sistema;

— duas metodologias, baseadas nas necessidadesexpressas dos usuários, podem ser utilizadaspara identificação dos campos fundamentais

para o sistema atingir seu desempenho ótimo narecuperação de informações, dependendo dascaracterísticas dos usuários:— ordenação das freqüências relativas dos

campos e eleição, a partir dos maisfreqüentes, quando o grupo de usuários éhomogêneo;

— teste do x2, quando as atividades enecessidades dos grupos diferem-se entre si.

Em uma situação específica, qualquer das duasmetodologias sendo adotada, seria recomendávelque periodicamente fossem reavaliados os interessesdos usuários do sistema, a fim de corrigir omodelo proposto a partir da pesquisa inicial.

CITAÇÕES BIBLIOGRÁFICAS

(1) DAMMERS, H. F. Informationmanagement systems: some views onproblems and potentialities. In: DATAORGANIZATION FOR MAINTENANCEAND ACCESS CONFERENCE, Keele,April 1970. Papers. Keele, TheUniversity, 1970.

(2) ESPOSEL, José Pedra Pinto. Editorial.Arquivos & Administração, 2 (2):5,ago. 1974.

(3) VIEIRA, A. S. Metodologia para definiçãode campos em bancos de dados. Rio deJaneiro, 1974. 52 p.

(4 ) SOUSA, Flávio Pereira. Introdução àrecuperação da informação. /A serpublicada ainda em 1974 pelo convênioMEC/PUC/.

(5) SALTON, Gerard. Automatic informationorganization and retrieval. New York,Mac-Graw-Hill, 1968. 514 p.

(6) CLEVERDON, Cyril. Information and itsretrieval. Aslib Proceedings, 22 (11): 546,Nov. 1970.

(7 ) LANCASTER, F. Wilfrid. MEDLARS:report on the evaluation of its operatingefficiency. American Documentation,20(2): 119-42, Apr. 1969.

(8) HALD. Statistical tables and formulas.New York, Willey, 1952. p. 96.

(9) SPIEGEL, M. R. Estatística. Tradução dePedro Consentino, São Paulo, McGraw-Hilldo Brasil, 1974. 580 p.

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 52

Page 12: Como escolher campos

COMO ESCOLHER OS CAMPOS PARA UM BANCO DE DADOS

BIBLIOGRAFIA CONSULTADA

CUNHA, S, E. Estatística Descritiva (naPsicologia e Educação) Rio de Janeiro,Forense /s. d. /243 p.

ENGELS, R. W. A tutorial on data-baseorganization; TR 00.2004. In: IBM.Data base concepts; education guide.New York, 1972.

FARRADANE, J. The evaluation of informationretrieval systems. Journal ofDocurruintation, 30 (2): 195-209, June 1974.

GELLER, S. B. Archival data storage.Datamation, 20 (10): 72-80, Oct. 1974.

KEMP. D. A. Relevance, partinence andinformation system development.Information Storage and Retrieval,10(2):37-47, Feb. 1974.

KING, D. W. & BRYANT, E. C. Theevaluation of information services andproducts. Washington, InformationResources Press, 1971. 306 p.

KONIGOVÁ, M. Mathematical and statisticalmethods of noise evaluation in a retrievalsystem. Information Storage andRetrieval, (6): 437-44, May 1971.

LANCASTER, F. W. Information retrievalsystems; characteristics, testing, andevaluation. New York, J. Wiley, 1968.222 p.

. & FAYEN, E.G. Information retrievalon-line. Los Angeles, Melville Publishing,1973. 597 p.

LANDAU, H. The proliferation of machine-readabledata bases: current problems. DrexelLibrary Quarterly, 8(1): 63-9, Jan. 1972.

MARTYN, J. & VICKERY, B.C. Thecomplexity of modelling of informationsystems. Journal of Documentation,26(3): 204-20, Sept. 1970.

NICK, E. & KELLNER, S.R.O. Fundamentosde estatística para as ciências docomportamento. Rio de Janeiro, Renes,1971. 312 p.

RIEGER, M. Le role des archives dansl'administration. Bulletin de l'Unescopour les Bibliothèques, 27(l):43-5,Jan./Fev. 1973.

SAFFADY, W. A university archives and recordsmanagement program: some operationalguidelines. College & Research Libraries,35 (3):204-10, May 1974.

SALTON, G. Evaluation problems in interactiveinformation retrieval. InformationStorage and Retrieval, 6(l):29-44, May1970.

& YANG, C. S, On the specification ofterm values in automatic indexing. Journalof Documentation, 29(4): 351-72, Dec.1973.

SEELY, B. J. Indexing depth and retrievaleffectiveness. Drexel Library Quarterly,8(2):201-8, Apr. 1972.

TAKAHAMA, T. A model for a documentretrieval system. Information Storage andRetrieval, 9(3):143-63, Mar. 1973.

VICKERY, B.C. Information systems. London,Butterworths, 1973. 350 p.

WILSON, P. Situational relevance. InformationStorage and Retrieval, 9(8):457-71, Aug.1973.

ABSTRACT

Based on data collected at FINEPs (Financiadorade Estudos e Projetos) Archives and having theaim of building up a data base on typicaldocuments related to project administration, twoalternative methodologies were designed, usingstatistical measures, to define which fields ofinformation should be used at the system. Thefirst methodology is based on the frequency orderof the fields, according to their frequency at usersquestion, and should be useful when the users havecommon interests and activities. The secondmethodology — the x1 test — would be suitablewhen users have different interests and activities.

Ci. Inf., Rio de Janeiro, 4(l):41-53, 1975 53