Políticas de jcr/XML/conferencias/xata2004/artigos... · Web viewVantagens e desvantagens do modelo

  • View
    214

  • Download
    0

Embed Size (px)

Text of Políticas de jcr/XML/conferencias/xata2004/artigos... · Web viewVantagens e desvantagens do...

Polticas de Backup

Aquisio e Armazenamento de Metainformao no Contexto de um Arquivo

1 Resumo

Abstract do artigo

2 Introduo

Quem j visitou, e se deteve pacientemente no servio de referncia de um Arquivo, sabe a confuso com que normalmente se depara. Mltiplos ndices, livros de listagens, inventrios, catlogos e guias de transferncia que foram sendo elaborados ao longo do tempo, fruto de valioso trabalho mas, apesar disso, multiformes e sem coerncia colectiva. Para pr um fim definitivo a este cenrio, foi desenvolvido no Arquivo Distrital do Porto o projecto DigitArq, um projecto com mltiplas frentes, mas com um objectivo fundamental: servir de primeira abordagem edificao de um Arquivo Digital.

Uma das componentes basilares deste projecto consistiu na converso de materiais descritivos existentes somente em papel para formatos digitais normalizados baseados em normas internacionais. Assim, aps a digitalizao dos materiais, recorreu-se ao auxlio de software de reconhecimento ptico de caracteres (OCR) de forma a obter texto bruto capaz de ser tratado digitalmente. Aps esta fase, o contributo de tcnicos especializados em arquivstica foi fundamental, de forma a corrigir alguns erros residuais da fase de digitalizao, e para auxiliar em todo o processo de anotao do texto resultante. Uma vez o texto anotado, a sua converso para formatos XML normalizados foi trivial. Diversos scripts transformadores foram desenvolvidos, que quando aplicados aos diferentes documentos resultaram em XML baseado na norma EAD (Encoded Archival Description).

Outra das componentes deste projecto consistiu na retro-converso de bases de dados, agora obsoletas ou desadequadas, para um modelo de dados baseado na norma EAD. A ttulo de exemplo, podemos mencionar a existncia de materiais digitais armazenados em documentos Word, Excel, Access, XML, Arqbase/ISIS, etc.

Aps as converses descritas foi detectada uma quantidade assinalvel de material em formato EAD. Tornou-se, pois, essencial, armazenar as vrias centenas de ficheiros resultantes da migrao num repositrio de informao centralizado que permitisse, no s, instalar organizadamente esses ficheiros, como tambm, permitir o acesso informao neles contida. Uma ferramenta que satisfizesse esses requisitos, mas tambm, assistisse o operador na produo e manuteno de novas descries arquivsticas tornou-se assim necessria. Nesse sentido, foi criada uma aplicao de descrio arquivstica que rene um nmero considervel de funcionalidades com objectivo facilitar e apoiar a produo de descries normalizadas.

BD

Anotao

Converso

Scanner

Transformadores

Documentos

em

papel

Documentos

em

Access, Word, Excel, XML, Filemaker

Software

de

Descrio

Arquivstica

Interface de

pesquisa

Web

Sobre o repositrio de dados, foi tambm desenvolvido um motor de pesquisa acessvel via Web. Uma ferramenta de trabalho indispensvel aos utentes do Arquivo, especialmente queles que residem alm-fronteiras e que no possuem disponibilidade para se deslocarem fisicamente s instalaes do Arquivo.

3 O uso de XML ao longo do projecto

Um dos principais requisitos do projecto DigitArq, para alm da recuperao e centralizao de toda a informao que se encontrava distribuda por diversas bases de dados, assentava necessidade dessa mesma informao poder ser trocada com outros repositrios nacionais e internacionais. A norma Encoded Archival Description (EAD) foi escolhida para desempenhar essa funo por se basear em XML, cujas vantagens neste contexto so amplamente conhecidas, e por se estar a tornar numa norma de facto no meio arquivstico para armazenamento e estruturao de informao. Alm disso, assegura a criao de descries consistentes, apropriadas e auto-explicativas e possibilita a partilha de dados de autoridade que tornam possvel a integrao de descries de diferentes arquivos num sistema unificado de informao.

A informao arquivstica portadora de algumas caractersticas particulares. Para comear, encontra-se normalmente organizada hierarquicamente, efectuando uma descrio do mais geral para o mais particular. Assim, um documento alojado num Arquivo nunca se encontra descrito isoladamente (como acontece com um livro de uma biblioteca). Existe sempre uma relao entre o documento descrito e a entidade que o produziu, bem como uma descrio de todas as divises e subdivises dessa mesma entidade. Podemos, portanto, considerar uma descrio arquivstica como uma rvore cujos ns descrevem diferentes partes de uma mesma organizao. Ao nvel da raiz possumos a descrio do fundo (a organizao que gerou o documento) e nos restantes nveis, a descrio das diferentes partes que o compem. Ao nvel das folhas so descritos os documentos simples, ou seja, aqueles que no podem ser progressivamente subdivididos em mais nveis de descrio.

As vantagens do uso de XML neste contexto so bvias, pois o armazenamento hierrquico da informao est automaticamente assegurado. No entanto o XML carrega consigo um pacote de caractersticas que o tornam difcil de manusear:

1. O XML baixo nvel

Quer queiramos quer no, o XML demasiado baixo nvel para poder ser manipulado directamente por um utilizador. Os DTDs crescem de uma forma assustadora, de maneira que, difcil encontrar uma norma internacional que no possua, pelo menos, vrias centenas de elementos. Assim, do interesse de todos, que o XML se mantenha, a toda a hora, escondido do utilizador comum, recorrendo a interfaces grficas amigveis que impossibilitem a ocorrncia de erros na sua sintaxe.

2. O XML difcil de armazenar

Existe, hoje dia, uma panplia de opes no que diz respeito ao armazenamento de XML. O mercado das bases de dados com suporte para XML est em constante crescimento. No obstante, podemos distinguir trs estratgias fundamentais para o armazenamento de XML:

a. Sistemas XML nativos

b. Extenses XML (a sistemas RDBMS e OODBMS j existentes)

c. Sistemas XML virtuais (baseados em middleware entre as aplicaes e o DBMS)

No entanto, no existe consenso no que diz respeito melhor estratgia a seguir. Uma anlise detalhada dos requisitos da aplicao ter que ser efectuada de forma a determinar qual das aproximaes se adequa mais eficazmente ao cumprimento desses mesmos requisitos. Um estudo comparativo das diversas alternativas, realizado por R. Nunes e M. Silva [1] conclui que, as bases de dados XML nativas, embora muito rpidas na recuperao da informao, consomem demasiado tempo durante a indexao de documentos de tamanho considervel e o uso de modelos relacionais, dotados de extenses, apenas so adequados quando a estrutura do XML previamente conhecida e bem definida por um DTD.

4 Interface grfica para descrio arquivstica

A informao produzida por um Arquivo baseia-se, na sua essncia, em meta-informao sobre os documentos albergados e as organizaes que os produziram. Descries intermdias entre ambos permitem catalogar os documentos no contexto da organizao que os produziu, como por exemplo, identificar qual o servio ou sucursal que gerou um documento especfico.

Segundo as boas regras da arquivstica, cada registo, ou n, dessa rvore de descrio encontra-se identificado por um cdigo de referncia. Assim, um qualquer registo pode ser univocamente identificado pela concatenao das respectivas referncias, desde o nvel raiz at ao documento em causa. Por exemplo, a referncia completa EMP-BM/L/001/00001, poder ser interpretada como pertencendo ao fundo EMP-BM (Empresa Banco do Minho), subfundo L (sucursal de Lisboa), srie 001 (correspondncia recebida) documento 00001 (a referncia do documento propriamente dito).

Todos os sistemas de descrio arquivstica que analisamos baseavam-se neste conceito de referncias completas para identificar a posio da rvore onde o registo deveria estar pendurado. As interfaces grficas de introduo de dados eram, assim, baseadas num nico formulrio onde todos os campos de meta-informao podiam ser introduzidos e onde um dos campos a preencher consistia na referncia completa do registo. A referncia do registo servia, assim, tanto para identificar o registo como para o situar na rvore de descrio.

Acontece, no entanto, que a ocorrncia de erros aquando da introduo das respectivas referncias (pelos operadores) frequente, fazendo com que um registo salte para uma posio da rvore completamente distinta daquela que era pretendida, ou pior ainda, que o registo nem sequer possua significado na rvore em questo. Para alm disso, o esforo mental que um operador necessita de fazer para visualizar a estrutura de uma organizao tremendamente desgastante, sendo este um dos principais causadores dos frequentes enganos.

De forma minimizar a ocorrncia de erros que deteoram francamente a qualidade das descries, propusemos a realizao de uma interface grfica que representasse visualmente a rvore de descrio eliminando a necessidade de introduo de longas referncias e impedindo o operador de cometer erros aquando da sua introduo. Assim, a interface grfica est dividida em duas reas distintas, uma constituda por uma rvore representativa do fundo em que se est a trabalhar e uma outra onde so apresentados os campos que podemos preencher para descrever o registo seleccionado.

Em teoria arquivstica, cada registo possuidor de um nvel de descrio, isto , um campo que identifica o tipo do registo. No contexto do Arquivo Distrital do Porto foram identificados dez nveis de descrio distintos: Fundo, Subfundo, Seco, Subseco, Subsubseco, Srie, Subsrie, Unidade de instalao, Documento composto e Documento simples.

A interface grfica seria, tambm, capaz de garantir a coerncia da descrio, impedindo o utilizador de desrespeitar a lgica hierrquica inerente, i.e., a interface no deveria permitir, por exemplo, a criao de uma Seco debaixo