Banco de Teses da Universidade Federalmsp/ic-paper.doc · Web viewFigura 2: esquema de relacionamento entre os services providers e os repositorios Criar uma implementação capaz

Banco de Teses da Universidade Federal

de Pernambuco

Marcos Silva Pereira1

1Centro de Informatica – Universidade Federal de Pernambuco (UFRGS)Recife – PE – Brasil

[email protected]

Abstract. This paper is about the development made by Liber Laboratory of Digital Publications of Theses and Dissertations of Pernambuco’s Federal Univesity. It talk about corrections and improvements mades in the first version of the system to made it compliant with IBICT specifications and guidelines. This paper also explain the approach used to do integration between Digital Publications of Theses and Dissertations of Pernambuco’s Federal Univesity and IBICT.

Resumo. Este artigo trata sobre o desenvolvimento do Banco de Teses da Universidade Federal de Pernambuco desenvolvido no Laboratório de Pesquisas Líber. Discorre tanto sobre correções feitas na primeira versão do sistema quanto sobre a elicitação de requisitos e desenvolvimento de uma versão compatível com as especificações do IBICT. Ainda e mais importante, é explicada a abordagem modelada para a integração de dados entre o Banco de Teses da Universidade Federal de Pernambuco e o IBICT.

1. Introdução

O Liber é um laboratório de pesquisa em Ciência da Informação e Tecnologia que desenvolveu o sistema de gerenciamento de informação acadêmica. Tal sistema foi desenhado para gerir o acervo de teses e dissertações produzidas nos programas de pós-graduação da Universidade Federal de Pernambuco, UFPE. Ele baseia-se no princípio universal do livre acesso, na Legislação do Depósito Legal e da Propriedade Intelectual vigente no Brasil e respeitada universalmente por força de protocolos de reciprocidade internacionais. O Líber busca instrumentalizar a produção intelectual e viabilizar a transferência de informação da academia para a sociedade utilizando-se de ferramentas hipermídicas e as redes de alcance mundial.

Além das pesquisas sobre disseminação de dados, o Liber realiza, ainda, estudos na área de definição e uso de padrões de metadados, disseminação de dados via web, produção de softwares voltados ao gerenciamento e integração de arquivos e bibliotecas digitais e coleta de dados usando o protocolo Open Archives. A proposta maior do laboratorio é, através da interdisciplinaridade entre alunos de Ciências da Informação, Ciências da Computação, História e Design, prover um ambiente no qual seja possível a realização de estudos voltados a metadados e acervos digitais.

O Banco de Teses da Universidade Federal de Pernambuco foi o primeiro projeto do Liber e surgiu da iniciativa e necessidade de propiciar à publicação acadêmica maior repercussão tanto em âmbito nacional quanto internacional. A proposta do projeto é criar um sistema que se fundamente na disseminação de dados na web e ainda manter os direitos de autoria dos mestrandos e pós-graduandos. Para um entendimento maior sobre o Banco de Teses, é preciso defini-lo como um sistema de informação e não apenas como um simples repositório de dados.

Hoje, disseminação de informação abrange uma vasta área de instituições e aplicações que vão desde Sistemas de Arquivos Digitais, Catálogos on-line até Bibliotecas Digitais. A Internet como meio de publicação de dados revolucionou o desenvolvimento dos Sistemas de Informação. Vistos isoladamente, os dados não têm significado real, pois o verdadeiro interesse está na informação. Aqui, claro, convém conceituar dados, informações, bem como os próprios sistemas de informação. Zwass(1998) define dados como “fatos ‘crus’ que podem ser processados para se obter informação”. Informação, por sua vez, são dados inseridos num contexto, o que lhes garante significado real. Ainda segundo Zwass (1998), “um sistema de informação é um conjunto organizado de componentes para coletar, transmitir, armazenar e processar dados em ordem para prover informação”.

A idéia é que o Banco de Teses seja um sistema que possa prover informações para uma gama de pesquisadores que vão desde alunos de graduação até doutorandos e assim torná-lo um sistema de informação. Prevê-se, no futuro que o sistema englobe e seja capaz de gerenciar toda a produção da teses, do contato inicial entre aluno e orientador até a autorização da publicação com ou sem restrições.

2. Política de livre acesso

Hoje, a UFPE é uma das poucas universidades federais a possuir um Banco de Teses e é, em especial, uma das únicas, senão a única, a possuir uma lei de Deposito Legal expandida para o meio eletrônico. É dever dos autores de Teses e Dissertações depositar, além do arquivo impresso, uma versão eletrônica da tese e, por meio de um formulário, autorizar a publicação de seu trabalho ou parte dele.

A expansão da lei para meio eletrônico se baseia no fato de que se alguém pode ter acesso à Tese ou Dissertação em papel, mediante presença física, não existe motivo para que não se possa acessar a tese em formato eletrônico. A priori, isso garantiu à UFPE um número de publicações digitais acima de qualquer outra universidade federal brasileira.

Apesar, entretanto, de haver publicação eletrônica e isso, de certo modo, causar estranhamento entre autores, o projeto prevê sistemas de assinatura digital dos arquivos para garantir tanto a legitimidade do conteúdo quanto para resguardar autores a respeito do uso de seus trabalhos. Assinaturas digitais já têm certo valor legal e podem, do ponto de vista tecnológico, ser usadas sem muitas restrições. Elas se somam aos documentos físicos depositados na universidade para garantir o direito de autoria intelectual a todos os autores.

3. Open Archives

Hoje existe um número considerável, em toda a Internet de repositórios de documentos. Todavia, devem-se considerar os problemas apresentados por essa variedade, tais como grande numero de repositórios, alto grau de autonomia dos mesmos, o grande número de possíveis representações para os dados e a grande irregularidade nas estruturas dos dados. Dessa maneira, repositórios interessados em compartilhar seus dados carecem, ou de uma representação universal, ou de um mecanismo que possibilite o tratamento dos dados nos diversos formatos de metadados existentes. Em tempo, metadados são, pela definição de Tronchin (1998), “a descrição do dado, do ambiente onde ele reside, como ele é manipulado e para onde ele é distribuído”. Ou seja, metadado é uma abstração do dado.

Criar uma representação universal é questionável quanto à sua completude informacional, visto que cada tipologia documental tem descrições especificas que obedecem às suas próprias características documentais. Além disso, usuários têm sempre objetivos muito próprios para realizar uma pesquisa e uma grande quantidade de informação poderia não ser relevante às especificidades de alguns enquanto que pequena granularidade poderia ser insuficiente para outros. Padrões nem sempre são suficientemente representativos para um determinado domínio de aplicação, de forma que há um grande número de possíveis padrões a se escolher.

O Open Archives é um protocolo para intercâmbio de dados criado em Los Alamos National Laboratory - Research Library para capacitar a troca de dados entre repositórios de categorias em comum. O protocolo não cria uma definição de metadados própria e sim

obriga a criação de uma que seja acordada entre os repositórios. As definições e trocas dos dados são baseadas em XML, eXtensible Markup Language. XML foi escolhido pela sua própria natureza de permitir a troca simultânea dos dados e de suas descrições. Assim, os repositórios podem criar uma definição para o XML que pode ser uma DTD, Document Type Definition, ou um XSD, XML Schema, e trocarem ao mesmo tempo os dados (um XML compatível com a DTD/XSD) e sua definição (uma DTD ou um XSD).

Depois de tais definições, o protocolo de Open Archives funciona, sobre o http, baseado em um conjunto de regras chamadas de verbos. Cada verbo é especificado por um nome e por um conjunto de parâmetros que devem ser fornecidos. Se um verbo não foi definido ou se os parâmetros não estiverem corretos o protocolo indica um conjunto de mensagens de erro como mostrado a seguir:

Figura 1: mensagem de erro do Open Archives

No funcionamento entram duas partes distintas. O service provider, agregador dos dados e é quem realiza requisições aos repositórios locais para colher seus dados. O service provider pode ser chamado de harvester. Na outra ponta fica o local repository responsável por fornecer os dados de acordo com o especificado.

No Brasil, o service provider é respresentado pelo IBICT, Instituto Brasileiro de Informação em Ciência e Tecnologia, e os repositórios pelas universidades. O padrão definido para a troca de dados relativos às teses é o MTD-BR, Metadados para Teses e Dissertações do Brasil. Ele é baseado no OAI-PMH, Open Archives Initiative – Protocol for Metadata Harvesting, da NDTDL, Network Digital Theses and Dissertations Library. Para demonstrar a flexibilidade do protocolo, o IBICT funciona, para a NDTDL, como um local repository. A figura a seguir mostra como um mesmo repositório pode prover dados para vários services providers dando uma visão clara sobre o funcionamento do protocolo:

Figura 2: esquema de relacionamento entre os services providers e os repositorios

Criar uma implementação capaz de prover os dados de acordo com o MTD-BR é um dos principais requisitos para o Banco de Teses. O sistema idealizado funcionaria baseado na figura a seguir:

Figura 3: Imagem de como funciona o harvest dos dados.

O service provider faz uma requisição http para a aplicação que então usa um Módulo Codificador para decidir que padrão de metadados irá prover. Ele precisa estar pronto para fornecer os dados tanto no MTD-BR quanto em outros padrões internacionalmente conhecidos como o Dublin Core e o Marc, MAchine-Readable Cataloguing. Tal exigência por outros padrões faz parte da filosofia de ser compatível com outros repositórios que não usem o Open Archives como protocolo. O Módulo Codificador requisita os dados para um outro, o Modulo de Acesso aos Dados, que funciona como uma abstração a como o repositório local guarda seus dados. Ele foi concebido para permitir o reuso do Módulo Codificador por outras instituições que desejem usar o Open Archives. Essas instituições, então, precisam apenas definir Modulo de Acesso aos Dados e usar livremente o Módulo Codificador.

Essa é uma proposta de solução eficiente para o problema do tratamento de múltiplos padrões de metadados em bibliotecas digitais e sistemas como o banco de teses. Ela objetiva primordialmente disseminar informação através do suporte a múltiplos formatos buscando maior completude informacional dos acervos, oferecer maior qualidade de resposta, prover uma interface uniforme para os usuários do repositório abstraindo os detalhes da representação do mesmo. Há ainda a possibilidade de uso integrado de soluções existentes já prontas, ou parcialmente prontas. O foco maior de tal solução são os sistemas de arquivos abertos como o Open Archives.

Para um esclarecimento final, o Open Archives não é um protocolo para expor por completo o conteúdo dos documentos (imagens, documentos de texto, etc). Open Archives é usado apenas para expor metadados sobre tais documentos.

4. Versão Inicial do Sistema

A primeira versão do Banco de Teses, desenvolvida no ano de 2003, foi criada com o intuito inicial de ser apenas um protótipo bem acabado que pudesse, entre outras coisas, iniciar o catalogo de teses e dissertações. Os requisitos iniciais foram elicitados, mas não documentados, diretamente com funcionários da Biblioteca Central da UFPE e não houve preocupação direta em tornar tal protótipo complacente com o Open Archives.

Por causa da não preocupação em ser compliant com o Open Archives e, daí, com o MTD-BR definido pelo IBICT, o Banco de Teses, apesar de ser o com maior número de registros, não pode funcionar como um repositório local.

O protótipo foi desenvolvido em Perl e usa como banco de dados o MySQL, combinação que trouxe alguns problemas. Dentre os mais importantes vale citar o fato de Perl não ser uma linguagem de sintaxe muito clara; pouca preocupação com reuso de código; o MySQL não ser um banco de dados relacional por natureza e a falta de recursos mais avançados do banco como controle de transações e full-text search. Existem ainda alguns erros na modelagem do banco de dados que levaram a algumas inconsistências de dados, redundância e outros erros que complicam a extração dos dados.

Do ponto de vista da aplicação, falta um tratamento de erros mais apurado que possa dar aos usuários informações mais detalhadas. Falta também uma área administrativa capaz de facilitar o gerenciamento do Banco de Teses; não há, por exemplo, esquemas para gerações de relatórios.

Em suma, a primeira versão serviu para, além de gerar um bom número de registros, perceber uma série de requisitos menos claros e poder definir que funcionalidades são mais importantes.

5. Segunda Versão do SistemaO desenvolvimento da segunda versão do Banco de Teses está previsto para iniciar

em fevereiro de 2005 e pretende sanar erros tanto do ponto de vista do uso de tecnologias quanto outros cometidos no ciclo de desenvolvimento e projeto do sistema.

Primeiro, fez-se um documento de requisitos baseados em todos os fatores envolvidos como compatibilidade com o MTD-BR, descentralização dos cadastros das teses, maior comunicação com os autores, percepções de uso do primeiro protótipo entre outros. O desenvolvimento será feito em Java e usará, muito possivelmente, o PostGreSQL como banco de dados. De qualquer modo, um dos requisitos é que o sistema possa ser facilmente adaptável a outros bancos. Assim, uma ferramenta para mapeamento objeto-relacional (O-R Mapping) será usada, possivelmente o Hibernate.

Como metas, pretende-se dividir o desenvolvimento com outras universidades interessadas em publicar suas teses e dissertações, como a Universidade Federal da Paraíba. Há bom contato com o IBICT o que provavelmente facilitará a construção do Módulo de integração.

A segunda versão do Banco de Teses e Dissertações é um software para armazenamento e gerenciamento de teses e dissertações de maneira mais universal. Inicialmente, as teses e dissertações proviam apenas da Universidade Federal de Pernambuco. Hoje em dia, tais materiais vindos de qualquer instituição de ensino superior do país podem ser depositados no Banco de Teses e Dissertações. É previsto que o sistema possa, em suas futuras versões, ser aplicado a qualquer instituição de ensino superior no mundo, compartilhando recursos e conhecimentos vindos dos mais diversos lugares.

Esta segunda versão (assim como a primeira) do Banco de Teses e Dissertações está baseada em um módulo principal, acessível via internet. Dependendo do tipo do usuário o acesso a certas funcionalidades do sistema poderá variar.

6. Política Open Source

Para o desenvolvimento da segunda versão, primou-se pelo uso de software Open Source, OSS, de todas as maneiras. As ferramentas usadas são OSS assim como bibliotecas de classes e outros utilitários. Isso para facilitar a adesão de interessados em usar o sistema.

Mais do que isso, o projeto planeja criar uma licença de uso própria que possa ser homologada pela Open Source Initiative. Para isso, ela se baseia em um conjunto de outras licenças já homologadas para definição de suas clausulas. Além da disponibilização do software do Banco de Teses, prevê-se também a participação em repositórios de sistemas open source tais quais o SourceForge (2005) ou Java.net (2005). As licenças mais influentes na criação de uma própria foram a GPL, The GNU General Public License (1991), a CPL, Common Public License Version 1.0 (2005) e a Apache License Version 2.0(2004).

7. Situação atual do Banco de TesesAtualmente o Banco de Teses possui 1817 teses cadastradas, com teses produzidas

entre 2002 e 2004 e 2005, grande número de teses se deve à lei de deposito legal. Existe a possibilidade de se digitalizar teses anteriores à lei, mas ainda não há planos concretos por causa das dificuldades de contato com os autores.

As teses são publicadas na internet como arquivos em PDF para dificultar alterações diretas na tese. Estuda-se ainda a criação de um numero internacional para identificar as teses. Tal padrão de numeração seria criado com base no ISBN, International Standard Book Numbering, e se chamaria ISTN, International Standard Theses Numbering.

Até 02/02/2005 a versão inicial do Banco de Teses se encontra fora do ar por causa de um problema no sistema de arquivos do banco de dados, mas já foram feitas uma serie de iniciativas para resolver o problema.

8. Conclusões

No desenvolvimento do projeto, foi possível assimilar uma serie de beneficies como pensar em todo o ciclo de desenvolvimento e todo o ciclo de vida do sistema o que ensinou a ter uma visão mais global; trabalho interdisciplinar e em um ambiente mais livre possibilitou pensar em tecnologia como um meio e não como um fim. Isso ajudou a manter o foco nos problemas e não na tecnologia usada em si.

Contato com outras universidades tais quais UFPB, UFRJ, UFRS foram validas para perceber necessidades não presentes na UFPE e assim tornar o sistema mais universal. A segunda versão do Banco de Teses está prevista para o primeiro semestre de 2005.

9. Referências

DUBLIN Core Metadata Initiative. Disponível em: <http://dublincore.org>.

MARC Standards. Disponível em: <http://www.loc.gov/marc >.

OPEN Archives Initiative. Disponível em: <http://www.openarchives.org >.

ZWASS, Vladimir: Introduction to Information Systems & Their Capabilities. In: ZWASS, Vladimir: Foundations of information system. Boston: Irwin McGraw-Hill, c1998. p.5.

TRONCHIN, Valsoir, Análise, Modelagem e Implementação de Data Warehouses – São Paulo: Fenasoft/98 em 20/07/98.

SOURCEFORGE, disponível em: <http://sourceforge.net>

JAVA.net, disponível em: <http://java.net>

OAI, Open Archives Initiative, disponivel em < www.openarchives.org>

MTD-BR, disponível em <http://www.ibict.br/schema>

GPL, The GNU General Public License, disponivel em <http://www.opensource.org/licenses/gpl-license.php>

CPL, Common Public License Version 1.0 disponivel em <http://www.opensource.org/licenses/cpl1.0.php>

ASL, Apache License Version 2.0 disponivel em <http://www.opensource.org/licenses/apache2.0.php>

Documents

Banco de Teses da Universidade Federalmsp/ic-paper.doc · Web viewFigura 2: esquema de relacionamento entre os services providers e os repositorios Criar uma implementação capaz