59
Preservação digital de teses e dissertações Experiência do repositório cooperativo TDX Ricard de la Vega Computing and Applications Manager Consorci de Serveis Universitaris de Catalunya (CSUC) 10º debate Grupo de Pesquisa Dríade

Preservaçao digital de tese e dissertaçoes

Embed Size (px)

Citation preview

Preservação digital de teses e dissertações

Experiência do repositório cooperativo TDX

Ricard de la VegaComputing and Applications Manager

Consorci de Serveis Universitaris de Catalunya (CSUC)

10º debateGrupo de Pesquisa Dríade

Agenda

1. Introdução (CSUC)

2. Repositórios de cooperação

3. Repositório de teses digitais (TDX)

4. Preservação do TDX

• Generalitat de Catalunya• Universitat de Barcelona (UB)• Universitat Autònoma de Barcelona (UAB)• Universitat Politècnica de Catalunya (UPC)• Universitat Pompeu Fabra (UPF)• Universitat de Girona (UdG)• Universitat Rovira i Virgili (URV)• Universitat de Lleida (UdL)• Universitat Oberta de Catalunya (UOC)• Universitat Ramon Llull (URL)• Universitat de Vic (UVic)

• Gestão de infraestruturas e serviços cooperativos para as universidades e lá investigação da Catalunha

• Fusão de um consórcio TIC e um bibliotecário

Consórcio de Serviços Universitários de

Catalunha (CSUC)

Nossos serviços

Agenda

1. Introdução (CSUC)

2. Repositórios de cooperação

3. Repositório de teses digitais (TDX)

4. Preservação do TDX

Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009

Repositórios de cooperação

TDX RECERCAT RACO PADICAT

RECYT MDC MDX PADICYT

CALAIX FILMOTECA SCIENTIA MACBA

Repositórios digitais

2001 2005 2006 2006

2006 2006 2009 2009

2010 2012 2015 2015

Quase 15 anos de repositórios…

TeseTrabalhos de

pesquisaRevistas Websites

RevistasPatrimóniocolecções

Materiaisdidáticos

Websites

Dept. CulturaPatrimónio

cinematográficoDept. Saúde

Patrimónioartístico

Conteúdo

Texto (PDF) Texto (PDF) Texto (PDF) WARCs

Texto (PDF) Imagem Texto (PDF) WARCs

Texto, imagem,

audiovisual

Texto, imagem,

audiovisual

Texto, imagem,

audiovisual

Texto, imagem,

audiovisual

Formatos: texto, imagem, vídeo...

DSpace DSpace OJS Heritrix, etc.

OJS CONTENTdm DSpace Heritrix, etc.

DSpace DSpace DSpace DSpace

Programas: DSpace, OJS...

Gestão de dados científicos

Grupo de trabalho per:

– Criação de uma política

– Data Management Plans• Orientações (http://hdl.handle.net/2072/266523)

• DMP Online instância de DCC

– Repositório de dados de pesquisa• Orientações (http://hdl.handle.net/2072/266502)

• Possível criação de um repositório cooperativo

– Piloto

Portal de pesquisa da Catalunha

Other

DRAC

Universitas XXI

GREC

SIGMA

Other

DRAC

Universitas XXI

GREC

SIGMA

UNEIX

Local and consortia

repositories.

Mainly DSpace

Catalan

government

DataWarehouse

PRC. Based on

Dspace-CRIS

(CINECA)

11 university CRIS

systems (from 4

different vendors)

Protocol: OAI-PMH/SWORD

Format: DC

Protocol: OAI-PMH

Format: CERIF-XML

Protocol: XLS files

Format: UNEIX defined

Portal de pesquisa da Catalunha

Agenda

1. Introdução (CSUC)

2. Repositórios de cooperação

3. Repositório de teses digitais (TDX)

4. Preservação do TDX

TDX em 2001 (80 GB, 8K access hits)

TDX em 2016 (0.6 TB, 4.5M access hits)

Estructura de TDX

Cada universidade (18):

• é uma Comunidade

• Tem licenças de admissão de teses

• Administra sua coleção

• Personalização

• Pesquisadores frontend

Procedimentos e grupos de trabalho comum

Universidades

Estructura de TDX

Departamentos e faculdades

Teses

Divulgação e preservação da tese

URV

UVic

UdG

UdL

UV

UJI

UM

UCUA

UAB

UPFUB

Arquivos

UIB

Metadados

Admissão das 18

universidades

Divulgação da tese espanholas

3333

3333

3333

3333

OAI-PMH harvester da tese das 33 universidades espanholas

CRISCRIS

CRIS

Mais divulgação da teses

DART

Recol

ecta

Driver

Tese europeia

Trabalhos de pesquisa

espanhol

Trabalhos de

pesquisa

europeia

Motores

de busca

Outros

colecionadores

Portal de pesquisa da Catalunha

CRISCRIS

CRIS

Agenda

1. Introdução (CSUC)

2. Repositórios de cooperação

3. Repositório de teses digitais (TDX)

4. Preservação do TDX

Long term preservation

• The e-infrastructure must ensure the long term data access, without failure.

• To succeed, it must be taken into account:– Replication (more than one copy)

– Media refresh

– Format migration

– Data integrity (checksums)

– Contingency and recovery plan

– Preservation plan

– ...

Hardware migrations

2001 (cpu, disk and tapes)– HP N4000

2003 (cpu + disk)– HP rp5430 with 2 processors, 704 GB memory

– HP EVA V.2 with 2,8 TB disk

2006 (cpu + tape)– High availability HP cluster with 32 nodes

– Adic Scalar i2000 (from 9840 tapes to LTO3)

2009 (disk)– NetApp FAS3170 with 60 TB disk

2012 (cpu)– New High availability cluster

2016 (disk)– New storage cabine

Born in a supercomputer!

Software migrations

2001 – ETDdb from Virginia Tech

2005 – + OAI-PMH & statistics modules

2007 – + Spanish Thesis Harvester (MetaIndexmodule + X-Server libraries) from Ex Libris

2011 – DSpace 1.6 from MIT & HP labs

2013 – + Drupal for news & intranet

2016 – DSpace 5.2

Data integrity & Format migration

• Data Integrity

–Checksums on DSpace (online version)

–Checksums on LOCKSS (dark copies)

• Format migration

–Not yet (PDF)

–But Metadata migration yes• From HTML forms (ETDdb) to Dublin Core

(DSpace)

Replication

• On disk - Online version (1)

• One backup on the tape library (2)

• Other backup on a fireproof cabinet (3)

• Other backup on a 50 Km remote Centre (4)

• A dark copy on the MetaArchive Cooperative

– Private LOCKSS (Lots of Copies Keep Stuff Safe) Network

– 7 more copies around the world (11)

• And (possible) more copies on each University

MetaArchive Cooperative

• The Educopia Institute’s mission is help cultural, scientific, and scholarly institutions achieve greater impact

• Lots of Copies Keep Stuff Safe (LOCKSS)

• A private LOCKSS network (PLN)

• Centralized facilities (conspectus, svn…)

• P2P secure network of “cache” nodes

Marketing...

“With others, you can accomplish

what you cannot accomplish alone”

“Don’t put all your eggs in

one basket”

Private LOCKSS Networks (PLNs)

• Alabama Digital Preservation Network (ADPN).• CLOCKSS Archive.• Council of Prairie and Pacific University Libraries (COPPUL) • Data Preservation Alliance for the Social Sciences (Data-PASS)• Digital Commons.• Digital Federal Depository Library Program.• CARINIANA Instituto Brasileiro de Informaçãoem Ciência e Tecnologia• Lukll.• MetaArchive Cooperative.• PKP Public Knowledge Project. • PNAS Proceedings of the National Academy of Sciences. • Persistent Digital Archives and Library System – PeDALS. • SAFE (SAFE Archiving FEderation). • Synergies.• UK LOCKSS Alliance

Fonte: www.lockss.org/community/networks

50 instituições em 3 países

Como funciona?

Arquivo escuro

Private LOCKSS network

• 7 copies with widespread geographical

distribution

• All 7 servers revisit on a regular basis to pick

up new and changed content

• Versioning (no remove changed content)

• Checksums file integrity control

Benefits

– Distributed archiving of digitals collections across multiple geographically distributed preservation sites

– Retrieval of contents in case of catastrophic loss

– Assistance with installation and maintenance of the technical solution

– Reports, coordination web conference…

Responsibilities

Initially:

– Local LOCKSS installation (cache)

– Define a data preservation strategy (Data Wrangling) for your “particular” repository

– Rules design for the other cache to harvest your repository (Plugin)

– Enroll your collections in a central database (Conspectus)

Responsibilities

Periodically:

– Add collections (of others) assigned centrally

– Apply firewall changes (IP active list)

– Apply updates

– Coordination with the MetaArchive staff and

others cache if a restore (for disaster) is needed

Nuestra experiencia con MetaArchive

– Fácil modelo

– Relativamente barata

– Eu comprovada (em casos reais)

– Precisamos conhecimento técnico

– É apropriado para o conteúdo bem definido

– Formato agnóstico, “solo" preserva arquivos

Bibliografia

– A Guide to Distributed Digital Preservation. K. Skinner and M. Schultz, Eds.

(Atlanta, GA: Educopia Institute, 2010).

http://metaarchive.org/sites/metaarchive.org/files/GDDP_Educopia.pdf

– Miquel Térmens: Preservación digital. Barcelona, Editorial UOC, 2014. ISBN:978-

84-9064-082-1.

– Ricard de la Vega. "Preservació digital al núvol." Item: revista de biblioteconomia i

documentació, 2013,Núm. 57 .

http://www.raco.cat/index.php/Item/article/view/269708/372314

– Huguet, Miquel ; Anglada i de Ferrer, Lluís M. ; Vega, Ricard de la. "Catalan

Policies and Experiences on Cooperative Repositories". Centre de

Supercomputació de Catalunya. 2007. http://hdl.handle.net/2072/4083

Muito obrigado!

[email protected]

@rdelavega

https://es.linkedin.com/in/ricarddelavega

“Sometimes a scream is better than a thesis”

Manfred Eigen

www.tdx.cat

www.recercat.cat

www.raco.cat

www.raco.cat

www.raco.cat

www.padicat.cat

http://recyt.fecyt.es

http://mdc.cbuc.cat

www.mdx.cat

http://padicyt.es

Hhtp://calaix.gencat.cat

http:://repositori.filmoteca.cat

http://scientiasalut.gencat.cat

Ma

cba

!

http://repositori.macba.cat