40
university-logo Introdu¸c˜ ao Modelo Arquitetura Implementa¸c˜ ao Conclus˜ ao Sistema de Preserva¸c˜ ao Digital Camada de Gerenciamento GT-DigitalPreservation C3SL - Centro de Computa¸c˜ ao Cient´ ıfica e Software Livre Departamento de Inform´ atica Universidade Federal do Paran´ a Setembro de 2011 Lauro Camada de Gerenciamento

GT-Digital Preservation - Camada de Gerenciamento

Embed Size (px)

DESCRIPTION

Apresentação da Camada de Gerenciamento, do GT - Digital Preservation, em 01 de setembro de 2011, na Escola de Redes da RNP, no Rio de Janeiro.

Citation preview

Page 1: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Sistema de Preservacao DigitalCamada de Gerenciamento

GT-DigitalPreservationC3SL - Centro de Computacao Cientıfica e Software Livre

Departamento de InformaticaUniversidade Federal do Parana

Setembro de 2011

Lauro Camada de Gerenciamento

Page 2: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

1 Introducao

2 Modelo

3 Arquitetura

4 Implementacao

5 Conclusao

Lauro Camada de Gerenciamento

Page 3: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Camada de gerenciamento de replicasCamadas dos sistema

1 Introducao

2 Modelo

3 Arquitetura

4 Implementacao

5 Conclusao

Lauro Camada de Gerenciamento

Page 4: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Camada de gerenciamento de replicasCamadas dos sistema

Camada de gerenciamento de replicas

Aloca as replicas dos objetos dentro do sistema de preservacao

Garantir o armazenamento confiavel dos objetos

Implementa a insercao e a recuperacao de objetos no sistema

Lauro Camada de Gerenciamento

Page 5: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Camada de gerenciamento de replicasCamadas dos sistema

Modelo

Metricas de confiabilidade

Probabilidade de nao falha no armazenamento de umrepositorio

Probabilidade de nao falha no armazenamento de ao menosuma replica de um objeto

Escolher um conjunto de repositorios para armazenar a replicade um objeto

Lauro Camada de Gerenciamento

Page 6: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Camada de gerenciamento de replicasCamadas dos sistema

Arquitetura

Insercao de objetos no sistema de preservacao

Recuperacao de objetos

Consulta pelo estado de preservacao de objetos

Auditoria das replicas de um objeto

Lauro Camada de Gerenciamento

Page 7: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Camada de gerenciamento de replicasCamadas dos sistema

Implementacao

Gerenciamento das replicas

Selecao de repositorios

Sistema de indexacao

Scripts Shell e programas na linguagem C

Lauro Camada de Gerenciamento

Page 8: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Camada de gerenciamento de replicasCamadas dos sistema

Armazenamento

Gerenciamento de Réplicas

Interface

Aplicações

Repositório

Figura: Camadas do Sistema de Preservacao Digital

Lauro Camada de Gerenciamento

Page 9: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

1 Introducao

2 Modelo

3 Arquitetura

4 Implementacao

5 Conclusao

Lauro Camada de Gerenciamento

Page 10: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Confiabilidade de um repositorio

Considera que as falhas sao independentes

Complementar a probabilidade de falha no armazenamento deum dado no repositorio

Influenciada pela qualidade de hardware e de administracao dosistema

Lauro Camada de Gerenciamento

Page 11: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Confiabilidade de um objeto

Complementar a probabilidade de falha no armazenamento detodas as replicas de um objeto

E definida pelo usuario

Reflete a importancia da preservacao do objeto

Lauro Camada de Gerenciamento

Page 12: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Quantidade de replicas

A quantidade de replicas nao e fixa

Uma confiabilidade desejada mais alta requer um numeromaior de replicasRepositorios com confiabilidade mais alta reduzem aquantidade de replicas necessarias

Lauro Camada de Gerenciamento

Page 13: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Selecao de repositorios

Figura: Inserir objeto com confiabilidade desejada de 99.99%

1 - ((1 - 0.95) * (1 - 0.9) * (1 - 0.85) * (1 - 0.8) * (1 - 0.75))= 0.9999625

Lauro Camada de Gerenciamento

Page 14: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Intervalo de auditoria

Considerando que a probabilidade de falha no armazenamentodos repositorios segue a distribuicao de Poisson

Seja a confiabilidade do repositorio em 1 ano 80%

Confiabilidade em 6 meses: 89% (0.86/12)

Confiabilidade em 1 mes: 98% (0.81/12)

Lauro Camada de Gerenciamento

Page 15: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Estrategia de selecao de repositorios

Selecionar repositorios que deverao receber replicas

Deve combinar confiabilidade dos repositorios para atingir aconfiabilidade desejada

Deve ajustar o intervalo de auditoria

Estrategia deve balancear a utilizacao de recursos na rede

Lauro Camada de Gerenciamento

Page 16: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Insercao de itens na rede (100 repositorios)

0

5000

10000

15000

20000

25000

30000

35000

16 32 64 100

Itens

inse

ridos

Tamanho do conjunto de candidatos

AFCCFEDFCDFECF

AVCCVEDVCDVECV

Lauro Camada de Gerenciamento

Page 17: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Insercao de itens na rede (1000 repositorios)

0

50000

100000

150000

200000

250000

300000

350000

16 32 64 100

Itens

inse

ridos

Tamanho do conjunto de candidatos

AVEDVCDV

Lauro Camada de Gerenciamento

Page 18: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios

Auditoria das replicas

Verificar as replicas de um objeto

Confiabilidade desejada do objeto deve ser mantida

Auditoria garante a preservacao do objeto por tempoindeterminado

Lauro Camada de Gerenciamento

Page 19: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

1 Introducao

2 Modelo

3 Arquitetura

4 Implementacao

5 Conclusao

Lauro Camada de Gerenciamento

Page 20: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Arquitetura

Inserir objeto para preservacao

Recuperar replica de objeto

Consultar replicas de objeto

Auditar replicas de objeto

Lauro Camada de Gerenciamento

Page 21: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Conjunto de candidatos

Conjunto de repositorios que podem possuir uma replica deum objeto

Limitar processos de gerenciamento a um subconjunto da rede

Nao e necessario guardar informacoes sobre a localizacao dasreplicas na rede

Nao e necessario inundar a rede com requisicoes para localizaruma replica

Lauro Camada de Gerenciamento

Page 22: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

DHT

Tabela hash distribuıda

Pares (chave, valor)

Faixas de enderacamento sao associadas a cada nodo

Valor esta armazenado no nodo resposavel pela faixa deenderecamento da chave

Lauro Camada de Gerenciamento

Page 23: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Obter conjunto de candidatos

Utilizando multiplas funcoes hash

Unica funcao hash e sal

Exemplo de funcao hash: SHA1 (160 bits)

Exemplos de sal: Inteiros de 1 a n

Lauro Camada de Gerenciamento

Page 24: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Exemplo de multiplas hash

Chave do objeto: 4faee3cd92839fe0b477b6de44292b0b

Hash1 = SHA1(chave + ”1”) =276a6013cc5475d6ed33b40ed7541fca68ebe2f2

Hash2 = SHA1(chave + ”2”) =2a08fb517b778f0c2ef08a2500c1bc10cb05cf80

Hash3 = SHA1(chave + ”3”) =f865b2de1fa153758f52cbd2ae2ba84c889fda0b

Hashn = SHA1(chave + ”4”) =46d6afa607724cde9db16c5b52210ade7031e977

Lauro Camada de Gerenciamento

Page 25: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Sistema de indexacao

Sistema gerencia espaco de enderecamento

Cada faixa de enderecamento e associada a um repositorio narede de preservacao

Informacoes podem estar centralizadas ou distribuıdas

Sistema deve traduzir um conjunto de hash em um conjuntode repositorios

Lauro Camada de Gerenciamento

Page 26: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Exemplo de traducao de hash

276a6013cc5475d6ed33b40ed7541fca68ebe2f2 =planetlab-2.imperial.ac.uk

2a08fb517b778f0c2ef08a2500c1bc10cb05cf80 =planetlab1.inf.ethz.ch

f865b2de1fa153758f52cbd2ae2ba84c889fda0b =plab1.larc.usp.br

46d6afa607724cde9db16c5b52210ade7031e977 =planetlab-2.fokus.fraunhofer.de

Lauro Camada de Gerenciamento

Page 27: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Insercao de objetos

Recebe um objeto digital que deve ser preservado

Chave do objeto e confiabilidade desejada estao presentes nonome do arquivo

Deve transferir replicas do objeto e garantir a confiabilidadedesejada

Lauro Camada de Gerenciamento

Page 28: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Passos da insercao

1 Obter conjunto de hash para a chave do objeto

2 Traduzir conjunto de hash em um conjunto de repositorios

3 Algoritmo de selecao analisa conjunto de repositorioscandidatos

4 Alguns repositorios candidatos sao eleitos (receberao replicas)e um intervalo de auditoria e definido

5 Repositorios eleitos sao notificados sobre a transferencia dareplica

6 Cada repositorio eleito transfere uma copia do objeto e aarmazena

Lauro Camada de Gerenciamento

Page 29: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Auditoria de replicas

Verificar as replicas de um objeto

O armazenamento de uma das replicas pode falharUm repositorio pode estar fora do ar

Confiabilidade desejada do objeto deve ser mantida

Informacoes relacionadas a datas de auditoria sao gravadas nacamada de armazenamento

Lauro Camada de Gerenciamento

Page 30: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Auditoria de replicas

Todos os repositorios sao responsaveis por executar a auditoria

Auditorias de um mesmo objeto sao agendadas com pequenasdiferencas de tempo

Remover excesso de replicas e um processo perigoso

Lauro Camada de Gerenciamento

Page 31: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Passos da auditoria

1 Camada de armazenamento deve detectar necessidade deauditoria e disparar o processo

2 Obter conjunto de hash para a chave do objeto

3 Traduzir conjunto de hash em um conjunto de repositorios

4 Algoritmo de selecao recalcula a confiabilidade do objeto

5 Novo intervalo de auditoria e definido

6 Se necessario, novas replicas sao criadas

7 Repositorios sao atualizados quanto a nova data de auditoriado objeto

8 Se necessario, novas replicas sao transferidas

Lauro Camada de Gerenciamento

Page 32: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Consulta de replicas

Recuperar informacoes das replicas de um objeto

Localizacao das replicasQuantas replicas existemQuando as replicas foram verificadas (auditoria) pela ultimavez

Parametro necessario: chave do objeto

Saıda: uma lista de repositorios que possuem replica do objeto

Lauro Camada de Gerenciamento

Page 33: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Passos da consulta de replicas

1 Obter conjunto de hash para a chave do objeto

2 Traduzir conjunto de hash em um conjunto de repositorios

3 Consultar cada repositorio candidato sobre a existencia dareplica

4 Retornar lista de repositorios que possuem replica

Lauro Camada de Gerenciamento

Page 34: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica

Recuperacao de uma replica

Localizar a replica de um objeto e permitir sua recuperacao

Funciona de forma analoga a consulta de replicas

Retorna um ou uma lista de paths para a replica e respectivosrepositorios

Replicas ficam disponıveis para transferencia

Lauro Camada de Gerenciamento

Page 35: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

1 Introducao

2 Modelo

3 Arquitetura

4 Implementacao

5 Conclusao

Lauro Camada de Gerenciamento

Page 36: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Implementacao

Processos disponıveis para a camada de interface

Insercao, Consulta e RecuperacaoInterface dispara processos atraves de troca de mensagens

Necessidade de auditoria detectada pela base de dados

Gerenciamento utiliza funcoes disponıveis na camada dearmazenamento

Notificar outros repositoriosRecuperar informacoesTransferir replicas

Lauro Camada de Gerenciamento

Page 37: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Indexacao

Sistema de indexacao centralizado

Informacoes de indexacao replicadas na rede

Sistema de indexacao poderia ser totalmente distribuıdo

Lauro Camada de Gerenciamento

Page 38: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

1 Introducao

2 Modelo

3 Arquitetura

4 Implementacao

5 Conclusao

Lauro Camada de Gerenciamento

Page 39: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Camada e responsavel por alocar replicas e garantir aconfiabilidade

Camada implementa algoritmo de selecao de repositorios e umsistema de indexacao

Confiabilidade no arquivamento

Garantida na insercaoMantida nas auditorias

Lauro Camada de Gerenciamento

Page 40: GT-Digital Preservation - Camada de Gerenciamento

university-logo

IntroducaoModelo

ArquiteturaImplementacao

Conclusao

Duvidas? Comentarios? Sugestoes?

Lauro Camada de Gerenciamento