Upload
sibiusp
View
937
Download
0
Embed Size (px)
Citation preview
DIGITALIZAÇÃO
E
PRESERVAÇÃO DIGITAL
Uma introdução / relato de caso
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
André Nito Assada
DGPJ / DT / SIBi
Universidade de São Paulo
13 de janeiro de 2016
PROGRAMAÇÃO
1. DIGITALIZAÇÃO
Contextualização / motivação
Imagem e documento digital – conceitos fundamentais
Equipamentos
Estratégias de digitalização
Gerenciamento de um serviço de digitalização
Formação de um arquivo digital preservação digital
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
PROGRAMAÇÃO
2. PRESERVAÇÃO DIGITAL
Desafios – obsolescência – analogia com o caso da Pedra de Rosetta
Conceito(s) de preservação
O que digitalizar
Como digitalizar
Gerenciamento, armazenagem / arquivamento
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
1. DIGITALIZAÇÃO
Contextualização / motivação
Imagem e documento digital – conceitos fundamentais
Equipamentos
Estratégias de digitalização
Gerenciamento de um serviço de digitalização
Formação de um arquivo digital preservação digital
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
1. DIGITALIZAÇÃO
Contextualização / motivação
Por que digitalizar?
Um pouco de história
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
CONTEXTUALIZAÇÃO:
POR QUE DIGITALIZAR?
Problematização:
Digitalizar para preservar
Economizar espaço
Reduzir custos
Aumentar a eficiência/eficácia no acesso à informação
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
CONTEXTUALIZAÇÃO:
UM POUCO DE HISTÓRIA
DIGITAL – Representação
A cifra de Bacon (1605) - “código”: representar uma letra por um grupo de letras
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
O Código Baudot (1874) – código de máquina (binário: 1 ou 0)
5 bits
International Telegraph Alphabet No. 1 (ITA1)
ITA2 – adoção de padrão internacional:
Predecessor do ASCII
Comunicação à distância pelo advento da eletrônica:
TTY – Teletypewriter
2ª Guerra Mundial (1939 a 1945)
bom dia
AAAABABBABABABBAAABBABAAAAAAAA Fonte: Wikipedia
B O M D I A
BOMDIA
Teletypewriter – TTY na 2ª GM- Fonte: Wikipedia
CONTEXTUALIZAÇÃO:
UM POUCO DE HISTÓRIA ASCII e UTF-8
A questão da padronização: possibilidade de leitura
7 bits
7 “posições” = Maior número de combinações possíveis
= Possibilidade de representar até 128 caracteres
Possível agora representar caracteres de controle,
espaço, quebra de linha, início e fim de transmissão,
tabulação, etc.
Evolução da computação: adoção de 8 bits
Derivativas do ASCII, p. ex. Unicode/UTF-8: (identificação
“code points” + código) – possível representação de mais
1.112.064 caracteres (eg. cirílico, grego, ideogramas, etc)
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Fonte: Wikipedia ( https://en.wikipedia.org/wiki/UTF-8 )
Concluindo este tópico: para nossos fins, podemos pensar simplificadamente que o digital é a
representação do físico por meio de código binário. Importante compreender também que o código que
realiza essa representação pode variar, e a importância de se saber a codificação para interpretar e
exibir corretamente a representação – esta noção será essencial para pensarmos preservação digital
1. DIGITALIZAÇÃO
Contextualização / motivação
Imagem e documento digital – conceitos fundamentais
Equipamentos
Estratégias de digitalização
Gerenciamento de um serviço de digitalização
Formação de um arquivo digital preservação digital
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
p.17, recomendações do CONARQ:
http://www.conarq.arquivonacional.gov.br/media/publicacoes/recomenda/recomendaes_para_digitaliz
ao.pdf
TIFF? Compressão? Resolução? Bits?
O que são estes termos?
Por que esses parâmetros são preconizados?
Um conceito inicial:
Matriz digital (arquivo obtido diretamente da captura)
Alta qualidade/fidelidade
Arquivos grandes
Acesso restrito
Derivadas digitais (arquivos gerados a partir da matriz, com fins de promover acesso, divulgação, uso secundário, etc)
Qualidade média/baixa
Arquivos compactos, fáceis de copiar/transferir
Acesso ao usuário final
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS
Texto digitado vs. Texto digitalizado
(imagem vetorial vs. imagem rasterizada)
Texto digitado – código binário interpretado pelo programa editor de texto. É exibido como imagem vetorial.
Texto digitalizado – código binário interpretado pelo programa visualizador de imagens. O
código corresponde à descrição de uma imagem rasterizada, e não de caracteres de texto
“Por que alguns PDFs ficam bons quando eu dou zoom e outros ficam ruins?”
Experimento prático: vamos salvar um slide como imagem e o mesmo slide como texto – diferença entre caractere representado vetorialmente vs. rasterizado (será explicado a seguir)
A importância de saber escolher a melhor forma de armazenar uma informação
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS Imagem digital – conceito de Raster ou Bitmap
(explicação simplificada)
Descrição de pontos em estrutura de matriz – cada ponto é descrito quanto à sua posição e cor.
Cada cor por sua vez é descrita por uma combinação entre R (Vermelho), G (Verde) e B (Azul) (ou outros padrões de cor, como CMYK - a ser explorado em ocasião propícia)
Ao contrário de um Vetor, em que a descrição é relativa à orientação entre pontos, em um Bitmap a descrição é absoluta com relação a cada ponto
“Dar zoom”: em um vetor, o programa que lê reconstrói a orientação entre pontos infinitamente – a imagem não “fica ruim” ; já no caso de uma imagem bitmap, o zoom irá aproximar a visualização até o nível dos pontos OU em casos de ampliação haverá “suavização” (=interpolação): o programa interpreta o posicionamento dos pontos e adiciona informações que não estavam no original (conceito de interpolação será visto mais para frente)
Experimento prático, da mesma forma que com texto:
https://pt.wikipedia.org/wiki/Ficheiro:Vector-based_example.svg
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Fonte: Wikipedia (https://pt.wikipedia.org/wiki/Raster)
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS
Digitalização: conversão de uma informação para o meio digital
No caso de digitalização de documentos: conversão da informação analógica para o formato digital
Informação analógica (não-digital): fotos, negativos, mapas, livros, áudios de discos de vinil
Informação digital: tudo aquilo passível de transmissão ou armazenamento eletrônico (~binário)
Informação: ao digitalizar, um documento, não apenas o seu texto é considerado informação, mas também o papel, sua cor, suas marcas e manchas, sua textura, etc.
Qual o objetivo da digitalização? Qual informação se deseja capturar?
Em primeira instância: deseja-se preservar o conteúdo textual e de possíveis ilustrações, ou também se deseja possibilitar outras formas de fruir/estudar a obra (como ver sua textura e orientação das fibras do papel, possíveis vincos nas folhas, anotações à lápis, etc)?
Na digitalização de um documento: obtém-se uma imagem digital = obtém-se um raster
Composto por pontos descritos com relação à posição absoluta e cor
Posteriormente, por um processo de reconhecimento ótico de caracteres (OCR), é possível codificar um texto a partir da imagem (a ser visto)
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS
Elementos básicos de uma imagem:
Resolução ótica (“megapixels”)
Quantidade de pontos (pixels) que compõem a imagem
Um píxel é considerado como o menor componente de uma imagem digital.
Modelo para compreensão por analogia: técnica do pontilhismo ( https://upload.wikimedia.org/wikipedia/commons/6/60/Morning%2C_Interior_-_Luce.jpeg )
experiência prática: em uma foto, por que geralmente “mais megapixels” significa “melhor imagem” – quantidade de informação para descrever a mesma coisa
Resolução ótica: capacidade de captura real da imagem (maior quantidades de pontos = maior quantidade de informação/detalhes)
Resolução interpolada: resultado de aumento artificial da resolução, por algoritmo não é informação contida no original
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
15mp 6mp 2mp 1.8mp
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS
Elementos básicos de uma imagem - resolução ótica (“megapixels”) DPI vs PPI, captura, impressão, exibição no monitor – desmistificando
DPI não está relacionado ao tamanho da imagem, e sim com a qualidade da impressão da imagem:
Indica o número de pontos por polegada (Dot Per Inch = DPI) que irá compor a imagem.
Quanto mais pontos por polegada (maior densidade de pontos) maior a resolução e qualidade.
O que significa então capturar em 300 DPI (recomendação do CONARQ¹)?
Critério: qualidade da imagem. Exigir 300 DPI se deve à capacidade de gerar cópias de boa qualidade (legibilidade, reprodução de detalhes)
Uma impressão de boa qualidade precisa de pelo menos 300 DPI para que os pontos não sejam notados ao se olhar para o impresso.
Supondo uma imagem que tenha 1800x1200 pixels = 2160000 pixels = 2,16 megapixels
temos: 1800 / 300 = 6 polegadas x 1200 / 300 = 4 polegadas tamanho 6x4 polegadas (15,24 x 10,16cm, o nosso popular 10x15).
Analogamente: se o original tem 6x4 polegadas, uma captura de 2,2 mpix é suficiente para gerar cópias de 300 DPI
Se tenho uma folha formato A4 (8,27 pol × 11,7 pol), qual deve ser a resolução de captura para obter 300 DPI?
11,7 pol x 300 dots/pol = 3510 dots(pixels) e 8,27 pol x 300 dots/pol = 2481 pixels ; 3300x2700 = 8708310 pixels = 8,7 megapixels
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
¹ http://www.conarq.arquivonacional.gov.br/media/publicacoes/recomenda/recomendaes_para_digitalizao.pdf
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS
Elementos básicos de uma imagem - resolução ótica (“megapixels”) DPI vs PPI, captura, impressão, exibição no monitor – desmistificando
Se preciso de 8,7 megapixels para digitalizar uma folha A4... então basta comprar uma câmera de 9 megapixels para meu projeto de digitalização? NÃO! Motivos:
Você não irá digitalizar apenas folhas A4. Para digitalizar, por exemplo, uma folha A1 (22x34 pol = 56 x 86cm aproximadamente) na qualidade de 300 DPI, seria necessário um sensor de 67,32 megapixels.
A qualidade da captura não depende exclusivamente da resolução de captura. Fatores de qualidade:¹
Resolução óptica
Profundidade de bits (resolução de cor / resolução tonal)
[Ausência de] Compactação
[Ausência de] Interpolação
Qualidade do equipamento
Técnicas de captura
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Ver pp.7-8 das recomendações do CONARQ: http://www.conarq.arquivonacional.gov.br/media/publicacoes/recomenda/recomendaes_para_digitalizao.pdf
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS
Dos 6 elementos citados, os 3 primeiros são elementos básicos de uma imagem:
1. Resolução ótica (“megapixels”) – já explicado
2. Resolução de cor (tonal)
Quantidade de bits usados para representar a cor de um único pixel numa imagem bitmap (raster), ie., quantidade de informação usada para descrever a cor de cada ponto
De forma análoga à nossa discussão inicial sobre Bacon, Baudot, ITA2 e ASCII: Um maior número de bits possibilita um maior número de combinações. Como cada combinação é uma cor, um maior número de combinações significa uma maior escala de tonalidades possíveis = maior fidelidade de cor
1 bit: 1 cor (preto)
4 bits: 24 = 16 tons
8 bits: 16 x 16 = 256 tons
24 bits: 256 x 256 x 256 = 16.777.216 tons
(Em RGB: 8 bits por cor)
... 30, 32, 36, 48 bits...
Formato e Compressão
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Fonte: Wikipedia
Fonte: Wikipedia
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS Dos 6 elementos citados, os 3 primeiros são elementos básicos de uma imagem
3. Formato e Compressão
TIFF (Tagged Image Format): criado em 1986, formato proprietário da Adobe
Indicado para gráficos de todos os tipos
Permite multipágina
JPEG (Joint Photograph Experts Group): criado em 1983
Indicado para fotografia
Compressão voltada para fotografia
Possibilita fotos com tamanho “viável”
Não permite multipágina
PDF (Portable Document Format): criado em 1990
Encapsula imagens rasterizadas e vetoriais
JPEG, TIFF, PNG
Permite multipágina
ISO 19005-1:2005 (“PDF-A”) – para preservação
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS Formato e Compressão
TIFF (Tagged Image Format): criado em 1986, formato proprietário da Adobe
Indicado para gráficos de todos os tipos
Permite multipágina
Permite compactação ou não (diversos tipos: LZW, CCITT, CT8/PNG, etc)
JPEG (Joint Photograph Experts Group): criado em 1983
Indicado para fotografia (lógica de compressão voltada para transições de baixo contraste, estruturas irregulares)
Possibilita fotos com tamanho “viável”
Não permite multipágina
PNG (Portable Network Graphics): criado em 1996
Voltado para gráficos na internet (melhor compressão para transições de alto contraste, áreas grandes de cor sólida, estruturas regulares)
Possibilita compressão sem perda de qualidade (lossless)
PDF (Portable Document Format): criado em 1990
Encapsula imagens rasterizadas (compactadas ou não) e vetoriais
“Incorpora” JPEG, TIFF, PNG...
Permite multipágina
ISO 19005-1:2005 (“PDF-A”) – para preservação
Algoritmo MRC (Mixed Raster Content) – ABBYY, Luratech...
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS Formato e Compressão
RAW
Formato proprietário de cada equipamento de digitalização
Só pode ser aberto pelo próprio software do equipamento
Informação pura obtida diretamente do output do equipamento – dados não alterados
Em fotografia é bastante utilizado, pois permite trabalhar posteriormente com cor e luz sem grandes perdas
Sem compactação, tamanho grande
RAW x TIFF sem compressão
Por que se recomenda então TIFF e não RAW?
Apesar de também ser formato proprietário, o TIFF é mais universal do que o RAW: diversos programas podem ler
esse formato, enquanto que o RAW é lido apenas pelo software do equipamento
O TIFF está em uso há mais de 30 anos, havendo pressão de mercado por compatibilidade (sua última versão
está em uso há 23 anos). O software proprietário do RAW é variável conforme o fabricante e ao mudar de
versão pode simplesmente não ler mais versões antigas
Para abrir o TIFF não dependemos da marca/software do equipamento de digitalização
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS Dos 6 elementos citados, os 3 últimos estão relacionados com técnica
Interpolação
Poderia ser considerado elemento da imagem também, porém colocamos como um elemento de técnica
aqui porque a interpolação geralmente é ativada/desativada no momento em que se configura a
digitalização (ou então na ampliação, o que já não é mais o nosso foco de digitalização)
Como visto anteriormente: A interpolação consiste em adicionar novos pontos a uma imagem, aumentando
artificialmente sua resolução. Essa técnica utiliza os pontos existentes, e adiciona novos pontos entre eles
com valor da média entre os pontos.
Suaviza assim a aparição dos pixels quando se amplia uma imagem
Ao mesmo tempo, adiciona informação que não está presente no original – não há fidelidade
Não deve, assim, ser utilizada para geração de matrizes, uma vez que não corresponderá à informação original
Equipamento
Técnica de captura (conhecimento de fotografia)
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
IMAGEM E DOCUMENTO DIGITAL:
CONCEITOS BÁSICOS Dos 6 elementos citados, os 3 últimos estão relacionados com técnica
Equipamento
Veremos sobre especificações do equipamento no próximo tópico
Quanto à técnica: necessário compreender a técnica de operação correta: de nada adianta um equipamento poderoso, de alta resolução, que é operado apenas mecanicamente
Não adianta também um ótimo equipamento sem se planejar a digitalização e pensar o processo de acordo com os objetivos que se deseja atingir
Manutenção regular do equipamento evitando tempos de parada/improdutividade e custos com reparo de quebras que poderiam ter sido evitadas
Técnica de captura (conhecimento de fotografia)
Abertura, exposição, sensibilidade/ISO, qualidade de sensores e objetivas, distorções ópticas, profundidade de campo, balanço de cor, iluminação
exemplo prático da influência da luz e do balanço de cores na captura digital: https://www.youtube.com/watch?v=-uG-YAW9io4
exemplo prático da influência do balanço de branco: https://www.youtube.com/watch?v=Zu7ujmFwzNc
Exemplo prático: apperture X profundidade de campo
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
1. DIGITALIZAÇÃO
Contextualização / motivação
Imagem e documento digital – conceitos fundamentais
Equipamentos
Estratégias de digitalização
Gerenciamento de um serviço de digitalização
Formação de um arquivo digital preservação digital
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
EQUIPAMENTOS
Câmeras fotográficas
Resolução (do equipamento, não da imagem gerada) – sensor de maior resolução possibilita capturar objetos maiores
Inversamente, uma maior densidade de pixels em um sensor pode (simplificando) degradar a absorção de luz ou gerar efeitos de interferência elétrica – buscar equipamentos de qualidade comprovada
Comparação de câmeras e lentes: http://www.the-digital-picture.com/Reviews/Comparison-Tools.aspx
Velocidade de captura
Sensibilidade de captura (ISO)
Qualidade da objetiva: abertura e componentes da objetiva
Exemplo prático: comparando uma objetiva Sigma X Canon
http://www.the-digital-picture.com/Reviews/ISO-12233-Sample-Crops.aspx?Lens=787&Camera=453&Sample=0&FLI=0&API=4&LensComp=805&CameraComp=453&SampleComp=0&FLIComp=0&APIComp=4
Velocidade da memória e da interface de transferência de dados
Suporte/entrada do material a ser digitalizado
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Fonte: Wikipedia
EQUIPAMENTOS
Câmeras fotográficas
Velocidade da memória e da interface de transferência de dados
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Fonte: Wikipedia
Fonte: Wikipedia https://en.wikipedia.org/wiki/Secure_Digital#Speed_class_rating
Fonte: Wikipedia https://en.wikipedia.org/wiki/USB#Transmission_rates
Outras interfaces: Firewire, Esata, Ethernet...
EQUIPAMENTOS
Câmeras fotográficas
Suporte/entrada do material a ser digitalizado
Paralelismo
Resistência a vibrações
Material
Limpeza
Não pode reagir ou contaminar a obra
Conservação do estado físico da obra
Facilidade de manuseio
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
EQUIPAMENTOS
Outros equipamentos: scanners, backscanners, robôs de automação...
Custo de compra
Custo de manutenção
Sensor e câmera própria ou de “fabricação em massa”
Partes móveis e/ou frágeis, sensores, filtros sensíveis a umidade e calor
Produtividade
Fatores fotográficos: paralelismo, distorções ópticas, abertura, profundidade de campo, sensibilidade, calibragem de cor
Facilidade de manuseio x finalidade da digitalização (exemplo de caso: point-and-shoot vs. backscanner)
Suporte da obra - risco de dano ou desgaste (luz forte e/ou quente, calor do equipamento, vibração, atrito, graxa)
Contaminação cruzada
Necessário que a máquina seja fácil de higienizar
Necessário medidas de conservação antes da digitalização (como reparos e desinfecção)
Por melhor e mais automático que seja o equipamento: ainda assim, há sempre necessidade de conhecimentos teóricos em fotografia para resolver casos difíceis
Suporte técnico – eficácia e eficiência, custos de importação
Burocracias para aquisição – nacional X importado
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
1. DIGITALIZAÇÃO
Contextualização / motivação
Imagem e documento digital – conceitos fundamentais
Equipamentos
Estratégias de digitalização
Gerenciamento de um serviço de digitalização
Formação de um arquivo digital preservação digital
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
ESTRATÉGIAS DE DIGITALIZAÇÃO
Por que digitalizar?
Promover acessibilidade, possibilidade de acesso remoto, acesso simultâneo, disseminação mundial da informação
Agilidade na recuperação da informação
Menor exposição do usuário e dos profissionais a fungos e outros agentes danosos à saúde
Mas: economia de espaço físico não existe, pois é necessário manter os originais; Necessidade de trabalho para higienização e restauro; Custo de storage (compra e manutenção) Custo de mão de obra para digitalizar, indexar e gerenciar/manter arquivo digital
Promove novas formas de uso da informação: análise textual (comparação, contabilização de fontes e citações, etc) eletrônica e comunicações eletrônicas.
Promove novas formas de organização de um material: o mesmo material pode se encontrado ao mesmo tempo em mais de uma “estante” (“coleção”)
Indexação correta permite controle maior da propriedade intelectual (?)
Novas formas de interação com as mídias: sons e videos podem ser relacionados por link ao texto (exemplo: execução de uma partitura digitalizada em MIDI ou por um intérprete)
Diminui o manuseio da obra física, colaborando com a preservação de seu estado físico - principalmente importante no caso de obras únicas/raras
Porém: os custos do digital somam-se aos custos do acervo físico. A digitalização não tem como consequência necessária a eliminação do exemplar físico. Há de se considerar ainda que além dos custos de digitalização, haverá custo de armazenamento, indexação digital e manutenção do acervo digital (preservação digital).
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
ESTRATÉGIAS DE DIGITALIZAÇÃO
Critérios para priorizar uma digitalização
Valor intrínseco: o tempo de uso e o número de pessoas que utiliza o material é alto
O projeto pode ser completado com sucesso com os equipamentos, a verba e a mão de obra disponível
A verba disponível também já foi pensada com relação à preservação digital
A instituição possui propriedade sobre os direitos autorais de digitalização ou recebeu autorização de seu detentor
O projeto de digitalização promove sustentabilidade, por exemplo substituindo a necessidade de distribuição de exemplares impressos em papel pela versão eletrônica, ainda por cima acessível por todos de forma remota. Exemplos: Revistas antigas da USP e o Portal de Revistas ; Teses antigas da USP e o Portal de Teses ; Obras de autores USP e a BDPI
O projeto foi planejado, praticável, há um norteador e os objetivos a serem alcançados são razoáveis
O projeto causará economia de dinheiro: eliminar a necessidade de adquirir exemplares repetidos, remover os custos com restauro e encadernação de obras
O material é importante para a instituição, não há cópia e está deteriorando
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
ESTRATÉGIAS DE DIGITALIZAÇÃO Erros comuns a serem evitados ao se planejar uma digitalização
“Vamos digitalizar todo o acervo”
Custos: tempo, mão de obra, storage, processamento
Utilizar esses recursos para digitalizar obras não relevantes/que poderiam ser doadas ou descartadas
“Vamos digitalizar para eliminar o exemplar físico. Assim economizamos espaço e mão de obra”
Perda do digital (acidental ou criminosa)
Nem sempre o digital é considerado substituto perfeito do físico
Problemas na digitalização percebidos apenas após o descarte
Dificuldades de recuperação do digital (má indexação)
Preferência pessoal/profissional pelo exemplar físico
“Vamos comprar o equipamento “modelo X” para digitalizar todo acervo”
Cada equipamento é mais adequado a um tipo/formato de obra.
Não há equipamento ideal que solucione todas as dificuldades
Por vezes o acervo é constituído em sua grande maioria de obras de simples digitalização e se adquire um equipamento muito caro e complexo introduzindo complexidade em um processo que poderia ser simples
Outras vezes, na tentativa de economizar, se adquire um equipamento mais barato porque as especificações são similares ao mais caro, mas ou o acervo exige equipamentos que se adaptem a variações de formato ou mesmo a qualidade do equipamento mais barato acaba deixando a desejar (ou mesmo até danificando a obra)
“Vamos digitalizar. Depois organizamos”
A indexação e organização deve ser pensada de forma simultânea à digitalização. É uma ilusão pensar que será possível localizar um arquivo específico dentro de milhões de arquivos para então indexá-lo
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
ESTRATÉGIAS DE DIGITALIZAÇÃO Escolha do equipamento: deve se dar conforme as características das obras e a finalidade da digitalização
Obras
Que não podem ser desencadernadas
De grande formato
De formato diminuto
Encadernadas com grampo/espiral
Com pouca abertura
Com pouca margem
Com costura frágil
Impressão opaca/apagada
Tinta sensível a calor/luz
Anotações importantes em grafite
Com manchas
Com ondulações
Extremamente raras (X confiabilidade do equipamento)
Finalidade
Capturar apenas o conteúdo textual impresso
Capturar anotações feitas em grafite fraco ou mesmo apagadas (relevo)
Capturar ilustrações para ampliação
Captura o mais fiel possível ao original
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
ESTRATÉGIAS DE DIGITALIZAÇÃO Planejar como lidar com irregularidades na digitalização
Página faltando ou duplicada
Página com ondulações e/ou manchas
Foldouts no meio da obra
Numeração irregular
Impressões em apenas um lado (descartar ou manter o lado branco?)
Páginas grudadas
Pela impressão
Por grampo
Por cola
Por fita
Páginas rasgadas previamente
Acidentes com a obra durante a digitalização
Digitalização duplicada (como evitar?)
Digitalização de edições (eg., se apenas a 1a edição é rara)
Digitalização de exemplares (eg., se apenas um exemplar específico é raro) André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Veja mais sobre planejamento de digitalização em: https://www.loc.gov/preservation/care/scan.html
1. DIGITALIZAÇÃO
Contextualização / motivação
Imagem e documento digital – conceitos fundamentais
Equipamentos
Estratégias de digitalização
Gerenciamento de um serviço de digitalização
Formação de um arquivo digital preservação digital
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
GERENCIAMENTO DE UM SERVIÇO DE
DIGITALIZAÇÃO Controle de fluxo e registro de pessoas
Segurança tanto física quanto do servidor de arquivos e do sistema de captura e processamento
Identificação/Seleção, conferência do estado físico antes de digitalizar
Recebimento/guarda temporária
[Conservação/restauro]
Digitalização em si
Guarda temporária na digitalização
Controle de qualidade
Devolução do exemplar físico, conferência do estado físico na entrega
Processamento do digital: crop, rotação, brilho contraste e cor,…
Controle de qualidade 2
Disponibilização de versão online / indexação
Arquivamento / indexação 2
Manutenção/preservação do digital
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
1. DIGITALIZAÇÃO
Contextualização / motivação
Imagem e documento digital – conceitos fundamentais
Equipamentos
Estratégias de digitalização
Gerenciamento de um serviço de digitalização
Formação de um arquivo digital preservação digital
“Digitalizei, logo estou preservando” : verdadeiro ou falso?
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
“DIGITALIZEI, LOGO ESTOU PRESERVANDO” :
VERDADEIRO OU FALSO?
Toda informação (seja ela uma pintura na parede de uma caverna até uma mensagem trivial enviada pelo smartphone, passando por um vídeo gravado em VHS ou um rótulo de lata de molho) tem um valor para que
aquilo seja considerado necessário preservar.
Alguns tipos de informação, como o tíquete de trem, tem caráter temporário, enquanto que outras informações, como a declaração do imposto de renda, precisam ser armazenados por um período maior de tempo. Esse valor varia com o tempo: um tíquete de trem utilizado por Getúlio Vargas em sua infância tinha pouco valor, porém hoje em dia se comprovado o uso por GV este tíquete teria alto valor. Essa é uma das funções importantes das bibliotecas e arquivos: cuidar da guarda de obras de valor, além de adicionar informações que
conferem autenticidade, valor e peso histórico às obras.
Em outros termos, já é uma medida de preservação.
A digitalização visa também conservar a informação criando uma representação digital da informação contida em suporte físico. À primeira vista, a digitalização é uma medida de preservação. Mas esta medida não é absolutamente certeira se não for planejada a partir de conhecimentos sólidos...
“DIGITALIZEI, LOGO ESTOU PRESERVANDO” :
VERDADEIRO OU FALSO?
2. PRESERVAÇÃO DIGITAL
Desafios – obsolescência – analogia com o caso da Pedra de Rosetta
Conceito(s) de preservação
O que digitalizar
Como digitalizar
Gerenciamento digital
Armazenagem / arquivamento
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
DESAFIOS – ANALOGIA COM A PEDRA DE ROSETTA
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Fonte do texto e imagem: Wikipedia (https://pt.wikipedia.org/wiki/Pedra_de_Roseta )
A Pedra de Roseta é um fragmento de uma estela de granodiorito do Egito Antigo, cujo
texto foi crucial para a compreensão moderna dos hieróglifos egípcios. Primeiro texto
bilíngue a ser recuperado na história moderna, está em exibição ao público no Museu
Britânico desde 1802, onde é o objeto mais visitado. Sua inscrição registra um decreto em
três parágrafos com o mesmo texto: o superior está na forma hieroglífica do egípcio
antigo, o trecho do meio em demótico (variante do egípcio tardio), e o inferior em grego
antigo.
Levantava-se a hipótese de que os três textos fossem o mesmo, embora apenas o em
grego pudesse ser entendido.
O conhecimento sobre a escrita em hieróglifos encontrava-se perdido desde o século IV, e
do demótico desde pouco depois. Desse modo, dois problemas confrontavam os
acadêmicos que trabalhavam com as inscrições: saber se os hieróglifos representavam
uma simbologia fonética ou apenas símbolos pictóricos, e determinar o significado das
palavras individuais.
O médico britânico Thomas Young obteve um substancial progresso em 20 anos de
estudo. Mas o mérito final da completa realização da tradução, em 1822, pertence ao
estudioso francês Jean-François Champollion, que desta forma iniciou a ciência do estudo
de assuntos referentes ao Egito, a egiptologia.
Preservação do suporte
Preservação do código
Possibilidade de conversão entre códigos X Perda de informação
2. PRESERVAÇÃO DIGITAL
Desafios – obsolescência – analogia com o caso da Pedra de Rosetta
Conceito(s) de preservação
O que digitalizar
Como digitalizar
Gerenciamento e Armazenagem / arquivamento
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
http://www.arqsp.org.br/cpba/
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
CONCEITO(S) DE PRESERVAÇÃO
Arquivo digital – uma analogia
Informação capturada por um processo de digitalização (eg., uma revista digitalizada) ou informação nativamente digital (eg., uma revista eletrônica)
Esta informação é armazenada em um formato, ie. um código capaz de representar a informação física na forma binária (lembre-se da Cifra de Bacon e o padrão ASCII). Isto constitui um arquivo. Estes formatos estão em constante evolução e obsolescência
Este arquivo precisa ser gravado em um suporte, uma mídia. As mídias, assim como os formatos, também variam consideravelmente e estão em constante evolução e obsolescência
Estas mídias, por sua vez, exigem condições específicas de armazenamento/preservação digital, e necessitam de equipamentos específicos e baseados em tecnologia moderna para sua leitura
Impressão
Suporte
Idioma
Preservação
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
CONCEITO(S) DE PRESERVAÇÃO
Arquivo digital – uma analogia (continuação)
O formato em que a informação é armazenada muitas vezes precisa ser convertido
para um formato mais novo para que possa continuar sendo entendido
O suporte em que a informação está armazenada muitas vezes precisa ser
atualizado, copiando o arquivo para uma para armazenar em uma tecnologia mais
atual
De qualquer forma, este arquivo precisa ser armazenado de uma forma que possa
ser encontrado facilmente depois. Precisa ser indexado
Tradução/
versão
Cópia
Mas então, no que difere a preservação física da preservação digital?
Indexação
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
CONCEITO(S) DE PRESERVAÇÃO
Confusão: termos múltiplos e polissêmicos, usados de forma solta, casual ou mesmo com apelo de marketing:
“digitalizar para preservar”, “preservação digital”, “digitalização para promover acesso”...
Preservação (física)
Conservação
Restauro
Inclui manutenção, tratamento, prevenção de danos e reparo de danos
Como consequência, consegue promover o acesso à obra durante maior período de tempo
Preservação digital
Não significa aplicar medidas de conservação e restauro ao exemplar físico. Mas a digitalização demanda que o exemplar físico esteja em condições suficientes para suportar o processo de digitalização (poder-se-ia afirmar: exige a preservação física)
Se assemelha à preservação física na medida em que se preocupa também em promover o acesso à obra por maior tempo
Mas a preservação digital não se resume à digitalização... Vejamos
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
CONCEITO(S) DE PRESERVAÇÃO
A digitalização muitas vezes é vista como uma atualização de suporte - uma microfilmagem de preservação com mais
tecnologia. A digitalização não tem como consequência necessária a preservação, mas se relaciona com ela em vários pontos.
A digitalização de uma obra pode diminuir a consulta ao exemplar físico. Menor manuseio significa menor desgaste da obra, portanto
uma medida de preservação
A digitalização da obra permite distribuir com facilidade em nível mundial cópias da obra, o que significa promoção do acesso à obra
por mais tempo, portanto também uma medida de preservação
A digitalização, no entanto, não substitui a microfilmagem em todos os quesitos. Possui vantagens e desvantagens.
Preservação digital não significa simplesmente “digitalizar para preservar”, apesar de se relacionar com esse processo.
A preservação digital na verdade está preocupada na conservação da informação a partir do momento em que ela se torna digital.
Implica no esforço com medidas formais para se garantir que a informação digital continue acessível e usável. A preservação digital
então está relacionada com a medida de “digitalizar para preservar” a partir do momento em que os arquivos digitais são gerados e se
deve decidir o que fazer com eles
“Digital preservation is the method of keeping digital material alive so that they remain usable as
technological advances render original hardware and software specification obsolete.”
-- Prytherch, Ray [compilador]. Harrod's librarian glossay and reference book.10th ed. Ashgate, 2005.
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
CONCEITO(S) DE PRESERVAÇÃO
O microfilme
É utilizado há mais tempo com fins de preservação (uso comercial a partir de 1920), e estudos avaliam que sua durabilidade pode atingir séculos se corretamente
manuseado e guardado.
Analógico: para sua leitura (acessar a informação), é necessário apenas luz e uma lente de aumento, sem necessidade de eletricidade ou quaisquer outros equipamentos
modernos (acomoda-se bem à visão apocalíptica de tempo)
Para sua guarda correta, basta controlar parâmetros ambientais luz, umidade relativa, calor). Durabilidade garantida pelas normas ISO de aproximadamente 500 anos
Tem amparo legal para documentos oficiais na “Lei n° 5.433, de 8 de maio de 1968” e no “Decreto n° 1.799, de 30 de janeiro de 1996”, que permite a eliminação do
documento em papel.
Já o arquivo digital
É de utilização recente (os primeiros esforços para pensar a preservação digital datam de 1996 com a publicação do relatório “Preserving digital information: Report of the
task force on archiving of digital information”, e a tomada de medidas realmente efetivas datam dos anos 2000)
Estudos variam quanto à durabilidade da informação digital – problema da obsolecência em vários pontos do processo
A armazenagem da informação se dá em suportes e formatos bastante variáveis – desafio para o futuro
Suporte variável: quem hoje em dia conseguiria ler um disquete 8 pol. ou mesmo um JazzDrive?
Formato variável: Mesmo se conseguisse ler, conseguiria abrir um arquivo ( interpretar o código)?
Estes suportes e codificações estão constantemente evoluindo sem muita atenção à retrocompatibilidade!
Outro fator pouco considerado é a durabilidade (pensando em séculos, e não apenas décadas) das mídias
As medidas de guarda correta dos diversos tipos de mídias são variáveis
A autenticidade do digital ainda não tem total anteparo legal. Necessário confiar na idoneidade da instituição que realizou a digitalização
Mas:
O acesso e leitura são mais fáceis e amplas na era da computação e da globalização - acessibilidade
Não há perdas de informação quando se realiza uma cópia do digital, ao contrário de quando se realiza uma cópia da cópia analógica
CONCEITO(S) DE PRESERVAÇÃO
Pelo que foi exposto até aqui, podemos perceber que a preservação do
documento digital deve se dividir na preservação da informação e do suporte desta informação (por isso, a comparação entre arquivo digital e microfilme pode não ser justa: no microfilme estamos falando basicamente de um suporte, enquanto que no arquivo digital discutimos suporte e informação)
No documento digital:
Suporte depende de hardware que lê a mídia e envia o código para interpretação
Informação depende de software que interpreta código e transforma em informação legível por humano
Em outras palavras: no documento físico convencional, suporte e informação são inseparáveis. A mudança de suporte implica necessariamente em perda de informação. Já no documento eletrônico, é possível migrar a informação de maneira intacta entre suportes diferentes. A informação, no entanto, ao ser atualizada (convertida) para uma nova forma de codificação, está sujeita a possíveis perdas.
Para aprofundamento, veja a partir da p.115 em
MARCONDES, KURAMOTO, TOUTAIN, SAYAO. Bibliotecas digitais: saberes e práticas/organizadores. Salvador : EDUFBA, 2005
http://livroaberto.ibict.br/bitstream/1/1013/1/Bibliotecas%20Digitais.pdf
CONCEITO(S) DE PRESERVAÇÃO
Aspectos a serem observados na preservação de documento digital (modificado a partir de SAYAO e também BARATA):
Preservar a cadeia de bits – preservar o dado em si, fisicamente, a lógica binária
Preservar o conteúdo - capacidade de ler o conteúdo em baixo nível, o código
Preservar a autenticidade - o documento não sofreu adulteração, mudanças não autorizadas, ou não corrompeu devido a falhas no suporte
Preservar a proveniência - origem e cadeia de custódia que confirmam a autenticidade e a integridade
No caso de conteúdo nativamente digital: Preservar a apresentação - forma, layout, fontes, tamanho, margens, colunas, cores, paginação... É possível preservar isso em um PDF/A?
No caso de conteúdo nativamente digital: Pensar os limites do objeto – o que é o objeto a ser preservado? O PDF? O conjunto de arquivos que formam a matriz? Seus metadados? Sua indexação? Seus links? Animações flash encapsuladas? O que deve ser preservado?
No caso de conteúdo nativamente digital: Preservar as funcionalidades - componentes multimídia, conteúdo dinâmico, interoperabilidade, busca (eg. um livro em Flash)
Preservar a versão/edição: Ser capaz de distingui-lo de outras versões, cópias e edições
Preservar o contexto - as dependências de hardware, software, modo de distribuição e links com outros objetos - possível?
Para aprofundamento, veja a partir da p.115 em
MARCONDES, KURAMOTO, TOUTAIN, SAYAO. Bibliotecas digitais: saberes e práticas/organizadores. Salvador : EDUFBA, 2005
http://livroaberto.ibict.br/bitstream/1/1013/1/Bibliotecas%20Digitais.pdf
Para introdução ao PDF/A, veja:
http://www.pdfa.org/publication/pdfa-in-a-nutshell-2-0/
2. PRESERVAÇÃO DIGITAL
Desafios – obsolescência – analogia com o caso da Pedra de Rosetta
Conceito(s) de preservação
O que digitalizar
Como digitalizar
Gerenciamento e armazenagem / arquivamento
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
O QUE DIGITALIZAR
Vimos anteriormente características físicas da obra que deveriam ser levados em
consideração para escolha do que digitalizar.
Cientes agora das demandas de preservação que a guarda de um arquivo
digital gera, a escolha do material a ser digitalizado também precisa ser pensado
em termos de preservação digital
Qual o tamanho de armazenamento necessário para armazenar os arquivos digitais?
Qual o custo para aquisição do armazenamento necessário?
Qual o custo anual de manutenção desse armazenamento?
Há mão de obra qualificada e disponível para cuidar deste armazenamento?
Há mão de obra qualificada e disponível para contornar a obsolescência
tecnológica?
2. PRESERVAÇÃO DIGITAL
Desafios – obsolescência – analogia com o caso da Pedra de Rosetta
Conceito(s) de preservação
O que digitalizar
Como digitalizar
Gerenciamento e armazenagem / arquivamento
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
COMO DIGITALIZAR
Vimos anteriormente características das obras e dos equipamentos que nos indicavam como digitalizar do ponto de vista físico e de especificações técnicas.
Mas do ponto de vista da preservação digital, precisamos também considerar
pelo menos mais dois aspectos para pensar como digitalizar:
O formato gerado nativamente pelo equipamento de digitalização
Possui compactação/perdas?
A economia em espaço compensa a possível perda de informação?
Como lidar com a atualização ou o fim do formato? A conversão com mais perdas será aceitável?
É de um formato universalmente aceito para preservação digital? Caso negativo, qual o
custo (tempo, dinheiro, mão de obra) para conversão? Vale o risco de o equipamento se
tornar obsoleto quanto este formato não puder mais ser lido?
A digitalização foi planejada junto à indexação, para que o arquivo possa ser
recuperado corretamente? Como nomear os arquivos e qual a estrutura de pastas?
2. PRESERVAÇÃO DIGITAL
Desafios – obsolescência – analogia com o caso da Pedra de Rosetta
Conceito(s) de preservação
O que digitalizar
Como digitalizar
Gerenciamento e Armazenagem / arquivamento
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
GERENCIAMENTO, ARMAZENAGEM / ARQUIVAMENTO Medidas para garantia do arquivamento efetivo e
eficiente
Indexação correta e atenta
Backup
Cópias em suportes diferentes
Três cópias em locais diferentes e distantes
Medidas específicas para conservação de cada tipo de mídia
Campo magnético, umidade, poluição, vibração, calor, intensidade de uso
Repositórios distribuídos / armazenamento em nuvem (?)
Sistemas de redundância de discos (RAID 1, 5, 10...)
Controle de acesso/segurança ao sistema e ao equipamento físico
Validação periódica da consistência por meio de HASH
Critérios recebem nota de 1 a 3 Fonte: The National Archives, UK https://www.nationalarchives.gov.uk/documents/selecting-storage-media.pdf
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
Fonte: Van BOGART, John W. C. Studie zur Haltbarkeit von Archivmedien. [National Medial Lab], 1996
Disponível em: http://www.apt.drg.de/media/document/1488/Studie-Archivmedien.pdf
GERENCIAMENTO, ARMAZENAGEM / ARQUIVAMENTO
Ver também:
The Library of Congress: Meeting the Challenge of Digital Preservation
http://www.digitalpreservation.gov/series/challenge/
Conservação preventiva de Bibliotecas e Arquivos (ARQ-SP)
http://www.arqsp.org.br/cpba/
Link “Publicações” Cadernos Técnicos do Projeto de Conservação Preventiva de Bibliotecas e Arquivos Números 44 a 47, 49, 50 e 51
Estude os casos de projetos:
Compare a qualidade e a facilidade de recuperação entre estes dois projetos:
Jornal Folha de São Paulo
http://acervo.estadao.com.br/
Jornal O Estado de São Paulo
http://acervo.estadao.com.br/
Nosso caso na USP: a Biblioteca Digital de Obras Raras e Especiais (BORE)
http://obrasraras.usp.br/
Em Portugal: Arquivo Nacional Torre do Tombo
http://digitarq.dgarq.gov.pt/
Na França: Gallica
http://gallica.bnf.fr/
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016
OBRIGADO!
André Nito Assada
DGPJ / DT / SIBi USP
André Nito Assada - DGPJ/DT/SIBi USP - 13 de janeiro de 2016