77

Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores
Page 2: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Criação e gestão de sites preserváveis

Recomendações do Arquivo.pt

Page 3: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Introdução

Quando se fala em preservar a Web

• Recolher, armazenar e disponibilizar

• Fragmentação inevitável

• Conservação de recursos únicos para memória futura

Page 4: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Funcionamento do Arquivo.pt

Page 5: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Funcionamento do Arquivo.pt

Recolha Reprodução

1 2

Page 6: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Recolha é feita de forma automática por “robots”

Funcionamento do Arquivo.pt

Page 7: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Funcionamento do Arquivo.pt

Recolha é feita dentro de certos limites:

Relacionados com o âmbito de recolha do Arquivo.pt

Relacionados com os websites a recolher

Page 8: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Funcionamento do Arquivo.pt

Reprodução de páginas preservadas

Page 9: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Nem sempre corre tudo bem!

Funcionamento do Arquivo.pt

Page 10: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Recomendações para Publicar

Informação Preservável

Page 11: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

1Identifique corretamente a data de publicação

Page 12: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Identifique corretamente a data de publicação (#1)

Page 13: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores
Page 14: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores
Page 15: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Identifique corretamente a data de publicação (#1)

Page 16: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores
Page 17: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

2Autorize a recolha de conteúdos importantes

através do Robots Exclusion Protocol

Page 18: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Site do festival Semi-Breve: como era em 2017

Page 19: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Site do festival Semi-Breve: como foi preservado

Page 20: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Robots Exclusion Protocol é a origem do problema de preservação

Page 21: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 22: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

https://arquivo.pt/wayback/20170210023116/http:/www.festivalsemibreve.com/robots.txt

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 23: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

User-agent: *

Disallow:

User-agent: *

Disallow:

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 24: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 25: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 26: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 27: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Em alternativa: utilize de um mapa do site

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 28: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Em alternativa: utilize de um mapa do site

http://festivalsemibreve.com/sitemap.xml

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 29: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Porque continua a

haver bloqueios no

Robots.txt ?"Disallowing crawling of Javascript or CSS files in your

site’s robots.txt directly harms how well our algorithms

render and index your content and can result in

suboptimal rankings."

https://webmasters.googleblog.com/2014/10/updating-our-technical-webmaster.html?m=1

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 30: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /editor/

Disallow: /help/

Disallow: /images/

Disallow: /includes/

Disallow: /language/

Disallow: /mambots/

Disallow: /media/

Disallow: /modules/

Disallow: /templates/

Disallow: /installation/

Disallow: /dmdocuments/

Exclusões pré-definidas pelos Sistemas de Gestão de Conteúdos

(CMS) causaram problemas

Page 31: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

B-on.pt: como foi preservado…

Page 32: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

B-on.pt: como foi preservado…

Page 33: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

B-on.pt: como foi preservado…

Page 34: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

O Sistema de Recolha do Arquivo.pt está devidamente identificado.

User-agent: Arquivo-web-crawler

Disallow:

https://sobre.arquivo.pt/pt/recomendacoes/robots-exclusion-protocol-autorizando-a-recolha-de-conteudos-importantes/

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol

Page 35: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

3Utilize um endereço para cada conteúdo

Page 36: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Conteúdos escondidos atrás de formulários escapam às recolhas

Utilize um endereço para cada conteúdo

Page 37: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Conteúdos escondidos atrás de formulários escapam às recolhas

Utilize um endereço para cada conteúdo

Page 38: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Conteúdos não identificados por um endereço único escapam às recolhas

Utilize um endereço para cada conteúdo

Page 39: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Conteúdos escondidos atrás de formulários escapam às recolhas

Utilize um endereço para cada conteúdo

Page 40: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Mapa do Site facilita acesso a pessoas (usabilidade) e máquinas (SEO)

Utilize um endereço para cada conteúdo

Page 41: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Conteúdos escondidos atrás de formulários escapam às recolhas

Alternativa para recuperar conteúdo perdido

Utilize um endereço para cada conteúdo

Page 42: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

4Mantenha o mesmo endereço ao longo do tempo

Page 43: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Problema: quebra de histórico devido a mudança

de endereço do site

http://site.pt

http://novo-site.pt

Page 44: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Mantenha o histórico redirecionando os endereços

antigos para os novos

http://iscte.pt http://iscte-iul.ptRedireciona

Page 45: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

5Utilize formatos adequados para preservação

Page 46: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Problema: Utilização de Flash

https://arquivo.pt/wayback/20060101042747/http://www.cm-corvo.pt/

Page 47: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

“It breaks with the Web’s fundamental

interaction principles”

Page 48: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

http://www.occupyflash.org/

Page 49: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Condições de licenciamento que permitam a sua utilização.

Normas emitidas por um organismo oficial (W3C).

Documentados abertamente através de uma especificação pública.

Lidos e escritos por múltiplas plataformas de software, incluindo

código-aberto.

Amplamente usados.

Escolha formatos adequados:

Page 50: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Texto

HTML, XHTML ou XML

Open Document Text (.odt)

PDF/A-1 segundo a norma ISO 19005-1 (.pdf)

Imagem

PNG (.png)

JPEG2000

Video

AVI sem compressão (.avi)

Escolha formatos adequados:

Page 51: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Evite formatos não adequados para preservação

Texto:

Microsoft Word (.doc)

Imagem:

Macromedia Flash (*.swf)

PhotoShop (.psd)

Vídeo:

Windows Media Video (.wmv)

Escolha formatos adequados

Page 52: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Novas formas de inserir os conteúdos nas páginas

imagem

Page 53: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Novas formas de inserir os conteúdos nas páginas

http://cdn.observador.pt/wp-content/uploads/2014/05/cropped-1196826841.jpg

Page 54: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Novas formas de inserir os conteúdos nas páginas

http://s3.observador.pt/wp-content/uploads/2014/05/cropped-1196826841.jpg

Page 55: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

6Utilize metadados para descrever os conteúdos

Page 56: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Quem é o autor da página?

Page 57: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Utilize metadados (Dublin Core) Exemplo de campos de descrição do Wordpress image title

<meta name="DC.Type" content="Text" />

<meta name="DC.Creator" content="Daniel Gomes" />

<meta name="DC.Date.Created" content="2009-08-21" />

<meta name="DC.Date.Modified" content="2009-11-10" />

Esta informação resume, enriquece ou complementa os conteúdos, produzindo

assim um potencial incremento de informação.

Computadores conseguem utilizar esta informação.

Page 58: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Utilize metadados

Page 59: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

7Torne-se curador dos seus websites

Page 60: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Use ferramentas para avaliar se uma

página é preservável

Archive Ready

Page 61: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

http://archiveready.com

Page 62: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

http://archiveready.com

Page 63: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Recupere conteúdos perdidos

Page 64: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Utilizadores seguem a ligação para uma página

preservada no Arquivo.pt

Ligação quebrada

Páginas Web com ligações quebradas

Caso de uso ISCTE-IUL

Soft404

Page 65: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Soft404https://www.iscte-iul.pt/estudar/cursos-curta-duracao

https://github.com/arquivo/example-cdx-api

Page 66: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Soft404https://www.iscte-iul.pt/estudar/cursos-curta-duracao

https://github.com/arquivo/example-cdx-api

Page 67: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Memorial do Arquivo.ptExemplo, site do projeto Minema da Faculdade de Ciências da Universidade de Lisboa

http://www.minema.di.fc.ul.pt/

https://arquivo.pt/memorial

Page 68: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Completar Página

Page 69: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Selecionar

1 2

Capturar

WARC

WARC (Web ARChive)

ISO 28500:2017

WARC

3

Reprodução

Page 70: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Browsertrix

Instalar no próprio computador - Guia de instalação

Short link: https://tinyurl.com/instalar-browsertrix

Page 71: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Recolhas locais feitas pela instituição ou pessoa proprietária do site :

• Recolhe páginas escolhidas

• Determina a periodicidade que acha adequada

• É objeto de uma verificação humana

• Utiliza ferramentas de recolha de alta qualidade – ex. Webrecorder e Browsertrix

• Gera compromisso com o desenvolvedor do site

• Envolve outros intervenientes - comunicação e imagem, arquivo e a própria gestão

Torne-se curador dos seus websites

Page 72: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Oldweb.todayLook and Feel do passado

Page 73: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

http://oldweb.today

Page 74: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores
Page 75: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Conclusão

Page 76: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Recomendações criar e gerir websites preserváveis

1. Identifique corretamente a data de publicação

2. Use corretamente o protocolo de exclusão de robots

3. Use um endereço para cada conteúdo

4. Mantenha endereços ao longo do tempo

5. Utilize formatos adequados para preservação

6. Publique metadados para enriquecer os conteúdos

7. Torne-se curador dos seus websites

Page 77: Criação e gestão de sites preserváveis...Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação. Computadores

Recomendações:

arquivo.pt/recomenda