Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN

View
220
Download
1
Category

Documents

Preview:

Citation preview

Pesquisa e Arquivo da Web Portuguesa

Daniel Gomesdaniel.gomes@fccn.pt

FCCN

mailto:daniel.gomes@fccn.pt

Estrutura da apresentação

• 1ª parte– Como surgiu e como funciona o tumba!

• 2ª parte – Projecto de arquivo da web portuguesa

Como surgiu o tumba?• 1999-2000 – Projecto de pesquisa sobre noticias.• 2000-2001 – Projecto de recolha de publicações online

com a BN.• 2001 – Tumba!: investigação

– 5 pessoas – 4 PCs velhos para suportar o sistema– Problemas para a FCUL

• 2002 – Apoio da FCCN, serviço público gratuito• 2006 – Ainda estamos vivos (?!)

– Com a ajuda de novos alunos– Grande rotatividade: 17 alunos já passaram pelo projecto

Para que tem servido?

• Para aprender– Como é que funciona o Google?

• Para ensinar– Como é que funciona o Google:

• Serviço público com 3 fins– Motor de busca da comunidade portuguesa– Arquivo da Web Portuguesa– Recurso de investigação

• Ao vivo em www.tumba.pt

http://www.tumba.pt/

O que aconteceu a seguir ao Enter?

• O gnomo verde foi buscar as páginas à web?

• Não.

Levantando o véu

Web

Batedor Repositório Índice Ordenação Apresentação

Batedor (crawler)

WebRepositórioCrawler

Sementes(URLs)

Recolha• Duas listas:

– URLs por recolher– URLs recolhidos

1. Pega num URLA dos URLs por recolher2. Recolhe e guarda a páginaA no repositório3. Extrai os URLs dos links da páginaA

4. Insere os novos URLs nos URLs por recolher.5. Insere o URLA nos URLs recolhidos

– Para não voltar lá.

Problemas

• Milhões de páginas para recolher– Requer muitos computadores e rede

• Há pessoas que não gostam das visitas– Robots Exclusion Protocol

• A web é um caos– O crawler está sempre a avariar-se.– Qualidade crescente devido a browsers mais

rigorosos

Exemplo: simulem o crawler a extrair links de uma página HTML

<html><head><title>Página de teste</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"></head><body>Bem vindos!Experimentem o<a href="http://www.tumba.pt"> motor de busca tumba!</a>.Vejam também a minha<a href="http://xldb.fc.ul.pt/daniel/"> página pessoal</a>.</body></html>

Dica: os links estão próximos dos href

O crawler recolhe 3 páginas

http://xldb.fc.ul.pt/teste

http://xldb.fc.ul.pt/daniel/ http://www.tumba.pt

Exemplo: simulem o crawler a extrair links de um Flash

CWS^F·^U^@^@x<9C>íWy<ÔkÛ¿f1ÆÈ^^<89>BÙ¥Å¾¥!Yr,ÉVª#<8D>^XÙ<97>²^\<9A>)ÙJ<92>He;iQ²fP¢"<92><9D>B<85>VI²<9B>ßóESCÔ9=<9F>ç¼ïyÞ¿Þ?Î=<9F>ß|î¹ïïu_×÷{]÷=÷Ï^GH<97>^A,$` ^F^L<82><90>±<9B>°^@H^GÒ^M^FÀË¹<84>{ <89><97><9B><8B><9B><9F><8F>W@XNDXHHXIRz¥<9C>¶<8A>îF-^UM^M=<93>Ý^Vz[ì^M54·yZÙ;îs¥ºn2÷^Möq^NÚ½ß<95>ÂZ^DÃÇÏ/,(¼^Dd=e³æfÊ^?Ý<90>^G ^N<80>aÃÌ7Xl^X,^NÏF`'r<90>8Q@!/`18^\^V<8F>ccÃãÑÙ0t^^ð|lü«<94>ô ^BVNì«}<97>*^_9<9D>N<94>Ü|«Jpû³^Q)<95>}~

• Não percebem nada?• O crawler também não.• Só o programa da Macromedia é que percebe

O crawler recolhe apenas 1 página

• Estas páginas não são recolhidas• Não aparecem nos resultados dos motores de busca

http://www.hpinformatica.net/menu.swf

./servicos.html ./produtos.html ./contactos.html

Indexação

• Para acelerar, as pesquisas são feitas sobre índices e não sobre as páginas armazenadas

Web

Crawler Repositório Índice Ordenação Apresentação

Índice remissivo de um livro

Termo PáginasArquivo.........4, 10, 12, 99, 123Biblioteca......1, 11, 20, 33Correio..........32, 54, 94...

Motor de busca: Índice remissivo da web

Termo Páginas (URLs) Arquivo.........1,188 milhõesBiblioteca......301 milCorreio..........303 mil...• Mesmo o índice é muito grande• E tem de ser rápido! Porque os utilizadores esperam apenas alguns segundos pela resposta a uma pesquisa

E agora?

Dividir para conquistar

• Construção do índice– Dividem-se as páginas por várias máquinas– Cada máquina

• Extrai o texto das suas páginas• Constrói um índice• Responde a parte das pesquisas

Quando se pesquisa

ÍndiceA-H

ÍndiceI-Q

ÍndiceR-Z

Servidor 1

Servidor 2

Servidor 3

Servidor Web

Tumba!

Browser

arquivo

portuguesa

web

arquivo da web portuguesa

Então e o “da”?-Stop-words-Ocupam muito espaço-Sem significado

Hardware do tumba!• Computadores

– 6 chaços (P200, 128 MB)– 10 servidores (com uns aninhos)

• Internet: FCCN 30 Mbps ATM• Rede local: 1 Gbps (recente)

SoftwarePlataforma:• Linux• Oracle – meta-dados• BerkeleyDB – índices• Hsql – crawlers• Httpd, tomcat, struts• Wiki• CVS• Bugzilla

Linguagens:• Java• C++ • Perl, bash scripts, SQL

Desempenho do Tumba!

• Até 20 000 queries /dia • 10 milhões de documentos – a maior

recolha da web portuguesa!• 95% respondidas em menos de 0.5 seg. –

com 3 servidores

Como obter os melhores resultados na primeira página?

Web

Batedor Repositório Índice Ordenação Apresentação

Resultados ordenados por relevância

Combinação de vários factores

PageRankFrequência

no documento

Frequênciana Web

Textos das âncoras

Partes importantes

dodocumento

Como se mede a relevância• Quanto maior a frequência de um termo da pesquisa num

documento, maior a relevância.

• Quanto maior a frequência de um termo da pesquisa na Web, menor a relevância.

• Quanto maior for documento em número de palavras, menor a relevância.

• Quanto maior o PageRank de um documento, maior a relevância

• Quanto maior a frequência de um termo da pesquisa em partes importantes da página (ex: o título), maior a relevância

Usada uma formula que

combina todos estes

parâmetros

Documentos mais relevantes

retornados em primeiro lugar!

Problemas com lista ordenada de resultados

• Pesquisas com vários “sentidos” possíveis– Jaguar (o animal ou o carro desportivo)– Benfica (o clube de futebol ou o local)– …

• Problema para as vossas pós-graduações.– Clustering– Semantic Web e Ontologias– Resultados personalizados

2ª parte: Arquivo da Web Portuguesa

A era digital começou (já há alguns anos)

• A Web é a maior fonte de informação construída– Jornais, livros, documentação técnica– Informação publicada exclusivamente na Web

• A informação na Web é efémera – Gerações futuras poderão testemunhar uma “Idade

das Trevas” digital• Temos que começar a arquivar

– Propósitos históricos– Provas em casos judiciais

Requisitos de um arquivo da Web

• A forma de arquivo tradicional requer demasiada intervenção humana– Não é compatível com a dimensão da Web

• Recolha e armazenamento automático– Intervenção humana mínima

• Dispendioso em larga escala– Internet Archive (www.archive.org)

http://www.archive.org/

Arquivos web nacionais• Dividir para conquistar: cada país arquiva a sua

web– 11 da U. E.: Alemanha, Áustria, Dinamarca,

Finlândia, França, Grécia, Lituânia, Holanda, Suécia, Reino Unido e República Checa.

– 6 externos: Austrália, Canadá, Estados Unidos da América, Japão, Nova Zelândia e Noruega.

• Necessários critérios para definir limites das webs nacionais

• Necessárias arquitecturas de sistema e software específico para suportar o arquivo da web

Estrutura da apresentação

– Introdução• Proposta para o arquivo da web

portuguesa• Conclusões

Contexto

• Projecto de I & D– É necessária investigação para seguir a

evolução da web• Duração de 2 anos• Necessária visão a longo prazo

Principais objectivos

• Iniciar o “depósito legal” da web portuguesa

• Serviço público de acesso ao arquivo• Formação de recursos humanos• Disseminação da informação arquivada

para preservação

Benefícios nacionais • Português como língua da web• Capacidade local de tratamento de informação

da web– Segurança nacional não pode depender do

estrangeiro• Exportação do saber-fazer

– Arquivo da Web é tecnologia de ponta.• Dados para a Ciência

– Sociologia, prospecção de dados, processamento da língua

• Provas judiciais

Principais desafios

• Recrutamento de mão-de-obra qualificada• Tecnologia específica pouco madura• Boa abrangência da Web portuguesa• Pesquisa eficiente num arquivo histórico

– É um problema em aberto– Apresentação de conteúdos

• Preservação da informação• Financiamento e continuidade a longo prazo• Má qualidade da Web portuguesa

– Web ≠ Internet

O que arquivar?

• Sites sob .PT (1ª fase)– Estamos a perder metade da web portuguesa– Alguns utilizadores ficarão insatisfeitos

• Tipos GIF, JPEG e HTML– 95% dos conteúdos publicados

• Espaço necessário estimado– 250 GB por recolha

• Recolhas trimestrais

Como arquivar?

• Meta-dados que permitam preservar e aceder à informação– Estratégia de conversão de formatos

• Espaço de armazenamento incremental• Acessibilidade à informação por pessoas

e máquinas• Ferramentas de gestão e preservação

Tecnologias

• Não existe software comercial de arquivo da web

• Adoptar soluções de código aberto– Alteração para o contexto da web– Maior garantia de preservação– Gratuitas– Existem para o arquivo da Web!

Exemplos de tecnologias para arquivo

• Internet Archive– Archive-access project (

http://archive-access.sourceforge.net/)– Heritrix crawler– Formatos ARC e WARC

• NutchWAX (Nutch + Web Archive eXtensions) – Nutch: motor de busca de código-aberto para a web

• WERA (Web aRchive Access) – Archive viewer application– Antigo Nordic Web Archive

http://archive-access.sourceforge.net/

Boas notícias• Conseguiu-se fazer

um protótipo usável com:– 3 pessoas– Máquinas velhas– Boa vontade

• Existe conhecimento nacional acerca do assunto

• Contacto com o IA

Dados arquivados no protótipo

• Recolhidos da web portuguesa e migrados de recolhas do tumba!

• Conteúdos maioritariamente textuais• Intervalo de tempo de 4 anos (2002-2006)• 57 milhões de conteúdos,1.5 TB de dados

– 1º passo: migrar os conteúdos para o novo sistema de arquivo

Conclusões

• Arquivo da web nacional está atrasado• Não existe um critério único para delimitar

a web portuguesa– Espalhada fora do domínio .PT

• Um arquivo necessita de ser pesquisável eficientes ou a informação arquivada “morre” por estar inacessível

• Arquivar a web tem interesse nacional• Arquivar a web é complexo• Arquivar a web portuguesa é possível

Obrigado pela atenção.

Daniel Gomesdaniel.gomes@fccn.pt

mailto:daniel.gomes@fccn.pt

Recommended

Maior conﬁança nas redes e nos serviços - FCCN · 2016-10-06 · Produção 10/09 Maior conﬁança nas redes e nos serviços l contactos l Segurança ww.cert.rcts.pt Contribuir

Documents

Prémios Arquivo.pt 2018 e novos serviços · Prémios Arquivo.pt 2018 e novos serviços Detalhes e esclarecimentos Daniel Gomes daniel.gomes@fccn.pt 2018-04-13

Documents

Sessão PTCRIS Parte I - jornadas.fccn.pt · ORG IDs - ORCID / CROSSREF / DATACITE ... Iniciativa liderada pela FCT|FCCN em conjunto com CASRAI-EU e euroCRIS. CASRAI-EU Launched 24

Documents

Projecto RCAAP João Moreira, FCCN - UC

Documents

FCCN Plano de Atividades e Orçamento 2013 - FINALlmagal/FCCN... · A atual plataforma de gestão do sistema de transmissão ótica T2000, chega ao fim do seu ciclo de vida em 2013,

Documents

Educast.fccn.pt Procedimento de publicação de vídeos no Zappiens suporte-educast@fccn.pt Nelson Dias 2012 nelson.dias@fccn.pt

Documents

Tutorial COLIBRI - FCCN · 4. Validar se os seus dados estão corretos, mostrando o “artão Digital”; Sendo Professor, Investigador ou staff da instituição, deverá aparecer

Documents

FCCN Sistema de telepresença topo de gama§a... · de comunicações. Com o apoio das Universidades e ... da primeira sala terminava o espaço de Lisboa. Uma semana depois, a sala

Documents

RCTS - Lambda - FCCN · RCTS - Lambda RCTS à velocidade da luz Infraestrutura de comunicações para a eCiência O investimento em mais de 1000 km de fibra ótica própria permite

Documents

Jornadas fccn aveiro2014

Education

C112-503B-F79C joana.nabais@fccn.pt Equipa CIÊNCIAVITAE ...in3.dem.ist.utl.pt › docs › news › roadshow_ist_21012019-23-01-2019.pdfJoana Nabais Equipa CIÊNCIAVITAE, FCT|UCCN

Documents

Open Access no Horizonte 2020 - apresentação na reunião RCAAP das Jornadas da FCCN

Education

Jornadas FCCN: b-on: Relatório atividades 2012

Documents

O ADENSAMENTO URBANO E AS MUDANÇAS NO ESTUÁRIO DO RIO COCÓ FORTALEZA/CE ...redebraspor.org/livros/2017/Braspor 2017 - Artigo 12.pdf · 902, Garanhuns, PE, Brasil. daniel.gomes@upe.br

Documents

Jornadas FCCN 2018 · 2018. 1. 11. · // Boas-vindas às Jornadas FCCN 2018 . A FCCN é a unidade da FCT – Fundação para a Ciência e a Tecnologia que tem como - missão principal

Documents

Daniel Gomes daniel.gomes arroba fccn...3 realizadas em 2008: 7,2 TB (155 milhões de conteúdos) • Colecção adquirida ao Internet Archive (2000-2007) – 1996-2000 não está

Documents

O SERVIÇO DE VIDEOCONFERÊNCIA NO LNEC€¦ · Videoconferência Na RCTS •1999 - A FCCN adquire o primeiro conjunto de terminais videoconferência H.323eaprimeiraMCU.Aredetinhaentão

Documents

Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN

Documents

Maior conﬁança nas redes e nos serviços - FCCN · 2016-10-06 · Produção 10/09 Maior conﬁança nas redes e nos serviços l contactos l Segurança ww.cert.rcts.pt Contribuir

Prémios Arquivo.pt 2018 e novos serviços · Prémios Arquivo.pt 2018 e novos serviços Detalhes e esclarecimentos Daniel Gomes daniel.gomes@fccn.pt 2018-04-13

Sessão PTCRIS Parte I - jornadas.fccn.pt · ORG IDs - ORCID / CROSSREF / DATACITE ... Iniciativa liderada pela FCT|FCCN em conjunto com CASRAI-EU e euroCRIS. CASRAI-EU Launched 24

Projecto RCAAP João Moreira, FCCN - UC

FCCN Plano de Atividades e Orçamento 2013 - FINALlmagal/FCCN... · A atual plataforma de gestão do sistema de transmissão ótica T2000, chega ao fim do seu ciclo de vida em 2013,

Educast.fccn.pt Procedimento de publicação de vídeos no Zappiens suporte-educast@fccn.pt Nelson Dias 2012 nelson.dias@fccn.pt

Tutorial COLIBRI - FCCN · 4. Validar se os seus dados estão corretos, mostrando o “artão Digital”; Sendo Professor, Investigador ou staff da instituição, deverá aparecer

FCCN Sistema de telepresença topo de gama§a... · de comunicações. Com o apoio das Universidades e ... da primeira sala terminava o espaço de Lisboa. Uma semana depois, a sala

OpenAIRE - apresentação nas Jornadas da FCCN 2012 (relatório 2011 RCAAP)

IPv6 - Protocolo IP da nova geração Miguel Rosa, Pedro Veiga Fundação para a Computação Científica Nacional (FCCN)

Zapping educast@fccn 2015

RCTS - Lambda - FCCN · RCTS - Lambda RCTS à velocidade da luz Infraestrutura de comunicações para a eCiência O investimento em mais de 1000 km de fibra ótica própria permite

Jornadas fccn aveiro2014

C112-503B-F79C joana.nabais@fccn.pt Equipa CIÊNCIAVITAE ...in3.dem.ist.utl.pt › docs › news › roadshow_ist_21012019-23-01-2019.pdfJoana Nabais Equipa CIÊNCIAVITAE, FCT|UCCN

Open Access no Horizonte 2020 - apresentação na reunião RCAAP das Jornadas da FCCN

Jornadas FCCN: b-on: Relatório atividades 2012

O ADENSAMENTO URBANO E AS MUDANÇAS NO ESTUÁRIO DO RIO COCÓ FORTALEZA/CE ...redebraspor.org/livros/2017/Braspor 2017 - Artigo 12.pdf · 902, Garanhuns, PE, Brasil. daniel.gomes@upe.br

Jornadas FCCN 2018 · 2018. 1. 11. · // Boas-vindas às Jornadas FCCN 2018 . A FCCN é a unidade da FCT – Fundação para a Ciência e a Tecnologia que tem como - missão principal

Daniel Gomes daniel.gomes arroba fccn...3 realizadas em 2008: 7,2 TB (155 milhões de conteúdos) • Colecção adquirida ao Internet Archive (2000-2007) – 1996-2000 não está

O SERVIÇO DE VIDEOCONFERÊNCIA NO LNEC€¦ · Videoconferência Na RCTS •1999 - A FCCN adquire o primeiro conjunto de terminais videoconferência H.323eaprimeiraMCU.Aredetinhaentão