45
Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

Embed Size (px)

Citation preview

Page 1: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

Gestão e Recuperação de Informação

Recuperação de Informação na Web

José Borbinha – DEI/IST

Page 2: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

2

• O problema• A Web superficial• A Web profunda• Outros assuntos

Recuperação de Informação na Web

Page 3: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

3

Recuperação de Informação na Web: O Problema

http://news.netcraft.com/archives/2006/04/06/april_2006_web_server_survey.html

Quantos objectos?Quantas páginas?Como achar algo?

Page 4: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

4

O “cyberespaço” em 1995

http://robot-club.com/lti/pub/lycos-websize-9510.html

Page 5: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

5

O “cyberespaço” indexado pelo Lycos em 1995(“...Between Nov 21, 1994 and Jan 31, 1995, Lycos successfully

downloaded at least one file from 15,858 unique HTTP servers...”)

http://robot-club.com/lti/pub/lycos-websize-9510.html

Page 6: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

6

A “Web” em 1999...(“By analyzing the overlap between engines we estimated a lower bound on the size of the "publicly indexable Web" at 320 million pages (see below for more details). The "publicly

indexable Web" excludes pages typically not indexed by the major search engines, e.g. pages behind search forms or authorization requirements. The following figure shows the estimated

coverage of six major Web search engines compared to the estimated size of the Web.”)

http://www.cs.biu.ac.il/home/search/studies/lawrence.htm

Page 7: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

7

Como achar algo na Web... ainda por cima quando nem tudo é estático...???

Web Superficial

Web Profunda

Page 8: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

8

• O problema• A Web superficial

– Directórios e Catálogos– Search Engines

• A Web profunda• Outros assuntos

Recuperação de Informação na Web

Page 9: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

9

No princípio: Directórios e Catálogos

–Yahoo, SAPO, ...–Subject Gateways (Renardus, ...) – ...

Page 10: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

10

Yahoo, SAPO, ...: Indexar a web “à mão”...

Page 11: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

11

“Subject Gateways”Renardus – Classificação de recursos de qualidade da web... “à mão”!!!

Page 12: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

12

Renardus “mapping tool”...

ddc: Sistema de classificação decimal de

Dewey

Page 13: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

13

A “raposa” não resistiu...

Page 14: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

14

Mas ainda restam alguns persistentes...

Page 15: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

15

Search Engines

–Altavista, Google, A9, tumba!...–Anatomia de uma search engine

Page 16: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

16

Altavista...

                                  Yahoo!

                                  AltaVista

Page 17: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

17

1998: Google!!!

Page 18: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

18

A9.com

Page 19: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

19

Page 20: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

20

Page 21: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

21

tumba! (Temos Um Motor de Busca Alternativo!)

• Motor de busca para sites “portugueses” (de Portugal)

• Suporte ao Arquivo da “Web Portuguesa”

Page 22: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

22

Web

Anatomia de uma “Search Engine”

Cra

wle

rs

Rep

osito

ry

Inde

xing

Eng

ine

Ran

king

Eng

ine

Pres

enta

tion

Engi

ne

Page 23: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

23

Uma nova área de negócio: ajudar clientes a ter os seus sites melhor “classificados” nos motores de busca...

Caso: “big feet” e Google (Financial Times – UK, September 16, 2005)[http://www.ufppc.org/content/view/3416/36/]...

Page 24: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

24

btw, Caso da Semana...

Page 25: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

25

• O problema• A Web superficial• A Web profunda

– Pesquisa distribuída– Partilha de Metadados

• Outros assuntos

Recuperação de Informação na Web

Page 26: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

26

A Web profunda

• Pesquisa Distribuída– Z39.50 / SRU (relembrar aula 5)

Page 27: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

27

Servidores Z39.50 em bibliotecas Portuguesas:

Page 28: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

28

b-on

Page 29: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

29

Metalib (suporte à b-on...)

http://www.emeraldinsight.com/fig/0721040101001.png

Z39.50HTTP/HTML

...

Page 30: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

30

A Web profunda

• Partilha de Metadados– OAI-PMH, Syndication (RSS, ATOM, ...)

Page 31: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

31

OAI-PMHProtocol for Metadata Harvesting

(http://www.oaforum.org/tutorial/image/structure-model.gif)

Web-Services segundo o modelo

REST...

Page 32: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

32

TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

Page 33: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

33

TEL Portal...

TELcentral index

SRUZ39.50

SRU

Z39.50

OAI-PMH

Search and Retrieval in TEL: Actual Scenario

Page 34: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

34

Search and Retrieval in TEL: A Desired Scenario (project TELplus...)

“intelligent” TEL Portal...

TELcentral index

SRU

OAI-PMHOAI-PMH

Z39.50

Page 35: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

35

Scholar Google: interoperabilidade com a “Web Profunda”

Page 36: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

36

Scholar Google: interoperabilidade com a “Web Profunda”

Page 37: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

37

“link” para a “Web

Profunda”...

Page 38: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

38

Google News

Feeds em RSS

(RDF) e ATOM (XML)

Page 39: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

39

• O problema• A Web superficial• A Web profunda• Outros assuntos

– A Web Semântica– Preservação da Web

Recuperação de Informação na Web

Page 40: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

40

A Web Semântica...

Page 41: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

41

Preservação da Web

Dinâmica

Estática

Superficial

Profunda

Page 42: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

42

Preservação da Web: Internet Archive

Page 43: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

43

Preservação da Web: waybackmachine

Page 44: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

44

Preservação Digital...

Page 45: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST

45

Perguntas?