41
Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST

Gestão e Recuperação de Informação

  • Upload
    faris

  • View
    42

  • Download
    0

Embed Size (px)

DESCRIPTION

Gestão e Recuperação de Informação. Informação Estruturada. José Borbinha – DEI/IST. Informação => Recursos. Informação?. Como informação iremos considerar daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”. - PowerPoint PPT Presentation

Citation preview

Page 1: Gestão e Recuperação de Informação

Gestão e Recuperação de Informação

Informação Estruturada

José Borbinha – DEI/IST

Page 2: Gestão e Recuperação de Informação

2

Informação => Recursos

Page 3: Gestão e Recuperação de Informação

3

Informação?

• Como informação iremos considerar daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”.

• Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”...

Page 4: Gestão e Recuperação de Informação

4

Como se define um recurso?• Definição simples: Um recurso de informação poderá ser tudo

aquilo a que se pode atribuir um identificador!!!

• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– ..

• A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”...

Page 5: Gestão e Recuperação de Informação

5

Identificadores e géneros de recursos:

• Exemplos de identificadores:

– URL

– URI

– ISBN

– Número de Contribuinte

– “Pathname” num sistema de ficheiros

– Número de telefone

– Endereço de email

– Número de aluno do IST

– Matrícula de um automóvel

– .. Mais exemplos ...???...

• Géneros de recursos:

– Uma página web!

– ...qualquer coisa...

– Um livro!

– Uma pessoa ou organização!

– Um ficheiro num computador!

– Uma pessoa ou organização!

– Uma pessoa ou organização!

– Uma pessoa!

– Um automóvel!

– .. ??? ...

Page 6: Gestão e Recuperação de Informação

6

Voltando ao problema genérico da Gestão e Recuperação de Informação

O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir:

– Espaços de identificadores, para todos os recursos– Atributos que possam ser processados sobre os recursos

(eventualmente, os identificadores de um recurso podem ser atributos seus)

– Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos

– Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores

Page 7: Gestão e Recuperação de Informação

7

Atributos => Metadados

Page 8: Gestão e Recuperação de Informação

8

Sobre os Atributos– Podemos fazer uma analogia dizendo que no

problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector, ...). No entanto essa informação não é geralmente estruturada (são dados...)

– Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso!

– (definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso.

Page 9: Gestão e Recuperação de Informação

9

Exemplos de atributos/metadadosTítulo = A Morgadinha dos Canaviais

<autor>Jaime Silva<autor>

id := 123-xpto-h3d4

Género: Dissertação

Type = JPEG2000

Data de Edição - 29 de Fevereiro de 2004

102 ## $aPT

700 #1 $aHalpern$bManuel Júdice$f1932-

Page 10: Gestão e Recuperação de Informação

10

Metadados podem ser criados

– Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca!

– Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências, ...

Page 11: Gestão e Recuperação de Informação

11

“Information IQ”(imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif)

Objectos de informação estruturados

podem facilitar a extracção de metadados!!!

Page 12: Gestão e Recuperação de Informação

12

Que tipos de metadados podemos ter?

– Descritivos• título, nome do autor, assunto, data de

criação, ...

– Técnicos• formato(s) do(s) ficheiro(s), tamanho

(quantidade de bytes), ...

– Administrativos• Password de acesso, responsável pela compra

ou licenciamento, ...

– ...aqueles que o negócio precisar...

Page 13: Gestão e Recuperação de Informação

13

Voltando à criação de Metadados

• Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc...

Page 14: Gestão e Recuperação de Informação

14

Metadados num documento PDF(de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)

Page 15: Gestão e Recuperação de Informação

15

Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)

Page 16: Gestão e Recuperação de Informação

16

Mais metadados

• <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

• <html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml">• <head>• <title>Instituto Superior T&eacute;cnico</title>• <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />• <meta name="keywords" content="ensino, ensino superior, universidade, instituto,

ciência, instituto superior técnico, investigação e desenvolvimento" />• <meta name="description" content="O Instituto Superior Técnico é a maior escola de

engenharia, ciência e tecnologia em Portugal." />• <meta name="author" content="Instituto Superior Técnico" />• <meta http-equiv="pragma" content="no-cache" />• <link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" />• <link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" />• <link rel="stylesheet" type="text/css" media="print" href="css/print.css" />• <script src="/js/flash.js" type="text/javascript"></script>• <script src="/js/flash.vbs" type="text/vbscript"></script>• <script src="http://www.google-analytics.com/urchin.js" type="text/javascript">• </script>• <script type="text/javascript">• _uacct = "UA-182539-2";• urchinTracker();• </script>• </head>• <body>• ...

Page 17: Gestão e Recuperação de Informação

17

Mais sobre extracção de metadados

Page 18: Gestão e Recuperação de Informação

18

Mais sobre extracção de metadados

Page 19: Gestão e Recuperação de Informação

19

Há mesmo um negócio na extracção de metadados...

Page 20: Gestão e Recuperação de Informação

20

A propósito, uma patente em...(http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)

Page 21: Gestão e Recuperação de Informação

21

Ponto de ordem:

• Metadados são estruturas de informação sobre recursos que podem servir de suporte à gestão, pesquisa e acesso a esses recursos

• Metadados podem existir independentes dos recursos ou existir integrados nos mesmos

• Metadados podem ser criados:– Manualmente– Automaticamente:

• Durante os processos de criação dos recursos• Posteriormente à criação dos recursos, extraídos dos

mesmos

Page 22: Gestão e Recuperação de Informação

22

Metadados e Esquemas

Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos:

– XMP - Extensible Metadata Platform• http://xml.coverpages.org/xmp.html

– MARC Standards• http://www.loc.gov/marc/

– UNIMARC• http://www.unimarc.info/bibliographic/2.3/en/summary

– Dublin Core Metadata Initiative• http://dublincore.org/

– MPEG-7 / MPEG-21 DIDL• http://www.chiariglione.org/mpeg/

– etc...

Page 23: Gestão e Recuperação de Informação

23

Page 24: Gestão e Recuperação de Informação

24

Page 25: Gestão e Recuperação de Informação

25

Page 26: Gestão e Recuperação de Informação

26

Page 27: Gestão e Recuperação de Informação

27

Page 28: Gestão e Recuperação de Informação

28

Dos Metadados aos Serviços...

Page 29: Gestão e Recuperação de Informação

29

O que se pode fazer então com os metadados?• Em cenários bem definidos, podem ser simplesmente “despejados” para uma

base de dados, criando serviços de Precision=Recall=1

Page 30: Gestão e Recuperação de Informação

30

A propósito, um registo UNIMARC (codificado em MarcXchange)

Page 31: Gestão e Recuperação de Informação

31

O que se pode fazer então com os metadados?• Em cenários menos bem definidos (mais “Information Retrieval”), podem-se

usar os registos de metadados como fontes para serviços na mesma:

Page 32: Gestão e Recuperação de Informação

32

Partilha de Metadados• Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços

baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária, ...).

• A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!!

• No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...)

• Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação...

• Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados)

Page 33: Gestão e Recuperação de Informação

33

OAI - Open Archives Initiative

Page 34: Gestão e Recuperação de Informação

34

OAI-PMHProtocol for Metadata Harvesting

(http://www.oaforum.org/tutorial/image/structure-model.gif)

Web-Services segundo o modelo

REST...

Page 35: Gestão e Recuperação de Informação

35

No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50...

http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg

Page 36: Gestão e Recuperação de Informação

36

Page 37: Gestão e Recuperação de Informação

37

Servidores Z39.50 em bibliotecas Portuguesas:

Page 38: Gestão e Recuperação de Informação

38

O Z39.50 é um protocolo bastante complexo...SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)

Page 39: Gestão e Recuperação de Informação

39

TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

Page 40: Gestão e Recuperação de Informação

40

Próximas aulas...

RSS

MPEG...

METS

SMIL

DocBook

ATOM

Dublin Core...

UNIMARC

MARC21ONIX

XML RDF

Document Schemas Metadata Registries

......

...

GML

Page 41: Gestão e Recuperação de Informação

41

Perguntas?