32
Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

Embed Size (px)

Citation preview

Page 1: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

Gestão e Recuperação de Informação

Metadados...

José Borbinha – DEI/IST

Page 2: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

2

Aviso Prévio• O contexto de uso do termo “metadata/metadados”

aqui usado não é o mesmo que é usado em (embora numa perspectiva genérica tudo isto não seja assim tão diferente...):– Bases de dados / Data Warehouse

• Catálogo, ...– Arquitectura Empresarial

• CMDB - Configuration Management Database (conceito ITIL...), ...

– ...

Page 3: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

3

O que é então “metadata” no contexto de RGI?

• O nosso contexto vai ser o da “informação documental”! Isto é considerando que:– “metadata” refere-se a “dados sobre dados”...– os nossos objectos de informação são documentos

• Então no nosso contexto “metadata” dirá respeito a “dados sobre documentos”...

• Desabafo: isto dito assim até pode parecer claro, mas não será assim tanto... na realidade as fronteiras entre todas as aplicações do termo acabam mesmo por se fundir! Mas isso será uma perspectiva mais avançada disto tudo!

Page 4: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

4

“Documento”?• Um documento é um contentor de informação organizada para ser

disponibilizada sob uma dada forma!

• Referências:– Document engineering is the computer science discipline that

investigates systems for documents in any form and in all media. As with the relationship between software engineering and software, document engineering is concerned with principles, tools and processes that improve our ability to create, manage, and maintain documents. (http://www.documentengineering.org/)

– A document is an abstract container that stores information. It may be generated statically or dynamically, it may be transient or persistent, its encoding may be time variant. (http://www.icmc.usp.br/~doceng08/cfp.html)

Page 5: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

5

Porque é o conceito de “metadata” relevante no contexto de RGI?

• Já vimos técnicas básicas de identificar, recuperar/ ou recolher objectos de informação a partir apenas dos seus conteúdos! Esses métodos são no entanto inúteis quando:– Não é possível, tecnicamente, extrair automaticamente dos objectos

qualquer informação (Ex.: um livro impresso, uma pintura, uma escultura, ...)

– O objecto é acessível, mas a informação necessária para suportar a pesquisa não existe simplesmente no objecto (Ex.: objectos criados por uma dada pessoa a qual não refere explicitamente nos mesmos ser a sua autora...)

– Os conteúdos dos objectos são gerados dinamicamente, sendo impossível prevê-los (Ex.: um programa de rádio ou televisão a emitir ao vivo, ...)

– ...

Page 6: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

6

Porque é o conceito de “metadata” relevante no contexto de RGI?

• “Metadados representam assim os objectos!!!

• Se for informação estruturada, “metadados” podem representar os objectos na descrição:– do seu conteúdo...

• (indexação -por palavras-chave, ...-, classificação, ...)– da sua estrutura...

• (esquema ou formato, tamanho...)– da sua autoria/proveniência/responsabilidade...

• (autor, data de criação, curador, ...)– das suas condições de utilização...

• (autorização necessária para acesso, preço, ...)– ...

Page 7: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

7

Porque é o conceito de “metadata” relevante no contexto de RGI?

• Concluindo, tendo metadados relativos a um objecto podemos usar esses metadados em cenários de recuperação de informação sem necessidade de recorrer ao objecto!

? ? ? ?Interface

? ?InterfaceMetadata

Page 8: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

8

Porque é o conceito de “metadata” relevante no contexto de RGI?

• Mas já agora, existindo as duas coisas, porque não usá-las (o melhor dos dois mundos)?

Interface

Metadata

Page 9: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

9

Dublin Core METS

PREMISMPEG

ONIXUNIMARC

MARC 21

EAD

EAC

MODS MADS

XML

RDF

MDR

LOM

TEI

marcXchangeISO 2709

ISO 11179

AACR2

FRBR

LCSH

DDC

UDC

Page 10: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

10

Objectos e sua estrutura

METS

MPEG

LOMTEI

ONIX

UNIMARCMARC 21

EADEAC

MODSMADS

Descrição de objectos

Arquivos

Editores

Bibliotecas

AACR2Regras de criação

FRBRConceitos

LCSHDDC

UDCValores para atributos

MDRISO 11179

Dublin CorePREMIS

Atributos

XMLRDF marcXchange

ISO 2709Codificação

...

Page 11: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

11

Um mapa conceptual...

Page 12: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

12

Tecnology Perspective

Metadata Schemas - MARC21 - UNIMARC - DCMES - ONIX - METS - EAD - EAC …

Metadata Implementations - The UNIMARC coding in ISO2709… - The MARC21 coding in ISO2709… - MARCXML: MARC coding in XML - A DCMES Schema coding in XML… - A DCMES Schema coding in RDF… - …

Metadata Structures - One file: myUNIMARCrecords.iso - One file: yourMARC21records.iso - One file: myUNIMARCrecords.xml - One file: yourMARC21records.xml - One file: myDCMESrecords.xml - One file: myDCMESrecords.rdf - …

Services and Interfaces - An HTTP/HTML based OPAC service - An OAI metadata harvesting service - A Z39.50-Bath search service - A ZING Web Service - …

Conceptual Perspective

Context Perspective

Service Perspective

File and data structures

- IS2709 - HTML - XML - RDF …

Protocols - HTTP - OAI-PMH - SOAP - Z39.50 - WebServices

- ZING - ...

Reference Models - AACR - FRBR - CIDOC - MoReq …

Page 13: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

13

Como se define uma norma ou recomendação?

Page 14: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

14

Processos e entidades de normalização 1. Problema bem identificado, partilhado por uma franja alargada

da comunidade, com uma solução a tender para o consensual (nem sempre, mas...) e preferencialmente não polémico => normalização formal, acabando por vezes mesmo em aprovação por entidades nacionais que tornam os resultados obrigatórios (Ex.: ISO; normas NP em Portugal, DIN na Alemanha, ANSI e NISO nos Estados Unidos, etc...)

2. Problema perceptível, de interesse geral, mas ainda à procura de uma solução que requer o envolvimento da comunidade => normalização por entidades “ad hoc” ou especializadas na área do problema, cujos resultados são por vezes entendidos como recomendações (Ex.: W3C, IETF, IEEE, ..., OASIS).

3. Problema localizado num dado projecto, organização ou comunidade restrita => solução definida e testada localmente...

Page 15: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

15

Processos e entidades de normalização 1. Normalização formal:

– Processo nem sempre pacífico! Ex.; “Batalha” na ISO da Microsoft para ver o OOXML aprovado (parte da “guerra”com o ODF - OpenDocument Format...)

– Boas normas nacionais acabam por vezes por ver a aprovação internacional facilitada (Ex. NISO Z39.50 = ISO 23950)

2. Normalização “ad hoc”– Por vezes, quando estes resultados atingem relevância mais alargada, acabam

por ser levados ao nível anterior (Ex: Dublin Core -> ISO 15836)– Neste contexto os processos tendem a ser mais pacíficos (ver a convergência

conseguida normalmente nos grupo IETF ou W3C) mas também há “casos”, especialmente quando os interesses financeiros em jogo são relevantes (Ex: problemas recentes com o processo em torno da IEEE 802.20, reticências sobre patentes pendentes relacionadas com a MPEG-21, etc...)

3. Problema localizado– Por vezes, quando estas soluções resultam e se demonstra terem interesse geral,

acabam por ser propostas aos níveis anteriores...

Page 16: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

16

Processos e entidades de normalização

1. Normalização formal

2. Normalização “ad hoc”

3. Problema localizado Prática, Experiência, Resultados provados

Visão de negócio, Requisitos

Percepção da necessidade com necessidade de

discussão consensual

Page 17: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

17

Exemplos...

Page 18: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

18

urn.porbase.orgRegistos bibliográficos e de autoridades em vários esquemas e codificações...

Page 19: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

19

“A Morgadinha dos Canaviais”

UNIMARC (texto)

Etiqueta de registo: 00579cam 02200217 04500001 1535005 19990421151100.0095 ## $aPTBN00001574100 ## $a19800101d1980 m y0pora0103 ba101 0# $apor102 ## $aPT200 1# $a<A >morgadinha dos canaviais$fJúlio Dinis205 ## $a1ª ed210 ## $aLisboa$cCírculo de Leitores$d[D. L. 1980]215 ## $a478 p.$d21 cm675 ## $a869.0-3$vmed$zpor$3787335700 #1 $aDinis$bJúlio$cpseud.$320255801 #0 $aPT$bBN$gRPC966 ## $lBN$mMG$sL. 27496 V.966 ## $lBPMP$mBPMP$sB6-1-106[3] $x1966 ## $lBPRMAD$mBPRMAD$s02/3729966 ## $lCMOPA$mCMOPA$s869-A 4005998 ## $aFSE03 - 00482

Dublin Core (XML)

<dc><dc:title><A >morgadinha dos canaviais</dc:title><dc:creator>Dinis, Júlio</dc:creator><dc:subject>869.0-3, por</dc:subject><dc:description>Monografia</dc:description><dc:description>1ª ed</dc:description><dc:publisher>Círculo de Leitores</dc:publisher><dc:publisher>Lisboa</dc:publisher><dc:date>[D. L. 1980]</dc:date><dc:type>material textual, impresso</dc:type><dc:format>478 p., 21 cm</dc:format><dc:identifier>Id. do registo: 1535</dc:identifier><dc:identifier>Cota: BN-L. 27496 V.</dc:identifier><dc:identifier>Cota: BPMP-B6-1-106[3] </dc:identifier><dc:identifier>Cota: BPRMAD-02/3729</dc:identifier><dc:identifier>Cota: CMOPA-869-A 4005</dc:identifier><dc:language>por</dc:language>

</dc>

Page 20: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

20

ONIX http://www.editeur.org

• Esquema utilizado pelos editores e livrarias on-line, define mais de 100 campos como título, autor, assunto, identificadores, ...

• Exemplo

<Product><RecordReference>1234567890</RecordReference><ISBN>9780307350176</ISBN><Contributor>

<PersonNameInverted>Neruda, Pablo</PersonNameInverted>

<BiographicalNote>Poeta chileno...</BiographicalNote></Contributor>

<Product>

Page 21: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

21

UNIMARC AutoridadeEtiqueta de registo: 00595cx a2200193 45 001 20255100 ## $a19980922apory0103 ba0 102 ## $aPT152 ## $aRPC$bSIPOR200 #1 $aDinis,$bJúlio,$cpseud.400 #1 $aCoelho,$bJoaquim Guilherme Gomes,$f1839-1871$320256400 #1 $aCoelho,$bJoaquim Guilherme Gomes$31254022400 #1 $aAveleda,$bDiana de,$cpseud.$3925848400 #0 $aCecília,$cpseud.$3925849675 ## $a869.0 Dinis, Júlio .09$vBN$zpor675 ## $a929 Dinis, Júlio$vBN$zpor801 #0 $aPT$bBN$c19901218810 ## $aAndrade, A. Guerra-Dic. de Pseud.830 ## $aRomancista, novelista e autor teatral. Médico

Page 22: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

22

MODS (http://www.loc.gov/standards/mods/)

<mods version="3.0" xsi:schemaLocation="http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-0.xsd"><titleInfo><title>2001 bluegrass odyssey [sound recording].</title></titleInfo><name type="corporate"><namePart>Roustabouts (Musical group)</namePart><role><roleTerm type="code">prf</roleTerm></role></name><typeOfResource>sound recording</typeOfResource><originInfo><place><placeTerm authority="marccountry" type="code">ncu</placeTerm></place><place><placeTerm type="text">Charlotte, NC</placeTerm></place><publisher>Lamon Records</publisher><dateIssued>p1980</dateIssued><dateIssued encoding="marc">1980</dateIssued><issuance>monographic</issuance></originInfo><language><languageTerm authority="iso639-2b" type="code">eng</languageTerm></language><physicalDescription><extent>1 sound disc : analog, 33 1/3 rpm ; 12 in.</extent></physicalDescription><tableOfContents>Bluegrass odyssey -- Hills of Tennessee -- Sassafrass -- Muddy river -- Take your shoes off Moses -- Don't let

Smokey Mountain smoke get in your eyes -Farewell party -- Faded love -- Super sonic bluegrass -- Old love letters -- Will the circle be unbroken.</tableOfContents>

<note>Brief record.</note><note type="performers">Performed by the Roustabouts.</note><subject authority="lcsh"><topic>Country music</topic><temporal>1971-1980.</temporal></subject><subject authority="lcsh"><topic>Bluegrass music</topic><temporal>1971-1980.</temporal></subject><classification authority="lcc">Lamon Records LR-4280</classification><recordInfo><recordContentSource>DLC</recordContentSource><recordCreationDate encoding="marc">940829</recordCreationDate><recordChangeDate encoding="iso8601">19940830080228.8</recordChangeDate><recordIdentifier>5718053</recordIdentifier></recordInfo></mods>

Page 23: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

23

Dublin CoreUm “set” de elementos (atributos) e não formato!!!

• title - O nome dado ao recurso.• creator - A entidade responsável em primeira instância pela existência do recurso.• subject - O tópico do conteúdo do recurso.• description – Uma descrição do conteúdo do recurso• publisher - Entidade responsável por tornar o recurso acessível.• contributor - Entidade responsável por qualquer contribuição para o conteúdo do recurso.• date - Uma data associada a um evento do ciclo de vida do recurso.• type - A natureza ou género do conteúdo do recurso.• format - A manifestação física ou digital do recurso.• identifier - Uma referência não ambígua ao recurso, definida num determinado contexto.• source - Uma referência a um recurso de onde o presente recurso possa ter derivado.• language - A língua do conteúdo intelectual do recurso.• relation - Uma referência a um recurso relacionado.• coverage - Cobertura geográfica ou temporal do recurso• rights - Informação de direitos sobre o recurso ou relativos ao mesmo.

Page 24: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

24

Exemplo “Dublin Core em RDF”

<?xml version="1.0"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:dc="http://purl.org/dc/elements/1.1/"><rdf:Description>

<dc:creator>Karl Mustermann</dc:creator><dc:title>Algebra</dc:title><dc:subject>mathematics</dc:subject><dc:date>2000-01-23</dc:date><dc:language>EN</dc:language><dc:description>An introduction to

algebra</dc:description></rdf:Description>

</rdf:RDF>

Page 25: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

25

MPEG-7• MPEG-7 Visual – the Description Tools dealing with

Visual descriptions.• MPEG-7 Audio – the Description Tools dealing with

Audio descriptions• MPEG-7 Multimedia Description Schemes - the

Description Tools dealing with generic features and multimedia descriptions.

• MPEG-7 Description Definition Language - the language defining the syntax of the MPEG-7 Description Tools and for defining new Description Schemes.

Page 26: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

26

MPEG-7 MDS<Mpeg7> <Description xsi:type="SemanticDescriptionType"> <Semantics> <Label> <Name> Carro </Name> </Label> <Definition> <FreeTextAnnotation> Carro com motor e quatro rodas </FreeTextAnnotation> </Definition> <MediaOccurrence> <MediaLocator> <MediaUri> image.jpg </MediaUri> </MediaLocator> </MediaOccurrence> </Semantics> </Description></Mpeg7>

Page 27: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

27

MPEG-7 Classification Schemes

MPEG-7 Standard Schema (Syntax)

MPEG-7 Description

Schemes (DS) & Descriptors

(D)

3rd Party MPEG-7

Extensions (DS & D)

MPEG-7 Registration

Authority (Terms)

MPEG-7 Classification Schemes (CS) & Controlled

Terms

3rd Party Classification

Schemes (CS) &

Controlled Terms

MPEG-7 Description

STANDARDMPEG-7 SchemaExamples:• Creation DS• Agent DS• Semantic DS

MPEG-7 CSExamples:• Genre CS• Role CS• Format CS

EXTENSIONMPEG-7 ExtensionExamples:• Broadcast

DS• Rhythm DS• Graphics DS

MPEG-7 CSRegistrationExamples:• Sports CS• News CS• TGM-I CS

Page 28: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

28

Sobre sistemas de classificação...• DDC – Dewey Decimal Classification• UDC – Universal Decimal Classification• LCSH – Library of Congress Subject Headings• CCS - ACM Computing Classification System

– http://www.acm.org/class/1998/• ...

Page 29: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

29

DDC e UDCDDC

000 – Computer science, information, and general works

100 – Philosophy and psychology 200 – Religion 300 – Social sciences 400 – Language 500 – Science 600 – Technology 700 – Arts and recreation 800 – Literature 900 – History and geography

UDC

0 - GENERALITIES1 - PHILOSOPHY. PSYCHOLOGY2 - RELIGION. THEOLOGY3 - SOCIAL SCIENCES4 - VACANT5 - NATURAL SCIENCES6 - TECHNOLOGY7 - THE ARTS8 - LANGUAGE. LINGUISTICS.

LITERATURE9 - GEOGRAPHY. BIOGRAPHY.

HISTORY

Page 30: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

30

Metadata Registries

Page 31: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

31

ISO/IEC 11179Information Technology - Metadata registries (MDR)

< http://metadata-stds.org/11179/ >

• 11179-1: Framework– Introduces and discusses fundamental ideas of data elements, value domains, data element concepts,

conceptual domains, and classification schemes essential to the understanding of this set of standards and provides the context for associating the individual parts of ISO/IEC 11179.

• 11179-2: Classification– Provides a conceptual model for managing classification schemes. There are many structures used to

organize classification schemes and there are many subject matter areas that classification schemes describe. So, this Part also provides a two-faceted classification for classification schemes themselves.

• 11179-3: Registry metamodel and basic attributes– Specifies a conceptual model for a metadata registry, and a set of basic attributes for metadata for use when a

full registry solution is not needed.• 11179-4: Formulation of data definition

– Provides guidance on how to develop unambiguous data definitions. A number of specific rules and guidelines are presented in ISO/IEC 11179-4 that specify exactly how a data definition should be formed. A precise, well-formed definition is one of the most critical requirements for shared understanding of an administered item; well-formed definitions are imperative for the exchange of information. Only if every user has a common and exact understanding of the data item can it be exchanged trouble-free.

• 11179-5: Naming and identification principles– Provides guidance for the identification of administered items. Identification is a broad term for designating,

or identifying, a particular data item. Identification can be accomplished in various ways, depending upon the use of the identifier. Identification includes the assignment of numerical identifiers that have no inherent meanings to humans; icons (graphic symbols to which meaning has been assigned); and names with embedded meaning, usually for human understanding, that are associated with the data item's definition and value domain.

• 11179-6: Registration– Provides instruction on how a registration applicant may register a data item with a central Registration

Authority and the allocation of unique identifiers for each data item. Maintenance of administered items already registered is also specified in this document.

Page 32: Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

32

Perguntas?