115
Interoperabilidade e Semântica na Web Ana Maria de Carvalho Moura [email protected] Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil

Interoperabilidade e Semântica na Web

  • Upload
    afi

  • View
    27

  • Download
    0

Embed Size (px)

DESCRIPTION

Interoperabilidade e Semântica na Web. Ana Maria de Carvalho Moura [email protected] Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil. Sumário. Web: evolução história Mecanismos de busca Semântica na Web Metadados Tecnologias de suporte à interoperabilidade XML RDF - PowerPoint PPT Presentation

Citation preview

Page 1: Interoperabilidade e Semântica na Web

Interoperabilidade e Semântica na Web

Ana Maria de Carvalho Moura

[email protected]

Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil

Page 2: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

SumárioWeb: evolução históriaMecanismos de buscaSemântica na WebMetadadosTecnologias de suporte à interoperabilidade

XML RDF

Acesso/extração/integração de informação na Web

Conclusões e tendências

Page 3: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

A Web: como tudo começou

1990 - CERN Idéia: tornar o conhecimento accessível a

todos e de forma amigávelWWW Consortium (W3C) - 1994 - Berners-Lee

objetivos: dar suporte à evolução da tecnologia da informação:

infraestrutura - redes, gráfico, interfaceencorajar cooperação na indústria: desenvolvimento de

interfaces e plataformas padrões

Page 4: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

A Web: um pouco de história

1993 Mosaic: 50 sites1994: primeiras máquinas de busca

(webcrawler, wwww)

1996: US$ 1 bilhão compras na Internet (150 países)

1997: 1 milhão de sites1998: 300mil provedores2000: + de 1 bilhão de páginas Web

Page 5: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Gerações Web

1a geração: páginas HTML criadas manualmente

2a geração: geração automática de páginas HTML p/

processamento humano(leitura, browsing, formulários

3a geração: Web semântica: informação processada por

agentes ou robôs

Page 6: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Grande problema !!!

Como achar o que se deseja?

Page 7: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Problemas na Web Aumento exponencial do número de documentos

eletrônicos publicados na Web;

Problema de “precisão”das atuais ferramentas de pesquisa de informações na Web, que retornam um número grande de documentos não relevantes;

Problemas p/ identificar, descrever e localizar de forma mais eficiente os recursos na Web;

Ferramentas mais eficientes de ajuda à navegação

Como integrar recursos na Web?

Page 8: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Pesquisa e Recuperação na Web

Pesquisa em diretório pesquisa hierárquica, por assunto indexação manual ex: yahoo, cade, Encyclopedia

britannica,...

Page 9: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Pesquisa e Recuperação na Web

Máquinas de Busca pesquisa p/ palavra chave (“ache documentos que

contém a string XML “)

robôs percorrem estrutura de hipertexto e recuperam documentos referenciados

documentos recuperados são analisados e indexados (lista-invertida)

uso de banco de dados p/ pesquisa 2000: + 500 milhões de páginas e + 300

máquinas de buscaExemplos: lycos, google, infoseek, altavista, excite,

hotbot, TodoBr ....

Page 10: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Pesquisa e Recuperação na Web

Diretórios com Máquinas de Busca Pesquisa por palavra chave e por

assunto ao longo do percurso hierárquico,

máquina de busca (pesquisa por palavra chave)

ex: yahoo, magellan

Page 11: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Pesquisa e Recuperação na Web

Múltiplos mecanismos de busca (meta-search) combina e processa resultados de

várias máquinas de busca

ex: metacrawler: utiliza Altavista, directHit,Excite, FindWhat, Google, Lycos,.....

Page 12: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Principais problemas dessas ferramentas

Ferramentas de Pesquisa: indexam páginas individuais e não recursos de informação

pouca precisão do conjunto resultado de uma pesquisa

palavras-chaves extraídas do conteúdo do documento sem informações sobre o contexto no qual estavam inseridas

inexistência de informações padronizadas descrevendo os itens do conjunto resultado de uma pesquisa

inexistência de controle quanto a qualidade dos documentos indexados

consultas pouco expressivas

Page 13: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Principais problemas dessas ferramentas

Ferramentas de Folheio: falta de padronização dos esquemas de

classificação empregados só organiza recursos: não trata seus

relacionamentos a catalogação de recursos é custosa e

centralizada

Page 14: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Linguagens Web

Usam topologia da Web em consultas p/ controlar navegação e obter melhores respostas: navegação e pesquisa WebSQL, W3QL

Consultam conteúdo do documento a partir da estrutura e constrói novos documentos WebLog

Page 15: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

WebSQLExplora estrutura e topologia do documentosemântica clara baseada num modelo de grafo

virtualvisão relacional da Web:

documento(url, titulo,texto,type, lenght,modif)ex: encontre todos os documentos html sobre XML

select d.url, d.titulofrom Documento d such that d mentions “XML”where d.type=“text.html”

Page 16: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Outras linguagens W3QL

parecida com WebSQL: foco em interoperabilidade - uso com outras ferramentas

WebLog documento baseado em estrutura html linguagem baseada em lógica p/ consulta e

reestruturação da informação

EX: obtenha todos os links p/ documentos html e os títulos correspondentesans.html[title ’all citations’, hlink ->>L, occurs ->>T]:-

dblp_pages[hlink ->>L],href(L,U), U[title ->>T].

Page 17: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Semântica na Web

Semântica capacidade da informação ser processável por máquina

Descrever propriedades e relacionamentossobre itens (metadados) na Web

Metadados, RDF, ontologias

Page 18: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Visão semântica da Web

Depende da capacidade de promover intercâmbio de informações

? Interoperabilidade

semântica

estrutural

sintática

Page 19: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Interoperabilidade

SemânticaUma arquitetura é capaz de prover interoperabilidade semântica quando possibilita a compreensão de cada descritor do recurso (independentemente da forma com que foi descrito) e suas associações com outros;

EstruturalUma arquitetura é capaz de prover interoperabilidade estrutural quando provê representação para modelo de dados distintos, permitindo especificar tipos e possíveis valores para cada forma de representação;

SintaxeUma arquitetura é capaz de prover interoperabilidade de sintaxe quando provê um regras precisas para promover o transporte de informações na Web.

Page 20: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Metadado

Meta: significa “algo que descreve ...”

e.g. meta-object, meta-information, metadata, meta-modelo

Meta - Meta significa “algo que descreve algo que descreve...”

Metadados dados que descrevem o conteúdo, estrutura,

representação e contexto de algum conjunto de dados

Page 21: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

ExemplosFichas de uma biblioteca tradicionalCatálogos de SGBDsTags em páginas HTML, XMLDicionários de Ferramentas CASEDescritores de Bibliotecas DigitaisDescritores de imagens, videoDescritores de documentos na web...

Page 22: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Dado X Metadado

dados s/autor

Termos e Condições

Críticas:O Globo

A B

C

Titanic

Produtores

Termos econdições

dadosadministr

Page 23: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Onde está a fronteira?

Contexto A: dado: Críticas de O Globo metadado: dados s/ autor(A), termos e condições de acesso(A)

Contexto B: dado: filme Titanic metadado: críticas de O Globo(A), Produtores (B) e

termos e condições (C) Contexto C: dado: termos e condições metadado:dados administrat.(C)

Page 24: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Uso de Metadados Gerência de Recursos de Informação Corporativos Computer-aided design Projeto e gerência de Data Warehouses Gerência de documentos Gerência de dados científicos e grandes bases

estatísticas Gerência de recursos na Web Integração de BD Heterogêneos Projeto e gerência de Workflow Integração de recursos na Web ...

Page 25: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Papel do metadado na Web

Identificar Localizar (informação s/ identif. recurso,

assunto, descrição,... ) Descrever (que informação será expressa?

depende do tipo de recurso, objetivos)

Recuperar Utilizar Recursos de Informação

Page 26: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Localização de recursos na Web

Processo compreende duas fases:Localização: a partir de de critérios de seleção (assunto, data,

autor,…)

Exame: os metadados relativos aos recursos candidatos são verificados pelo usuário para seleção dos recursos desejados

Metadados são empregados para: encontrar informações relevantes encontrar uma informação já conhecida encontrar novas informações auxiliar na análise da conveniência de uso do objeto possibilitar consultas campo a campo

Page 27: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Recuperação de recursos na Web

Recuperação: acesso aos recursos de informação selecionados pelo usuário

Metadados são empregados para: possibilitar a negociação de formato entre cliente e servidor

(conversão automática de formato - ex: MIME)possibilitar a negociação dos custos envolvidos na transferência

do objeto selecionado para o cliente: período de acesso, tempo de acesso, formato desejado, quem está solicitando acesso, etc.

possibilitar o conhecimento prévio do conteúdo do documento possibilitar privacidade expressando de forma mais

adequada “termos e condições” para acesso e uso de um recurso, etc.

Page 28: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

A Web hoje

Mecanismo de identificação: Uniform Resource Locator (“URL”) ex: http://www.rpi.edu/decemb/contents.html

Principais problemas: referências a recursos pendentes na Web inexistência de mecanismos de balanceamento automático de

carga na rede, c/ redirecionamento automático p/ outro servidor; lentidão na recuperação de recursos, devido a inexistência de

“caches” dos recursos mais utilizados; baixa tolerância do sistema à falhas, devido a impossibilidade de

redirecionamento p/ outros servidores.

Page 29: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Metadados na Web hoje

Metadados embutidos no recurso:Declaração <Meta> da linguagem HTML: <META NAME=“autor” CONTENT=“Cassia Barreto”Tags embutidos no XML: <livro> <titulo> Do Fortran à

Internet </titulo>Metadados como anexo ao recurso:Cabeçalho do Protocolo HTTP: emitidos pelo servidor ao cliente

“Expires: Mon, 13 may 1998 09:13:25 GMT”Metadados mantidos separados do recurso:Plataforma PICS (Plataform for Internet: Content Selection) rótulos para

avaliação de conteúdo

Page 30: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Soluções Propostas (W3C)

Padrões de metadadosXMLRDFOntologias

Page 31: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Padrões de Metadados

Objetivos: Conj. termos p/ descrição de uma ou mais

categorias de recursos Obter resultados mais precisos no processo

de busca de recursos de informação na web estabelecimento de padrões de metadados,

modelos e protocolos e sua integração a mecanismos de busca na web

Page 32: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Catalogação bibliográfica

MARC (Machine Readable Catalogue) anos 60

TEI (Text Encoding Initiative - 1994)

EAD (Encoding Archival Description -1993)

RFC1807 (Request for Comments)

Page 33: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Infraestrutura global da informação

GILS (Government Information Locator Service 1996)

busca de informação em agências governamentais

Page 34: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Descoberta de Recursos na Web

metadados utilizados no contexto de robôs(Harvest, por.ex.), dando suporte a administradores de sites;

dados indexados coletados por ferramentas automáticas não têm formato padrão: nenhuma semântica

IAFA (Internet Anonymous Ftp Archive - 1995) - grupo IETF (internet Engineering Task Force)

SOIF (Summary Object Interchange Format -1994)

Dublin Core (DC -1995)

Page 35: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Dublin Core

(DLOs): documentos vistos como objetos associado a arquiteturas de metadados

Objetivos: descrever as propriedades dos objetos permitir descritores extras específicos a um domínio a descrição de elementos é opcional todos os elementos do DC podem se repetir elementos autos explicativos

padrão W3C

Page 36: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Descritores do DC (15) Subject tópico relacionado ao objeto descrito Title nome do objeto Author responsáveis pelo conteúdo intelectual do objeto Publisher agente responsável por tornar o objeto disponível OtherAgent pessoas que contribuíram de forma significativa para o

conteúdo intelectual do objeto Date data de publicação ObjectType gênero do objeto Form formato de dado do objeto Identifier identifica o recurso de forma única Relation indica um tipo de relacionamento com outros objetos Source objetos dos quais o objeto descrito é derivado Language idioma relativo ao conteúdo intelectual do objeto Coverage localização espacial e duração temporal do objeto Rights contém ou referencia direitos de propriedade Description contém uma descrição textual do objeto

Page 37: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Dados geográficos/ dados ambientais

FDGC (Federal Geographic Data Committee- 1994)

UDK (Environmental Data Catalogue - 1998)

Page 38: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Tecnologias de suporte à interoperabilidade

Padrão W3C:

padrões de metadados: DC XML arquitetura RDF

Page 39: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Por que XML?

Padrão w3C: ++ conteúdo !!! SGML Standard Generalized Markup

Language (Goldfarb, Mosher, Lorie -1974) SGML

HTML XML-1996

Page 40: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

HTML: sérias limitações

Em relação ao acoplamento com BDs geralmente soluções proprietárias nenhum protocolo p/ publicação de dados

SQL: não adequada p/ Web

não possui formato de intercâmbio: HTML é apenas um formato de apresentação!

mistura apresentação e conteúdonenhuma estrutura, semântica, restrições de

integridadeperde informação sobre a estrutura (esquema) de

BDs

Page 41: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

HTML<h1> Bibliography </h1>

<p> <i> Principles of Distributed Database Systems </i>

Ozsu, Valduriez

<br> Prentice Hall, 1999

<p> <i> Data on the Web </i>

Abiteboul, Buneman, Vianu

<br> Morgan Kaufmann, 1999

Page 42: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

HTML: descreve apresentação

Page 43: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

The Golden Rule

“Content must be abstract and independent from storage and rendition”

aplicações dinâmicas (“rendition” difere conforme a mídia, consulta ou perfil do usuário)

integração de dados heterogêneos (de diferentes fontes)

Page 44: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XML: Extended Markup LanguageObjetivos

representar a semântica dos dados de forma estruturada (dados e metadados)

padrão para representar e intercambiar dados estruturados na Internet

permitir modelar dados heterogêneos gerados a partir de BDs ou processadores de texto, de forma que máquinas de busca possam localizá-los e processar documentos ou registros heterogêneos

consultar conteúdo de documentos na Web

suporta a regra dourada (“the golden rule”)

Page 45: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XML descreve conteúdo

<bibliografia>

<livro> <titulo> Principles of Distributed Database Systems </ titulo>

<autor> Ozsu </author> <author> Valduriez </autor>

<editor> Prentice Hall </ editor >

<ano> 1999 </ ano >

</ livro >

< livro > < titulo > Data on the Web </ titulo >

<autor> Abiteboul </autor> <autor> Buneman </autor>

<autor> Vianu </autor>

< editor > Morgan Kaufmann </ editor >

<ano> 1999 </ ano >

</livro>

Page 46: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Em XML...Usuários definem suas próprias

marcações (tags)Um documento XML não provê nenhum

comando de exibição stylesheets (XLS) p/ converter em HTML

Estruturas podem ser aninhadas Um documento XML pode conter uma

descrição opcional de sua gramática (DTD)

Page 47: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XML

Sintaxe: elementos, atributos, entidades, documentos

válidosÉ um modelo de dados semi-estruturadosDefinição de tipos de documentos

tipos de dados, esquemas DTD, namespacesXML- Schema

metadados com RDF

Page 48: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Terminologia

Marcações (tags): livro, título, autor (atributos únicos) Início de marcação: <livro> Fim de marcação: </livro>

Todos os dados são texto: PCDATA (parsed character data)

Elementos: <livro> …</livro>, <autor>….</autor> elemento vazio: <ano></ano>

Um documento XML: uma única raiz Restrições fracas

Page 49: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Exemplo

<casa> <quarto>Alessandro <armario/> </quarto> <quarto>Fabio</quarto> <quarto>Leonardo</quarto> <cozinha></cozinha></casa>

Marcador de inícioMarcador de início

Marcador de fimMarcador de fim

<armario> é subelemento de <quarto> que é subelemento de <casa>

Não existe limite na profundidade de hierarquia

<armario> é subelemento de <quarto> que é subelemento de <casa>

Não existe limite na profundidade de hierarquia

Marcador vazioMarcador vazio

Page 50: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

AtributosPropriedades das marcações

pares constituídos de: (nome, valor)Exemplo:< livro lang= “Ingles” preco= “US$ 60.00”><titulo> Principles of Distributed Database Systems

</titulo><autor> Ozsu </author><autor> Valduriez </autor>…</livro>

<lang> English </lang>

Page 51: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Outro exemplo

Atributos - [nome, valor].

<pessoa endereco=“Rua Jaguare 303” cidade=“Niteroi”>Andre</pessoa>

É possível utilizar indistintamente elementos e atributos <pessoa>

Andre

<endereco> Rua Jaguare 303 </endereco>

<cidade>Niteroi</cidade>

</pessoa>

Page 52: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Observações

O único tipo de dado que pode ser definido para um atributo é a seqüência de caracteres.

Os elementos podem conter sub-elementos, portanto, podem ser usados para definir objetos complexos.

Cada atributo só pode aparecer uma única vez dentro de um elemento,

Um elemento pode conter N sub-elementos.

Page 53: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Alternativas p/ representar dados< livro lang= “Ingles” preco= “US$ 60.00”

titulo= “Principles of Distributed Database Systems” autor=“Ozsu Valduriez”>

….</livro>< livro lang= “Ingles”>

<preco= “US$ 60.00”><titulo>Principles of Distributed Database Systems

</titulo>….

</ livro >

Page 54: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

EntidadesUnidade do texto XML com um nome

pode ser referenciado entre múltiplos documentos níveis de granularidade arbitrários (palavra,

sentença, parágrafo, capítulo, volume, etc.) conteúdo armazenado em arquivo, BDs,…

Provê independência de dados elementos especificam estrutura lógica entidades especificam estrutura física

Um doc. XML pode ser dividido em pedaços ( o parser gera uma estrutura linear)

Page 55: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Exemplos

Abreviação<!ENTITY xml “eXtended Markup Language”> declaração externa<!ENTITY ime-def “http://www.ime.eb.br/artigo.xml”> referência<P> XML(&XML) representa um padrão para

intercâmbio de dados na Web. No depto de Computação do &ime-def pesquisadores estão começando a…

</P>

Page 56: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Identificadores e referências

Elementos podem ter identificadores únicos, podendo ser utilizados como referências

<pessoa id=“01”> <nome> Navathe </nome> </pessoa><pessoa id=“02”> <nome> Elmasri </nome> </pessoa><livro> <titulo> Fundamental of Database Systems

</titulo><autores idref=“01 02”/><editor>Mc GrawHill </editor><ano> 2000 </ano>

</livro>

Page 57: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XML : sob uma perspectiva relacional

Tabela relacional: documento XML em 3 níveis - raiz, tabela, coluna

Ex: Livro(titulo, editor, ano)<raiz>

<livro> tabela<titulo> Fundamentals of Dadabase.... <titulo> <editor> McGrawHill <editor> <ano> 2000 <ano>

</livro> <livro> ...........</livro>

1 Tupla !

Page 58: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XML: modelo de dados semi-estruturados

Livro

Titulo Editor Ano

McGrawHillFundamentals of ...

2000

Pessoa

Nome

Navathe

Pessoa

Nome

Elmasriidref

Autores

• nenhum esquema• dados não tipados• grafo rotulado

•cada nó tag•folha =tag + texto•arco rotulado = referência

Page 59: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Document Type Definition(DTD)

DTDs representam metadados! define a estrutura lógica do documento

define a gramática: combinações válidas de palavras

é definida em uma linguagem a parte conjunto de restrições muito limitado

não permite a criação de tipos de dados não permite restrição de intervalos para dados

garante documentos válidos documentos bem formados em conformidade

com o DTD (parser)

Page 60: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Um DTD define a estrutura do conteúdo

1

0.. *

1.. *

1.. * 1.. *

1.. *

Diferentes possibilidades de DTDs !!!

Artigo

Autor 1

Instituição

Autor n

Instituição

...

Artigo

Instituição 1

Autor 1

Autor n...

1 2

Instituição n

Autor 1

Autor p...

3

Autor

Instituição

Artigo 1

....

Artigo x

instituicao

artigo

autor

UML

Page 61: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

DTD

bd

livro1 livro2 livro3

tit autor ano

…..

A ordem dos elementos deve ser respeitada!!!

Page 62: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Exemplo de um DTD

<!DOCTYPE bd [

<!ELEMENT bd (livro)*>

<!ELEMENT livro (titulo,autor,ano,editora)>

<!ELEMENT titulo (#PCDATA)>

<!ELEMENT autor (#PCDATA)>

<!ELEMENT ano (#PCDATA)>

<!ELEMENT editora (#PCDATA)>

]>

Page 63: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

DTD p/ um esquema relacional

Tab1(m,n), Tab2(p)<!DOCTYPE bd [

<!ELEMENT bd (tab1*, tab2*)>

<!ELEMENT tab1((m,n)|(n,m))>

<!ELEMENT tab2 (p)>

<!ELEMENT m(#PCDATA)>

<!ELEMENT n(#PCDATA)>

<!ELEMENT p(#PCDATA)>

]>

Ordem das colunas

irrelevante!

Page 64: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Atributos e referências em DTD

<!DOCTYPE bd DTD version 1.3> <!ELEMENT bd(pessoa*, livro*)><!ELEMENT pessoa(nome)><!ATTLIST pessoa id ID #required><!ELEMENT nome(#PCDATA)><!ELEMENT livro(titulo)><!ELEMENT titulo(#PCDATA)> <!ATTLIST livro

autor IDREFS #REQUIRED

idioma(#PCDATA)>#IMPLIED>

<?XML version=“1.0”encoding=“UTF-8” standalone= “no”?><!DOCTYPE db SYSTEM bd.dtd><bd><pessoa id=“01”> <nome> Ozsu </nome></pessoa> <pessoa id=“02”> <nome> Valduriez </nome> </pessoa><livro autor=“01 02”idioma=“Engl”> <titulo> Principles of…</titulo></livro> </bd>

Page 65: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Limitações do DTDImpõe ordem (verbose)não aceita tipagem de dados (somente

PCDATA)Elementos são globais: não permite nome de

livro, nome de pessoa em diferentes estruturasuso de namespacesnenhuma restrição no tipo IDREF

não há como expressar chaves, ou dizer que um atributo autor é um identificador de pessoa

Page 66: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Namespaces

Define o vocabulário utilizado num esquema nomes de atributos c/ prefixo xmlns seguido de

um atributo valor do atributo é uma URL

Exemplo:<livro xmlns:isbn= “www.isbn-org.org/def”><titulo> Fundamentals of… </titulo>

<numero> 10 </numero><isbn:numero>12345456 </isbn:number>

</livro>

Page 67: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Proposta W3c

XML Schema substituir DTD mais tipos de dados: string, integer,

real, time, date… namespaces

Page 68: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XML: estilo, formatação e transformação

XML define estrutura e conteúdo de documento, não define apresentação

Linguagem de estilo: define regras para a exibição de um documento XML -XSL: extended style language)

Linguagem de transformação: define regras para a transformação de uma linguagem XML em outra linguagem XML. Ex: transformação de XML em HTML.

Page 69: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Estilo

Browser XML

XML

XML XSL

Page 70: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Transformação/Formatação

Processador XSL

WML PDF HTML

XML XSL

Page 71: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Linguagens de Consulta

As linguagens de consulta XML baseiam-se em caminhos de expressão Xpath Xlink Xpointer

Page 72: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Expressões de caminho (path)/ elemento raiz/bd um elemento abaixo da raizbd /livro um livro num bdbd // livro um livro em qq

profundidade@price um atributo preçobd / livro /@preco um atributo preço num bdbd / livro[@ preco] livros com um determinado

preçobd / livro[@ preco =’10’] livros com preço 10// livro /parag[2] o 20 parágrafo de um livro qq nível

Page 73: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Outras linguagens ...Lorel(Abiteboul, Widom 1997)XML- QL (At&T Labs - 1998)XQL (Microsoft - 1998)Yatl (Cluet, Simeon - INRIA, 1999)XSL (W3C, 1998)XML-GL (Ceri et al. - 1999)Quilt (Chamberlin et al - 2000)...

Page 74: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XQL

Microsoft, Texeluso de XpathExemplo1. //livro[@language=“english”]/autor

<autor>A1</autor> <autor>A2</autor>

2. bd/livro[autor/@ano>1995]

Page 75: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Inspirados no SQL:XML- QL

Projeto Strudel (At&T) baseada em expressões regulares cláusula where (seleção) templates p/ construir dados

Exemplo:where <livro idioma=“english”>

<editor> Mc Graw Hill </><autor> $A</> </>in “www.abc.com/bd.xml”

construct $A

Resposta: conjunto de autores

<autor>A1</autor> <autor>A2</autor>

Page 76: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XML- QL

where <livro idioma=$L> <editor> Prentice Hall </> <autor> $A </> </>in “www.ime.eb.br/bd.xml”

construct <result><autor>$A </><idioma>$L </> </>

Resultado:<result><autor>A1</autor><idioma>L1</idioma> </result><result><autor>A2</autor><idioma>L2</idioma> </result>

Page 77: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Junção por valor em XML- QL

Autores que publicaram no mínimo 2 livros

where <livro>$B1 </> in “www.ime.eb.br/bd.xml”<autor>$A </> in $B1<livro>$B2 </>in “www.ime.eb.br/bd.xml”<autor>$A </> in $B2B1!=B2

construct <autor>$A </>

Page 78: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Lorel

baseado no OEM (Object Exchange Model)

extensão OQL p/ OEM

Select xml(result:$b)from from $b in livro.autorwhere $b.nome= “Ozsu” and and

$b.@ano >1995

Page 79: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Yatl

conversão de dados e integração modelo dados: árvores ordenadas, referências, nósRecupere títulos de livros publicados in 1995 por

Prentice Hall

make result[$t]match <<bd.xml>> with livro[@ano[$a],

titulo[$t] editor[$e]]

where $e=“Prentice-Hall” and $a=1995

Page 80: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Quilt

características de OQL,XML-QL, Lorel, XQL

limitações: junção, expressões regulares(full), Xpath

for $b in document(http:// www.ime.eb.br/bd.xml”)//livro, $a in $b/autor and $e in $e/editor

where $a/nome=“Ozsu” and $e/“Prentice Hall”return $b

Page 81: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

XSL

XSL Transformations(XSLT), recomendação W3C

regras de transformação XML XMLprograma XSLT é um documento XML!mais usado como ling. de apresentação<xsl:template match=“/”>

<xsl:for each select=“livro[autor/nome=“Ozsu”]”><xsl:value_of />

<xsl:for each> <xsl:template>

Page 82: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Resource Description Format (RDF) - W3C

Características:Modelo de metadados simples e expressivo:

trata dados/metadados de forma uniforme

Provê interoperabilidade na Web (XML)Meio de integração entre diferentes padrões de

metadados

Expressa vocabulários distintos com base em um modelo de dados e sintaxe comuns

Page 83: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

RDF: visão em camadas

Descrição de recursos

Aplicação RDF

RDF Schema

RDF básico(statements)

instância de

instância de

instância de

(meta-metamodelo)

(metamodelo)

(modelo)

(dados)

descreve

descreve

descreve

Page 84: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Modelo RDF básico Define um formalismo para a definição de recursos estrutura: DLG(Directed Labeled Graph) sintaxe: utiliza a linguagem XML Componentes básicos:

recursos: qualquer recurso que pode ser descrito segundo o modelo RDF

propriedades(properties): representa um atributo (ou relacionamento) de um recurso

declarações (statements): corresponde a associação entre um recurso específico, uma propriedade qualquer e o valor dessa propriedade para esse recurso(predicado, subject, object)

literais: conjunto de elementos que não são recursos (strings)

Page 85: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

RDF: estrutura básica

Recurso Valorpropriedade

http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Ana Maria

Documento

Valor

autora

Representação de um documento em RDF

Statement

sujeito predicado

Page 86: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

RDF

http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Ana Maria

Documento Valordc:creator

Metadados<?xml version=“1.0”><rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:dc = “http://purl.org/dc/elements/1.1”> <rdf: Description about= “http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html ”> <dc: creator>Ana Maria</dc: creator> <dc:subject> metadados</s:subject> </rdf: Description> </rdf: RDF>

dc:subject

Page 87: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Entidade estruturadahttp://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Metadados

dc:subject

Ana Maria

[email protected]

mod:nome

mod:e-mail

<rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:dc = “http://purl.org/dc/elements/1.1”> xmlns:mod=“http://www.ime.eb.br/de9/sgdc_w/xyz/definition <rdf: Description about= “http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html ”> <dc: creator>Ana Maria</dc: creator> <mod:nome>Ana Maria</mod:nome> <mod:e-mail>[email protected]</ mod :e-mail> <dc:subject> metadados</dc:subject> </rdf: Description> </rdf: RDF>

dc:creator

recurso anônimo

A pessoa cujo nome é Ana Mariae e-mail ana... é criadora do recursohttp//.... entitulado Metadados

Page 88: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Propriedade como um outro recurso

http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Metadadosdc:subject

http://fotos/ana/

Ana Maria

[email protected]

mod:nome

mod:e-mail

dc:creator

Page 89: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Propriedade como um outro recurso

<rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:dc = “http://purl.org/dc/elements/1.1”> xmlns:mod=“http://www.ime.eb.br/de9/sgdc_w/xyz/definition <rdf: Description about= “http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html ”> <dc: creator> “ http://fotos/ana”</ dc: creator > <dc:subject> metadados</ dc:subject > </rdf:Description><rdf: Description about= “ http://fotos/ana”> <mod:nome>Ana Maria</mod:nome> <mod:e-mail>[email protected]</mod:e-mail> </rdf: Description> </rdf: RDF>

outro recurso

Page 90: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Coleções em RDF

http://curso/top.avanc.bd/turma

rdf:bag

/alunos/Veronica

/alunos/Eduardo

/alunos/Leticia

/alunos/Eduardo

rdf:type

rdf:_1

rdf:_4

…..

• rdf: Bag• rdf: Sequence• rdf: Alternative

alunos

Page 91: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

RDF/XML com um Bag

<rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:s = “http://minhas definicoes#”><rdf: Description about=“http://curso/top.avanc.bd/turma”<s:alunos> <rdf:bag> <rdf:li resource= “/alunos/Veronica”> <rdf:li resource= “/alunos/Leticia”> <rdf:li resource= “/alunos/Tania”> <rdf:li resource= “/alunos/Eduardo”> </rdf:bag></s:alunos></rdf: Description> </rdf: RDF>

Page 92: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

RDF Schema (RDFS) Objetivo

provê um sistema de tipos para a declaração de propriedades de recursos (título, autor, etc.), dos relacionamentos entre essas propriedades, das classes de recursos em que essas propriedades se aplicam e das combinações possíveis entre classes e propriedades.

Enfoque: representação de objetos e classes de objetos representação de propriedades/ relacionamentos de objetos

Page 93: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

RDF Schema (RDFS)

Modelo de dados: estruturado segundo o modelo de dados básico

da RDF, ou seja, como recursos e propriedades facilita a descrição de domínios específicos sintaxe empregada: linguagem XML elementos do RDF Schema definidos no namespace

rdfs

Page 94: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Elementos do RDF Schema

rdfs:Class rdfs:Resource rdfs:subClassOf rdfs:subPropertyOf rdfs:domain: propriedade de rdf:property, indica a

que classe uma propriedade pertence (atributo de) rdfs:range: propriedade de rdf:property, especifica

os valores permitidos de uma determinada propriedade de uma ou mais classes.

Page 95: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

RDFSClasses de objetos: rdfs:Resource, rdfs:Property, rdf:Class, rdfs:ConstraintResource, rdfs:ConstraintProperty

Nomes de propriedades / relacionamentos: rdf:type, rdfs: subClassOf, rdfs:subPropertyOf, rdfs:range, rdfs:domain

Page 96: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Hierarquia de Classes

Page 97: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Exemplo de aplicação no RDF Schema

rdfs:Resource

rdfs:Class

xyz:Automóvel

s = rdfs:subClassOf t = rdf:type s t s

t

t s

xyz:VeículoDePassageiro

t s

xyz:Caminhão

t `marca

`modelo

d

dliteral

r

r

autommarcamodelo

veic.pass caminhao

Page 98: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Camadas de modelagem

t

Junção das Camadas RDF Básico e Esquema RDF

Camada de Instanciação dos Recursos

Camada de Aplicação RDF

t

xyz:marca

Chevrolet

Corsa

t

xyz:marcaxyz:modelo

t

stt

s

rdfs:Class

xyz:Automóvel

rdfs:Resource

t

xyz:modelo

http://www.ime.transp/Veiculos

rdf:Property

Descrição de Recursos

Aplicação RDF

Descreve

Descreve

Esquema RDF

Descreve

Objetos do domínio do usuário

Modelo

Metamodelo

Meta-Metamodelo

Descreve

Descreve

Descreve

RDF Básico

Page 99: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Consultas em RDF

Linguagens de consulta p/ XML não fornecem suporte a esquemas RDF

Propostas: RDF Query (Malhotra, 1998 - IBM)ex: Achar todos recursos de uma coleção

<rdfquery><rdfq:From eachresource=”http:// www.ime.transp/Veiculos "/></rdfquery>

Page 100: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

RDF query

Consulta ao metadado estrutural de um recurso

<rdfq:rdfquery><rdfq:From eachResource="http:// www.ime.transp/Veiculos "/><rdfq:Select><rdfq:Property name= "modelo"/></rdfq:Select></rdfq:From></rdfq:rdfquery>

Page 101: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Linguagens com serviço de inferência

total suporte de descrições RDFbase de conhecimento extraída a

partir de triplas (resource, property, value) em lógica de 1a ordem SilRI (W3C) - Frame logic Metalog (W3C)

regras de inferência no esquema RDF

Ambas ainda não passam de propostas

Page 102: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

BDs Web

Sistemas de BDs projetados para usuários Web casuais, que desejam consultar informações integradas da Web.

Serviços relevantes:facilidade de acesso à informação na Webconsultas complexas em um grande

número de sites Web

Page 103: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Desafios de um projeto de BDs Web

Sob ponto de vista do usuário: independência lógica: usuários ocasionais

devem ser capazes de formular consultas ad-hoc não cabe a usuários localizar/relacionar sites e

resolver diferenças de apresentação de cada site independência de navegação: cada site com

suas características específicas de consulta e recuperação

Sob ponto de vista do projetista sites são autônomos

Page 104: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

BDWeb X BDs

EsquemaConceitual/Externo

EsquemaLógico

EsquemaFísico

BD

SQL/QBE

EsquemaConceitual/Externo

EsquemaLógico

EsquemaVirtual Físico

interface ad-hoc

Web

independêncialógica

independênciade site

fonte: Florescu, Freire -tutorial SBBD 2000

Page 105: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Construindo um BD Web

Localizar informaçãoExtrair fontes de informação (Wrappers)

extrair esquemas (RDF, por exemplo) modelos Web

Integrar fontes esquema + integração semântica (uso de

ontologias)

Processar de consultas

Page 106: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Extraindo informação

Mediador

wrapper wrapper wrapper.....

Site Web Site Web Site Web

• acesso à informação•WebVCR (Freire et al wwww99) •Mapping by example ( Davalcu et al Sigmod99)

• extração da informação•NoDose (Adelberg, Sigmod98)• Ariadne (Knoblock et al AAAI97)• W4F (Sahuguet et al. -VLDB99)•XML/RDF : simplifica extração

• descrição da informação

•protocolo http

•80% dados escondidos(formulários...)

Page 107: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Integrando fontes Similar aos mediadores Como integrar:

materializar X dado virtual visão local X visão global relacional X XML linguagens de integração (XML, Datalog, ....)

Integração semântica

Page 108: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Integração semântica

Problema: garantir mesmo conceito a partir de representações diferentes

EsquemaConceitual

EsquemaLógico1

EsquemaLógico2

EsquemaLógico n.....

Site Web Site Web Site Web

Page 109: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Como integrar diferentes representações de um mesmo conceito?

Temperaturascid ano valorRJ 1998 30SP 1998 25SP 1999 34

Temperaturascid 1998 1999RJ 30 30SP 25 34

Temp_1998

cid valor

RJ 30SP 25

Temp_1999

cid valor

RJ 30SP 34

Ano: valor Ano: atributo

Ano: tabela

Page 110: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Integração semântica

Ex. de sistemas integradores: TSIMMIS e Information Manifold Araneus e Web Integrator Yat (baseado em XML)

RDF + ontologias é um caminho

Page 111: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Processamento de consultas

Otimização complexa nenhuma informação sobre cardinalidade,

distribuição, índices padrão de acesso limitado

Informação redundante nas fontesDisponibilidade dos dados é

imprevisívelTaxa de carga dos dados muito variável

Page 112: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Sumário e conclusões Visão dos conceitos importantes para permitir

interoperabilidade na Web Máquinas de busca são serviços importantes, mas

ainda muito limitadas: necessidade de mecanismos de consultas ad-hoc

Tecnologia XML muitos desafios p/ a comunidade de BDs muitas linguagens de consulta iniciativas importantes da W3C:

RDF é um caminho para integração: provê interoperabilidade sintática, estrutural mas ainda requer algo mais (ontologias) para interop. semântica)

Page 113: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

TendênciasGerenciamento de dados XML (atualização,

indexação, armazenamento em SGBDs RO e BDs nativos)

Visões XML de SGBDsROMecanismos de busca que combinem pesquisa

estruturada com pesquisa full-textBenchmarks XMLRDF + ontologias + XMLLinguagens de consulta RDF .....

Page 114: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Bibliografia T. Berners-Lee, J. Hendler, O. Lassila. The Semantic Web,

http://www.scientificamerican.com/2001/0501issue/0501berners-lee.html, 2001 Bergamaschi S., Castano S., Vincini M. Semantic Integration of Semistructured and

Structured Data Sources. SIGMOD Record, março 1999. A. Bonifati, S. Ceri. Comparative Analysis of Five XML Query Languages,

Dipartimento di Elettronica e Informazione, Politecnico di Milano, http://citeseer.nj.nec.com/325897-html, accessed in 2001.

David P. Habib and Robert L. Balliot. How to Search the World Wide Web: A Tutorial for Beginners and Non-Experts. http://204.17.98.73/midlib/tutor.htm#GSE, 2000.

Kansas City Publication Library. Introduction to Search Engines. http://www.kcpl.lib.mo.us/search/srchengines.htm, 2001.

G. Karvounarakis. RDF Query Languages: A state-of-the-art, http://www.ics.forth.gr/proj/isst/RDF/RQL/rdfql.html, 2000.

A. Malhotra, N. Sundaresan. RDF Query Specification, http://www.w3.org/TandS/QL/QL98/pp/rdfquery.html#jCentral, 1998.

A.M. C. Moura, M.L. M. Campos and C.M.Barreto. A Survey on Metadata for Describing and Retrieving Internet Resources. World Wide Web Journal, Vol 1, Baltzer Science Publishers BV, 221-240, Jan. 1999.

Page 115: Interoperabilidade e Semântica na Web

Ana Maria Moura - 2001

Bibliografia

S. Rayavarapu. W3C Query Languages, http://www.coe.neu.edu/~srayavar/W3CQL/ql.htm, 2001Resource Description Framework (RDF) Model and Sintax Specification 1.0 - W3C Recommendation 22 February 1999, http://www.w3.org/TR/1999/REC-rdf-syntaxe-19990222, 1999.

Resource Description Framework (RDF) Model and Syntax Specification – W3C Recommendation 27 March 2000, http://www.w3.org/TR/2000/CR-rdf-schema-20000327, 2000.

Freire J., Florescu D. Querying the Web, tutorial realizado no Simpósio Brasileiro de Banco de Dados, J. Pessoa PB, Brazil, 2000.

Bergamaschi S., Castano S., Vincini M. Semantic Integration of Semistructured and Structured Data Sources. SIGMOD Record, março 1999.

Fernandez M., Simeon J., Wadler O.XML Query Languages: Experiences and Exemplars,

http://www-db.research.bell-Labs.com/simeon/xquery.html Molina G. H., Papakonstantinou Y., Quass D. The TSIMMIS Approach to Mediation:

Data Model and Languages. Journal of Intelligent Information Systems [online], 1997.

Available at: http://www.db.stanford.edu/tsimmis/publication.html.