27
Workshop de Teses e Dissertações – SBBD 2012 Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências Danusa Ribeiro [email protected] Orientadora: Bernadette Farias Lóscio [email protected] Nível: Mestrado Ano de Ingresso no programa: 2012 Época esperada de conclusão: Março de 2014

Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Embed Size (px)

DESCRIPTION

Apresentado no Workshop de Teses e Dissertações em Banco de Dados no 27º Simpósio Brasileiro de Banco de Dados. São Paulo - SP 2012

Citation preview

Page 1: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem

pay-as-you-go para a Descoberta de Correspondências

Danusa Ribeiro

[email protected]

Orientadora: Bernadette Farias Lóscio

[email protected]

Nível: Mestrado

Ano de Ingresso no programa: 2012

Época esperada de conclusão: Março de 2014

Page 2: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Agenda

Introdução

Motivação

Caracterização da Contribuição

Trabalhos Relacionados

Estado Atual do Trabalho

Referências

2

Page 3: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Introdução

3

Page 4: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Introdução

4

• Um dos principais desafios em Sistemas para Integração de Dados são:

Reescrita de consultas

Page 5: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Introdução

5

Q

M1 M2 M3Q + Q + Q +

Q’ Q’’ Q’’’

A B C

Esquema de

Mediação

Um componente fundamental para a reescrita de consultas é conjunto de mapeamentos entre o esquema de mediação e os esquemas locais

Page 6: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Introdução

6

Atualizado em Setembro de 2011http://richard.cyganiak.de/2007/10/lod/

Page 7: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

• Arquiteturas de Aplicações LDCentralizada

Navegação entre links

Federada

7

Introdução

Page 8: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Objetivos

Objetivo Geral: propor uma solução para o problema de reescrita de consultas em federações de conjuntos de dados interligados (Linked Data).

8

Objetivos Específicos: Especificação de um processo pay-as-you-go para a geração de

correspondências

Especificação de um processo para reescrita de consultas em federações de dados interligados

Desenvolvimento de um protótipo com funcionalidades para a extração de termos de uma consulta, reescrita de consulta e apresentação dos resultados

Page 9: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

• Federação de dados interligados I = {S, M, C} onde:

S = {s1,...,sn}: conjunto de conjuntos de dados interligados

M: esquema de mediação

C = {c1,...,cn}: um conjunto de correspodências entre M e cada um dos conjuntos de dados

9

Definições Preliminares

Page 10: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Dada uma federação de dados interligados I = {S, M, C}, estamos interessados em propor uma solução para o seguinte

problema:

dada uma consulta Q submetida em I de acordo com o esquema de mediação M, como decompor Q em uma ou mais consultas a

serem executadas sobre um ou mais conjuntos de dados si considerando que nem todas as correspondências necessárias

para a reescrita de Q estão disponíveis em C ?

10

Definição do Problema

Page 11: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 201211

RDF

SPARQL Endpoint

RDF

SPARQL Endpoint

RDF

SPARQL Endpoint

Federação de Dados InterligadosOntologia Local I Ontologia Local II Ontologia Local N

Repositório de Correspondências

Ontologia de Mediação

Extração de Termos

Geração de Novas Correspondência

Busca de Correspondências

Geração de Subconsultas

Integração dos Resultados

Visualização dos Resultados

Mediador

Visão Geral da AbordagemConsulta Q

Page 12: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

• Correspondências entre o esquema de mediação e os conjuntos de dadosPay-as-you-go

As correspondências necessárias para o processo de reescrita de uma consulta Q serão identificadas no momento da execução da consulta e de acordo com as propriedades que estão sendo consultados por Q

12

Caracterização da Contribuição

Page 13: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Caracterização da Contribuição

<owl:Class rdf:ID="Person">

<rdfs:subClassOf rdf:resource="#Legal-Agent"/>

<rdfs:subClassOf rdf:resource="&support;Tangible-Thing"/>

<rdfs:isDefinedBy rdf:resource="&base;"/>

</owl:Class>

<owl:DatatypeProperty rdf:ID="full-name">

<rdfs:domain rdf:resource="#Person"/>

13

<rdf:Property rdf:about=“http://xmlns.com/foaf/0.1/surname” rdfs:label="Surname”>

<rdfs:domain rdf:resource="http://xmlns.com/foaf/0.1/Person"/>

<rdfs:range rdf:resource="http://www.w3.org/2000/01/rdf-schema#Literal"/>

<rdfs:isDefinedBy rdf:resource="http://xmlns.com/foaf/0.1/"/>

</rdf:Property>

DBLP

DBpedia

Page 14: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Caracterização da Contribuição

<owl:Class rdf:ID="Person">

<rdfs:subClassOf rdf:resource="#Legal-Agent"/>

<rdfs:subClassOf rdf:resource="&support;Tangible-Thing"/>

<rdfs:isDefinedBy rdf:resource="&base;"/>

</owl:Class>

<owl:DatatypeProperty rdf:ID="full-name">

<rdfs:domain rdf:resource="#Person"/>

14

<rdf:Property rdf:about=“http://xmlns.com/foaf/0.1/surname” rdfs:label="Surname”>

<rdfs:domain rdf:resource="http://xmlns.com/foaf/0.1/Person"/>

<rdfs:range rdf:resource="http://www.w3.org/2000/01/rdf-schema#Literal"/>

<rdfs:isDefinedBy rdf:resource="http://xmlns.com/foaf/0.1/"/>

</rdf:Property>

DBLP

DBpedia

Page 15: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Caracterização da Contribuição

<owl:Class rdf:ID="Person">

<rdfs:subClassOf rdf:resource="#Legal-Agent"/>

<rdfs:subClassOf rdf:resource="&support;Tangible-Thing"/>

<rdfs:isDefinedBy rdf:resource="&base;"/>

</owl:Class>

<owl:DatatypeProperty rdf:ID="full-name">

<rdfs:domain rdf:resource="#Person"/>

15

<rdf:Property rdf:about=“http://xmlns.com/foaf/0.1/surname” rdfs:label="Surname”>

<rdfs:domain rdf:resource="http://xmlns.com/foaf/0.1/Person"/>

<rdfs:range rdf:resource="http://www.w3.org/2000/01/rdf-schema#Literal"/>

<rdfs:isDefinedBy rdf:resource="http://xmlns.com/foaf/0.1/"/>

</rdf:Property>

DBLP

DBpedia

Page 16: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

• Para ilustrar a abordagem proposta:

– Seja I = {S, M, C} uma federação de dados interligados

construída sobre o domínio de dados bibliográficos, onde:

S = {DBLP, ACM, DBpedia}

M = {Ontologia de Mediação}

C =

16

Um exemplo

Page 17: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Um exemplo

17

Ontologia de Mediação

Classes Propriedades

Publication Identifier, Title, Abstract

Person Name, Biography, HomePage, Author

University Name, Address, CountryClasses e Propriedades da Ontologia de

Mediação

Page 18: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Um exemplo

• Seja a consulta q1 : “Retorne os títulos dos artigos publicados pelo autor Alon Y. Halevy. Além disso, recupere a homepage do autor bem como uma breve apresentação sobre o mesmo”

18

 SELECT ?title, ?homepage, ?bioWHERE { ?publication Title ?title . ?publication Author ?author . ?author HomePage ?homepage . ?author Biography ?bio . ?author Name “Alon Y. Halevy” .}

Page 19: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Um exemplo

i. Extração dos termos da consulta

– {Title, Author, HomePage, Biography e Name}

ii. Identificação de correspondências

19

Ontologia de Mediação

ACM DBLP DBpedia

Name akt:full-name

akt:full-name dbpedia:name, foaf:surname, foaf:givenName

Biography - - rdf:commentHomePage - - foaf:page, foaf:homepage

Title akt:has-title akt:has-title -

Page 20: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Um exemploConsulta q1

ResultadoPREFIX akt:<http://www.aktors.org/ontology/portal#>PREFIX akts: <http://www.aktors.org/ontology/support#>SELECT DISTINCT ?title WHERE { ?publication akt:has-title ?title . ?publication akt:has-author ?author . ?author akt:full-name "Alon Y. Halevy".}Limit 5

  Binding Value1 ?title Guest Editorial2 ?title Answering queries using views3 ?title Queries independent of updates

4 ?titleLogic-based techniques in data…

5 ?title MiniCon: A scalable algorithm …

Consulta q2Resultado

PREFIX akt: <http://www.aktors.org/ontology/portal#>PREFIX akts: <http://www.aktors.org/ontology/support#>SELECT DISTINCT ?title WHERE { ?publication akt:has-title ?title . ?publication akt:has-author ?author . ?author akt:full-name "Alon Y. Halevy".}Limit 5

  Binding Value

1 ?titleEquivalence, Query-Reachability …

2 ?titleConstraints and Redundancy in…

3 ?title Exploiting Irrelevance…

4 ?titleQueries Independent of Updates.

5 ?title Query Optimization by…

Consulta q3Resultado

PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dbpedia: <http://dbpedia.org/resource/>SELECT DISTINCT ?homepage, ?bio WHERE {?y dbpedia-owl:wikiPageExternalLink ?homepage .?y rdfs:comment ?bio .?y rdf:type foaf:Person .?y dbpprop:name "Halevy, Alon Y."@en}

  Binding Value1 ?homepage

 http://alonhalevy.blogspot.com/

?bio 

Alon Yitzchack Halevy is..

20

iii. Geração de subconsultas (reescrita)

Page 21: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Um exemplo

iv. Integração dos resultados

21

Biography Alon Yitzchack Halevy is a renowned Israeli-American computer scientist and a leading researcher in the area of data integration. …

HomePage

http://en.wikipedia.org/wiki/Alon_Y._Halevy

Title Guest Editorial, Answering queries using views, Queries independent of updates…

Page 22: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Trabalhos Relacionados

• [Markis et al. 2012] SPARQL-RW: Transparent Query Access over Mapped RDF Data Sources– reescrita de consultas SPARQL

– integrar dados RDF

• [Lee et al. 2010] An intelligent query processing for distributed ontologies– reescrita de consultas SPARQL

– Integrar dados Linked Data

22

Page 23: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Próximos Passos

• Especificação dos processos para:

– Extração dos termos da consulta

– Geração de correspondências

– Geração das subconsultas (reescrita)

• Caracterização dos Mapeamentos entre as Múltiplas Ontologias

• Definição de um cenário para a realização de testes

23

Page 24: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Contribuições

i. Uma metodologia para geração incremental de correspondências entre ontologias a partir do uso das propriedades providas por OWL, RDF, RDFS, SKOS

ii. Especificação do processo de reescrita de consultas SPARQL em federações de conjuntos de dados interligados

iii. Implementação de um protótipo para validação das abordagens propostas

24

Page 25: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Referências

• [Bizer et al 2009] Bizer C., Heath T., Berners-Lee T. (2009) Linked data - the story so far. Int. J. Semantic Web Inf. Syst, 2009.

• [Franklin et al. 2005] Franklin, M., Halevy, A., Maier, D. “From Databases to Dataspaces: A New Abstraction for Information Management”. In: SIGMOD ’05: ACM SIGMOD international conference on Management of Data (2005).

• [Halevy et al. 2006a] Halevy, A., Rajaraman, A., Ordille, J.: “Data integration: the teenage years”. In: VLDB’06: 32nd International Conference on Very Large Data Bases, ACM (2006).

• [Herschel & Heese 2005] Herschel, S., Heese, R. “Humboldt Discoverer: A Semantic P2P index for PDMS”. In: Proc. of the International Workshop Data Integration and the Semantic Web, Porto, Portugal, 2005.

25

Page 26: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

Referências

• [Lee et al. 2009] Lee, J., Park, J. H., Park, M. J., Chung, C. W., Min, J. K. (2010). “An intelligent query processing for distributed ontologies”, Journal of Systems and Software, Volume 83, Issue 1, January 2010, Pages 85-95.

• [Lóscio 2003] Lóscio, B. F. “Managing the Evolution of XML-based Mediation Queries”. Ph.D. Thesis, Federal University of Pernambuco, Brazil, 2003.

• [Makris et al. 2012] Makris, K., Bikakis, N., Giodasis, N., Christodoulakis, S. (2012). “SPARQL-RW: Transparent Query Access over Mapped RDF Data Sources”. EDBT, 2012., Berlin, Germany.

• [Mendes et al. 2012] Pablo N. M., Hannes, M., Bizer, C. (2012). Sieve: linked data quality assessment and fusion. In Proceedings of the 2012 Joint EDBT/ICDT Workshops (EDBT-ICDT '12), ACM, New York, NY.

26

Page 27: Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay-as-you-go para a Descoberta de Correspondências

Workshop de Teses e Dissertações – SBBD 2012

[email protected]

27

Agradecimentos