Upload
danusa-ribeiro
View
166
Download
4
Embed Size (px)
DESCRIPTION
Apresentado no Workshop de Teses e Dissertações em Banco de Dados no 27º Simpósio Brasileiro de Banco de Dados. São Paulo - SP 2012
Citation preview
Workshop de Teses e Dissertações – SBBD 2012
Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem
pay-as-you-go para a Descoberta de Correspondências
Danusa Ribeiro
Orientadora: Bernadette Farias Lóscio
Nível: Mestrado
Ano de Ingresso no programa: 2012
Época esperada de conclusão: Março de 2014
Workshop de Teses e Dissertações – SBBD 2012
Agenda
Introdução
Motivação
Caracterização da Contribuição
Trabalhos Relacionados
Estado Atual do Trabalho
Referências
2
Workshop de Teses e Dissertações – SBBD 2012
Introdução
3
Workshop de Teses e Dissertações – SBBD 2012
Introdução
4
• Um dos principais desafios em Sistemas para Integração de Dados são:
Reescrita de consultas
Workshop de Teses e Dissertações – SBBD 2012
Introdução
5
Q
M1 M2 M3Q + Q + Q +
Q’ Q’’ Q’’’
A B C
Esquema de
Mediação
Um componente fundamental para a reescrita de consultas é conjunto de mapeamentos entre o esquema de mediação e os esquemas locais
Workshop de Teses e Dissertações – SBBD 2012
Introdução
6
Atualizado em Setembro de 2011http://richard.cyganiak.de/2007/10/lod/
Workshop de Teses e Dissertações – SBBD 2012
• Arquiteturas de Aplicações LDCentralizada
Navegação entre links
Federada
7
Introdução
Workshop de Teses e Dissertações – SBBD 2012
Objetivos
Objetivo Geral: propor uma solução para o problema de reescrita de consultas em federações de conjuntos de dados interligados (Linked Data).
8
Objetivos Específicos: Especificação de um processo pay-as-you-go para a geração de
correspondências
Especificação de um processo para reescrita de consultas em federações de dados interligados
Desenvolvimento de um protótipo com funcionalidades para a extração de termos de uma consulta, reescrita de consulta e apresentação dos resultados
Workshop de Teses e Dissertações – SBBD 2012
• Federação de dados interligados I = {S, M, C} onde:
S = {s1,...,sn}: conjunto de conjuntos de dados interligados
M: esquema de mediação
C = {c1,...,cn}: um conjunto de correspodências entre M e cada um dos conjuntos de dados
9
Definições Preliminares
Workshop de Teses e Dissertações – SBBD 2012
Dada uma federação de dados interligados I = {S, M, C}, estamos interessados em propor uma solução para o seguinte
problema:
dada uma consulta Q submetida em I de acordo com o esquema de mediação M, como decompor Q em uma ou mais consultas a
serem executadas sobre um ou mais conjuntos de dados si considerando que nem todas as correspondências necessárias
para a reescrita de Q estão disponíveis em C ?
10
Definição do Problema
Workshop de Teses e Dissertações – SBBD 201211
RDF
SPARQL Endpoint
RDF
SPARQL Endpoint
RDF
SPARQL Endpoint
Federação de Dados InterligadosOntologia Local I Ontologia Local II Ontologia Local N
Repositório de Correspondências
Ontologia de Mediação
Extração de Termos
Geração de Novas Correspondência
Busca de Correspondências
Geração de Subconsultas
Integração dos Resultados
Visualização dos Resultados
Mediador
Visão Geral da AbordagemConsulta Q
Workshop de Teses e Dissertações – SBBD 2012
• Correspondências entre o esquema de mediação e os conjuntos de dadosPay-as-you-go
As correspondências necessárias para o processo de reescrita de uma consulta Q serão identificadas no momento da execução da consulta e de acordo com as propriedades que estão sendo consultados por Q
12
Caracterização da Contribuição
Workshop de Teses e Dissertações – SBBD 2012
Caracterização da Contribuição
<owl:Class rdf:ID="Person">
<rdfs:subClassOf rdf:resource="#Legal-Agent"/>
<rdfs:subClassOf rdf:resource="&support;Tangible-Thing"/>
<rdfs:isDefinedBy rdf:resource="&base;"/>
</owl:Class>
<owl:DatatypeProperty rdf:ID="full-name">
<rdfs:domain rdf:resource="#Person"/>
13
<rdf:Property rdf:about=“http://xmlns.com/foaf/0.1/surname” rdfs:label="Surname”>
<rdfs:domain rdf:resource="http://xmlns.com/foaf/0.1/Person"/>
<rdfs:range rdf:resource="http://www.w3.org/2000/01/rdf-schema#Literal"/>
<rdfs:isDefinedBy rdf:resource="http://xmlns.com/foaf/0.1/"/>
</rdf:Property>
DBLP
DBpedia
Workshop de Teses e Dissertações – SBBD 2012
Caracterização da Contribuição
<owl:Class rdf:ID="Person">
<rdfs:subClassOf rdf:resource="#Legal-Agent"/>
<rdfs:subClassOf rdf:resource="&support;Tangible-Thing"/>
<rdfs:isDefinedBy rdf:resource="&base;"/>
</owl:Class>
<owl:DatatypeProperty rdf:ID="full-name">
<rdfs:domain rdf:resource="#Person"/>
14
<rdf:Property rdf:about=“http://xmlns.com/foaf/0.1/surname” rdfs:label="Surname”>
<rdfs:domain rdf:resource="http://xmlns.com/foaf/0.1/Person"/>
<rdfs:range rdf:resource="http://www.w3.org/2000/01/rdf-schema#Literal"/>
<rdfs:isDefinedBy rdf:resource="http://xmlns.com/foaf/0.1/"/>
</rdf:Property>
DBLP
DBpedia
Workshop de Teses e Dissertações – SBBD 2012
Caracterização da Contribuição
<owl:Class rdf:ID="Person">
<rdfs:subClassOf rdf:resource="#Legal-Agent"/>
<rdfs:subClassOf rdf:resource="&support;Tangible-Thing"/>
<rdfs:isDefinedBy rdf:resource="&base;"/>
</owl:Class>
<owl:DatatypeProperty rdf:ID="full-name">
<rdfs:domain rdf:resource="#Person"/>
15
<rdf:Property rdf:about=“http://xmlns.com/foaf/0.1/surname” rdfs:label="Surname”>
<rdfs:domain rdf:resource="http://xmlns.com/foaf/0.1/Person"/>
<rdfs:range rdf:resource="http://www.w3.org/2000/01/rdf-schema#Literal"/>
<rdfs:isDefinedBy rdf:resource="http://xmlns.com/foaf/0.1/"/>
</rdf:Property>
DBLP
DBpedia
Workshop de Teses e Dissertações – SBBD 2012
• Para ilustrar a abordagem proposta:
– Seja I = {S, M, C} uma federação de dados interligados
construída sobre o domínio de dados bibliográficos, onde:
S = {DBLP, ACM, DBpedia}
M = {Ontologia de Mediação}
C =
16
Um exemplo
Workshop de Teses e Dissertações – SBBD 2012
Um exemplo
17
Ontologia de Mediação
Classes Propriedades
Publication Identifier, Title, Abstract
Person Name, Biography, HomePage, Author
University Name, Address, CountryClasses e Propriedades da Ontologia de
Mediação
Workshop de Teses e Dissertações – SBBD 2012
Um exemplo
• Seja a consulta q1 : “Retorne os títulos dos artigos publicados pelo autor Alon Y. Halevy. Além disso, recupere a homepage do autor bem como uma breve apresentação sobre o mesmo”
18
SELECT ?title, ?homepage, ?bioWHERE { ?publication Title ?title . ?publication Author ?author . ?author HomePage ?homepage . ?author Biography ?bio . ?author Name “Alon Y. Halevy” .}
Workshop de Teses e Dissertações – SBBD 2012
Um exemplo
i. Extração dos termos da consulta
– {Title, Author, HomePage, Biography e Name}
ii. Identificação de correspondências
19
Ontologia de Mediação
ACM DBLP DBpedia
Name akt:full-name
akt:full-name dbpedia:name, foaf:surname, foaf:givenName
Biography - - rdf:commentHomePage - - foaf:page, foaf:homepage
Title akt:has-title akt:has-title -
Workshop de Teses e Dissertações – SBBD 2012
Um exemploConsulta q1
ResultadoPREFIX akt:<http://www.aktors.org/ontology/portal#>PREFIX akts: <http://www.aktors.org/ontology/support#>SELECT DISTINCT ?title WHERE { ?publication akt:has-title ?title . ?publication akt:has-author ?author . ?author akt:full-name "Alon Y. Halevy".}Limit 5
Binding Value1 ?title Guest Editorial2 ?title Answering queries using views3 ?title Queries independent of updates
4 ?titleLogic-based techniques in data…
5 ?title MiniCon: A scalable algorithm …
Consulta q2Resultado
PREFIX akt: <http://www.aktors.org/ontology/portal#>PREFIX akts: <http://www.aktors.org/ontology/support#>SELECT DISTINCT ?title WHERE { ?publication akt:has-title ?title . ?publication akt:has-author ?author . ?author akt:full-name "Alon Y. Halevy".}Limit 5
Binding Value
1 ?titleEquivalence, Query-Reachability …
2 ?titleConstraints and Redundancy in…
3 ?title Exploiting Irrelevance…
4 ?titleQueries Independent of Updates.
5 ?title Query Optimization by…
Consulta q3Resultado
PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dbpedia: <http://dbpedia.org/resource/>SELECT DISTINCT ?homepage, ?bio WHERE {?y dbpedia-owl:wikiPageExternalLink ?homepage .?y rdfs:comment ?bio .?y rdf:type foaf:Person .?y dbpprop:name "Halevy, Alon Y."@en}
Binding Value1 ?homepage
http://alonhalevy.blogspot.com/
?bio
Alon Yitzchack Halevy is..
20
iii. Geração de subconsultas (reescrita)
Workshop de Teses e Dissertações – SBBD 2012
Um exemplo
iv. Integração dos resultados
21
Biography Alon Yitzchack Halevy is a renowned Israeli-American computer scientist and a leading researcher in the area of data integration. …
HomePage
http://en.wikipedia.org/wiki/Alon_Y._Halevy
Title Guest Editorial, Answering queries using views, Queries independent of updates…
Workshop de Teses e Dissertações – SBBD 2012
Trabalhos Relacionados
• [Markis et al. 2012] SPARQL-RW: Transparent Query Access over Mapped RDF Data Sources– reescrita de consultas SPARQL
– integrar dados RDF
• [Lee et al. 2010] An intelligent query processing for distributed ontologies– reescrita de consultas SPARQL
– Integrar dados Linked Data
22
Workshop de Teses e Dissertações – SBBD 2012
Próximos Passos
• Especificação dos processos para:
– Extração dos termos da consulta
– Geração de correspondências
– Geração das subconsultas (reescrita)
• Caracterização dos Mapeamentos entre as Múltiplas Ontologias
• Definição de um cenário para a realização de testes
23
Workshop de Teses e Dissertações – SBBD 2012
Contribuições
i. Uma metodologia para geração incremental de correspondências entre ontologias a partir do uso das propriedades providas por OWL, RDF, RDFS, SKOS
ii. Especificação do processo de reescrita de consultas SPARQL em federações de conjuntos de dados interligados
iii. Implementação de um protótipo para validação das abordagens propostas
24
Workshop de Teses e Dissertações – SBBD 2012
Referências
• [Bizer et al 2009] Bizer C., Heath T., Berners-Lee T. (2009) Linked data - the story so far. Int. J. Semantic Web Inf. Syst, 2009.
• [Franklin et al. 2005] Franklin, M., Halevy, A., Maier, D. “From Databases to Dataspaces: A New Abstraction for Information Management”. In: SIGMOD ’05: ACM SIGMOD international conference on Management of Data (2005).
• [Halevy et al. 2006a] Halevy, A., Rajaraman, A., Ordille, J.: “Data integration: the teenage years”. In: VLDB’06: 32nd International Conference on Very Large Data Bases, ACM (2006).
• [Herschel & Heese 2005] Herschel, S., Heese, R. “Humboldt Discoverer: A Semantic P2P index for PDMS”. In: Proc. of the International Workshop Data Integration and the Semantic Web, Porto, Portugal, 2005.
25
Workshop de Teses e Dissertações – SBBD 2012
Referências
• [Lee et al. 2009] Lee, J., Park, J. H., Park, M. J., Chung, C. W., Min, J. K. (2010). “An intelligent query processing for distributed ontologies”, Journal of Systems and Software, Volume 83, Issue 1, January 2010, Pages 85-95.
• [Lóscio 2003] Lóscio, B. F. “Managing the Evolution of XML-based Mediation Queries”. Ph.D. Thesis, Federal University of Pernambuco, Brazil, 2003.
• [Makris et al. 2012] Makris, K., Bikakis, N., Giodasis, N., Christodoulakis, S. (2012). “SPARQL-RW: Transparent Query Access over Mapped RDF Data Sources”. EDBT, 2012., Berlin, Germany.
• [Mendes et al. 2012] Pablo N. M., Hannes, M., Bizer, C. (2012). Sieve: linked data quality assessment and fusion. In Proceedings of the 2012 Joint EDBT/ICDT Workshops (EDBT-ICDT '12), ACM, New York, NY.
26