Macedo MaiaVânia Vidal, José Maria Monteiro, Fabio Porto, Ana
Maria e Regis Pires
Junções Adaptativas em consultas Federadas sobre
Linked Data
SumárioMotivação;Problema;Contexto;Solução Proposta;Contribuições;Cenário de Testes;Conclusões.
A Web como a conhecemos!
MotivaçãoAs práticas de Linked Data tem impulsionado a
publicação de dados na Web;Linked Data é um conjunto de boas práticas para
publicar, consumir e integrar dados estruturados na Web de Dados;
No padrão Linked Data, cada fragmento de dado no formato de triplas RDF descreve a si mesmo e suas relações, com outros fragmentos de dados de forma descentralizada;
Para consultar dados de repositórios de triplas RDF, usa-se a linguagem SPARQL.
Motivação
Motivação
Motivação
Motivação
Motivação
Introdução –LOD Datasets 2007
Introdução – LOD Datasets 2009
Introdução – LOD Datasets 2011
ProblemaO processamento de consultas federadas em
Linked Data envolve diversos desafios:
Desempenho das consultas;
Imprevisibilidade do ambiente;
Grande volume de dados;
Ausência de informações estatísticas e históricas.
Neste contexto, a realização de operações de junção, de maneira eficiente, configura-se em um problema relevante e em aberto;
ContextoProcessamento de consultas em sistemas de
integração linked-data;Integração de fontes de dados em Linked
Data; Ex: DrugBank, Diseasome, DBpedia;
Sistemas de integração; Ex: FedX, DARQ, Jena, Sesame,QEF
Solução PropostaEstratégias (algoritmos) de junções
adaptativas para ambientes Linked Data; Geração de estatísticas e históricos sobre
as fontes; Monitoramento de atividades:
Checar periodicamente a disponibilidade das fontes e às atividades realizadas durante a execução.
Tratar restrições nos tipos de consultas submetidas.
Solução Proposta - Arquitetura
Soluçao Proposta - Componentes
Translator
Traduz as consultas SPARQL para o QEP(Query Execution Plan) correspondente.
Executor
Executa o QEP e retorna os resultados.
Monitor
Monitora as atividades do ambiente federado durante a execução.
ContribuiçõesFront-end que recebe a consulta do Usuário
O usuário escreve a consulta SPARQL de maneira intuitiva;
Depois de validada, a mesma é transformada em um QEP;
Depois de terminadas as consultas, envia o resultado da consulta para a interface.
ContribuiçõesOperador de Controle:
Baseado no Eddies;Re-ordena constantemente os operadores de um
plano para se adaptar às variações que podem ocorrer nos dados durante a execução;
Realiza a leitura dos dados das fontes e determina um roteamento para cada tupla segundo as informações observadas (i.e. seletividade de cada operador);
Arquitetura do Eddies:
Contribuições
Eddy
R S T
R S S T
Project
Contribuições
R
Buffer RS
Buffer ST
S T
BufferOut
Arquitetura do Eddies:
Contribuições
Framework para integração de dados do PELD com o DBPediaDados PELD são triplificados a partir do modelo
Relacional;Parte dos dados são Materializados;Permite ligações com o DBPedia através do predicado
SameAs.
Cenário de TestesTestes e Resultados da análise das
consultas:Domínios:
Fontes de dados sobre Lifescience(PELD, Diseasome, Drugbank, Sider, DBPEDIA);
Comparação com outros ambientes:QEF, Fedx,Jena, Darq;
Cenário de Testes
Plankton
Catfish
Taxon &
Region
Fish DBPedia
Diagrama do PELD:
Cenário de Testes
Sider
Diseasome
DBPedia
Drugbank
Diagrama dos Datasets D&D:
Dailymed
ConclusãoNós propomos uma solução para a
implementação de junções adaptativas em consultas federadas;
O algoritmos de junção adaptativa se ajustará dinamicamente em tempo de execução, sem interromper a transmissão dos dados do endpoint SPARQL para o ambiente de execução;
A adaptação da consulta é baseada em estatísticas que são coletadas em tempo de execução.
ReferênciasAvnur, R. and Hellerstein, J. M. (2000). Eddies:
Continuously adaptive query processing. In SIGMOD Conference, pages 261–272.
Porto, F., Tajmouati, O., Da Silva, V. F. V., Schulze, B., and Ayres, F. V. M. (2007). Qef - supporting complex query applications. In Proceedings of the Seventh IEEE International Symposium on Cluster Computing and the Grid, CCGRID ’07, pages 846–851, Washington, DC, USA. IEEE Computer Society.
Pinheiro, J. C. (2011). Processamento de consulta de um framework baseado em mediador para integração de dados no padrão de Linked Data. PhD thesis, Universidade Federal do Ceará.
Macedo [email protected]
Obrigado!Perguntas, comentários ou sugestões?