Construção de Linked Data Mashup: Integração de Dados na
Saúde Pública
Gabriel Lopes, Vânia Vidal e Mauro Oliveira.
● GISSA: Sistema de Apoio a Tomada de Decisões;
● Problemática: Consulta sobre bases heterogêneas;
● Framework para integração de dados;
● Construção de um Linked Data Mashup;
● Consultas sobre a Visão Integrada;
● Conclusão;
● Trabalhos Futuros;
● Referências.
Outline
● Projeto de pesquisa com objetivo de auxiliar gestores de Saúde Pública na tomada de decisão em diversos domínios. Prova de conceito em Tauá-CE;
GISSA
● Projeto de pesquisa com objetivo de auxiliar gestores de Saúde Pública na tomada de decisão em diversos domínios. Prova de conceito em Tauá-CE;
●
● Domínio clínico-epidemiológico: pré-natal, puericultura, nascimento e óbito.
GISSA
●Como identificar gestações de risco usando as fontes de dados do SUS.
Bases de Dados Heterogêneas
Bases de Dados Heterogêneas
Dados sobre Mortalidade no país.
●Como identificar gestações de risco usando as fontes de dados do SUS.
●Como identificar gestações de risco usando as fontes de dados do SUS.
Informações sobre o indivíduo: socioeconômicas, saúde, demográfica, etc.
Bases de Dados Heterogêneas
Dados sobre Mortalidade no país.
●Como identificar gestações de risco usando as fontes de dados do SUS.
Informações sobre o indivíduo: socioeconômicas, saúde, demográfica, etc.
Informações sobre a gestante, gestação e recém-nascido, etc.
Bases de Dados Heterogêneas
Dados sobre Mortalidade no país.
●Como identificar gestações de risco usando as fontes de dados do SUS.
Informações sobre o indivíduo: socioeconômicas, saúde, demográfica, etc.
Informações sobre a gestante, gestação e recém-nascido, etc.
Consulta???
Bases de Dados Heterogêneas
Informações sobre estabecimentos, equipamentos, equipes médicas, etc.
Informa o quantitativo populacional vacinado.
Dados sobre Mortalidade no país.
Fatores de Risco: Óbito Infantil
Fatores de Risco: Óbito Infantil
Fatores de Risco: Óbito Infantil
Fatores de Risco: Óbito Infantil
Fatores de Risco: Óbito Infantil
Fatores de Risco: Óbito Infantil
● Objetivo deste trabalho é disponibilizar ao GISSA uma visão integrada das bases e-SUS e SINASC, de forma que um gestor de Saúde possa analisar os fatores de riscos para óbitos-infantis e partos prematuros.
Objetivo
2. Framework de Integração
●O framework Linked Data Mashup Framework [4] propõe 5 passos para a integração de dados:
Framework:
LDMF - L.D. Mashup Framework
5 Passos:
1. Seleção das Fontes de Dados;
Fonte de Dados
Fonte de Dados
LDMF - L.D. Mashup Framework
5 Passos:
1. Seleção das Fontes de Dados2. Modelagem da Ontologia de
Aplicação;
Ontologia de Aplicação
Fonte de Dados
Fonte de Dados
LDMF - L.D. Mashup Framework
5 Passos:
1. Seleção das Fontes de Dados2. Modelagem da Ontologia de
Aplicação;3. Geração das Ontologias
Exportadas;
Ontologia de Aplicação
Ontologia Exportada
Fonte de Dados
Fonte de Dados
Mapeamentos
Ontologia Exportada
Sub-ontologias
LDMF - L.D. Mashup Framework
5 Passos:
1. Seleção das Fontes de Dados2. Modelagem da Ontologia de
Aplicação;3. Geração das Ontologias
Exportadas;4. Identificação das Ligações
(links owl:sameAs);
Ontologia de Aplicação
Ontologia Exportada
Ontologia Exportada
Fonte de Dados
Fonte de Dados
Mapeamentos
owl:sameAs
LDMF - L.D. Mashup Framework
5 Passos:
1. Seleção das Fontes de Dados2. Modelagem da Ontologia de
Aplicação;3. Geração das Ontologias
Exportadas;4. Identificação das Ligações
(links owl:sameAs);5. Regras de Fusão e Limpeza
dos Dados.
Ontologia de Aplicação
Ontologia Exportada
Ontologia Exportada
Data Source Data Source
Mapeamentos
owl:sameAs
Regras de FusãoRegras de Fusão
3. Construção do Mashup
PASSO 1: Seleção das Fontes de Dados;
PASSO 2: Modelagem da Ontologia de Aplicação;
PASSO 3: Geração da Ontologias Exportadas;
PASSO 4: Especificação das heurísticas para descoberta de same-as links;
PASSO 5: Fusão e Limpeza de dados.
Construção Mashup: Passo 1
SINASC: Visões Materializadas
e-SUS: Visões Materializadas
PASSO 1: Seleção das Fontes de Dados;
PASSO 2: Modelagem da Ontologia de Aplicação;
PASSO 3: Geração da Ontologias Exportadas;
PASSO 4: Especificação das heurísticas para descoberta de same-as links;
PASSO 5: Fusão e Limpeza de dados.
Construção Mashup: Passo 2
Ontologia de Aplicação
PREFIX gissa:<http://www.atlantico.com.br#>
PASSO 1: Seleção das Fontes de Dados;
PASSO 2: Modelagem da Ontologia de Aplicação;
PASSO 3: Geração da Ontologias Exportadas;
PASSO 4: Especificação das heurísticas para descoberta de same-as links;
PASSO 5: Fusão e Limpeza de dados.
Construção Mashup: Passo 2
● R2RML: Padrão W3C para mapeamentos de dados Relacionais em RDF [5].
Passo 3 : Mapeamentos R2RML
TB_Detalhe_Pessoa
CO UNICO FICHA varchar(96)- alcool- drogas- hipertensao- doenca_cardiaca- cancer- diabetes
Esquema do Banco de Dados
GISSA_REL
gissa:nomeCompleto
gissa:idadeRealgissa:cnsgissa:peso
gissa:Pessoa Mashup Ontology
GISSA_OWL
TB_Pessoa
CO UNICO FICHA varchar(96)- no_pessoa- idade int- dt_nascimento- nu_cns
TB_Detalhe_Pessoa
CO UNICO FICHA varchar(96)- alcool- drogas- hipertensao- doenca_cardiaca- cancer- diabetes
Esquema do Banco de Dados
GISSA_REL
gissa:nomeCompleto
gissa:idadeRealgissa:cnsgissa:peso
gissa:Pessoa Mashup Ontology
GISSA_OWL
TB_Pessoa
CO UNICO FICHA varchar(96)- no_pessoa- idade int- dt_nascimento- nu_cns
R2RML
PASSO 1: Modelagem da Ontologia de Domínio;
PASSO 2: Seleção da Fontes de Dados;
PASSO 3: Geração da Ontologias Exportadas (esquemas);
PASSO 4: Especificação das heurísticas para descobertas de links sameAs;
PASSO 5: Limpeza de dados.
Mashup DATASUS: Passo 4
Passo 4 : Descoberta dos Links SameAs
● Para descoberta dos links owl:sameAs, foi utilizado a ferramenta SILK[2].
● Pessoas◦Nome Completo;◦ Data de Nascimento;◦ CNS - Cartão Nacional da Saúde
PASSO 1: Modelagem da Ontologia de Domínio;
PASSO 2: Seleção da Fontes de Dados;
PASSO 3: Geração da Ontologias Exportadas (esquemas);
PASSO 4: Especificação das heuristicas para descobertas de same-as links;
PASSO 5: Fusão dos Dados.
Mashup DATASUS: Passo 5
Passo 5 : Fusão dos Dados
● Para a Fusão, foi utilizada a ferramenta SIEVE[3].
● Base mais confiável: e-SUS
3.1 Interface de Consultas
SPARQL EndPoint
● EndPoint criado com o Apache Fuseki[1]
● Todas as recém-gestantes Fumantes?
● Todas as recém-gestantes Fumantes e Hipertensas?
Consultas sobre a Visão Integrada
● O peso dos bebês nascidos de mães fumantes?
Consultas sobre a Visão Integrada
● Esse trabalho vai permitir :● analisar a relação entre maus-hábitos durante a gravidez com
problemas no parto e/ou no recém-nascido;
Conclusão e Trabalhos Futuros
● Esse trabalho vai permitir :● analisar a relação entre maus-hábitos durante a gravidez com
problemas no parto e/ou no recém-nascido;● Criar programas de conscientização com as gestantes baseados
em históricos de casos de problemas;
Conclusão e Trabalhos Futuros
● Esse trabalho vai permitir :● analisar a relação entre maus-hábitos durante a gravidez com
problemas no parto e/ou no recém-nascido;● Criar programas de conscientização com as gestantes baseados
em históricos de casos de problemas;● Potencialmente, diminuir casos de óbitos-infantis e partos
prematuros.
Conclusão e Trabalhos Futuros
● Esse trabalho vai permitir :● analisar a relação entre maus-hábitos durante a gravidez com
problemas no parto e/ou no recém-nascido;● Criar programas de conscientização com as gestantes baseados
em históricos de casos de problemas;● Potencialmente, diminuir casos de óbitos-infantis e partos
prematuros.● Como Trabalhos Futuros:
● Enriquecer o Mashup utilizando outras bases de dados (e.g. SIM, DBPedia);
Conclusão e Trabalhos Futuros
● Esse trabalho vai permitir :● analisar a relação entre maus-hábitos durante a gravidez com
problemas no parto e/ou no recém-nascido;● Criar programas de conscientização com as gestantes baseados
em históricos de casos de problemas;● Potencialmente, diminuir casos de óbitos-infantis e partos
prematuros.● Como Trabalhos Futuros:
● Enriquecer o Mashup utilizando outras bases de dados (e.g. SIM, DBPedia);
● Aplicar anonimização nos dados;
Conclusão e Trabalhos Futuros
● Esse trabalho vai permitir :● analisar a relação entre maus-hábitos durante a gravidez com
problemas no parto e/ou no recém-nascido;● Criar programas de conscientização com as gestantes baseados
em históricos de casos de problemas;● Potencialmente, diminuir casos de óbitos-infantis e partos
prematuros.● Como Trabalhos Futuros:
● Enriquecer o Mashup utilizando outras bases de dados (e.g. SIM, DBPedia);
● Aplicar anonimização nos dados;● Desenvolver um Framework que reutilize a especificação
gerada num Mashup.
Conclusão e Trabalhos Futuros
[1] Apache (2015). Apache Jena FUSEKI available at https://jena.apache.org/documentation/serving_data/[2] Bizer, C., Volz, J., Kobilarov, G., and Gaedke, M. (2009b). Silk - a link discovery framework for the web of data. In 18th International World Wide Web Conference. [3] Mendes, P. N., Muhleisen, H., and Bizer, C. (2012). Sieve: Linked Data Quality Asses- ¨ sment and Fusion. In 2nd International Workshop on Linked Web Data Management (LWDM 2012) at the 15th International Conference on Extending Database Technology, EDBT 2012, page to appear.[4] V. M. P. Vidal, M. A. Casanova, N. Arruda, M. Roberval, L. P. Leme, G. R. Lopes, and C. Renso. Advanced Information Systems Engineering: 27th International Conference, CAiSE 2015, Stockholm, Sweden, June 8-12, 2015, Proceedings, chapter Specification and Incremental Maintenance of Linked Data Mashup Views, pages 214–229. Springer International Publishing, Cham, 2015.[5] W3C (2016). R2RML RDB to RDF Mapping Language. available athttps://www.w3.org/TR/r2rml/.
Referências
Leiam o artigo :)