45
1 Uma Estratégia para Publicação dos Uma Estratégia para Publicação dos Dados Dados da Base do CEB-INEP/MEC no Padrão da Base do CEB-INEP/MEC no Padrão Linked Open Data Linked Open Data Fernando Maia da Mota

Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

Embed Size (px)

Citation preview

Page 1: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

1

Uma Estratégia para Publicação dos DadosUma Estratégia para Publicação dos Dadosda Base do CEB-INEP/MEC no Padrãoda Base do CEB-INEP/MEC no Padrão

Linked Open DataLinked Open Data

Fernando Maia da Mota

Page 2: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

2

• Objetivos• Conceitos e Definições• A Estratégia• Conclusão

AGENDA

Page 3: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

3

• Estudo do CEB, Web semântica, RDF, SPARQL.Estudo do CEB, Web semântica, RDF, SPARQL.

• Pesquisa das ferramentas STDTRIP, TRIPLIFY e Pesquisa das ferramentas STDTRIP, TRIPLIFY e OPEN LINK VIRTUOSO.OPEN LINK VIRTUOSO.

• Definição e implementação da estratégiaDefinição e implementação da estratégia para a publicação dos dados da base de dados do Censo Escolar Brasileiro(CEB) no padrão Linked Open Data do ano de 1995.

OBJETIVOS

Page 4: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

4

•PROJETO WEB-PIDE

• Parceria entre UFMS e UFSCar

• Censo Educacional Brasileiro(CEB)

• Magnitude e abrangência(Rigotti,2001)

• Dados sobre os estabelecimentos de ensino, matrículas, funções dos docentes e rendimento escolar.

CONCEITOS E DEFINIÇÕES

Page 5: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

5

• WEB SEMÂNTICA

• Situação atual - “a Web atual pode ser definida como a Web Sintática, onde os computadores são responsáveis apenas por apresentar as informações, mas a interpretação fica a cargo do usuário, ocasionando dificuldades em encontrar informações de forma eficiente e eficaz na Web.”(Breitman,2005)

• Definição - A Web Semântica é uma extensão da Web atual, na qual é dada a informação um significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação.(Benners-Lee, Hendler e Lassila,2001)

CONCEITOS E DEFINIÇÕES

Page 6: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

6

• ONTOLOGIAS

Definição - Uma ontologia define os termos utilizados para descrever

e representar uma área de conhecimento e são utilizadas por

pessoas, bases de dados e aplicações que necessitam partilhar

informação sobre um domínio (um domínio é apenas uma área

temática ou área do conhecimento, como medicina, construção,

fabricação de ferramenta, bens imobiliários, gestão financeira, etc.).

(W3C,2011)

CONCEITOS E DEFINIÇÕES

Page 7: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

7

• ONTOLOGIAS –> REUSO (INTEROPERABILIDADE)

O reuso de ontologias existentes é um ponto crítico na Web

semântica pois cada vez mais ontologias estão surgindo e precisam

ser adaptadas de um domínio para outro, ou estendidas na sua

abrangência.(Cantele,2009)

CONCEITOS E DEFINIÇÕES

Page 8: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

8

• WEB ONTOLOGY LANGUAGE (OWL)

• Definição - OWL é uma linguagem semântica, que é utilizada para

publicação e compartilhamento de recursos semânticos.

(Baldus,2011)

• Seu objetivo é ser uma linguagem disponível para aplicações que

não irão apenas exibir as informações, mas que necessitem

compreender o significado das informações, seus relacionamentos

entre classes, disjunções e metadados mais complexos dos que os

suportados pelo RDF.(Baldus,2011)

CONCEITOS E DEFINIÇÕES

Page 9: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

9

• RESOURCE DESCRIPTION FRAMEWORK (RDF)

• Definição - O RDF é um XML padrão para intercâmbio de metadados.

(Baldus,2011)

• Função do metadado – Descrever um documento através de atributos

conferidos a um objeto, retratando as suas características como dimensão,

formato, autoria, localização e outros com o objetivo de intercambiar dados.

(Oliveira,2002)

• Uso de metadados - Sobre um recurso Web, o uso de metadados permite

o conhecimento de seu significado, características, uso, localização e

relacionamento com outros recursos.(Vanni, 2009)

CONCEITOS E DEFINIÇÕES

Page 10: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

10

CONCEITOS E DEFINIÇÕES

Page 11: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

11

• DADOS GOVERNAMENTAIS ABERTOS

• Definição1 - São a publicação e disseminação das informações do

setor público na Web, compartilhadas em formato bruto e aberto,

compreensíveis logicamente, de modo a permitir a sua reutilização

em aplicações digitais desenvolvidas pela sociedade.(W3C,2011)

• Definição2 - Consistem na publicação de dados sobre informações

públicas em formatos que permitem o seu compartilhamento, acesso,

descoberta e fácil manipulação pelos consumidores desses dados.

(Breitman,2010)

CONCEITOS E DEFINIÇÕES

Page 12: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

12

• DADOS GOVERNAMENTAIS ABERTOS –> TRÊS LEIS

(EAVES,2009)

• Lei1 - Se o dado não pode ser encontrado e indexado na Web, ele

não existe.

• Lei2 - Se não estiver aberto e disponível em formato compreensível

por máquina, ele não pode ser reaproveitado.

• Lei3 - Se algum dispositivo legal não permitir sua reaplicação, ele

não é útil.

CONCEITOS E DEFINIÇÕES

Page 13: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

13

• DADOS GOVERNAMENTAIS ABERTOS –> OITO PRINCÍPIOS

(OPENGOVDATA.ORG, 2007)

1. Completos

2. Primários

3. Atuais

4. Acessíveis

5. Compreensíveis por máquinas

6. Não discriminatórios

7. Não proprietários

8. Livres de licenças

CONCEITOS E DEFINIÇÕES

Page 14: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

14

• LINKED OPEN DATA (LOD)

LOD usa tecnologias da Web semântica para publicar dados estruturados na Web e criar ligações entre dados de diferentes fontes de dados, de acordo com os seguintes princípios.(Berners-Lee & Hendler, 2001):1. Usar URIs como nomes para recursos.2. Usar URIs HTTP de forma que pessoas possam procurar por estesnomes.3. Quando alguém procura uma URI, fornecer informação RDF útil(SPARQL).4. Incluir sentenças RDF que ligam a outras URIs para que possamdescobrir outros recursos.

CONCEITOS E DEFINIÇÕES

Page 15: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

15

• LINKED OPEN DATA (LOD) -> Situação Atual (Cyganiak,2010)

CONCEITOS E DEFINIÇÕES

Page 16: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

16

A ESTRATÉGIA

Page 17: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

17

• ETAPA 1 –> DISPONIBILIZAÇÃO DOS DADOS

• Dados disponibilizados em microdados, no site do próprio INEP

• Os microdados são formados por arquivo ASCII(dados brutos), pelos arquivos de leitura e por um arquivo em Portable document format(PDF) chamado de "Leia-me“.

A ESTRATÉGIA

Page 18: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

18

• Etapa 1 –> Disponibilização dos dados –>Exemplo –> Leia-me.pdf

A ESTRATÉGIA

Page 19: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

19

• Etapa 1 –> Disponibilização dos dados –>Exemplo –> ASCII (dados brutos)

A ESTRATÉGIA

Page 20: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

20

• Etapa 1 –> Disponibilização dos dados –>Exemplo –> Arquivo de Leitura

A ESTRATÉGIA

Page 21: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

21

• Etapa 1 –> Carga dos dados –> DEAR(Siqueira,2009)

A ESTRATÉGIA

Page 22: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

22

• Etapa 1 –> Carga dos dados –> Dados Carregados no PostgreSQL

A ESTRATÉGIA

Page 23: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

23

• ETAPA 2 –> NORMALIZAÇÃO

• Triplification é o processo pelo qual um banco de dados e sua estâncias são transformados em um conjunto de dados RDF. Isto é feito mapeando conceitos de bancos de dados para uma ontologia, para ser utilizado como base para se gerar as triplas RDF.(Salas et al,2010)

• É pré-requisito um banco de dados normalizado para utilização das ferramentas TRIPLIFY e STDTRIP.

A ESTRATÉGIA

Page 24: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

24

• Etapa 2 –> Normalização

A ESTRATÉGIA

Page 25: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

25

• Etapa 2 –> 1º Modelo

A ESTRATÉGIA

Page 26: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

26

• ETAPA 2 –> 1º MODELO –> RESULTADO

• Ao aplicar a ferramenta STDTRIP a este modelo os resultados com

relação a reutilização de termos das ontologias padrões da Web (ontologias

em grande escala de uso) se mostrou ineficiente, isto evidenciou a

superficialidade deste modelo, portanto seria necessário um modelo

normalizado muito mais consistente para que o trabalho obtivesse o

sucesso esperado.

A ESTRATÉGIA

Page 27: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

27

• Etapa 2 –> 2º Modelo –> Analise

• Docentes no pré-escolar com capacitação e 1º grau completo

• Docentes de 1º a 4º série com capacitação e magistério completo

• Docentes no 2º grau com magistério completo

A ESTRATÉGIA

Page 28: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

28

• Etapa 2 –> 2º Modelo –> Analise -> Identificação de Padrões

• Docentes no pré-escolar com capacitação e 1º grau completo

• Docentes de 1º a 4º série com capacitação e magistério completo

• Docentes no 2º grau com magistério completo

A ESTRATÉGIA

Page 29: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

29

• Etapa 2 –> 2º Modelo –> Analise –> Exemplo Normalização

A ESTRATÉGIA

Page 30: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

30

• Etapa 2 –> 2º Modelo –> Analise –> Modelo Final

A ESTRATÉGIA

Page 31: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

31

• Etapa 3 –> Carga dos Dados –> Data Extractor PostgreSQL to MySQL(DEPOM)

A ESTRATÉGIA

Page 32: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

32

• ETAPA 4 –> STDTRIP

• A maioria das ferramentas de triplifying hoje dão apoio ao processo mecânico de transformação dos dados existentes. No entanto, nenhuma fornece suporte ao usuário durante a fase de modelagem conceitual.(Salas et al,2010)

• A arquitetura do processo da STDTRIP se divide em 6 etapas seqüenciais: Conversion, Alignment, Selection, Inclusion, Completion e Output. Sendo que as etapas de Inclusion e Completion não são obrigatórias.

A ESTRATÉGIA

Page 33: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

33

• Etapa 4 –> STDTRIP –> Arquitetura(Conversion, Alignment, Selection)

A ESTRATÉGIA

Page 34: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

34

• Etapa 4 –> STDTRIP –> Resultados

A ESTRATÉGIA

Page 35: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

35

• ETAPA 5 –> TRIPLIFY

• A ferramenta TRIPLIFY tem como objetivo explorar a estrutura de

dados em bancos de dados relacionais utilizados em aplicações Web,

para criar representações semânticas na Web. A maioria das aplicações

Web possuem banco de dados relacionais, porem estes dados não

estão disponíveis para pesquisa nos motores de busca ou outras

aplicações semânticas.(Baldus, 2011)

A ESTRATÉGIA

Page 36: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

36

• Etapa 5 –> TRIPLIFY –> Aplicação e Resultados

• Após a execução da ferramenta TRIPLIFY, a mesma gerou um arquivo RDF de 1.1 gigabytes.

A ESTRATÉGIA

Page 37: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

37

• Etapa 6 –> OPENLINK VIRTUOSO

• OPENLINK VIRTUOSO é um middleware e sistema gerenciador de

banco de dados que combina a funcionalidades de um banco de dados

convencional com banco de dados RDF e pode ser utilizado como um

servidor de aplicação para serviços Web e oferece um interface Web

para consultas em SPARQL, normalmente chamado de

SPARQLEndPoint. .(LinkedDataBR, 2011)

A ESTRATÉGIA

Page 38: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

38

• Etapa 6 –> OPENLINK VIRTUOSO –> Utilização e Resultados

• Para carga do arquivo RDF com as triplas geradas na etapa 5, foiutilizado o modulo "isql" do OPENLINK VIRTUOSO, que oferece uma interface Web para execução de comandos.

A ESTRATÉGIA

Page 39: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

39

• Etapa 6 –> OPENLINK VIRTUOSO –> Lista das Classes Carregadas

A ESTRATÉGIA

Page 40: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

40

e ae? e ae?

A ESTRATÉGIA

Page 41: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

41

• CONTRIBUIÇÕES

• Desenvolvimento da ferramenta DEPOM de extração e carga de dados.

• Objetivo principal foi conceber, implementar e demonstrar a estratégia de

publicação dos dados do CEB do ano de 1995 no padrão Linked Open Data.

Através dos resultados positivos deste trabalho houve a oportunidade de

apresentá-los a uma equipe de TI do INEP.

• Oportunidades de cooperação entre o CPCX/UFMS com a PUC-Rio.

• Oportunidade de amadurecimento acadêmico, pois neste trabalho foi possível

pesquisar e enriquecer o conhecimento adquirido durante a graduação e no

projeto de iniciação cientifica e gerar conhecimento.

CONCLUSÃO

Page 42: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

42

• Dificuldades Encontradas

• Tamanho da base de dados

• Tradução dos nomes das entidades e atributos do modelo de banco de dados normalizado criado

• Trabalho a distância

CONCLUSÃO

Page 43: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

43

• Trabalhos Futuros

• Estender este trabalho aos outros anos da base de dados do CEB.

• Estudar outras estratégias de publicação de dados no formato Linked Open Data.

• Criação de Marshups, que são aplicações Web que produzem informações aos usuários utilizando dados de fontes distintas.

CONCLUSÃO

Page 44: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

44

• (Baldus, 2011) Baldus, Luís Henrique Sirtoli. 2011. Estratégia para publicação de dados governamentais abertos no padrão linked data. Monografia apresentada ao Curso de Pós-Graduação Lato Sensu, Especialização em Banco de Dados da UFMT.• (Berners-Lee & Hendler, 2001) Berners-Lee, T., & Hendler, J. 2001. Scientific publishing on the semantic seb. Nature 410, 1023 - 1024Abril, 2001. Disponível em: http://www.nature.com/nature/debates/e-access/Articles/bernerslee.htm. Acesso em: 21 dez. 2010.• (Breitman, 2005) Breitman, K. K. 2005. Web semântica: a internet do futuro. Rio de Janeiro: LTC.• (Breitman et al, 2010) Breitman, K. K., Filho, J. V., & Salas, P. E. R. 2010. Publicação e uso de dados governamentais abertos. Mini curso. Escola Regional de Informática. Cuiabá. UFMT.•(Cantele, 2009) Cantele, R. C. 2009. Construindo ontologias a partir de recursos existentes: uma prova de conceito no domínio da educacão. São Paulo: USP, 2009. 226 p. Tese (Doutorado em Engenharia Elétrica) - Escola Politécnica da Universidade de São Paulo. Departamento de Engenharia de Computação e Sistemas Digitais, São Paulo.• (Eaves, 2009) Eaves, D. 2009. The three laws of open government data. Disponível em: http://eaves.ca/2009/09/30/three-law-of-open-government-data/. Acesso em 01 Junho 2011.• (INEP, 2011) INEP. 2011. Instituto nacional de estudos e pesquisas educacionais. Disponível em: www.inep.gov.br. Acesso em 01 junho 2011.• (LinkedDataBR, 2011) LinkedDataBR, G. T. 2011. Exposição, compartilhamento e conexão de recursos de dados abertos na web. Tech. rept. RNP.• (Oliveira, 2002) Oliveira, R. M. V. B. 2002. Web semântica: Novo desafio para os profissionais da informação. Disponível em: www.sibi.ufrj.br/snbu/snbu2002/oralpdf/124.a.pdf. Acesso em 01 junho 2011.• (Rigotti, 2001) Rigotti, C. A. C. I. R. 2001. As bases de dados do inep e os indicadores educacionais: conceitos e aplicações. In: Proceedings of the international union for scientific study of population.• (Salas et al, 2010a) Salas, P. E., Breitman, K. K., Casanova, M. A., & Viterbo, J. 2010a. Stdtrip: An a priori design approach and process for publishing open government data. • (Salas et al, 2010b) Salas, P. E. R., Breitman, K. K., Filho, J. V., & Casanova, M. A. 2010b. Interoperability by design using the stdtrip tool: An a priori approach.• (Siqueira, 2009) Siqueira, T. 2009. Sb-index: Um Indice espacial baseado em bitmap para data warehouse geográfico. M.Phil. thesis, UFSCar.• (W3C, 2011) W3C. 2011. Consórcio world wide web. Disponível em: http://www.w3c.br/Home/WebHome. Acesso em 01 junho 2011.

REFERÊNCIAS

Page 45: Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

45

• Orientadora Profa Ma. Karen kiomi Nakazato• Coorientador Prof. Dr. Marcelo Augusto dos Santos Turine

• Equipe de Web semântica da PUC-Rio• Prof. Me. Percy Enrique Rivera Salas• Profa. Dra. Karin Breitman• Prof. Dr. José Viterbo

• Prof. Dr. Gedson faria• Prof. Ma. Leila Lisiane Rossi

AGRADECIMENTOS