53
Universidade Federal de Mato Grosso do Sul ampus de Coxim Bacharelado em Sistemas de Informa¸c˜ ao Uma Estrat´ egia para Publica¸ ao dos Dados da Base do CEB-INEP/MEC no Padr˜ ao Linked Open Data Fernando Maia da Mota UFMS-CPCX Coxim - MS Junho/2011

Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Embed Size (px)

Citation preview

Page 1: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Universidade Federal de Mato Grosso do Sul

Campus de Coxim

Bacharelado em Sistemas de Informacao

Uma Estrategia para Publicacao dos Dados

da Base do CEB-INEP/MEC no Padrao

Linked Open Data

Fernando Maia da Mota

UFMS-CPCXCoxim - MSJunho/2011

Page 2: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Universidade Federal de Mato Grosso do Sul

Campus de Coxim

Bacharelado em Sistemas de Informacao

Fernando Maia da Mota

Uma Estrategia para Publicacao dos Dados

da Base do CEB-INEP/MEC no Padrao

Linked Open Data

Trabalho de conclusao de curso apresen-tado ao Campus de Coxim da Univer-sidade Federal de Mato Grosso do Sul-UFMS, como requisito parcial para aobtencao do tıtulo de Bacharel em Sis-temas de Informacao sob orientacao daProfa Ma. Karen Kiomi Nakazato e coori-entacao do Prof. Dr. Marcelo Augustodos Santos Turine.

Coxim - MSJunho, 2011

Page 3: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data
Page 4: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Agradecimentos

A meus pais e familia, pela educacao que me deram, onde sempre memostraram que a honestidade e trabalho, sao as melhores formas de alcancaros objetivos na vida.

Aos mestres que me deram a oportunidade de amadurecimento pessoale profissional atraves de seus ensinamentos dentro da sala de aula e pelosexemplos de vida, em especial aos mestres Amaury Antonio de Castro Junior,Gedson Faria, Leila Lisiane Rossi e minha estimada orientadora Karen KiomiNakazato pela orientacao, atencao, confianca, apoio e amizade nao so durantea criacao deste trabalho mas sim durante toda a graduacao.

A todos os amigos, que sem sua presenca e apoio tornaria esta camin-hada muito mais desgastante e monotona, em especial aos CAFF(Claudeir,Ameixa, eu e Fuska) e Glasielly.

Por fim, a todos que contribuıram direta ou indiretamente.

Page 5: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Resumo

Dados governamentais abertos consistem na publicacao de dados sobre in-formacoes publicas em formatos que permitem o seu compartilhamento,acesso, descoberta e facil manipulacao pelos consumidores desses dados.Linked Open Data e um padrao da Web semantica que se baseia na rep-resentacao de dados em forma de triplas RDF. Este trabalho propoe umaestrategia para publicacao dos dados da base de dados do Censo Educa-cional Brasileiro(CEB) no padrao Linked Open Data, neste censo sao co-letados dados sobre os estabelecimentos de ensino, matrıculas, funcoes dosdocentes e rendimento escolar. A estrategia se caracteriza em 6 passos, saoeles a carga dos microdados do Instituto Nacional de Estudos e PesquisasEducacionais(INEP) para um Sistema de Gerenciamento de Banco de Da-dos(SGBD), a avaliacao das tabelas criadas para a criacao de um mod-elo logico normalizado de banco de dados, a implementacao de uma fer-ramenta em JAVA para carregar os dados no novo modelo criado, e emseguida a aplicacao da ferramenta STDTRIP, geracao das triplas em RDFutilizando a ferramenta TRIPLIFY e finalmente o armazenamento das triplasem um servidor de triplas. Esta estrategia foi implementada neste trabalhoutilizando–se os dados do CEB do ano de 1995.Palavras chave: CEB, Linked Open Data,RDF, Web semantica.

4

Page 6: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Abstract

Open government data consists in the publication of public information datain formats that allow them to be share, access, discovery and easy handling byconsumers of such data. Linked Open Data is a Semantic Web standard basedon the representation of data as RDF triples. This work proposes a datapublication strategy from the Brazilian Educational Census (CEB) databasein a Linked Open Data format. In this census are collected data aboutschools, enrollment, teachers’ roles, and educational school performance. Thestrategy consist in six stages. In the first stage the Educational ResearchNational Institute (INEP) microdata is loaded into a Database ManagementSystem (DBMS), secondly the database is normalized in a third normal form(3NF) model, third a Java tool was implemented to load the data into thenew normalized model, in the fourth stage the StdTrip tool was applied toassist in the ontology conceptual model, in the fifth stage the Triplify toolgenerate the RDF triples and finally the RDF triples were stored into a triplesstore. This strategy was implemented in this work using data from the 1995year Brazilian Educational Census.Keywords: CEB, Linked Open Data,RDF, Semantic Web.

5

Page 7: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Conteudo

1 Introducao 9

1.1 Contexto e motivacao . . . . . . . . . . . . . . . . . . . . . . . 91.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.2.1 Objetivos especıficos . . . . . . . . . . . . . . . . . . . 101.3 Organizacao do texto . . . . . . . . . . . . . . . . . . . . . . . 11

2 Fundamentacao Teorica 12

2.1 O projeto Web–PIDE . . . . . . . . . . . . . . . . . . . . . . . 122.2 Web semantica . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3 Ontologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3.1 Reuso de ontologias . . . . . . . . . . . . . . . . . . . . 172.4 Web Ontology Language (OWL) . . . . . . . . . . . . . . . . . 172.5 Resource Description Framework (RDF) . . . . . . . . . . . . 192.6 Dados abertos governamentais . . . . . . . . . . . . . . . . . . 202.7 Princıpios de Linked Open Data . . . . . . . . . . . . . . . . . 212.8 SPARQL Protocol and RDF Query Language (SPARQL) . . . 23

3 A Estrategia para Publicacao dos Dados 24

3.1 Etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Implementacao da etapa de carga dos dados . . . . . . . . . . 263.3 Implementacao da etapa de normalizacao . . . . . . . . . . . . 323.4 Implementacao da etapa de extracao e carga para o modelo

normalizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.5 Implementacao da etapa de criacao da ontologia . . . . . . . . 37

3.5.1 Processo STDTRIP . . . . . . . . . . . . . . . . . . . . 383.5.2 Aplicacao da STDTRIP . . . . . . . . . . . . . . . . . 40

3.6 Implementacao da etapa de triplificacao . . . . . . . . . . . . 413.6.1 Aplicacao do TRIPLIFY . . . . . . . . . . . . . . . . . 41

3.7 Implementacao da etapa de armazenamento das triplas . . . . 42

6

Page 8: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Conteudo ufms

4 Conclusao 44

4.1 Contribuicoes do trabalho . . . . . . . . . . . . . . . . . . . . 444.2 Dificuldades encontradas . . . . . . . . . . . . . . . . . . . . . 464.3 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . 46

A Modelo Normalizado do CEB/1995 47

Referencias 50

7

Page 9: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Lista de Figuras

2.1 Bases de Dados do INEP (2010) . . . . . . . . . . . . . . . . . 142.2 Arquitetura da Plataforma Web–PIDE[Turine et al. , 2006] . . 152.3 Declaracao de Namescapes[Vanni, 2009] . . . . . . . . . . . . . 18

3.1 Etapas para publicacao dos dados no padrao Linked Open Data 253.2 Parte do Arquivo ”Leia-me.pdf” do CEB de 1995[INEP, 2011] 283.3 Exemplo de arquivo ASCII, microdados de 1995 . . . . . . . . 293.4 Exemplo de arquivo SAS para leitura de dados, microdados

de 1995 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.5 Arquitetura da ferramenta ata Extractor ASCII to Relational-

DEAR[Siqueira, 2009] . . . . . . . . . . . . . . . . . . . . . . 313.6 1o Modelo normalizado criado . . . . . . . . . . . . . . . . . . 333.7 Exemplo de normalizacao das colunas numericas . . . . . . . . 343.8 2o Modelo relacional normalizado . . . . . . . . . . . . . . . . 363.9 Ordem de Execucao da DEPOM . . . . . . . . . . . . . . . . . 373.10 Arquitetura STDTRIP[Salas et al. , 2010b] . . . . . . . . . . . 383.11 Sequencia dos passos[Salas et al. , 2010b] . . . . . . . . . . . . 393.12 Servidor OPENLINK VIRTUOSO . . . . . . . . . . . . . . . . 43

4.1 Exemplo de consulta sobre os dados triplicados do CEB doano de 1995 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

A.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48A.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

8

Page 10: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Capıtulo 1

Introducao

Neste capitulo sao apresentados o contexto, a motivacao, objetivo e aorganizacao deste trabalho.

1.1 Contexto e motivacao

Com o crescente volume de informacoes no nosso dia a dia surge a neces-sidade de ferramentas automatizadas que auxiliem no processo de armazena-mento e recuperacao dos dados de forma rapida e pratica. Nas instituicoes deensino e realizada uma serie de provas para avaliar a qualidade e as condicoesda educacao no Brasil. O Instituto de Estudos e Pesquisas em EducacaoAnısio Teixeira(INEP)–MEC e responsavel pelas avaliacoes do Sistema Ed-ucacional Brasileiro. Atraves das pesquisas realizadas pelo INEP e possıvelobter informacoes claras e confiaveis aos gestores, pesquisadores, educadores epublico em geral. Contudo, essas informacoes nem sempre sao de facil acessoa essas pessoas. Com o objetivo de contribuir e facilitar as consultas sobre osdados do INEP obtidos atraves das provas e pesquisas promovidas por ele,foi proposto pela UFMS em parceria com a UFSCar o projeto de pesquisaWeb–PIDE o qual preve a criacao de uma plataforma de integracao dos da-dos educacionais do INEP[Turine et al. , 2006]. Este trabalho apresenta umainiciativa de Linked Open Data que preve o uso de padroes abertos, suporta-dos pela World Wide Web Consortium(W3C), para exposicao dos dados naWeb por meio de princıpios simples, envolvendo padronizacao semantica portras dos dados, este trabalho em especial foi desenvolvido em parceria com aPUC-Rio, polo de pesquisas sobre Web semantica.

Para potencializar a utilidade desses dados, e necessario implantar o con-ceito de Linked Data, que alem de disponibilizar liga a informacao a out-ros dados, podendo assim, ser acessada e reutilizada com mais facilidade

9

Page 11: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

1.2. Objetivos ufms

[Berners-Lee & Hendler, 2001].Este trabalho utiliza parte da base de dados do Censo Educacional

Brasileiro (CEB)–INEP–MEC, que com atualizacao anual dispoe de in-formacoes sobre as instituicoes escolares nos diversos nıveis de ensino, comonumero de matrıculas, o volume de alunos, o movimento escolar, carac-terısticas basicas da instituicao, equipamentos e edificacoes existentes, alemde dados sobre o pessoal tecnico e administrativo e as caracterısticas dosdocentes, entre outros.

Os dados das bases de dados do INEP sao disponibilizados atualmenteno formato de microdados[INEP, 2011](arquivos de texto), esse formato difi-culta a sua reutilizacao por parte da sociedade. Segundo Berners-Lee (2001)as vantagens de disponibilizar os dados abertos para a sociedade sao ines-timaveis, pois nao ha como prever qual direcao os conjuntos de dados abertos,ligados a outros dados nao disponıveis ao primeiro fornecedor, irao tomar.

Com o uso de Web semantica e possıvel criar novas informacoes por meiodas interligacoes de dados governamentais abertos com outras fontes de da-dos, o que possibilita para qualquer interessado o desenvolvimento de pro-gramas e aplicacoes de interesse publico ou privado, utilizando os dados deforma que se quer foi prevista pelo fornecedor dos dados, neste formato autilidade destes dados e incalculavel[Baldus, 2011].

Portanto alem do fator cientıfico este trabalho tambem possui um fatorsocial e polıtico.

1.2 Objetivos

Este trabalho tem por objetivo geral propor uma estrategia para apublicacao dos dados da base de dados do CEB no padrao Linked OpenData para utilizacao posterior em aplicacoes de Web Semantica. Essesdados atualmente sao disponibilizados pelo INEP/MEC no formato demicrodadados[INEP, 2011].

1.2.1 Objetivos especıficos

Para que o objetivo geral fosse alcancado, objetivos especıficos foramdesenvolvidos e concluıdos, conforme sequencia abaixo:

• Estudo da base de dados do CEB disponibilizados, seus relacionamen-tos, objetos e tipo dos dados;

• Estudo dos conceitos de Web Semantica;

10

Page 12: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

1.3. Organizacao do texto ufms

• Estudo do modelo RDF de intercambio de metadados;

• Estudo da linguagem SPARQL utilizada na consulta de triplas;

• Pesquisar a ferramenta TRIPLIFY para a transformacao dos dados emRDF;

• Pesquisar a ferramenta STDTRIP que dara suporte no processo decriacao e interoperabilidade da ontologia a ser desenvolvida neste tra-balho, alem de gerar automaticamente o arquivo de configuracao daferramenta TRIPLIFY;

• Pesquisar o servidor OPEN LINK VIRTUOSO para ser utilizado comorepositorio de triplas;

1.3 Organizacao do texto

Este trabalho esta organizado em 4 Capıtulos e 1 anexo, sendo que seusrespectivos objetivos sao resumidos a seguir.

Capitulo 1 – Introducao, caracteriza o contexto e evidencia as lacunasque motivaram o desenvolvimento deste trabalho, apresentando tambem seusobjetivos.

Capitulo 2 – O projeto Web–PIDE, conceitos de Web Semantica, Ontolo-gias, Reuso de Ontologias, Dados Abertos Governamentais e princıpios deLinked Open Data alem das tecnologias OWL e RDF.

Capitulo 3 – A estrategia, seu desenvolvimento e as etapas necessariaspara a conclusao do trabalho.

Capitulo 4 – Conclusoes, apresenta as conclusoes obtidas no trabalho, aslimitacoes detectadas e sugestoes de trabalhos futuros.

O anexo A apresenta por completo e em qualidade de resolucao o modelologico da base de dados normalizada criada para a conclusao do trabalho.

11

Page 13: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Capıtulo 2

Fundamentacao Teorica

Neste capıtulo serao expostos os principais conceitos e suas referenciassobre a transformacao de dados para publicacao no formato Linked OpenData.

Tambem serao apresentados os resultados dos estudos apresentados nosobjetivos especıficos deste trabalho: estudo da base de dados do CEB, estudosdos conceitos de Web semantica, estudo do modelo RDF de intercambio dedados e a linguagem SPARQL para consulta de triplas.

2.1 O projeto Web–PIDE

A producao de dados e informacoes estatıstico–educacionais de forma agile de qualidade, que retrate a realidade do setor educacional, e o instrumentobasico de avaliacao, planejamento e auxılio ao processo decisorio para o es-tabelecimento de polıticas de melhoria da educacao brasileira. E por meiodos censos educacionais que se busca garantir a utilizacao da informacaoestatıstica neste processo, gerando os indicadores necessarios ao acompan-hamento do setor educacional[Jannuzzi, 2001].

Neste contexto, o Ministerio da Educacao (MEC) disponibiliza, por meiodo INEP, uma serie de bases e informacoes das diversas modalidades deavaliacoes educacionais do sistema educacional brasileiro. O INEP temum papel estrategico, unico e essencial para o fortalecimento da gestao depolıticas educacionais e o desenvolvimento da educacao brasileira.

O INEP e responsavel pelo levantamento e producao das estatısticasbasicas da educacao nacional, por meio da realizacao de levantamentosperiodicos que abrangem os diferentes nıveis e modalidades de ensino. Afim de ampliar o conhecimento sobre a realidade do sistema educacionalbrasileiro, o INEP desenvolve varios estudos sobre as avaliacoes que possam

12

Page 14: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.1. O projeto Web–PIDE ufms

servir de base para a elaboracao de polıticas publicas educacionais.As avaliacoes aplicadas pelo INEP ate o ano de 2010 podem ser mapeadas

quanto ao domınio (Educacao Basica ou Superior) ou sistema de avaliacao.Deste modo, pode–se observar na figura 2.1 uma estrutura das avaliacoesmapeadas juntamente com outros dados importantes: nome da divulgacao,ano de aplicacao e situacao.

Segundo Cerqueira e Rigotti (2001), as bases de dados educacionaisconsideradas de maior importancia sao o Censo Escolar ou Censo Es-colar Brasileiro(CEB) e o Sistema Nacional de Avaliacao da EducacaoBasica(SAEB), devido a sua magnitude e abrangencia, sendo que o CEBe o foco deste trabalho.

O CEB e um levantamento de dados estatıstico–educacionais de ambitonacional, realizado todos os anos e desenvolvido com a colaboracao das sec-retarias estaduais e municipais de Educacao, com a participacao de todas asescolas publicas e privadas do paıs. Assim, o CEB e considerado o princi-pal instrumento de coleta de informacoes da educacao basica, que abrange oensino regular (educacao infantil e ensinos fundamental e medio), educacaoespecial e educacao de jovens e adultos (EJA). Neste caso, sao coletados da-dos sobre os estabelecimentos de ensino, matrıculas, funcoes dos docentes,movimento e rendimento escolar[Hernandes, 2010].

13

Page 15: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.1. O projeto Web–PIDE ufms

Figura 2.1: Bases de Dados do INEP (2010)

Em janeiro de 2007 foi aprovado pelo INEP/CAPES o projeto de pesquisada Fundacao Universidade Federal de Mato Grosso do Sul (UFMS) em parce-ria com a Universidade Federal de Sao Carlos (UFSCar) intitulado ”Web–PIDE — Uma Plataforma Aberta para Integracao e Avaliacao de Dados Ed-ucacionais na Web”, como parte do Programa Observatorio de Educacao queobjetiva ser um sistema computacional para integrar e disponibilizar os da-dos educacionais do INEP por meio de uma linguagem comum e padronizadade marcacao intitulada LIDE (Linguagem de Marcacao de Dados Educa-cionais). As LIDEs sao definidas com a linguagem de marcacao XML (eX-tensible Markup Language), que torna os documentos legıveis para as pessoase manipulaveis pelos computadores. Para completar a camada responsavel

14

Page 16: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.1. O projeto Web–PIDE ufms

pelos dados na arquitetura do projeto Web–PIDE, utiliza-se a tecnologiade Data Warehouse (DW) e de Data Marts (DM) para sistematizar e ar-mazenar os dados historicos com o objetivo de facilitar a tomada de decisaopelos gestores[Savitraz, 2010], de acordo com a Figura 2.2.

Figura 2.2: Arquitetura da Plataforma Web–PIDE[Turine et al. , 2006]

Para a criacao da P–LIDE, considerando todas as atividades necessariaspara sua criacao, utiliza–se o P–LIDE — Processo para definicao da lin-guagem para integracao de Dados Educacionais, que tem na SEVTool (Searchand edition Visualization) um apoio computacional para permitir que os da-dos referentes as avaliacoes do INEP sejam padronizadas sintaticamente,sendo que o uso de visualizacao facilita essa tarefa. Ambas ferramentasforam desenvolvidas como produtos de uma dissertacao de mestrado naUFSCar[Hernandes, 2010].

Outra contribuicao para o projeto Web–PIDE, na forma de dissertacaode mestrado, e a utilizacao do SB-INDEX para o projeto de um Data Ware-house geografico [Siqueira, 2009], que prove mecanismo de indexacao capazde reduzir o tempo de resposta das consultas envolvendo grandes quanti-

15

Page 17: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.2. Web semantica ufms

dades de dados, utilizando predicados espaciais, alem de propor o modelo derepresentacao de DW no esquema estrela.

O CEB e uma das bases de dados de estudo do projeto Web–PIDE, quesera utilizada neste trabalho.

2.2 Web semantica

Atualmente, a maior parte dos recursos primarios presentes na Web estaem linguagem natural, de modo que so podem ser interpretados por sereshumanos. Nos deparamos com essa situacao diariamente, quando realizamosbuscas na Web e somos forcados a ”filtrar” informacoes que, mesmo dentrodos criterios de busca solicitados, pertencem a diferentes contextos. Umexemplo simples e fazer uma pesquisa sobre arvores – carvalhos. O resultadodessa busca, alem de paginas referentes a esse tipo de arvore, tambem trazpessoas cujo sobrenome e Carvalho, empresas de guindaste e escritorios deadvocacia [Breitman, 2005].

Segundo Benners-Lee, Hendler e Lassila(2001) ”[...] a Web Semantica euma extensao da Web atual, na qual e dada a informacao um significado bemdefinido, permitindo que computadores e pessoas trabalhem em cooperacao.”

Para Breitman(2005), a Web atual pode ser definida como a WebSintatica, onde os computadores sao responsaveis apenas por apresentar asinformacoes, mas a interpretacao fica a cargo do usuario, ocasionando difi-culdades em encontrar informacoes de forma eficiente e eficaz na Web comomostrado no exemplo de busca sobre a arvore carvalho.

A proposta da Web Semantica e atender a questao anterior atraves demetadados que descrevem os dados contidos em um recurso da Web, essesmetadados devem ser padronizados para que a sua utilizacao seja feita porpessoas e softwares. Um desses padroes mais utilizados pela Web Semanticae o uso de ontologias, que nada mais sao do que vocabularios que descrevemuma area do conhecimento.

2.3 Ontologias

Uma ontologia define os termos utilizados para descrever e representaruma area de conhecimento. Ontologias sao utilizadas por pessoas, basesde dados e aplicacoes que necessitam de partilhar informacao sobre umdomınio (um domınio especıfico e apenas uma area tematica ou area doconhecimento, como medicina, construcao, fabricacao de ferramenta, bensimobiliarios, reparacao automovel, gestao financeira, etc.)[W3C, 2011].

16

Page 18: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.4. Web Ontology Language (OWL) ufms

Ontologias incluem definicoes de conceitos basicos no domınio e relaciona-mentos entre eles. As ontologias codificam o conhecimento sobre um domınioe conhecimento que cobre mais do que um domınio. Desta forma, elas fazemcom que esse conhecimento seja reutilizavel.

A palavra ontologia tem sido usada para descrever artefatos com difer-entes graus de estrutura. Estas vao desde simples taxonomias (como hierar-quia Yahoo), esquemas de metadados (como o Dublin Core), ate as teoriaslogicas. A Web Semantica precisa de ontologias com um grau significativode estrutura. E necessario especificar descricoes para os seguintes tipos deconceitos:

• Classes (aspectos gerais) em muitos domınios de interesse

• Relacoes que podem existir entre coisas

• Propriedades (ou atributos) que essas coisas podem ter

As ontologias sao figura proeminentes na Web Semantica, emergentescomo uma forma de representar a semantica dos documentos, permitindoque a semantica possa ser utilizada por aplicacoes Web e agentes inteligentes.Ontologias podem revelar-se muito uteis para a comunidade como uma formade estruturar e definir o significado de termos, os metadados, que sao atual-mente recolhidos e padronizados. Usando ontologias, as aplicacoes futuraspodem vir a ser ”inteligentes”, no sentido de que se possa trabalhar com maisprecisao a um nıvel conceitual humano [W3C, 2011].

2.3.1 Reuso de ontologias

O reuso de ontologias e um ponto muito importante da Web semantica,pois garante a interoperabilidade de informacoes entre contextos diferentes,como explica Cantele(2009) ”O reuso de ontologias existentes e um pontocrıtico na Web semantica pois cada vez mais ontologias estao surgindo eprecisam ser adaptadas de um domınio para outro, ou estendidas na suaabrangencia.”

A possibilidade de estender ontologias existentes tambem e interessante,pois permite que adaptacoes sejam realizadas, sem prejuızo para a comu-nicacao entre contextos e sem necessidade de reescrita da ontologia[Baldus, 2011].

2.4 Web Ontology Language (OWL)

OWL e uma linguagem semantica, que e utilizada para publicacao e com-partilhamento de recursos semanticos. Seu objetivo e ser uma linguagem

17

Page 19: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.4. Web Ontology Language (OWL) ufms

disponıvel para aplicacoes que nao irao apenas exibir as informacoes, mas quenecessitem compreender o significado das informacoes, seus relacionamentosentre classes, disjuncoes e metadados mais complexos dos que os suportadospelo RDF. E possıvel trabalhar com desigualdade ou igualdade de classes, re-stricoes de funcionalidades e caracterısticas das propriedades[Baldus, 2011].

Para criar uma ontologia, sao informados os vocabularios especıficos quedevem ser utilizados, atraves de namespaces XML (xmlns), no inıcio dadefinicao da ontologia[Vanni, 2009]. O exemplo da figura 2.3 ilustra o uso denamespaces em um arquivo OWL.

Figura 2.3: Declaracao de Namescapes[Vanni, 2009]

As linhas 2 e 3 apresentam a identificacao da ontologia corrente. Ouseja, se nao for utilizado nenhum prefixo namespaces nas declaracoes deelementos da ontologia, deve ser compreendido como parte da ontologiacorrente. Da mesma forma, se for utilizado o prefixo ”rede”, que de-fine o vocabulario da ontologia. Na linha 4, e definido que o names-pace XML ”acesso” e referencia para a ontologia definida no endereco,”http://www.icmc.usp.br/ rporto/DOHand/OWL/acesso”, que nao possuio mesmo vocabulario da ontologia corrente[Vanni, 2009].

As outras declaracoes de namespaces (owl, rdf, rdfs e xsd), informam queelementos que iniciem com o prefixo owl, rdf, rdfs e xsd, sejam compreen-didos como definicoes destes vocabularios, respectivamente vocabulario dalinguagem OWL, RDF, esquema RDF e XML esquema.

Realizadas as declaracoes iniciais, sera observado que ”[...] a maioria doselementos em uma ontologia OWL trata de classes, propriedades, instanciade classes e relacionamento entre instancias.” [Vanni, 2009].

A principal superclasse da linguagem owl e owl:Thing, ou seja, ”[...] Tudoque for declarado em OWL e membro da classe owl:Thing.”[Vanni, 2009]. Asdeclaracoes sao realizadas no formato de tags XML e os principais constru-tores estao representados no codigo 1.

18

Page 20: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.5. Resource Description Framework (RDF) ufms

Code 1 Classe OWL[Vanni, 2009]01 <owl:Class rdf:ID="ClasseTeste">02 o que estiver aqui dentro referencia a classe em questao03 <rdfs:subClassOf rdf:recource=URI da superclasse/> Define heranca04 </owl:Class>05 ...

2.5 Resource Description Framework (RDF)

O uso de metadados sobre um recurso Web permite o conhecimentode seu significado, caracterısticas, uso, localizacao e relacionamento comoutros recursos[Vanni, 2009]. Com isso em mente foi criado, pelo grupode trabalho de Web semantica da W3C o padrao RDF, com o intuitode descrever e representar os metadados relacionados a qualquer recursoweb[Berners-Lee & Hendler, 2001].

O Resource Description Framework(RDF) e um XML padrao para in-tercambio de metadados, conforme elucida Oliveira(2002) ”Enquanto afuncao principal do metadado e descrever um documento atraves de atributosconferidos a um objeto, retratando as suas caracterısticas como dimensao,formato, autoria, localizacao e outros com o objetivo de intercambiar dados,o RDF e um grafo para descrever e intercambiar metadado.”

O conceito base no qual o RDF esta fundamentado e o seu modelo dedados[Oliveira, 2002], que e composto por declaracoes a respeito dos recur-sos,contendo: a) Resource (Recurso) atributo que contem a identificacaounica, normalmente utilizando Uniform Resource Identifier, b) Propriedade,que e o conjunto de fonte com um nome que possui uma propriedade, ec) Afirmacao, a uniao de uma fonte com propriedade e com a afirmacao,partes tambem conhecidas como assunto, predicado e afirmacao. Com estesmetadados do RDF, podem ser identificadas outras informacoes a respeitodos dados e dos metadados[Baldus, 2011].

Um RDF segue a formatacao basica do XML, contendo informacoes so-bre os dados e os metadados, sendo o ponto de partida para o modelo a seradotado pela web semantica, contendo apenas conceito sobre assercao (asser-tion) e de ’quotation’ – criando assercoes sobre assercoes, portanto necessitade implementacoes e aplicacoes como conversao de linguagem, leis da logica,com o objetivo de imprimir logica aos documentos; predicado logico (not,and, or) e leis de quantificacao (para todo x y (x))[Baldus, 2011].

No codigo 2 temos um exemplo de XML, contendo informacoes no formatoRDF, disponıvel no site W3CSchools:

19

Page 21: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.6. Dados abertos governamentais ufms

Code 2 Codigo RDF. Fonte:http://www.w3schools.com/rdf/default.asp01 <?xml version="1.0"?>0203 <rdf:RDF04 xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"05 xmlns:si="http://www.w3schools.com/rdf/">0607 <rdf:Description rdf:about="http://www.w3schools.com">08 <si:title>W3Schools</si:title>09 <si:author>Jan Egil Refsnes</si:author>10 </rdf:Description>1112 </rdf:RDF>13 ...

2.6 Dados abertos governamentais

Dados Abertos Governamentais sao a publicacao e disseminacao das in-formacoes do setor publico na Web, compartilhados em formato bruto eaberto, compreensıveis logicamente, de modo a permitir sua reutilizacao emaplicacoes digitais desenvolvidas pela sociedade[W3C, 2011].

Uma outra definicao por Breitman(2010), diz que ”Dados governamentaisabertos consistem na publicacao de dados sobre informacoes publicas emformatos que permitem o seu compartilhamento, acesso, descoberta e facilmanipulacao pelos consumidores desses dados”.

Dados abertos governamentais sao regidos por tres leis basicas, conformeEaves(2009):

• Se o dado nao pode ser encontrado e indexado na Web, ele nao existe.

• Se nao estiver aberto e disponıvel em formato compreensıvel pormaquina, ele nao pode ser reaproveitado.

• Se algum dispositivo legal nao permitir sua reaplicacao, ele nao e util.

Alem das tres leis dos dados abertos governamentais, ainda ha oitoprincıpios basicos. Os dados para serem considerados dados abertos gov-ernamentais devem ser (OPENGOVDATA.ORG, 2007):

1. Completos. Todos os dados publicos estao disponıveis. Dado publico eo dado que nao esta sujeito a limitacoes validas de privacidade, segu-ranca ou controle de acesso.

20

Page 22: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.7. Princıpios de Linked Open Data ufms

2. Primarios. Os dados sao apresentados tais como os coletados na fonte,com o maior nıvel possıvel de granularidade e sem agregacao ou modi-ficacao.

3. Atuais. Os dados sao disponibilizados tao rapidamente quanto necessariaa preservacao do seu valor.

4. Acessıveis. Os dados sao disponibilizados para o maior alcance possıvelde usuarios e para o maior conjunto possıvel de finalidades.

5. Compreensıveis por maquinas. Os dados sao razoavelmente estrutura-dos de modo a possibilitar processamento automatizado.

6. Nao discriminatorios. Os dados sao disponıveis para todos, semexigencia de requerimento ou cadastro.

7. Nao proprietarios. Os dados sao disponıveis em formato sobre o qualnenhuma entidade detenha controle exclusivo.

8. Livres de licencas. Os dados nao estao sujeitos a nenhuma restricao dedireito autoral, patente, propriedade intelectual ou segredo industrial.Restricoes sensatas relacionadas a privacidade, seguranca e privilegiosde acesso sao permitidas.

Segundo Baldus(2011), ”[...] nao ha obrigatoriedade de um formato paraa disponibilizacao de dados, que pode ser em XML, CSV, RDF, ou inumeraspossibilidades, desde que respeitados os princıpios basicos.”

2.7 Princıpios de Linked Open Data

AWeb tornou-se o principal meio de disseminacao de informacoes digitais,valendo-se especialmente da publicacao e interligacao de documentos e pos-teriormente como poderoso canal de comunicacao e relacionamento atravesdas redes sociais. Alem disso, consolidou-se como front-end para acesso adados publicados dinamicamente atraves de aplicacoes especialmente desen-volvidas para este ambiente. No entanto, esses dados permanecem ainda emsilos, onde pouco ou nenhum compartilhamento e interligacao de recursos saopraticados. Como exemplo, tomemos a grande quantidade de dados governa-mentais disponıveis na Web, gerados a partir das muitas iniciativas de e-gove open-government, que defendem a ampla divulgacao de dados aos cidadaose organizacoes.

No entanto, o consumo conjunto e reutilizacao desses dados ainda e difıcil,dadas as suas interfaces voltadas apenas para consulta ou extracao ad-hoc,

21

Page 23: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.7. Princıpios de Linked Open Data ufms

alem dos altos custos e problemas envolvidos na analise de dados. Nesse sen-tido, as iniciativas de Linked Open Data (LOD) propoem o uso de padroesabertos, suportados pelo W3C, para exposicao de dados na Web por meio deprincıpios simples, inspirados no sucesso da ”Web de Documentos”, envol-vendo padronizacao da semantica por tras dos dados[LinkedDataBR, 2011].

LOD usa tecnologias da Web Semantica para publicar dados estruturadosna Web e criar ligacoes entre dados de diferentes fontes de dados. SegundoTim Berners-Lee [Hendler, 2001], seus princıpios sao:

1. Usar URIs como nomes para recursos.2. Usar URIs HTTP de forma que pessoas possam procurar por estes

nomes.3. Quando alguem procura uma URI, fornecer informacao RDF util.4. Incluir sentencas RDF que ligam a outras URIs para que possam

descobrir outros recursos.Berners-Lee (2006), discorre sobre estas regras, quando informa que

identificar as coisas com URIs (1o regra), e um princıpio basico, nao daLinked Data, mas sim da Web semantica e e bem compreendida pelamaioria das pessoas que utilizam esta tecnologia. Se nao utilizar o con-junto de sımbolos universais URI, nao pode ser caracterizada como websemantica[Berners-Lee, 2006].

O uso de HTTP URIs (2o regra), tambem e amplamente compreendido.Porem aqui ha uma tendencia constante nas pessoas para inventar novosesquemas URI, como LSIDs, XRIs e assim por diante, por varios motivos.Normalmente, estes motivos nao envolvem querer concorrer com o estabele-cido Domain Name System (DNS) para a delegacao de autoridade, mas paraconstruir algo sob controle separado[Berners-Lee, 2006].

A terceira regra, onde diz que se deve dar informacoes para a web so-bre a URI em questao tambem e seguida pela maioria das ontologias, mas,por alguma razao, nao e para alguns conjuntos de dados grandes. Pode-se,ao procurar as propriedades e classes, encontrar dados e obter informacoesa partir das ontologias RDF, RDFS e OWL, incluindo as relacoes entre ostermos na ontologia. O formato basico aqui para disponibilizar estas in-formacoes e RDF/XML. Grandes conjuntos de dados oferecem um servicode consulta SPARQL Protocol and RDF Query Language (SPARQL), masos dados basicos devem ser fornecidos tambem[Berners-Lee, 2006].

A quarta regra, que diz respeito a fazer ligacoes com dados em outroslugares, implica na necessidade de ligar – sem limites – os dados que ex-istem com a web, onde se pode encontrar todo tipo de coisa, assim comoconstruımos a Webhipertexto[Berners-Lee, 2006].

22

Page 24: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

2.8. SPARQL Protocol and RDF Query Language (SPARQL) ufms

2.8 SPARQL Protocol and RDF Query Lan-

guage (SPARQL)

SPARQL, que tem seu nome originado do acronimo (em ingles) SPARQLProtocol and RDF Query Language, possui tres caracterısticas, sendo elas:linguagem de consulta de triplas RDF, formato para os resultados e protocolode acesso[Breitman et al. , 2010].

SPARQL pode ser usada para expressar consultas em diversas fontesde dados, se os dados sao armazenados nativamente como RDF ou vistocomo RDF via middleware. Contem tambem recursos para consultar triplaspadroes obrigatorios e facultativos, juntamente com suas conjuncoes e dis-juncoes, o valor extensıvel de testes e restringindo as consultas pela fonte dastriplas RDF[W3C, 2011].

Portanto segundo Baldus(2011), ”[...] SPARQL propoe uma forma de re-alizar pesquisa em triplas RDF (por meio da linguagem de consulta) com fil-tros e ordenacoes, aem de possibilitar que os resultados estejam num formatopadrao de resposta e permite o trafego desses dados pela web (utilizando oprotocolo de acesso SPARQL). Com isso e possivel integrar bases de dadosdistintas que disponibilizem os dados em RDF.”

Como as consultas sao realizadas em triplas RDF, os resultados sao com-postos por uma tabela com tres colunas: sujeito, predicado e objeto, que saoos dados armazenados nas triplas RDF. E, valores de triplas RDF (sujeito,predicado e objeto) podem ser referencias a outras informacoes de objetosque possuem outro conjunto de triplas RDF[Cyganiak, 2005].

A linguagem SPARQL sera utilizada neste trabalho de forma simples eobjetiva, visando validar os dados publicados atraves de consultas sobre astriplas em RDF que serao armazenadas no servidor de triplas OPEN LINKVIRTUOSO[Virtuoso, 2011].

23

Page 25: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Capıtulo 3

A Estrategia para Publicacao

dos Dados

Uma vez que os objetivos especıficos foram alcancados, a seguir seraoapresentados os resultados do desenvolvimento e implementacao da estrategiapara publicacao dos dados da base de dados do CEB–INEP/MEC no padraoLinked Open Data.

Para concepcao da estrategia proposta neste trabalho, partiu-se de umconhecimento sobre o CEB adquirido durante o desenvolvimento de um tra-balho de iniciacao cientıfica[Mota et al. , 2010] pertencente ao projeto Web–PIDE, que demonstrou a falta de padrao no que se refere as questoes for-muladas para o censo ao longo dos anos. Esse cenario ocasiona grande di-ficuldades ao se tentar reutilizar as mesmas estruturas de pesquisa em anosdiferentes, uma vez que as questoes sofrem grandes alteracoes ao longo dosanos. Desta forma o padrao Linked Open Data se mostra como uma pos-sibilidade real para a solucao deste problema, uma vez que este padrao secaracteriza pela publicacao de dados utilizando conceitos de Web semanticaatraves de triplas RDF e ontologias que descrevem clara e objetivamente osdados.

Assim foi concebida a estrategia para a publicacao de dados que parte dacarga dos microdados do INEP para tabelas de banco de dados, em seguidaessas tabelas foram avaliadas para criacao de um modelo logico relacionalnormalizado de banco de dados, que verificou–se ser pre–requisito de entradadas ferramentas STDTRIP e TRIPLIFY[Auer et al. , 2009], que foram con-struidas para dar suporte ao processo de publicacao de dados no padraoLinked Data. Sendo que a ferramenta STDTRIP desenvolvida na PUC-Rio[Salas et al. , 2010b] visa a criacao e reuso de ontologias e a ferramentaTRIPLIFY que de fato implementa a triplificacao dos dados.

24

Page 26: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.1. Etapas ufms

3.1 Etapas

Para a publicacao dos dados sao necessarias etapas(6), na figura 3.1 estasetapas sao apresentadas de forma sequencial.

Figura 3.1: Etapas para publicacao dos dados no padrao Linked Open Data

25

Page 27: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.2. Implementacao da etapa de carga dos dados ufms

Na etapa de carga dos dados (1) a base de dados do CEB utilizada nestetrabalho esta no formato microdado[INEP, 2011]. Esses dados sao carregadospara o SGBD PostgreSQL utilizando a ferramenta DEAR criada pela equipedo projeto Web–PIDE/UFSCar.

Na etapa de normalizacao (2) foi desenvolvido um modelo de banco dedados normalizado, baseado na descricao das questoes da pesquisa do anode 1995, esse modelo tambem e traduzido para o Ingles, ambos sao pre–requisitos para utilizacao da ferramenta STDTRIP, que sera utilizada nacriacao da ontologia e triplificacao dos dados.

Na etapa de extracao e carga para o modelo normalizado (3) foi desen-volvida uma ferramenta na linguagem JAVA com o objetivo de recuperar osdados que estao no banco PostgreSQL e inseri-los no banco Normalizado quesera armazenado no SGBD MySQL.

Na etapa de criacao da ontologia (4) foi aplicada a ferramenta STDTRIPsob o banco de dados que esta no MySQL, que tem como saıdas a ontologiaem OWL dos dados e o arquivo de configuracao da ferramenta TRIPLIFY.

Na etapa de triplificacao (5) foi utilizada a ferramenta TRIPLIFY paraa triplificacao dos dados.

Na etapa de armazenamento das triplas (6), estas sao armazenadas noservidor de triplas OPENLINK VIRTUOSO, que alem de armazenar astriplas fornece uma interface Web para consultas em SPARQL.

3.2 Implementacao da etapa de carga dos da-

dos

A base de dados do CEB esta disponıvel no site do INEP para downloaddividida por ano de pesquisa, estes sao chamados de microdados e estao emformato ASCII, os microdados sao acompanhados de inputs, ou seja, canaisde entrada para leitura dos arquivos por meio da utilizacao dos softwares SASe SPSS. Para que esses dados pudessem ser utilizados no projeto Web–PIDEna construcao de Data Warehouses e neste trabalho ja que a STDTRIP e oTRIPLIFY utilizam os dados a partir de um Sistema de Gerenciamento deBanco de Dados(SGBD) para a geracao das triplas em RDF, foi necessarioo carregamento desses dados em um SGBD, que no caso foi escolhido oPostgreSQL.

Os microdados portanto sao formados pelo arquivo ASCII que contemos dados brutos, pelos arquivos de leitura SAS e SPSS e por um arquivoem Portable document format(PDF) chamado de ”Leia-me”que apresenta ascaracterısticas do dados do ano de pesquisa em questao, como o significado

26

Page 28: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.2. Implementacao da etapa de carga dos dados ufms

dos dados e seu tipo(numerico ou alfanumerico)[INEP, 2011]. Na figura 3.2pode ser visto um exemplo do arquivo ”Leia-me”do ano de 1995.

27

Page 29: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.2. Implementacao da etapa de carga dos dados ufms

Figura 3.2: Parte do Arquivo ”Leia-me.pdf” do CEB de 1995[INEP, 2011]

28

Page 30: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.2. Implementacao da etapa de carga dos dados ufms

Na figura 3.3 e exibido um exemplo do arquivo ASCII e na figura 3.4 umexemplo do arquivo SAS de leitura dos dados brutos.

Figura 3.3: Exemplo de arquivo ASCII, microdados de 1995

29

Page 31: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.2. Implementacao da etapa de carga dos dados ufms

Figura 3.4: Exemplo de arquivo SAS para leitura de dados, microdados de1995

Para o carregamento desses dados no SGBD PostgreSQL foi desenvolvidopela UFSCar[Siqueira, 2009], uma ferramenta entitulada Data ExtractorASCII to Relational(DEAR), onde o usuario seleciona o arquivo de leitura eo arquivo ASCII que contem os dados e a ferramenta se encarrega de geraros scripts SQL de insert no banco de dados. A arquitetura da ferramentapode ser melhor visualizada na figura 3.5.

30

Page 32: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.2. Implementacao da etapa de carga dos dados ufms

Figura 3.5: Arquitetura da ferramenta ata Extractor ASCII to Relational-DEAR[Siqueira, 2009]

Uma vez carregada a base de dados do CEB, ela se caracteriza por tabelasde banco de dados que correspondem a cada ano de avaliacao e, em quecada tabela existem varias colunas que correspondem a cada questao doquestionario aplicado as instituicoes de ensino. Para este estudo de caso seescolheu a tabela que corresponde ao ano de 1995 por ser a que contem omenor numero de colunas (479) pois devido ao tamanho da base e a falta depadronizacao ao longo dos anos de pesquisa no que se refere aos questionarios[Mota et al. , 2010], seria muito dispendioso estender este trabalho a todosos anos presentes na base de dados. Cada coluna da tabela e nomeada comum codigo que corresponde ao seu codigo apresentado no arquivo ”Leia-me”apresentado anteriormente, portanto se desejarmos saber o significadode uma coluna em especial e necessario consultar o arquivo ”Leia-me”.

31

Page 33: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.3. Implementacao da etapa de normalizacao ufms

3.3 Implementacao da etapa de normalizacao

Apresentado a etapa 1, o proximo passo e normalizar a tabela do bancode dados que armazena os dados de 1995. A seguir e demonstrado o modeloem que a tabela se encontrava. Podemos ver a seguir parte do script emStructured Query Language (SQL) de criacao da tabela:

Code 3 Parte do script de criacao da tabela do CEB que armazena os dadosdo ano de 1995.01 CREATE TABLE ceb1995_censoesc02 (03 mascara character varying(10) NOT NULL,04 co_ibge character varying(14),05 nu_ano integer,06 uf character varying(50),07 sigla character varying(2),08 munic character varying(50),09 dep character varying(10),10 loc character varying(10),11 codfunc character varying(11),12 nivelpre character varying(1),13 niv_1grau character varying(1),14 niv_2grau character varying(1),15 enssuplet character varying(1),16 permanen integer,17 noestab integer,18 provisor integer,19 foraesta integer,20 funcion integer,21 profess integer,22 vpe1001 integer,23 vpe1002 integer,24 ...

Observando o exemplo acima, ate a linha 15 temos as colunas que ar-mazenam dados descritivos, de tipo alfanumerico, a partir de ”permanen”,ou seja, na linha 16 se iniciam as colunas do tipo numericas. A partir dissofoi proposto o primeiro modelo da base de dados normalizada, dısponivel nafigura 3.6. Esse modelo foi construido baseado nas colunas do tipo descriti-vas, a priori, as colunas do tipo numerica seriam inseridas todas na tabela

32

Page 34: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.3. Implementacao da etapa de normalizacao ufms

”census”, mas ao aplicar a ferramenta STDTRIP(mais a frente a ferramentaSTDTRIP sera melhor explicada) a este modelo os resultados com relacao areutilizacao de termos das ontologias padroes da Web(ontologias em grandeescala de uso) se mostrou ineficiente, isto evidenciou a superficialidade destemodelo, portanto seria necessario um modelo normalizado muito mais con-sistente para que o projeto obtivesse o sucesso esperado.

Figura 3.6: 1o Modelo normalizado criado

Uma vez que as colunas do tipo alfanumerico ja haviam sido estudadas enormalizadas, as colunas numericas passaram a ser analisadas para a criacaodo novo modelo, ate que se chegou a seguinte proposta:

As questoes do CEB do tipo numericas possuem alguns padroes, porexemplo:

• Docentes no pre-escolar com capacitacao e 1ograu completo

• Docentes de 1oa 4

oserie com capacitacao e magisterio com-

pleto

• Docentes no 2ograu com magisterio completo

Essas questoes estao relacionadas ao numero de docentes de uma deter-minada instituicao de ensino, onde contem alguns adjetivos que e o tipo deensino ministrado e sua formacao, a partir deste exemplo e possıvel visualizarum relacionamento entre duas entidades de banco de dados, no caso, ”tipo de

33

Page 35: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.3. Implementacao da etapa de normalizacao ufms

ensino” e ”formacao do professor” ambas relacionadas por ”docente”. Esseesquema pode ser visualizado na figura 3.7.

Figura 3.7: Exemplo de normalizacao das colunas numericas

Analisadas todas as colunas numericas, foram identificadas as entidadesde relacionamento a seguir:

• EducationCityData – Armazena e relaciona dados referentes ao mu-nicıpio, como unidade federativa, numero de funcionarios e numero dedocentes.

• EducationCity – Armazena e relaciona dados referentes a educacaono municıpio, como o tipo de ensino oferecido.

• Teacher – Armazena e relaciona dados referentes aos docentes, comosua formacao e capacitacao.

• Class – Armazena e relaciona dados referentes as turmas, como seriee perıodo.

• Enrollment – Armazena e relaciona dados referentes a matrıculas,como quantidade de matriculas por serie e perıodo.

• RemovedByDesertion – Armazena e relaciona dados referentes aosestudantes afastados por abandono.

• Approved – Armazena e relaciona dados referentes aos alunos aprova-dos.

• Repeater – Armazena e relaciona dados referentes aos alunos repe-tentes.

• CitySchoolZone – Armazena e relaciona dados referentes a zona(ruralou urbana) escolar do municıpio.

34

Page 36: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.3. Implementacao da etapa de normalizacao ufms

• CityAdministrativeDependence – Armazena e relaciona dados ref-erentes a dependencia administrativa da instituicao de ensino.

• RemovedbyTransfer – Armazena e relaciona dados referentes aosalunos afastados por transferencia.

• Graduate – Armazena e relaciona dados referentes aos alunos aprova-dos.

• CityWorkingCondition – Armazena e relaciona dados referentes acondicao de trabalho da instituicao.

Desta forma, na figura 3.8 e apresentado o novo modelo relacional nor-malizado, ja com os nomes das entidades e seus atributos traduzidos para oIngles conforme requisito para a interoperabilidade de ontologias atraves daferramenta STDTRIP que sera explicado na etapa 4.

35

Page 37: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.3. Implementacao da etapa de normalizacao ufms

Figura 3.8: 2o Modelo relacional normalizado

36

Page 38: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.4. Implementacao da etapa de extracao e carga para o modelonormalizado ufms

3.4 Implementacao da etapa de extracao e

carga para o modelo normalizado

Uma vez criado o modelo da base de dados era necessario a carga dosdados no novo modelo, para este processo foi desenvolvida uma ferramentaentitulada Data Extractor PostgreSQL to MySQL(DEPOM) com o objetivode acessar a tabela do CEB de 1995 no PostgreSQL, recuperar os dados einseri–los no novo modelo instanciado no MySQL, de acordo com as regrasde relacionamento entre as entidades. Esta ferramenta foi desenvolvida emJAVA e faz parte deste trabalho para a obtencao dos resultados esperados.

Na imagem a seguir e representado a ordem de execucao da ferramenta ede carga dos dados nas tabelas do modelo normalizado.

Figura 3.9: Ordem de Execucao da DEPOM

3.5 Implementacao da etapa de criacao da

ontologia

Um esquema de banco de dados e uma descricao de alto nıvel de comoconceitos de banco de dados sao organizados, geralmente como um con-junto de classes de objetos e seus atributos. Triplification e o processo peloqual um banco de dados e sua estancias sao transformados em um conjuntode dados RDF. Isto e feito mapeando conceitos de bancos de dados parauma ontologia, para ser utilizado como base para se gerar as triplas RDF.

37

Page 39: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.5. Implementacao da etapa de criacao da ontologia ufms

A construcao desta ontologia e extremamente importante porque quantomais se utiliza padroes, mais facil sera para interligar com dados de out-ras bases. A maioria das ferramentas de triplificacao hoje dao apoio aoprocesso mecanico de transformacao dos dados existentes. No entanto, nen-huma fornece suporte ao usuario durante a fase de modelagem conceitual.Para dar suporte ao usuario neste processo foi desenvolvido pela PUC-Rioa ferramenta STDTRIP [Salas et al. , 2010b], se possıvel a ferramenta pro-move a reutilizacao de padroes da W3C para criacao de ontologias, ou sugereo reaproveitamento de ontologias ja adotadas por outros conjuntos de dadosRDF.

3.5.1 Processo STDTRIP

A arquitetura do processo da STDTRIP se divide em 6 etapas sequenciais:Conversion, Alignment, Selection, Inclusion, Completion e Output. Sendoque as etapas de Inclusion e Completion nao sao obrigatorias, conforme podeser visto na figura 3.10.

Figura 3.10: Arquitetura STDTRIP[Salas et al. , 2010b]

• Conversion: Esta etapa consiste em transformar a estrutura do bancode dados relacional em uma ontologia RDF. Nesta fase, o usuario se-leciona manualmente quais partes do conjuntos de dados devem serutilizados para a geracao das triplas em RDF.

• Alignment: Esse passo usa o K-MATCH, ferramenta de alinhamentode ontologias para comparar com a ontologia obtida na etapa anteriorcom um conjunto de ontologias padrao. O processo de alinhamentoconsidera o esquema da ontologia previamente obtida como o esquemade origem para ser recursivamente alinhado com cada termo que repre-senta a ontologia padrao. Essas ontologias sao o alvo e cada resultadono alinhamento e alocada para cada termo. Eventualmente, os resul-tados sao apresentados como sugestoes para cada, ou seja, para cada

38

Page 40: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.5. Implementacao da etapa de criacao da ontologia ufms

elemento do esquema (tabela ou atributo) uma lista de possıveis com-binacoes e apresentado.

• Selection: Esta etapa apresenta ao usuario uma lista de possibilidadesdo que ele ou ela pode selecionar como o elemento do vocabulario quemelhor representa cada conceito na base de dados. Na figura 3.11 eexibido mais claramente os passos Conversion, Alignment e Selection.

Figura 3.11: Sequencia dos passos[Salas et al. , 2010b]

• Inclusion: Se, para um determinado elemento, o processo nao pro-duz nenhum resultado (nao ha nenhum elemento nas ontologias padraoque coincide com o conceito do banco de dados), ou nenhuma das sug-estoes na lista e considerado adequado por parte do usuario, STDTRIPfornece uma lista de termos de outros vocabularios que poderia ser umapossıvel correspondencia. Isso e feito usando Watson, uma interfaceWeb para a busca semantica de ontologias e documentos utilizandopalavras-chave. O raciocınio e o seguinte ”se o seu conceito nao estaabrangido por qualquer dos padroes conhecidos, olhar em volta e vercomo outras pessoas lidaram com isso. Ao escolher uma ontologia ja emuso, voce ira tornar mais facil interligar o seu vocabulario, no futuro,do que pela criacao de uma nova ontologia.”

39

Page 41: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.5. Implementacao da etapa de criacao da ontologia ufms

• Completion: Para os termos em que nao foi encontrado nenhuma cor-respondencia, os usuarios sao informados das melhores praticas para apublicacao de novas ontologias.

• Output: A ferramenta gera dois arquivos de saıda: (1)um arquivo deconfiguracao, que e utilizado pela ferramenta TRIPLIFY que triplicaos dados em triplas.(2) Uma ontologia que contem os mapeamentosdo esquema do banco de dados original para uma ontologia no padraoRDF.

3.5.2 Aplicacao da STDTRIP

Com todos os requisitos satisfeitos para a utilizacao da STDTRIP, aaplicacao da mesma na base de dados normalizada e carregada ofereceu osresultados esperados pela ferramenta: a ontologia dos dados e o arquivode configuracao da ferramenta TRIPLIFY respectivamente apresentados nocodigo 4 e 5.

Code 4 Parte da Ontologia Criada pela STDTRIP no Formato OWL/RDF.01 <?xml version="1.0" encoding="ISO-8859-1"?>02 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"03 xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"04 xmlns:owl="http://www.w3.org/2002/07/owl#"05 xmlns:xsd="http://www.w3.org/2001/XMLSchema#"06 xmlns:ceb="http://purl.org/education/ceb#"07 xmlns:dbpedia="http://dbpedia.org/ontology/"08 xmlns:vcard="http://www.w3.org/2001/vcard-rdf/3.0#"09 xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#"10 xmlns:dc="http://purl.org/dc/elements/1.1/">1112 <rdfs:Class rdf:about="http://purl.org/education/ceb#AdministrativeDependence">13 <rdfs:label xml:lang="en">AdministrativeDependence</rdfs:label>14 <rdfs:comment xml:lang="en"> administrative dependence</rdfs:comment>15 </rdfs:Class>1617 <rdfs:Class rdf:about="http://purl.org/education/ceb#Approved">18 <rdfs:label xml:lang="en">Approved</rdfs:label>19 <rdfs:comment xml:lang="en">stores data of students approved</rdfs:comment>20 </rdfs:Class>21 ...

40

Page 42: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.6. Implementacao da etapa de triplificacao ufms

Code 5 Parte do Arquivo de Configuracao do TRIPLIFY.01 ...02 $triplify[’namespaces’]=array(03 "rdf" => "http://www.w3.org/1999/02/22-rdf-syntax-ns#",04 "rdfs" => "http://www.w3.org/2000/01/rdf-schema#",05 "owl" => "http://www.w3.org/2002/07/owl#",06 "xsd" => "http://www.w3.org/2001/XMLSchema#",07 "dbpedia" => "http://dbpedia.org/ontology/",08 "ceb" => "http://purl.org/education/ceb#",09 "dcterms" => "http://purl.org/dc/terms/",10 "vcard" => "http://www.w3.org/2006/vcard/ns#",11 "geo" => "http://www.w3.org/2003/01/geo/wgs84_pos#",12 "school" => "http://education.data.gov.uk/ontology/school#",1314 );1516 $triplify[’classMap’]=array(17 "AdministrativeDependence" => "dbpedia:AdministrativeRegion",18 "Approved" => "ceb:Approved",19 "ApprovedParticularity" => "ceb:ApprovedParticularity",20 ...

3.6 Implementacao da etapa de triplificacao

A ferramenta TRIPLIFY[Auer et al. , 2009], tem como objetivo explorara estrutura de dados em um banco de dados relacional, por tras de aplica-tivos Web, para criar representacoes semanticas na Web[Baldus, 2011]. Ouseja, com a ferramenta TRIPLIFY, e possıvel acessar uma base de dadosrelacional, e gerar as triplas RDF, que podem ser entendidas como repre-sentacoes semanticas. A maioria das aplicacoes Web possuem banco de da-dos relacionais, porem estes dados nao estao disponıveis para pesquisa nosmotores de busca ou outras aplicacoes semanticas.

3.6.1 Aplicacao do TRIPLIFY

A ferramenta necessita que todo o diretorio TRIPLIFY esteja dentro deoutro diretorio com servidor Web ativo. Com o arquivo de configuracao ger-ado pela ferramenta STDTRIP, a geracao das triplas se tornou um processorelativamente simples, bastando apenas inserir o arquivo na pasta de arquivos

41

Page 43: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.7. Implementacao da etapa de armazenamento das triplas ufms

da ferramenta. Para executar a ferramenta e necessario acessar o enderecohttp://host/triplify, e sera gerado um arquivo com os dados em questao.

Apos triplificado o banco de dados, foi gerado um arquivo as triplas RDFdo tamanho de 1.1 gigabytes.

3.7 Implementacao da etapa de armazena-

mento das triplas

OPENLINK VIRTUOSO[Virtuoso, 2011] e um middleware e sistemagerenciador de banco de dados que combina a funcionalidades de um bancode dados convencional com banco de dados RDF. Tambem pode ser utilizadocomo um servidor de aplicacao para servicos Web[LinkedDataBR, 2011].

Para carga do arquivo RDF com as triplas geradas na etapa anterior, foiutilizado o modulo ”isql” do OPENLINK VIRTUOSO, este modulo ofereceuma interface Web para execucao de comandos. O comando utilizado emquestao pode ser visualizado no codigo 6.

Code 6 Comando para carregar arquivo RDF no servidor OPENLINK VIR-TUOSO.

ld_dir_all(’/root/local/RDF/CEB.rdf’, ’*.*’, ’http://purl.org/education/ceb’);

O servidor tambem oferece um interface Web para consultas em SPARQL,essas interfaces normalmente sao chamadas de SPARQLEndPoint. O servi-dor pode ser acessado pelo endereco http://webpide.ledes.net:8890 e omodulo SPARQLEndPoint em http://webpide.ledes.net:8890/sparql. Nafigura 3.12 e exibida a interface principal do servidor para interacao dosusuarios.

42

Page 44: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

3.7. Implementacao da etapa de armazenamento das triplas ufms

Figura 3.12: Servidor OPENLINK VIRTUOSO

43

Page 45: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Capıtulo 4

Conclusao

Neste capıtulo serao apresentados os principais resultados alcancados aotermino deste trabalho, alem das dificuldades encontradas e sugestoes detrabalhos futuros.

4.1 Contribuicoes do trabalho

Este trabalho teve como objetivo principal demonstrar uma estrategia depublicacao dos dados do CEB do ano de 1995, estrategia esta apresentada noscapıtulos anteriores. A seguir e apresentado um exemplo de consulta sobreos dados triplificados e na figura 4.1 o resultado da consulta. Esta consultaapresenta o numero de funcionarios e professores por cidade no estado deMato Grosso do Sul.

Code 7 Exemplo de Consulta em SPARQL.01 SELECT distinct ?s ?Cidade ?NumeroFuncionarios ?NumeroProfessores WHERE02 {03 ?s a <http://purl.org/education/ceb#EducationCityData>;04 <http://dbpedia.org/ontology/city> ?Cidade;05 <http://dbpedia.org/ontology/numberOfStaff> ?NumeroFuncionarios;06 <http://purl.org/education/ceb#numberOfTeachers> ?NumeroProfessores;07 <http://dbpedia.org/ontology/state> ?s1.08 ?s1 <http://dbpedia.org/ontology/abbreviation> ?o.09 FILTER regex(?o, "MS")10 }11 ...

44

Page 46: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

4.1. Contribuicoes do trabalho ufms

Figura 4.1: Exemplo de consulta sobre os dados triplicados do CEB do anode 1995

Em uma outra perspectiva, posso citar que este trabalho foi muito en-riquecedor tecnicamente desde de a sua elaboracao, que iniciou–se no III Con-gresso Internacional de Software Livre e Governo Eletronico (CONSEGI),atraves de um mini–curso de dados abertos governamentais realizado pelaequipe de Web semantica do departamento de informatica da Pontifıcia Uni-versidade Catolica do Rio de Janeiro (PUC-Rio), de onde pude verificar ascorrelacoes do tema Dados Abertos Governamentias com a iniciacao cientıficaque desenvolvia na epoca. Para a realizacao dos estudos em conjunto com aequipe da PUC-Rio foram utilizadas ferramentas de comunicacao que permi-tiram o compartilhamento de materiais, conhecimento e ideias para a cron-cretizacao efetiva da estrategia definida e implementada neste trabalho.

Uma outra contribuicao foi a apresentacao deste trabalho no IV CongressoInternacional de Software Livre e Governo Eletronico (CONSEGI), cujo temaera ”Censo Escolar Brasileiro INEP/MEC: Normalizacao, Interoperabilidadee Triplificacao dos Dados em RDF”. Durante esta apresentacao surgiu a opor-

45

Page 47: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

4.2. Dificuldades encontradas ufms

tunidade de um contato maior justamente com os servidores do INEP que saoos responsaveis pela elaboracao, aplicacacao e disponibilizacao dos dados doCEB. Este contato permitiu que a estrategia apresentada pudesse ser avaliadapor quem de direito pode avaliar as reais possibilidades de implementacaoda estrategia criada neste trabalho. Vale ressaltar que este primeiro con-tato serviu para que novos canais de comunicacao entre a UFMS e o INEPpudessem ser vislumbrados.

4.2 Dificuldades encontradas

Este trabalho utilizou a base de dados do CEB, uma base de tamanhoconsideravel o que tornou o desenvolvimento dos objetivos algo dispendiosode tempo e as vezes de hardware. Outro fator de dificuldade foi a necessi-dade de traducao do modelo normalizado do banco de dados utilizado nestetrabalho, que por muitas vezes sofreu alteracoes o que por conta de seutamanho tambem ocasionava a utilizacao de grandes partes de tempo na suaatualizacao.

Embora a troca de conhecimentos com a equipe da PUC-Rio tenha sidomuito satisfatoria, o trabalho foi desenvolvido em grande parte a distancia.E apesar de vivenciarmos uma grande onda de comunicacao, o trabalho ladoa lado ainda e a melhor forma de trocar informacoes.

4.3 Trabalhos futuros

Este trabalho buscou servir de motivacao para que mais bases de dadosdo INEP, e consequentemente governamentais sejam publicados no formatode Linked Open Data, desta forma a seguir sao listadas algumas sugestoesde trabalhos futuros:

• Extender este trabalho aos outros anos da base de dados do CEB.

• Estudar outras estrategias de publicacao de dados no formato LinkedOpen Data.

• Criacao de Marshups, que sao aplicacoes Web que produzem in-formacoes aos usuarios utilizando dados de fontes distintas.

• Continuar este trabalho para que de fato as triplas do CEB sejamligadas as outros repositorios de triplas.

• Estudar e implementar uma estrategia de publicacao de dados no for-mato Linked Data a partir de um Data Warehouse.

46

Page 48: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Anexo A

Modelo Normalizado do

CEB/1995

47

Page 49: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

ufms

Figura A.1:

48

Page 50: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

ufms

Figura A.2:

49

Page 51: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Referencias Bibliograficas

[Auer et al. , 2009] Auer, S., Dietzold, S., Lehmann, J., Hellmann, S., &Aumueller, D. 2009. Triplify: light-weight linked data publication fromrelational databases. WWW 09: Proceedings of the 18th internationalconference on World wide web, pages 621630, New York, NY, USA. ACM.

[Baldus, 2011] Baldus, Luıs Henrique Sirtoli. 2011. Estrategia para pub-licacao de dados governamentais abertos no padrao linked data. Mono-grafia apresentada ao Curso de Pos-Graduacao Lato Sensu, Especializacaoem Banco de Dados da UFMT.

[Berners-Lee & Hendler, 2001] Berners-Lee, T., & Hendler, J. 2001. Sci-entific publishing on the semantic seb. Nature 410, 1023 - 1024Abril, 2001. Disponıvel em: http://www.nature.com/nature/debates/e-access/Articles/bernerslee.htm. Acesso em: 21 dez. 2010.

[Berners-Lee, 2006] Berners-Lee, Tim. 2006. Linked data - design is-sues. Disponıvel em http://www.w3.org/DesignIssues/LinkedData.html. Acesso em 16 nov. 2010.

[Breitman, 2005] Breitman, K. K. 2005. Web semantica: a internet do fu-turo. Rio de Janeiro: LTC.

[Breitman et al. , 2010] Breitman, K. K., Filho, J. V., & Salas, P. E. R.2010. Publicacao e uso de dados governamentais abertos. Mini curso.Escola Regional de Informatica. Cuiaba. UFMT.

[Cantele, 2009] Cantele, R. C. 2009. Construindo ontologias a partir de re-cursos existentes: uma prova de conceito no domınio da educacao. SaoPaulo: USP, 2009. 226 p. Tese (Doutorado em Engenharia Eletrica) -Escola Politecnica da Universidade de Sao Paulo. Departamento de En-genharia de Computacao e Sistemas Digitais, Sao Paulo.

50

Page 52: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Referencias Bibliograficas ufms

[Cyganiak, 2005] Cyganiak, R. A. 2005. Relational algebra for sparql.Disponıvel em: http://www.hpl.hp.com/techreports/2005/HPL-2005-170.pdf. Acesso em: 14 jan. 2011.

[Eaves, 2009] Eaves, D. 2009. The three laws of open governmentdata. Disponıvel em: http://eaves.ca/2009/09/30/three-law-of-open-government-data/. Acesso em 01 Junho 2011.

[Hendler, 2001] Hendler, Tim Benners Lee;Ora Lassila; James. 2001. Thesemantic web. Scientific american, 284, 34–43.

[Hernandes, 2010] Hernandes, Elis Cristina Montoro. 2010. Um processo au-tomatizado para tratamento de dados e conceitualizao de ontologias comapoio de visualizacao. 1st. edn. UFSCar.

[Heuser, 1998] Heuser, Carlos Alberto. 1998. Projeto de banco de dados.Sagra.

[INEP, 2011] INEP. 2011. Instituto nacional de estudos e pesquisas educa-cionais. Disponıvel em: www.inep.gov.br. Acesso em 01 junho 2011.

[Jannuzzi, 2001] Jannuzzi, Paulo De Martino. 2001. Indicadores sociais nobrasil: Conceitos, fontes de dados e aplicacoes. Alınea Editora.

[Jentzsch, 2010] Jentzsch, Richard Cyganiak;Anja. 2010. Linking open datacloud diagram. http://lod-cloud.net.

[LinkedDataBR, 2011] LinkedDataBR, G. T. 2011. Exposicao, compartil-hamento e conexao de recursos de dados abertos na web. Tech. rept. RNP.

[Mota et al. , 2010] Mota, F. M., Rossi, L. L., Turine, M. A. S., & Campelo,A. L. 2010. Data webhouse ceb-inep - um data webhouse a partir dos mi-crodados do censo escolar basico inep/mec. Escola regional de informaticasbc mato grosso, 38–39.

[Oliveira, 2002] Oliveira, R. M. V. B. 2002. Web semantica: Novodesafio para os profissionais da informacao. Disponıvel em:www.sibi.ufrj.br/snbu/snbu2002/oralpdf/124.a.pdf. Acesso em 01 junho2011.

[Rigotti, 2001] Rigotti, C. A. C. I. R. 2001. As bases de dados do inep e osindicadores educacionais: conceitos e aplicacoes. In: Proceedings of theinternational union for scientific study of population.

51

Page 53: Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Linked Open Data

Referencias Bibliograficas ufms

[Salas et al. , 2010a] Salas, P. E., Breitman, K. K., Casanova, M. A., &Viterbo, J. 2010a. Stdtrip: An a priori design approach and process forpublishing open government data.

[Salas et al. , 2010b] Salas, P. E. R., Breitman, K. K., Filho, J. V., &Casanova, M. A. 2010b. Interoperability by design using the stdtrip tool:An a priori approach.

[Savitraz, 2010] Savitraz, J. D. 2010. Uma abordagem de integracao e ex-ploracao visual de dados educacionais na plataforam web-pide. M.Phil.thesis, FACOM-UFMS.

[Siqueira, 2009] Siqueira, T. 2009. Sb-index: Um Indice espacial baseado embitmap para data warehouse geografico. M.Phil. thesis, UFSCar.

[Turine et al. , 2006] Turine, M. A. S., Caceres, E. N., Mongelli, H., Paiva,D. M. B., Fabbri, S. C. P. F., Rocha, M. G. B., Ciferri, R. R., & Santos, M.T. P. 2006. Web-pide: Uma plataforma aberta de integracao e avaliacaode dados educacionais. Sao Carlos: DC-UFSCar; Campo Grande DCT-UFMS.

[Vanni, 2009] Vanni, R. M. P. 2009. Integracao de servicos em ambientesheterogeneos: uso de semantica para comunicacao entre entidades em mu-dancas de contexto. Ph.D. thesis, USP. 2009. 354 p. Tese (Doutoradoem Ciencias - Ciencias de Computacao e Matematica Computacional) -Instituto de Ciencias Matematicas e de Computacao, Universidade de SaoPaulo, Sao Carlos, 2009.

[Virtuoso, 2011] Virtuoso, Open Link. 2011. Disponıvel em:http://virtuoso.openlinksw.com. Acesso em 01 junho 2011.

[W3C, 2011] W3C. 2011. Consorcio world wide web. Disponıvel em:http://www.w3c.br/Home/WebHome. Acesso em 01 junho 2011.

52