41
Linked Data parte 1 Mestrado em Ciência da Computação Integração de Dados e Warehouse Bruno Felipe – [email protected]

Linked Data

Embed Size (px)

DESCRIPTION

An introduction to Linked Data

Citation preview

Page 1: Linked Data

Linked Data parte 1

Mestrado em Ciência da ComputaçãoIntegração de Dados e WarehouseBruno Felipe – [email protected]

Page 2: Linked Data

2

AgendaoMotivaçãooA Web HojeoWeb de DocumentosoWeb SemânticaoPrincípios de Linked DataoO Modelo RDFoSerialização do RDFoConectando CoisasoConclusãooReferênciasoO que vem por ai

Page 3: Linked Data

3

Livro

Page 4: Linked Data

4

MotivaçãoVivemos em um mundo cercado por informações de diversos tipos e com a popularização da Internet, este cenário tomou proporções ainda maiores.

Temos sempre a necessidade de compartilhar certos tipos de informações.

Na Internet por exemplo, vários dados são compartilhados entre as empresas:

o Amazon e Yahoo!;o Jornais tais como: The Guardian e The New York Times;o e instituições governamentais dos US e UK;

Page 5: Linked Data

5

Motivação

Passamos de ilhas de informações

Para grandes banco de dados distribuídos

Page 6: Linked Data

6

Motivação [2]A força e a diversidade desses tipos de sistemas, como visto previamente, fez surgir três perguntas pertinentes aos dados na Internet:

oQual a melhor maneira de provê acesso para os dados e estes serem reusados da forma mais fácil?oComo permitir a descoberta de dados relevantes entre os inúmeros conjuntos de dados disponíveis?oComo permitir que aplicações integrem dados em larga escala provenientes de fontes de dados desconhecidas?

Page 7: Linked Data

7

Motivação [3]Da mesma forma que a Internet revolucionou a maneira que nos conectamos e consumimos documentos, a mesma pode revolucionar a maneira que nós descobrimos, acessamos, integramos e usamos os dados.

Com uma série de princípios e tecnologias chamadas de Linked Data que permiti o compartilhamento e reuso de dados em grande escala.

Page 8: Linked Data

8

A Web HojeAtualmente, um fator chave na re-usabilidade de dados na web é que os mesmos são bem estruturados.

Quanto mais bem definida a estrutura de um dado, mais fácil é a criação de ferramentas para processá-lo e reutilizá-lo.

Mas ao final, na web, tudo se resumi à HTML.

Page 9: Linked Data

9

A Web Hoje [2]Visando melhorar este problema com os dados não-estruturados, foi criado os microformats.

Microformats podem ser usados para publicar dados estruturados descrevendo alguns tipos de entidades específicas tais como, pessoas, organizações, eventos e etc...

Page 10: Linked Data

10

A Web Hoje [3]Embora os microformats, ajudem na solução de problemas específicos, eles são muito limitados quanto ao conjunto de atributos que podem descrever uma entidade.

Além disso, não é possível exprimir relacionamentos entre as entidades.

alsoHas

alsoParticipate

X

X

Page 11: Linked Data

11

A Web Hoje [4]

Page 12: Linked Data

12

A Web Hoje [5]Uma abordagem mais genérica atualmente para permitir dados estruturados na Web são as APIs.

APIs também podem ser chamadas de Web Services. Uma API fornece uma série de métodos públicos para consultar dados por meio do protocolo HTTP.

Um exemplo de aplicação que fornece uma API é o Twitter, onde podemos ter acesso a vários métodos para manipular a aplicação.

Ainda não é a melhor solução...

Page 13: Linked Data

13

A Web Hoje [6]

As APIs oferecem interface proprietárias;

Não se pode conectar dados de APIs diferentes;

Várias APIs existentes;

X X

Page 14: Linked Data

14

A Web de Documentos

De humanos para humanos

Page 15: Linked Data

15

A Web de Documentos

As máquinas não são bem vindas.

Page 16: Linked Data

16

A Web de DocumentosO que fazer para tornar a Web em um verdadeiro espaço global de dados?

oAumentar a estrutura do conteúdo da Web?

oProvê significado para os dados?

oEstabelecer padrões para publicação de dados e criação de links entre eles?

Page 17: Linked Data

17

Web Semântica

“A Web semântica é uma extensão da Web atual, que permitirá aos computadores e humanos trabalharem em cooperação. A Web semântica interliga significados de palavras e, neste âmbito, tem como finalidade conseguir atribuir um significado (sentido) aos conteúdos publicados na Internet de modo que seja perceptível tanto pelo humano como pelo computador.”

 Tim Berners-Lee, James Hendler e Ora Lassila

Page 18: Linked Data

18

De uma Ilha de Dados para um Data Space GlobalConectando dados distribuídos através da Web necessita de um mecanismo padrão para especificar a existência e o significado das conexões entre os itens descritos nos dados.

Este mecanismo é oferecido pelo Resource Description Framework (RDF).

RDF oferece uma maneira de descrever diversas entidades do mundo real tais como: pessoas, localizações, eventos e etc. Além disso, permite expressar o relacionamento destas entidades com outras coisas.

Page 19: Linked Data

19

De uma Ilha de Dados para um Data Space Global

Então agora podemos fazer as APIs se comunicarem, por exemplo:

myBook

forSaleIn

locatedIn

Page 20: Linked Data

20

De uma Ilha de Dados para um Data Space Global

Pontos chave:

o RDF conecta coisas, não só documentos;o Conectores RDF são tipados;o Mais descoberta de dados;o Mais reuso dos dados;

Linked Data permite a conexão entre diferentes fontes de dados e consequentemente conectar estas fontes em um Data Space global, dando origem à Web de Dados (Web of Data).

Page 21: Linked Data

21

Princípios de Linked DataComo dito anteriormente, Linked Data é um termo que refere-se a um conjunto de princípios para publicar e interligar dados estruturados na Web.

Estes princípios são os seguintes:

oUse URIs para nomear as coisas;oUse URIs HTTP, para que as pessoas possam requisitar mais informações sobre essas coisas;oQuando alguém requisitar uma URI, forneça informações úteis (RDF);oInclua links para outras URIs, desta forma promovendo a descoberta;

Page 22: Linked Data

22

Princípios de Linked DataEstendem a Web em direção a um espaço global de informações.

1.Por meio do uso do RDF para publicação de dados estruturados na Web.

2.Por meio de links entre itens de dados em fontes de dados distintas.

Page 23: Linked Data

23

Oferecendo Informações Úteis (RDF)

Resource Description Framework é um framework para descrever recursos na Web, como por exemplo o título, autor, conteúdo, data de modificação e informações autorais de um web site.

É um formato padronizado para conteúdo estruturado;É possível expressar relacionamentos entre as entidades;É um modelo simples baseados em triplas;Documento com informações para as máquinas;É uma recomendação da W3C;Pode ser serializado com XML;

Page 24: Linked Data

24

O Modelo de Dados RDFO modelo RDF representa as informações como grafos direcionados com nós e arcos rotulados.

Page 25: Linked Data

25

O Modelo de Dados RDFEm RDF uma descrição do recurso é representada como uma série de triplas. As três partes da tripla são chamadas: sujeito, predicado e objeto.

Sujeito Predicado Objeto

URI Literal ou URI

Tipo de Relacionamento

Bruno Felipe hasNickName bffs

Page 26: Linked Data

26

O Modelo de Dados RDFPredicados como o mostrado anteriormente hasNickName, são determinados por vocabulários existentes para cada domínio.

Cada domínio cria seu próprio vocabulário e o disponibiliza para reuso em um repositório.

Alguns destes repositórios são:

oThe Friend of a Friend (FOAF);oThe Music Ontology;oThe Programmes Ontology;oThe Creative Commom Schema;

Page 27: Linked Data

27

O Modelo de Dados RDF

Irá haver casos em que novos termos terão que ser criados para um domínio específico, neste caso, os novos termos devem ser mapeados para termos relacionados, existentes em outros vocabulários bem definidos.

Page 28: Linked Data

28

Serialização do RDFRDF é um modelo de dados, por isso deve ser acoplado em alguma linguagem para ser entendida pela máquina.

A sintaxe mais aceita no momento é a RDF/XML padronizada pela W3C. [1]

Page 29: Linked Data

29

Serialização do RDFQuando um documento RDF é requisitado na Web, o MIME type que deve ser usado com o protocolo HTTP é o application/rdf+xml.

Vejamos no exemplo do site:

http://rdf.myexperiment.org/

Page 30: Linked Data

30

Serialização do RDFRDFa é outro tipo de formato para serialização de RDF bastante usado [1]. Este formato é acoplado dentro do HTML em triplas. Se torna uma opção mais cômoda para desenvolvedores web que estão adaptados ao estilo de sintaxe HTML.

Page 31: Linked Data

31

Serialização do RDFO Turtle é outro formato de serialização bastante popular [1] devido à criação de namespaces para uso na criação de documentos RDF. É o mais requisitado quando o documento RDF é lido por humanos, criado a mão e do “zero”.

Page 32: Linked Data

32

Conectando CoisasUm dos princípios de Linked Data é fazer que arquivos RDF apontem para outros recursos na Web, ou seja, para outras fontes de dados.

Este é um dos recursos fundamentais da Web de Dados já que estes links são os responsáveis por tornarem ilhas de dados em algo global e interconectado na Web.

Estes tipos de links são chamados links RDF externos (external RDF links) e existem três deles:

oLinks de Relacionamento (Relationship Links);oLinks de Identidade (Identity Links);oLinks de Vocabulários (Vocabulary Links);

Page 33: Linked Data

33

Conectando CoisasLinks de Relacionamentos - Apontam para coisas relacionadas em outras fontes de dados. Por exemplo, permite pessoas apontarem para informações de background sobre lugares que viveu ou livros que gosta, as publicações que escreveram e etc.

Dave Smith – coordenadas de onde mora – cidade onde mora – interesses – quem ele conhece

Page 34: Linked Data

34

Conectando CoisasLinks de Entidade - São documentos que apontam para outros documentos que descrevem uma entidade, seja esta uma pessoa, um lugar, um animal, um objeto e etc.

Pode haver casos em que uma entidade (uma pessoa por exemplo) já possui uma descrição em algum recurso na Web. Para fazer referência a esta mesma descrição, a pessoa pode colocar no seu site pessoal o link http>//www.w3.org/2002/07/owl#sameAs. Desta forma quer dizer que ambos os URIs expressam a mesma entidade do mundo real.

Page 35: Linked Data

35

Conectando CoisasLinks de Vocabulários - Documentos que apontam para outros documentos que definem vocabulários para determinados domínios.

Links de Vocabulários é uma maneira de oferecer a integração de dados entre esquemas RDF.

A Web de Dados evita ao máximo a heterogeneidade partindo de duas abordagens:o Reuso dos termos dos vocabulários bem estabilizados;o Alta descrição de dados provindos de um vocabulário desconhecido;

Page 36: Linked Data

36

Conectando CoisasNo exemplo abaixo vemos como um vocabulário proprietário http://biglynx.co.uk/vocab/sme#SmallMEdiumEnterprise está interligado com termos relacionados ao Dbpedia, Freebase, UMBEL e OpenCyc.

Page 37: Linked Data

37

ConclusãoCom certeza precisamos ir rumo a uma Internet mais semântica. Onde os dados têm que oferecer significados também para a máquina, não só para os humanos.

RDF é um padrão bastante usado e que expressa bem significados, mas outras tecnologias podem aumentar este poder de expressividade.

Muitos esforços estão sendo feitos por grandes empresas para começar essa revolução na Web atual.

Publiquem em RDF, usem HTML5 e microformats.

Page 38: Linked Data

38

O que vem por ai...

oQuem publica atualmente seguindo os princípios de Linked Data;oDetalhes da publicação;oTopologia dos conjuntos de dados ligados de 2007 até 2011;

Page 39: Linked Data

39

Dúvidas

?

Page 40: Linked Data

40

Referências[1] Book - Linked Data Evolving the Web into a Global Data Space

www.microformats.org

www.w3.org/RDF/

The Semantic Web A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities by TIM BERNERS-LEE, JAMES HENDLER and ORA LASSILA

Page 41: Linked Data

Linked Data parte 1

Mestrado em Ciência da ComputaçãoIntegração de Dados e WarehouseBruno Felipe – [email protected]