Upload
daniela-brauner
View
223
Download
0
Embed Size (px)
Citation preview
Bem vindos à disciplina
Web Semân)ca e Ontologias
Universidade Federal de Pelotas Disciplina Opta7va: 1110202
Professores:
Daniela Brauner – [email protected] Ana Marilza Pernas Roger Machado
O problema
O volume de dados disponíveis na Web aumentou (e vem aumentando)…
Redes Sociais Páginas Web
Bases de dados científicas
BIG DATA
Sensores Dispositivos
móveis
Cidades Inteligentes
O problema
…e como encontramos a informação que buscamos?
! ?
Em busca de imagens de…
Procurando por imagens com a palavra “cano”
Ahhhhh, mas o buscador está configurado para a língua inglesa…
Opa… quase… mas é necessário desambiguar.
Pronto… configurei o buscador para língua portuguesa.
Em busca de imagens de…
O problema
E as máquinas? Como os computadores desambiguam o resultado de uma busca
automaAcamente?
Uma ideia
• A Web Semân7ca é uma área de pesquisa voltada a permi7r que usuários e máquinas consigam facilmente encontrar, compar7lhar e combinar informações na Web;
• A ideia é embu7r semân7ca nos dados; • Descrever os dados com informações semân7cas;
Minha página pessoal
• Eu sou Daniela Brauner • Trabalho na • Moro em • Escuto • Assisto • Sou amiga da • Fui ao • Adoro
LINK PARA
LINK PARA
LINK PARA
LINK PARA LINK PARA
LINK PARA
LINK PARA
Como o computador entende a minha página
É AMIGA DE
CURTE
ASSISTE
ESCUTA
MORA EM ESTEVE EM
TRABALHA PARA
Incluindo semân7ca
TRABALHA PARA
MORA EM
Conceitos importantes
• A Web de documentos • A Web de dados • Tecnologias • Ferramentas • API • Armazenamento
Web de documentos • Hoje, a maior parte das
páginas Web são documentos HTML conectados uns aos outros através de hyperlinks.
Web de documentos • Em 1989 – Tim Berners-‐Lee inventou a Web • Em 1990 – Ele escreveu seu primeiro cliente/servidor Web • Em 1994 – Foi criado o W3C (World Wide Web Consor7um) …
Referências: Linha do tempo da evolução das tecnologias para Web (intera7va):
hip://www.evolu7onokheweb.com Mais sobre Tim Berners-‐Lee:
hip://www.w3.org/People/Berners-‐Lee/
Web de documentos • O World Wide Web ConsorAum (W3C) é um consórcio
internacional formado por organizações, uma equipe em tempo integral e o público, que trabalha para desenvolver padrões para a Web. Foi fundado em 1994.
• Liderado pelo inventor da web Tim Berners-‐Lee e Jeffrey Jaffe, o W3C tem como missão conduzir a World Wide Web para que a)nja todo seu potencial, desenvolvendo protocolos e diretrizes que garantam seu crescimento de longo prazo.
Referências: Site oficial: hip://www.w3.org
Escritório brasileiro: hip://www.w3c.br
Web de documentos • Máquinas conseguem ler esses documentos mas têm muita
dificuldade de extrair algum significado deles…
Web de dados
Como viabilizar que os computadores “entendam” o conteúdo da Web?
• Web semân)ca: é a visão do W3C sobre dados conectados na
Web. As tecnologias para Web Semân7ca viabilizam que as pessoas criem repositórios de dados na Web, vocabulários e que escrevam regras para que os computadores possam manipular os dados.
• O W3C mantém esforços colabora7vos com a par7cipação de um grande número de pesquisadores e parceiros industriais.
Web de dados
• Na web de dados também usamos links… • Tudo é iden7ficado por URIs (Uniform Resource Iden7fiers)
Imagine uma página com informações sobre Albert Einstein:
Name Albert Einstein Albert was born on March 14, 1879. Albert was born in the German Empire. Albert has a picture at hip://en.wikipedia.org/wiki/Image:Albert_Einstein_Head.jpg
Web de dados
• Na web de dados teríamos os dados anotados, mais ou menos assim:
<hip://dbpedia.org/resource/Albert_Einstein> <hip://xmlns.com/foaf/0.1/name> "Albert Einstein". <hip://dbpedia.org/resource/Albert_Einstein> <hip://dbpedia.org/property/dateOfBirth> "March 14, 1879". <hip://dbpedia.org/resource/Albert_Einstein> <hip://dbpedia.org/property/birthPlace> <hip://dbpedia.org/resource/German_Empire>. <hip://dbpedia.org/resource/Albert_Einstein> <hip://xmlns.com/foaf/0.1/depic7on> <hip://en.wikipedia.org/wiki/Image:Albert_Einstein_Head.jpg>.
URI
Web de dados
• Pra facilitar…criamos referências para os “vocabulários” u7lizados:
@prefix dbp: <hip://dbpedia.org/property/> . @prefix dbr: <hip://dbpedia.org/resource/> . @prefix foaf: <hip://xmlns.com/foaf/0.1/> . @prefix rdfs: <hip://www.w3.org/2000/01/rdf-‐schema#> . @prefix xsd: <hip://www.w3.org/2001/XMLSchema#> . dbr:Albert_Einstein foaf:name "Albert Einstein"; dbp:birthPlace dbr:German_Empire; dbp:dateOfBirth "1879-‐03-‐14"^^xsd:date; foaf:depic7on <hip://en.wikipedia.org/wiki/Image:Albert_Einstein_Head.jpg> .
Tecnologias • Ontologias
• XML (eXtensible Markup Language): para definir a estrutura de documentos.
• RDF (Resource Descrip3on Framework): para descrever os recursos na Web.
• SPARQL (SPARQL Protocol and RDF Query Language): linguagem de consulta.
• OWL (Ontology Web Language): baseado em RDF, permite descrever recursos e suas relações.
Tecnologias
Fonte: hip://www.dblab.ntua.gr/~bikakis/XMLSeman7cWebW3CTimeline.png
Tecnologias As ontologias permitem descrever a semân7ca das classes e propriedades usadas em documentos na Web.
• Tecnologias relacionadas: RDF, SPARQL, OWL
Tecnologias • XML (eXtensible Markup Language): É uma linguagem de
marcação que define um conjunto de regras para codificar um documento em um formato tanto lido por humanos quanto por máquinas. Foi definida pelo W3C (World Wide Web Consor7um) em 1996.
Referências: hip://www.w3.org/XML/
hip://www.w3schools.com/xml/
Tecnologias • RDF (Resource
Descrip3on Framework): framework para expressar informação na Web sobre recursos (documentos, pessoas, objetos e conceitos abstratos) para que possa ser entendido por máquina.
Referências: hip://www.w3.org/TR/rdf-‐primer/
Tecnologias • RDFa (Resource Descrip3on Framework in a>ributes): fornece
um conjunto de atributos de marcação para enriquecer o dado que está em HTML com informações que podem ser entendidas por máquinas.
Referências: hip://www.w3.org/TR/rdfa-‐primer/
Tecnologias
Para ver exemplos de código RDFa em grafo: hip://rdfa.info/play/ (Beta service)
Tecnologias • SPARQL (SPARQL Protocol
And RDF Query Language) é a linguagem de consulta para a Web Semân7ca.
Referência: hip://www.w3.org/TR/rdf-‐sparql-‐query/
PREFIX foaf: <hip://xmlns.com/foaf/0.1/> SELECT ?name FROM <hip://example.com/dataset.rdf> WHERE { ?x foaf:name ?name . } ORDER BY ?name
Tecnologias • OWL (Web
Ontology Language): é uma linguagem para representação de ontologias. Baseada em RDF.
Referência: hip://www.w3.org/TR/owl-‐guide/
Ferramentas • Protégé: ferramenta gratuita e open-‐source para construção
de modelos baseados em conhecimento usando ontologias.
Referência: hip://protege.stanford.edu
API • Jena é uma API Java para criação de aplicações para Web
Semân7ca e Linked Data (essencialmente para manipulação de ontologias)
• Desenvolvida pela Hewlei-‐Packard (HP)
Referência: hip://jena.apache.org
Armazenamento BD Relacional X Dados RDF
• As tabelas armazenam apenas aquilo que foram projetadas para armazenar
• O significado deve ser interpretado pelo usuário ou construído no sokware
• Pode acomodar novos esquemas de dados, sem custo
• É entendido por humanos e por máquinas
Fonte: Feigenbaum, L. Evolu7on Towards Web 3.0: The Seman7c Web. Experiences and Challenges on the Web and Inside Enterprises. 2011. hip://pt.slideshare.net/LeeFeigenbaum/evolu7on-‐towards-‐web-‐30-‐the-‐seman7c-‐web
Armazenamento BD Relacional X Dados RDF
• Como seriam armazenados os dados sobre Einstein:
Sujeito Predicado Objeto <hip://dbpedia.org/resource/Albert_Einstein>
<hip://xmlns.com/foaf/0.1/name> "Albert Einstein".
<hip://dbpedia.org/resource/Albert_Einstein>
<hip://dbpedia.org/property/dateOfBirth> "March 14, 1879".
<hip://dbpedia.org/resource/Albert_Einstein>
<hip://dbpedia.org/property/birthPlace>
<hip://dbpedia.org/resource/German_Empire>
<hip://dbpedia.org/resource/Albert_Einstein>
<hip://xmlns.com/foaf/0.1/depic7on>
<hip://en.wikipedia.org/wiki/Image:Albert_Einstein_Head.jpg>
Referência:
hip://www.ted.com/talks/7m_berners_lee_on_the_next_web
Linked Data • A Web Semân7ca não é apenas colocar os dados na Web, mas
sim conectá-‐los para que uma pessoa ou máquina possa explorar a Web de Dados.
• Com dados vinculados (Linked Data) você pode achar muito mais dados e extrair mais informação.
• Ao invés de usar hyperlinks para explicitar o relacionamento entre documentos na Web, na Web de dados usamos relacionamentos descritos em RDF.
• As URIs iden7ficam qualquer 7po de objeto ou conceito.
Referência: hip://www.w3.org/DesignIssues/LinkedData.html
Dados vinculados em 2007
FONTE: Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Chris7an Bizer, Anja Jentzsch and Richard Cyganiak. hip://lod-‐cloud.net/
Dados vinculados em 2014
FONTE: Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Chris7an Bizer, Anja Jentzsch and Richard Cyganiak. hip://lod-‐cloud.net/
Ferramentas • CKAN é uma ferramenta para gerenciar e publicar coleções de
dados.
• Permite a busca, construção de mapas, grafos e tabelas.
• Open-‐source.
• Desenvolvido pela Open Knowledge Founda7on (2006).
• Suporte a linked data.
Referência: hip://ckan.org
Ferramentas • Datahub é um catálogo gratuito de coleções de dados abertos
• Permite a busca de dados, registro de coleções de dados, criação e gerenciamento de grupos de bases de dados, além de permi7r que o usuário receba atualizações sobre as coleções de interesse;
• API de acesso: CKAN API
• Criado pela Open Knowledge Founda7on
Referência: hip://datahub.io
Referências
• hip://www.w3.org • hip://www.w3.org/standards/seman7cweb/ • Xexéo, G. Big Data: Computação para uma sociedade conectada e digitalizada. Ar7go publicado na revista Ciência Hoje (CH 306 -‐ Agosto/2013): hip://cienciahoje.uol.com.br/revista-‐ch/2013/306/pdf_aberto/bigdata306.pdf
Este obra de Ana Marilza Pernas e Daniela Brauner está licenciado com uma Licença Crea7ve Commons Atribuição-‐NãoComercial-‐Compar7lhaIgual 4.0 Internacional.