Upload
pablo-mendes
View
1.908
Download
0
Embed Size (px)
DESCRIPTION
A Web é um espaço global de informações baseado na idéia de estabelecer hiperlinks entre documentos. De forma semelhante, tecnologias de Dados Ligados (Linked Data) permitem o estabelecimento de links entre registros em bancos de dados, interconectando estes bancos em um espaço global de dados. Tecnologias de Dados Ligados vem sendo adotadas por um número crescente de provedores de dados, resultando em aproximadamente 20 bilhões de ítens de dados que incluem dados sobre entidades governamentais e geográficas, pessoas, companhias, comunidades online, filmes, músicas, livros e publicações científicas. Pablo Mendes apresentou em sua palestra uma visão geral sobre infraestrutura, técnicas e software livre que abordam questões críticas que surgem em tal Web de Dados Ligados. Durante sua apresentação, ele descreveu como as pesquisas no grupo WBSG da Freie Universität Berlin vem usando conhecimento extraído da Wikipedia para semear um ecossistema de dados, software e usuários da Web de forma a habilitar integração de dados em escala global, seguindo um estilo evolucionário pay-as-you-go (link por link) que distribui esforços e acumula recompensas. Uma das conclusões da apresentação é que se compartilharmos dados interligados - ou ainda melhor, se compartilharmos mecanismos de interligação - através da Web, poderemos dividir tanto o esforço de interligar, quanto as recompensas de se realizar consultas por sobre dados interligados.
Citation preview
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Construindo uma Web de Dados Link por Link com Software Livre,
Esforço Distribuído e Recompensa Acumulada
Palaestra no CONSEGI 201113 de Maio de 2011, Brasilia, Brasil
Pablo N. Mendes
Universidade Livre de BerlimAlemanha
Obrigado a Christian Bizer, Robert Isele, Anja Jentzch, e todo o WBSG na FU Berlin.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20112
Outline
< Dados Ligados? De que me importa?l Uma nova classe de aplicações na Web
< O que são Dados Ligados?l Quais são os objetivos e visão?
< Uma olhada na atual Web de Dados Ligadosl Isso é pra valer?
< Quais são os desafios?l Uma arquitetura de integração de dados na Web
< Concluindo…
Dados ligados? Por quê?
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20114
< Lista de convidados para minha festa < Organizando o CONSEGI?
Quantos convidados virão?
4
Docs vs Tabelas: Computadores amam estrutura
Quantos convidados virão?
4000?
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20115
Docs vs Tabelas: estrutura permite automação
< Agora usando uma tabela… < Para o CONSEGI:
Quantas pessoas virão?
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20116
Documentos na Web: multiplas buscas
< Comprar uma pickup ou perua, não a maior, mas com altura boa, interior mais comprido
http://dig.csail.mit.edu/2010/LinkedData/Presentations/BusinessValue.pdf
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20117
Web: Docs vs BDs, estrutura automação
O QUE SÃO DADOS LIGADOS?
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20119
Conceitos Básicos de Dados Ligados
1. Dê nome às coisas usando URIs2. Use URIs HTTP para que outros possam requisitar mais
informações sobre essas coisas.3. Quando alguém requisitar uma URI, ofereça informação
útil em RDF.4. Inclua dados em RDF que estabeleçam links com outras
URIs para que outros possam descobrir informações relacionadas.
Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html, 2006
Conjunto de boas práticas para publicação de dados estruturados na Web, de acordo com a estrutura geral da Web.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201110
Architecture of the classic Web
B C
HTML HTMLHTML
Web Browsers
Search Engines
hyper-links
Um único espaço global de informação
Pequeno conjunto de padrões simples1. HTML como formato para documentos2. URLs HTTP como
l IDs unívocos globaisl mecanismo de requisição de dados
3. Hiperlinks para conectar tudo
A
HTTP
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201111
Web 2.0 APIs e Mashups
WebAPI
A
MashupNão há um único espaço de dados
Limitações
1. APIs tem interfaces proprietárias
2. Mashups são baseados em um conjunto fixo de fontes de dados
3. Não há hiperlinks entre ítens de dados provenientes de APIs distintas
WebAPI
B
WebAPI
C
WebAPI
D
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201112
Web APIs cercam a Web como jardins murados
Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201113
Dados Ligados (Linked Data)
B C
RDF
RDFlink
A D E
RDFlinks
RDFlinks
RDFlinks
RDF
RDF
RDF
RDF
RDF RDF
RDF
RDF
RDF
Estendem a Web em direção a um espaço global de informações
1. através do uso de RDF para publicação de dados estruturados na Web2. através de links entre ítens de dados em fontes de dados distintas
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201114
Conceitos Básicos: O Modelo de dados RDF
Richard Cyganiak
dbpedia:Berlin
foaf:name
foaf:based_near
foaf:Personrdf:type
pd:cygri
Um modelo de dados flexível, baseado em grafos
pd:cygry rdf:type foaf:Person .pd:cygry foaf:name “Richard Cyganiak” .pd:cygry foaf:based_near dbpedia:Berlin .
Representação em texto (formato N3):
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201115
Ítens de dados são identificados por URIs
pd:cygri
Richard Cyganiak
dbpedia:Berlin
foaf:name
foaf:based_near
foaf:Personrdf:type
pd:cygri = http://richard.cyganiak.de/foaf.rdf#cygridbpedia:Berlin = http://dbpedia.org/resource/Berlin
URIs HTTP assumem o papel de chaves primárias
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201116
Resolvendo URIs na Web
dp:Cities_in_Germany
3.405.259dp:population
skos:subject
Richard Cyganiak
dbpedia:Berlin
foaf:name
foaf:based_near
foaf:Personrdf:type
pd:cygri
O protocolo HTTP traz identificação e obtenção de dados.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201117
Propriedades da Web de Dados Ligados
< Espaço distribuído global construído sobre um conjunto simples de padrõesl RDF, URIs, HTTP
< Entidades são conectadas por linksl criando um grafo global de dados que se estende por diversas
fontes de dados el habilita a descoberta de novas fontes
< Oferece mecanismos para co-existência de dados ondel qualquer um publica dados na Web de Dados Ligadosl qualquer um expressa suas opiniões sobre quaisquer dadosl qualquer um usa os vocabulários/esquemas que preferirem
Uma olhada na atual web de dados ligados
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201119
DBpedia, uma peça central na Web de Dados
< Reusar conhecimento existente na Wikipedia
Generating RDF.
dbpedia:Albert_Einstein foaf:name “Albert Einstein”; p:birth_place dbpedia:Ulm;
p:birth_date 14-03-1879 .
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201120
DBpedia: mapeamentos para homogeneidade
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201121
DBpedia Extraction Framework (Open Source)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201122
W3C Linking Open Data Project
< Esforço da comunidade paral publicar dados que já existam com licenças abertas como dados
ligados na Webl interligar coisas descritas em fontes de dados distintas
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201123
Dados Ligados na Web: Maio 2007
< Acima de 500 milhões de triplas RDF< Cerca de 120.000 links RDF entre fontes de dados
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201124
Dados Ligados na Web: Setembro 2008
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201125
Dados Ligados na Web: Julho 2009
< Mais de 13.1 bilhões de triplas RDF< Mais de 142 milhões de links RDF links entre fontes de dados
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201126
Dados Ligados na Web: Setembro 2010
< Acima de 24,7 bilhões de triplas RDF< Acima de 436 milhões de links RDF entre fontes de dados
http://www4.wiwiss.fu-berlin.de/lodcloud/state/
QUAIS SÃO OS DESAFIOS?
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201128
Tarefas para realizar essa visão
Tarefas:1. Publicar dados em RDF via HTTP2. Criar links RDF apontando para outras fontes3. Fazer com que os dados se auto-descrevam4. Consumir Dados Ligados
<. 'Merchan': How to publish Linked Data? l Livro do Tom Heath e Christian Bizer
http://linkeddatabook.com/ (Versão HTML é grátis!)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201129
Um exemplo de arquitetura baseada em Dados Ligados
Acesso a Dados
MapearVocabularios
Resolução deIdentidade
Avaliação deQualidade
Dados da WebIntegrados
Aplicações
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201130
Armazenagem de dados em RDFhttp://www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenchmark
< Berlin SPARQL Benchmark BSBM V3 (February 2011)l Caso de uso de e-Commerce: Produtos oferecidos por diversas
empresas e com avaliações criadas por consumidores.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201131
Publicar: Oferecer Dados em RDF via HTTP
Ferramentas plug-and-play (exemplos)
1. D2R Serverl Mapeia bancos relacionais para RDF,
e os expõem como dados ligadosl Software Livre: GNU GPL license
2. Pubby● Camada para expor servidores de SPARQL como dados ligadosl Software Livre: Apache License V2
3. Mais ferramentasl W3C Wiki [1]
[1] http://esw.w3.org/TaskForces/CommunityProjects/LinkingOpenData/PublishingTools
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201132
D2R Mapeando BDs para RDF
< Linguagem declarativa para expressar mapeamentos entre um dado banco relacional e um dado esquema em RDF
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201133
Ajudinha à Homogeneidade: Reuse Termos
< Vocabulários bem conhecidos:l Friend-of-a-Friend para descrição de pessoas e suas redes sociaisl SIOC para descrição de forums e blogsl SKOS para representação de taxonomias de tópicosl Organization Ontology para descrever estrutura de organizaçõesl GoodRelations para descrição de produtos e entidades de negóciol Music Ontology para artistas, álbuns, e showsl Review Vocabulary termos para representação de opiniões
< Fontes conhecidas de identificadores (URIs) para objetosl LinkedGeoData e Geonames para lugaresl GeneID e UniProt para identificadores na área de ciências da saúdel DBpedia para temas variados
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201134
Puxar dados de fontes distintas: LDspider
< Flexível crawler para dados ligados< Crawls RDF/XML and RDFa< Software Livre: GPL License
Crawl deDados Ligados
um pequeno pacote jar com um mínimo de dependências
Round 1 2 3Profiles 1 38 1160
Crawling Twitter Profiles (RDFa)
http://code.google.com/p/ldspider/
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201135
Aumentar a homogeneidade com dados externos
< Mapeamentos Simples: OWL, RDFS, SKOSl owl:equivalentClass, owl:equivalentProperty, l rdfs:subClassOf, rdfs:subPropertyOf l skos:broadMatch, skos:narrowMatch
Usando dados heterogêneos que não te pertencem?
<http://xmlns.com/foaf/0.1/Person> owl:equivalentClass <http://dbpedia.org/ontology/Person> .
Crie mapeamentos que aumentam a homogeneidade.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201136
Permita que clientes obtenham o esquemaClientes podem fazer requisições a URIs que identificam termos do vocabulário de forma a obter suas definições em RDFS ou OWL
<http://richard.cyganiak.de/foaf.rdf#cygri> foaf:name "Richard Cyganiak" ; rdf:type <http://xmlns.com/foaf/0.1/Person> .
<http://xmlns.com/foaf/0.1/Person> rdf:type owl:Class ; rdfs:label "Person"; rdfs:subClassOf <http://xmlns.com/foaf/0.1/Agent> ; rdfs:subClassOf <http://xmlns.com/wordnet/1.6/Agent> ;
Definição em RDFS ou OWL
Alguns dados na Web
owl:equivalentClass <http://dbpedia.org/ontology/Person> .
Resolver termo desconhecido http://xmlns.com/foaf/0.1/Person
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201137
R2R Framework
< Ferramenta para “tradução” de dados em RDF entre dois vocabulários
< Habilita a publicação e descoberta de mapeamentos na Web
< Software Livre: Apache License V2.0
Mapeamento de Esquemas
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201138
Linguagem de Mapeamento do R2R
< Permite transformações complexas, usa SPARQL < Exemplo: tempo de duração – Freebase para DBpedia< fb:film.film.runtime (em min.) -> dbpedia-owl:runtime (em seg.)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201139
Compartilhe MapeamentosDados na Web
Definição de um termo com link para o mapeamento
“Não dê o peixe, ensine a pescar.”
Mapeamento R2R
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201140
Crie links apontando para outras fontes
< Mapeou o esquema? Também mapeie os valores.
< Exemplos de links RDF
<http://dbpedia.org/resource/Berlin> owl:sameAs <http://sws.geonames.org/2950159> .
Equivalência / resolução de identidade
<http://richard.cyganiak.de/foaf.rdf#cygri> foaf:topic_interest <http://dbpedia.org/resource/Semantic_Web> .
Reusando URIs como valor de um atributo
<http://example-bookshop.com/book006251587X> owl:sameAs <http://www4.wiwiss.fu-berlin.de/bookmashup/books/006251587X> .
Descrevendo URIs administrada por outros
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201141
Resolução de Identidade
(Homogenizando Identificadores)
Silk, em três versões
< Silk Single Machinel Usa multithreading,
dados locais ou remotos< Silk MapReduce
l Usa várias máquinas em clusterl Usa Hadoop
(ex: roda na Amazon Elastic Cloud)< Silk Server
l API HTTP l Compara um fluxo de dados (stream) RDF com uma base locall Compara também instâncias já vistas no fluxol Com o LDspider, pode crirar uma cópia local, sem duplicatas, da Web de
dados
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201142
Silk Example: Linking Persons<LinkCondition> <Aggregate type="average"> <Aggregate type="max" required="true"> <Compare metric="jaroWinkler"> <TransformInput function="lowerCase"> <Input path="?a/foaf:name"/> </TransformInput> <TransformInput function="lowerCase"> <Input path="?b/foaf:name"/> </TransformInput> </Compare> </Aggregate> <Aggregate type="max" weight="2" required="true"> <Compare metric="levenshtein"> <Input path="?a/foaf:homepage"/> <Input path="?b/foaf:homepage"/> </Compare> <Compare metric="equality"> <Input path="?a/foaf:mbox_sha1sum"/> <Input path="?b/foaf:mbox_sha1sum"/> </Compare> </Aggregate> </Aggregate></LinkCondition>
<LinkCondition> <Aggregate type="average"> <Aggregate type="max" required="true"> <Compare metric="jaroWinkler"> <TransformInput function="lowerCase"> <Input path="?a/foaf:name"/> </TransformInput> <TransformInput function="lowerCase"> <Input path="?b/foaf:name"/> </TransformInput> </Compare> </Aggregate> <Aggregate type="max" weight="2" required="true"> <Compare metric="levenshtein"> <Input path="?a/foaf:homepage"/> <Input path="?b/foaf:homepage"/> </Compare> <Compare metric="equality"> <Input path="?a/foaf:mbox_sha1sum"/> <Input path="?b/foaf:mbox_sha1sum"/> </Compare> </Aggregate> </Aggregate></LinkCondition>
Comparar nomesusando a similaridade
JaroWinkler
Ignorar maiúsculas/minúsculasAgregarresultados
Comparar homepages
Comparar e-mails
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201143
Silk Avaliação de Desempenho
< Ligar 10.500 lugares (DBpedia) a 59.000 cidades do LinkedGeoData
< Workflow: l Blocking (agrupar instâncias: cidades por nome)l Matching (comparação de todos contra todos usando uma “link condition”)l Filtering (remover ligações com valores baixos de confiança)
Versão do Silk Tempo (sem blocking) Tempo(com blocking)
Silk Single Machine1 54 hours 155.5 minSilk MapReduce2 6.7 hours 14.4 min
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201144
WIQA Framework
< Permite filtragem de dados da Web usando várias políticas de avaliação de qualidade.
< Será estendido com funções de fusão de dados Data
FusionAvaliação de
qualidade
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201145
“E a boa e velha Web de documentos?”
< Anotação em texto de entidades da DBpedia
< Interligar documentos e dados ligados – automaticamente!
< Software Livre: Apache V2
Outras Ferramentas
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201146
DBpedia Spotlight: Extração de Entidades
< Desafio: l Ambiguidade
Brazildbpedia:Brazil,_Indianadbpedia:Brazil_national_football_teamdbpedia:Brazil_(1944_film)dbpedia:Angela_Brazil(mais de 40 outros sentidos)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201147
DBpedia Spotlight: Extração de Entidades
http://dbpedia.org/resource/Brazil
< Usa parágrafos da Wikipedia como exemplos para aprendizado de máquina< Atualmente somente em inglês :-(< Breve: português e espanhol :-)
< Interliga documentos em texto / html com a DBpedia
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Information Overload!
Application Area: Social Media
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201149
Twarql – Fluxo de Tweets filtrado por SPARQL
< Anotar um fluxo de tweetsl Extração de informações: entidades, usuários, URLs, sentimentosl Geração de anotações (descrições do tweet) em RDFl Filtros expressos como consultas SPARQLl Permite uso de uma base de conhecimentosl Entrega informações em tempo real
Aplicações
< Quais concorrentes estão sendo mencionados com meu produto?
– comparando produtos com base em opiniões de redes sociais
SELECT ?competitor, ?sentimentWHERE { dbpedia:IPad skos:subject ?category . ?competitor skos:subject ?category . ?tweet moat:taggedWith ?competitor . ?tweet moat:taggedWith dbpedia:IPad . ?tweet twarql:sentiment ?sentiment .}
Twarql: Cenário de Brand Tracking (consulta)
Modelagem: concorrentes são dois produtos na mesma categoria na DBpedia
?competitor?category
moat:taggedWith skos:subject
skos:subjectskos:subject
@anonymizedLorem ipsum bla bla this is an example tweet
Consulta para selecionar tweets de interesse:
dbpedia:IPad
Twarql: Cenário de Brand Tracking (setup)
?sentiment
twarql:sentiment
Base de Conhecimento(ex: DBpedia)
?competitor ?category
moat:taggedWith
skos:subjectskos:subject
skos:subject
@anonymizedLorem ipsum bla bla this is an example tweet
Twarql: Cenário de Brand Tracking (KB)
?sentiment
twarql:sentiment
Base de Conhecimento(ex: DBpedia)
Consulta para selecionar tweets de interesse:
dbpedia:IPad
category:Wi-Fi
category:Touchscreen
O conhecimento advindo da base é trazido dinamicamente para o tweet através de anotações.
?competitor ?category
moat:taggedWith
skos:subjectskos:subject
skos:subject
@anonymizedLorem ipsum bla bla this is an example tweet
Entrada de um fluxo de tweets:
dbpedia:IPad
Twarql: Cenário de Brand Tracking (exec.)
?sentiment
twarql:sentiment
category:Wi-Fi
category:Touchscreen
@anonymizedLorem ipsum bla bla this is an example tweet@anonymizedLorem ipsum bla bla this is an example tweet
Base de Conhecimento(ex: DBpedia)
Ação é executada seo tweet passar pelo filtro:
• Observações– Quando um novo concorrente “aparece” na base,
nenhuma mudança é requerida na consulta=> Evolução Automática
– Encontramos produtos interessantes que não consideramos inicialmente como concorrentes do IPad (ex: IPhone)=> Serendipity: surpresa boa :)
Twarql: Cenário de Brand Tracking (obs.)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201155
http://ligadonospoliticos.com.br < Projeto da UFJF● Lucas Araújo
< Baseado em Linked Data
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201156
http://pt.dbpedia.org < Pré-lançamento HOJE!● Freie Universität Berlin
< Novos Parceirosl UFJF (Juiz de Fora)
Jairo F. de Souzal UFRJ (Rio de Janeiro)
Maria Luiza M. Campos
<
< Lançamento oficial● Julho/Agosto 2011
< Junte-se a nós!
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201157
Como juntar todas essas informações?
< Crawlersl Baixar informações de múltiplas fontes para uma cache local.l Exemplo: veja a Linked Open Data cloud “cache”
(http://lod.openlinksw.com/sparql)< Motores de Busca
l Provem acesso integrado a informações distribuídas na Webl Sindice, Falcons, Watson
< Interfaces de Exploração de Dadosl Tabulator, Disco, VisiNav, Cuebee, Explorator (by PUC-RJ)l Sigma (http://sig.ma) by DERI
< Aplicações de terceirosl Exemplo: Mashupsl 'A forma mais criativa de utilizar teus dados será descoberta por outra
pessoa' (via Rufus Pollock no CONSEGI2011)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201158
WEB
O que muda nesse jogo?
< No passado
PortalBD
BD
BD
WEB DE DADOS
Dados Integrados
Portal
OutroMashup
Outro Consumidor
ConsumidorBD
BD
BD
Dados Integrados
Consumidor
Outro Consumidor< No futuro (agora?)
Concluindo…
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201160
Lições Aprendidas (Open Source, Open Data)
< Reuse, reuse, reuse e… além disso… reuse! (DRY)l Protocolos da Web, linguagens, vocabulários, identificadores,
sempre que possível!< Linguagens Declarativas
l Facilite o reuso do seu esforço (e.g. compartilhando mapeamentos)< Release iterativo: libere seu software cedo
l A opinião do público alvo vai guiar o desenvolvimento em direção às características mais úteis
< Primeiro os alvos mais fáceis (low hanging fruit) (KISS)l Adquirir uma massa de dados primeiro, interconectar
incrementalmente, encontrar dados de alta qualidade< Cativar e apoiar a comunidade
l Ofereça demonstrações, documentação, apoie listas de discussão, mantenha o projeto vivo.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201161
Resumo
< Dados Ligados possibilitarão uma nova classe de aplicações< Integração de dados na Web (interlinking): novos desafios e
novas oportunidades< Uma série de aplicações atacando alguns desses desafios
l Publicação: D2R, Pubbyl Aquisição: LDspiderl Mapeamento de Esquemas: R2Rl Interligações: Silk (Resolução de Identidade), DBpedia Spotlight (Extração
de Entidades em Texto)l Avaliação de Qualidade: WIQAl Aplicações: Browsers, Twarql, Sigma
< Em breve: LDIF – Linked Data Integration Frameworkl Aquisição, Mapeamento, Interligações, Qualidade: em um pacote!l Empacotamento Debian!
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201162
Conclusões< A Web de Dados Ligados está crescendo rapidamente
l Comunidades de implantação estão ativas em vários domíniosl Excedeu a massa crítica
< Busca na Web está evoluindo para pergunta+resposta (QA)l Motores de busca cada vez mais se beneficiam de dados estruturados na Web
< Como participar na construção de uma Web melhor?l Sem conhecimentos técnicos: compartilhe conhecimento abertamente!l Um pouco técnico: ajude a mapear conhecimento (http://mappings.dbpedia.org)l Técnico: junte-se a um dos nossos projetos de software livre, ou inicie o seu!
< Compartilhe dados, mas também ligações entre dados na Web!< Também compartilhe COMO ligar via mapeamentos, link specs, etc.< Cada link conta!
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201163
Obrigado!
Referencesl Christian Bizer, Tom Heath, Tim Berners-Lee: Linked Data – The Story So Far
http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf l Linking Open Data Project Wiki
http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenDatal 1st Workshop on Consuming Linked Data at ISWC 2010
http://people.aifb.kit.edu/aha/2010/cold/l 3rd Linked Data on the Web Workshop at WWW 2010
http://events.linkeddata.org/ldow2010/
@pablomendes
http://blog.pablomendes.com