63
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011 Construindo uma Web de Dados Link por Link com Software Livre, Esforço Distribuído e Recompensa Acumulada Palaestra no CONSEGI 2011 13 de Maio de 2011, Brasilia, Brasil Pablo N. Mendes Universidade Livre de Berlim Alemanha Obrigado a Christian Bizer, Robert Isele, Anja Jentzch, e todo o WBSG na FU Berlin.

Dados Ligados (Linked Data) CONSEGI 2011

Embed Size (px)

DESCRIPTION

A Web é um espaço global de informações baseado na idéia de estabelecer hiperlinks entre documentos. De forma semelhante, tecnologias de Dados Ligados (Linked Data) permitem o estabelecimento de links entre registros em bancos de dados, interconectando estes bancos em um espaço global de dados. Tecnologias de Dados Ligados vem sendo adotadas por um número crescente de provedores de dados, resultando em aproximadamente 20 bilhões de ítens de dados que incluem dados sobre entidades governamentais e geográficas, pessoas, companhias, comunidades online, filmes, músicas, livros e publicações científicas. Pablo Mendes apresentou em sua palestra uma visão geral sobre infraestrutura, técnicas e software livre que abordam questões críticas que surgem em tal Web de Dados Ligados. Durante sua apresentação, ele descreveu como as pesquisas no grupo WBSG da Freie Universität Berlin vem usando conhecimento extraído da Wikipedia para semear um ecossistema de dados, software e usuários da Web de forma a habilitar integração de dados em escala global, seguindo um estilo evolucionário pay-as-you-go (link por link) que distribui esforços e acumula recompensas. Uma das conclusões da apresentação é que se compartilharmos dados interligados - ou ainda melhor, se compartilharmos mecanismos de interligação - através da Web, poderemos dividir tanto o esforço de interligar, quanto as recompensas de se realizar consultas por sobre dados interligados.

Citation preview

Page 1: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011

Construindo uma Web de Dados Link por Link com Software Livre,

Esforço Distribuído e Recompensa Acumulada

Palaestra no CONSEGI 201113 de Maio de 2011, Brasilia, Brasil 

Pablo N. Mendes

Universidade Livre de BerlimAlemanha

Obrigado a Christian Bizer, Robert Isele, Anja Jentzch, e todo o WBSG na FU Berlin.

Page 2: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20112

Outline

< Dados Ligados? De que me importa?l Uma nova classe de aplicações na Web

< O que são Dados Ligados?l Quais são os objetivos e visão?

< Uma olhada na atual Web de Dados Ligadosl Isso é pra valer?

< Quais são os desafios?l Uma arquitetura de integração de dados na Web

< Concluindo…

Page 3: Dados Ligados (Linked Data) CONSEGI 2011

Dados ligados? Por quê?

Page 4: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20114

< Lista de convidados para minha festa < Organizando o CONSEGI?

Quantos convidados virão?

4

Docs vs Tabelas: Computadores amam estrutura

Quantos convidados virão?

4000?

Page 5: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20115

Docs vs Tabelas: estrutura permite automação

< Agora usando uma tabela… < Para o CONSEGI:

Quantas pessoas virão?

Page 6: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20116

Documentos na Web: multiplas buscas

< Comprar uma pickup ou perua, não a maior, mas com altura boa, interior mais comprido

http://dig.csail.mit.edu/2010/LinkedData/Presentations/BusinessValue.pdf

Page 7: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20117

Web: Docs vs BDs, estrutura automação

Page 8: Dados Ligados (Linked Data) CONSEGI 2011

O QUE SÃO DADOS LIGADOS?

Page 9: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20119

Conceitos Básicos de Dados Ligados

1. Dê nome às coisas usando URIs2. Use URIs HTTP para que outros possam requisitar mais

informações sobre essas coisas.3. Quando alguém requisitar uma URI, ofereça informação

útil em RDF.4. Inclua dados em RDF que estabeleçam links com outras

URIs para que outros possam descobrir informações relacionadas.

Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html, 2006

Conjunto de boas práticas para publicação de dados estruturados na Web, de acordo com a estrutura geral da Web.

Page 10: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201110

Architecture of the classic Web

B C

HTML HTMLHTML

Web Browsers

Search Engines

hyper-links

Um único espaço global de informação

Pequeno conjunto de padrões simples1. HTML como formato para documentos2. URLs HTTP como

l IDs unívocos globaisl mecanismo de requisição de dados

3. Hiperlinks para conectar tudo

A

HTTP

Page 11: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201111

Web 2.0 APIs e Mashups

WebAPI

A

MashupNão há um único espaço de dados

Limitações

1. APIs tem interfaces proprietárias

2. Mashups são baseados em um conjunto fixo de fontes de dados

3. Não há hiperlinks entre ítens de dados provenientes de APIs distintas

WebAPI

B

WebAPI

C

WebAPI

D

Page 12: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201112

Web APIs cercam a Web como jardins murados

Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY

Page 13: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201113

Dados Ligados (Linked Data)

B C

RDF

RDFlink

A D E

RDFlinks

RDFlinks

RDFlinks

RDF

RDF

RDF

RDF

RDF RDF

RDF

RDF

RDF

Estendem a Web em direção a um espaço global de informações

1. através do uso de RDF para publicação de dados estruturados na Web2. através de links entre ítens de dados em fontes de dados distintas

Page 14: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201114

Conceitos Básicos: O Modelo de dados RDF

Richard Cyganiak

dbpedia:Berlin

foaf:name

foaf:based_near

foaf:Personrdf:type

pd:cygri

Um modelo de dados flexível, baseado em grafos

pd:cygry rdf:type foaf:Person .pd:cygry foaf:name “Richard Cyganiak” .pd:cygry foaf:based_near dbpedia:Berlin .

Representação em texto (formato N3):

Page 15: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201115

Ítens de dados são identificados por URIs

pd:cygri

Richard Cyganiak

dbpedia:Berlin

foaf:name

foaf:based_near

foaf:Personrdf:type

pd:cygri = http://richard.cyganiak.de/foaf.rdf#cygridbpedia:Berlin = http://dbpedia.org/resource/Berlin

URIs HTTP assumem o papel de chaves primárias

Page 16: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201116

Resolvendo URIs na Web

dp:Cities_in_Germany

3.405.259dp:population

skos:subject

Richard Cyganiak

dbpedia:Berlin

foaf:name

foaf:based_near

foaf:Personrdf:type

pd:cygri

O protocolo HTTP traz identificação e obtenção de dados.

Page 17: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201117

Propriedades da Web de Dados Ligados

< Espaço distribuído global construído sobre um conjunto simples de padrõesl RDF, URIs, HTTP

< Entidades são conectadas por linksl criando um grafo global de dados que se estende por diversas

fontes de dados el habilita a descoberta de novas fontes

< Oferece mecanismos para co-existência de dados ondel qualquer um publica dados na Web de Dados Ligadosl qualquer um expressa suas opiniões sobre quaisquer dadosl qualquer um usa os vocabulários/esquemas que preferirem

Page 18: Dados Ligados (Linked Data) CONSEGI 2011

Uma olhada na atual web de dados ligados

Page 19: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201119

DBpedia, uma peça central na Web de Dados

< Reusar conhecimento existente na Wikipedia

Generating RDF.

dbpedia:Albert_Einstein foaf:name “Albert Einstein”; p:birth_place dbpedia:Ulm;

p:birth_date 14-03-1879 .

Page 20: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201120

DBpedia: mapeamentos para homogeneidade

Page 21: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201121

DBpedia Extraction Framework (Open Source)

Page 22: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201122

W3C Linking Open Data Project

< Esforço da comunidade paral publicar dados que já existam com licenças abertas como dados

ligados na Webl interligar coisas descritas em fontes de dados distintas

Page 23: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201123

Dados Ligados na Web: Maio 2007

< Acima de 500 milhões de triplas RDF< Cerca de 120.000 links RDF entre fontes de dados

Page 24: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201124

Dados Ligados na Web: Setembro 2008

Page 25: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201125

Dados Ligados na Web: Julho 2009

< Mais de 13.1 bilhões de triplas RDF< Mais de 142 milhões de links RDF links entre fontes de dados

Page 26: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201126

Dados Ligados na Web: Setembro 2010

< Acima de 24,7 bilhões de triplas RDF< Acima de 436 milhões de links RDF entre fontes de dados

http://www4.wiwiss.fu-berlin.de/lodcloud/state/

Page 27: Dados Ligados (Linked Data) CONSEGI 2011

QUAIS SÃO OS DESAFIOS?

Page 28: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201128

Tarefas para realizar essa visão

Tarefas:1. Publicar dados em RDF via HTTP2. Criar links RDF apontando para outras fontes3. Fazer com que os dados se auto-descrevam4. Consumir Dados Ligados

<. 'Merchan': How to publish Linked Data? l Livro do Tom Heath e Christian Bizer

http://linkeddatabook.com/ (Versão HTML é grátis!)

Page 29: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201129

Um exemplo de arquitetura baseada em Dados Ligados

Acesso a Dados

MapearVocabularios

Resolução deIdentidade

Avaliação deQualidade

Dados da WebIntegrados

Aplicações

Page 30: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201130

Armazenagem de dados em RDFhttp://www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenchmark

< Berlin SPARQL Benchmark BSBM V3 (February 2011)l Caso de uso de e-Commerce: Produtos oferecidos por diversas

empresas e com avaliações criadas por consumidores.

Page 31: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201131

Publicar: Oferecer Dados em RDF via HTTP

Ferramentas plug-and-play (exemplos)

1. D2R Serverl Mapeia bancos relacionais para RDF,

e os expõem como dados ligadosl Software Livre: GNU GPL license

2. Pubby● Camada para expor servidores de SPARQL como dados ligadosl Software Livre: Apache License V2

3. Mais ferramentasl W3C Wiki [1]

[1] http://esw.w3.org/TaskForces/CommunityProjects/LinkingOpenData/PublishingTools

Page 32: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201132

D2R Mapeando BDs para RDF

< Linguagem declarativa para expressar mapeamentos entre um dado banco relacional e um dado esquema em RDF

Page 33: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201133

Ajudinha à Homogeneidade: Reuse Termos

< Vocabulários bem conhecidos:l Friend-of-a-Friend para descrição de pessoas e suas redes sociaisl SIOC para descrição de forums e blogsl SKOS para representação de taxonomias de tópicosl Organization Ontology para descrever estrutura de organizaçõesl GoodRelations para descrição de produtos e entidades de negóciol Music Ontology para artistas, álbuns, e showsl Review Vocabulary termos para representação de opiniões

< Fontes conhecidas de identificadores (URIs) para objetosl LinkedGeoData e Geonames para lugaresl GeneID e UniProt para identificadores na área de ciências da saúdel DBpedia para temas variados

Page 34: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201134

Puxar dados de fontes distintas: LDspider

< Flexível crawler para dados ligados< Crawls RDF/XML and RDFa< Software Livre: GPL License

Crawl deDados Ligados

um pequeno pacote jar com um mínimo de dependências

Round 1 2 3Profiles 1 38 1160

Crawling Twitter Profiles (RDFa)

http://code.google.com/p/ldspider/

Page 35: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201135

Aumentar a homogeneidade com dados externos

< Mapeamentos Simples: OWL, RDFS, SKOSl owl:equivalentClass, owl:equivalentProperty, l rdfs:subClassOf, rdfs:subPropertyOf l skos:broadMatch, skos:narrowMatch

Usando dados heterogêneos que não te pertencem?

<http://xmlns.com/foaf/0.1/Person> owl:equivalentClass <http://dbpedia.org/ontology/Person> .

Crie mapeamentos que aumentam a homogeneidade.

Page 36: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201136

Permita que clientes obtenham o esquemaClientes podem fazer requisições a URIs que identificam termos do vocabulário de forma a obter suas definições em RDFS ou OWL

<http://richard.cyganiak.de/foaf.rdf#cygri> foaf:name "Richard Cyganiak" ; rdf:type <http://xmlns.com/foaf/0.1/Person> .

<http://xmlns.com/foaf/0.1/Person> rdf:type owl:Class ; rdfs:label "Person"; rdfs:subClassOf <http://xmlns.com/foaf/0.1/Agent> ; rdfs:subClassOf <http://xmlns.com/wordnet/1.6/Agent> ;

Definição em RDFS ou OWL

Alguns dados na Web

owl:equivalentClass <http://dbpedia.org/ontology/Person> .

Resolver termo desconhecido http://xmlns.com/foaf/0.1/Person

Page 37: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201137

R2R Framework

< Ferramenta para “tradução” de dados em RDF entre dois vocabulários

< Habilita a publicação e descoberta de mapeamentos na Web

< Software Livre: Apache License V2.0

Mapeamento de Esquemas

Page 38: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201138

Linguagem de Mapeamento do R2R

< Permite transformações complexas, usa SPARQL < Exemplo: tempo de duração – Freebase para DBpedia< fb:film.film.runtime (em min.) -> dbpedia-owl:runtime (em seg.)

Page 39: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201139

Compartilhe MapeamentosDados na Web

Definição de um termo com link para o mapeamento

“Não dê o peixe, ensine a pescar.”

Mapeamento R2R

Page 40: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201140

Crie links apontando para outras fontes

< Mapeou o esquema? Também mapeie os valores.

< Exemplos de links RDF

<http://dbpedia.org/resource/Berlin> owl:sameAs <http://sws.geonames.org/2950159> .

Equivalência / resolução de identidade

<http://richard.cyganiak.de/foaf.rdf#cygri> foaf:topic_interest <http://dbpedia.org/resource/Semantic_Web> .

Reusando URIs como valor de um atributo

<http://example-bookshop.com/book006251587X> owl:sameAs <http://www4.wiwiss.fu-berlin.de/bookmashup/books/006251587X> .

Descrevendo URIs administrada por outros

Page 41: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201141

Resolução de Identidade

(Homogenizando Identificadores)

Silk, em três versões

< Silk Single Machinel Usa multithreading,

dados locais ou remotos< Silk MapReduce

l Usa várias máquinas em clusterl Usa Hadoop

(ex: roda na Amazon Elastic Cloud)< Silk Server

l API HTTP l Compara um fluxo de dados (stream) RDF com uma base locall Compara também instâncias já vistas no fluxol Com o LDspider, pode crirar uma cópia local, sem duplicatas, da Web de

dados

Page 42: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201142

Silk Example: Linking Persons<LinkCondition> <Aggregate type="average"> <Aggregate type="max" required="true"> <Compare metric="jaroWinkler"> <TransformInput function="lowerCase"> <Input path="?a/foaf:name"/> </TransformInput> <TransformInput function="lowerCase"> <Input path="?b/foaf:name"/> </TransformInput> </Compare> </Aggregate> <Aggregate type="max" weight="2" required="true"> <Compare metric="levenshtein"> <Input path="?a/foaf:homepage"/> <Input path="?b/foaf:homepage"/> </Compare> <Compare metric="equality"> <Input path="?a/foaf:mbox_sha1sum"/> <Input path="?b/foaf:mbox_sha1sum"/> </Compare> </Aggregate> </Aggregate></LinkCondition>

<LinkCondition> <Aggregate type="average"> <Aggregate type="max" required="true"> <Compare metric="jaroWinkler"> <TransformInput function="lowerCase"> <Input path="?a/foaf:name"/> </TransformInput> <TransformInput function="lowerCase"> <Input path="?b/foaf:name"/> </TransformInput> </Compare> </Aggregate> <Aggregate type="max" weight="2" required="true"> <Compare metric="levenshtein"> <Input path="?a/foaf:homepage"/> <Input path="?b/foaf:homepage"/> </Compare> <Compare metric="equality"> <Input path="?a/foaf:mbox_sha1sum"/> <Input path="?b/foaf:mbox_sha1sum"/> </Compare> </Aggregate> </Aggregate></LinkCondition>

Comparar nomesusando a similaridade

JaroWinkler

Ignorar maiúsculas/minúsculasAgregarresultados

Comparar homepages

Comparar e-mails

Page 43: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201143

Silk Avaliação de Desempenho

< Ligar 10.500 lugares (DBpedia) a 59.000 cidades do LinkedGeoData

< Workflow: l Blocking (agrupar instâncias: cidades por nome)l Matching (comparação de todos contra todos usando uma “link condition”)l Filtering (remover ligações com valores baixos de confiança)

Versão do Silk Tempo (sem blocking) Tempo(com blocking)

Silk Single Machine1 54 hours 155.5 minSilk MapReduce2 6.7 hours 14.4 min

Page 44: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201144

WIQA Framework

< Permite filtragem de dados da Web usando várias políticas de avaliação de qualidade.

< Será estendido com funções de fusão de dados Data

FusionAvaliação de

qualidade

Page 45: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201145

“E a boa e velha Web de documentos?”

< Anotação em texto de entidades da DBpedia

< Interligar documentos e dados ligados – automaticamente!

< Software Livre: Apache V2

Outras Ferramentas

Page 46: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201146

DBpedia Spotlight: Extração de Entidades

< Desafio: l Ambiguidade

Brazildbpedia:Brazil,_Indianadbpedia:Brazil_national_football_teamdbpedia:Brazil_(1944_film)dbpedia:Angela_Brazil(mais de 40 outros sentidos)

Page 47: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201147

DBpedia Spotlight: Extração de Entidades

http://dbpedia.org/resource/Brazil

< Usa parágrafos da Wikipedia como exemplos para aprendizado de máquina< Atualmente somente em inglês :-(< Breve: português e espanhol :-)

< Interliga documentos em texto / html com a DBpedia

Page 48: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011

Information Overload!

Application Area: Social Media

Page 49: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201149

Twarql – Fluxo de Tweets filtrado por SPARQL

< Anotar um fluxo de tweetsl Extração de informações: entidades, usuários, URLs, sentimentosl Geração de anotações (descrições do tweet) em RDFl Filtros expressos como consultas SPARQLl Permite uso de uma base de conhecimentosl Entrega informações em tempo real

Aplicações

Page 50: Dados Ligados (Linked Data) CONSEGI 2011

< Quais concorrentes estão sendo mencionados com meu produto?

– comparando produtos com base em opiniões de redes sociais

SELECT ?competitor, ?sentimentWHERE { dbpedia:IPad skos:subject ?category . ?competitor skos:subject ?category . ?tweet moat:taggedWith ?competitor . ?tweet moat:taggedWith dbpedia:IPad . ?tweet twarql:sentiment ?sentiment .}

Twarql: Cenário de Brand Tracking (consulta)

Page 51: Dados Ligados (Linked Data) CONSEGI 2011

Modelagem: concorrentes são dois produtos na mesma categoria na DBpedia

?competitor?category

moat:taggedWith skos:subject

skos:subjectskos:subject

@anonymizedLorem ipsum bla bla this is an example tweet

Consulta para selecionar tweets de interesse:

dbpedia:IPad

Twarql: Cenário de Brand Tracking (setup)

?sentiment

twarql:sentiment

Base de Conhecimento(ex: DBpedia)

Page 52: Dados Ligados (Linked Data) CONSEGI 2011

?competitor ?category

moat:taggedWith

skos:subjectskos:subject

skos:subject

@anonymizedLorem ipsum bla bla this is an example tweet

Twarql: Cenário de Brand Tracking (KB)

?sentiment

twarql:sentiment

Base de Conhecimento(ex: DBpedia)

Consulta para selecionar tweets de interesse:

dbpedia:IPad

category:Wi-Fi

category:Touchscreen

O conhecimento advindo da base é trazido dinamicamente para o tweet através de anotações.

Page 53: Dados Ligados (Linked Data) CONSEGI 2011

?competitor ?category

moat:taggedWith

skos:subjectskos:subject

skos:subject

@anonymizedLorem ipsum bla bla this is an example tweet

Entrada de um fluxo de tweets:

dbpedia:IPad

Twarql: Cenário de Brand Tracking (exec.)

?sentiment

twarql:sentiment

category:Wi-Fi

category:Touchscreen

@anonymizedLorem ipsum bla bla this is an example tweet@anonymizedLorem ipsum bla bla this is an example tweet

Base de Conhecimento(ex: DBpedia)

Ação é executada seo tweet passar pelo filtro:

Page 54: Dados Ligados (Linked Data) CONSEGI 2011

• Observações– Quando um novo concorrente “aparece” na base,

nenhuma mudança é requerida na consulta=> Evolução Automática

– Encontramos produtos interessantes que não consideramos inicialmente como concorrentes do IPad (ex: IPhone)=> Serendipity: surpresa boa :)

Twarql: Cenário de Brand Tracking (obs.)

Page 55: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201155

http://ligadonospoliticos.com.br < Projeto da UFJF● Lucas Araújo

< Baseado em Linked Data

Page 56: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201156

http://pt.dbpedia.org < Pré-lançamento HOJE!● Freie Universität Berlin

< Novos Parceirosl UFJF (Juiz de Fora)

Jairo F. de Souzal UFRJ (Rio de Janeiro)

Maria Luiza M. Campos

<

< Lançamento oficial● Julho/Agosto 2011

< Junte-se a nós!

Page 57: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201157

Como juntar todas essas informações?

< Crawlersl Baixar informações de múltiplas fontes para uma cache local.l Exemplo: veja a Linked Open Data cloud “cache”

(http://lod.openlinksw.com/sparql)< Motores de Busca

l Provem acesso integrado a informações distribuídas na Webl Sindice, Falcons, Watson

< Interfaces de Exploração de Dadosl Tabulator, Disco, VisiNav, Cuebee, Explorator (by PUC-RJ)l Sigma (http://sig.ma) by DERI

< Aplicações de terceirosl Exemplo: Mashupsl 'A forma mais criativa de utilizar teus dados será descoberta por outra

pessoa' (via Rufus Pollock no CONSEGI2011)

Page 58: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201158

WEB

O que muda nesse jogo?

< No passado

PortalBD

BD

BD

WEB DE DADOS

Dados Integrados

Portal

OutroMashup

Outro Consumidor

ConsumidorBD

BD

BD

Dados Integrados

Consumidor

Outro Consumidor< No futuro (agora?)

Page 59: Dados Ligados (Linked Data) CONSEGI 2011

Concluindo…

Page 60: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201160

Lições Aprendidas (Open Source, Open Data)

< Reuse, reuse, reuse e… além disso… reuse! (DRY)l Protocolos da Web, linguagens, vocabulários, identificadores,

sempre que possível!< Linguagens Declarativas

l Facilite o reuso do seu esforço (e.g. compartilhando mapeamentos)< Release iterativo: libere seu software cedo

l A opinião do público alvo vai guiar o desenvolvimento em direção às características mais úteis

< Primeiro os alvos mais fáceis (low hanging fruit) (KISS)l Adquirir uma massa de dados primeiro, interconectar

incrementalmente, encontrar dados de alta qualidade< Cativar e apoiar a comunidade

l Ofereça demonstrações, documentação, apoie listas de discussão, mantenha o projeto vivo.

Page 61: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201161

Resumo

< Dados Ligados possibilitarão uma nova classe de aplicações< Integração de dados na Web (interlinking): novos desafios e

novas oportunidades< Uma série de aplicações atacando alguns desses desafios

l Publicação: D2R, Pubbyl Aquisição: LDspiderl Mapeamento de Esquemas: R2Rl Interligações: Silk (Resolução de Identidade), DBpedia Spotlight (Extração

de Entidades em Texto)l Avaliação de Qualidade: WIQAl Aplicações: Browsers, Twarql, Sigma

< Em breve: LDIF – Linked Data Integration Frameworkl Aquisição, Mapeamento, Interligações, Qualidade: em um pacote!l Empacotamento Debian!

Page 62: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201162

Conclusões< A Web de Dados Ligados está crescendo rapidamente

l Comunidades de implantação estão ativas em vários domíniosl Excedeu a massa crítica

< Busca na Web está evoluindo para pergunta+resposta (QA)l Motores de busca cada vez mais se beneficiam de dados estruturados na Web

< Como participar na construção de uma Web melhor?l Sem conhecimentos técnicos: compartilhe conhecimento abertamente!l Um pouco técnico: ajude a mapear conhecimento (http://mappings.dbpedia.org)l Técnico: junte-se a um dos nossos projetos de software livre, ou inicie o seu!

< Compartilhe dados, mas também ligações entre dados na Web!< Também compartilhe COMO ligar via mapeamentos, link specs, etc.< Cada link conta!

Page 63: Dados Ligados (Linked Data) CONSEGI 2011

Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201163

Obrigado!

Referencesl Christian Bizer, Tom Heath, Tim Berners-Lee: Linked Data – The Story So Far

http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf l Linking Open Data Project Wiki

http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenDatal 1st Workshop on Consuming Linked Data at ISWC 2010

http://people.aifb.kit.edu/aha/2010/cold/l 3rd Linked Data on the Web Workshop at WWW 2010

http://events.linkeddata.org/ldow2010/

[email protected]

@pablomendes

http://blog.pablomendes.com