Upload
perpetuo-rodrigues
View
8.394
Download
0
Embed Size (px)
DESCRIPTION
A Web encontra-se abarrotada de documentos e continua a aumentar de forma exponencial. Esse quadro tem se agravado desde o surgimento da Web 2.0, onde muitos usuários tornaram-se publicadores de conteúdo, levando ao caos os sistemas de buscas. A ineficiência nos sistemas de buscas ocorre porque o conteúdo das páginas não é descrito semanticamente. A solução para este problema está nos padrões e tecnologias da Web Semântica, que possibilitam a marcação do conteúdo. O objetivo deste Trabalho é realizar um estudo de caso sobre a aplicação da Web Semântica nas redes sociais.
Citation preview
FACULDADE DE TECNOLOGIA DE SÃO JOSÉ DOS CAMPOS
PERPÉTUO RODRIGUES PEIXINHO
ESTUDO DE CASOS SOBRE A APLICAÇÃO DA WEB SEMÂNTICA NAS REDES
SOCIAIS
SÃO JOSÉ DOS CAMPOS
2010
II
PERPÉTUO RODRIGUES PEIXINHO
ESTUDO DE CASOS SOBRE A APLICAÇÃO DA WEB SEMÂNTICA NAS REDES
SOCIAIS
Trabalho de graduação apresentado à Fatec
de São José dos Campos, como parte dos
requisitos necessários para a obtenção do
título de Tecnólogo em Banco de Dados
Orientador: Giuliano Araujo Bertoti, Me
SÃO JOSÉ DOS CAMPOS
2010
III
PERPÉTUO RODRIGUES PEIXINHO
ESTUDO DE CASOS SOBRE A APLICAÇÃO DA WEB SEMÂNTICA NAS REDES
SOCIAIS
Trabalho de graduação apresentado à Fatec
de São José dos Campos, como parte dos
requisitos necessários para a obtenção do
título de Tecnólogo em Banco de Dados
Orientador: Giuliano Araujo Bertoti, Me
Adriana da Silva Jacinto, Me
Érica Ferreira de Souza, Me
Giuliano Araujo Bertoti, Me
--/--/--
DATA DE APROVAÇÃO
IV
Dedico este trabalho às pessoas que me apoiaram e me derem
condições de galgar êxito na sociedade letrada, Fernando Ferri,
Mônica Ferri e família. A minha mãe, aos professores, professoras
e amigos que muito contribuíram para a minha formação,
dos quais tenho boas lembranças.
V
AGRADECIMENTOS
Eu tenho muito que agradecer, a começar pelo fato de estar vivo, e de poder
compartilhar este trabalho com outros seres, iguais a mim, que gostam de se
apoderarem dos conhecimentos herdados de nossos antepassados. Eles são meus
heróis e merecem meus agradecimentos, todos eles, aos seres humanos que viveram
antes de mim, o meu muito obrigado!
Aos que participaram de minha vida, de forma direta, quero agradecer muito a
minha mãe, que nas horas difíceis, manteve firmemente a vontade de escolarizar os
filhos.
Quero muito agradecer também aos meus amigos e conselheiros Fernando Ferri,
Mônica Ferri e família que, em todos os momentos, estiveram ao meu lado
apoiando e incentivando para que eu pudesse concluir essa jornada. Ao professor
Giuliano Araujo Bertoti, por ter dedicado seu precioso tempo e acreditado no
sucesso desse projeto. Obrigado a todos!
VI
"Tecnologia é a habilidade de organizar o mundo
De forma que não tenhamos que senti-lo."
(Max Frisch)
VII
RESUMO
A Web encontra-se abarrotada de documentos e continua a aumentar de forma exponencial.
Esse quadro tem se agravado desde o surgimento da Web 2.0, onde muitos usuários tornaram-
se publicadores de conteúdo, levando ao caos os sistemas de buscas. A ineficiência nos
sistemas de buscas ocorre porque o conteúdo das páginas não é descrito semanticamente. A
solução para este problema está nos padrões e tecnologias da Web Semântica, que
possibilitam a marcação do conteúdo. O objetivo deste Trabalho é realizar um estudo de caso
sobre a aplicação da Web Semântica nas redes sociais.
Palavras-chave: Web Semântica, Redes Sociais, RDF.
VIII
ABSTRACT
The Web meets overloaded of documents and it continues to increase exponentially. This
environment has been aggravated since the beginning of Web 2.0, where each simple user
became a content generator, leading to the chaos the systems of web searches. The
inefficiency in the systems of web searches occurs because the content of the pages is not
described semantically. The solution for this problem lives in the semantics Web, making
possible the marking of the content. The aim of this work is to carry through a study case on
the application of the Semantics Web in the social nets works.
Keywords: semantic web, social networks, RDF.
IX
SUMÁRIO
1 INTRODUÇÃO .............................................................................................................. 16
1.1 Motivação ..................................................................................................................... 16
1.2 Objetivos ....................................................................................................................... 17
1.2.1 Objetivo Geral ...................................................................................................... 17
1.2.2 Objetivos Específicos ........................................................................................... 18
1.3 Metodologia .................................................................................................................. 18
1.4 Organização do Trabalho.............................................................................................. 19
2 WEB SEMÂNTICA: TECNOLOGIAS, APLICAÇÕES E FERRAMENTAS ....... 20
2.1 Web Semântica ............................................................................................................. 20
2.2 Padrões da Web Semântica .......................................................................................... 22
2.2.1 RDF ...................................................................................................................... 25
2.2.2 RDFa (Resource Description Framework in attributes) ....................................... 30
2.2.3 SPARQL ............................................................................................................... 33
2.3 Aplicações da Web Semântica ..................................................................................... 35
2.3.1 Busca Semântica ................................................................................................... 35
2.3.1.1 Rich Snippets ................................................................................................ 37
2.3.1.2 Search Monkey Yahoo ................................................................................. 38
2.3.1.3 Wiki Semântica ............................................................................................ 38
2.3.1.4 Conhecimento Global Engenharia ................................................................ 39
2.3.1.5 A música do amigo de um amigo ................................................................. 39
2.3.1.6 DBPedia ........................................................................................................ 39
2.4 Considerações Finais .................................................................................................... 40
3 REDES SOCIAIS ........................................................................................................... 41
3.1 Introdução ..................................................................................................................... 41
3.2 Blog .............................................................................................................................. 44
3.2.1 Wordpress ............................................................................................................. 46
3.3 Considerações Finais .................................................................................................... 48
4 AVALIAÇÃO DE TECNOLOGIAS E PADRÕES DA WEB SEMÂNTICA .......... 49
4.1 Vocabulários ................................................................................................................. 49
X
4.1.1 FOAF .................................................................................................................... 51
4.1.2 Dublin Core .......................................................................................................... 54
4.1.3 Creative Commons ............................................................................................... 58
4.2 Edição de Conteúdo ...................................................................................................... 60
4.2.1 Wp-RDFa ............................................................................................................. 60
4.2.2 Image Licenser ..................................................................................................... 61
4.3 Busca Semântica ........................................................................................................... 61
4.3.1 Backplanejs ........................................................................................................... 61
4.4 Considerações Finais .................................................................................................... 62
5 ESTUDO DE CASOS ..................................................................................................... 63
5.1 Otimização de Sistemas de Busca ................................................................................ 63
5.1.1 Análise de Tecnologias ......................................................................................... 65
5.1.2 Arquitetura ............................................................................................................ 65
5.1.3 Implementação...................................................................................................... 67
5.1.4 Resultado .............................................................................................................. 68
5.2 Licença de Imagens em Blogs e outras Redes .............................................................. 73
5.2.1 Análise de Tecnologias ......................................................................................... 73
5.2.2 Arquitetura ............................................................................................................ 74
5.2.3 Implementação...................................................................................................... 76
5.2.4 Resultados ............................................................................................................. 81
5.3 Rede Social para Compartilhamento de Slides............................................................. 83
5.3.1 Análise de Tecnologias ......................................................................................... 85
5.3.2 Arquitetura ............................................................................................................ 85
5.3.3 Implementação...................................................................................................... 87
5.3.4 Resultados ............................................................................................................. 88
6 CONSIDERAÇÕES FINAIS ......................................................................................... 92
6.1 Contribuições e Conclusões.......................................................................................... 92
6.2 Trabalhos Futuros ......................................................................................................... 93
REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................... 94
XI
LISTA DE FIGURAS
Figura 1 - Arquitetura proposta para a Web Semântica. .......................................................... 23
Figura 2 - Um Grafo RDF descrevendo Eric Miller ................................................................. 26
Figura 3 - mostra que o RDF usa URIs para identificar. .......................................................... 27
Figura 4 - mostra a estrutura subjacente de uma expressão RDF. ............................................ 28
Figura 5 - RDF sendo representado com um nó em branco. .................................................... 29
Figura 6 - Exemplo de marcação do site Amazon. ................................................................... 31
Figura 7 - Codificação da resenha em HTML. ......................................................................... 32
Figura 8 - Exemplo de marcação RDFa em notação padrão XML. ......................................... 32
Figura 9 - Dado. ........................................................................................................................ 34
Figura 10 - Consulta. ................................................................................................................ 34
Figura 11 - Resultado. .............................................................................................................. 34
Figura 12 - Representa a indexação de documentos na Web Semântica.................................. 36
Figura 13 - Representação de uma rede social. ........................................................................ 42
Figura 14 - Redes sociais por continentes. ............................................................................... 43
Figura 15 - Redes sociais por países. ........................................................................................ 44
Figura 16 - Perspectiva para adição de novos posts do Wordpress. ......................................... 47
Figura 17 - Perspectiva para adição de novos plugins do Wordpress. ..................................... 47
Figura 18 - Vocabulários semânticos. ...................................................................................... 50
Figura 19 - Ilustração de funcionamento do vocabulário FOAF. ............................................. 52
Figura 20 - Elementos FOAF em meio ao HTML. .................................................................. 53
Figura 21 - Crescimento da web, dados de Setembro de 1995 a Junho de 2008. .................... 55
Figura 22 - Arquitetura do DC (Dublin Core). ......................................................................... 56
Figura 23 - Exemplo simples de Dublin Core. ......................................................................... 57
Figura 24 - Exemplo de código RDFa Creative Commons. ..................................................... 60
XII
Figura 25 - Código para referenciar a biblioteca Backplanejs. ................................................ 62
Figura 26 - Exemplo de busca com tags no Google. ................................................................ 64
Figura 27 - Arquitetura do estudo de caso do blog Wordpress. ............................................... 66
Figura 28 - Código da página do Blog Wordpress com RDFa. ................................................ 67
Figura 29 - Exemplo de busca semântica no blog Wordpress. ................................................. 69
Figura 30 - Exemplo de busca pelo título do post no blog Wordpress. .................................... 70
Figura 31 - Exemplo de busca da data do post no blog Wordpress.......................................... 71
Figura 32 - Exemplo de busca do plugin wp-RDFa no blog Wordpress. ................................. 71
Figura 33 - Código gerado incompleto pelo plugin wp-RDFa no blog Wordpress. ................ 72
Figura 34. Formação correta, um verbo para cada objeto. ....................................................... 72
Figura 35 - Código corrigido manualmente. ............................................................................ 72
Figura 36 - Arquitetura do estudo de caso do Creative Commons. .......................................... 75
Figura 37 - Painel de controle do Wordpress. .......................................................................... 76
Figura 38 - Painel de controle do Wordpress ........................................................................... 77
Figura 39 - Formulário do site da Creative Commons. ............................................................ 78
Figura 40 - Formulário do site da Creative Commons. ............................................................ 79
Figura 41 - Formulário para inserir imagens. ........................................................................... 80
Figura 42 - Espaço indicado para a inserção de código fonte. ................................................. 81
Figura 43 - Figura licenciada pela Creative Commons. ........................................................... 82
Figura 44 - Query responsável pela identificação da imagem do blog. ................................... 83
Figura 45 - Busca realizada pelo site do Slideshare. ................................................................ 84
Figura 46 - Arquitetura do estudo de caso do Slideshare. ........................................................ 86
Figura 47 - Script da biblioteca Backplanejs e a chamada CSS na página. ............................. 87
Figura 48 - Código de busca SPARQL. ................................................................................... 88
Figura 49 - Resultado da busca no site Slideshare. .................................................................. 89
Figura 50 - Código da página do Slideshare. ........................................................................... 90
XIII
Figura 51 - Modelo de tripla RDF. ........................................................................................... 90
Figura 52 - Modelo de tripla RDF incompleta. ........................................................................ 90
XIV
LISTA DE TABELAS
Tabela 1 - Ranking das redes sociais mais acessadas no mundo.............................................. 45
Tabela 2 - Representação das licenças Creative Commons. .................................................... 59
XV
LISTA DE ABREVIATURAS E SIGLAS
AJAX: Asynchronous Javascript And XML
CSS: Cascading Style Sheets
DC: Dublin Core
DOAP: Description of a Project
DAWG: Data Access Working Group
DLG: Directed Labeled Graphs
EARL: Evaluation and Report Language
FOAF: Friend of a friend
GPL: Geral Pública Licença
GUI: Interface gráfica de usuário
HTML: Hiper Text Markup Language
ISBN: National Standard Book Number
IBM: International Business Machines
NCSA: National Center for Supercomputing Aplications
OCLC: Online Computer Library Center
OWL: Online Web Learning
RDF: Resource Description Framework
RDFa: Resource Description Framework in attributes
RSS: Really Simple Syndication
SIOC: Semantically-Interlinked Online Communities
SPARQL: Sparql Protocol and RDF Query Language
SKOS: Simple Knowledge Organization System
URI: Uniform Resource Identifier
URL: Uniform Resource Locator
URN: Uniform Resource Name
XML: Extensible Markup Language
XHTML: Extensible Hypertext Markup Language
W3C: World Wide Web Consortium
WWW: World Wide Web
16
1 INTRODUÇÃO
1.1 Motivação
Publicar informações na web nunca foi tão fácil (Wordpress, 2010). Com a proliferação de
sistemas de gerenciamento de conteúdo (Gomes, 2005), plataformas online de blogs,
microblogging e outros tornaram-se possível para qualquer indivíduo, pequenas empresas,
organizações de qualquer natureza tornar-se uma parte da web .
Essa popularização ocasionou num crescimento exponencial da web dificultando a indexação
das informações. A indexação não é possível por meio do uso da linguagem de marcação
(Hiper Text Markup Language) HTML, que ficou popular nos anos 90 e ainda é utilizada pela
maioria dos sites, mesmo não possuindo recursos que lhe permita atribuir significado à
informação (Baeza, 1999).
Essa limitação por parte das páginas HTML traz um grande problema, devido à inexistência
de marcações semântica nas atuais páginas, fazendo com que as mesmas sejam entendidas
apenas pelos humanos e não fazendo sentido para os programas de computador que ainda
estão muito distantes de imitar o funcionamento da mente humana (Berners-Lee, 2001).
Você em algum momento abriu a página da Google, digitou uma palavra-chave e obteve
como conteúdo exatamente aquilo de que procurava? Certamente não. Pois é, essa é a
realidade da web hoje. O cenário a seguir exemplifica muito bem a dificuldade que temos
para encontrar a informação desejada. Imagine que você esteja buscando informações sobre
metrópoles brasileiras na Internet. Entre com a palavra "metrópoles" num programa de busca
e virão respostas tão variadas quanto a revista Metrópoles, a rádio Metrópoles, o shopping
Metrópoles, sobre pesquisa e políticas de migração e cidades entre outras. Isto porque os
programas não distinguem o significado do filme e da revista ou do centro de pesquisas. É
claro que você pode (aliás, deve) combinar ―metrópoles‖ com outras palavras-chave,
acrescentando ou excluindo termos que permitam refinar a busca, preferencialmente
indicando também outros parâmetros, como data, língua ou domínio, que muitos programas
aceitam na função de "busca avançada". Ainda assim, o resultado é muitas vezes desolador.
São dezenas (às vezes milhares) de páginas que não interessam, tornando difícil a tarefa de
encontrar a informação desejada.
A Web Semântica é uma tentativa de solução para esse problema (Berners-Lee, 2001). Em
vez de pensar na informação para os humanos, a ideia é pensar na máquina (programa de
17
computador). Esta é a definição de Web Semântica, segundo o "pai da Web", Tim Berners-
Lee, um dos comandantes desse projeto. A Web Semântica objetiva dar uma estrutura aos
conteúdos das páginas web, criando um ambiente onde agentes de softwares perambulam
pelas páginas para desempenhar tarefas sofisticadas requisitadas pelos usuários. Entre estas
tarefas, está a busca contextualizada da informação (Berners-Lee, 2001).
A proposta não é a de uma web separada da atual, mas uma extensão da mesma, baseada em
documentos, descrevendo relacionamentos entre objetos e contendo informação semântica
dos mesmos para automatizar o processamento pelas máquinas (Berners-Lee, 2001).
Na web há uma quantidade imensa de informações não pertinentes que é fornecida pelos
processos de busca. As ferramentas de busca enfrentam a dificuldade de executar pesquisas
entre documentos que não estão diferenciados em termos de assunto, qualidade e relevância.
A tecnologia atual não é capaz de diferenciar uma informação comercial de uma educacional,
ou informação entre idiomas, culturas e mídia. É necessário haver informações de
qualificação da própria informação, chamada de metadados, para ser possível classificá-las e
tornar os processos de buscas mais eficazes.
Imagine você, se tivesse uma web que permitisse buscar por todos os jogadores Rugby que
vivem em São José dos Campos ou nome de todos os hotéis das cidades do estado de São
Paulo situadas em altitudes inferiores a 1000 metros e obter uma resposta exata. Pois é, essa é
a proposta da Web Semântica que promete revolucionar o sistema de busca na web.
1.2 Objetivos
As seções a seguir apresentarão os objetivos deste Trabalho.
1.2.1 Objetivo Geral
O objetivo deste Trabalho é apresentar um estudo de caso sobre a aplicação da Web
Semântica nas redes sociais.
18
1.2.2 Objetivos Específicos
A seguir são apresentados os objetivos específicos deste Trabalho:
a) avaliar vocabulários de web semântica;
b) avaliar ferramentas de busca semântica;
c) avaliar ferramentas de conteúdo semântico;
d) desenvolver um estudo de caso para a otimização de sistemas de busca;
e) desenvolver um estudo de caso em blogs e outras redes;
f) desenvolver busca semântica na rede para a rede social de compartilhamento de
slides.
1.3 Metodologia
No âmbito dos testes realizados serão implementados exemplos reais a partir de marcações
semânticas inseridas pelos plugins semânticos. Esses plugins foram desenvolvidos com o
intuito de proporcionar funcionalidades a blogs, microbloggins e outros.
Neste estudo será utilizado o blog Wordpress versão 2.9.2, que já dispõe de um plugin
semântico, o wp-RDFa. Após a configuração do blog Wordpress e a integração do plugin wp-
RDFa os testes serão realizados a partir de conteúdos postados. Nesse conteúdo postado,
automaticamente é gerado a marcação semântica, e através dessa marcação serão feitas buscas
semânticas. Busca semântica é o principal foco dos estudos de casos do Capítulo 5. Neste
Capítulo será implementado um exemplo real de busca sintática contrastando com um
exemplo de busca semântica. Já o segundo estudo mostrou, através de implementações, que é
possível trazer numa busca a imagens, apenas as que estiverem sob a licença Creative
Commons. E por fim, no terceiro estudo foi implementado mais um exemplo real de busca a
material no Slideshare (site que tem o objetivo de compartilhar arquivos de apresentações
PowerPoint e Open Office com no máximo 20MB), que já dispõe de marcação semântica.
19
1.4 Organização do Trabalho
O Trabalho está organizado em 6 Capítulos:
a) o Capítulo 2 apresenta os conceitos relativos a ferramentas, tecnologias e aplicações
da web semântica;
b) o Capítulo 3 apresenta o conceito de redes sociais e apresentará algumas das principais
ferramentas utilizadas atualmente pelos internautas nos seus relatos e exposições;
c) no Capítulo 4 serão apresentados os vocabulários referentes as tecnologias utilizadas
nos estudos de casos;
d) no Capítulo 5 serão apresentados os blogs como sistemas de recomendação;
e) e por fim, no Capítulo 6, serão apresentadas as considerações finais.
20
2 WEB SEMÂNTICA: TECNOLOGIAS, APLICAÇÕES E
FERRAMENTAS
O objetivo deste Capítulo é apresentar conceitos sobre as ferramentas, tecnologias e
aplicações da Web Semântica.
Este Capítulo está organizado como segue: a Seção 2.1 apresenta a Web Semântica como a
tecnologia que mudará o conceito de web sintática para semântica. Na sequência a Seção 2.2
que faz um breve relato de algumas das aplicações existentes e a 2.2.1 mostra as
possibilidades quando se utiliza o serviço de busca inteligente.
2.1 Web Semântica
Web Semântica é um projeto, dirigido pelo World Wide Web Consortium (W3C), que
pretende embutir inteligência e contexto nos códigos Extensible Markup Language (XML)
utilizados para confecção de páginas web, de modo a melhorar a forma com que programas
podem interagir com estas páginas e também possibilitar um uso mais intuitivo por parte dos
usuários (Decker, 2000).
Desde seus primórdios o projeto Web Semântica foi concebido como um conjunto de
tecnologias relacionadas, de modo que, no ano de 2000, o W3C, tendo como seu maior
expoente Berners-Lee, divulgou publicamente a primeira proposta de arquitetura da Web
Semântica. Com base em uma série de camadas sobrepostas, onde cada camada ou tecnologia
deveria obrigatoriamente ser complementar e compatível com as camadas inferiores (W3C,
2010). E ao mesmo tempo em que não deveria depender das camadas superiores, a estrutura
idealmente escalonável indicaria os passos e as tecnologias necessárias para a concretização
do projeto Web Semântica.
Segundo Bernes-Lee (1999), o primeiro passo para o desenvolvimento da Web Semântica
seria a inclusão de dados em um formato que os sistemas computacionais pudessem
naturalmente compreender de forma direta ou indireta. Após a publicação desta definição, em
seu livro ―Weaving the web”, a expressão ―Web Semântica‖ passou a ser disseminada como
um título genérico que representa uma série de pesquisas que têm como objetivo principal
possibilitar um melhor aproveitamento das potencialidades do ambiente web, onde por meio
21
do uso intensivo de linguagens computacionais e instrumentos de metadados espera-se obter o
acesso automatizado às informações de maneira mais precisa a partir da utilização de
processamentos semânticos e heurísticas automáticas.
Conforme afirmou Berners-Lee (2001), ―A Web Semântica é uma extensão da web atual,
onde a informação possui um significado claro e bem definido, o que possibilita uma melhor
interação entre máquinas e pessoas‖. Assim, observa-se que comparando com as abordagens
tradicionalmente desenvolvidas, o projeto Web Semântica constitui-se como uma tentativa
inversa de solução, ou seja, em vez de focar o humano as atenções se voltam para as
máquinas, dando lhes inteligência através de marcações semântica com o objetivo de
desenvolver meios para que as máquinas possam servir aos humanos de maneira mais
eficiente. No entanto, para isso tornar-se uma realidade é necessário construir instrumentos
que forneçam sentido lógico e semântico aos computadores.
Para um melhor entendimento das dificuldades encontradas nos processos de recuperação de
informações na web atual, pode-se analisar o resultado de uma busca realizada por meio dos
tradicionais ―motores de busca‖ como, por exemplo, a busca de textos científicos de um
determinado autor. Utilizando-se, ―Samuel Pinto‖ como expressão de busca ter-se-ia como
resultado todos os tipos de documentos que contenham ―Samuel Pinto‖ em alguma parte de
seu conteúdo.
Caso esta mesma busca seja realizada utilizando-se apenas o sobrenome deste autor o
problema se agravaria ainda mais, pois ―Pinto‖ pode igualmente se referir ao sobrenome de
uma pessoa, como também a uma ave da espécie ―Gallus gallus domesticus” pois a Web
atual não fornece condições que possibilitem distinguir entre os vários significados
semânticos que um termo pode comportar, o que favorece a recuperação de uma grande
quantidade de documentos irrelevantes ou não relacionados com a busca realizada, tornando
algumas vezes, inexequível, a tarefa de localizar informações específicas no ambiente Web .
Segundo Koivunen e Miller (2001), um dos princípios fundamentais do projeto Web
Semântica é o fato de que “tudo” pode ser identificado por um Uniform Resource Identifier
(URI), de modo que pessoas, lugares e elementos do mundo físico possam ser referenciados a
partir de tais identificadores.
Possibilitando assim identificar uma instituição a partir do URI de sua página web, por
exemplo, ou uma pessoa por meio do URI de sua caixa de e-mail.
Conforme afirmam Berners-Lee (1994) e Fielding (1995), um URI é um padrão conjunto que
abarca os conceitos de Uniform Resource Locator (URL) e do Uniform Resource Name
22
(URN), de modo que pode ser representado por qualquer um destes, ou por ambos. Fazendo
uma analogia de um recurso disponível no ambiente web com um livro armazenado em uma
biblioteca, pode-se considerar o URN de um recurso como o número ISBN de um livro, os
quais fornecem uma identificação exclusiva, porém não oferecendo informações a respeito de
onde o livro/recurso pode ser obtido.
Do mesmo modo, pode-se considerar que o código que identifica onde um livro está
localizado, em meio ao acervo de uma biblioteca, desempenha a mesma função do URL de
um recurso no ambiente web, indicando o local onde o livro/recurso pode ser obtido. Segundo
Krishnamurthy e Rexford (2001), o modo mais popular de apresentação de um URI é
utilizando um URL, o qual pode ser considerado como uma cadeia de caracteres formada por
componentes padronizados.
Outra característica importante do projeto Web Semântica é que os links podem possuir
diferentes tipos, possibilitando a definição de conceitos úteis para as máquinas, como por
exemplo, indicando que um recurso é uma versão de outro recurso ou que contém
informações a respeito de uma determinada pessoa. A web sintática também consiste de
recursos e links, porém estes links são criados apenas para o entendimento humano, de modo
que é relativamente simples para um humano identificá-lo, quando contido em um
determinado recurso, referenciando uma fatura, um romance ou um trabalho científico.
Contudo, tais informações não estão acessíveis para as máquinas, pois os links da web
sintática não indicam formalmente quais são os tipos de relações existentes entre os recursos
referenciados.
2.2 Padrões da Web Semântica
Para que fosse possível construir aplicações envolvendo Web Semântica, Berners-Lee (2001)
propôs uma arquitetura em camadas, que está representada na Figura 1. Esta arquitetura, em
suas camadas, define as tecnologias necessárias para que os conteúdos das páginas Web
possam ser compreendidos pelos computadores.
23
Figura 1 - Arquitetura proposta para a Web Semântica 2001.
Fonte: imagem extraída do site Semantic Focus, 2001.
Baseando-se na proposta de arquitetura apresentada acima, foi descrito de maneira sucinta as
principais tecnologias e camadas inerentes ao projeto Web Semântica.
a) URI / IRI: Conforme apresentado anteriormente, tal componente consiste de
um identificador único de recursos que possibilita a definição e adoção, de
maneira precisa, de nomes aos recursos e seus respectivos endereços na
Internet;
b) XML: É uma linguagem computacional que possibilita a estruturação dos
dados por meio da definição de elementos e atributos, e que permite capturar a
estrutura da informação. Além de permitir a criação de novas tags para atender
aplicações específicas;
24
c) RDF: Estende a ligação da estrutura da Web para usar URIs para nomear a
relação entre as coisas, bem como as duas extremidades do link (isto é
normalmente referido como um ―triplo‖). Usando este modelo simples, ele
permite que dados estruturados e semi-estruturados para serem misturados,
expostos e compartilhados entre aplicações diferentes;
d) RDF Schema: Utilizada para a descrição do vocabulário RDF, possibilita a
definição de taxonomias de recursos em termos de uma hierarquia de classes.
A RDF Schema é uma extensão semântica do código RDF, que fornece
mecanismos para descrever grupos de recursos e os relacionamentos existentes
entre eles (Brickley, 2004);
e) OWL: Linguagem computacional recomendada pelo W3C para o
desenvolvimento de ontologias (modelo de dados que representa um conjunto
de conceitos dentro de um domínio e os relacionamentos entre eles). A
linguagem OWL permite descrever formalmente, de modo mais eficiente, os
aspectos semânticos dos termos utilizados e seus respectivos relacionamentos,
possibilitando representações mais abrangentes das linguagens RDF e RDF
Schema e favorecendo uma maior interoperabilidade (McGuinness, 2004);
f) Sparql: É uma linguagem computacional utilizada para realizar consultas a
partir de estruturas RDF, favorecendo a recuperação de informações de
maneira mais eficaz (Seaborne, 2005);
g) Rules: Permite a definição de regras lógicas relacionadas aos recursos
informacionais. Rules é uma camada que possibilita uma espécie de
―Introdução Lógica‖, enquanto que a camada superior, Logic Framework,
possibilita a incorporação de ―Lógicas Avançadas‖ (Daconta, 2003);
h) Unifying Logic: Camada para a definição de regras mais abrangentes,
utilizadas no tratamento das informações descritas nos níveis inferiores,
possibilitando que agentes computacionais possam realizar inferências
automáticas a partir das relações existentes entre os recursos informacionais,
podendo inclusive inferir novas informações;
i) Proof: Espera-se que esta camada possibilite a verificação/comprovação da
coerência lógica dos recursos, de modo que os aspectos semânticos das
informações estejam descritos de maneira consideravelmente adequada,
atendendo a todos os requisitos das camadas inferiores;
25
j) Crypto: Consiste de um processo em que as informações são cifradas de modo
que não possam ser interpretadas por qualquer pessoa ou sistema
computacional, garantindo assim a confidencialidade das informações;
Encryption é o processo de disfarçar a mensagem original de tal modo que sua
substância é escondida em uma mensagem com texto cifrado (Nakamura e
Geus, 2003);
k) Trust: Camada de confiança, a partir da qual espera-se garantir que as
informações estejam representadas de modo correto, possibilitando certo grau
de confiabilidade;
l) User interface & Applications: Personalização da interface do usuário em suas
aplicações, modelando as preferências, necessidades e interesses de cada
usuário. Gerenciamento de conteúdo, interfaces colaborativas, comunicação
entre comunidades virtuais e outros.
2.2.1 RDF
Segundo (Brickley, 2004), o Resource Description Framework (RDF) é uma linguagem para
representar informação sobre recursos no world wide web . Destina-se particularmente para
representar metadados sobre recursos da web, como o título, autor e data de modificação de
uma página web, direitos autorais e licenciamento de informações sobre um documento da
web, ou o calendário de disponibilidade de algum recurso compartilhado. No entanto, ao
generalizar o conceito de um recurso da web, RDF também pode ser usado para representar
informações sobre coisas que podem ser identificadas na web, mesmo quando elas não podem
ser recuperadas diretamente na web. Exemplos incluem informações sobre os itens
disponíveis em estabelecimentos comerciais on-line (por exemplo, informações sobre as
especificações, preços e disponibilidade), ou a descrição das preferências de um usuário da
web para entrega de informações.
RDF destina-se a situações em que informações precisam ser processadas por aplicativos, em
vez de ser exibido apenas para as pessoas (Brickley, 2004).
RDF é baseado na ideia de identificar coisas usando identificadores da web (chamado de
uniform resource identifier, ou URIs), e descrever recursos em termos de propriedades
simples e valores de propriedade. Isso permite RDF para representar declarações simples
sobre recursos como um gráfico de nós e arcos que representam os recursos e as suas
26
propriedades e valores. Para tornar essa discussão um pouco mais concreta, o grupo de
instruções "existe uma pessoa identificada por http://www.w3.org/People/EM/contact # me,
cujo nome é Eric Miller, cujo endereço de e-mail é [email protected], e cujo título é doutor‖
poderia ser representado como o gráfico RDF na Figura 2:
Figura 2 - Um Grafo RDF descrevendo Eric Miller
Fonte: Imagem extraída do site da Tecweb, 2010.
Como mostrou o grafo da Figura 2, as especificações RDF fornecem um sistema de ontologia
simples, tem aplicação universal e apoia o intercâmbio de conhecimentos na web. Qualquer
coisa com identidade pode ser descrito em RDF e, dessa forma, RDF é um bom candidato
para a gravação e partilha de conhecimento na web. Com RDF é possível fazer declarações
sobre os recursos em termos de propriedade e valores de propriedade. A seguir, na Figura 3,
será mostrado o código referente ao grafo da Figura 2 codificado.
27
Figura 3 - RDF usa URIs para identificar.
Nos passos a seguir a explicação da Figura 3:
a) indivíduos, por exemplo, Eric Miller é identificado por
http://WWW.W3.org/People/EM/contact#me;
b) tipos de recursos, por exemplo, uma pessoa é identificada por
http://WWW.W3.org/2000/10/swap/pim/contact#Person;
c) propriedades desses recursos, por exemplo, caixa de correio é identificado por
http://WWW.W3.org/2000/10/swap/pim/contact#mailbox;
d) valores dessas propriedades, por exemplo, mailto:[email protected] como o valor
da propriedade de caixa (RDF também utiliza cadeias de caracteres como "Eric
Miller", e os valores de outros tipos de dados, como números inteiros e datas,
como os valores de unidades).
Assim como o HTML, o RDF / XML é processável na máquina e, usando URIs, pode-se ligar
pedaços de informações na web . No entanto, ao contrário do hipertexto convencional, RDF
URIs pode se referir a qualquer coisa identificável, incluindo recursos que não podem ser
diretamente recuperáveis na web (como a pessoa Eric Miller). O resultado é que, além de
descrever páginas web, RDF também pode descrever automóveis, empresas, pessoas, eventos,
notícias, etc. Além disso, as propriedades RDF, próprios URIs, identificam com precisão as
relações que existem entre os itens relacionados.
A estrutura subjacente de qualquer expressão em RDF é uma coleção de triplas, cada uma
composta de um sujeito, um predicado e um objeto (como mostra a Figura 4).
28
Figura 4 - mostra a estrutura subjacente de uma expressão RDF.
Um conjunto de triplas, como é chamado um grafo RDF, pode ser ilustrado por um nó, em
que cada tripla é representada como um nó-arco-nó de ligação (daí o termo "grafo").
Uma representação familiar de tal fato pode ser como uma linha em uma tabela em um banco
de dados relacional. A tabela tem duas colunas, que correspondem ao sujeito e o objeto da
tripla RDF. O nome da tabela corresponde ao predicado da tripla RDF. A representação pode
ser mais familiar como um lugar de dois predicados em lógica de primeira ordem. Bancos de
dados relacionais permitem uma tabela ter um número arbitrário de colunas, uma linha que
expressa a informação correspondente a um predicado com um número arbitrário de lugares.
Esse tipo de linha, ou predicado, tem de ser decomposto pela representação como triplas RDF.
Uma forma simples de decomposição introduz um novo nó em branco, o que corresponde à
linha, e uma nova tripla é introduzida para cada célula da linha. O tema de cada tripla é o
novo nó em branco, o predicado corresponde ao nome da coluna, e objeto corresponde ao
valor na célula. O novo nó em branco também pode ter uma propriedade RDF: type cujo valor
corresponde ao nome da tabela.
A seguir na Figura 5, mostra uma representação gráfica de como um RDF é declarado quando
há a necessidade de um novo nó em branco.
29
Figura 5 - RDF sendo representado com um nó em branco.
Fonte: Imagem extraída do site da Tecweb, 2010.
Provendo a interoperabilidade entre as aplicações, RDF possibilita a automação de processos
na Web. O metadado neutro em termos de sintaxe e de domínio de conhecimento é provido
pelo RDF, sendo este, responsável pela interoperabilidade estrutural, tendo como ressalvas o
não fornecimento de mecanismos para declaração e definição de propriedades e seus
relacionamentos (Brickley, et al, 2004).
Para a definição de propriedades de domínios específicos e sua semântica é necessária a
aplicação do esquema RDF. O esquema RDF é utilizado para identificação de equivalência
de significado, já que duas ou mais expressões em RDF são equivalentes se, e somente se, a
representação de seus modelos de dados for similar. Essa definição de equivalência permite a
variação sintática em algumas expressões sem alterar seu significado. Esse modelo de dados é
representado por meio de um Directed Labeled Graphs (DLG) e consiste de três tipos de
objetos:
a) resource (recurso): tudo que é descrito através de expressões RDF, podendo
ser tanto um documento HTML, quanto um elemento XML de um documento;
uma coleção de páginas ou um site inteiro. Um recurso pode também ser
objeto que não seja acessado diretamente pela web, tal como um livro
impresso. Recursos são sempre nomeados por um URI, o que permite a criação
de identificadores para qualquer entidade imaginável;
30
b) property (propriedade): é uma característica, um atributo ou uma relação
utilizada para descrever o recurso. Propriedades também são utilizadas para
descrever relacionamentos entre recursos. Dessa forma, o modelo de dados
RDF se assemelha ao modelo de Entidade-Relacionamento. Cada propriedade
tem um significado específico, definem seus valores permitidos, os tipos de
recursos que podem descrever, e seus relacionamentos com outras
propriedades;
c) declaration (valor): uma declaração é um recurso específico com uma
propriedade definida mais o valor desta propriedade. Em outras palavras,
representa a relação entre um recurso, uma de suas propriedades e o valor que
essa propriedade pode assumir.
2.2.2 RDFa (Resource Description Framework in attributes)
A web foi construída predominantemente para o consumo humano. Aos poucos começam a
aparecer dados legíveis por máquinas na web, que são distribuídos em um arquivo separado,
com um formato específico, sendo muito limitada a correspondência entre humanos e as
versões de máquinas. Como resultado, os navegadores podem fornecer apenas o atendimento
mínimo aos seres humanos na análise e processamento de dados na web: browsers apenas
veem as informações de apresentação (Brickley, et al, 2004). Um evento anunciado no Orkut,
Facebook ou Twitter pode ser facilmente copiado para o calendário do usuário, informações
de contato completo de um artista para o livro de endereços do usuário.
Quando os dados na internet são significativos para o ser humano e são aumentados com dicas
de significado para os programas de computador, estes programas se tornam muito mais úteis,
porque eles começam a compreender a estrutura dos dados.
RDFa permite aos atores XHTML (linguagem baseada em XML, que foi projetada para
trabalhar em conjunto com os agentes do utilizador baseada em XML) para fazer exatamente
isso, pegar dados legíveis para humanos e torna-los legíveis para a máquina. Usando alguns
atributos XHTML simples, os atores pegam os dados legíveis para humanos e torna-os
legíveis para máquina, através de indicadores de leitura para os navegadores e outros
programas interpretarem. Uma página web pode incluir marcação de itens simples como o
título de um artigo, ou tão complexo como rede social completa (Brickley, et al, 2004).
Imagine que você tem uma resenha de um hotel em sua página no seu HTML, você mostra o
nome do hotel, o endereço e telefone e a média de usuários que deram opiniões. As pessoas
31
podem ler e entender essa informação, mas para um computador isso não é nada, além de
sequencias de texto não estruturado. Com RDFa, você pode identificar cada pedaço de texto
para deixar claro que ele representa um certo tipo de dado: por exemplo, o nome do hotel, um
endereço ou uma classificação. Isto é feito usando-se tags HTML adicionais que os
computadores entendem. Estes RDFs não afetam a aparência de suas páginas, mas um serviço
de busca que olhar para o HTML pode usar as ―tags‖ para compreender melhor a sua
informação, e apresentá-la de forma útil, por exemplo, nos resultados da pesquisa.
Na Figura 6 a seguir ver-se um exemplo de aplicação do RDFa no sita da Amazon. Esse tipo
de marcação permite aos usuários uma resposta precisa quanto ao que foi especificado na
busca.
Figura 6 - Exemplo de marcação do site Amazon.
Fonte: Imagem extraída do site da Amazon, 2008.
A Figura 7 na sequência nos permitirá visualizar um exemplo de como usar tal marcação para
gerar esta resenha com a estrutura HTML.
32
Figura 7 - Codificação da resenha em HTML.
Na Figura 8 a seguir, ver-se o mesmo exemplo, porém com uma novidade, a marcação RDFa.
Figura 8 - Exemplo de marcação RDFa em notação padrão XML.
33
Este exemplo mostrou três propriedades importantes que podem ser usadas em todos os Tags
do HTML.
Como segue:
a) xmlns: Especifica o namespace XML para um documento. Estará sempre
na primeira linha e tem a função de indicar uma lista de entidades e seus
componentes;
b) typeof: Ocorre na primeira linha deste bloco do HTML, e define
entidades;
c) properties: Usado para etiquetar as propriedades de uma entidade.
RDFa (vocabulário recomendado pela W3C que agrega um conjunto de extensões ao nível de
atributos XHTML para inserir metadados em documentos Web), é o responsável por permitir
aos editores construir o seu próprio vocabulário, estender os outros, e evoluir o seu
vocabulário com interoperabilidade máxima ao longo do tempo. A estrutura expressa está
intimamente ligada aos dados, para que os dados processados possam ser copiados e colados
junto com a sua estrutura relevante.
2.2.3 SPARQL
SPARQL é uma linguagem de consulta RDF, padronizada pelo RDF Data Access Working
Group (DAWG) do World Wide Web Consortium e, em janeiro de 2008 foi oficializada pela
W3C. É considerada uma tecnologia chave da Web Semântica (W3C, 2009).
SPARQL realiza consultas e consiste em:
a) padrão triplo: (objetivo-construído, banco de dados para o armazenamento e
recuperação de RDF);
b) conjunções: (conectivo lógico que tem o valor verdadeiro se ambos os seus
operandos forem verdadeiros, caso contrário, um valor de falso);
c) disjunções: (operador lógico que resulta em verdadeiro sempre que um ou mais
dos seus operandos são verdadeiros);
d) padrão opcional: (tipo de tema de eventos recorrentes ou objetos, por vezes
referido como elementos de um conjunto).
34
A seguir nas Figuras 9, 10 e 11 será visto um exemplo simples de como buscar informações
na base de dados RDF utilizando SPARQL:
Dado:
Figura 9 - Dado.
A Figura 9 representa o dado que será buscado pela figura 10. Consulta:
Figura 10 - Consulta.
A Figura 10 representa o modelo de query que fará a busca pelo título na Figura 9.
Resultado:
Figura 11 - Resultado.
A Figura 11 representa o resultado da consulta montada na Figura 10 sobre o código da
Figura 9.
O exemplo mostrou uma consulta SPARQL para encontrar o título de um livro sobre a curva
de dados fornecidos. A consulta consiste em duas partes: a cláusula select identifica as
variáveis que aparecem nos resultados da consulta, e a cláusula where fornece o padrão
gráfico de base para o gráfico de dados. O padrão gráfico de base neste exemplo consiste de
um padrão único, tripla com uma única variável (? título). Na posição de objeto (W3C, 2009).
35
2.3 Aplicações da Web Semântica
O projeto da Web Semântica é muito ambicioso e permite imaginar soluções tanto na área da
saúde, educação como nas relações sociais. A sua meta não é apenas indexar páginas na Web.
O texto de Berners-Lee, James Hendler e Ora Lassila, na revista Scientific American de
maio/2001, descreve o caso de Pete, um filho que busca na Internet, através de seu agente (um
software robô), alternativa para a fisioterapia de sua mãe. Dispondo previamente de uma série
de dados de Pete (seu endereço, seus horários, o seguro-saúde de sua mãe, etc.), o agente
busca na web as informações relevantes (lista de médicos credenciados, suas agendas, etc.) e,
em alguns minutos, oferece uma lista de opções para que ele escolha a que mais lhe convém.
Não satisfeito com a primeira lista, Pete pede que o agente refaça a busca de acordo com as
restrições por ele estabelecidas. Desta vez, a solução oferecida é satisfatória e com algumas
ações simples. Pete muda parte de seus compromissos, obtém a aceitação do agente de Lucy
(sua irmã, com quem irá dividir as idas à fisioterapia da mãe) e acerta a agenda (Berners-Lee,
et al, 2001).
Voltando a realidade da Web hoje, todo esse cenário ainda está relativamente distante. Além
disso, as aplicações mais prováveis das ferramentas acima descritas serão o comércio
eletrônico e grandes bancos de dados, como os próprios autores ressaltam.
Como veremos na Seção 2.3.1, gigantes como Google, Amazon, Yahoo e outras já aderiram,
em parte, à Web Semântica. Isso significa que, num futuro próximo, a Web inteligente será
uma realidade.
Sites não comerciais também se beneficiarão da utilização do XML e do desenvolvimento da
Web Semântica, pois seus conteúdos serão indexados mais eficientemente pelos programas de
busca e poderão ser mais facilmente convertidos em novos formatos ou ganharem novo
visual.
2.3.1 Busca Semântica
Esta Seção tem por objetivo fazer uma pequena introdução sobre como funcionam o sistema
de busca semântico e exemplificar de maneira geral o seu uso no âmbito prático em áreas
diversas.
36
A ideia da busca semântica tem como objetivo construir um mecanismo de busca que não faça
apenas uma simples pesquisa por palavras, mas que reconheça o significado das palavras
pesquisadas no contexto desejado.
Cada documento sobre a Web Semântica contém um modelo RDF, que pode ser pensado
como um discreto banco de dados. Informações em um documento de informação pode fazer
referência em outra construção de um modelo RDF maciço que é distribuído através da
Internet. Uma vez indexado o documento na web, a Web Semântica busca por índice para este
modelo RDF em computadores distribuídos para ajudar a localizar rapidamente o documento
que contêm as informações de que necessitam (W3, 2010).
Figura 12 - Representa a indexação de documentos na Web Semântica.
A Web Semântica é um banco de dados distribuídos massivamente na Internet. Cada
documento RDF contém um pequeno pedaço de um modelo RDF muito maior que os
formulários da Web Semântica. Os formulários RDF adicionam à Web Semântica, recursos
semelhantes aos fornecidos pelos formulários HTML baseadas na web.
Este formulário é funcionalmente similar a um formulário HTML via POST, na medida em
que fornece ao consumidor a informação, tais como, a URI (o valor de rdf: about) para que os
dados possam ser apresentados (semelhante ao atributo action), o método HTTP por força do
rdf: declaração do tipo de RF: Container (algo semelhante ao atributo de HTML do método,
apenas o método é, neste caso, implicitamente POST), e do tipo de mídia desejada de dados
(como o atributo HTML enctype).
37
Índices de Web Semântica tem o objetivo de facilitar a localização dos documentos com base
nas informações que eles contêm. Desde que a informação seja descrita usando vocabulários
RDF que tenha significado bem definido para os computadores, bem como para pessoas, as
condições de pesquisa podem ser descritas com precisão. A Web Semântica realiza buscas
usando estes vocabulários. Ela retorna a localização dos documentos na Web Semântica, onde
as informações descritas pela condição de pesquisa existem (W3, 2010).
A ideia da busca semântica é que todas as páginas indexadas pelo motor de pesquisa devam
utilizar um conjunto de tags especiais, uma espécie de meta-tags. Essas marcas fornecem mais
do que palavras-chave e descrições, que relatam o conteúdo e relacionamentos. O XML, por
si só, não pode resolver o problema de pesquisa. Não há nenhum significado compreensível
para a máquina associados com as tags XML comuns, e como resultado, os motores de buscas
tradicionais ficarão confusos com o XML, como estão agora com HTML.
No exemplo de uma pesquisa simples pela palavra "Loura", é questionado ao usuário através
de critérios da busca ao navegador, o contexto a que a pesquisa deve estar relacionada, no
caso se a "Loura" se refere a uma pesquisa pela: cor média entre o dourado e o castanho-claro,
a uma mulher de cabelo louro ou a uma cerveja. Dessa forma são exibidos sempre resultados
de alta relevância.
Por se tratar de uma busca semântica, é necessário que se defina um padrão de busca. Esse
padrão fará com que o usuário encontre documentos, pessoas, organizações, resumo de obras
literárias etc., que condiz com a sua busca, no entanto, para que isso seja possível a instrução
que disparará o agente tem de ser criteriosa.
Atualmente existe um grande número de pequenas aplicações que utilizam algumas
tecnologias desenvolvidas pela Web Semântica, visto que algumas camadas de infraestrutura
da mesma, como: Logic Framework, Rules, Proof, Trust e outras ainda estão em
desenvolvimento.
Além de aplicações que visam a exploração, a pesquisa das novas tecnologias, já podemos
observar que empresas com fins comerciais começam a perceber a real utilidade e benefícios
das mesmas, incorporando os padrões consolidados dentro de pequenas soluções seja para uso
em produtos comercializados ou para uso interno na própria corporação.
Nas seções a seguir alguns exemplos de aplicações práticas das tecnologias da Web
Semântica.
2.3.1.1 Rich Snippets
38
Rich Snippets já é uma novidade do Google na apresentação dos resultados de busca. O
objetivo é extrair pelo sistema de busca um resumo sobre do que se trata a página. Para que
isso seja possível, o usuário terá que digitar três ou mais termos. Utilizando formatos de
marcação em um site, o ―Webmaster‖ define a estrutura de dados do seu site, que é o que o
Google utiliza para criar as Rich Snippets. Por enquanto, o Google somente atende as
marcações referentes a pessoas e revisões de produtos ou serviços, mas pretende expandir
para outras áreas e outros padrões de formatos de marcação (Idg now, 2009).
2.3.1.2 Search Monkey Yahoo
O Search Monkey (nova plataforma de pesquisa aberta), trata-se de uma série de APIs que
permite você alterar os resultados de busca do próprio Yahoo, usando seus próprios dados e
alterando o formato de exibição para o usuário (Yahoo, 2010).
Com Search Monkey será possível trazer resumos mais completos nos resultados da pesquisa,
com imagens, direções e links para outros conteúdos. É mais ou menos o que se pode fazer
com a famosa extensão para o Firefox, o Greasemonkey (extensão para o navegador de web
Mozila Firefox, que modifica a exibição das páginas de determinados sites, mudando o
layout, adicionando ou retirando botões e formulários e etc). Inclusive o produto se chama
―Search Monkey‖ por causa da extensão. A diferença que as adaptações que você fizer não
aparecem somente para você ou para quem instalar sua adaptação, como é o caso do
Greasemonkey, e sim para todo mundo. A página de resultados que você programar pode
conter muito mais informações que o convencional, de acordo com o contexto e a aplicação
que você quer dar.
2.3.1.3 Wiki Semântica
Wiki Semântica (Semantic Wiki): Projeto que foi desenvolvido para criar um ambiente no
estilo Wikipédia utilizando alguns recursos da Web Semântica para adicionar mais
conhecimento agregado ao conteúdo já disponível em forma de texto e hiperlinks. Através de
anotações semânticas no conteúdo, metadados são adicionados de maneira formal e segundo
39
uma ontologia específica, possibilitando que computadores possam entender melhor o
conteúdo e oferecer serviços de busca mais precisos no ambiente Wiki. Assim sendo, os
conceitos e relações deixam de ser meros strings e hiperlinks, sem distinção do ponto de vista
dos computadores e passam a representar tipos bem definidos em uma linguagem processável
por máquina (W3C, 2010).
2.3.1.4 Conhecimento Global Engenharia
Conhecimento Global Engenharia (Global Knowledge Engineering): A Sun Microssystem
adotou essa tecnologia para integrar melhor e gerenciar a informação corporativa que
representa um ponto crítico para melhorar a produtividade e prover novas soluções. O GKE
inclui diversos componentes como vocabulários controlados, classificações organizacionais,
descrição de metadados utilizando RDF, regras de negócios e etc. a fim de provar a
infraestrutura necessária para facilitar a integração de conhecimento distribuído (Sun, 2009).
2.3.1.5 A música do amigo de um amigo
A música do amigo de um amigo (Foafing the Music): Este projeto visa disponibilizar aos
interessados por música um sistema de recomendação de música diferenciado. O objetivo é
utilizar o perfil do usuário para a sugestão de novas experiências musicais, além de
características musicais como artista, título e gênero. As músicas são enriquecidas com
metadados como ritmo, timbre, harmonia, instrumentação e outros (Simac, 2009).
2.3.1.6 DBPedia
Chris Bizer e colegas da Universidade Livre de Berlim e da Universidade de Leipzig, na
Alemanha, criaram o projeto Dbpedia. Essa ferramenta desenvolvida com técnicas de Web
Semântica está sendo utilizada para consultar os mais de 700 mil modelos de infoboxes
(conjunto de acontecimentos) existentes em inglês (Scientific A., 2008).
40
Este recurso permite buscar todos os jogadores de tênis que vivem em Moscou ou os nomes
de todos os prefeitos de cidades dos Estados Unidos situadas em altitudes superiores a mil
metros e obter uma resposta exata (Scientific A., 2008).
Em novembro de 2008 o conjunto de dados dbpedia descreve mais de 2,6 milhões de
registros, incluindo pelo menos, 213.000 pessoas, 328.000 lugares, 57.000 álbuns de música,
36.000 filmes e 20.000 empresas. O conjunto de dados possui rótulos e resumos curtos para
esses registros em 30 idiomas diferentes; 609.000 links para imagens e 3.150.000 ligações a
páginas externas; 4.878.100 links externos para outros conjuntos de dados RDF e 415.000
categorias Wikipédia (Dbpedia, 2009).
O projeto Dbpedia utiliza o RDF como um modelo de dados flexível para representar as
informações extraídas e para publicação na web. Em novembro de 2008, o conjunto de dados
Dbpedia estava constituído por cerca de 274 milhões de triplas RDF, que foram extraídas do
inglês, alemão, francês, espanhol, italiano, português, polonês, sueco, holandês, japonês,
chinês, russo, finlandês norueguês e versões da Wikipédia (Dbpedia, 2009).
2.4 Considerações Finais
Neste Capítulo foram apresentados os principais conceitos sobre busca semântica e alguns dos
projetos existentes que já utilizam tecnologias semânticas.
O próximo Capítulo apresenta algumas das redes sociais mais utilizadas atualmente e alguns
conceitos sobre as mesmas, tendo em vista o seu crescimento exponencial nos últimos anos.
41
3 REDES SOCIAIS
Este capítulo fará uma introdução sobre redes sociais, apresentará algumas das redes sociais
mais utilizadas atualmente e alguns conceitos sobre as mesmas, tendo em vista o seu
crescimento exponencial nos últimos anos.
O capítulo está organizado da seguinte forma: Na Seção 3.1 teremos a introdução seguida da
Seção 3.2 que dará ênfase em blogs e, na sequência, a Seção 3.2.1 que se resumirá ao blog
Wordpress. E, por fim, a Seção 3.3 faz as considerações finais.
3.1 Introdução
Rede social é o conjunto de relações e intercâmbios entre indivíduos, grupos ou organizações
que partilham interesses, que funcionam na sua maioria através de plataformas da internet
(Aurélio, 2010).
Rede virtual é sistema de nós e elos; uma estrutura sem fronteiras; uma comunidade não
geográfica; um sistema de apoio ou um sistema físico que se pareça com uma árvore ou uma
rede (DANAH, et al, 2007). A rede social, derivando deste conceito, passa a representar um
conjunto de participantes autônomos, unindo idéias e recursos em torno de valores e
interesses compartilhados. A Figura 13 a seguir ilustra uma rede social onde cada quadrado
representa um indivíduo conectado.
42
Figura 13 - Representação de uma rede social.
Fonte: imagem extraída do site: America data redes sociais, 2010.
Assim, um grupo de discussão é composto por indivíduos que possuem identidades
semelhantes. Essas redes sociais estão hoje instaladas principalmente na Internet devido ao
fato desta possibilitar a divulgação de ideias de forma ampla e absorção de novos elementos
em busca de algo em comum (DANAH, et al, 2007).
As Figuras 14 e 15 darão um panorama das redes sociais mais utilizadas, mais populares em
cada país ao redor do mundo entre os usuários com mais de 15 anos. Na Figura 14, os gráficos
representam as redes mais populares por continentes. Já na segunda Figura, são mostradas as
redes mais populares em seus respectivos países.
43
Figura 14 - Redes sociais por continentes.
Fonte: ComScore World Metrix, 2010.
Como podemos ver, o Orkut do Google lidera ficou em primeiro lugar no Brasil. Já nos
Estados Unidos o mais usado é o Myspace da Microsoft, sendo o Facebook no Canadá,
Austrália e em alguns países da América do Sul, do Oriente Médio e do Norte da África. Na
América Central predomina o HI-5 e por fim na Europa e na Ásia o cenário é bem variado.
44
Figura 15 - Redes sociais por países.
Fonte: Imagem extraída de: oxyweb, 2009.
3.2 Blog
Jorn Barger tornou-se a primeira pessoa a usar o termo "Weblog" para descrever a sua coleção
de links registrados a partir da Internet, em 17 de dezembro de 1997.
É uma página na Web que normalmente é atualizada com grande frequência através da
colocação de informações – que se designam ―posts‖ – constituída por imagens e/ou textos de
pequenas dimensões (muitas vezes incluindo links para sites de interesse e/ou comentários e
pensamentos pessoais do autor) e apresentadas de forma cronológica, sendo as mensagens
mais recentes normalmente apresentadas em primeiro lugar (Gomes, 2005).
O The New York Times, jornal norte americano, publicou em agosto de 2007 uma matéria
com a informação de que, na última década, os blogs passaram a dominar a rede, com
aproximadamente 100 milhões de diários pessoais.
45
O Blog é a mais fácil e mais rápida ferramenta de publicação já inventada. Permite que as
pessoas tenham uma voz que não tinham antes. Hoje os blogs não são só notícias e
entretenimento, mas também a publicação sobre política e relações públicas.
Atualmente dentre os blogs o Twitter é o mais badalado, pois, é a terceira rede social mais
acessada do mundo, atualmente com 54.218.731 milhões de usuários (Compete, 2009).
O Twitter chegou de forma explosiva, teve picos de crescimento de até 3712% ano. Veja o
ranking na Tabela 1.
Tabela 1 - Ranking das redes sociais mais acessadas no mundo.
Twitter é um "microblog" — um ―feed‖ personalizado de pequenas declarações sobre você
mesmo, com no máximo 140 caracteres de comprimento, que qualquer pessoa que queira
"seguir" poderá receber via atualizações da web, really simple syndication (RSS), mensagem
de texto, entre outros (IBM, 2009).
Feed personalizado é um formato de dados utilizado para fornecer os usuários com conteúdo
atualizado com frequência. Permitindo aos utilizadores subscrever a ele. Fazer uma coleção
de feeds da Web acessíveis em um determinado local é conhecido como agregação. A
alimentação da Web é também por vezes referida como um feed distribuído.
Os blogs proporcionam conhecimento, experiências compartilhadas, os pontos de vista
expostos sobre diversos ângulos, sobretudo, quando existem diversas culturas envolvidas nas
46
discussões que transitam nas redes sociais. Os blogs têm modificando comportamentos,
aproximado povos e trazido melhoria para a qualidade de vida das pessoas.
3.2.1 Wordpress
Wordpress é um projeto Open Source (que tem o código aberto) que nasceu do desejo de um
elegante e bem estruturado sistema de publicação pessoal construído em PHP e Mysql e
licenciado sob a Geral Pública Licença (GPL). O que significa que existem centenas de
pessoas em todo o mundo a trabalhar nele (Mais do que a maioria das plataformas
comerciais). Significa também que você é livre para usá-lo para qualquer coisa, da página de
seu gato até para um web site de organizações com fins lucrativos, sem pagar qualquer taxa de
licenciamento e uma série de outras liberdades importantes (Wordpress, 2010).
Wordpress começou apenas como um sistema de blogs, mas evoluiu para ser utilizado como
sistema de gerenciamento de conteúdo completo e muito mais através dos milhares de plugins
(programa de computador usado para adicionar funções a outros programas maiores,
provendo alguma funcionalidade especial ou muito específica), widgets (componente de uma
interface gráfica de usuário (GUI), o que inclui janelas, botões, menus, ícones, barras de
rolagem, etc.) e temas. O Wordpress é limitado apenas pela sua imaginação.
A seguir nas Figuras 16 e 17 ilustrações de algumas das diversas perspectivas do Wordpress
na função adição de novos posts, novos plugins, adição de novos usuários, configuração de
novas ferramentas entre outros. Na perspectiva adição de posts é possível publicar novos e
editar os já existentes.
47
Figura 16 - Perspectiva para adição de novos posts do Wordpress.
Já na Figura 17 a seguir é mostrado o painel que possibilita a adição de novos plugins, a
edição e a exclusão dos mesmos.
Figura 17 - Perspectiva para adição de novos plugins do Wordpress.
48
3.3 Considerações Finais
Este capítulo fez uma introdução a redes sociais, apresentou algumas das redes sociais mais
utilizadas atualmente e alguns conceitos sobre as mesmas, haja vista o crescimento
exponencial das redes nos últimos anos.
O próximo capítulo apresentará os vocabulários estudados e testados nos estudos de caso que
serão apresentados no Capítulo 5.
49
4 AVALIAÇÃO DE TECNOLOGIAS E PADRÕES DA WEB
SEMÂNTICA
Este capítulo apresentará alguns dos vocabulários que foram estudados e testados nos estudos
de caso que serão apresentados no Capítulo 5. Como Editores de conteúdos serão
apresentados a biblioteca Backplanejs, e o plugin RDFQuery.
O Capítulo 4 está organizado da seguinte forma: na Seção 4.1 serão apresentados os
vocabulários, sendo que subseções 4.1.1 e 4.1.2 apresentam respectivamente FOAF e Dublin
Core. Posteriormente, na Seção 4.2 à edição de conteúdos, seguido das subseções 4.2.1 com o
plugin wp-RDFa, a 4.2.2 Creative Commons. Já na Seção 4.3 é apresentado a biblioteca
Backplanejs seguida da Seção 4.3.1 com o plugin RDFQuery. E, para finalizar, a Seção 4.4
que apresentará as considerações finais.
4.1 Vocabulários
Vocabulários de línguas descrevem "facetas". O esquema RDF descreve as propriedades em
termos de classes de recursos a que se aplicam: domínio e intervalo de valores (Brickley,
2004).
Para que a marcação semântica fosse entendida pelos computadores foi necessário criar
vocabulários específicos. (BIZER, et al, 2007). Infelizmente, não é possível dar um
dicionário, um almanaque ou um conjunto de enciclopédias para um computador e deixar que
ele aprenda tudo sozinho. Para entender o que as palavras significam e qual a relação entre
elas, o computador precisa ter documentos que descrevem todas as palavras e a lógica para
fazer as conexões necessárias.
Na Web Semântica, isto vem de esquemas e ontologias. Ontologia é um vocabulário que
descreve objetos e como eles se relacionam. Neste contexto, uma ontologia é a representação
do conhecimento em um domínio. Ontologias, espinha dorsal da Web Semântica, fornecem
um vocabulário para a anatoção dos dados na Web. Veja na Figura 18 alguns dos
vocabulários mais comuns:
50
Figura 18 - Vocabulários semânticos.
Fonte: Imagem extraída de; W3C.
A seguir a descrição quanto à representação de cada um dos vocabulários apresentados:
a) FOAF: descrição de pessoas;
b) DOAP: descrição de projetos;
c) RSS: publicação de notícias;
d) Dublin Core: catalogação e descrição de recursos (livros, imagens, etc.);
e) SIOC: descrição de comunidades online;
f) EARL: informes de resultados de ensaios;
g) SKOS: representação de dicionários;
h) GoodRelations: comércio eletrônico.
A combinação desses vocabulários é imprescindível na ampliação de funcionalidades de uma
página marcada semanticamente.
As ontologias responsáveis pelo fornecimento dos vocabulários devem ter a capacidade de
identificar contextos de um termo, compartilhar definições e dar suporte ao reuso. (BIZER, et
al, 2007). Quando elas são construídas levando-se em consideração esses aspectos, é possível
ajudar as pessoas na busca, extração, interpretação e processamento da informação.
51
4.1.1 FOAF
Para um computador, a Internet é um mundo desprovido de significado. Como ocorre de fato
na Web atual, ela descreve em seus documentos objetos reais e os conceitos imaginários,
porém não dar relações particulares entre si. Por exemplo, um documento pode descrever uma
pessoa.
O documento de uma casa descreve uma casa e também a relação de propriedade com uma
pessoa. Adicionar conceitos de Web Semântica envolveria duas coisas: permitir que os
documentos que tenham informações de formulários para leitura óptica, e permitir a criação
de laços com os valores do relacionamento. Só quando tivermos este nível extra de semântica,
seremos capazes de usar o poder do computador para nos ajudar a explorar a informação para
uma maior extensão do que nossa própria leitura (Berners-Lee, et al, 1994).
FOAF, como a própria web, é um sistema de informação vinculada, ele foi construído usando
a tecnologia descentralizada Web Semântica, e foi concebido para permitir a integração de
dados por meio de uma variedade de aplicações, web sites, serviços e sistemas de software.
Para conseguir isso, FOAF toma uma atitude liberal para o intercâmbio de dados. Ele não
exige que você queira dizer alguma coisa sobre si mesmo ou outros, nem colocar limites nas
coisas que você pode dizer. Esta especificação atual fornece uma base "dicionário" de termos
para falar sobre as pessoas e as coisas que eles fazem ou deixam de fazer (FOAF, 2010).
FOAF foi projetado para ser usado junto com outros dicionários como ("esquemas" ou
"ontologias"), e para ser usado com a grande variedade de ferramentas genéricas e serviços
que tenham sido criadas para a Web Semântica. O projeto FOAF baseia-se em torno da
utilização da máquina de homepages legíveis web para pessoas, grupos, empresas e outros
tipos de coisa. Para conseguir isto, usamos o "vocabulário FOAF" para fornecer um conjunto
de condições básicas que podem ser usadas nestas páginas Web. O coração do projeto FOAF
é um conjunto de definições concebido para servir como um dicionário de termos que podem
ser usados para expressar afirmações sobre o mundo.
O foco inicial do FOAF foi à descrição de pessoas, pois as pessoas são as coisas que
interligam a maioria dos outros tipos de coisas que descrevemos na Web: eles fazem
documentos, participam de reuniões, são retratados em fotografias, e assim por diante (FOAF,
2010).
Um documento FOAF, ao contrário de uma página da web tradicional, pode ser combinado
com outros documentos FOAF para criar um banco de dados unificado de informações. A
Figura 19 a seguir ilustra a ideia de uma rede de integração de dados, não há limites, sem fim.
52
Figura 19 - Ilustração de funcionamento do vocabulário FOAF.
Fonte: Imagem extraída de: dcs FOAF.
Este exemplo de integração refere-se aos processos envolvidos na exportação de informações
do Facebook. O real de exportação de informações pessoais envolve o mapeamento existente
do Facebook esquema de dados XML com os conceitos a partir da especificação FOAF para
permitir a representação de conhecimentos suficientes.
Esta versão contém a infraestrutura básica para a exportação de dados RDF a partir do
Facebook, segundo as especificações FOAF. A identificação é feita usando o FOAF:
holdsAccount propriedade dentro da especificação FOAF. O user id extraído do Facebook é
utilizado como identificador único dentro do FOAF: OnlineAccount e a propriedade FOAF:
accountName entre outras.
Após autenticar o usuário, ocorre a recuperação das informações pessoais do usuário e da lista
de amigos desse usuário juntamente com os seus detalhes. Primeiro os detalhes são
53
convertidos em FOAF, como: nome, sexo, imagem etc., a fim de identificar arquivos FOAF
de outros que contém propriedades similares.
A próxima etapa é do processo de criação de uma representação geocodificada da localização
do utilizador. Essa etapa só é possível consultando o serviço Google Maps. Utilizando
atributos como latitude e longitude. Aí sim, é possível determinar a sua localização.
A ideia básica é bastante simples. Se as pessoas podem publicar informações no formato de
documento FOAF, as máquinas serão capazes de fazer uso dessa informação. Se esses
arquivos contêm ponteiros que apontam para outros documentos na web, teremos então um
verdadeiro grafo de dados. Os programas de computadores com isso serão capazes de
armazenar em torno dessa web, documentos concebidos para máquinas em vez de seres
humanos, armazenar as informações que encontram, mantendo uma lista de ponteiros para
outros documentos, verificando assinaturas digitais (para a segurança) e construção de web
páginas e pergunta-resposta dos serviços com base nos documentos colhidos.
Veremos a seguir na Figura 20, um exemplo de elementos FOAF inseridos em meio ao
HTML de uma página web.
Figura 20 - Elementos FOAF em meio ao HTML.
Como exemplo considere sites de comércio eletrônico como Amazon, que se tornaram
sucesso por causa de seu alto nível de personalização. Aproveitar o melhor desses sites
envolve um processo de aprendizagem, onde eles descobrem que seus interesses através de
54
preferência explícita, criação ou adaptação de sugestões de produtos com base em um
histórico de compras. Usando FOAF há o potencial para capturar essa informação uma vez,
em um formulário que pode ser usado não apenas por um site, mas muitos. O usuário
poderia, então, circular livremente entre os sistemas.
4.1.2 Dublin Core
A palavra metadados foi criada por Jack Myres em 1969, para denominar os dados que
descreviam registros de arquivos convencionais (Berners-Lee, et al, 1994). A seguir algumas
definições de metadados.
Metadados são dados sobre dados que objetivam descrever completamente os dados (bases)
que representam, permitindo ao usuário decidir sobre a utilização desse conjunto de dados de
acordo com as suas necessidades específicas (Shadbolt, et al, 2008).
Metadados são um conjunto de dados estruturados que identificam os dados de um
determinado documento, que podem fornecer informação sobre o modo de descrição,
administração, requisitos legais de utilização, funcionalidade técnica, uso e preservação
(Berners-Lee, 2002).
No ano de 1995 a Online Computer Library Center (OCLC) e o National Center for
Supercomputing Aplications (NCSA) organizaram um workshop sobre metadados em Dublin,
Ohio.
Neste workshop participaram pessoas das mais variadas áreas, biblioteconomia, ciências da
informação, informática e provedores de informações da rede. O resultado foi a definição do
padrão de metadados para a internet, Dublin Core (Dublin Core, 2010).
Embora o conceito de metadados seja anterior a internet e a web , o interesse mundial nos
padrões de metadados e práticas explodiu com o aumento de publicações eletrônicas e
bibliotecas digitais. Qualquer um que tenha tentado encontrar informações online usando um
dos serviços de busca populares da web hoje, tem provalvelmente experimentado a frustração
de recuperar centenas, se não milhares de links (lixo) devido a capacidade limitada de
refinamento de conteúdo por parte dos atuais motores de busca. A adoção, em larga escala
descritiva de normas e práticas de recursos eletrônicos, irá melhorar a recuperação dos
recursos pertinentes em qualquer local onde a recuperação de informação é crítica. Como
observado por Weibel e Lagose, dois líderes nas áreas de desenvolvimento de metadados e
bibliotecas digitais:
55
"A associação de metadados descritivos padronizados com objetos em rede tem o potencial de
melhorar substancialmente a capacidade de descoberta de recursos, possibilitando com base
em um campo (por exemplo, autor, título, assunto) a procura, a indexação de objetos não
textuais, e permitindo o acesso ao conteúdo que é substituto, distinto de acesso ao conteúdo
do recurso em si‖ (Weibel, 2000).
A web passa por um momento ruim devido ao seu crescimento exponencial e anseia pela
necessidade de servir bem a demanda por conteúdo de qualidade e o acesso rápido aos dados
nela disponibilizados pelos seus usuários.
A necessidade de ser visível dentre os aproximados dois milhões de sites existentes (Necraft
2008, vide na Figura 21) tem despertado um sentimento de frustração a diversas comunidades.
Figura 21 - Crescimento da web, dados de Setembro de 1995 a Junho de 2008.
Fonte: Imagem extraída de: netcraft.
Gerir e organizar dados interligados de diferentes tipos em diferentes repositórios, interoperar
com outras comunidades, outras aplicações, expressar a estrutura dos nossos dados e codificar
a transferência dos mesmos é tudo que de que precisa a web atual. Mas para que tudo isso vire
realidade, aplicações necessitam de certa forma, que os dados tenham significados para as
máquinas, não apenas para os humanos.
56
Isso permitiria comunidades resolverem as suas próprias necessidades, fazendo integrações de
dados de forma colaborativa baseado em padrões.
Dublin Core nasce com a proposta de melhorar a descoberta de recursos na web de forma
mais ampla, garantindo a busca de um conteúdo de qualidade. De forma simples, intuitiva e
com muita flexibilidade. Propõe a utilização de apenas quinze elementos de metadados
descritivos, todos os elementos opcionais que oferecem um ponto de partida para descrições
semanticamente mais ricas e interdisciplinares. Favorecendo bibliotecas, museus, governo,
educação entre outros.
Veja na Figura 22 os elementos que compõem a arquitetura completa Dublin Core.
Figura 22 - Arquitetura do DC (Dublin Core).
Fonte: Imagem extraída de: ganesha Dublin Core, 2010.
Alguns dos elementos mais comuns em websites que usam o Dublin Core:
57
a) assunto: Área de conhecimento ao qual o trabalho pertence;
b) título: É definido como o nome do objeto;
c) autor: Responsável pelo conteúdo intelectual do trabalho.
Como a maioria dos objetos na internet estão em forma de documentos, o objetivo principal
do Dublin Core é identificar um conjunto contendo o mínimo de elementos capazes de
descrever esses objetos. Devido a essa simplicidade DC é considerado o ponto de partida para
os demais projetos envolvendo especificações de uma arquitetura de metadados para a Web
(Dublin Core, 2010).
Será visto na Figura 23 um exemplo simples de DC, para descrever uma gravação de áudio de
um guia para o crescimento de roseiras. Com o XML ou RDF / XML, Dublin Core pode
potencialmente ser misturado com outros vocabulários de metadados.
Figura 23 - Exemplo simples de Dublin Core.
O exemplo acima pode ser usado juntamente com outros vocábulos como vCard* (vCard é
um formato de arquivo padrão para cartões de negócio eletrônico) que pode descrever a
filiação do autor e informações de contatos, ou uma mais especializada ―rosa‖, na descrição
do vocabulário que descreveu as roseiras em maior detalhe.
Cada elemento Dublin Core é opcional e repetível, e não há nenhuma ordem definida dos
elementos. A ordenação de várias ocorrências do mesmo elemento (por exemplo, creator)
pode ter um significado pretendido pelo provedor, mas não há uma garantia de preservação da
58
ordem em todos os ambientes do usuário. Ordenação ou sequenciação pode ser dependente de
sintaxe, por exemplo, RDF/XML suporta ordenação, mas HTML não (Dublin Core, 2010).
4.1.3 Creative Commons
Creative Commons é uma organização sem fins lucrativos, que trabalha com o intuito de
aumentar a quantidade de criatividade na área científica, cultural e educacional. Fundada em
2001 com apoio do Center of Public Domain (Centro de Domínio Publico) e sua alta cúpula
(Creative Commons, 2010), Creative Commons tem como objetivo ajudar a publicar um
determinado trabalho online, deixando claro o que pode e o que não pode fazer com esse
determinado trabalho. Com uma licença Creative Commons, é possível manter os direitos
autorais, mas permitir que as pessoas copiem e distribuam o seu trabalho desde que elas lhe
deem o crédito, e somente nas condições que forem especificadas (Creative Commons, 2010).
Dentre as seis licenças existentes é preciso escolher a que atende às necessidades do
respectivo trabalho, veja a Tabela 2 a seguir.
Licenças Creative Commons
by-nc-nd = Atribuição
não comercial – não
derivativa
É a mais restritiva das seis licenças principais,
permite redistribuição. Permite que os
trabalhos sejam baixados e partilhados com os
outros, desde que seja mencionado o link de
origem. Não pode mudá-lo de qualquer forma
ou usá-los comercialmente.
by-nc-sa = Atribuição
não comercial –
compartilhamento
desde que não seja
alterada
Esta licença permite o ―remix‖, a construção
sobre o trabalho contanto que você licencie
suas criações nos termos idênticos. Todos os
novos trabalhos com base neste realizará a
mesma licença, para todos os derivados
também serão não comercial por natureza.
59
by-nc = Atribuição não
comercial
Esta licença permite o ―remix‖, e a construção
sobre o trabalho não comercial. E apesar de
novas obras, também deve reconhecer que não
pode comercializá-lo, não têm a sua licença de
obras derivadas sobre os mesmo termos.
by-nd = Atribuição não
derivativa
Esta licença permite a redistribuição,
comercial e não comercial, contanto que a
obra seja inalterada ao longo e na íntegra, com
crédito para você.
by-sa = Atribuição sem
alteração
Esta licença permite o ―remix‖, reconstruir
sobre o seu trabalho, mesmo por motivos
comerciais, contanto que o crédito seja dado
ao autor original. Todas as novas obras com
base em seu trabalho realizará a mesma
licença, para todos os derivados também vai
permitir o uso comercial.
by = Atribuição apenas Esta licença permite aos outros distribuírem
―remixar‖ e construir sobre o seu trabalho,
mesmo comercialmente, desde que seja dado
o crédito para a criação original. Este é a mais
acomodada das licenças oferecidas, em termos
do que os outros podem fazer com suas obras
sob licença e atribuições.
Tabela 2 - Representação das licenças Creative Commons.
Os desenvolvedores interessados em licenciar o seu Trabalho tem de preencher a Seção
―informações adicionais‖ do formulário de seletor de licença, e após o preenchimento eles
recebem um trecho do código XHTML que contém o crachá da imagem, um link para a
licença de algum texto e alguns tags span. Dentro dessas tags RDFa é expressa.
Vamos dar uma olhada em alguns códigos de exemplo para aprender mais sobre RDFa na
Figura 24.
60
Figura 24 - Exemplo de código RDFa Creative Commons.
No destaque da Figura 24 o Creative Commons está usando o próprio namespace XML,
abreviado usando o cc. A propriedade é do AttributionName atributo cc, o valor é o conteúdo
dentro da tag âncora (mikexelrod), e uma relação de cc: AttributionURL é definida como
sendo http://WWW.mikexelrod.com/wp/wp-content/uploads/2008/10/iswc-ontology-
web.png. O ―rel = license‖ se encarrega de especificar a relação de URL’s a href. Neste caso
a relação é a ―license‖ e a URL é um padrão licença Creative Commons. Já as propriedades a
seguir que não compõe a Figura 24 como: o ―dc: source‖ é semelhante à fonte dc:title, dc
especifica onde a fonte a fonte original do arquivo está localizada. E por fim o ―cc:
morePermissions‖ que como parte do protocolo mais Creative Commons, os criadores podem
especificar uma URL onde re-usuários de licenças podem obter mais direitos para o Trabalho.
4.2 Edição de Conteúdo
A edição pode ser feita usando qualquer editor de texto. Porém, assim como as redes sociais
facilitam a edição de informações não estruturadas, é desejável oferecer ao usuário
ferramentas que também facilitem a edição de informações estruturada. Nas subseções a
seguir serão apresentadas algumas ferramentas que contribuem para isso.
4.2.1 Wp-RDFa
Wp-RDFa é um plugin Wordpress desenvolvido em linguagem php por Richard Harvey. O
objetivo deste plugin é inserir a Web Semântica no Blog Wordpress, (SquareCows, 2010). Ele
automaticamente adiciona:
a) FOAF que pode ser usado para relacionar as informações pessoais para o blog.
Também pode ser usado para relacionar outros usuários do blog para se
construir um mapa semântico dos relacionamentos no mundo online;
61
b) Dublin Core para obter semântica e tags automaticamente posts com o título, o
criador e os elementos de data.
4.2.2 Image Licenser
O plugin Image Licenser foi desenvolvido com o objetivo de simplificar a marcação de
imagens com um selo Creative Commons, utilizando RDFa para permitir que os motores de
buscas compreendam os metadados de licenciamento. O plugin também adiciona o nome e
URL do autor, para definir o cc: attributionName e cc: attributionURL.
4.3 Busca Semântica
Nas subseções a seguir serão apresentadas as bibliotecas de busca semântica avaliadas.
4.3.1 Backplanejs
Backplanejs é uma biblioteca que oferece uma gama de componentes (plugins) de código
aberto a partir de bibliotecas Asynchronous Javascript And XML (Ajax) de extensões do
navegador. À possibilidade das aplicações rodando na web de poder fazer uso de qualquer
funcionalidade avançada que o usuário tenha optado por instalar dá-se o nome de progressive
browser enchancement ou (reforço browser progressivo), porém, se a funcionalidade não
estiver disponível pode resultar na a execução Java Script. A gama de extensões disponíveis
inclui suporte completo para XForms, componentes para a criação fácil de sidebars (página
HTML simples) navegador e barras de ferramentas, o acesso ao MicrosoftAgent (tecnologia
que permite o computador ler o que você está escrevendo) para o discurso, e muito mais
(Backplane, 2010).
A biblioteca Backplanejs também permite que os programadores desenvolvam aplicações
desktops, disponibilizando uma estrutura de aplicativos sofisticados que permite aos autores
criarem gadgets (pequeno software que pode ser agregado a um serviço maior), widgets
(pequenos aplicativos que flutuam pela área de trabalho e fornecem funcionalidade
específicas ao utilizador como: previsão do tempo, cotação de moedas, relógio, etc..),
62
aplicativos completos utilizando as mesmas linguagens padrão que são utilizadas em
aplicações web .
A implementação da biblioteca Backplanejs só é possível se colocada no diretório raiz do
projeto, descompactado. Com a biblioteca no diretório raiz, basta referenciá-la a partir de
qualquer lugar do projeto, como segue na Figura 25.
Figura 25 - Código para referenciar a biblioteca Backplanejs.
O código mostrado na Figura 25 deverá ser inserido nos códigos correspondentes as páginas
dos projetos.
4.4 Considerações Finais
Esse capítulo apresentou alguns dos vocabulários que serão utilizados nos estudos de caso.
Mostrou também plugin e biblioteca que farão parte dos testes realizados no Capítulo 5.
O próximo Capítulo apresentará estudos de caso de sucesso que utilizam a marcação
semântica.
63
5 ESTUDO DE CASOS
O objetivo deste capítulo é apresentar um estudo de caso sobre a aplicação da Web Semântica
nas redes sociais.
Este capítulo está organizado como segue: a Seção 5.1 apresenta a otimização de sistemas de
buscas, a 5.2 licença de imagens em blogs e outras redes, e por fim na 5.3 rede social para
compartilhamento de slides.
5.1 Otimização de Sistemas de Busca
Atualmente, os sistemas de busca não são capazes de fazer buscas inteligentes devido à falta
de marcação semântica nas páginas disponíveis na web. O que é comum nas atuais páginas
são as marcações com tags sintáticas, o que deixa o agente de software ―perdido‖ numa busca,
afinal ele não sabe o que o usuário realmente deseja. Na dúvida, o agente recupera todas as
referências que se assemelham a solicitação feita e deixa a cargo do usuário decidir o que é
relevante e o que não é.
Atualmente, buscar artigos em sites como Google, Yahoo, Bing e outros, indicando ao motor
de busca o nome do autor, terá como resultado dezenas, centenas, senão milhares, de links que
se referem ao autor solicitado e não apenas aos artigos escritos pelo autor especificado na
busca. A seguir um exemplo de busca atual representado na Figura 26.
64
Figura 26 - Exemplo de busca com tags no Google.
Observando os detalhes da pesquisa fica evidente a quantidade gigantesca de referências a
Berners-Lee encontrada na web, sendo que na realidade o objetivo era de buscar apenas
artigos publicados pelo o autor informado. Certamente, na maioria destes links existem apenas
referências aos vários artigos escritos pelo autor Berners-Lee.
Todo o transtorno e a perda de tempo na tentativa de encontrar algo específico na web,
levaram pesquisadores como Berners-Lee a desenvolver vocabulários semânticos para
possibilitar as máquinas fazerem buscas precisas e até dar sugestões confiáveis quanto às
decisões que deverão ser tomadas pelo usuário.
65
5.1.1 Análise de Tecnologias
As tecnologias utilizadas neste estudo de caso foram escolhidas devido as suas objetividades.
A praticidade foi outro fator decisivo para a escolha, visto que um blog pode ser configurado
por usuários que não necessariamente possuem conhecimentos avançados sobre programação
Web.
Além do blog Wordpress, para que fosse possível realizar o estudo com sucesso, outras
tecnologias também foram utilizadas, como a biblioteca Backplanejs devido aos seus
inúmeros componentes que possibilitam aos programadores implementarem aplicativos web,
desktops e outros, também o plugin wp-RDFa, cuja função principal é gerar o código RDFa
(marcação semântica em meio ao HTML dos posts) nos posts do blog.
5.1.2 Arquitetura
O modelo de arquitetura da Figura 27 apresenta as ferramentas que foram utilizadas neste
estudo de caso.
66
Figura 27 - Arquitetura do estudo de caso do blog Wordpress.
O passo 1 representa o ―blog Wordpress‖. Já no passo 2 está o plugin wp-RDFa que, uma vez
instalado e configurado no blog Wordpress, tem a função de gerar o código RDFa. E por fim,
o passo 3 é representado pela biblioteca Backplanejs junto ao código SPARQL que é a
responsável por realizar a busca semântica na base RDFa.
67
5.1.3 Implementação
A implementação só foi possível graças a capacidade de integração das tecnologias que
permitiram, neste caso de uso, a realização de uma busca bem sucedida, que deu-se da
seguinte maneira:
a) foi instalado o XAMPP (programa que permite instalar Apache, PHP e Mysql
em um só) para Windows;
b) foi feito o download do Wordpress versão 2.9.2 para o localhost;
c) na pasta plugin do Wordpress foi adicionado o plugin wp-RDFa;
d) através do painel do Wordpress o plugin wp-RDFa foi ativado;
e) e, por fim, foi adicionada a tag script que irá carregar o analisador RDFa.
Tendo sido integrados todas as tecnologias citadas, basta postar no Blog para que seja gerado
o código semântico. A Figura 28 a seguir ilustrará o RDFa que foi gerado por posts na página
do blog.
Figura 28 - Código da página do Blog Wordpress com RDFa.
O código da Figura 28 foi gerado pelo Wordpress que tem integrado o plugin wp-RDFa. No
retângulo que aparece em meio ao código estão sendo apontadas as propriedades Dublin
Core, date e title.
68
5.1.4 Resultado
A Web Semântica surge com o intuito de organizar a montanha de documentos que é a Web
atual, possibilitando buscas precisas, diferente do que vimos na sessão 5.1 com o exemplo da
busca sintática no Google por artigos do autor Berners-Lee. A Web Semântica propõe buscas
eficientes, para que o resultado seja realmente o esperado. A ideia da busca semântica é
construir um mecanismo de busca que não faça apenas uma simples pesquisa por palavras,
mas que reconheça o significado das palavras pesquisadas no contexto desejado.
A Figura 29 a seguir, ilustra uma busca semântica realizada numa página do blog Wordpress
que, através do plugin wp-RDFa, possibilitou a marcação (sublinhado de amarelo) semântica
dos posts.
69
Figura 29 - Exemplo de busca semântica no blog Wordpress.
O objetivo desta busca semântica foi encontrar os títulos dos posts contidos na página do
blog. Repare que na primeira linha do corpo do texto os títulos se repetem propositalmente. E
essa repetição tem como meta mostrar que numa busca semântica os agentes de softwares
identificam apenas aquilo que lhes é pedido, descartando qualquer outro tipo de conteúdo
70
existente no corpo do texto. Para reforçar o conceito de Web Semântica, a seguir mais um
exemplo prático sobre buscas é apresentado.
Numa busca sintática realizada pela Google, Yahoo ou outros motores de buscas, quando
pesquisamos um determinado assunto utilizando termos como ―copa do mundo‖, todo e
qualquer documento existente na web que faça referência a ―copa do mundo‖ virá nos
resultados, isso é fato.
O que difere a Web Semântica da sintática é a marcação/significado, não importa se ―copa do
mundo‖ é título ou se o termo está no corpo do documento. No código de busca da Figura 30,
fica evidente que a intenção no exemplo do blog foi buscar apenas o título. Portanto,
independente de se ter o mesmo termo no corpo do texto o resultado será o conteúdo do título,
apenas.
Figura 30 - Exemplo de busca pelo título do post no blog Wordpress.
Na query referente à Figura 30 fica evidente que uma busca semântica só é possível se o
conteúdo pesquisado esteja marcado semanticamente. A não seleção da linha que é idêntica
ao título no corpo do texto se deu devido à falta da marcação semântica daquele conteúdo,
apenas o título foi marcado. Essa busca poderia ter sido feita pela data de criação do post, pelo
autor do post, etc.
Durante os testes com o plugin wp-RDFa foi constatado uma falha na geração do código
RDFa. O código de busca SPARQL que deveria selecionar apenas a data do post, como
determina a query, estava trazendo o título e não a data.
71
Figura 31 - Exemplo de busca da data do post no blog Wordpress.
Depois de alguns testes com o código, foi identificada a falha. Iniciou-se então um processo
de investigação na busca pela origem dessa falha. Depois de ―debugar‖ o código com muita
atenção foi constatado que os dois verbos que compunham a tripla apontavam para o mesmo
objeto.
A Figura 32 ilustra a formação errônea que está sendo gerado, pelo plugin do Wordpress, o
wp-RDFa.
Figura 32 - Exemplo de busca do plugin wp-RDFa no blog Wordpress.
Na Figura 33 está sendo mostrado, no destaque, o código com erro/incompleto gerado pelo
plugin wp-RDFa.
72
Figura 33 - Código gerado incompleto pelo plugin wp-RDFa no blog Wordpress.
Após visualizar e analisar o código com muita atenção é possível identificar que tanto a data
quanto o título estão apontando para o mesmo objeto. Na Figura 34 observa-se o exemplo de
formação correta da tripla RDF, onde é formado o sujeito, predicado e objeto.
Figura 34. Formação correta, um verbo para cada objeto.
A seguir, observar com a atenção o código da Figura 35, pois, nele será mostrada a correção
do código mostrado nos passos anteriores, para cada predicado é necessário um objeto.
Figura 35 - Código corrigido manualmente.
73
Este código que foi corrigido manualmente. O correto é o código ser gerado pelo plugin wp-
RDFa sob os posts do blog Wordpress.
Conclui-se que para a geração correta do código é preciso que o plugin seja corrigido, pois a
falha compromete realmente o sistema de busca no Wordpress.
5.2 Licença de Imagens em Blogs e outras Redes
A cada ano que passa, aumentam-se mais os problemas com plágios, especialmente em mídias
digitais. É raro encontrar um designer que nunca teve problemas na web com cópias de seus
trabalhos. (BIZER, et al, 2007).
Ao contrário do que se imagina, gente ―grande‖ também plagia. Num passado recente
acompanhamos o caso do portal R7 que plagiou o layout de seu concorrente direto, o G1. Este
é apenas um exemplo dos muitos casos. Mas quando o assunto é conteúdo autoral publicado
em blog e matérias gráficos para mídias diversas, a frequência tende a ser maior.
Isso acontece, geralmente porque as pessoas buscam uma forma rápida de conseguir audiência
(no caso de um blog) ou de ganhar dinheiro fácil (no caso de outros trabalhos). O código
penal brasileiro (art.184) prevê uma pena nada ―simbólica‖ para os copiadores, que pode ir
desde uma multa até um ano de detenção (Dji, 2010).
Este estudo de caso mostrará como é possível a realização de buscas a imagens, que possuem
a licença Creative Commons. Na Seção 5.2.1 são analisadas as tecnologias utilizados, na
Seção 5.2.2 é mostrado a arquitetura, na Seção 5.2.3 a implementação e, por fim na Seção
5.2.4 o resultado.
5.2.1 Análise de Tecnologias
Para este estudo de caso foi utilizado o blog Wordpress, a biblioteca Backplanejs e o plugin
image license.
O Wordpress extremamente flexível e fácil de interagir com o usuário comum, já possui um
plugin para licença de imagens, o plugin image license, assim que ativado sem nenhuma
dificuldade permite a inserção do código da licença correspondente na aba texto. E, por fim, a
74
biblioteca Backplanejs que quando é adicionada ao código possibilitará através da query
montada realizar a busca pelo criador da imagem, neste estudo.
5.2.2 Arquitetura
A arquitetura deste estudo de caso quanto às licenças foi composta pelo blog Wordpress, o
plugin image license e a biblioteca Backplanejs.
75
Figura 36 - Arquitetura do estudo de caso do Creative Commons.
76
No passo 1 está a Figura que representa o blog, no passo 2 o código que é inserido pelo plugin
image licenser e por último no passo 3 a biblioteca Backplanejs que é representada pela query
SPARQL.
5.2.3 Implementação
A licença Creative Commons pode ser inserida de duas maneiras, graças à flexibilidade do
blog Wordpress. Com a ativação do plugin pelo painel de controle do blog, é habilitada a aba
text no menu Widgets, como mostra a Figura 37.
Figura 37 - Painel de controle do Wordpress.
Depois de habilitado o widget text, é só arrastá-lo para o menu ―sidebar1” a direita do painel
como mostra a Figura 38.
77
Figura 38 - Painel de controle do Wordpress
Depois de realizados os passos anteriores, basta inserir o código da licença requerida que deve
ser gerado no site oficial da Creative Commons, o link do site é
http://creativecommons.org/choose/. Como mostram as figuras 39 e 40, é só preencher o
formulário determinado e copiar o código gerado para o widget text.
78
Figura 39 - Formulário do site da Creative Commons.
Fonte: Imagem extraída do site Creative Commons, 2010.
79
Figura 40 - Formulário do site da Creative Commons.
Fonte: Imagem extraída de: site Creative Commons, 2010.
O que foi mostrado é apenas um dos caminhos possíveis para inserir a licença no blog. No
entanto, o caminho mostrado limita-se a licenciar todo e qualquer conteúdo do blog sem
distinção. A outra forma de inserir a licença é individualizando cada conteúdo postado. É
possível que a licença seja diferente para cada conteúdo postado no blog e para isso basta
seguir os próximos passos.
80
Usando o painel do blog adicione o URL da imagem desejada no formulário que indica a
Figura 41.
Figura 41 - Formulário para inserir imagens.
Na sequência gere o código no site oficial da Creative Commons e copie-o na aba HTML da
edição do blog como mostra a Figura 42.
81
Figura 42 - Espaço indicado para a inserção de código fonte.
Tendo seguido todos os passos indicados anteriormente, a sua imagem estará licenciada pela
Creative Commons.
5.2.4 Resultados
Creative Commons é uma ferramenta que pode ajudar a publicar um determinado trabalho
online, deixando claro o que pode e o que não pode fazer com esse determinado trabalho.
(BIZER, et al, 2007). Com uma licença Creative Commons, é possível manter os direitos
autorais, mas permitir que as pessoas copiem e distribuam o seu trabalho desde que elas lhe
deem o crédito, e somente nas condições que forem especificadas. (Creative Commons,
2010).
Quando se escolhe uma licença, são fornecidos ferramentas e tutoriais que permitem adicionar
informações sobre a licença para o seu próprio site, ou um dos vários serviços de hospedagem
gratuita que incorporam Creative Commons.
RDFa foi a maneira escolhida para fazer a máquina licença legível neste estudo de caso. Ao
utilizar RDFa Creative Commons, objetos licenciados podem ser descobertos pelos motores
de buscas e mecanismos de autodescoberta,como mostra a Figura 43.
82
Figura 43 - Figura licenciada pela Creative Commons.
Na Figura 44 está representado a query SPARQL que foi montada para identificar o criador
(sublinhado de amarelo) ―Mikeaxelrod‖, o dono da imagem mostrada no post representado na
Figura 43.
83
Figura 44 - Query responsável pela identificação da imagem do blog.
Esse estudo mostrou as vantagens da marcação RDFa na busca por figuras licenciadas pela
Creative Commons, e também, as possíveis formas de licenciar um post no Wordpress.
5.3 Rede Social para Compartilhamento de Slides
Slideshare é uma rede social que foi desenvolvida com o intuito de enviar, compartilhar,
apresentações de PowerPoint e Keynote, Word e PDF em documentos slideshare. As
apresentações podem estar ligadas ao próprio site ou então incorporadas a uma página web.
Também é possível sincronizar um arquivo de áudio MP3 (podcast) com o slidset para criar
um slidecast. É considerada a forma mais poderosa de distribuição de apresentações/tutoriais
(Slideshare, 2010).
Slideshare incorporou a marcação semântica RDFa em seu código o que possibilitou uma
maior interoperabilidade entre as ferramentas de busca que queiram implementar a
funcionalidade do Slideshare. No entanto, uma busca por material disponível no Slideshare
terá o mesmo comportamento sintático do exemplo de busca da Google, mostrado no primeiro
estudo de caso. Isso se deve ao fato de que a marcação semântica do Slideshare foca apenas a
interoperabilidade entre as ferramentas de busca que queiram implementar funcionalidades.
84
Figura 45 - Busca realizada pelo site do Slideshare.
Fonte: Imagem extraída de: site Slideshare, 2010.
Neste exemplo foi realizada uma busca pelo autor ―Mark Birbeck‖, quem costuma
disponibilizar os seus slides de apresentações sobre semântica que faz pelo mundo a fora. O
resultado desse experimento não foi diferente do realizado anteriormente no site da Google,
muito insatisfatório. Devido à falta de marcação semântica apropriada para a visualização
humana, a busca não foi bem sucedida em meio ao conteúdo solicitado, veio muito ―lixo‖.
Observe que alguns dos slides apresentados na Figura 45 não possuem a assinatura do autor
Mark Birbeck, portanto, o fato de estarem no resultado desta busca reafirma a ineficiência do
sistema de busca na atual World Wide Web (WWW).
85
5.3.1 Análise de Tecnologias
Para este estudo de caso foi utilizado o código fonte de uma página do Slideshare, onde em
meio ao código foi feito a referência à biblioteca Backplanejs que permitiu a criação da query
SPARQL inserida na página para a realização dos testes de buscas semântica. Além da
chamada a classe Cascading Style Sheets (CSS) que tem a função de sublinhar de amarelo o
resultado da busca.
5.3.2 Arquitetura
O modelo de arquitetura representa de forma figurativa, as ferramentas que foram utilizadas
neste estudo de caso. O objetivo é mostrar as tecnologias integradas em busca de um
denominador comum.
86
Figura 46 - Arquitetura do estudo de caso do Slideshare.
O passo 1 da Figura está sendo representado pela página do Slideshare. Já o passo 2
representa a marcação semântica RDFa da página mostrada no passo um. E, por fim, no passo
3 está o código SPARQL representando a biblioteca Backplanejs encarregada por fazer a
busca semântica.
87
5.3.3 Implementação
A implementação deste estudo de caso deu-se seguindo os mesmos passos da implementação
da Seção 5.1.2.4. O principal diferencial é que o código testado neste estudo de caso não foi
gerado pelo plugin wp-RDFa. O teste foi realizado com o código do site do Slideshare que já
se encontra marcado com RDFa.
Para a realização efetiva do teste semântico na página do Slideshare, como também no
primeiro estudo de caso, foi utilizado um recurso de implementação para simular um buscador
web. Em meio ao código, especificamente dentro da tag <head>, foi adicionada a biblioteca
da Backplanejs e a chamada do CSS, cujo objetivo é sublinhar de amarelo o resultado da
busca. Veja na Figura 47 o exemplo.
Figura 47 - Script da biblioteca Backplanejs e a chamada CSS na página.
Uma vez tendo inserido no cabeçalho a chamada a biblioteca Backplanejs e referenciado a
classe CSS, para finalizar a implementação do simulador é só inserir a query SPARQL que se
encarregará de encontrar o atributo solicitado no momento da busca. Vejamos o código:
88
Figura 48 - Código de busca SPARQL.
Essa estrutura de busca trouxe o autor das publicações inseridas no corpo da página. Assim,
realizados os passos indicados, bastou executar o arquivo HTML no browser, de preferência o
Firefox, pois, o CheckRDFa (serviço que verifica as triplas existentes na página) não funciona
no Explorer e não foi testado noutros browsers, e aguardar o resultado.
5.3.4 Resultados
Tendo seguido todo processo, passa-a-passo explicado na Seção 5.3.2, o resultado será igual o
mostrado na Figura 49.
89
Figura 49 - Resultado da busca no site Slideshare.
Fonte: Imagem extraída de: site Slideshare, 2010.
A query desse estudo de caso foi montada para identificar o criador da página, Mark Birbeck.
Como é possível visualizar o seu nome sublinhado de amarelo. Esse é o resultado da
simulação de uma busca bem sucedida.
No decorrer dos testes, foi constatado que a sintaxe nas marcações semânticas do Slideshare
pode ser melhorada através da integração entre o conteúdo para humanos e para máquinas,
como mostra a seguir, a Figura 50.
90
Figura 50 - Código da página do Slideshare.
Visualizando as propriedades do RDFa da página foi identificado triplas incompletas, o que
comprometem o funcionamento correto do que é proposto pela estrutura RDF, como ilustra a
Figura 51.
Figura 51 - Modelo de tripla RDF.
A proposta do RDF é que haja o sujeito, o predicado e o objeto. Não apenas, o sujeito e
predicado como mostra a Figura 52. A Figura 52 representa a marcação semântica que é
gerada pelo blog Slideshare atualmente.
Figura 52 - Modelo de tripla RDF incompleta.
91
Dessa forma, o usuário fica impossibilitado de visualizar e de fazer buscas eficientes no
conteúdo da página.
92
6 CONSIDERAÇÕES FINAIS
Este trabalho apresentou um estudo de caso sobre a aplicação da Web Semântica nas redes
sociais.
Este capítulo está dividido como segue: a Seção 6.1 apresenta as Contribuições e Conclusões
e a Seção 6.2 apresenta trabalhos futuros.
6.1 Contribuições e Conclusões
As contribuições deste Trabalho foram:
a) a avaliação de vocabulários da web semântica;
b) a avaliação de ferramentas de edição de conteúdo semântico;
c) a avaliação de ferramentas de busca semântica;
d) um estudo de casos sobre a aplicação de web semântica nas redes sociais
contendo.
a) otimização do sistema de busca;
b) licença de imagens em blogs e outras redes;
c) rede social e compartilhamento de slides.
A partir destas contribuições, pode-se concluir que:
a) as buscas serão mais específicas, a partir do momento em todas as camadas
correspondentes que compõem a arquitetura da Web Semântica estiverem
prontas, e os documentos da Web estejam marcados semanticamente. Essa
afirmação está embasada nos estudos de casos realizados nesse trabalho, que
provam a eficácia da marcação semântica;
b) numa busca semântica por imagens, é possível trazer apenas as que possuem a
licença Creative Commons;
c) as redes sociais são meios extraordinários no compartilhamento de
experiências, sobretudo no compartilhamento de material de estudos;
93
d) as ferramentas avaliadas se mostraram efetivas na integração da Web
Semântica nas redes sociais.
A seguir são apresentadas experiências obtidas ao longo do desenvolvimento deste Trabalho:
a) no decorrer dos testes, foi constatado que a sintaxe nas marcações semânticas
do Slideshare pode ser melhorada através da integração entre o conteúdo para
humanos e para máquinas;
b) o plugin wp-RDFa do Wordpress pode ser melhorado através da separação de
sintaxe para o entendimento humano e máquina (computador).
6.2 Trabalhos Futuros
As contribuições alcançadas com este Trabalho não encerram as pesquisas relacionadas à
Web Semântica, mas abrem oportunidades para alguns Trabalhos futuros:
a) aperfeiçoar sistemas de recomendação em sites de comércio eletrônico,
descrevendo semanticamente os produtos e as opiniões dos clientes;
b) desenvolver uma agenda semântica, que ajude o usuário no gerenciamento de
viagens, compromisso, reserva em hotéis e outros;
c) desenvolver um portal semântico que compare preços de produtos de diferentes
lojas;
d) integrar as informações de diferentes redes sociais através de um vocabulário
semântico unificado.
94
REFERÊNCIAS BIBLIOGRÁFICAS
ARAÚJO, Vânia M. R. H. Sistemas de recuperação da informação: nova abordagem teórico
conceitual. Ciência da Informação, Brasília, v. 24, n. 1, 1995. Disponível em:
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019652004000100016&lng=en
&nrm=iso . Acesso em: mai. 2010.
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web . Scientific American.
284, n. 5, p. 34-43, 2001.
BERNERS-LEE, T.; SHADBOLT, N.; HALL, W. The Semantic Web Revisited. Intelligent
Systems May/ June 2006.
BAEZA-YATES R., RIBEIRO-NETO B. Modern Information Retrieval. 1999.
BRICKLEY, D. RDF Vocabulary Description Language 1.0: RDF Schema (2004).
<http://www.w3.org/TR/RDF-schema/>. Acesso em: fev. 2010.
BERNERS-LEE, T. The Semantic Web. 2002. Disponível em: <http://
www.w3.org/2002/Talks/04-sWeb-sloan/Overview.HTML>. Acesso em: Nov. 2009.
BERNERS-LEE, T.; MASINTER, L.; MCCAHILL, M. Uniform Resource Locators (URL).
RFC Sourcebook, n.1738, mar. 1994. Disponível em:
<http://www.networksorcery.com/enp/rfc/rfc1738.txt>. Acesso em: Nov 2009.
BERNERS-LEE, T. ET AL. The Semantic toolbox: building semantics on top of XML -RDF.
Disponível em: <http://www.w3.org/ DesignIssues/Toolbox.HTML>. Acesso em: mai. 2010.
BRICKLEY, D. et al. RDF vocabulary description language 1.0: RDF schema. . W3C
recommendation, 10 fev. 2004. Disponível em: <http:// www.w3.org/TR/2004/REC-RDF-
schema-20040210>. Acesso em: nov. 2009.
BACKPLANEJS. < http://code.Google.com/p/Backplanejs/>. Acesso em: abril 2010.
95
BIZER, C., CYGANIAK, R., HEATH, T.: How to publish Linked Data on the Web (2007),
<http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/>. Acesso em: mai. 2010.
CLARK, K. G. SPARQL Protocol for RDF. W3C Working Draft, Set.2005. Disponível em:
<http:// www.w3.org/TR/2005/WD-RDF-SPARQL-protocol-20050914>. Acesso em: nov.
2009.
CREATIVE COMMONS. < http://www.creativecommons.com>. Acesso em: abril 2010.
CHADRASEKARAN, B., JOSEPHSON, J., e BENJAMINS, V. What are ontologies, and
why do we need them? Intelligent Systems and Their Applications, IEEE Intelligent Systems,
vol. 14, no. 1, pp. 20-26. 1999.
CORCHO, O., GÓMEZ-PÉREZ, A. Ontology Languages for the Semantic Web. IEEE
Intelligent Systems, January/February, vol. 17, nº. 1.
DANAH M., NICOLE B. ELISIO. Social Network Sites: Definition, History,
and Scholarship. Michigan State University, 2007.
DBPIDIA. <http://www.dbpedia.org/>. Acesso em: out. 2009.
DJI. < http://www.dji.com.br/codigos/1940_dl_002848_cp/cp184a186.htm>. Acesso em:
abril. 2010.
DUBLIN CORE METADATA INITIATIVE. Disponível em: <http:/www.dublincore.org.>.
Acessado em: abril. 2010.
DING, L; FININ, T; JOSHI, A; PAN, R; COST, R; PENG, Y; REDDIVARI, P; DOSHI, V;
SACHS, J. Swoogle: a Search and Meta data Engine For The Semantic Web . Proceedings of
the Thirteenth ACM conference on Information and knowledge management, p.652-659,
2004.
EUZENAT, J. Eight Questions about Semantic Web Annotations. IEEE Intelligent
Systems. v. 22, n. 2, p. 55-62, mar. 2002.
96
F. L. G. FREITAS. Ontologia e a Web Semântica. Mini Curso no XIII Congresso de
Sociedade Brasileira de Computação, 2003. Campinas. 1-52 p.
FOAF. <http://xmlns.com/FOAF/0.1/>. Acesso em: mar. 2010.
FOAF-a-Matic. <http://www.ldodds.com/FOAF/FOAF-a-matic. Acesso em Mai 2010>.
Acesso em: mai. 2010.
GOMES, M. J. (2005). Blogs: um recurso e uma estratégia educativa. In Actas do VII
Simpósio Internacional de Informática Educativa, SIIE, pp. 305-311.
GRUNINGER, M.; LEE, J.; - Introduction to the Ontology Application and Design section –
guest editors – Communications of the ACM – February, Vol. 45, No.2 February 2002 –
pp.39-41.
HERMANS, B. Intelligent software agents on the Internet: an inventory of currently offered
functionality in the information society & a prediction of (near-) future developments,
Tilburg, Holanda: Tilburg University, 1996. Disponível em:
<http://www.hermans.org/agents>. Acesso em: jun. 2010.
HENDLER, J.A. Agents and the Semantic Web, IEEE Intelligent Systems, 2001, pp. 30-37.
HENDLER, J. E MCGUINNESS, D. DARPA Agent Markup Language. IEEE Intelligent
Systems, 15(6), 2000.
HASSANZADEH, O., et al.: A Declarative Framework for Semantic Link Discovery over
Relational Data. Poster at 18th
World Wide Web Conference (2009).
IDG Now. <http://idgnow.uol.com.br/>. Acesso em: abril. 2010.
KRUK, S. R. ET AL. JeromeDL reconnecting digital libraries and the Semantic Web.
Disponível em: <http://www.marcont.org/marcont/pdf/www2005_jeromedl.pdf>. Acesso em:
nov. 2009.
97
LEARNING TECHNOLOGY STANDARDS COMMITTEE of the IEEE, New York,
15/07/2002. Draft Standard for Learning Object Metadata. Disponível em:
<http://ltsc.ieee.org/wg12/index.HTML/>. Acesso em: jan. 2010.
LASSILA, O; HENDLER, J. Embracing Web 3.0. Internet Computing, IEEE, 11(3):90–
93, 2007.
LINDEN, G., et al., Amazon.com Recommendations, IEEE Internet Computing, 2003.
MANOLA, F; MILLER, E. RDFPrimer. <http://www.w3.org/2001/sw/>. Acesso em mar.
2010.
MOREIRA, Alexandra; ALVARENGA, Lídia; OLIVEIRA, Alcione de Paiva. O nível do
conhecimento e os instrumentos de representação: tesauros e ontologias. Datagramazero:
Revista de Ciência da Informação, v. 5, n. 6, dez. 2004. Disponível em
<www.dgzero.org/dez04/Art_01.htm>. Acesso em: mai. 2010.
MARCHIORI, Massimo. The limits of Web metadata, and beyond. In: INTERNATIONAL
WORLD WIDE WEB CONFERENCE, 7., 1998. Computer networks and ISDN systems, v. 30.
p. 1-9.
NOY, N.; SINTEK, M.; DECKER, S.; CRUBEZY, R.; FERGERSON, R.; MUSEN,
A. – Creating Semantic Web Contents with Protégé 2000 – IEEE Intelligent Systems Vol. 16
No. 2, 2001. pp. 60-71.
OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: novo desafio para os
profissionais da informação. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS
UNIVERSTÁRIAS. Disponível em
<http://www.sibi.ufrj.br/snbu/snbu2002/oralpdf/124.a.pdf>. Acesso em: mai. 2010.
PRUD'HOMMEAUX, E.; SEABORNE, A. SPARQL query language for RDF. W3C working
draft, 21 July 2005. Disponível em: <http:// www.w3.org/TR/2005/WD-RDF-SPARQL-
query-20050721>. Acesso em: nov. 2009.
98
PRUD'HOMMEAUX, E.; SEABORNE, A. SPARQL query language for RDF. Technical
report, W3C, 2006. W3C Candidate Recommendation, <http://www.w3.org/TR/RDF-
SPARQL-query/>. Acesso em jun. 2010.
PHIL TETLOW ET. AL. (ed.). ―Ontology Driven Architectures and Potential Uses of The
Semantic Web in Software Engineering‖. W3C Working Draft (21/09/2005)
<http://www.w3.org/2001/sw/BestPractices/SE/ODA/>. Acesso em: Mai 2010.
RDFQUERY. < http://code.Google.com/p/RDFQuery/>. Acesso em: abril. 2010.
REDES SOCIAIS: < http://en-
us.nielsen.com/main/news/news_releases/2009/june/time_on_facebook>. Acesso em: dez.
2009.
SHADBOLT, N.; BERNERS-LEE, T. Despontar da. Revista Scientific American. nov. 2008.
SIMAC; MUSICSURFER. Foafing The Music. 2006. Disponível em: <http://foafing-the-
music.iua.upf.edu/ISWC2006/index.HTML>. Acesso em: abril 2010.
SLIDESHARE. <http://www.Slideshare.net/>. Acesso em: abril 2010.
SIMAC. <http://ocelma.livejournal.com/>. Acesso em: abril 2010.
SUN MICROSYSTEMS. <http://java.sun.com/>. Acessado em: out. 2009.
SILVA, G. H. Construção de Agentes Inteligentes para a Web Semântica. Monografia
trabalho de formatura supervisionado, IME-USP. Brasil, 2004.
SOUZA, R; ALVARENGA, L. A Web Semântica e Suas Contribuições para a Ciência da
Informação. Ciência da Informação, 33(1), 2004.
SNOOGLE. <http://snoggle.projects.semWebcentral.org/>. Acesso em fev. 2010.
TWITTER: <www.ibm.com>. Acesso em: Dez. 2009.
99
T. SEGARAN, C. EVANS, AND J. TAYLOR. Programming The Semantic Web . O’Reilly,
Cambridge MA, 2009.
THE MIT LICENSE. < http://www.opensource.org/licenses/mit-license.php>. Acesso em:
mai. 2010.
THE NEW YORK TIMES. http://www.nytimes.com/>. Acesso em: mar. 2010.
W3C. World Wide Web Consortium. <http://www.w3.org/>. Acesso em: out. 2009.
WORDPRESS. < http://br.Wordpress.org/>. Acesso em: mar. 2010.
WEIBEL, F. < http://www.fibl.org/de/mitarbeiter/weibel-franco.HTML>. Acesso em: mar.
2010.
W3. <http://www.w3.org/2001/sw/>. Acesso em: mar. 2010.
Wp-RDFa. < http://dev.squarecows.com/projects/wp-RDFa/>. Acesso em: abril 2010.
WIDERHOLD, G. Mediators in the Architecture of Future Information Systems. IEEE
Computer. Pp.38-49, 1992.
YAHOO developer. <http://developer.yahoo.com/searchmonkey/>. Acesso em: abril. 2010.