ESTUDO DE CASOS SOBRE A APLICAÇÃO DA WEB SEMÂNTICA NAS REDES SOCIAIS

FACULDADE DE TECNOLOGIA DE SÃO JOSÉ DOS CAMPOS

PERPÉTUO RODRIGUES PEIXINHO

ESTUDO DE CASOS SOBRE A APLICAÇÃO DA WEB SEMÂNTICA NAS REDES

SOCIAIS

SÃO JOSÉ DOS CAMPOS

2010

II



SOCIAIS

Trabalho de graduação apresentado à Fatec

de São José dos Campos, como parte dos

requisitos necessários para a obtenção do

título de Tecnólogo em Banco de Dados

Orientador: Giuliano Araujo Bertoti, Me

SÃO JOSÉ DOS CAMPOS

2010

III



SOCIAIS

Trabalho de graduação apresentado à Fatec

de São José dos Campos, como parte dos

requisitos necessários para a obtenção do

título de Tecnólogo em Banco de Dados

Orientador: Giuliano Araujo Bertoti, Me

Adriana da Silva Jacinto, Me

Érica Ferreira de Souza, Me

Giuliano Araujo Bertoti, Me

--/--/--

DATA DE APROVAÇÃO

IV

Dedico este trabalho às pessoas que me apoiaram e me derem

condições de galgar êxito na sociedade letrada, Fernando Ferri,

Mônica Ferri e família. A minha mãe, aos professores, professoras

e amigos que muito contribuíram para a minha formação,

dos quais tenho boas lembranças.

V

AGRADECIMENTOS

Eu tenho muito que agradecer, a começar pelo fato de estar vivo, e de poder

compartilhar este trabalho com outros seres, iguais a mim, que gostam de se

apoderarem dos conhecimentos herdados de nossos antepassados. Eles são meus

heróis e merecem meus agradecimentos, todos eles, aos seres humanos que viveram

antes de mim, o meu muito obrigado!

Aos que participaram de minha vida, de forma direta, quero agradecer muito a

minha mãe, que nas horas difíceis, manteve firmemente a vontade de escolarizar os

filhos.

Quero muito agradecer também aos meus amigos e conselheiros Fernando Ferri,

Mônica Ferri e família que, em todos os momentos, estiveram ao meu lado

apoiando e incentivando para que eu pudesse concluir essa jornada. Ao professor

Giuliano Araujo Bertoti, por ter dedicado seu precioso tempo e acreditado no

sucesso desse projeto. Obrigado a todos!

VI

"Tecnologia é a habilidade de organizar o mundo

De forma que não tenhamos que senti-lo."

(Max Frisch)

VII

RESUMO

A Web encontra-se abarrotada de documentos e continua a aumentar de forma exponencial.

Esse quadro tem se agravado desde o surgimento da Web 2.0, onde muitos usuários tornaram-

se publicadores de conteúdo, levando ao caos os sistemas de buscas. A ineficiência nos

sistemas de buscas ocorre porque o conteúdo das páginas não é descrito semanticamente. A

solução para este problema está nos padrões e tecnologias da Web Semântica, que

possibilitam a marcação do conteúdo. O objetivo deste Trabalho é realizar um estudo de caso

sobre a aplicação da Web Semântica nas redes sociais.

Palavras-chave: Web Semântica, Redes Sociais, RDF.

VIII

ABSTRACT

The Web meets overloaded of documents and it continues to increase exponentially. This

environment has been aggravated since the beginning of Web 2.0, where each simple user

became a content generator, leading to the chaos the systems of web searches. The

inefficiency in the systems of web searches occurs because the content of the pages is not

described semantically. The solution for this problem lives in the semantics Web, making

possible the marking of the content. The aim of this work is to carry through a study case on

the application of the Semantics Web in the social nets works.

Keywords: semantic web, social networks, RDF.

IX

SUMÁRIO

1 INTRODUÇÃO .............................................................................................................. 16

1.1 Motivação ..................................................................................................................... 16

1.2 Objetivos ....................................................................................................................... 17

1.2.1 Objetivo Geral ...................................................................................................... 17

1.2.2 Objetivos Específicos ........................................................................................... 18

1.3 Metodologia .................................................................................................................. 18

1.4 Organização do Trabalho.............................................................................................. 19

2 WEB SEMÂNTICA: TECNOLOGIAS, APLICAÇÕES E FERRAMENTAS ....... 20

2.1 Web Semântica ............................................................................................................. 20

2.2 Padrões da Web Semântica .......................................................................................... 22

2.2.1 RDF ...................................................................................................................... 25

2.2.2 RDFa (Resource Description Framework in attributes) ....................................... 30

2.2.3 SPARQL ............................................................................................................... 33

2.3 Aplicações da Web Semântica ..................................................................................... 35

2.3.1 Busca Semântica ................................................................................................... 35

2.3.1.1 Rich Snippets ................................................................................................ 37

2.3.1.2 Search Monkey Yahoo ................................................................................. 38

2.3.1.3 Wiki Semântica ............................................................................................ 38

2.3.1.4 Conhecimento Global Engenharia ................................................................ 39

2.3.1.5 A música do amigo de um amigo ................................................................. 39

2.3.1.6 DBPedia ........................................................................................................ 39

2.4 Considerações Finais .................................................................................................... 40

3 REDES SOCIAIS ........................................................................................................... 41

3.1 Introdução ..................................................................................................................... 41

3.2 Blog .............................................................................................................................. 44

3.2.1 Wordpress ............................................................................................................. 46


4 AVALIAÇÃO DE TECNOLOGIAS E PADRÕES DA WEB SEMÂNTICA .......... 49

4.1 Vocabulários ................................................................................................................. 49

X

4.1.1 FOAF .................................................................................................................... 51

4.1.2 Dublin Core .......................................................................................................... 54

4.1.3 Creative Commons ............................................................................................... 58

4.2 Edição de Conteúdo ...................................................................................................... 60

4.2.1 Wp-RDFa ............................................................................................................. 60

4.2.2 Image Licenser ..................................................................................................... 61

4.3 Busca Semântica ........................................................................................................... 61

4.3.1 Backplanejs ........................................................................................................... 61


5 ESTUDO DE CASOS ..................................................................................................... 63

5.1 Otimização de Sistemas de Busca ................................................................................ 63

5.1.1 Análise de Tecnologias ......................................................................................... 65

5.1.2 Arquitetura ............................................................................................................ 65

5.1.3 Implementação...................................................................................................... 67

5.1.4 Resultado .............................................................................................................. 68

5.2 Licença de Imagens em Blogs e outras Redes .............................................................. 73


5.2.2 Arquitetura ............................................................................................................ 74

5.2.3 Implementação...................................................................................................... 76

5.2.4 Resultados ............................................................................................................. 81

5.3 Rede Social para Compartilhamento de Slides............................................................. 83


5.3.2 Arquitetura ............................................................................................................ 85

5.3.3 Implementação...................................................................................................... 87

5.3.4 Resultados ............................................................................................................. 88

6 CONSIDERAÇÕES FINAIS ......................................................................................... 92

6.1 Contribuições e Conclusões.......................................................................................... 92

6.2 Trabalhos Futuros ......................................................................................................... 93

REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................... 94

XI

LISTA DE FIGURAS

Figura 1 - Arquitetura proposta para a Web Semântica. .......................................................... 23

Figura 2 - Um Grafo RDF descrevendo Eric Miller ................................................................. 26

Figura 3 - mostra que o RDF usa URIs para identificar. .......................................................... 27

Figura 4 - mostra a estrutura subjacente de uma expressão RDF. ............................................ 28

Figura 5 - RDF sendo representado com um nó em branco. .................................................... 29

Figura 6 - Exemplo de marcação do site Amazon. ................................................................... 31

Figura 7 - Codificação da resenha em HTML. ......................................................................... 32

Figura 8 - Exemplo de marcação RDFa em notação padrão XML. ......................................... 32

Figura 9 - Dado. ........................................................................................................................ 34

Figura 10 - Consulta. ................................................................................................................ 34

Figura 11 - Resultado. .............................................................................................................. 34

Figura 12 - Representa a indexação de documentos na Web Semântica.................................. 36

Figura 13 - Representação de uma rede social. ........................................................................ 42

Figura 14 - Redes sociais por continentes. ............................................................................... 43

Figura 15 - Redes sociais por países. ........................................................................................ 44

Figura 16 - Perspectiva para adição de novos posts do Wordpress. ......................................... 47

Figura 17 - Perspectiva para adição de novos plugins do Wordpress. ..................................... 47

Figura 18 - Vocabulários semânticos. ...................................................................................... 50

Figura 19 - Ilustração de funcionamento do vocabulário FOAF. ............................................. 52

Figura 20 - Elementos FOAF em meio ao HTML. .................................................................. 53

Figura 21 - Crescimento da web, dados de Setembro de 1995 a Junho de 2008. .................... 55

Figura 22 - Arquitetura do DC (Dublin Core). ......................................................................... 56

Figura 23 - Exemplo simples de Dublin Core. ......................................................................... 57

Figura 24 - Exemplo de código RDFa Creative Commons. ..................................................... 60

XII

Figura 25 - Código para referenciar a biblioteca Backplanejs. ................................................ 62

Figura 26 - Exemplo de busca com tags no Google. ................................................................ 64

Figura 27 - Arquitetura do estudo de caso do blog Wordpress. ............................................... 66

Figura 28 - Código da página do Blog Wordpress com RDFa. ................................................ 67

Figura 29 - Exemplo de busca semântica no blog Wordpress. ................................................. 69

Figura 30 - Exemplo de busca pelo título do post no blog Wordpress. .................................... 70

Figura 31 - Exemplo de busca da data do post no blog Wordpress.......................................... 71

Figura 32 - Exemplo de busca do plugin wp-RDFa no blog Wordpress. ................................. 71

Figura 33 - Código gerado incompleto pelo plugin wp-RDFa no blog Wordpress. ................ 72

Figura 34. Formação correta, um verbo para cada objeto. ....................................................... 72

Figura 35 - Código corrigido manualmente. ............................................................................ 72

Figura 36 - Arquitetura do estudo de caso do Creative Commons. .......................................... 75

Figura 37 - Painel de controle do Wordpress. .......................................................................... 76

Figura 38 - Painel de controle do Wordpress ........................................................................... 77

Figura 39 - Formulário do site da Creative Commons. ............................................................ 78

Figura 40 - Formulário do site da Creative Commons. ............................................................ 79

Figura 41 - Formulário para inserir imagens. ........................................................................... 80

Figura 42 - Espaço indicado para a inserção de código fonte. ................................................. 81

Figura 43 - Figura licenciada pela Creative Commons. ........................................................... 82

Figura 44 - Query responsável pela identificação da imagem do blog. ................................... 83

Figura 45 - Busca realizada pelo site do Slideshare. ................................................................ 84

Figura 46 - Arquitetura do estudo de caso do Slideshare. ........................................................ 86

Figura 47 - Script da biblioteca Backplanejs e a chamada CSS na página. ............................. 87

Figura 48 - Código de busca SPARQL. ................................................................................... 88

Figura 49 - Resultado da busca no site Slideshare. .................................................................. 89

Figura 50 - Código da página do Slideshare. ........................................................................... 90

XIII

Figura 51 - Modelo de tripla RDF. ........................................................................................... 90

Figura 52 - Modelo de tripla RDF incompleta. ........................................................................ 90

XIV

LISTA DE TABELAS

Tabela 1 - Ranking das redes sociais mais acessadas no mundo.............................................. 45

Tabela 2 - Representação das licenças Creative Commons. .................................................... 59

XV

LISTA DE ABREVIATURAS E SIGLAS

AJAX: Asynchronous Javascript And XML

CSS: Cascading Style Sheets

DC: Dublin Core

DOAP: Description of a Project

DAWG: Data Access Working Group

DLG: Directed Labeled Graphs

EARL: Evaluation and Report Language

FOAF: Friend of a friend

GPL: Geral Pública Licença

GUI: Interface gráfica de usuário

HTML: Hiper Text Markup Language

ISBN: National Standard Book Number

IBM: International Business Machines

NCSA: National Center for Supercomputing Aplications

OCLC: Online Computer Library Center

OWL: Online Web Learning

RDF: Resource Description Framework

RDFa: Resource Description Framework in attributes

RSS: Really Simple Syndication

SIOC: Semantically-Interlinked Online Communities

SPARQL: Sparql Protocol and RDF Query Language

SKOS: Simple Knowledge Organization System

URI: Uniform Resource Identifier

URL: Uniform Resource Locator

URN: Uniform Resource Name

XML: Extensible Markup Language

XHTML: Extensible Hypertext Markup Language

W3C: World Wide Web Consortium

WWW: World Wide Web

16

1 INTRODUÇÃO

1.1 Motivação

Publicar informações na web nunca foi tão fácil (Wordpress, 2010). Com a proliferação de

sistemas de gerenciamento de conteúdo (Gomes, 2005), plataformas online de blogs,

microblogging e outros tornaram-se possível para qualquer indivíduo, pequenas empresas,

organizações de qualquer natureza tornar-se uma parte da web .

Essa popularização ocasionou num crescimento exponencial da web dificultando a indexação

das informações. A indexação não é possível por meio do uso da linguagem de marcação

(Hiper Text Markup Language) HTML, que ficou popular nos anos 90 e ainda é utilizada pela

maioria dos sites, mesmo não possuindo recursos que lhe permita atribuir significado à

informação (Baeza, 1999).

Essa limitação por parte das páginas HTML traz um grande problema, devido à inexistência

de marcações semântica nas atuais páginas, fazendo com que as mesmas sejam entendidas

apenas pelos humanos e não fazendo sentido para os programas de computador que ainda

estão muito distantes de imitar o funcionamento da mente humana (Berners-Lee, 2001).

Você em algum momento abriu a página da Google, digitou uma palavra-chave e obteve

como conteúdo exatamente aquilo de que procurava? Certamente não. Pois é, essa é a

realidade da web hoje. O cenário a seguir exemplifica muito bem a dificuldade que temos

para encontrar a informação desejada. Imagine que você esteja buscando informações sobre

metrópoles brasileiras na Internet. Entre com a palavra "metrópoles" num programa de busca

e virão respostas tão variadas quanto a revista Metrópoles, a rádio Metrópoles, o shopping

Metrópoles, sobre pesquisa e políticas de migração e cidades entre outras. Isto porque os

programas não distinguem o significado do filme e da revista ou do centro de pesquisas. É

claro que você pode (aliás, deve) combinar ―metrópoles‖ com outras palavras-chave,

acrescentando ou excluindo termos que permitam refinar a busca, preferencialmente

indicando também outros parâmetros, como data, língua ou domínio, que muitos programas

aceitam na função de "busca avançada". Ainda assim, o resultado é muitas vezes desolador.

São dezenas (às vezes milhares) de páginas que não interessam, tornando difícil a tarefa de

encontrar a informação desejada.

A Web Semântica é uma tentativa de solução para esse problema (Berners-Lee, 2001). Em

vez de pensar na informação para os humanos, a ideia é pensar na máquina (programa de

17

computador). Esta é a definição de Web Semântica, segundo o "pai da Web", Tim Berners-

Lee, um dos comandantes desse projeto. A Web Semântica objetiva dar uma estrutura aos

conteúdos das páginas web, criando um ambiente onde agentes de softwares perambulam

pelas páginas para desempenhar tarefas sofisticadas requisitadas pelos usuários. Entre estas

tarefas, está a busca contextualizada da informação (Berners-Lee, 2001).

A proposta não é a de uma web separada da atual, mas uma extensão da mesma, baseada em

documentos, descrevendo relacionamentos entre objetos e contendo informação semântica

dos mesmos para automatizar o processamento pelas máquinas (Berners-Lee, 2001).

Na web há uma quantidade imensa de informações não pertinentes que é fornecida pelos

processos de busca. As ferramentas de busca enfrentam a dificuldade de executar pesquisas

entre documentos que não estão diferenciados em termos de assunto, qualidade e relevância.

A tecnologia atual não é capaz de diferenciar uma informação comercial de uma educacional,

ou informação entre idiomas, culturas e mídia. É necessário haver informações de

qualificação da própria informação, chamada de metadados, para ser possível classificá-las e

tornar os processos de buscas mais eficazes.

Imagine você, se tivesse uma web que permitisse buscar por todos os jogadores Rugby que

vivem em São José dos Campos ou nome de todos os hotéis das cidades do estado de São

Paulo situadas em altitudes inferiores a 1000 metros e obter uma resposta exata. Pois é, essa é

a proposta da Web Semântica que promete revolucionar o sistema de busca na web.

1.2 Objetivos

As seções a seguir apresentarão os objetivos deste Trabalho.

1.2.1 Objetivo Geral

O objetivo deste Trabalho é apresentar um estudo de caso sobre a aplicação da Web

Semântica nas redes sociais.

18

1.2.2 Objetivos Específicos

A seguir são apresentados os objetivos específicos deste Trabalho:

a) avaliar vocabulários de web semântica;

b) avaliar ferramentas de busca semântica;

c) avaliar ferramentas de conteúdo semântico;

d) desenvolver um estudo de caso para a otimização de sistemas de busca;

e) desenvolver um estudo de caso em blogs e outras redes;

f) desenvolver busca semântica na rede para a rede social de compartilhamento de

slides.

1.3 Metodologia

No âmbito dos testes realizados serão implementados exemplos reais a partir de marcações

semânticas inseridas pelos plugins semânticos. Esses plugins foram desenvolvidos com o

intuito de proporcionar funcionalidades a blogs, microbloggins e outros.

Neste estudo será utilizado o blog Wordpress versão 2.9.2, que já dispõe de um plugin

semântico, o wp-RDFa. Após a configuração do blog Wordpress e a integração do plugin wp-

RDFa os testes serão realizados a partir de conteúdos postados. Nesse conteúdo postado,

automaticamente é gerado a marcação semântica, e através dessa marcação serão feitas buscas

semânticas. Busca semântica é o principal foco dos estudos de casos do Capítulo 5. Neste

Capítulo será implementado um exemplo real de busca sintática contrastando com um

exemplo de busca semântica. Já o segundo estudo mostrou, através de implementações, que é

possível trazer numa busca a imagens, apenas as que estiverem sob a licença Creative

Commons. E por fim, no terceiro estudo foi implementado mais um exemplo real de busca a

material no Slideshare (site que tem o objetivo de compartilhar arquivos de apresentações

PowerPoint e Open Office com no máximo 20MB), que já dispõe de marcação semântica.

19

1.4 Organização do Trabalho

O Trabalho está organizado em 6 Capítulos:

a) o Capítulo 2 apresenta os conceitos relativos a ferramentas, tecnologias e aplicações

da web semântica;

b) o Capítulo 3 apresenta o conceito de redes sociais e apresentará algumas das principais

ferramentas utilizadas atualmente pelos internautas nos seus relatos e exposições;

c) no Capítulo 4 serão apresentados os vocabulários referentes as tecnologias utilizadas

nos estudos de casos;

d) no Capítulo 5 serão apresentados os blogs como sistemas de recomendação;

e) e por fim, no Capítulo 6, serão apresentadas as considerações finais.

20

2 WEB SEMÂNTICA: TECNOLOGIAS, APLICAÇÕES E

FERRAMENTAS

O objetivo deste Capítulo é apresentar conceitos sobre as ferramentas, tecnologias e

aplicações da Web Semântica.

Este Capítulo está organizado como segue: a Seção 2.1 apresenta a Web Semântica como a

tecnologia que mudará o conceito de web sintática para semântica. Na sequência a Seção 2.2

que faz um breve relato de algumas das aplicações existentes e a 2.2.1 mostra as

possibilidades quando se utiliza o serviço de busca inteligente.

2.1 Web Semântica

Web Semântica é um projeto, dirigido pelo World Wide Web Consortium (W3C), que

pretende embutir inteligência e contexto nos códigos Extensible Markup Language (XML)

utilizados para confecção de páginas web, de modo a melhorar a forma com que programas

podem interagir com estas páginas e também possibilitar um uso mais intuitivo por parte dos

usuários (Decker, 2000).

Desde seus primórdios o projeto Web Semântica foi concebido como um conjunto de

tecnologias relacionadas, de modo que, no ano de 2000, o W3C, tendo como seu maior

expoente Berners-Lee, divulgou publicamente a primeira proposta de arquitetura da Web

Semântica. Com base em uma série de camadas sobrepostas, onde cada camada ou tecnologia

deveria obrigatoriamente ser complementar e compatível com as camadas inferiores (W3C,

2010). E ao mesmo tempo em que não deveria depender das camadas superiores, a estrutura

idealmente escalonável indicaria os passos e as tecnologias necessárias para a concretização

do projeto Web Semântica.

Segundo Bernes-Lee (1999), o primeiro passo para o desenvolvimento da Web Semântica

seria a inclusão de dados em um formato que os sistemas computacionais pudessem

naturalmente compreender de forma direta ou indireta. Após a publicação desta definição, em

seu livro ―Weaving the web”, a expressão ―Web Semântica‖ passou a ser disseminada como

um título genérico que representa uma série de pesquisas que têm como objetivo principal

possibilitar um melhor aproveitamento das potencialidades do ambiente web, onde por meio

21

do uso intensivo de linguagens computacionais e instrumentos de metadados espera-se obter o

acesso automatizado às informações de maneira mais precisa a partir da utilização de

processamentos semânticos e heurísticas automáticas.

Conforme afirmou Berners-Lee (2001), ―A Web Semântica é uma extensão da web atual,

onde a informação possui um significado claro e bem definido, o que possibilita uma melhor

interação entre máquinas e pessoas‖. Assim, observa-se que comparando com as abordagens

tradicionalmente desenvolvidas, o projeto Web Semântica constitui-se como uma tentativa

inversa de solução, ou seja, em vez de focar o humano as atenções se voltam para as

máquinas, dando lhes inteligência através de marcações semântica com o objetivo de

desenvolver meios para que as máquinas possam servir aos humanos de maneira mais

eficiente. No entanto, para isso tornar-se uma realidade é necessário construir instrumentos

que forneçam sentido lógico e semântico aos computadores.

Para um melhor entendimento das dificuldades encontradas nos processos de recuperação de

informações na web atual, pode-se analisar o resultado de uma busca realizada por meio dos

tradicionais ―motores de busca‖ como, por exemplo, a busca de textos científicos de um

determinado autor. Utilizando-se, ―Samuel Pinto‖ como expressão de busca ter-se-ia como

resultado todos os tipos de documentos que contenham ―Samuel Pinto‖ em alguma parte de

seu conteúdo.

Caso esta mesma busca seja realizada utilizando-se apenas o sobrenome deste autor o

problema se agravaria ainda mais, pois ―Pinto‖ pode igualmente se referir ao sobrenome de

uma pessoa, como também a uma ave da espécie ―Gallus gallus domesticus” pois a Web

atual não fornece condições que possibilitem distinguir entre os vários significados

semânticos que um termo pode comportar, o que favorece a recuperação de uma grande

quantidade de documentos irrelevantes ou não relacionados com a busca realizada, tornando

algumas vezes, inexequível, a tarefa de localizar informações específicas no ambiente Web .

Segundo Koivunen e Miller (2001), um dos princípios fundamentais do projeto Web

Semântica é o fato de que “tudo” pode ser identificado por um Uniform Resource Identifier

(URI), de modo que pessoas, lugares e elementos do mundo físico possam ser referenciados a

partir de tais identificadores.

Possibilitando assim identificar uma instituição a partir do URI de sua página web, por

exemplo, ou uma pessoa por meio do URI de sua caixa de e-mail.

Conforme afirmam Berners-Lee (1994) e Fielding (1995), um URI é um padrão conjunto que

abarca os conceitos de Uniform Resource Locator (URL) e do Uniform Resource Name

22

(URN), de modo que pode ser representado por qualquer um destes, ou por ambos. Fazendo

uma analogia de um recurso disponível no ambiente web com um livro armazenado em uma

biblioteca, pode-se considerar o URN de um recurso como o número ISBN de um livro, os

quais fornecem uma identificação exclusiva, porém não oferecendo informações a respeito de

onde o livro/recurso pode ser obtido.

Do mesmo modo, pode-se considerar que o código que identifica onde um livro está

localizado, em meio ao acervo de uma biblioteca, desempenha a mesma função do URL de

um recurso no ambiente web, indicando o local onde o livro/recurso pode ser obtido. Segundo

Krishnamurthy e Rexford (2001), o modo mais popular de apresentação de um URI é

utilizando um URL, o qual pode ser considerado como uma cadeia de caracteres formada por

componentes padronizados.

Outra característica importante do projeto Web Semântica é que os links podem possuir

diferentes tipos, possibilitando a definição de conceitos úteis para as máquinas, como por

exemplo, indicando que um recurso é uma versão de outro recurso ou que contém

informações a respeito de uma determinada pessoa. A web sintática também consiste de

recursos e links, porém estes links são criados apenas para o entendimento humano, de modo

que é relativamente simples para um humano identificá-lo, quando contido em um

determinado recurso, referenciando uma fatura, um romance ou um trabalho científico.

Contudo, tais informações não estão acessíveis para as máquinas, pois os links da web

sintática não indicam formalmente quais são os tipos de relações existentes entre os recursos

referenciados.

2.2 Padrões da Web Semântica

Para que fosse possível construir aplicações envolvendo Web Semântica, Berners-Lee (2001)

propôs uma arquitetura em camadas, que está representada na Figura 1. Esta arquitetura, em

suas camadas, define as tecnologias necessárias para que os conteúdos das páginas Web

possam ser compreendidos pelos computadores.

23

Figura 1 - Arquitetura proposta para a Web Semântica 2001.

Fonte: imagem extraída do site Semantic Focus, 2001.

Baseando-se na proposta de arquitetura apresentada acima, foi descrito de maneira sucinta as

principais tecnologias e camadas inerentes ao projeto Web Semântica.

a) URI / IRI: Conforme apresentado anteriormente, tal componente consiste de

um identificador único de recursos que possibilita a definição e adoção, de

maneira precisa, de nomes aos recursos e seus respectivos endereços na

Internet;

b) XML: É uma linguagem computacional que possibilita a estruturação dos

dados por meio da definição de elementos e atributos, e que permite capturar a

estrutura da informação. Além de permitir a criação de novas tags para atender

aplicações específicas;

24

c) RDF: Estende a ligação da estrutura da Web para usar URIs para nomear a

relação entre as coisas, bem como as duas extremidades do link (isto é

normalmente referido como um ―triplo‖). Usando este modelo simples, ele

permite que dados estruturados e semi-estruturados para serem misturados,

expostos e compartilhados entre aplicações diferentes;

d) RDF Schema: Utilizada para a descrição do vocabulário RDF, possibilita a

definição de taxonomias de recursos em termos de uma hierarquia de classes.

A RDF Schema é uma extensão semântica do código RDF, que fornece

mecanismos para descrever grupos de recursos e os relacionamentos existentes

entre eles (Brickley, 2004);

e) OWL: Linguagem computacional recomendada pelo W3C para o

desenvolvimento de ontologias (modelo de dados que representa um conjunto

de conceitos dentro de um domínio e os relacionamentos entre eles). A

linguagem OWL permite descrever formalmente, de modo mais eficiente, os

aspectos semânticos dos termos utilizados e seus respectivos relacionamentos,

possibilitando representações mais abrangentes das linguagens RDF e RDF

Schema e favorecendo uma maior interoperabilidade (McGuinness, 2004);

f) Sparql: É uma linguagem computacional utilizada para realizar consultas a

partir de estruturas RDF, favorecendo a recuperação de informações de

maneira mais eficaz (Seaborne, 2005);

g) Rules: Permite a definição de regras lógicas relacionadas aos recursos

informacionais. Rules é uma camada que possibilita uma espécie de

―Introdução Lógica‖, enquanto que a camada superior, Logic Framework,

possibilita a incorporação de ―Lógicas Avançadas‖ (Daconta, 2003);

h) Unifying Logic: Camada para a definição de regras mais abrangentes,

utilizadas no tratamento das informações descritas nos níveis inferiores,

possibilitando que agentes computacionais possam realizar inferências

automáticas a partir das relações existentes entre os recursos informacionais,

podendo inclusive inferir novas informações;

i) Proof: Espera-se que esta camada possibilite a verificação/comprovação da

coerência lógica dos recursos, de modo que os aspectos semânticos das

informações estejam descritos de maneira consideravelmente adequada,

atendendo a todos os requisitos das camadas inferiores;

25

j) Crypto: Consiste de um processo em que as informações são cifradas de modo

que não possam ser interpretadas por qualquer pessoa ou sistema

computacional, garantindo assim a confidencialidade das informações;

Encryption é o processo de disfarçar a mensagem original de tal modo que sua

substância é escondida em uma mensagem com texto cifrado (Nakamura e

Geus, 2003);

k) Trust: Camada de confiança, a partir da qual espera-se garantir que as

informações estejam representadas de modo correto, possibilitando certo grau

de confiabilidade;

l) User interface & Applications: Personalização da interface do usuário em suas

aplicações, modelando as preferências, necessidades e interesses de cada

usuário. Gerenciamento de conteúdo, interfaces colaborativas, comunicação

entre comunidades virtuais e outros.

2.2.1 RDF

Segundo (Brickley, 2004), o Resource Description Framework (RDF) é uma linguagem para

representar informação sobre recursos no world wide web . Destina-se particularmente para

representar metadados sobre recursos da web, como o título, autor e data de modificação de

uma página web, direitos autorais e licenciamento de informações sobre um documento da

web, ou o calendário de disponibilidade de algum recurso compartilhado. No entanto, ao

generalizar o conceito de um recurso da web, RDF também pode ser usado para representar

informações sobre coisas que podem ser identificadas na web, mesmo quando elas não podem

ser recuperadas diretamente na web. Exemplos incluem informações sobre os itens

disponíveis em estabelecimentos comerciais on-line (por exemplo, informações sobre as

especificações, preços e disponibilidade), ou a descrição das preferências de um usuário da

web para entrega de informações.

RDF destina-se a situações em que informações precisam ser processadas por aplicativos, em

vez de ser exibido apenas para as pessoas (Brickley, 2004).

RDF é baseado na ideia de identificar coisas usando identificadores da web (chamado de

uniform resource identifier, ou URIs), e descrever recursos em termos de propriedades

simples e valores de propriedade. Isso permite RDF para representar declarações simples

sobre recursos como um gráfico de nós e arcos que representam os recursos e as suas

26

propriedades e valores. Para tornar essa discussão um pouco mais concreta, o grupo de

instruções "existe uma pessoa identificada por http://www.w3.org/People/EM/contact # me,

cujo nome é Eric Miller, cujo endereço de e-mail é [email protected], e cujo título é doutor‖

poderia ser representado como o gráfico RDF na Figura 2:

Figura 2 - Um Grafo RDF descrevendo Eric Miller

Fonte: Imagem extraída do site da Tecweb, 2010.

Como mostrou o grafo da Figura 2, as especificações RDF fornecem um sistema de ontologia

simples, tem aplicação universal e apoia o intercâmbio de conhecimentos na web. Qualquer

coisa com identidade pode ser descrito em RDF e, dessa forma, RDF é um bom candidato

para a gravação e partilha de conhecimento na web. Com RDF é possível fazer declarações

sobre os recursos em termos de propriedade e valores de propriedade. A seguir, na Figura 3,

será mostrado o código referente ao grafo da Figura 2 codificado.

27

Figura 3 - RDF usa URIs para identificar.

Nos passos a seguir a explicação da Figura 3:

a) indivíduos, por exemplo, Eric Miller é identificado por

http://WWW.W3.org/People/EM/contact#me;

b) tipos de recursos, por exemplo, uma pessoa é identificada por

http://WWW.W3.org/2000/10/swap/pim/contact#Person;

c) propriedades desses recursos, por exemplo, caixa de correio é identificado por

http://WWW.W3.org/2000/10/swap/pim/contact#mailbox;

d) valores dessas propriedades, por exemplo, mailto:[email protected] como o valor

da propriedade de caixa (RDF também utiliza cadeias de caracteres como "Eric

Miller", e os valores de outros tipos de dados, como números inteiros e datas,

como os valores de unidades).

Assim como o HTML, o RDF / XML é processável na máquina e, usando URIs, pode-se ligar

pedaços de informações na web . No entanto, ao contrário do hipertexto convencional, RDF

URIs pode se referir a qualquer coisa identificável, incluindo recursos que não podem ser

diretamente recuperáveis na web (como a pessoa Eric Miller). O resultado é que, além de

descrever páginas web, RDF também pode descrever automóveis, empresas, pessoas, eventos,

notícias, etc. Além disso, as propriedades RDF, próprios URIs, identificam com precisão as

relações que existem entre os itens relacionados.

A estrutura subjacente de qualquer expressão em RDF é uma coleção de triplas, cada uma

composta de um sujeito, um predicado e um objeto (como mostra a Figura 4).

http://www.w3.org/People/EM/contact#me

http://www.w3.org/2000/10/swap/pim/contact#Person

http://www.w3.org/2000/10/swap/pim/contact#mailbox

mailto:[email protected]

28

Figura 4 - mostra a estrutura subjacente de uma expressão RDF.

Um conjunto de triplas, como é chamado um grafo RDF, pode ser ilustrado por um nó, em

que cada tripla é representada como um nó-arco-nó de ligação (daí o termo "grafo").

Uma representação familiar de tal fato pode ser como uma linha em uma tabela em um banco

de dados relacional. A tabela tem duas colunas, que correspondem ao sujeito e o objeto da

tripla RDF. O nome da tabela corresponde ao predicado da tripla RDF. A representação pode

ser mais familiar como um lugar de dois predicados em lógica de primeira ordem. Bancos de

dados relacionais permitem uma tabela ter um número arbitrário de colunas, uma linha que

expressa a informação correspondente a um predicado com um número arbitrário de lugares.

Esse tipo de linha, ou predicado, tem de ser decomposto pela representação como triplas RDF.

Uma forma simples de decomposição introduz um novo nó em branco, o que corresponde à

linha, e uma nova tripla é introduzida para cada célula da linha. O tema de cada tripla é o

novo nó em branco, o predicado corresponde ao nome da coluna, e objeto corresponde ao

valor na célula. O novo nó em branco também pode ter uma propriedade RDF: type cujo valor

corresponde ao nome da tabela.

A seguir na Figura 5, mostra uma representação gráfica de como um RDF é declarado quando

há a necessidade de um novo nó em branco.

29

Figura 5 - RDF sendo representado com um nó em branco.

Fonte: Imagem extraída do site da Tecweb, 2010.

Provendo a interoperabilidade entre as aplicações, RDF possibilita a automação de processos

na Web. O metadado neutro em termos de sintaxe e de domínio de conhecimento é provido

pelo RDF, sendo este, responsável pela interoperabilidade estrutural, tendo como ressalvas o

não fornecimento de mecanismos para declaração e definição de propriedades e seus

relacionamentos (Brickley, et al, 2004).

Para a definição de propriedades de domínios específicos e sua semântica é necessária a

aplicação do esquema RDF. O esquema RDF é utilizado para identificação de equivalência

de significado, já que duas ou mais expressões em RDF são equivalentes se, e somente se, a

representação de seus modelos de dados for similar. Essa definição de equivalência permite a

variação sintática em algumas expressões sem alterar seu significado. Esse modelo de dados é

representado por meio de um Directed Labeled Graphs (DLG) e consiste de três tipos de

objetos:

a) resource (recurso): tudo que é descrito através de expressões RDF, podendo

ser tanto um documento HTML, quanto um elemento XML de um documento;

uma coleção de páginas ou um site inteiro. Um recurso pode também ser

objeto que não seja acessado diretamente pela web, tal como um livro

impresso. Recursos são sempre nomeados por um URI, o que permite a criação

de identificadores para qualquer entidade imaginável;

30

b) property (propriedade): é uma característica, um atributo ou uma relação

utilizada para descrever o recurso. Propriedades também são utilizadas para

descrever relacionamentos entre recursos. Dessa forma, o modelo de dados

RDF se assemelha ao modelo de Entidade-Relacionamento. Cada propriedade

tem um significado específico, definem seus valores permitidos, os tipos de

recursos que podem descrever, e seus relacionamentos com outras

propriedades;

c) declaration (valor): uma declaração é um recurso específico com uma

propriedade definida mais o valor desta propriedade. Em outras palavras,

representa a relação entre um recurso, uma de suas propriedades e o valor que

essa propriedade pode assumir.

2.2.2 RDFa (Resource Description Framework in attributes)

A web foi construída predominantemente para o consumo humano. Aos poucos começam a

aparecer dados legíveis por máquinas na web, que são distribuídos em um arquivo separado,

com um formato específico, sendo muito limitada a correspondência entre humanos e as

versões de máquinas. Como resultado, os navegadores podem fornecer apenas o atendimento

mínimo aos seres humanos na análise e processamento de dados na web: browsers apenas

veem as informações de apresentação (Brickley, et al, 2004). Um evento anunciado no Orkut,

Facebook ou Twitter pode ser facilmente copiado para o calendário do usuário, informações

de contato completo de um artista para o livro de endereços do usuário.

Quando os dados na internet são significativos para o ser humano e são aumentados com dicas

de significado para os programas de computador, estes programas se tornam muito mais úteis,

porque eles começam a compreender a estrutura dos dados.

RDFa permite aos atores XHTML (linguagem baseada em XML, que foi projetada para

trabalhar em conjunto com os agentes do utilizador baseada em XML) para fazer exatamente

isso, pegar dados legíveis para humanos e torna-los legíveis para a máquina. Usando alguns

atributos XHTML simples, os atores pegam os dados legíveis para humanos e torna-os

legíveis para máquina, através de indicadores de leitura para os navegadores e outros

programas interpretarem. Uma página web pode incluir marcação de itens simples como o

título de um artigo, ou tão complexo como rede social completa (Brickley, et al, 2004).

Imagine que você tem uma resenha de um hotel em sua página no seu HTML, você mostra o

nome do hotel, o endereço e telefone e a média de usuários que deram opiniões. As pessoas

31

podem ler e entender essa informação, mas para um computador isso não é nada, além de

sequencias de texto não estruturado. Com RDFa, você pode identificar cada pedaço de texto

para deixar claro que ele representa um certo tipo de dado: por exemplo, o nome do hotel, um

endereço ou uma classificação. Isto é feito usando-se tags HTML adicionais que os

computadores entendem. Estes RDFs não afetam a aparência de suas páginas, mas um serviço

de busca que olhar para o HTML pode usar as ―tags‖ para compreender melhor a sua

informação, e apresentá-la de forma útil, por exemplo, nos resultados da pesquisa.

Na Figura 6 a seguir ver-se um exemplo de aplicação do RDFa no sita da Amazon. Esse tipo

de marcação permite aos usuários uma resposta precisa quanto ao que foi especificado na

busca.

Figura 6 - Exemplo de marcação do site Amazon.

Fonte: Imagem extraída do site da Amazon, 2008.

A Figura 7 na sequência nos permitirá visualizar um exemplo de como usar tal marcação para

gerar esta resenha com a estrutura HTML.

32

Figura 7 - Codificação da resenha em HTML.

Na Figura 8 a seguir, ver-se o mesmo exemplo, porém com uma novidade, a marcação RDFa.

Figura 8 - Exemplo de marcação RDFa em notação padrão XML.

33

Este exemplo mostrou três propriedades importantes que podem ser usadas em todos os Tags

do HTML.

Como segue:

a) xmlns: Especifica o namespace XML para um documento. Estará sempre

na primeira linha e tem a função de indicar uma lista de entidades e seus

componentes;

b) typeof: Ocorre na primeira linha deste bloco do HTML, e define

entidades;

c) properties: Usado para etiquetar as propriedades de uma entidade.

RDFa (vocabulário recomendado pela W3C que agrega um conjunto de extensões ao nível de

atributos XHTML para inserir metadados em documentos Web), é o responsável por permitir

aos editores construir o seu próprio vocabulário, estender os outros, e evoluir o seu

vocabulário com interoperabilidade máxima ao longo do tempo. A estrutura expressa está

intimamente ligada aos dados, para que os dados processados possam ser copiados e colados

junto com a sua estrutura relevante.

2.2.3 SPARQL

SPARQL é uma linguagem de consulta RDF, padronizada pelo RDF Data Access Working

Group (DAWG) do World Wide Web Consortium e, em janeiro de 2008 foi oficializada pela

W3C. É considerada uma tecnologia chave da Web Semântica (W3C, 2009).

SPARQL realiza consultas e consiste em:

a) padrão triplo: (objetivo-construído, banco de dados para o armazenamento e

recuperação de RDF);

b) conjunções: (conectivo lógico que tem o valor verdadeiro se ambos os seus

operandos forem verdadeiros, caso contrário, um valor de falso);

c) disjunções: (operador lógico que resulta em verdadeiro sempre que um ou mais

dos seus operandos são verdadeiros);

d) padrão opcional: (tipo de tema de eventos recorrentes ou objetos, por vezes

referido como elementos de um conjunto).

34

A seguir nas Figuras 9, 10 e 11 será visto um exemplo simples de como buscar informações

na base de dados RDF utilizando SPARQL:

Dado:

Figura 9 - Dado.

A Figura 9 representa o dado que será buscado pela figura 10. Consulta:

Figura 10 - Consulta.

A Figura 10 representa o modelo de query que fará a busca pelo título na Figura 9.

Resultado:

Figura 11 - Resultado.

A Figura 11 representa o resultado da consulta montada na Figura 10 sobre o código da

Figura 9.

O exemplo mostrou uma consulta SPARQL para encontrar o título de um livro sobre a curva

de dados fornecidos. A consulta consiste em duas partes: a cláusula select identifica as

variáveis que aparecem nos resultados da consulta, e a cláusula where fornece o padrão

gráfico de base para o gráfico de dados. O padrão gráfico de base neste exemplo consiste de

um padrão único, tripla com uma única variável (? título). Na posição de objeto (W3C, 2009).

35

2.3 Aplicações da Web Semântica

O projeto da Web Semântica é muito ambicioso e permite imaginar soluções tanto na área da

saúde, educação como nas relações sociais. A sua meta não é apenas indexar páginas na Web.

O texto de Berners-Lee, James Hendler e Ora Lassila, na revista Scientific American de

maio/2001, descreve o caso de Pete, um filho que busca na Internet, através de seu agente (um

software robô), alternativa para a fisioterapia de sua mãe. Dispondo previamente de uma série

de dados de Pete (seu endereço, seus horários, o seguro-saúde de sua mãe, etc.), o agente

busca na web as informações relevantes (lista de médicos credenciados, suas agendas, etc.) e,

em alguns minutos, oferece uma lista de opções para que ele escolha a que mais lhe convém.

Não satisfeito com a primeira lista, Pete pede que o agente refaça a busca de acordo com as

restrições por ele estabelecidas. Desta vez, a solução oferecida é satisfatória e com algumas

ações simples. Pete muda parte de seus compromissos, obtém a aceitação do agente de Lucy

(sua irmã, com quem irá dividir as idas à fisioterapia da mãe) e acerta a agenda (Berners-Lee,

et al, 2001).

Voltando a realidade da Web hoje, todo esse cenário ainda está relativamente distante. Além

disso, as aplicações mais prováveis das ferramentas acima descritas serão o comércio

eletrônico e grandes bancos de dados, como os próprios autores ressaltam.

Como veremos na Seção 2.3.1, gigantes como Google, Amazon, Yahoo e outras já aderiram,

em parte, à Web Semântica. Isso significa que, num futuro próximo, a Web inteligente será

uma realidade.

Sites não comerciais também se beneficiarão da utilização do XML e do desenvolvimento da

Web Semântica, pois seus conteúdos serão indexados mais eficientemente pelos programas de

busca e poderão ser mais facilmente convertidos em novos formatos ou ganharem novo

visual.

2.3.1 Busca Semântica

Esta Seção tem por objetivo fazer uma pequena introdução sobre como funcionam o sistema

de busca semântico e exemplificar de maneira geral o seu uso no âmbito prático em áreas

diversas.

36

A ideia da busca semântica tem como objetivo construir um mecanismo de busca que não faça

apenas uma simples pesquisa por palavras, mas que reconheça o significado das palavras

pesquisadas no contexto desejado.

Cada documento sobre a Web Semântica contém um modelo RDF, que pode ser pensado

como um discreto banco de dados. Informações em um documento de informação pode fazer

referência em outra construção de um modelo RDF maciço que é distribuído através da

Internet. Uma vez indexado o documento na web, a Web Semântica busca por índice para este

modelo RDF em computadores distribuídos para ajudar a localizar rapidamente o documento

que contêm as informações de que necessitam (W3, 2010).

Figura 12 - Representa a indexação de documentos na Web Semântica.

A Web Semântica é um banco de dados distribuídos massivamente na Internet. Cada

documento RDF contém um pequeno pedaço de um modelo RDF muito maior que os

formulários da Web Semântica. Os formulários RDF adicionam à Web Semântica, recursos

semelhantes aos fornecidos pelos formulários HTML baseadas na web.

Este formulário é funcionalmente similar a um formulário HTML via POST, na medida em

que fornece ao consumidor a informação, tais como, a URI (o valor de rdf: about) para que os

dados possam ser apresentados (semelhante ao atributo action), o método HTTP por força do

rdf: declaração do tipo de RF: Container (algo semelhante ao atributo de HTML do método,

apenas o método é, neste caso, implicitamente POST), e do tipo de mídia desejada de dados

(como o atributo HTML enctype).

37

Índices de Web Semântica tem o objetivo de facilitar a localização dos documentos com base

nas informações que eles contêm. Desde que a informação seja descrita usando vocabulários

RDF que tenha significado bem definido para os computadores, bem como para pessoas, as

condições de pesquisa podem ser descritas com precisão. A Web Semântica realiza buscas

usando estes vocabulários. Ela retorna a localização dos documentos na Web Semântica, onde

as informações descritas pela condição de pesquisa existem (W3, 2010).

A ideia da busca semântica é que todas as páginas indexadas pelo motor de pesquisa devam

utilizar um conjunto de tags especiais, uma espécie de meta-tags. Essas marcas fornecem mais

do que palavras-chave e descrições, que relatam o conteúdo e relacionamentos. O XML, por

si só, não pode resolver o problema de pesquisa. Não há nenhum significado compreensível

para a máquina associados com as tags XML comuns, e como resultado, os motores de buscas

tradicionais ficarão confusos com o XML, como estão agora com HTML.

No exemplo de uma pesquisa simples pela palavra "Loura", é questionado ao usuário através

de critérios da busca ao navegador, o contexto a que a pesquisa deve estar relacionada, no

caso se a "Loura" se refere a uma pesquisa pela: cor média entre o dourado e o castanho-claro,

a uma mulher de cabelo louro ou a uma cerveja. Dessa forma são exibidos sempre resultados

de alta relevância.

Por se tratar de uma busca semântica, é necessário que se defina um padrão de busca. Esse

padrão fará com que o usuário encontre documentos, pessoas, organizações, resumo de obras

literárias etc., que condiz com a sua busca, no entanto, para que isso seja possível a instrução

que disparará o agente tem de ser criteriosa.

Atualmente existe um grande número de pequenas aplicações que utilizam algumas

tecnologias desenvolvidas pela Web Semântica, visto que algumas camadas de infraestrutura

da mesma, como: Logic Framework, Rules, Proof, Trust e outras ainda estão em

desenvolvimento.

Além de aplicações que visam a exploração, a pesquisa das novas tecnologias, já podemos

observar que empresas com fins comerciais começam a perceber a real utilidade e benefícios

das mesmas, incorporando os padrões consolidados dentro de pequenas soluções seja para uso

em produtos comercializados ou para uso interno na própria corporação.

Nas seções a seguir alguns exemplos de aplicações práticas das tecnologias da Web

Semântica.

2.3.1.1 Rich Snippets

38

Rich Snippets já é uma novidade do Google na apresentação dos resultados de busca. O

objetivo é extrair pelo sistema de busca um resumo sobre do que se trata a página. Para que

isso seja possível, o usuário terá que digitar três ou mais termos. Utilizando formatos de

marcação em um site, o ―Webmaster‖ define a estrutura de dados do seu site, que é o que o

Google utiliza para criar as Rich Snippets. Por enquanto, o Google somente atende as

marcações referentes a pessoas e revisões de produtos ou serviços, mas pretende expandir

para outras áreas e outros padrões de formatos de marcação (Idg now, 2009).

2.3.1.2 Search Monkey Yahoo

O Search Monkey (nova plataforma de pesquisa aberta), trata-se de uma série de APIs que

permite você alterar os resultados de busca do próprio Yahoo, usando seus próprios dados e

alterando o formato de exibição para o usuário (Yahoo, 2010).

Com Search Monkey será possível trazer resumos mais completos nos resultados da pesquisa,

com imagens, direções e links para outros conteúdos. É mais ou menos o que se pode fazer

com a famosa extensão para o Firefox, o Greasemonkey (extensão para o navegador de web

Mozila Firefox, que modifica a exibição das páginas de determinados sites, mudando o

layout, adicionando ou retirando botões e formulários e etc). Inclusive o produto se chama

―Search Monkey‖ por causa da extensão. A diferença que as adaptações que você fizer não

aparecem somente para você ou para quem instalar sua adaptação, como é o caso do

Greasemonkey, e sim para todo mundo. A página de resultados que você programar pode

conter muito mais informações que o convencional, de acordo com o contexto e a aplicação

que você quer dar.

2.3.1.3 Wiki Semântica

Wiki Semântica (Semantic Wiki): Projeto que foi desenvolvido para criar um ambiente no

estilo Wikipédia utilizando alguns recursos da Web Semântica para adicionar mais

conhecimento agregado ao conteúdo já disponível em forma de texto e hiperlinks. Através de

anotações semânticas no conteúdo, metadados são adicionados de maneira formal e segundo

39

uma ontologia específica, possibilitando que computadores possam entender melhor o

conteúdo e oferecer serviços de busca mais precisos no ambiente Wiki. Assim sendo, os

conceitos e relações deixam de ser meros strings e hiperlinks, sem distinção do ponto de vista

dos computadores e passam a representar tipos bem definidos em uma linguagem processável

por máquina (W3C, 2010).

2.3.1.4 Conhecimento Global Engenharia

Conhecimento Global Engenharia (Global Knowledge Engineering): A Sun Microssystem

adotou essa tecnologia para integrar melhor e gerenciar a informação corporativa que

representa um ponto crítico para melhorar a produtividade e prover novas soluções. O GKE

inclui diversos componentes como vocabulários controlados, classificações organizacionais,

descrição de metadados utilizando RDF, regras de negócios e etc. a fim de provar a

infraestrutura necessária para facilitar a integração de conhecimento distribuído (Sun, 2009).

2.3.1.5 A música do amigo de um amigo

A música do amigo de um amigo (Foafing the Music): Este projeto visa disponibilizar aos

interessados por música um sistema de recomendação de música diferenciado. O objetivo é

utilizar o perfil do usuário para a sugestão de novas experiências musicais, além de

características musicais como artista, título e gênero. As músicas são enriquecidas com

metadados como ritmo, timbre, harmonia, instrumentação e outros (Simac, 2009).

2.3.1.6 DBPedia

Chris Bizer e colegas da Universidade Livre de Berlim e da Universidade de Leipzig, na

Alemanha, criaram o projeto Dbpedia. Essa ferramenta desenvolvida com técnicas de Web

Semântica está sendo utilizada para consultar os mais de 700 mil modelos de infoboxes

(conjunto de acontecimentos) existentes em inglês (Scientific A., 2008).

40

Este recurso permite buscar todos os jogadores de tênis que vivem em Moscou ou os nomes

de todos os prefeitos de cidades dos Estados Unidos situadas em altitudes superiores a mil

metros e obter uma resposta exata (Scientific A., 2008).

Em novembro de 2008 o conjunto de dados dbpedia descreve mais de 2,6 milhões de

registros, incluindo pelo menos, 213.000 pessoas, 328.000 lugares, 57.000 álbuns de música,

36.000 filmes e 20.000 empresas. O conjunto de dados possui rótulos e resumos curtos para

esses registros em 30 idiomas diferentes; 609.000 links para imagens e 3.150.000 ligações a

páginas externas; 4.878.100 links externos para outros conjuntos de dados RDF e 415.000

categorias Wikipédia (Dbpedia, 2009).

O projeto Dbpedia utiliza o RDF como um modelo de dados flexível para representar as

informações extraídas e para publicação na web. Em novembro de 2008, o conjunto de dados

Dbpedia estava constituído por cerca de 274 milhões de triplas RDF, que foram extraídas do

inglês, alemão, francês, espanhol, italiano, português, polonês, sueco, holandês, japonês,

chinês, russo, finlandês norueguês e versões da Wikipédia (Dbpedia, 2009).

2.4 Considerações Finais

Neste Capítulo foram apresentados os principais conceitos sobre busca semântica e alguns dos

projetos existentes que já utilizam tecnologias semânticas.

O próximo Capítulo apresenta algumas das redes sociais mais utilizadas atualmente e alguns

conceitos sobre as mesmas, tendo em vista o seu crescimento exponencial nos últimos anos.

41

3 REDES SOCIAIS

Este capítulo fará uma introdução sobre redes sociais, apresentará algumas das redes sociais

mais utilizadas atualmente e alguns conceitos sobre as mesmas, tendo em vista o seu

crescimento exponencial nos últimos anos.

O capítulo está organizado da seguinte forma: Na Seção 3.1 teremos a introdução seguida da

Seção 3.2 que dará ênfase em blogs e, na sequência, a Seção 3.2.1 que se resumirá ao blog

Wordpress. E, por fim, a Seção 3.3 faz as considerações finais.

3.1 Introdução

Rede social é o conjunto de relações e intercâmbios entre indivíduos, grupos ou organizações

que partilham interesses, que funcionam na sua maioria através de plataformas da internet

(Aurélio, 2010).

Rede virtual é sistema de nós e elos; uma estrutura sem fronteiras; uma comunidade não

geográfica; um sistema de apoio ou um sistema físico que se pareça com uma árvore ou uma

rede (DANAH, et al, 2007). A rede social, derivando deste conceito, passa a representar um

conjunto de participantes autônomos, unindo idéias e recursos em torno de valores e

interesses compartilhados. A Figura 13 a seguir ilustra uma rede social onde cada quadrado

representa um indivíduo conectado.

42

Figura 13 - Representação de uma rede social.

Fonte: imagem extraída do site: America data redes sociais, 2010.

Assim, um grupo de discussão é composto por indivíduos que possuem identidades

semelhantes. Essas redes sociais estão hoje instaladas principalmente na Internet devido ao

fato desta possibilitar a divulgação de ideias de forma ampla e absorção de novos elementos

em busca de algo em comum (DANAH, et al, 2007).

As Figuras 14 e 15 darão um panorama das redes sociais mais utilizadas, mais populares em

cada país ao redor do mundo entre os usuários com mais de 15 anos. Na Figura 14, os gráficos

representam as redes mais populares por continentes. Já na segunda Figura, são mostradas as

redes mais populares em seus respectivos países.

43

Figura 14 - Redes sociais por continentes.

Fonte: ComScore World Metrix, 2010.

Como podemos ver, o Orkut do Google lidera ficou em primeiro lugar no Brasil. Já nos

Estados Unidos o mais usado é o Myspace da Microsoft, sendo o Facebook no Canadá,

Austrália e em alguns países da América do Sul, do Oriente Médio e do Norte da África. Na

América Central predomina o HI-5 e por fim na Europa e na Ásia o cenário é bem variado.

44

Figura 15 - Redes sociais por países.

Fonte: Imagem extraída de: oxyweb, 2009.

3.2 Blog

Jorn Barger tornou-se a primeira pessoa a usar o termo "Weblog" para descrever a sua coleção

de links registrados a partir da Internet, em 17 de dezembro de 1997.

É uma página na Web que normalmente é atualizada com grande frequência através da

colocação de informações – que se designam ―posts‖ – constituída por imagens e/ou textos de

pequenas dimensões (muitas vezes incluindo links para sites de interesse e/ou comentários e

pensamentos pessoais do autor) e apresentadas de forma cronológica, sendo as mensagens

mais recentes normalmente apresentadas em primeiro lugar (Gomes, 2005).

O The New York Times, jornal norte americano, publicou em agosto de 2007 uma matéria

com a informação de que, na última década, os blogs passaram a dominar a rede, com

aproximadamente 100 milhões de diários pessoais.

45

O Blog é a mais fácil e mais rápida ferramenta de publicação já inventada. Permite que as

pessoas tenham uma voz que não tinham antes. Hoje os blogs não são só notícias e

entretenimento, mas também a publicação sobre política e relações públicas.

Atualmente dentre os blogs o Twitter é o mais badalado, pois, é a terceira rede social mais

acessada do mundo, atualmente com 54.218.731 milhões de usuários (Compete, 2009).

O Twitter chegou de forma explosiva, teve picos de crescimento de até 3712% ano. Veja o

ranking na Tabela 1.

Tabela 1 - Ranking das redes sociais mais acessadas no mundo.

Twitter é um "microblog" — um ―feed‖ personalizado de pequenas declarações sobre você

mesmo, com no máximo 140 caracteres de comprimento, que qualquer pessoa que queira

"seguir" poderá receber via atualizações da web, really simple syndication (RSS), mensagem

de texto, entre outros (IBM, 2009).

Feed personalizado é um formato de dados utilizado para fornecer os usuários com conteúdo

atualizado com frequência. Permitindo aos utilizadores subscrever a ele. Fazer uma coleção

de feeds da Web acessíveis em um determinado local é conhecido como agregação. A

alimentação da Web é também por vezes referida como um feed distribuído.

Os blogs proporcionam conhecimento, experiências compartilhadas, os pontos de vista

expostos sobre diversos ângulos, sobretudo, quando existem diversas culturas envolvidas nas

46

discussões que transitam nas redes sociais. Os blogs têm modificando comportamentos,

aproximado povos e trazido melhoria para a qualidade de vida das pessoas.

3.2.1 Wordpress

Wordpress é um projeto Open Source (que tem o código aberto) que nasceu do desejo de um

elegante e bem estruturado sistema de publicação pessoal construído em PHP e Mysql e

licenciado sob a Geral Pública Licença (GPL). O que significa que existem centenas de

pessoas em todo o mundo a trabalhar nele (Mais do que a maioria das plataformas

comerciais). Significa também que você é livre para usá-lo para qualquer coisa, da página de

seu gato até para um web site de organizações com fins lucrativos, sem pagar qualquer taxa de

licenciamento e uma série de outras liberdades importantes (Wordpress, 2010).

Wordpress começou apenas como um sistema de blogs, mas evoluiu para ser utilizado como

sistema de gerenciamento de conteúdo completo e muito mais através dos milhares de plugins

(programa de computador usado para adicionar funções a outros programas maiores,

provendo alguma funcionalidade especial ou muito específica), widgets (componente de uma

interface gráfica de usuário (GUI), o que inclui janelas, botões, menus, ícones, barras de

rolagem, etc.) e temas. O Wordpress é limitado apenas pela sua imaginação.

A seguir nas Figuras 16 e 17 ilustrações de algumas das diversas perspectivas do Wordpress

na função adição de novos posts, novos plugins, adição de novos usuários, configuração de

novas ferramentas entre outros. Na perspectiva adição de posts é possível publicar novos e

editar os já existentes.

47

Figura 16 - Perspectiva para adição de novos posts do Wordpress.

Já na Figura 17 a seguir é mostrado o painel que possibilita a adição de novos plugins, a

edição e a exclusão dos mesmos.

Figura 17 - Perspectiva para adição de novos plugins do Wordpress.

48


Este capítulo fez uma introdução a redes sociais, apresentou algumas das redes sociais mais

utilizadas atualmente e alguns conceitos sobre as mesmas, haja vista o crescimento

exponencial das redes nos últimos anos.

O próximo capítulo apresentará os vocabulários estudados e testados nos estudos de caso que

serão apresentados no Capítulo 5.

49

4 AVALIAÇÃO DE TECNOLOGIAS E PADRÕES DA WEB

SEMÂNTICA

Este capítulo apresentará alguns dos vocabulários que foram estudados e testados nos estudos

de caso que serão apresentados no Capítulo 5. Como Editores de conteúdos serão

apresentados a biblioteca Backplanejs, e o plugin RDFQuery.

O Capítulo 4 está organizado da seguinte forma: na Seção 4.1 serão apresentados os

vocabulários, sendo que subseções 4.1.1 e 4.1.2 apresentam respectivamente FOAF e Dublin

Core. Posteriormente, na Seção 4.2 à edição de conteúdos, seguido das subseções 4.2.1 com o

plugin wp-RDFa, a 4.2.2 Creative Commons. Já na Seção 4.3 é apresentado a biblioteca

Backplanejs seguida da Seção 4.3.1 com o plugin RDFQuery. E, para finalizar, a Seção 4.4

que apresentará as considerações finais.

4.1 Vocabulários

Vocabulários de línguas descrevem "facetas". O esquema RDF descreve as propriedades em

termos de classes de recursos a que se aplicam: domínio e intervalo de valores (Brickley,

2004).

Para que a marcação semântica fosse entendida pelos computadores foi necessário criar

vocabulários específicos. (BIZER, et al, 2007). Infelizmente, não é possível dar um

dicionário, um almanaque ou um conjunto de enciclopédias para um computador e deixar que

ele aprenda tudo sozinho. Para entender o que as palavras significam e qual a relação entre

elas, o computador precisa ter documentos que descrevem todas as palavras e a lógica para

fazer as conexões necessárias.

Na Web Semântica, isto vem de esquemas e ontologias. Ontologia é um vocabulário que

descreve objetos e como eles se relacionam. Neste contexto, uma ontologia é a representação

do conhecimento em um domínio. Ontologias, espinha dorsal da Web Semântica, fornecem

um vocabulário para a anatoção dos dados na Web. Veja na Figura 18 alguns dos

vocabulários mais comuns:

50

Figura 18 - Vocabulários semânticos.

Fonte: Imagem extraída de; W3C.

A seguir a descrição quanto à representação de cada um dos vocabulários apresentados:

a) FOAF: descrição de pessoas;

b) DOAP: descrição de projetos;

c) RSS: publicação de notícias;

d) Dublin Core: catalogação e descrição de recursos (livros, imagens, etc.);

e) SIOC: descrição de comunidades online;

f) EARL: informes de resultados de ensaios;

g) SKOS: representação de dicionários;

h) GoodRelations: comércio eletrônico.

A combinação desses vocabulários é imprescindível na ampliação de funcionalidades de uma

página marcada semanticamente.

As ontologias responsáveis pelo fornecimento dos vocabulários devem ter a capacidade de

identificar contextos de um termo, compartilhar definições e dar suporte ao reuso. (BIZER, et

al, 2007). Quando elas são construídas levando-se em consideração esses aspectos, é possível

ajudar as pessoas na busca, extração, interpretação e processamento da informação.

51

4.1.1 FOAF

Para um computador, a Internet é um mundo desprovido de significado. Como ocorre de fato

na Web atual, ela descreve em seus documentos objetos reais e os conceitos imaginários,

porém não dar relações particulares entre si. Por exemplo, um documento pode descrever uma

pessoa.

O documento de uma casa descreve uma casa e também a relação de propriedade com uma

pessoa. Adicionar conceitos de Web Semântica envolveria duas coisas: permitir que os

documentos que tenham informações de formulários para leitura óptica, e permitir a criação

de laços com os valores do relacionamento. Só quando tivermos este nível extra de semântica,

seremos capazes de usar o poder do computador para nos ajudar a explorar a informação para

uma maior extensão do que nossa própria leitura (Berners-Lee, et al, 1994).

FOAF, como a própria web, é um sistema de informação vinculada, ele foi construído usando

a tecnologia descentralizada Web Semântica, e foi concebido para permitir a integração de

dados por meio de uma variedade de aplicações, web sites, serviços e sistemas de software.

Para conseguir isso, FOAF toma uma atitude liberal para o intercâmbio de dados. Ele não

exige que você queira dizer alguma coisa sobre si mesmo ou outros, nem colocar limites nas

coisas que você pode dizer. Esta especificação atual fornece uma base "dicionário" de termos

para falar sobre as pessoas e as coisas que eles fazem ou deixam de fazer (FOAF, 2010).

FOAF foi projetado para ser usado junto com outros dicionários como ("esquemas" ou

"ontologias"), e para ser usado com a grande variedade de ferramentas genéricas e serviços

que tenham sido criadas para a Web Semântica. O projeto FOAF baseia-se em torno da

utilização da máquina de homepages legíveis web para pessoas, grupos, empresas e outros

tipos de coisa. Para conseguir isto, usamos o "vocabulário FOAF" para fornecer um conjunto

de condições básicas que podem ser usadas nestas páginas Web. O coração do projeto FOAF

é um conjunto de definições concebido para servir como um dicionário de termos que podem

ser usados para expressar afirmações sobre o mundo.

O foco inicial do FOAF foi à descrição de pessoas, pois as pessoas são as coisas que

interligam a maioria dos outros tipos de coisas que descrevemos na Web: eles fazem

documentos, participam de reuniões, são retratados em fotografias, e assim por diante (FOAF,

2010).

Um documento FOAF, ao contrário de uma página da web tradicional, pode ser combinado

com outros documentos FOAF para criar um banco de dados unificado de informações. A

Figura 19 a seguir ilustra a ideia de uma rede de integração de dados, não há limites, sem fim.

52

Figura 19 - Ilustração de funcionamento do vocabulário FOAF.

Fonte: Imagem extraída de: dcs FOAF.

Este exemplo de integração refere-se aos processos envolvidos na exportação de informações

do Facebook. O real de exportação de informações pessoais envolve o mapeamento existente

do Facebook esquema de dados XML com os conceitos a partir da especificação FOAF para

permitir a representação de conhecimentos suficientes.

Esta versão contém a infraestrutura básica para a exportação de dados RDF a partir do

Facebook, segundo as especificações FOAF. A identificação é feita usando o FOAF:

holdsAccount propriedade dentro da especificação FOAF. O user id extraído do Facebook é

utilizado como identificador único dentro do FOAF: OnlineAccount e a propriedade FOAF:

accountName entre outras.

Após autenticar o usuário, ocorre a recuperação das informações pessoais do usuário e da lista

de amigos desse usuário juntamente com os seus detalhes. Primeiro os detalhes são

53

convertidos em FOAF, como: nome, sexo, imagem etc., a fim de identificar arquivos FOAF

de outros que contém propriedades similares.

A próxima etapa é do processo de criação de uma representação geocodificada da localização

do utilizador. Essa etapa só é possível consultando o serviço Google Maps. Utilizando

atributos como latitude e longitude. Aí sim, é possível determinar a sua localização.

A ideia básica é bastante simples. Se as pessoas podem publicar informações no formato de

documento FOAF, as máquinas serão capazes de fazer uso dessa informação. Se esses

arquivos contêm ponteiros que apontam para outros documentos na web, teremos então um

verdadeiro grafo de dados. Os programas de computadores com isso serão capazes de

armazenar em torno dessa web, documentos concebidos para máquinas em vez de seres

humanos, armazenar as informações que encontram, mantendo uma lista de ponteiros para

outros documentos, verificando assinaturas digitais (para a segurança) e construção de web

páginas e pergunta-resposta dos serviços com base nos documentos colhidos.

Veremos a seguir na Figura 20, um exemplo de elementos FOAF inseridos em meio ao

HTML de uma página web.

Figura 20 - Elementos FOAF em meio ao HTML.

Como exemplo considere sites de comércio eletrônico como Amazon, que se tornaram

sucesso por causa de seu alto nível de personalização. Aproveitar o melhor desses sites

envolve um processo de aprendizagem, onde eles descobrem que seus interesses através de

54

preferência explícita, criação ou adaptação de sugestões de produtos com base em um

histórico de compras. Usando FOAF há o potencial para capturar essa informação uma vez,

em um formulário que pode ser usado não apenas por um site, mas muitos. O usuário

poderia, então, circular livremente entre os sistemas.

4.1.2 Dublin Core

A palavra metadados foi criada por Jack Myres em 1969, para denominar os dados que

descreviam registros de arquivos convencionais (Berners-Lee, et al, 1994). A seguir algumas

definições de metadados.

Metadados são dados sobre dados que objetivam descrever completamente os dados (bases)

que representam, permitindo ao usuário decidir sobre a utilização desse conjunto de dados de

acordo com as suas necessidades específicas (Shadbolt, et al, 2008).

Metadados são um conjunto de dados estruturados que identificam os dados de um

determinado documento, que podem fornecer informação sobre o modo de descrição,

administração, requisitos legais de utilização, funcionalidade técnica, uso e preservação

(Berners-Lee, 2002).

No ano de 1995 a Online Computer Library Center (OCLC) e o National Center for

Supercomputing Aplications (NCSA) organizaram um workshop sobre metadados em Dublin,

Ohio.

Neste workshop participaram pessoas das mais variadas áreas, biblioteconomia, ciências da

informação, informática e provedores de informações da rede. O resultado foi a definição do

padrão de metadados para a internet, Dublin Core (Dublin Core, 2010).

Embora o conceito de metadados seja anterior a internet e a web , o interesse mundial nos

padrões de metadados e práticas explodiu com o aumento de publicações eletrônicas e

bibliotecas digitais. Qualquer um que tenha tentado encontrar informações online usando um

dos serviços de busca populares da web hoje, tem provalvelmente experimentado a frustração

de recuperar centenas, se não milhares de links (lixo) devido a capacidade limitada de

refinamento de conteúdo por parte dos atuais motores de busca. A adoção, em larga escala

descritiva de normas e práticas de recursos eletrônicos, irá melhorar a recuperação dos

recursos pertinentes em qualquer local onde a recuperação de informação é crítica. Como

observado por Weibel e Lagose, dois líderes nas áreas de desenvolvimento de metadados e

bibliotecas digitais:

55

"A associação de metadados descritivos padronizados com objetos em rede tem o potencial de

melhorar substancialmente a capacidade de descoberta de recursos, possibilitando com base

em um campo (por exemplo, autor, título, assunto) a procura, a indexação de objetos não

textuais, e permitindo o acesso ao conteúdo que é substituto, distinto de acesso ao conteúdo

do recurso em si‖ (Weibel, 2000).

A web passa por um momento ruim devido ao seu crescimento exponencial e anseia pela

necessidade de servir bem a demanda por conteúdo de qualidade e o acesso rápido aos dados

nela disponibilizados pelos seus usuários.

A necessidade de ser visível dentre os aproximados dois milhões de sites existentes (Necraft

2008, vide na Figura 21) tem despertado um sentimento de frustração a diversas comunidades.

Figura 21 - Crescimento da web, dados de Setembro de 1995 a Junho de 2008.

Fonte: Imagem extraída de: netcraft.

Gerir e organizar dados interligados de diferentes tipos em diferentes repositórios, interoperar

com outras comunidades, outras aplicações, expressar a estrutura dos nossos dados e codificar

a transferência dos mesmos é tudo que de que precisa a web atual. Mas para que tudo isso vire

realidade, aplicações necessitam de certa forma, que os dados tenham significados para as

máquinas, não apenas para os humanos.

56

Isso permitiria comunidades resolverem as suas próprias necessidades, fazendo integrações de

dados de forma colaborativa baseado em padrões.

Dublin Core nasce com a proposta de melhorar a descoberta de recursos na web de forma

mais ampla, garantindo a busca de um conteúdo de qualidade. De forma simples, intuitiva e

com muita flexibilidade. Propõe a utilização de apenas quinze elementos de metadados

descritivos, todos os elementos opcionais que oferecem um ponto de partida para descrições

semanticamente mais ricas e interdisciplinares. Favorecendo bibliotecas, museus, governo,

educação entre outros.

Veja na Figura 22 os elementos que compõem a arquitetura completa Dublin Core.

Figura 22 - Arquitetura do DC (Dublin Core).

Fonte: Imagem extraída de: ganesha Dublin Core, 2010.

Alguns dos elementos mais comuns em websites que usam o Dublin Core:

57

a) assunto: Área de conhecimento ao qual o trabalho pertence;

b) título: É definido como o nome do objeto;

c) autor: Responsável pelo conteúdo intelectual do trabalho.

Como a maioria dos objetos na internet estão em forma de documentos, o objetivo principal

do Dublin Core é identificar um conjunto contendo o mínimo de elementos capazes de

descrever esses objetos. Devido a essa simplicidade DC é considerado o ponto de partida para

os demais projetos envolvendo especificações de uma arquitetura de metadados para a Web

(Dublin Core, 2010).

Será visto na Figura 23 um exemplo simples de DC, para descrever uma gravação de áudio de

um guia para o crescimento de roseiras. Com o XML ou RDF / XML, Dublin Core pode

potencialmente ser misturado com outros vocabulários de metadados.

Figura 23 - Exemplo simples de Dublin Core.

O exemplo acima pode ser usado juntamente com outros vocábulos como vCard* (vCard é

um formato de arquivo padrão para cartões de negócio eletrônico) que pode descrever a

filiação do autor e informações de contatos, ou uma mais especializada ―rosa‖, na descrição

do vocabulário que descreveu as roseiras em maior detalhe.

Cada elemento Dublin Core é opcional e repetível, e não há nenhuma ordem definida dos

elementos. A ordenação de várias ocorrências do mesmo elemento (por exemplo, creator)

pode ter um significado pretendido pelo provedor, mas não há uma garantia de preservação da

58

ordem em todos os ambientes do usuário. Ordenação ou sequenciação pode ser dependente de

sintaxe, por exemplo, RDF/XML suporta ordenação, mas HTML não (Dublin Core, 2010).

4.1.3 Creative Commons

Creative Commons é uma organização sem fins lucrativos, que trabalha com o intuito de

aumentar a quantidade de criatividade na área científica, cultural e educacional. Fundada em

2001 com apoio do Center of Public Domain (Centro de Domínio Publico) e sua alta cúpula

(Creative Commons, 2010), Creative Commons tem como objetivo ajudar a publicar um

determinado trabalho online, deixando claro o que pode e o que não pode fazer com esse

determinado trabalho. Com uma licença Creative Commons, é possível manter os direitos

autorais, mas permitir que as pessoas copiem e distribuam o seu trabalho desde que elas lhe

deem o crédito, e somente nas condições que forem especificadas (Creative Commons, 2010).

Dentre as seis licenças existentes é preciso escolher a que atende às necessidades do

respectivo trabalho, veja a Tabela 2 a seguir.

Licenças Creative Commons

by-nc-nd = Atribuição

não comercial – não

derivativa

É a mais restritiva das seis licenças principais,

permite redistribuição. Permite que os

trabalhos sejam baixados e partilhados com os

outros, desde que seja mencionado o link de

origem. Não pode mudá-lo de qualquer forma

ou usá-los comercialmente.

by-nc-sa = Atribuição

não comercial –

compartilhamento

desde que não seja

alterada

Esta licença permite o ―remix‖, a construção

sobre o trabalho contanto que você licencie

suas criações nos termos idênticos. Todos os

novos trabalhos com base neste realizará a

mesma licença, para todos os derivados

também serão não comercial por natureza.

59

by-nc = Atribuição não

comercial

Esta licença permite o ―remix‖, e a construção

sobre o trabalho não comercial. E apesar de

novas obras, também deve reconhecer que não

pode comercializá-lo, não têm a sua licença de

obras derivadas sobre os mesmo termos.

by-nd = Atribuição não

derivativa

Esta licença permite a redistribuição,

comercial e não comercial, contanto que a

obra seja inalterada ao longo e na íntegra, com

crédito para você.

by-sa = Atribuição sem

alteração

Esta licença permite o ―remix‖, reconstruir

sobre o seu trabalho, mesmo por motivos

comerciais, contanto que o crédito seja dado

ao autor original. Todas as novas obras com

base em seu trabalho realizará a mesma

licença, para todos os derivados também vai

permitir o uso comercial.

by = Atribuição apenas Esta licença permite aos outros distribuírem

―remixar‖ e construir sobre o seu trabalho,

mesmo comercialmente, desde que seja dado

o crédito para a criação original. Este é a mais

acomodada das licenças oferecidas, em termos

do que os outros podem fazer com suas obras

sob licença e atribuições.

Tabela 2 - Representação das licenças Creative Commons.

Os desenvolvedores interessados em licenciar o seu Trabalho tem de preencher a Seção

―informações adicionais‖ do formulário de seletor de licença, e após o preenchimento eles

recebem um trecho do código XHTML que contém o crachá da imagem, um link para a

licença de algum texto e alguns tags span. Dentro dessas tags RDFa é expressa.

Vamos dar uma olhada em alguns códigos de exemplo para aprender mais sobre RDFa na

Figura 24.

60

Figura 24 - Exemplo de código RDFa Creative Commons.

No destaque da Figura 24 o Creative Commons está usando o próprio namespace XML,

abreviado usando o cc. A propriedade é do AttributionName atributo cc, o valor é o conteúdo

dentro da tag âncora (mikexelrod), e uma relação de cc: AttributionURL é definida como

sendo http://WWW.mikexelrod.com/wp/wp-content/uploads/2008/10/iswc-ontology-

web.png. O ―rel = license‖ se encarrega de especificar a relação de URL’s a href. Neste caso

a relação é a ―license‖ e a URL é um padrão licença Creative Commons. Já as propriedades a

seguir que não compõe a Figura 24 como: o ―dc: source‖ é semelhante à fonte dc:title, dc

especifica onde a fonte a fonte original do arquivo está localizada. E por fim o ―cc:

morePermissions‖ que como parte do protocolo mais Creative Commons, os criadores podem

especificar uma URL onde re-usuários de licenças podem obter mais direitos para o Trabalho.

4.2 Edição de Conteúdo

A edição pode ser feita usando qualquer editor de texto. Porém, assim como as redes sociais

facilitam a edição de informações não estruturadas, é desejável oferecer ao usuário

ferramentas que também facilitem a edição de informações estruturada. Nas subseções a

seguir serão apresentadas algumas ferramentas que contribuem para isso.

4.2.1 Wp-RDFa

Wp-RDFa é um plugin Wordpress desenvolvido em linguagem php por Richard Harvey. O

objetivo deste plugin é inserir a Web Semântica no Blog Wordpress, (SquareCows, 2010). Ele

automaticamente adiciona:

a) FOAF que pode ser usado para relacionar as informações pessoais para o blog.

Também pode ser usado para relacionar outros usuários do blog para se

construir um mapa semântico dos relacionamentos no mundo online;

http://www.mikexelrod.com/wp/wp-content/uploads/2008/10/iswc-ontology-web.png

http://www.mikexelrod.com/wp/wp-content/uploads/2008/10/iswc-ontology-web.png

61

b) Dublin Core para obter semântica e tags automaticamente posts com o título, o

criador e os elementos de data.

4.2.2 Image Licenser

O plugin Image Licenser foi desenvolvido com o objetivo de simplificar a marcação de

imagens com um selo Creative Commons, utilizando RDFa para permitir que os motores de

buscas compreendam os metadados de licenciamento. O plugin também adiciona o nome e

URL do autor, para definir o cc: attributionName e cc: attributionURL.

4.3 Busca Semântica

Nas subseções a seguir serão apresentadas as bibliotecas de busca semântica avaliadas.

4.3.1 Backplanejs

Backplanejs é uma biblioteca que oferece uma gama de componentes (plugins) de código

aberto a partir de bibliotecas Asynchronous Javascript And XML (Ajax) de extensões do

navegador. À possibilidade das aplicações rodando na web de poder fazer uso de qualquer

funcionalidade avançada que o usuário tenha optado por instalar dá-se o nome de progressive

browser enchancement ou (reforço browser progressivo), porém, se a funcionalidade não

estiver disponível pode resultar na a execução Java Script. A gama de extensões disponíveis

inclui suporte completo para XForms, componentes para a criação fácil de sidebars (página

HTML simples) navegador e barras de ferramentas, o acesso ao MicrosoftAgent (tecnologia

que permite o computador ler o que você está escrevendo) para o discurso, e muito mais

(Backplane, 2010).

A biblioteca Backplanejs também permite que os programadores desenvolvam aplicações

desktops, disponibilizando uma estrutura de aplicativos sofisticados que permite aos autores

criarem gadgets (pequeno software que pode ser agregado a um serviço maior), widgets

(pequenos aplicativos que flutuam pela área de trabalho e fornecem funcionalidade

específicas ao utilizador como: previsão do tempo, cotação de moedas, relógio, etc..),

62

aplicativos completos utilizando as mesmas linguagens padrão que são utilizadas em

aplicações web .

A implementação da biblioteca Backplanejs só é possível se colocada no diretório raiz do

projeto, descompactado. Com a biblioteca no diretório raiz, basta referenciá-la a partir de

qualquer lugar do projeto, como segue na Figura 25.

Figura 25 - Código para referenciar a biblioteca Backplanejs.

O código mostrado na Figura 25 deverá ser inserido nos códigos correspondentes as páginas

dos projetos.


Esse capítulo apresentou alguns dos vocabulários que serão utilizados nos estudos de caso.

Mostrou também plugin e biblioteca que farão parte dos testes realizados no Capítulo 5.

O próximo Capítulo apresentará estudos de caso de sucesso que utilizam a marcação

semântica.

63

5 ESTUDO DE CASOS

O objetivo deste capítulo é apresentar um estudo de caso sobre a aplicação da Web Semântica

nas redes sociais.

Este capítulo está organizado como segue: a Seção 5.1 apresenta a otimização de sistemas de

buscas, a 5.2 licença de imagens em blogs e outras redes, e por fim na 5.3 rede social para

compartilhamento de slides.

5.1 Otimização de Sistemas de Busca

Atualmente, os sistemas de busca não são capazes de fazer buscas inteligentes devido à falta

de marcação semântica nas páginas disponíveis na web. O que é comum nas atuais páginas

são as marcações com tags sintáticas, o que deixa o agente de software ―perdido‖ numa busca,

afinal ele não sabe o que o usuário realmente deseja. Na dúvida, o agente recupera todas as

referências que se assemelham a solicitação feita e deixa a cargo do usuário decidir o que é

relevante e o que não é.

Atualmente, buscar artigos em sites como Google, Yahoo, Bing e outros, indicando ao motor

de busca o nome do autor, terá como resultado dezenas, centenas, senão milhares, de links que

se referem ao autor solicitado e não apenas aos artigos escritos pelo autor especificado na

busca. A seguir um exemplo de busca atual representado na Figura 26.

64

Figura 26 - Exemplo de busca com tags no Google.

Observando os detalhes da pesquisa fica evidente a quantidade gigantesca de referências a

Berners-Lee encontrada na web, sendo que na realidade o objetivo era de buscar apenas

artigos publicados pelo o autor informado. Certamente, na maioria destes links existem apenas

referências aos vários artigos escritos pelo autor Berners-Lee.

Todo o transtorno e a perda de tempo na tentativa de encontrar algo específico na web,

levaram pesquisadores como Berners-Lee a desenvolver vocabulários semânticos para

possibilitar as máquinas fazerem buscas precisas e até dar sugestões confiáveis quanto às

decisões que deverão ser tomadas pelo usuário.

65

5.1.1 Análise de Tecnologias

As tecnologias utilizadas neste estudo de caso foram escolhidas devido as suas objetividades.

A praticidade foi outro fator decisivo para a escolha, visto que um blog pode ser configurado

por usuários que não necessariamente possuem conhecimentos avançados sobre programação

Web.

Além do blog Wordpress, para que fosse possível realizar o estudo com sucesso, outras

tecnologias também foram utilizadas, como a biblioteca Backplanejs devido aos seus

inúmeros componentes que possibilitam aos programadores implementarem aplicativos web,

desktops e outros, também o plugin wp-RDFa, cuja função principal é gerar o código RDFa

(marcação semântica em meio ao HTML dos posts) nos posts do blog.

5.1.2 Arquitetura

O modelo de arquitetura da Figura 27 apresenta as ferramentas que foram utilizadas neste

estudo de caso.

66

Figura 27 - Arquitetura do estudo de caso do blog Wordpress.

O passo 1 representa o ―blog Wordpress‖. Já no passo 2 está o plugin wp-RDFa que, uma vez

instalado e configurado no blog Wordpress, tem a função de gerar o código RDFa. E por fim,

o passo 3 é representado pela biblioteca Backplanejs junto ao código SPARQL que é a

responsável por realizar a busca semântica na base RDFa.

67

5.1.3 Implementação

A implementação só foi possível graças a capacidade de integração das tecnologias que

permitiram, neste caso de uso, a realização de uma busca bem sucedida, que deu-se da

seguinte maneira:

a) foi instalado o XAMPP (programa que permite instalar Apache, PHP e Mysql

em um só) para Windows;

b) foi feito o download do Wordpress versão 2.9.2 para o localhost;

c) na pasta plugin do Wordpress foi adicionado o plugin wp-RDFa;

d) através do painel do Wordpress o plugin wp-RDFa foi ativado;

e) e, por fim, foi adicionada a tag script que irá carregar o analisador RDFa.

Tendo sido integrados todas as tecnologias citadas, basta postar no Blog para que seja gerado

o código semântico. A Figura 28 a seguir ilustrará o RDFa que foi gerado por posts na página

do blog.

Figura 28 - Código da página do Blog Wordpress com RDFa.

O código da Figura 28 foi gerado pelo Wordpress que tem integrado o plugin wp-RDFa. No

retângulo que aparece em meio ao código estão sendo apontadas as propriedades Dublin

Core, date e title.

68

5.1.4 Resultado

A Web Semântica surge com o intuito de organizar a montanha de documentos que é a Web

atual, possibilitando buscas precisas, diferente do que vimos na sessão 5.1 com o exemplo da

busca sintática no Google por artigos do autor Berners-Lee. A Web Semântica propõe buscas

eficientes, para que o resultado seja realmente o esperado. A ideia da busca semântica é

construir um mecanismo de busca que não faça apenas uma simples pesquisa por palavras,

mas que reconheça o significado das palavras pesquisadas no contexto desejado.

A Figura 29 a seguir, ilustra uma busca semântica realizada numa página do blog Wordpress

que, através do plugin wp-RDFa, possibilitou a marcação (sublinhado de amarelo) semântica

dos posts.

69

Figura 29 - Exemplo de busca semântica no blog Wordpress.

O objetivo desta busca semântica foi encontrar os títulos dos posts contidos na página do

blog. Repare que na primeira linha do corpo do texto os títulos se repetem propositalmente. E

essa repetição tem como meta mostrar que numa busca semântica os agentes de softwares

identificam apenas aquilo que lhes é pedido, descartando qualquer outro tipo de conteúdo

70

existente no corpo do texto. Para reforçar o conceito de Web Semântica, a seguir mais um

exemplo prático sobre buscas é apresentado.

Numa busca sintática realizada pela Google, Yahoo ou outros motores de buscas, quando

pesquisamos um determinado assunto utilizando termos como ―copa do mundo‖, todo e

qualquer documento existente na web que faça referência a ―copa do mundo‖ virá nos

resultados, isso é fato.

O que difere a Web Semântica da sintática é a marcação/significado, não importa se ―copa do

mundo‖ é título ou se o termo está no corpo do documento. No código de busca da Figura 30,

fica evidente que a intenção no exemplo do blog foi buscar apenas o título. Portanto,

independente de se ter o mesmo termo no corpo do texto o resultado será o conteúdo do título,

apenas.

Figura 30 - Exemplo de busca pelo título do post no blog Wordpress.

Na query referente à Figura 30 fica evidente que uma busca semântica só é possível se o

conteúdo pesquisado esteja marcado semanticamente. A não seleção da linha que é idêntica

ao título no corpo do texto se deu devido à falta da marcação semântica daquele conteúdo,

apenas o título foi marcado. Essa busca poderia ter sido feita pela data de criação do post, pelo

autor do post, etc.

Durante os testes com o plugin wp-RDFa foi constatado uma falha na geração do código

RDFa. O código de busca SPARQL que deveria selecionar apenas a data do post, como

determina a query, estava trazendo o título e não a data.

71

Figura 31 - Exemplo de busca da data do post no blog Wordpress.

Depois de alguns testes com o código, foi identificada a falha. Iniciou-se então um processo

de investigação na busca pela origem dessa falha. Depois de ―debugar‖ o código com muita

atenção foi constatado que os dois verbos que compunham a tripla apontavam para o mesmo

objeto.

A Figura 32 ilustra a formação errônea que está sendo gerado, pelo plugin do Wordpress, o

wp-RDFa.

Figura 32 - Exemplo de busca do plugin wp-RDFa no blog Wordpress.

Na Figura 33 está sendo mostrado, no destaque, o código com erro/incompleto gerado pelo

plugin wp-RDFa.

72

Figura 33 - Código gerado incompleto pelo plugin wp-RDFa no blog Wordpress.

Após visualizar e analisar o código com muita atenção é possível identificar que tanto a data

quanto o título estão apontando para o mesmo objeto. Na Figura 34 observa-se o exemplo de

formação correta da tripla RDF, onde é formado o sujeito, predicado e objeto.

Figura 34. Formação correta, um verbo para cada objeto.

A seguir, observar com a atenção o código da Figura 35, pois, nele será mostrada a correção

do código mostrado nos passos anteriores, para cada predicado é necessário um objeto.

Figura 35 - Código corrigido manualmente.

73

Este código que foi corrigido manualmente. O correto é o código ser gerado pelo plugin wp-

RDFa sob os posts do blog Wordpress.

Conclui-se que para a geração correta do código é preciso que o plugin seja corrigido, pois a

falha compromete realmente o sistema de busca no Wordpress.

5.2 Licença de Imagens em Blogs e outras Redes

A cada ano que passa, aumentam-se mais os problemas com plágios, especialmente em mídias

digitais. É raro encontrar um designer que nunca teve problemas na web com cópias de seus

trabalhos. (BIZER, et al, 2007).

Ao contrário do que se imagina, gente ―grande‖ também plagia. Num passado recente

acompanhamos o caso do portal R7 que plagiou o layout de seu concorrente direto, o G1. Este

é apenas um exemplo dos muitos casos. Mas quando o assunto é conteúdo autoral publicado

em blog e matérias gráficos para mídias diversas, a frequência tende a ser maior.

Isso acontece, geralmente porque as pessoas buscam uma forma rápida de conseguir audiência

(no caso de um blog) ou de ganhar dinheiro fácil (no caso de outros trabalhos). O código

penal brasileiro (art.184) prevê uma pena nada ―simbólica‖ para os copiadores, que pode ir

desde uma multa até um ano de detenção (Dji, 2010).

Este estudo de caso mostrará como é possível a realização de buscas a imagens, que possuem

a licença Creative Commons. Na Seção 5.2.1 são analisadas as tecnologias utilizados, na

Seção 5.2.2 é mostrado a arquitetura, na Seção 5.2.3 a implementação e, por fim na Seção

5.2.4 o resultado.


Para este estudo de caso foi utilizado o blog Wordpress, a biblioteca Backplanejs e o plugin

image license.

O Wordpress extremamente flexível e fácil de interagir com o usuário comum, já possui um

plugin para licença de imagens, o plugin image license, assim que ativado sem nenhuma

dificuldade permite a inserção do código da licença correspondente na aba texto. E, por fim, a

74

biblioteca Backplanejs que quando é adicionada ao código possibilitará através da query

montada realizar a busca pelo criador da imagem, neste estudo.

5.2.2 Arquitetura

A arquitetura deste estudo de caso quanto às licenças foi composta pelo blog Wordpress, o

plugin image license e a biblioteca Backplanejs.

75

Figura 36 - Arquitetura do estudo de caso do Creative Commons.

76

No passo 1 está a Figura que representa o blog, no passo 2 o código que é inserido pelo plugin

image licenser e por último no passo 3 a biblioteca Backplanejs que é representada pela query

SPARQL.


A licença Creative Commons pode ser inserida de duas maneiras, graças à flexibilidade do

blog Wordpress. Com a ativação do plugin pelo painel de controle do blog, é habilitada a aba

text no menu Widgets, como mostra a Figura 37.

Figura 37 - Painel de controle do Wordpress.

Depois de habilitado o widget text, é só arrastá-lo para o menu ―sidebar1” a direita do painel

como mostra a Figura 38.

77

Figura 38 - Painel de controle do Wordpress

Depois de realizados os passos anteriores, basta inserir o código da licença requerida que deve

ser gerado no site oficial da Creative Commons, o link do site é

http://creativecommons.org/choose/. Como mostram as figuras 39 e 40, é só preencher o

formulário determinado e copiar o código gerado para o widget text.

http://creativecommons.org/choose/

78

Figura 39 - Formulário do site da Creative Commons.

Fonte: Imagem extraída do site Creative Commons, 2010.

79

Figura 40 - Formulário do site da Creative Commons.

Fonte: Imagem extraída de: site Creative Commons, 2010.

O que foi mostrado é apenas um dos caminhos possíveis para inserir a licença no blog. No

entanto, o caminho mostrado limita-se a licenciar todo e qualquer conteúdo do blog sem

distinção. A outra forma de inserir a licença é individualizando cada conteúdo postado. É

possível que a licença seja diferente para cada conteúdo postado no blog e para isso basta

seguir os próximos passos.

80

Usando o painel do blog adicione o URL da imagem desejada no formulário que indica a

Figura 41.

Figura 41 - Formulário para inserir imagens.

Na sequência gere o código no site oficial da Creative Commons e copie-o na aba HTML da

edição do blog como mostra a Figura 42.

81

Figura 42 - Espaço indicado para a inserção de código fonte.

Tendo seguido todos os passos indicados anteriormente, a sua imagem estará licenciada pela

Creative Commons.

5.2.4 Resultados

Creative Commons é uma ferramenta que pode ajudar a publicar um determinado trabalho

online, deixando claro o que pode e o que não pode fazer com esse determinado trabalho.

(BIZER, et al, 2007). Com uma licença Creative Commons, é possível manter os direitos

autorais, mas permitir que as pessoas copiem e distribuam o seu trabalho desde que elas lhe

deem o crédito, e somente nas condições que forem especificadas. (Creative Commons,

2010).

Quando se escolhe uma licença, são fornecidos ferramentas e tutoriais que permitem adicionar

informações sobre a licença para o seu próprio site, ou um dos vários serviços de hospedagem

gratuita que incorporam Creative Commons.

RDFa foi a maneira escolhida para fazer a máquina licença legível neste estudo de caso. Ao

utilizar RDFa Creative Commons, objetos licenciados podem ser descobertos pelos motores

de buscas e mecanismos de autodescoberta,como mostra a Figura 43.

82

Figura 43 - Figura licenciada pela Creative Commons.

Na Figura 44 está representado a query SPARQL que foi montada para identificar o criador

(sublinhado de amarelo) ―Mikeaxelrod‖, o dono da imagem mostrada no post representado na

Figura 43.

83

Figura 44 - Query responsável pela identificação da imagem do blog.

Esse estudo mostrou as vantagens da marcação RDFa na busca por figuras licenciadas pela

Creative Commons, e também, as possíveis formas de licenciar um post no Wordpress.

5.3 Rede Social para Compartilhamento de Slides

Slideshare é uma rede social que foi desenvolvida com o intuito de enviar, compartilhar,

apresentações de PowerPoint e Keynote, Word e PDF em documentos slideshare. As

apresentações podem estar ligadas ao próprio site ou então incorporadas a uma página web.

Também é possível sincronizar um arquivo de áudio MP3 (podcast) com o slidset para criar

um slidecast. É considerada a forma mais poderosa de distribuição de apresentações/tutoriais

(Slideshare, 2010).

Slideshare incorporou a marcação semântica RDFa em seu código o que possibilitou uma

maior interoperabilidade entre as ferramentas de busca que queiram implementar a

funcionalidade do Slideshare. No entanto, uma busca por material disponível no Slideshare

terá o mesmo comportamento sintático do exemplo de busca da Google, mostrado no primeiro

estudo de caso. Isso se deve ao fato de que a marcação semântica do Slideshare foca apenas a

interoperabilidade entre as ferramentas de busca que queiram implementar funcionalidades.

84

Figura 45 - Busca realizada pelo site do Slideshare.

Fonte: Imagem extraída de: site Slideshare, 2010.

Neste exemplo foi realizada uma busca pelo autor ―Mark Birbeck‖, quem costuma

disponibilizar os seus slides de apresentações sobre semântica que faz pelo mundo a fora. O

resultado desse experimento não foi diferente do realizado anteriormente no site da Google,

muito insatisfatório. Devido à falta de marcação semântica apropriada para a visualização

humana, a busca não foi bem sucedida em meio ao conteúdo solicitado, veio muito ―lixo‖.

Observe que alguns dos slides apresentados na Figura 45 não possuem a assinatura do autor

Mark Birbeck, portanto, o fato de estarem no resultado desta busca reafirma a ineficiência do

sistema de busca na atual World Wide Web (WWW).

85


Para este estudo de caso foi utilizado o código fonte de uma página do Slideshare, onde em

meio ao código foi feito a referência à biblioteca Backplanejs que permitiu a criação da query

SPARQL inserida na página para a realização dos testes de buscas semântica. Além da

chamada a classe Cascading Style Sheets (CSS) que tem a função de sublinhar de amarelo o

resultado da busca.

5.3.2 Arquitetura

O modelo de arquitetura representa de forma figurativa, as ferramentas que foram utilizadas

neste estudo de caso. O objetivo é mostrar as tecnologias integradas em busca de um

denominador comum.

86

Figura 46 - Arquitetura do estudo de caso do Slideshare.

O passo 1 da Figura está sendo representado pela página do Slideshare. Já o passo 2

representa a marcação semântica RDFa da página mostrada no passo um. E, por fim, no passo

3 está o código SPARQL representando a biblioteca Backplanejs encarregada por fazer a

busca semântica.

87


A implementação deste estudo de caso deu-se seguindo os mesmos passos da implementação

da Seção 5.1.2.4. O principal diferencial é que o código testado neste estudo de caso não foi

gerado pelo plugin wp-RDFa. O teste foi realizado com o código do site do Slideshare que já

se encontra marcado com RDFa.

Para a realização efetiva do teste semântico na página do Slideshare, como também no

primeiro estudo de caso, foi utilizado um recurso de implementação para simular um buscador

web. Em meio ao código, especificamente dentro da tag <head>, foi adicionada a biblioteca

da Backplanejs e a chamada do CSS, cujo objetivo é sublinhar de amarelo o resultado da

busca. Veja na Figura 47 o exemplo.

Figura 47 - Script da biblioteca Backplanejs e a chamada CSS na página.

Uma vez tendo inserido no cabeçalho a chamada a biblioteca Backplanejs e referenciado a

classe CSS, para finalizar a implementação do simulador é só inserir a query SPARQL que se

encarregará de encontrar o atributo solicitado no momento da busca. Vejamos o código:

88

Figura 48 - Código de busca SPARQL.

Essa estrutura de busca trouxe o autor das publicações inseridas no corpo da página. Assim,

realizados os passos indicados, bastou executar o arquivo HTML no browser, de preferência o

Firefox, pois, o CheckRDFa (serviço que verifica as triplas existentes na página) não funciona

no Explorer e não foi testado noutros browsers, e aguardar o resultado.

5.3.4 Resultados

Tendo seguido todo processo, passa-a-passo explicado na Seção 5.3.2, o resultado será igual o

mostrado na Figura 49.

89

Figura 49 - Resultado da busca no site Slideshare.

Fonte: Imagem extraída de: site Slideshare, 2010.

A query desse estudo de caso foi montada para identificar o criador da página, Mark Birbeck.

Como é possível visualizar o seu nome sublinhado de amarelo. Esse é o resultado da

simulação de uma busca bem sucedida.

No decorrer dos testes, foi constatado que a sintaxe nas marcações semânticas do Slideshare

pode ser melhorada através da integração entre o conteúdo para humanos e para máquinas,

como mostra a seguir, a Figura 50.

90

Figura 50 - Código da página do Slideshare.

Visualizando as propriedades do RDFa da página foi identificado triplas incompletas, o que

comprometem o funcionamento correto do que é proposto pela estrutura RDF, como ilustra a

Figura 51.

Figura 51 - Modelo de tripla RDF.

A proposta do RDF é que haja o sujeito, o predicado e o objeto. Não apenas, o sujeito e

predicado como mostra a Figura 52. A Figura 52 representa a marcação semântica que é

gerada pelo blog Slideshare atualmente.

Figura 52 - Modelo de tripla RDF incompleta.

91

Dessa forma, o usuário fica impossibilitado de visualizar e de fazer buscas eficientes no

conteúdo da página.

92

6 CONSIDERAÇÕES FINAIS

Este trabalho apresentou um estudo de caso sobre a aplicação da Web Semântica nas redes

sociais.

Este capítulo está dividido como segue: a Seção 6.1 apresenta as Contribuições e Conclusões

e a Seção 6.2 apresenta trabalhos futuros.

6.1 Contribuições e Conclusões

As contribuições deste Trabalho foram:

a) a avaliação de vocabulários da web semântica;

b) a avaliação de ferramentas de edição de conteúdo semântico;

c) a avaliação de ferramentas de busca semântica;

d) um estudo de casos sobre a aplicação de web semântica nas redes sociais

contendo.

a) otimização do sistema de busca;

b) licença de imagens em blogs e outras redes;

c) rede social e compartilhamento de slides.

A partir destas contribuições, pode-se concluir que:

a) as buscas serão mais específicas, a partir do momento em todas as camadas

correspondentes que compõem a arquitetura da Web Semântica estiverem

prontas, e os documentos da Web estejam marcados semanticamente. Essa

afirmação está embasada nos estudos de casos realizados nesse trabalho, que

provam a eficácia da marcação semântica;

b) numa busca semântica por imagens, é possível trazer apenas as que possuem a

licença Creative Commons;

c) as redes sociais são meios extraordinários no compartilhamento de

experiências, sobretudo no compartilhamento de material de estudos;

93

d) as ferramentas avaliadas se mostraram efetivas na integração da Web

Semântica nas redes sociais.

A seguir são apresentadas experiências obtidas ao longo do desenvolvimento deste Trabalho:

a) no decorrer dos testes, foi constatado que a sintaxe nas marcações semânticas

do Slideshare pode ser melhorada através da integração entre o conteúdo para

humanos e para máquinas;

b) o plugin wp-RDFa do Wordpress pode ser melhorado através da separação de

sintaxe para o entendimento humano e máquina (computador).

6.2 Trabalhos Futuros

As contribuições alcançadas com este Trabalho não encerram as pesquisas relacionadas à

Web Semântica, mas abrem oportunidades para alguns Trabalhos futuros:

a) aperfeiçoar sistemas de recomendação em sites de comércio eletrônico,

descrevendo semanticamente os produtos e as opiniões dos clientes;

b) desenvolver uma agenda semântica, que ajude o usuário no gerenciamento de

viagens, compromisso, reserva em hotéis e outros;

c) desenvolver um portal semântico que compare preços de produtos de diferentes

lojas;

d) integrar as informações de diferentes redes sociais através de um vocabulário

semântico unificado.

94

REFERÊNCIAS BIBLIOGRÁFICAS

ARAÚJO, Vânia M. R. H. Sistemas de recuperação da informação: nova abordagem teórico

conceitual. Ciência da Informação, Brasília, v. 24, n. 1, 1995. Disponível em:

http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019652004000100016&lng=en

&nrm=iso . Acesso em: mai. 2010.

BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web . Scientific American.

284, n. 5, p. 34-43, 2001.

BERNERS-LEE, T.; SHADBOLT, N.; HALL, W. The Semantic Web Revisited. Intelligent

Systems May/ June 2006.

BAEZA-YATES R., RIBEIRO-NETO B. Modern Information Retrieval. 1999.

BRICKLEY, D. RDF Vocabulary Description Language 1.0: RDF Schema (2004).

<http://www.w3.org/TR/RDF-schema/>. Acesso em: fev. 2010.

BERNERS-LEE, T. The Semantic Web. 2002. Disponível em: <http://

www.w3.org/2002/Talks/04-sWeb-sloan/Overview.HTML>. Acesso em: Nov. 2009.

BERNERS-LEE, T.; MASINTER, L.; MCCAHILL, M. Uniform Resource Locators (URL).

RFC Sourcebook, n.1738, mar. 1994. Disponível em:

<http://www.networksorcery.com/enp/rfc/rfc1738.txt>. Acesso em: Nov 2009.

BERNERS-LEE, T. ET AL. The Semantic toolbox: building semantics on top of XML -RDF.

Disponível em: <http://www.w3.org/ DesignIssues/Toolbox.HTML>. Acesso em: mai. 2010.

BRICKLEY, D. et al. RDF vocabulary description language 1.0: RDF schema. . W3C

recommendation, 10 fev. 2004. Disponível em: <http:// www.w3.org/TR/2004/REC-RDF-

schema-20040210>. Acesso em: nov. 2009.

BACKPLANEJS. < http://code.Google.com/p/Backplanejs/>. Acesso em: abril 2010.

http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019652004000100016&lng=en&nrm=iso%20

http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019652004000100016&lng=en&nrm=iso%20

http://www.w3.org/%20DesignIssues/Toolbox.HTML

95

BIZER, C., CYGANIAK, R., HEATH, T.: How to publish Linked Data on the Web (2007),

<http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/>. Acesso em: mai. 2010.

CLARK, K. G. SPARQL Protocol for RDF. W3C Working Draft, Set.2005. Disponível em:

<http:// www.w3.org/TR/2005/WD-RDF-SPARQL-protocol-20050914>. Acesso em: nov.

2009.

CREATIVE COMMONS. < http://www.creativecommons.com>. Acesso em: abril 2010.

CHADRASEKARAN, B., JOSEPHSON, J., e BENJAMINS, V. What are ontologies, and

why do we need them? Intelligent Systems and Their Applications, IEEE Intelligent Systems,

vol. 14, no. 1, pp. 20-26. 1999.

CORCHO, O., GÓMEZ-PÉREZ, A. Ontology Languages for the Semantic Web. IEEE

Intelligent Systems, January/February, vol. 17, nº. 1.

DANAH M., NICOLE B. ELISIO. Social Network Sites: Definition, History,

and Scholarship. Michigan State University, 2007.

DBPIDIA. <http://www.dbpedia.org/>. Acesso em: out. 2009.

DJI. < http://www.dji.com.br/codigos/1940_dl_002848_cp/cp184a186.htm>. Acesso em:

abril. 2010.

DUBLIN CORE METADATA INITIATIVE. Disponível em: <http:/www.dublincore.org.>.

Acessado em: abril. 2010.

DING, L; FININ, T; JOSHI, A; PAN, R; COST, R; PENG, Y; REDDIVARI, P; DOSHI, V;

SACHS, J. Swoogle: a Search and Meta data Engine For The Semantic Web . Proceedings of

the Thirteenth ACM conference on Information and knowledge management, p.652-659,

2004.

EUZENAT, J. Eight Questions about Semantic Web Annotations. IEEE Intelligent

Systems. v. 22, n. 2, p. 55-62, mar. 2002.

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

http://dublincore.org./

96

F. L. G. FREITAS. Ontologia e a Web Semântica. Mini Curso no XIII Congresso de

Sociedade Brasileira de Computação, 2003. Campinas. 1-52 p.

FOAF. <http://xmlns.com/FOAF/0.1/>. Acesso em: mar. 2010.

FOAF-a-Matic. <http://www.ldodds.com/FOAF/FOAF-a-matic. Acesso em Mai 2010>.

Acesso em: mai. 2010.

GOMES, M. J. (2005). Blogs: um recurso e uma estratégia educativa. In Actas do VII

Simpósio Internacional de Informática Educativa, SIIE, pp. 305-311.

GRUNINGER, M.; LEE, J.; - Introduction to the Ontology Application and Design section –

guest editors – Communications of the ACM – February, Vol. 45, No.2 February 2002 –

pp.39-41.

HERMANS, B. Intelligent software agents on the Internet: an inventory of currently offered

functionality in the information society & a prediction of (near-) future developments,

Tilburg, Holanda: Tilburg University, 1996. Disponível em:

<http://www.hermans.org/agents>. Acesso em: jun. 2010.

HENDLER, J.A. Agents and the Semantic Web, IEEE Intelligent Systems, 2001, pp. 30-37.

HENDLER, J. E MCGUINNESS, D. DARPA Agent Markup Language. IEEE Intelligent

Systems, 15(6), 2000.

HASSANZADEH, O., et al.: A Declarative Framework for Semantic Link Discovery over

Relational Data. Poster at 18th

World Wide Web Conference (2009).

IDG Now. <http://idgnow.uol.com.br/>. Acesso em: abril. 2010.

KRUK, S. R. ET AL. JeromeDL reconnecting digital libraries and the Semantic Web.

Disponível em: <http://www.marcont.org/marcont/pdf/www2005_jeromedl.pdf>. Acesso em:

nov. 2009.

http://www.ldodds.com/FOAF/FOAF-a-matic.%20Acesso%20em%20Mai%202010

http://www.hermans.org/agents%3E

97

LEARNING TECHNOLOGY STANDARDS COMMITTEE of the IEEE, New York,

15/07/2002. Draft Standard for Learning Object Metadata. Disponível em:

<http://ltsc.ieee.org/wg12/index.HTML/>. Acesso em: jan. 2010.

LASSILA, O; HENDLER, J. Embracing Web 3.0. Internet Computing, IEEE, 11(3):90–

93, 2007.

LINDEN, G., et al., Amazon.com Recommendations, IEEE Internet Computing, 2003.

MANOLA, F; MILLER, E. RDFPrimer. <http://www.w3.org/2001/sw/>. Acesso em mar.

2010.

MOREIRA, Alexandra; ALVARENGA, Lídia; OLIVEIRA, Alcione de Paiva. O nível do

conhecimento e os instrumentos de representação: tesauros e ontologias. Datagramazero:

Revista de Ciência da Informação, v. 5, n. 6, dez. 2004. Disponível em

<www.dgzero.org/dez04/Art_01.htm>. Acesso em: mai. 2010.

MARCHIORI, Massimo. The limits of Web metadata, and beyond. In: INTERNATIONAL

WORLD WIDE WEB CONFERENCE, 7., 1998. Computer networks and ISDN systems, v. 30.

p. 1-9.

NOY, N.; SINTEK, M.; DECKER, S.; CRUBEZY, R.; FERGERSON, R.; MUSEN,

A. – Creating Semantic Web Contents with Protégé 2000 – IEEE Intelligent Systems Vol. 16

No. 2, 2001. pp. 60-71.

OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: novo desafio para os

profissionais da informação. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS

UNIVERSTÁRIAS. Disponível em

<http://www.sibi.ufrj.br/snbu/snbu2002/oralpdf/124.a.pdf>. Acesso em: mai. 2010.

PRUD'HOMMEAUX, E.; SEABORNE, A. SPARQL query language for RDF. W3C working

draft, 21 July 2005. Disponível em: <http:// www.w3.org/TR/2005/WD-RDF-SPARQL-

query-20050721>. Acesso em: nov. 2009.

http://www.dgzero.org/dez04/Art_01.htm

http://www.sibi.ufrj.br/snbu/snbu2002/oralpdf/124.a.pdf

98

PRUD'HOMMEAUX, E.; SEABORNE, A. SPARQL query language for RDF. Technical

report, W3C, 2006. W3C Candidate Recommendation, <http://www.w3.org/TR/RDF-

SPARQL-query/>. Acesso em jun. 2010.

PHIL TETLOW ET. AL. (ed.). ―Ontology Driven Architectures and Potential Uses of The

Semantic Web in Software Engineering‖. W3C Working Draft (21/09/2005)

<http://www.w3.org/2001/sw/BestPractices/SE/ODA/>. Acesso em: Mai 2010.

RDFQUERY. < http://code.Google.com/p/RDFQuery/>. Acesso em: abril. 2010.

REDES SOCIAIS: < http://en-

us.nielsen.com/main/news/news_releases/2009/june/time_on_facebook>. Acesso em: dez.

2009.

SHADBOLT, N.; BERNERS-LEE, T. Despontar da. Revista Scientific American. nov. 2008.

SIMAC; MUSICSURFER. Foafing The Music. 2006. Disponível em: <http://foafing-the-

music.iua.upf.edu/ISWC2006/index.HTML>. Acesso em: abril 2010.

SLIDESHARE. <http://www.Slideshare.net/>. Acesso em: abril 2010.

SIMAC. <http://ocelma.livejournal.com/>. Acesso em: abril 2010.

SUN MICROSYSTEMS. <http://java.sun.com/>. Acessado em: out. 2009.

SILVA, G. H. Construção de Agentes Inteligentes para a Web Semântica. Monografia

trabalho de formatura supervisionado, IME-USP. Brasil, 2004.

SOUZA, R; ALVARENGA, L. A Web Semântica e Suas Contribuições para a Ciência da

Informação. Ciência da Informação, 33(1), 2004.

SNOOGLE. <http://snoggle.projects.semWebcentral.org/>. Acesso em fev. 2010.

TWITTER: <www.ibm.com>. Acesso em: Dez. 2009.

http://www.w3.org/TR/RDF-SPARQL-query/

http://www.w3.org/TR/RDF-SPARQL-query/

http://en-us.nielsen.com/main/news/news_releases/2009/june/time_on_facebook

http://en-us.nielsen.com/main/news/news_releases/2009/june/time_on_facebook

99

T. SEGARAN, C. EVANS, AND J. TAYLOR. Programming The Semantic Web . O’Reilly,

Cambridge MA, 2009.

THE MIT LICENSE. < http://www.opensource.org/licenses/mit-license.php>. Acesso em:

mai. 2010.

THE NEW YORK TIMES. http://www.nytimes.com/>. Acesso em: mar. 2010.

W3C. World Wide Web Consortium. <http://www.w3.org/>. Acesso em: out. 2009.

WORDPRESS. < http://br.Wordpress.org/>. Acesso em: mar. 2010.

WEIBEL, F. < http://www.fibl.org/de/mitarbeiter/weibel-franco.HTML>. Acesso em: mar.

2010.

W3. <http://www.w3.org/2001/sw/>. Acesso em: mar. 2010.

Wp-RDFa. < http://dev.squarecows.com/projects/wp-RDFa/>. Acesso em: abril 2010.

WIDERHOLD, G. Mediators in the Architecture of Future Information Systems. IEEE

Computer. Pp.38-49, 1992.

YAHOO developer. <http://developer.yahoo.com/searchmonkey/>. Acesso em: abril. 2010.

http://www.opensource.org/licenses/mit-license.php

Technology

ESTUDO DE CASOS SOBRE A APLICAÇÃO DA WEB SEMÂNTICA NAS REDES SOCIAIS