Web Semântica e Ontologia

1 INTRODUÇÃO

Não há dúvidas quanto a importância da Internet nos dias atuais e também não há

dúvidas de que ela marcou o mundo após sua popularização. Ainda hoje, a Internet tem a

capacidade de alterar a forma com que empresas fecham negócios ou seu modo de

operação e também tem ainda a capacidade de alterar o cotidiano das pessoas.

Um dos grandes desafios na Internet é a recuperação da informação. Mesmo com

todo o avanço tecnológico e anos de estudos, ainda hoje é impossível ter somente

resultados plausíveis em um site de busca. Algumas vezes esses sites de busca informam

como resultado páginas Web que já foram apagadas.

Nesse contexto vislumbra-se como novo e significativo avanço, em termos de

tecnologia para Internet, a Web Semântica. O projeto está em desenvolvimento na

empresa W3C, cujo diretor é Tim Berners-Lee, o inventor da Web. De acordo com

Wilson (2007), com a Web Semântica em funcionamento, os computadores poderão

entender o conteúdo de um site.

A seguir trataremos dos ferramentas que sustentam a Web Semântica e permitem

seu funcionamento e os desafios a serem superados para implementação dessa poderosa

ferramenta.

2 O QUE SERÁ POSSÍVEL COM A WEB SEMÂNTICA

Um consumidor visita um site de uma loja virtual na Internet em busca de um

DVD. Este consumidor sabe o título que procura e as características do DVD como sua

preferência por DVD simples ou duplo, se prefere tela widescreen ou fullscreen, tem

preferência a respeito de o título ser dublado ou legendado, dentre outros. Para concluir

sua tarefa ele necessita visitar várias páginas web para verificar se as condições

especificadas estão sendo correspondidas.

Este é um exemplo introdutório de Wilson (2007) e o próprio autor mostra a

alternativa da Web Semântica: o consumidor teria em seu computador um programa

intitulado agente. Este agente faria a busca na Web e devolveria ao consumidor a(s)

melhor(es) resposta(s); daí ele carregaria o programa de finanças pessoais do consumidor

e registraria o valor gasto; também, em seu programa de agenda, registraria a data da

entrega. Este programa agente ainda teria a informação se o resultado da compra foi

satisfatória ou não, visando compras futuras na loja virtual em que o consumidor fechou

negócio.

Wilson (2007) conclui que isto é possível porque o agente busca na Web

metadados correspondentes às preferências do consumidor. Metadados são dados que são

utilizados no intuito de interpretar outros dados. De acordo com Berners-Lee apud

Wilson (2007), “estas ferramentas deixarão a Web, atualmente semelhante a um grande

livro, como um gigante banco de dados”.

3 MARCAÇÃO VIA XML E RDF

O computador, ou a linguagem da máquina, necessita de programações

específicas para que possa fazer conclusões lógicas, relata Wilson (2007). Por exemplo,

se o usuário informa no computador que José é pai de Maria, ao computador somente

será possível interpretar que Maria é filha de José se houver uma programação específica

para isso.

Nesse contexto se apresenta duas ferramentas primordiais para a Web Semântica:

as linguagens de marcação XML e RDF. Conforme Holzner (2001), uma linguagem de

marcação é uma linguagem de programação para computadores na qual existe uma

marcação referente à descrição da forma do documento. Um exemplo de linguagem de

marcação é a Hypertext Markup Language – HTML, amplamente utilizada na Web.

A Extensible Markup Language – XML, tem como vantagem sobre a HTML o

fato de ser customisável, conforme Wilson (2007), isto quer dizer que a XML não é

rígida e com padrões limitados como a HTML, via XML é possível criar uma linguagem

de marcação própria do desnvolvedor, além de permitir a troca de dados. Mas a XML não

substitui a HTML, ela a complementa, acrescenta Wilson (2007), via tags1 que

descrevem dados. Holzner (2001) completa que os documentos XML são compostos de

marcação e dados de caracteres, a marcação em um documento revela sua estrutura e esta

marcação inclui tags de início, tags de fim, tags de elemento vazio, dentre outras.

A Resource Description Framework – RDF é uma aplicação da XML, define

Wilson (2007), especializada em metadados. Via RDF é possível criar vocabulários com

o intuito de descrever recursos, como exemplo tem-se o Dublin Core, que será tratado

mais adiante. Wilson (2007) acrescenta que a RDF trabalha como se tudo fosse um

recurso, como um item específico ou um local na Web, dessa forma, o computador sabe

exatamente o que o recurso é. Além disso, quando bem definidos os recursos, o

computador identificará a informação exatamente como ela é, evitando interpretar que

José é irmão de Maria, citando o exemplo anterior.

Holzner (2001) completa que a RDF é um pilar para o processamento de

metadados; oferecendo interoperabilidade entre aplicações na Web que trocam

1 Tags são dados de caracteres (linguagem de programação). (Wilson 2007).

informações inteligíveis às máquinas. A RDF vale-se de da XML para trocar descrições

de recursos da Web, mas os recursos que estão sendo descritos podem ser de qualquer

tipo, XML e não XML.

Para cumprir este objetivo, a RDF usa um trio escrito como tags XML para

expressar informação como um gráfico. Em analogia a gramática portuguesa, esse trio

funcionaria exatamente como sujeito, o predicado e o objeto em uma frase, e sua

denominação, exatamente na ordem, seria sujeito, propriedade e objeto. O exemplo

apresentado acima, seria esquematizado via RDF, conforme a figura 1 abaixo. Um

exemplo de RDF hoje na internet são os campos de RSS.

Figura 1: O trio RDFFonte: Wilson (2007)

Até este ponto o computador entende que há dois objetos na sentença e um

relacionamento entre eles. Mas ele não sabe o que os objetos são e como se relacionam.

As ferramentas para adicionar essa interpretação serão vistas a seguir.

3.1 O DUBLIN CORE

Conforme Holzner (2001), a RDF é genérica o suficiente para dar suporte a todos

os tipos de descricoes de recursos, essa generalidade, para ser útil, deverá usar termos

combinados. Várias linguagens utilizam a RDF e definem elementos específicos da XML

para descrever recursos, neste contexto que aparece o Dublin Core.

Para Holzner (2001), o Dublin Core se autodenomina iniciativa de metadados e

oferece um modelo de conteúdo RDF muito utilizado para descrever recursos da Web.

4 URI

Mesmo com a estrutura da XML e da RDF, o computador ainda precisa de uma

referência específica para que possa entender quem ou o que os recursos são, informa

Wilson (2007). Para cumprir este objetivo, os computadores se valem dos identificadores

de recursos uniformes, em inglês Uniform Resource Identifier – URI. O URI tem a

habilidade de apontar para qualquer coisa na Web e fora dela, como aplicativos

domésticos do usuários. Na figura 2 abaixo, a URI dá ao computador um ponto específico

de referência para cada item do trio, não há possibilidade de mal entendido ou

necessidade de interpretação.

Figura 2: RDF utilizando URI para direcionar o computadorFonte: Wilson (2007)

Wilson (2007) observa que um ponto importante a ser analisado na figura 2 é que

a URI da propriedade aponta para um local diferente da URI Recuso e da URI Valor, na

verdade, ela aponta para um documento que está de um servidor denominado

planofamiliar. Se esta página realmente existisse, ela seria o namespace XML.

Namespace XML são, segundo Holner (2001), documentos constituídos para evitar

conflitos de linguagem. Como informado acima, a XML pode ser customizada, assim, há

várias versões da XML que podem se sobrepor, criando conflito.

Diferente do HTML, que utiliza padrões tags como <b> para negrito e <u> para

sublinhado, XML não tem padrões tags, informa Holzner (2001). Isto é útil porque,

conforme Wilson (2007), permite a desenvolvedores criarem tags únicos para propósitos

específicos. Mas isto significa que o browser não sabe automaticamente o que os tags

significam.

Um namespace XML é basicamente é um aplicativo-documento que diz o

significado de todos os tags em outros documentos. O criador de um documento XML

declara o namespace no início do documento com uma linha de código. No exemplo

acima, a declaração namespace seria:

<rdf:RDF xmlns:plf=http://www.planofamiliar.com.br/example/RDF/relacionamento#>

Segundo Wilson (2007), esta linha de código é interpretada pelo computador: em

qualquer tag que inicie com plf utilize o vocabulário encontrado neste documento, aqui

pode-se encontrar qualquer tag iniciando com plf. Deste modo, as pessoas podem criar

um tag XML que precisam para encontrar um documento, sem conflito com outro

documento XML na Web.

XML e RDF são as linguagens oficiais da Web Semântica, porém, sozinhas não

seriam suficientes para fazer todo acesso da Web ao computador. Assim há necessidade

de analisar outras camadas, descritas a seguir.

5 LINGUAGENS E VOCABULÁRIOS: RDFS, OWL E SKOS

De acordo com Wilson (2007), outro obstáculo a ser superado pela Web

Semântica é a questão do vocabulário. Fazendo um paralelo com o cotidiano de uma

pessoa e com o computador, percebe-se que para a pessoa é fácil entender associações e

conexões entre conceitos, já para o computador esta não é uma tarefa rotineira. Para que

os computadores possam cumprir esta tarefa, eles são providos de documentos que

descrevem todas as palavras e lógicas para fazer as conexões necessárias.

Na Web Semântica, conforme Wilson (2007), isto é possível com através de duas

ferramentas: esquema e ontologia. Uma ontologia é um vocabulário que descreve objetos

e como se relacionam uns com outros. Já um esquema é um método para organizar

informação. O acesso à ontologia e ao esquema se dá através de documentos como

metadados. O desenvolvedor, quando da criação da página web, deverá declarar quais

ontologias estão referenciadas no início do documento.

De acordo com Holzner (2001), um documento XML, cuja sintaxe foi verificada

com sucesso, é denominado documento válido; um documento XML para ser

considerado válido deverá conter Definição de Tipo de Documento – DTD ou esquema

XML associado a ele e se o documento estiver de acordo com a DTD ou com o esquema.

Ainda segundo Holzner (2001), as DTD’s referem-se todas às especificações da

estrutura e sintaxe dos documentos XML, não seu conteúdo. Várias organizações podem

compartilhar uma DTD para colocar uma aplicação XML em prática.

Como mencionado há pouco, o esquema XML tem o poder de validar um

documento XML. O esquema XML, de acordo com Holner (2001) é uma evolução da

DTD, ou seja, sua função não é de apenas validar documento XML, mas também:

especificar os tipos de dados reais do conteúdo de cada elemento, herdar a sintaxe de

outros esquemas, dentre outros.

Para Wilson (2007), os esquemas e ontologias usadas na Web Semântica incluem:

Esquema para Linguagem de Descrição de Vocabulário RDF (RDFS) –

RDFS adiciona classes, subclasses e propriedade aos recursos, criando estrutura

básica de linguagem. Por exemplo, o recurso PAI é uma subclasse da classe

HOMEM. Uma propriedade de PAI poderia ser CARINHOSO.

Sistema de Organização de Conhecimento Simples (SKOS) – SKOS

classifica recursos em termos de amplo ou curto, permite designação de

preferência e rótulos alternativos e pode levar rapidamente porto tesauro e

glossários da Web. Por exemplo, num glossário FISIOLOGIA, um termo curto

para HOMEM poderia ser JOSÉ e um termo amplo seria BONDADE.

Linguagem de Ontologia Web (OWL) – OWL, a camada mais complexa,

formaliza ontologias, descreve relacionamentos entre classes e usa lógica para

fazer deduções. Ele pode também construir novas classes baseado em informações

existentes. OWL está disponível em três níveis de complexidade: leve, Linguagem

Descrição e Total.

Wilson (2007) relata que o problema das ontologias é que elas são difíceis de

criar, de implementar e de manter. As ontologias podem ser muito grandes, definindo

grande variedade de conceitos e relacionamentos. Este aspecto cria um conflito entre os

desenvolvedores: alguns preferem focar na lógica e não nas ontologias. Tal fato, conclui

Wilson (2007), pode culminar com a Web Semântica.

No exemplo do capítulo 2, foi tratado sobre a compra de um DVD. Aqui está

como a Web Semântica poderia fazer todo o processo mais simples, em conformidade

com Wilson (2007):

cada site teria texto e figuras (para as pessoas) e metadados (para os

computadores lerem) descrevendo os DVD’s disponíveis para compra naquele

site;

os metadados, valendo-se de trios RDF e tags XML, fariam todos os atributos dos

DVD’s (como configuração e preço) legíveis pela máquina;

quando necessário, negócios usariam ontologias para dar o vocabulário necessário

ao computador para descrever todos os objetos e seus atributos; os sites de

compras poderiam usar as mesmas ontologias, também todos os metadados

seriam uma linguagem comum;

cada site vendendo DVD’s usaria também segurança apropriada e meios de

encriptação para proteger a informação dos clientes;

aplicações computadorizadas ou agentes leriam todos os metadados e

encontrariam diferentes sites; as aplicações poderiam ainda comparar

informações, verificando aquelas que as origens eram acuradas e confiáveis.

Evidentemente, esclarece Wilson (2007), a Web é enorme e adicionar todos estes

metadados às páginas existentes é uma tarefa gigante. Esse e outros obstáculos para a

Web Semântica serão vistos a seguir.

6 UM OLHAR FUTURO À WEB SEMÂNTICA

De acordo com Wilson (2007), muito da Web Semântica ainda está em

desenvolvimento. Tal como a World Wide Web, a Web Semântica não está subordinada a

nenhuma empresa ou governo. Todavia, algumas pessoas e organizações têm tomado as

rédias de sua estruturação, como a W3C (World Wide Web Consortium).

Essa liberdade, ainda segundo Wilson (2007), permite aos desenvolvedores

criarem as tags e ontologias de que precisam, porém, pode ocorrer que desenvolvedores

que não estejam trabalhando em conjunto, criem tags e ontologias para descrever a

mesma coisa de forma diferentes.

Outra crítica apontada por Wilson (2007) é referente a questão do problema da

identidade: um URI representa uma website ou os objetos descritos nela? Como dito

acima, há alguns desenvolvedores que preferem focar em lógica e outros em ontologias.

Qualquer caminho que se siga, o projeto é enorme.

REFERÊNCIAS

HOLZNER, Steven. Desvendendo XML. Rio de Janeiro: Campus, 2001.

WILSON, Tracy V.. How The Semantic Web Works. 2007. Disponível em

<http://computer.howstuffworks.com/semantic-web.htm>. Acesso em: 06/06/2007.

Nossa tradução.

Data & Analytics

Web Semântica e Ontologia