155
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP Paulo Sérgio Rangel Garcia Estudo sobre aplicação de web semântica e visualização em dados abertos. Proposta de portal para transparência em séries históricas de indicadores sociais, econômicos e financeiros, públicos na web MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA E DESIGN DIGITAL SÃO PAULO 2011

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUC-SP

Paulo Sérgio Rangel Garcia

Estudo sobre aplicação de web semântica e visualização em dados abertos.

Proposta de portal para transparência em séries históricas de indicadores sociais,

econômicos e financeiros, públicos na web

MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA E DESIGN DIGITAL

SÃO PAULO

2011

Page 2: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUC-SP

Paulo Sérgio Rangel Garcia

Estudo sobre aplicação de web semântica e visualização em dados abertos

Proposta de portal para transparência em séries históricas de indicadores sociais,

econômicos e financeiros, públicos na web

MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA E DESIGN DIGITAL

Dissertação apresentada à Banca Examinadora da

Pontifícia Universidade Católica de São Paulo – PUC-

SP, como exigência parcial para obtenção do título de

MESTRE em Tecnologias da Inteligência e Design

Digital - Processos Cognitivos e Ambientes Digitais,

sob a orientação do Professor Doutor Demi Getschko.

SÃO PAULO

2011

Page 3: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

Banca Examinadora:

-------------------------------------------------------------------

-------------------------------------------------------------------

-------------------------------------------------------------------

Page 4: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

Esta dissertação é dedicada a minha esposa, Vilma,

por seu incentivo e apoio aos meus projetos e acima

de tudo pelo que ela representa em minha vida.

Page 5: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

AGRADECIMENTOS

Em primeiro lugar, aos meus pais, Floreal Garcia e Ana Teodora Rangel Garcia, por tudo o

que fazem e fizeram na constituição de nossa família, por seus valores pessoais e pelas

experiências de vida que compartilham com todos, apoiando a busca do conhecimento.

A todos os professores que ao longo de nossas vidas nos beneficiam, compartilhando

conhecimentos e experiências que nos permitem chegar cada vez mais longe, representados

especialmente pelos professores, Sérgio Basbaum, Alexandre Campos, Ítalo Santiago

Vega, Jorge de Albuquerque Vieira, Nélson Brissac e o meu orientador nesta Dissertação,

Professor Demi Getschko.

E também a todos os nossos amigos e colegas que de forma direta ou não nos apoiaram e

incentivaram na superação dos desafios para a realização de trabalhos como este,

especialmente representados por Edna Conti, sempre zelosa e prestativa com todos os

alunos do TIDD.

Page 6: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

Por vezes sentimos que aquilo que fazemos não é

senão uma gota de água no mar. Mas o mar seria

menor se lhe faltasse uma gota.

Madre Teresa de Calcutá, Agnes Gonxha Bojaxhiu

Page 7: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

RESUMO

GARCIA, Paulo Sérgio Rangel. Estudo sobre aplicação de web semântica e

visualização de dados abertos. 2011. 155f. Dissertação (Mestrado) – Pontifícia

Universidade Católica de São Paulo – PUC-SP, São Paulo, 2011.

Este trabalho tem como objetivo discutir um modelo para a construção de

portal que dê transparência a séries históricas de indicadores sociais, econômicos e

financeiros, públicos e disponíveis na web. Para se chegar a esse objetivo, foram realizados

estudos em autores como Manuel Castells, Tim Berners-Lee, Vinton Cerf, Karin K.

Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica,

ontologias, otimização em mecanismos de buscas e visualização de dados.

A partir do estudo da evolução histórica da Internet, buscou-se compreender

como foi possível formar esse contexto de dinamismo não ordenado, com alta produção,

criando condições para a alta disponibilidade de dados e informações que existem hoje.

Abordando conceitos e tecnologias relacionadas à web semântica, ontologias, web services,

agentes de software, visualização de dados e otimização dos mecanismos de buscas,

discutiu-se técnicas e metodologias que viabilizem a sua construção de maneira a permitir

que tais dados sejam coletados e que estejam disponíveis em formatos compreensíveis para

seres humanos e integráveis a outros sistemas computacionais. Foi também analisado o

e-Gov atual, especialmente no Brasil, avaliando suas características, tendências e

oportunidades de evolução utilizando dados e estudos disponibilizados pelo NIC.BR e

W3C BR.

Assim, com base nesses estudos e na experiência do autor, esta dissertação

tem o objetivo de propor um modelo de portal que permita a interatividade humana e

integração com outros sistemas computacionais, das séries históricas públicas coletadas,

formatando e disponibilizando-as de maneira estruturada para a sociedade.

` Por fim, é feita a indicação de pesquisas futuras, as quais venham contribuir

para a discussão e o desenvolvimento de sites e serviços que apropriem dados abertos

públicos.

Palavras-chave: web semântica, Ontologias, Metadados, Visualização de dados, Dados

abertos.

Page 8: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

ABSTRACT

GARCIA, Paulo Sérgio Rangel Garcia. Study on application of semantic web and

viewing in open data. São Paulo, 2011. 2011. 155f. Dissertation (Masters) – Pontifícia

Universidade Católica de São Paulo – PUC-SP, São Paulo, 2011.

This paper aims to discuss a model for constructing a transparent portal that

contains historical trends of public social, economical and financial indicators, preferably

if collected at e-Gov websites. In order to reach that objective, we researched extensively

within Manuel Castells, Tim Berners-Lee, Vinton Cerf, Karin K. Breitman, Martha Gabriel

and Fernanda Viegas’s work, amongst others, about semantic web, ontologies, search

engine optimization and data visualization.

Starting from a study of the historical evolution of internet, we try to

understand how was possible to forge this context of highly productive disorganized

dynamics that provided the conditions of the massive availability of information and data

that we see today. By utilizing concepts and technologies such as metadata, ontologies,

web services, software agents, data visualization and optimization of research mechanisms,

we discuss techniques and methodologies that could make collecting data as fast as

possible feasible, as well as putting it together in a way that either humans or other

computer systems may easily understand. We also analyze the current e-Gov services

provided by the Brazilian government by evaluating its characteristics, tendencies and

possibilities for evolution and growth by utilizing data and research provided by NIC.BR

and W3C BR.

Thus, based on research and the author’s own experience, this dissertation will

try to propose a model for a portal that allows human interaction and integration with other

computer systems for historical trends collected via web and formats and provides this data

to society in a structured way.

Finally, we indicate future researches that may contribute to the discussion

and development of websites and services that apropriate public open data.

Keywords: Semantic web, Ontologies, Metadata, Data visualization, Open data.

Page 9: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

Lista de Figuras

Figura 1 - Linha do Tempo da Internet .......................................................................................... 36

Figura 2 - Estrutura do ICANN ...................................................................................................... 37

Figura 3 - Estrutura organizacional do NIC.br e CGI.br .................................................................. 41

Figura 4 - Framework de Warwick ................................................................................................ 58

Figura 5 - Classificação de ontologias. .......................................................................................... 66

Figura 6 - Estrutura interrelacionada de tecnologias da web semântica ....................................... 68

Figura 7 - Camadas da Linguagem OIL .......................................................................................... 71

Figura 8 - Fluxo de trabalho de agente de software ...................................................................... 82

Figura 9 - Modelo de Chi para o fluxo de criação de visualizações .............................................. 101

Figura 10 - Exemplo de visualização de dados no Google Public Data Explorer ........................... 104

Figura 11 - Exemplo de visualização de dados da Bovespa em 2009 ........................................... 105

Figura 12 - Visualização da distribuição de usuários do Facebook no mundo .............................. 106

Figura 13 - Número máximo de serviços e-Gov utilizados ........................................................... 120

Figura 14 - Fatores limitadores ao uso de serviços de e-Gov ....................................................... 123

Figura 15 - Barreiras ao uso de serviços de e-Gov ....................................................................... 125

Figura 16 - Desenho esquemático da proposta do Portal de séries históricas ............................. 136

Figura 17 - Representação gráfica do ciclo de vida da ontologia. ................................................. 142

Page 10: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

LISTA DE TABELAS

Tabela 1 - Tipos e funções de metadados por Anne Gilliland-Swetland ......................................... 53

Tabela 2 - Classificação de Ontologias segundo seu espectro semântico ...................................... 65

Tabela 3 - Classificação de ontologias quanto à generalidade ....................................................... 65

Tabela 4- Classificação de ontologias quanto ao tipo de informação que representam. ................ 66

Tabela 5- Classes / primitivas do RDF-schema .............................................................................. 69

Tabela 6 - Comparação entre as Linguagens OIL e DAML .............................................................. 73

Tabela 7 - Metodologias, métodos e norma frente às categorias de análise predefinidas ............. 76

Tabela 8 - Tabela das principais ontologias ................................................................................... 77

Tabela 9 - Principais ferramentas para o desenvolvimento de ontologias. .................................... 80

Tabela 10 - Tipos de agentes conforme a OMG Object Management Group ................................. 83

Tabela 11 - Principais agentes ...................................................................................................... 83

Tabela 12 - Aplicações da web semântica ..................................................................................... 84

Tabela 13 - Opções permitidas dentro do arquivo robots.txt ........................................................ 96

Tabela 14 - Resumo das principais categorias de visualização de dados ...................................... 102

Tabela 15 - Uso do acesso web x presencial (cidadão) ................................................................ 114

Tabela 16 - Uso do acesso tecnológico x presencial (Empresas) .................................................. 114

Tabela 17 - Quadro de propensão ao uso de e-Gov (cidadão) ..................................................... 115

Tabela 18 - Nível de recomendação ao uso de e-Gov (cidadão) .................................................. 115

Tabela 19 - Formas de contato inicial com ofertas do e-Gov (cidadão) ....................................... 116

Tabela 20 - Nível de satisfação com os serviços e-Gov (cidadão)................................................. 116

Tabela 21 - Nível de confiança no governo (cidadão) .................................................................. 117

Tabela 22 - Nível de satisfação com os serviços e-Gov (empresas) ............................................. 117

Tabela 23 - Avaliações positivas sobre a prestação de serviços do governo (cidadão) ................. 118

Tabela 24 - Problemas encontrados em sites do governo ........................................................... 119

Tabela 25 - Uso de serviço e-Gov por categoria (Buscas e/ou transações) .................................. 119

Tabela 26 - Influência percebida pelos cidadãos em questões de ordem pública ........................ 127

Tabela 27 - Penetração das mídias sociais (ao menos um acesso nos últimos 3 meses) .............. 128

Tabela 28 - Lembrança das peças publicitárias do governo ......................................................... 129

Page 11: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

SUMÁRIO

CAPÍTULO 1

INTRODUÇÃO .............................................................................................................. 14

1.1 COMO CONTRIBUIR PARA MUDAR ESTE CENÁRIO? ...................................... 15

1.2 WEB SEMÂNTICA ................................................................................................... 16

1.3 VISUALIZAÇÃO DE DADOS .................................................................................. 17

1.4 OTIMIZAÇÃO ON-PAGE (SEO) .............................................................................. 17

1.5 GUIA DO LEITOR .................................................................................................... 18

CAPÍTULO 2

UM BREVE HISTÓRICO DA INTERNET ................................................................. 20

2.1 O INÍCIO (1945 A 1972) .......................................................................................... 22

2.2 REDE DE REDES (1972 - 1990) .............................................................................. 25

2.3 OUTRAS INFLUÊNCIAS NA FORMAÇÃO DA INTERNET ................................ 27

2.4 WORLD WIDE WEB, O HIPERTEXTO E A INTERNET

COMERCIAL (1990 - 1995) ..................................................................................... 28

2.5 A FORMAÇÃO DA CULTURA DA INTERNET .................................................... 31

2.6 O ESTADO ATUAL E SEUS REFLEXOS ............................................................... 33

2.7 A GOVERNANÇA DA INTERNET ......................................................................... 35

2.7.1 A governança da Internet no Brasil ......................................................................... 40

2.7.2 Princípios para a governança e uso da Internet ........................................................ 42

2.7.3 Considerações sobre o futuro .................................................................................. 44

CAPÍTULO 3

CONCEITOS ESSENCIAIS ......................................................................................... 45

3.1 A QUESTÃO DA WEB SEMÂNTICA ..................................................................... 48

3.1.1 Contraponto com a “inteligência artificial” ............................................................. 50

3.1.2 Metadados .............................................................................................................. 51

3.1.2.1 Padrão Dublin Core ............................................................................................. 54

3.1.2.2 Framework de Warwick ...................................................................................... 57

3.1.2.3 Resource Description Framework (RDF) ............................................................. 58

3.1.2.4 Restrições ao modelo de Metadados da web semântica ........................................ 60

3.1.3 Ontologias .............................................................................................................. 62

3.1.3.1 Classificações ...................................................................................................... 64

3.1.3.2 Linguagens para Representar Ontologias ............................................................. 67

3.1.3.2.1 RDF e RDF-Schema ......................................................................................... 68

3.1.3.2.2 SHOE ............................................................................................................... 70

3.1.3.2.3 OIL................................................................................................................... 70

3.1.3.2.4 DAML .............................................................................................................. 72

3.1.3.2.5 DAML + OIL ................................................................................................... 73

Page 12: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

3.1.3.2.6 OWL ................................................................................................................. 74

3.1.3.3 Principais metodologias de desenvolvimento de Ontologias................................. 75

3.1.3.4 Principais Ontologias ........................................................................................... 77

3.1.3.5 Ferramentas de apoio ao desenvolvimento de ontologias ..................................... 79

3.1.3.6 Agentes de software ............................................................................................ 81

3.1.4 Aplicações da web semântica.................................................................................. 84

3.2 A QUESTÃO DOS MECANISMOS DE BUSCAS ................................................... 85

3.2.1 Código da página.................................................................................................... 85

3.2.1.1 Endereço da página (URL) .................................................................................. 85

3.2.1.2 Metatags .............................................................................................................. 86

3.2.1.2.1 Metatag Keywords ............................................................................................ 86

3.2.1.2.2 Metatag Description ......................................................................................... 87

3.2.1.3 Tag Title <title>................................................................................................... 87

3.2.1.4 Tag de subtítulo ................................................................................................... 88

3.2.1.5 Propriedade Alt na tag <image> .......................................................................... 88

3.2.1.6 Topo de página .................................................................................................... 88

3.2.1.7 Links Internos: âncoras e propriedades ................................................................. 89

3.2.1.8 Frequência das palavras-chave na página ............................................................. 89

3.2.1.9 Scripts na página ................................................................................................. 90

3.2.1.10 Menus de navegação .......................................................................................... 90

3.2.2 Conteúdo da página ................................................................................................ 91

3.2.2.1 Conteúdo em Flash ............................................................................................. 91

3.2.2.2 Conteúdos dinâmicos ou profundos ..................................................................... 92

3.2.2.3 Criação de conteúdos para SEO ........................................................................... 93

3.2.3 Estrutura: página e site ........................................................................................... 93

3.2.3.1 Design e estrutura do website............................................................................... 94

3.2.3.1.1 Navegação ........................................................................................................ 94

3.2.3.1.2 Frames ............................................................................................................. 94

3.2.3.1.3 Servidor do website .......................................................................................... 95

3.2.3.1.4 Arquivos Robots.txt .......................................................................................... 95

3.2.3.2 Idade e atualizações na página ............................................................................. 96

3.2.3.3 Análise do website versus análise de página individual ........................................ 96

3.2.4 Ferramentas SEO ................................................................................................... 97

3.3 A QUESTÃO DA VISUALIZAÇÃO DE DADOS ................................................... 97

3.3.1 Porque Visualização de Dados ................................................................................ 98

3.3.2 Classificação dos modelos e uma análise de contexto ........................................... 100

3.3.3 Aplicações de Visualização de dados na web ........................................................ 103

3.3.3.1 Google public data explorer .............................................................................. 103

3.3.3.2 Many Eyes ......................................................................................................... 105

3.3.3.3 Bime Analytics .................................................................................................. 106

Page 13: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

CAPÍTULO 4

O E-GOV E A PROPOSTA DO PORTAL ................................................................. 107

4.1 O E-GOV ................................................................................................................ 107

4.2 E-GOV NO BRASIL .............................................................................................. 110

4.2.1 Maneiras de acesso ao e-Gov ................................................................................. 113

4.2.2 Cenário para o futuro do e-Gov no Brasil ............................................................. 114

4.2.3 Qualificação do uso do e-Gov............................................................................... 119

4.2.4 Limitadores ao uso do e-Gov ................................................................................ 120

4.2.5 Barreiras ao uso do e-Gov .................................................................................... 123

4.2.6 Desafios ao e-Gov ................................................................................................ 125

4.2.7 Oportunidades de melhorias e novos serviços ....................................................... 129

4.3 O PORTAL ............................................................................................................. 131

4.3.1 Ética, legalidade e respeito ................................................................................... 131

4.3.2 Proposta de Portal ................................................................................................ 135

4.3.2.1 Detalhamento do Portal .................................................................................... 138

4.3.2.1.1 Captura ........................................................................................................... 138

4.3.2.1.1.1 Coleta .......................................................................................................... 138

4.3.2.1.1.2 "Robô de buscas" ......................................................................................... 139

4.3.2.1.1.3 Interface de entrada de dados ....................................................................... 140

4.3.2.1.2 Semântica ....................................................................................................... 140

4.3.2.1.2.1 Ontologias ................................................................................................... 140

4.3.2.1.2.2 Metadados ................................................................................................... 142

4.3.2.1.2.3 Dados em formato RDF ............................................................................... 143

4.3.2.1.2.4 Banco de dados ............................................................................................ 143

4.3.2.1.3 Entrega ........................................................................................................... 143

4.3.2.1.3.1 Webservices ................................................................................................ 144

4.3.2.1.3.2 Interface de consultas................................................................................... 144

4.3.2.1.3.3 Visualização de dados ....................................................................................144

4.3.2.1.4 SEO ................................................................................................................ 144

4.3.2.1.5 Road Map ........................................................................................................ 145

4.3.2.1.6 Social empowerment ........................................................................................ 145

CAPÍTULO 5

CONSIDERAÇÕES FINAIS ....................................................................................... 146

5.1. LIMITAÇÕES DO ESTUDO .................................................................................. 147

5.2. POSSÍVEIS CONTRIBUIÇÕES ............................................................................. 148

5.3. SUGESTÕES PARA ESTUDOS FUTUROS .......................................................... 148

REFERÊNCIAS ........................................................................................................... 151

Page 14: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

14

CAPÍTULO 1

INTRODUÇÃO

A razão desta dissertação surgiu de nossa percepção quanto às dificuldades na busca1 em

obterem-se de forma objetiva e relevante as informações necessárias no ciberespaço.

Percebe-se que, em sua evolução histórica, a Internet criou condições para que um volume

crescente e avassalador de dados, informações e conhecimento2 nos sejam disponibilizados,

porém sem uma forma estruturada, implicando em que apenas humanos possam interpretar

essa vastidão de conteúdo, requerendo um enorme esforço para avaliar, classificar e

selecionar as informações de interesse.

Quando se fala em web, pode-se dividi-la da seguinte forma:

web indexada são as páginas3 que estão dentro dos bancos de dados dos buscadores

4;

web visível são as páginas que não estão, mas podem ser indexadas;

web invisível, ou também chamada de web profunda, são as páginas não indexadas

que não podem ser indexadas pelos buscadores.

Em 2001 estimava-se a web profunda em 500 bilhões de páginas (BERGMAN, 2001). Quanto

à web indexada, estimava-se até o final de janeiro de 2005 em torno de 11,5 bilhões de

páginas, com o Google sendo responsável por 76% dessa abrangência (GULLI et al.,2005).

Considerando Bergman e Gulli, percebe-se que os buscadores abrangem em torno de 2% das

páginas existentes, o que é uma fração muito pequena do todo, ao contrário do que acredita a

maior parte dos internautas que os considera verdadeiros oráculos, detentores de todo o saber

da web.

1 Esta ação de busca pode ser definida como o processo pelo qual obtém-se informações relevantes no uso de critérios e

filtros de seleção em grandes volumes de informação (GABRIEL, 2009, p. 21). 2 Dados são o produto da pesquisa, criação, coleta ou descoberta, mas estão em um estado bruto, inadequados para a comunicação, não podendo compor uma mensagem completa. Para terem valor precisam estar organizados, transformados e apresentados de forma lógica de maneira a terem significado e sentido para o interlocutor -- nesse momento os dados se transformam em Informação. Finalmente, o Conhecimento é a compreensão das informações, obtido pela experiência, podendo ser comunicado por meio de interações entre indivíduos, o que caracteriza o seu aspecto participativo (RIBEIRO, 2009, p. 24). 3 Website é o conjunto de páginas que o compõe. 4 São websites que pesquisam todos os documentos na rede, e a apresentação do resultado é aleatória, dependendo do ranking de acessos aos sites. As informações podem referir-se a qualquer tema. Google, Yahoo!, MSN são os buscadores mais acessados.

Page 15: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

15

Entretanto vale registrar que o tamanho exato da web indexada e da web profunda é variável e

impreciso, apesar de existirem mensurações atualizadas podendo ser obtidas em

Worldwidewebsize (2011), que em 8 de janeiro de 2011 estimava em 13,75 bilhões de

páginas indexadas na web.

Essa diferença entre a web indexada e a web profunda ocorre por alguns fatores, por exemplo:

sites em que é necessária a autenticação do usuário para acessar suas páginas, por

exemplo, os sites de relacionamento e suas comunidades;

critérios e filtros adotados pelos buscadores, supostamente bem intencionados; eles

podem considerar páginas como inadequadas, por exemplo, pelo uso de mecanismos

on-page considerados não éticos, e assim puni-las com a não inclusão em seus bancos

de dados;

estruturas de websites impedindo que os robots ou crawlers5 desses buscadores

cheguem até a parte mais profunda de suas páginas, não as adicionando a seus bancos

de dados, por exemplo, ausência do arquivo robots.txt que declara se podem ou não

ser explorados por estes agentes dos buscadores;

até mesmo por razões políticas, como no caso da Google na China.

1.1 COMO CONTRIBUIR PARA MUDAR ESSE CENÁRIO?

É consenso que não existe conhecimento sem informação, mas existiria aumento de

conhecimento com o excesso de informações desorganizadas? Ou ainda, o excesso no

contexto desorganizado não nos colocaria diante de estímulos frágeis, sem significado e que

isso teria um efeito contrário ao aumento do conhecimento? São questões importantes e fica

claro que impõem a necessidade de mudanças nesse cenário desordenado, mas também é

certo que isso não se fará com ações isoladas ou com a adoção de uma tecnologia “mágica”

que supra todas as deficiências e necessidades. Isso, provavelmente, se dará por um conjunto

de ações (planejadas ou espontâneas) e tecnologias que de forma gradativa e integrada irão

evoluir adicionando facilidades e funcionalidades ao ciberespaço.

5 Robots ou crawlers (robôs ou aranhas) são os agentes utilizados pelos buscadores para varrer a Internet buscando informações (keywords, metatags etc.) nas páginas para indexá-las em seus bancos de dados.

Page 16: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

16

Em Tasic (2007, p. 13), o autor, citando Edmonson e Mcmanus, coloca que boas questões em

pesquisas devem buscar um balanço entre a sua significância no mundo real e sua potencial

contribuição para a Academia, com um equilíbrio, evitando que as questões sejam meramente

filosóficas ou esotéricas, ou simplesmente pragmáticas ou mundanas. Seguindo nessa direção,

acrescenta que a questão da pesquisa deve ser aquela em que a resposta não é conhecida

completamente.

Nessa linha, por meio do estudo da evolução da Internet para compreensão do seu contexto de

alta produção e disponibilidade desordenada de dados, pelo estudo de conceitos e tecnologias

que se propõe a organizá-la e buscando entender o cenário do e-Gov no Brasil, esta

dissertação tem a pretensão de propor uma resposta à seguinte questão:

Como dar transparência a séries históricas de indicadores sociais, econômicos e financeiros,

públicos na web coletados em sites de e-Gov?

Com base nesses estudos, esta dissertação tem a ambição de propor um modelo de portal que

permita a interatividade humana e integração com outros sistemas computacionais, das séries

históricas públicas coletadas gratuitamente via web.

Quanto às tecnologias que serão abordadas, este trabalho focará web semântica, Visualização

de Dados e Otimização on-page (SEO6).

1.2 WEB SEMÂNTICA

No mundo corporativo e acadêmico existem pesquisadores trabalhando no desenvolvimento e

criação da web semântica. Nela as informações estarão organizadas de maneira estruturada,

permitindo que máquinas processem e integrem seus recursos de forma inteligente,

possibilitando buscas de informações mais rápidas, consistentes e relevantes, facilitando a

comunicação entre dispositivos heterogêneos. Vale acrescentar que pela estruturação e

conjuntos de regras de inferência, as informações poderão ser automaticamente deduzidas,

6 SEO - Search Engine Optimization engloba as técnicas envolvidas no tratamento de conteúdo, código e estruturas das páginas do website de forma tecnológica e ética para otimização no processo de indexação dos buscadores.

Page 17: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

17

assim, ao contrário da web sintática7, a web semântica será processada também por

computadores (BERNERS-LEE et al.,2001).

Também é relevante conceituar que a ideia da web semântica não envolve uma Internet

desconectada da atual, mas um complemento ou sua extensão (FELICISSIMO, 2004, p. 15).

1.3 VISUALIZAÇÃO DE DADOS

A visualização de dados tem sido utilizada ao longo dos tempos de muitas formas, mas a

partir da computação tem se destacado entre as possíveis maneiras de transmitir a informação,

pois assim a comunicação visual se apresenta como poderosa expressão do conhecimento.

A visualização de dados tem o poder de fazer com que assuntos complexos se tornem

concretos e acessíveis, relatando fatos e possibilitando a tomada de decisões baseando-se em

dados.

Daí a importância da visualização de dados no século 21. Não só retrata os fatos da nossa

época, mas motiva o debate. Visualizar dados governamentais, por exemplo, cria uma

imagem do país, mostrando os avanços e atrasos, as conquistas e mazelas, indicando direções

a seguir e desvios a serem corrigidos e evitados.

1.4 OTIMIZAÇÃO ON-PAGE (SEO)

Um campo que tem trabalhado intensamente com a questão da otimização em mecanismos de

buscas na web é o do marketing, especificamente o marketing de busca.

Search Engine Marketing (SEM) ou Marketing de Otimização de Buscas (MOB) é o processo

que utiliza os mecanismos de buscas para promover um website, aumentar seu tráfego e/ou

fidelidade e prioritariamente aumentar o retorno sobre o investimento. SEM abrange todas as

ações internas (on-page) e externas (off-page) ao site para atingir as metas pretendidas

(GABRIEL, 2009, p. 44).

7 Web sintática é a web na sua forma atual em que apenas faz a apresentação do conteúdo ficando a sua interpretação a cargo dos seres humanos (BREITMAN, 2006, p. 2).

Page 18: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

18

A parte do SEM que trata as técnicas de otimização internas ao site (on-page) recebe o nome

de SEO (Search Engine Optimization), envolvendo conteúdo, código e estrutura do website

tratados ética e tecnicamente, enquanto que a parte que trata as otimizações off-page

envolvem ações de relações públicas, links patrocinados etc. (GABRIEL, 2009, p. 46)

Esta dissertação focará as técnicas de SEO por tratarem de aspectos on-page que se alinham à

proposta de trabalho.

1.5 GUIA DO LEITOR

O capítulo 2 desta dissertação aborda a evolução histórica da Internet, buscando compreender

como se chegou ao cenário atual, como ocorre a governança da Internet e quais entidades a

organizam.

O capítulo 3 trata de conceitos essenciais. Inicia-se com a questão da web semântica,

debatendo o contraponto entre a web semântica e a inteligência artificial, Metadados (Padrão

Dublin Core, RDF e restrições a metadados), Ontologias e suas linguagens, principais

metodologias de desenvolvimento, principais ontologias, ferramentas de apoio ao

desenvolvimento e principais agentes e aplicações que utilizam web semântica.

Depois se tratará da questão da visualização de dados e por que utilizá-la, classificação de

modelos e uma análise de contexto finalizando esse item com aplicações de visualização de

dados existentes na web.

Finalmente será abordada a questão dos mecanismos de busca, detalhando o seu significado,

técnicas e cuidados necessários encerrando com a indicação de algumas ferramentas SEO

disponíveis.

No capítulo 4 será apresentado o estado atual do e-Gov no Brasil avaliando suas

características, tendências e oportunidades de evolução.

Concluindo este capítulo, discorrer-se-á sobre o modelo para um portal focado na coleta e

armazenamento sistêmicos de séries históricas públicas em sites de e-Gov, que permita,

Page 19: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

19

gratuitamente, a interatividade dos seus usuários e a integração desses dados com outros

sistemas computacionais por meio da web.

Finalmente, no capítulo 5, serão apresentadas as limitações deste estudo, considerações finais

e contribuições, além de propostas para trabalhos futuros partindo do que foi abordado nesta

dissertação.

Page 20: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

20

CAPÍTULO 2

UM BREVE HISTÓRICO DA INTERNET

No final do século XX surgiu um cenário convergente em que três processos isolados se

uniram criando uma estrutura social baseada em redes:

as demandas da economia por flexibilidade administrativa e pela globalização do

capital, comércio e da produção;

as exigências da sociedade sobre liberdade individual e a comunicação aberta e

transparente;

avanços tecnológicos na microeletrônica que alavancaram o desenvolvimento da

computação e das telecomunicações.

Nessas condições, a Internet, uma tecnologia com pouca aplicação prática e restrita aos

círculos dos cientistas e pesquisadores computacionais, dos hackers8 e das comunidades

contraculturais, transformou-se na mola propulsora para o surgimento de uma nova estrutura

social baseada em redes e com ela um novo modelo de economia (CASTELLS, 2003, p. 8).

Vive-se um momento de grandes transformações, onde tecnologias como redes de telefonia

fixa e móvel, TV a cabo, distribuição de energia elétrica, redes wi-fi, equipamentos de

processamento de informação cada vez menores, portáteis e baratos, convergem conectando

tudo e todos, transformando e informatizando a sociedade e criando a grande rede global

chamada Internet. (LEÃO, 2004, p. 18) afirma que se trata de transformações nas práticas

sociais, na vivência do espaço urbano e na forma de produzir e consumir informação.

É preciso entender o que a Internet representa para a sociedade, cada vez mais permeada pela

computação ubíqua9. Quanto ela atinge, envolve e modifica as pessoas? Como se chegou ao

8 De acordo com a RFC 1.392, da Internet Engineering Task Force (IETF), de 1993, hacker é “uma pessoa que sente prazer em ter uma compreensão profunda dos processos internos de um sistema, de um computador ou de uma rede informática em específico. O termo é frequentemente colocado em um contexto pejorativo, em que ‘cracker’ seria o nome correto”. Disponível em http://www.ietf.org/rfc/rfc1392.txt 9 Computação ubíqua tem como objetivo tornar a interação pessoa-máquina invisível, ou seja, integrar a informática com as ações e comportamentos naturais das pessoas. Não literalmente invisível, mas de uma forma que as pessoas não percebam que estão dando comandos a um computador, mas conversando com alguém. Além disso, os computadores teriam sistemas inteligentes que estariam conectados ou procurando conexão o tempo todo, dessa forma tornando-se onipresente. Também é conhecida pelos termos em língua inglesa de pervasive computing, calm technology, things that

think e everyware, e denomina-se alternativamente de inteligência ambiental.

Page 21: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

21

estágio atual e quais serão os próximos passos, enfim, o que esperar em relação ao

desenvolvimento futuro dessas tecnologias, como isso poderá se dar?

Castells (2003) define a Internet como o tecido de nossas vidas, comparando a tecnologia da

informação à eletricidade e a Internet à rede elétrica ou a um motor elétrico em face de sua

capacidade de distribuir a força da informação por todos os domínios da atividade humana,

completando que se a capacidade de gerar e distribuir energia viabilizaram as fábricas e as

grandes corporações como os fundamentos da sociedade industrial, a Internet se tornou o

alicerce tecnológico para o modelo organizacional da era da Informação: a rede.

Sobre o momento atual da Internet, David Weinberger coloca que:

Não estamos na era da informação. Não estamos na era da Internet. Nós estamos na

era das conexões. Ser conectado está no cerne da nossa democracia e nossa

economia. Quanto maior e melhor forem essas conexões, mais fortes serão nossos

governos, negócios, ciência, cultura, educação... (LEÃO, 2004).

Quanto ao futuro, Leonard Kleinrock refere-se à computação nomádica e aos espaços

inteligentes. Abordando a computação ubíqua a partir da disponibilidade de dispositivos de

computação, pequenos e de pouco peso, baratos e essencialmente portáteis, assim a

computação nomádica trata a tecnologia que permite aos usuários móveis terem acesso à

Internet de modo transparente, sem importar para onde irão ou estejam, reforçando que o

próximo passo será sair do ciberespaço e entrar no mundo físico dos espaços inteligentes. No

ambiente, veículos, casas, relógios etc., de certa forma adquirem vida por meio de sensores,

atuadores, câmeras, microfones, GPS. Essa tecnologia fornecerá os serviços IP de que se

necessita, tornando a Internet um sistema nervoso de presença global (KUROSE et al.,2003,

p. 54 e 55).

Ainda sobre o futuro, Tim Berners-Lee projeta que a Internet será um espaço muito mais

criativo, onde qualquer um poderá criar e editar hipertextos como uma forma de expressão e

de atividade colaborativa. Além disso, visualiza os computadores trocando dados de forma

que viabilizem o relacionamento de significados em diferentes bancos de dados formando a

web semântica (KUROSE et al.,2003, p. 128 e 129).

José Joaquin Garcia-Luna-Aceves, Professor de Engenharia da Computação na Universidade

da Califórnia em Santa Cruz (UCSC), entende que no futuro a Internet terá plena penetração e

Page 22: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

22

que se aprenderá a entendê-la como forma de comunicação e como o caminho que todos os

computadores usam para se comunicar e ajudar as pessoas a interagir, e reforça citando que “a

rede é o computador e o computador é a rede” (KUROSE et al., 2003, p. 294).

A visão de futuro de Philip Zimmermann, criador do PGP 10

, é a de que todo ou a maior parte

do tráfego da Internet será criptografado, e assim ela se tornará “opaca” para as agências de

inteligência. Ele antevê esse cenário a partir da crença do desenvolvimento cada vez maior da

tecnologia sem fio e do uso intensivo de celulares e smartphones para realização de

transações comerciais e bancárias, forçando a evolução da criptografia para dar segurança aos

protocolos IP (KUROSE et al.,2003, p. 487).

Percebe-se que cada uma das previsões acima mostra visões de futuro diferentes para a web,

provavelmente influenciados pelos campos de pesquisas em que cada um atua, mas também é

claro que nenhuma dessas visões são excludentes entre si e que podem em certa medida se

concretizarem, complementando-se de forma integrada.

Dentro dessa abordagem, compreender como os fatos históricos e o contexto em que

ocorreram ajudará a entender a sua cultura e evolução até se chegar ao contexto atual da web.

A partir disso, poder-se-á compreender as visões de futuro prognosticadas por especialistas e

supor nossas próprias alternativas de futuro.

2.1 O INÍCIO (1945 A 1972)

A história da Internet começou por volta de 1945, como demonstra o artigo publicado por

Bush (1945), onde foi descrito o Memex, um dispositivo para ajudar a memória e

guardar conhecimentos (daí o nome Memex: Memory Extension). A partir da ideia de que a

soma dos conhecimentos aumentava em um ritmo maior que a evolução dos meios

de armazenamento e acesso aos dados, e observando o funcionamento da mente humana, que,

segundo o autor opera sempre por meio de associações, Bush imaginou e descreveu, de

10 PGP é um software de criptografia para e-mail desenvolvido para os grupos de direitos humanos e das liberdades civis. Hoje o PGP é usado como produto comercial. Do inglês Pretty Good Privacy (privacidade bastante boa), é um programa de computador que utiliza criptografia para proteger a privacidade do e-mail e dos arquivos guardados no computador do usuário. Pode ainda ser utilizado como um sistema à prova de falsificações de assinaturas digitais permitindo, dessa forma, a comprovação de que arquivos ou e-mails não foram modificados.

Page 23: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

23

maneira detalhada, um dispositivo que poderia armazenar um grande volume de informações,

de modo a serem alcançadas de forma rápida e fácil. Esse equipamento, concebido para suprir

as “falhas da memória humana” por meio de recursos mecânicos pode ser considerado o

precursor da ideia de hipertexto.

Ainda em 1945, Douglas Engelbart, após ler e ser influenciado pelo artigo de Vannevar Bush,

trabalhou nos anos seguintes nessa linha de pesquisa e em 1963, dentro da ARPA, criou o

Augmentation Research Center, apresentando em 1968 na “Fall Joint Computer Conference”,

em São Francisco, o On-Line System (NLS), considerado o primeiro ambiente integrado de

processamento de ideias. Ele utilizava novos recursos para a época, e que hoje estão

completamente integrados no dia-a-dia, como o mouse para seleção na tela, teleconferência,

links por hipertexto, processador de texto, sistemas de ajuda online e um ambiente gráfico

com janelas. Foi o primeiro modelo funcional do que seriam os computadores de hoje.

Após esse início, o próximo marco foram os primeiros registros da descrição das interações

sociais que poderiam ser realizadas por meio de redes, em uma série de memorandos escritos

por Joseph Licklider, um psicólogo transformado em cientista da computação no

Massachusetts Institute of Technology (MIT), em agosto de 1962, discutindo o conceito de

“Galactic Network”. Ele imaginava um mundo interconectado por meio do qual todos

pudessem acessar, rapidamente e de qualquer lugar, dados e programas. Antevisão muito

próxima do que é a Internet atual (CERF et al).

Ainda nos anos 1960, surgiu a precursora da Internet como se conhece hoje: a Arpanet, que

era uma rede de computadores criada pela Advanced Research Projects Agency (ARPA) em

1969. A ARPA nasceu em 1958 dentro do Departamento de Defesa dos Estados Unidos com

a finalidade de mobilizar recursos de pesquisa, especialmente do mundo acadêmico, para

buscar superioridade tecnológico-militar em relação à União Soviética, que lançara em 1957 o

satélite Sputnik (CERF et al).

A Arpanet era então um pequeno projeto dentro de um dos departamentos da ARPA, o

Information Processing Techniques Office (IPTO), fundado em 1962, que teve Licklider

como primeiro Diretor (CERF et al).

Considerando a importância crescente e o alto custo envolvido dos computadores na década

de 1960, além do advento dos computadores com multiprogramação (Time-sharing)

Page 24: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

24

(KUROSE et al., 2003, p. 44), compreende-se o objetivo formal do IPTO definido por

Licklider em estimular a pesquisa em computação interativa (CASTELLS, 2003).

Como parte desse trabalho, a criação da Arpanet foi justificada como uma forma de permitir

que os centros de computadores e grupos de pesquisadores que trabalhavam para a agência

pudessem compartilhar online o tempo de processamento desses computadores (CERF et al).

A ideia era estabelecer essa rede por meio de comutação de pacotes e não de comutação de

circuitos, como operavam as redes telefônicas, então a rede de comunicação globalmente

dominante. Segundo Kurose et al. (2003, p. 44), três grupos de pesquisa ao redor do mundo

trabalhavam sobre comutação de pacotes sem que nenhum tivesse conhecimento do trabalho

do outro. O primeiro trabalho publicado foi o de Leonard Kleinrock, na época Doutorando do

MIT. Em 1964, Paul Baran iniciou investigações sobre comutação de pacotes no Rand

Institute para segurança na transmissão de voz em redes militares, enquanto Donald Davies e

Roger Scantlebury desenvolviam suas pesquisas em comutação de pacotes no British National

Physical Laboratory. Considera-se que os trabalhos do MIT (1961-1967), Rand (1962-1965),

BNPL (1964-1967) sejam o alicerce do que é hoje a Internet.

Após o refinamento das especificações da Arpanet, foi realizada uma seleção para o

desenvolvimento de um dos principais componentes, o comutador de pacotes, chamado

Interface Message Processors (IMP’s). Finalizada em dezembro de 1968, o vencedor foi o

grupo dirigido por Frank Heart na Bolt Beranek and Newman (BBN).

Em setembro de 1969, os primeiros nós da rede foram instalados na Universidade da

Califórnia em Los Angeles (UCLA), no Stanford Research Institute (SRI), na Universidade

da Califórnia em Santa Bárbara e na Universidade de Utah.

Em outubro de 1972, Robert Kahn organizou uma grande e bem sucedida demonstração da

ARPANET na Conferência Internacional de Comunicação de Computadores (ICCC). Essa foi

a primeira demonstração pública da nova tecnologia de rede (NCP, ou network control

protocol) para o público.

Também em 1972 foi introduzida a primeira aplicação. Tratava-se do primeiro programa de e-

mail elaborado por Ray Tomlinson da BBN. Ele escreveu o software básico de envio e leitura

de mensagens, motivado pela necessidade dos desenvolvedores da Arpanet em ter um

mecanismo simples e fácil de comunicação e coordenação. Logo em seguida, Roberts

Page 25: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

25

expandiu as funcionalidades para listar, ler seletivamente, arquivar, encaminhar e responder

mensagens. O e-mail foi a principal aplicação de rede por mais de uma década. Esse foi o

prenúncio do tipo de atividade que se vê na World Wide Web de hoje (CERF et al).

2.2 REDE DE REDES (1972 - 1990)

A Arpanet inicial era uma rede única e fechada, assim o passo seguinte seria conectá-la por

meio de IMP’s com outras redes de comunicação, começando com as administradas pela

ARPA: a PRNET e a SATNET, criando o conceito de rede de redes (CASTELLS, 2003, p.

15).

Em meados da década de 1970 surgiram outras redes de comutação de pacotes como a

Alohanet, uma rede que conectava universidades das ilhas do Havaí por microondas, a Telnet,

uma rede comercial da BBN, a Tymnet, e a Transpac, uma rede francesa de comutação de

pacotes. Em 1973, Robert Metcalfe apresentou em sua tese de doutorado em ciência da

computação em Harvad os princípios da Ethernet. O protocolo Ethernet levou ao enorme

crescimento de LAN’s de curta distância (KUROSE et al.,2003, p. 45).

Em 1973, Robert Khan (ARPA) e Vinton Cerf (Stanford) escreveram artigo (A Protocol for

Packet Network Intercommunication) traçando a arquitetura básica da Internet. Quatro regras

foram críticas para os princípios da arquitetura de Kahn e Cerf, conforme (KUROSE et al.,

2003, p. 46):

minimalismo, autonomia: cada rede distinta deveria ser independente e mudanças

internas não deveriam ser requisitadas para conectá-las à Internet;

serviço de melhor esforço: comunicações seriam na base do melhor esforço. Se um

pacote não chegasse à sua destinação final, ele seria retransmitido da fonte;

roteadores sem estado: caixas pretas seriam usadas para conectar as redes. Mais tarde

elas seriam chamadas gateways e roteadores. Os gateways não reteriam informações

sobre os fluxos de pacotes passantes. Isso assegurou que eles se mantivessem simples,

evitando adaptações complicadas e recuperações de erros;

controle descentralizado: não haveria controle global no nível operacional.

Page 26: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

26

Para ser possível a conexão com outras redes de computadores era necessária a padronização

dos protocolos de comunicação, o que foi obtido parcialmente em seminário em Stanford por

um grupo liderado por Cerf, Gerard Lelann e Metcalfe com o projeto do Transmission

Control Protocol (TCP). Em 1978, Cerf, Postel e Crocker dividem o TCP em duas partes

acrescentando o protocolo intra-rede (IP), o que criou o protocolo TCP/IP, padrão utilizado

até hoje na Internet (CASTELLS, 2003, p. 14 e 15).

Vale registrar que além dos esforços coordenados pela ARPA sobre interconexão de redes,

uma série de empresas estava desenvolvendo arquiteturas de redes. A Digital Equipment

Corporation (DEC) apresentou o DECnet em 1975 conectando dois computadores PDP-11,

contribuindo sobremaneira no conjunto de protocolos do padrão OSI (Open Systems

Interconnection) com as ideias pioneiras do DECnet. A IBM, com a arquitetura SNA, e a

Xerox, com a arquitetura XNS, também contribuíram para a base de conhecimento que

fundamentou os avanços das redes nas décadas de 1980 e 1990 (KUROSE et al.,2003, p. 46 e

47).

Em 1975, a Arpanet foi transferida para a Defense Communication Agency (DCA), a fim de

permitir a comunicação por computador disponível para os diferentes ramos das forças

armadas, criando uma conexão entre várias redes que controlava – estabelecendo assim a

Defense Data Network, que operava no padrão TCP/IP. Em 1983, preocupado com possíveis

falhas de segurança, o Departamento de Defesa Americano decidiu formar uma rede

independente para fins militares específicos chamada MILNET. A partir disso a Arpanet

passou a ser dedicada exclusivamente à pesquisa e tornou-se a Arpa-Internet. Em 1984, a

National Science Foundation (NSF) criou a NSFNET, sua própria rede de computadores e em

1988 começou a usar a Arpa-Internet como seu backbone (CASTELLS, 2003, p. 15).

No início de 1990, já considerada obsoleta, a Arpanet foi tirada do ar. Com a Internet livre de

sua vinculação militar, permitiu ao governo americano entregar sua administração à National

Science Foundation, o que durou pouco. Com o domínio público da tecnologia de redes e as

telecomunicações plenamente desreguladas, a NSF encaminhou a privatização da Internet. Na

década de 1980, o Departamento de Defesa já havia decidido comercializar a tecnologia da

Internet financiando fabricantes para incluir TCP/IP entre seus protocolos. Assim, na década

de 1990, a maior parte dos computadores nos Estados Unidos poderia entrar em rede criando

os alicerces para a interconexão de redes. Com a extinção da NSFnet, em 1995, abriu-se

espaço para a operação privada da Internet (CASTELLS, 2003, p. 15).

Page 27: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

27

2.3 OUTRAS INFLUÊNCIAS NA FORMAÇÃO DA INTERNET

A Internet, como se conhece hoje, não foi influenciada apenas pela Arpanet. A partir do

programa desenvolvido em 1977 pelos estudantes de Chicago, Ward Christensen e Randy

Suess, batizado de MODEM, foi possível a transferência de arquivos entre computadores

pessoais. Em 1978, eles desenvolveram outro programa chamado Computer Bulletin Board

System, que possibilitava aos computadores armazenar e transmitir mensagens. Ambos os

programas foram liberados para o domínio público, o que contribuiu na constituição da

cultura de formação de rede a partir dos Bulletin Board Systems (BBS), entre os quais se

destacam a FIDOnet e a BITnet da IBM (CASTELLS, 2003, p. 16).

Outra rede que deve ser citada é o Projeto Minitel. Ele foi desenvolvido paralelamente à

Arpanet pelo governo francês no início da década de 1980. Consistia em uma rede pública de

comutação de pacotes (baseada no conjunto de protocolos X.25 que usava circuitos virtuais),

servidores Minitel e terminais baratos com modems de baixa velocidade embutidos. Em 1984

o governo francês forneceu de graça um terminal Minitel a qualquer residência francesa que

desejasse, transformando o projeto em um grande sucesso. Os sites do Minitel incluíam os de

livre acesso como lista telefônica e outros onde se cobravam taxas pelo tempo de uso. No seu

auge, em 1990, o Minitel tinha aproximadamente 20 mil serviços diferentes, era usado por

20% da população francesa, criando 10 mil empregos e gerando um movimento de um bilhão

de dólares por ano. Assim, uma rede importante já estava nos lares franceses dez anos antes

de a maioria dos americanos ouvir falar da Internet (KUROSE et al.,2003, p. 47 e 48). Contra

ela pesa o fato de que foi baseada em um princípio de rede de computadores centralizada,

controlada pelo governo (CASTELLS, 2003, p. 27).

No Brasil, um sistema bem-sucedido baseado no Minitel, chamado VideoTexto, foi iniciado

em São Paulo, pela antiga estatal Telesp. Operou de 1982 até meados dos anos 1990; algumas

poucas companhias telefônicas de outros estados instalaram sistemas similares, mas com

bases de dados e serviços diferentes. O principal motivo para o sucesso do VideoTexto em

São Paulo foi porque a Telesp oferecia apenas o serviço e o acesso à lista telefônica de

assinantes, enquanto outras empresas – bancos, provedores de bancos de dados, jornais –

ofereciam conteúdos e serviços adicionais. O sistema teve seu ápice em 1995, com cerca de

70 mil assinantes.

Page 28: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

28

Outra influência importante nasceu nos Laboratórios Bell quando, em 1974, por exigência do

governo dos EUA, cederam às universidades americanas os códigos fonte do UNIX com

permissão para alterações, o que fez com que se tornasse um difusor dessa tecnologia. Em

1978, a Bell distribuiu seu programa UUCP (Unix-to-Unix CoPy), que permitia aos

computadores copiarem arquivos entre si. Em 1979, baseado nessa tecnologia, quatro

estudantes da Carolina do Norte projetaram um programa para comunicação entre

computadores que permitiu a formação da rede de computadores USEnet fora do backbone da

Arpanet. Em 1980, essa tecnologia foi aperfeiçoada por estudantes de pós-graduação da

Universidade da Califórnia, em Berkeley, criando uma ponte entre a USEnet e a Arpanet,

permitindo o mesmo para outras redes que passaram a comunicar-se entre si, sendo

finalmente congregadas na forma da Internet.

Outra contribuição essencial na formação da Internet também veio da cultura dos usuários

UNIX, por intermédio do “Movimento do Código Fonte Aberto”. Esse movimento ganhou

força em 1984, quando a AT&T reivindicou direitos de propriedade sobre o Unix. Nessa

ocasião, Richard Stallman, programador no Laboratório de Inteligência Artificial do MIT,

lança a Free Software Foundation, propondo a adoção do Copyleft, de forma que quem usasse

um software gratuito deveria em contrapartida distribuir pela Internet os códigos

aperfeiçoados dele, em oposição aos direitos de Copyright. Também criando o GNU, um

sistema operacional alternativo ao Unix sob o conceito do Copyleft.

Dentro dos princípios do Copyleft, em 1991, Linus Torvalds, estudante da Universidade de

Helsinki, desenvolveu o Linux, baseado no Unix, e o resultado foi a elaboração de um sistema

robusto e constantemente atualizado pelo esforço de milhares de hackers e milhões de

usuários. Outros grupos de desenvolvimento cooperativo de software foram criados a partir da

cultura dos usuários do Unix, como por exemplo o Apache (servidor web) e o PHP

(linguagem de desenvolvimento web).

2.4 WORLD WIDE WEB, O HIPERTEXTO E A INTERNET COMERCIAL (1990 -

1995)

Além de Vannevar Bush e Douglas Engelbart, existiram outros precursores do hipertexto

antes que Tim Berners-Lee fizesse o desenvolvimento da World Wide Web.

Page 29: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

29

Em 1963, Ted Nelson, pensador independente e em certa medida radical, anteviu um

hipertexto de informação interligada em seu manifesto de 1963, Computer Lib. Trabalhando

desde então em um sistema, considerado utópico para alguns, chamado Xanadu, um

hipertexto aberto, auto-evolutivo, destinado a vincular toda a informação passada, presente e

futura do planeta (CASTELLS, 2003, p. 18). Apesar de a web dever muito de sua inspiração

ao Xanadu, Ted Nelson é um critico da World Wide Web, o XML e todos os sistemas

relacionados ao protocolo de Berners-Lee, lembrando que a web é uma simplificação

grosseira das ideias contidas no Xanadu, afirmando que “HTML é precisamente o que

tentávamos evitar: links quebrados, links unidirecionais, citações sem ligação com sua fonte,

nenhum controle de versões publicadas, nenhum controle de direitos autorais” (NELSON,

1999).

Já na década de 1980, Bill Atkinson, membro do time de desenvolvimento do Apple

Macintosh, projetou e implementou o HyperCard, considerado o primeiro

sistema hipermídia popular. Também foi o criador de MacPaint, e desenvolveu e

implementou QuickDraw, a toolbox de base que o Macintosh usava para gráficos. O

desempenho de QuickDraw foi essencial para o sucesso da interface gráfica do Macintosh.

Sem ter consciência de que o seu trabalho continuava uma tradição de mais de 50 anos na

busca de soluções para associar fontes de informação por meio da computação interativa,

iniciadas por Bush, Engelbart, Nelson e Atkinson, o inglês Tim Berners-Lee, então um

programador do CERN em Genebra (Laboratório Europeu para a Física de Partículas),

começou a transformar em realidade esses anseios com o desenvolvimento do Enquire11

em

1980. O seu trabalho foi favorecido pela existência da Internet e pela capacidade

computacional descentralizada. As utopias passaram a ser possíveis (CASTELLS, 2003, p.

18).

Bernes-Lee definiu e implementou o programa que possibilitava obter e acrescentar

informação de e para qualquer computador conectado na Internet: HTTP, MTML e URI

(depois URL). Junto com Robert Cailliau, desenvolveu o navegador/editor em dezembro de

1990, chamando-o de World Wide Web. Esse navegador foi disponibilizado pelo CERN na

Internet em agosto de 1991. A partir desse trabalho, hackers do mundo inteiro tentaram

11 ENQUIRE foi um projeto usado para reconhecer e armazenar associações de informação, desenvolvido por Tim Berners-Lee no segundo semestre de 1980, enquanto ele trabalhava na CERN. Ao invés de um navegador da web, o ENQUIRE estava mais próximo a uma wiki.

Page 30: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

30

desenvolver novos navegadores. A primeira versão veio em abril de 1992, no Instituto de

Tecnologia de Helsinki, o Erwise. E logo em seguida, o ViolaWWW, desenvolvido por Pei-

Yuan Wei na Universidade da Califórnia em Berkeley (CASTELLS, 2003).

Desse esforço de desenvolvimento de versões da www, surgiu o Mosaic, desenvolvido por

Marc Andreessen e Eric Bina no National Center for Supercomputer Applications da

Universidade de Illinois. Eles dotaram o Mosaic de uma avançada capacidade gráfica,

possibilitando captar e distribuir imagens pela Internet, além de várias técnicas de interfaces

já utilizadas no mundo da multimídia, divulgando o software na Usenet em janeiro de 1993.

Mais tarde Andreessen foi procurado por Jim Clark, fundador e recém-saído da Silicon

Graphics, e junto com Bina formaram a Mosaic Communications, mais tarde chamada de

Netscape Communications, lançando o primeiro navegador comercial, o Netscape Navigator

em outubro de 1994. Em 1995, lançaram o Navigator pela Internet, gratuitamente para fins

educacionais e por US$ 39 para aplicações comerciais (CASTELLS, 2003).

A Microsoft percebeu a Internet somente depois do sucesso do Navigator e, ainda em 1995,

lançou junto com o Windows 95 o seu navegador Internet Explorer, baseado em tecnologia

desenvolvida pela Spyglass, empresa nascida de uma divisão da University of Illinois em

Urbana-Champaign, para comercializar e dar apoio às tecnologias desenvolvidas pelo

National Center for Supercomputing Applications (NCSA). O crescimento do Internet

Explorer foi tal que, em reação a isso, em 1998 a Netscape liberou o código-fonte do

Navigator na Internet. Ao longo do tempo outros navegadores surgiram como o Navipress da

America On Line (AOL), o Mozilla Firefox, Opera e Safari e mais recentemente o Chrome do

Google.

Também em 1995 a Sun Microsystems liberou gratuitamente na Internet o Java, linguagem de

programação de miniaplicativos (applets). A tecnologia Java havia sido projetada para se

mover por meio de redes de dispositivos heterogêneos como a Internet. Com ela, aplicações

poderiam ser executadas dentro dos navegadores nos Applets Java e tudo seria

disponibilizado pela Internet. Por meio do HTML embutidos nos navegadores foi possível

alavancar a rápida disseminação do Java. A rapidez no desenrolar dos fatos seguintes foi

enorme, o número de usuários cresceu velozmente, grandes companhias de tecnologia, como

a IBM anunciaram suporte para a tecnologia Java solidificando o sucesso da linguagem.

Page 31: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

31

Assim, o sonho nascido da imaginação dos cientistas da computação no início da década de

1960 de uma rede de comunicação congregando comunidades de hackers e pesquisadores, já

por volta de 1970, começa a se tornar realidade. Entretanto, para a maior parte da sociedade

foi apenas em 1995 que ela nasceu.

Isso ocorreu com a criação dos protocolos e ferramentas tecnológicas que permitiram a

comunicação ampla, acessível e fácil entre qualquer rede e computador no mundo. A World

Wide Web funcionava com software adequado e haviam vários navegadores, fáceis de serem

utilizados. Em suma, passaram a existir as condições para que seu uso fosse disseminado

entre a sociedade em geral.

Passados quinze anos, é instigante observar que foram criados, desenvolvidos e modificados

tantos conceitos à volta da Internet e como isso tudo entrou na vida das pessoas gerando um

grau de dependência tecnológica nunca antes imaginado. Como colocado por Bessa

(2007/2008, p. 4), “Nada na história das invenções terá tido uma absorção tão rápida e tão

intensa. Nunca a história precisou de tão pouco tempo para se fazer”.

Esse nascimento se deu com características e marcas relevantes quanto à cultura em que

nasceu e a cultura que se formou a partir de então. Isso será discutido nos próximos tópicos.

2.5 A FORMAÇÃO DA CULTURA DA INTERNET

A abordagem no histórico da Internet descrito por Castells (2003) leva a algumas conclusões.

A primeira é a de que a tensão crescente entre o bloco dos países Ocidentais liderados pelos

EUA e os do bloco comunista liderados pela União Soviética após a Segunda Guerra

Mundial, fez surgir a busca pela supremacia militar por meio de avanços em tecnologias

bélicas. O lançamento do satélite Sputnik e uma aparente superioridade tecnológica Soviética

influenciou a criação da ARPA, e a partir disso surge a Arpanet, considerada o embrião da

Internet atual. Sem esse contexto não teriam existido a ARPA e a Arpanet, e certamente a

Internet, se existisse, não seria igual aos moldes de hoje.

Outra conclusão é quanto ao gerenciamento e nível de delegação que a ARPA recebeu do

Departamento de Defesa Americano. Fica nítido que houve inteligência organizacional por

partes dos decisores, políticos ou militares, ao atribuírem à ARPA autonomia para moldar as

Page 32: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

32

formas de estímulo às pesquisas tecnológicas em áreas vitais, sem abafar a criatividade e

mantendo a independência dos cientistas.

Ter seus quadros formados por cientistas acadêmicos e seus alunos de pós-graduação deu à

ARPA a compreensão de como as pesquisas se desenvolvem, o que a levou a conceder a

autonomia necessária aos pesquisadores contratados ou financiados por ela. Isso permitiu

atrair pesquisadores inovadores e talentosos para seus projetos. Em certa medida esse

conjunto de pessoas criou um ambiente em que estiveram presentes boas intenções, valores

morais e atitudes acadêmicas de transparência, inovação e cooperação na realização de seus

desenvolvimentos e descobertas, o que muito contribuiu para o futuro da Internet.

Também vale concluir que apesar dos pesquisadores da ARPA não fazerem parte da

contracultura, o resultado de seu trabalho criou a ponte necessária para a comunicação com o

ambiente estudantil mais amplo, desenvolvidos em outras redes fora da Arpanet, como os

BBS’s e a Usenet.

Essas comunidades alternativas à Arpanet, também formadas nos campi universitários,

trouxeram e reforçaram os mesmos valores de transparência e cooperação, principalmente por

meio da publicação de códigos fonte e pelo esforço conjunto de muitos voluntários que

obtiveram avanços significativos em programas os quais alavancaram o desenvolvimento da

Internet.

Foi dentro desse caldeirão, onde ingredientes tão díspares como a pesquisa militar, a

contracultura e grandes projetos de pesquisa, que se formou a Internet e a sua cultura. Sobre

isso, Castells (2003) diz que “antes de mais nada, a Internet nasceu da improvável interseção

da big science, da pesquisa militar e da cultura libertária”. Disso percebe-se que nasceu

influenciada por duas linhas de pensamento: a primeira voltada para os méritos científicos e

para servir à Pátria e a segunda, rebelde e libertária, focada em conceitos de igualdade e

cooperação.

Concluindo, convém considerar que, se a Internet conhecida hoje possui defeitos e falhas que

podem comprometer de alguma forma conceitos como liberdade e privacidade, fica claro que

não provêem das intenções ou do caráter de seus idealizadores e produtores iniciais, mas sim

de defeitos surgidos no seu próprio crescimento e desenvolvimento.

Page 33: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

33

2.6 O ESTADO ATUAL E SEUS REFLEXOS

Castells (2003) afirma que os sistemas tecnológicos são socialmente produzidos e que a

produção social é estruturada culturalmente. Assim como se discutiu no tópico anterior, a

Internet foi formada a partir de culturas que se consolidaram, chegando a uma forma em

meados dos anos 1990, mas a partir desse ponto, essa cultura da Internet, em um processo

contínuo, transforma-se por inserir em seu contexto “genético” outros grupos de usuários com

traços culturais diferentes. Esses grupos produzem e consomem recursos da Internet

modificando-a e a sua cultura.

Segundo Castells (2003), pode-se dividi-los entre Produtores e Consumidores, sendo que os

usuários Produtores são aqueles que de alguma forma intervêm na produção e na construção

do ambiente tecnológico, e os Consumidores são aqueles que somente consomem os recursos

sem nenhuma ação de desenvolvimento. Apesar de Castells (2003, p. 34) focar na cultura do

grupo dos Produtores, vale registrar que mesmo os Consumidores descobrem, pelas suas

experiências, aplicações e usos não percebidos de antemão pelos Produtores, o que em certa

dose altera o ambiente por meio de um efeito agregado na evolução do sistema tecnológico da

Internet.

A divisão proposta por Castells (2003, p. 34) para a cultura dos Produtores é a seguinte:

Tecnoelites: Refere-se a uma cultura tecnomeritocrática estabelecida na academia e na

ciência. Crê no progresso científico e tecnológico para o bem e progresso da

humanidade e em valores de reputação, competência, exame dos pares,

compartilhamento e cooperação. A Internet foi concebida nesse ambiente a partir de

onde esses valores, hábitos e conhecimento se espalharam pela cultura hacker.

Hacker: Pode-se afirmar que é o gerador do ambiente fomentador de inovações

tecnológicas vitais, mediante a cooperação e a comunicação livre; além disso, faz a

ponte entre o conhecimento nascido nas Tecnoelites e os subprodutos empresariais que

difundem a Internet na sociedade em geral. Vale conceituar o termo hacker. Segundo

Bessa (2007/2008, p. 7), a comunidade hacker é

(...) composta por aqueles entusiastas da tecnologia, que bebem na fonte dos

acadêmicos mas que, acima de tudo, se assumem como defensores do contrapoder,

da liberdade e independência, caracterizando-se pela sua criatividade tecnológica e

Page 34: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

34

pela forma diligente como compartilham toda a informação, aprendendo uns com os

outros e fazendo da Internet a sua própria escola.

A visão divulgada nos meios de comunicação que seriam irresponsáveis viciados em

computador empenhados em quebrar senhas e códigos, penetrar em sistemas

ilegalmente, ou criar o caos no tráfego de computadores, na verdade se refere aos

“crackers”.

Comunidades Virtuais: Pode-se afirmar que surgiram ainda na Arpanet com uma das

primeiras listas temáticas, a SF-Lovers (para amantes da ficção científica), chegando

hoje a comunidades em sites de relacionamentos como Orkut, Twitter, Facebook etc.

Apesar de não formarem exatamente uma cultura em razão da multiplicidade de

interesses e valores, com conhecimento técnico limitado habitam a Internet se

relacionando, discutindo, publicando, levando assim suas inovações sociais e de forma

dinâmica e interessante, contribuindo na reconfiguração e evolução da Internet e dos

recursos da rede, de acordo com as necessidades surgidas para essas interações sociais.

Empreendedores: De acordo com Castells (2003, p. 51), em sua forma real o

empresário da Internet é um ser simbiótico de duas cabeças. Isso em razão da

necessidade da comunhão de interesses dos criadores/desenvolvedores com os

capitalistas de riscos. Os empresários da Internet são uma composição de pessoas e

organizações integradas por inventores, tecnólogos e capitalistas de riscos que

percebem as potencialidades econômicas da Net e, por meio de suas habilidades,

desenvolvem projetos economicamente viáveis, baseados na produção de software e

hardware, contribuindo para o desenvolvimento da Internet, porém com uma

abordagem capitalista, menos acessível e mais condicionante aos seus produtos.

Enfim, a Cultural empresarial é, acima de tudo, uma cultural de dinheiro (muito) e do

trabalho (compulsivo e incessante).

É nesse contexto que a Internet se desenvolve e cresce, e onde essas culturas interagem. Sobre

isso Castells coloca da seguinte forma:

A cultura da Internet é uma cultura feita de uma crença tecnocrática no progresso

dos seres humanos através da tecnologia livre e aberta, incrustada em redes virtuais

que pretendem reinventar a sociedade, e materializada por empresários movidos a

dinheiro nas engrenagens da nova economia (CASTELLS, 2003, p. 53).

Page 35: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

35

A Internet no cenário atual é uma entidade que por sua constituição aberta e distribuída tem

uma elasticidade que a torna um importante instrumento para o desenvolvimento da nova

economia e até mesmo para o desenvolvimento do Terceiro Mundo, como menciona Castells

(2003, p. 10). Porém, isso também a torna suscetível às apropriações para fins ilícitos e

práticas criminosas das mais variadas formas – conhecidas e das que ainda serão percebidas.

Outro ponto relevante é quanto às facilidades atuais de geração de conteúdo. A cultura aberta

e compartilhada da Net proporcionou o surgimento de ferramentas de desenvolvimento de

conteúdos web fáceis de serem usadas, requerendo pouco ou quase nenhum conhecimento

técnico dos novos Produtores. Nesse contexto podem ser citados os blogs, sites de

relacionamentos, construtores de sites disponibilizados por provedores como UOL ou Google,

transformando a Internet em um espaço criativo em que qualquer um pode criar e editar

hipertextos como uma forma de expressão e de atividade colaborativa, favorecendo o

crescimento exponencial de conteúdo, desestruturado, cada vez mais e em maior volume.

2.7 A GOVERNANÇA DA INTERNET

Nesse tópico será focalizado o gerenciamento das comunicações e das funções de

coordenação da Internet, envolvendo desenvolvimento de protocolos compartilhados e

acordos quanto aos padrões e atribuições de nomes e endereços na Internet. Acredita-se que

estando equacionados esses pontos, considerando a estrutura descentralizada da Internet, o

resto se desenvolveria naturalmente e que a forma na qual foi forjada essa coordenação foi

decisiva para o desenvolvimento da Net e continua sendo para a sua evolução e crescimento,

independentemente de qualquer controle central (CASTELLS, 2003).

Como se nota ao longo deste capítulo, a ARPA conduzia sua autoridade na rede de forma

benevolente, considerando que buscava estimular a pesquisa tecnológica em áreas vitais sem

tolher a criatividade e a independência de seus pesquisadores. Além disso, o Network Working

Group produzia os padrões técnicos de forma consensual com a comunidade científica por

meio das RFC’s (Request for comments), o que ditou a forma como se daria a coordenação,

baseando-a na competência técnica, consulta à comunidade e decisões por consenso.

Com o início das operações da Arpanet nos anos 1970, o NWG foi dissolvido e seu papel

passou a ser realizado dentro da ARPA em um programa comandado por Cerf e Kahn, quando

Page 36: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

36

foi criado o Internet Configuration Control Board (ICCB), que coordenava junto à

Comunidade o desenvolvimento dos Protocolos.

Em 1984, foi criado o Internet Activies Board (IAB), responsável pela supervisão técnica e da

engenharia de desenvolvimento da Internet. No ano de 1989 foi dividida em Internet

Engineering Task Force (IETF), responsável pelo desenvolvimento dos protocolos e outros

aspectos técnicos, e a Internet Research Task Force (IRTF), dedicada ao planejamento de

longo prazo.

Segundo Castells (2003, p. 30), em 1992, com a expansão da Internet e a intenção da NSF em

privatizar a rede, fazia-se necessário tirá-la do controle direto do governo americano; dessa

forma, foi criada em janeiro de 1992 a Internet Society (ISOC), englobando a IAB, IETF e

IRTF, cuja direção foi entregue a Vinton Cerf e Robert Kahn pelo respeito técnico e moral

que possuíam junto à comunidade científica da Internet dentro e fora dos EUA. Apesar ou por

causa da internacionalização acentuada da Internet, a ambiguidade do seu gerenciamento,

baseado na probidade e prestígio de seus fundadores mas, em última instância, ainda sob

supervisão e controle do governo americano, passou a ser cada vez mais questionada por

outros governos, especialmente dos países europeus.

A figura a seguir traz uma linha do tempo que demonstra a evolução da supervisão e

gerenciamento da Internet desde a década de 1960 até meados dos anos 1990, mostrando os

organismos do governo americano a que estavam submetidos, a evolução dos grupos de

trabalhos e consultivos, os principais eventos da Internet e por fim o crescimento operacional.

Figura 1 - Linha do Tempo da Internet (Fonte: CERF et al.)

Page 37: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

37

Quanto à atribuição de endereços da Internet, isso fora delegado pelo governo americano à

Internet Assigned Numbers Autority (IANA), dirigida por Jon Postel da Universidade do Sul

da Califórnia (USC). Segundo Castells (2003), sua administração era respeitada e considerada

justa, consciente e neutra, atuando como árbitro para a atribuição de domínios na Internet.

Porém, com sua morte em 1998, a confiança que detinha da comunidade da Internet não

poderia ser transferida para uma instituição do governo. Como em 1997 a administração

Clinton manifestou a intenção de privatizar a IANA e outras organizações gerenciadoras da

Internet, Jon Postel, em sua última contribuição, em setembro de 1998, ofereceu ao governo

dos EUA seu projeto de privatização. A organização proposta, a Internet Corporation for

Assigned Names and Numbers (ICANN) foi aprovada no final de 1998 e completou sua fase

formativa em 2000.

Castells (2003) afirma que suas normas incorporaram o espírito de abertura da comunidade da

Internet, a descentralização, formação de consenso e a autonomia que caracterizaram o

governo ad hoc da Internet desde sua formação, somando uma orientação global a sua

composição. É uma entidade privada sem fins lucrativos que administra a alocação espacial

de endereços IP, atribuição de parâmetros de protocolos, organização e administração do

sistema de nomes de domínios e administração do sistema de servidores de raiz.

Atualmente a ICANN está organizada conforme a estrutura detalhada a seguir:

Figura 2 - Estrutura do ICANN (Fonte: <http://www.icann.org/en/structure/>. Acesso em 30/01/11)

Page 38: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

38

Para maiores detalhes sobre essa estrutura e o funcionamento de cada item desse modelo,

recomenda-se o acesso ao site da ICANN (http://www.icann.org).

Como colocado por Castells (2003), a visão romântica de uma comunidade global da Internet

se autorrepresentando por meio do voto eletrônico deve ser acrescida com a realidade de

outros interesses representados por lobbies, das redes de apoio e reconhecimento de nomes de

certos candidatos; também não faltariam críticas bem formuladas à democracia na ICANN.

Além disso, os vínculos entre a ICANN e o Departamento de Comércio dos EUA não teriam

sido rompidos. Alguns países, especialmente os europeus, são críticos do que chamam de

“domínio americano” na ICANN. Dessa forma, a contradição entre as raízes históricas da

Internet nos EUA e seu caráter global sugere a transformação final da ICANN numa

instituição culturalmente mais ampla.

Por fim, dentro dos mesmos princípios e espírito da ICANN, outra organização foi formada

para presidir os protocolos e o desenvolvimento da web, o World Wide Web Consortium,

suportado nos EUA pelo MIT, na Europa pelo instituto francês INRIA, sendo dirigido por

Tim Berners-Lee.

Ainda no âmbito internacional não se pode deixar de citar The World Summit on the

Information Society12

(WSIS), duas conferências patrocinadas pela Organização das Nações

Unidas sobre informação, comunicação e, em suma, a sociedade da informação.

A primeira ocorreu em Genebra, na Suíça, em 2003, e a segunda em Túnis, na Tunísia, em

2005, com a proposta de reduzir a distância que a divisão digital global gerou entre os países

ricos e os países pobres, por meio da ampliação do acesso à Internet das populações dos

países em desenvolvimento.

Em Genebra, com a presença de delegados de 175 países, foi aprovada uma Declaração

de Princípios13

, com 67 itens, formando um roteiro para a construção de uma sociedade de

informação acessível a todos, baseada no conhecimento compartilhado. Um Plano de Ação14

foi definido com a meta de ter 50% da população mundial conectada na web até 2015, porém

sem dar detalhes de como isso poderia acontecer. A Cúpula de Genebra também não

resolveu questões controversas como a governança da Internet e o seu financiamento.

12 http://www.itu.int/wsis/index.html. 13 http://www.itu.int/wsis/docs/geneva/official/dop.html. 14 http://www.itu.int/wsis/docs/geneva/official/poa.html.

Page 39: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

39

Sem a definição de um acordo sobre o futuro da governança da Internet, o Working Group on

Internet Governance (WGIG) foi formado para elaborar propostas nesse sentido.

Na ocasião, delegados da Sociedade Civil (ONG’s) elaboraram o documento “Shaping

Information Societies for Human Needs15

”, que consolida um amplo leque de questões

relacionadas aos direitos humanos e direitos de comunicação.

A segunda Cúpula aconteceu em 2005 em Túnis, e apenas às vésperas do evento a

Association for Progressive Communications (APC)16

divulgou o seu padrão. A APC propôs

ações específicas em cada uma das cinco áreas abaixo:

a criação do Internet Governance Forum (IGF)17

;

a transformação da ICANN em uma entidade de representação global, com plena

autoridade sobre o gerenciamento de DNS, e uma forma apropriada de prestação de

contas aos seus stakeholders no governo, setor privado e na sociedade civil;

o início de uma convenção entre os vários interessados na governança da Internet e

nos direitos humanos universais que codificam os direitos básicos aplicáveis à

Internet, a ser juridicamente vinculada em direito internacional às cláusulas da

declaração universal dos direitos humanos especialmente relevantes para a Internet,

tais como os direitos à liberdade de expressão, liberdade de associação e de

privacidade;

garantir o acesso fácil e universal à Internet. A APC colocou que a Internet é um

espaço público global, que deve ser aberto e acessível a todos, sem discriminação de

qualquer espécie. A Internet deve ser vista como uma infraestrutura pública global,

reconhecendo-se ser um bem público relacionado ao conceito de patrimônio comum

da humanidade e o acesso a ele é de interesse público, e deve ser fornecido como um

compromisso público global para a igualdade;

medidas para promover a capacitação em “desenvolvimento” no que diz respeito ao

aumento da participação dos países “em desenvolvimento” em fóruns globais de

política pública sobre a governança da Internet.

15 http://www.itu.int/wsis/docs/geneva/civil-society-declaration.pdf. 16 Trata-se de uma rede internacional de organizações da sociedade civil cujo objetivo é capacitar e apoiar grupos e indivíduos que trabalham para a paz, direitos humanos, desenvolvimento e proteção do meio ambiente, pelo uso estratégico das tecnologias da informação e comunicação (TIC), incluindo a Internet. 17 http://www.intgovforum.org/cms/.

Page 40: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

40

A Cúpula de Túnis contou com a participação de 1.500 pessoas de organizações

internacionais, cerca de 6.200 pessoas de ONGs, por volta de 4.800 pessoas do setor privado,

e 980 de meios de comunicação.

Um dos resultados concretos da WSIS foi a criação do Internet Governance Forum (IGF),

cuja 6ª Reunião Anual será realizada em Nairóbi, no Quênia, em setembro de 2011, com o

tema principal “Internet como um catalisador para a mudança: o acesso, desenvolvimento,

liberdade e inovação”.

2.7.1 A governança da Internet no Brasil

No Brasil a governança da Internet é desempenhada pelo Comitê Gestor da Internet no Brasil

(CGI.br) criado em maio de 1995 por meio da Portaria Interministerial nº 147 de 31/05/1995,

alterada pelo Decreto Presidencial nº 4.829 de 03/09/2003, com a responsabilidade de

coordenar e integrar os serviços de Internet no País. Possui um modelo multistakeholder

formado por membros indicados pelo governo federal e por eleitos dos setores empresarial,

terceiro setor e comunidade acadêmica, totalizando 21 membros, sendo nove representantes

do governo, 11 da sociedade civil e um membro de notório saber em assuntos de Internet.

Como braço executivo do CGI.br, o Núcleo de Informação e Coordenação do Ponto BR

(NIC.br) foi criado para implementar as decisões e projetos do CGI.br, tendo diretamente

ligado a ele os departamentos administrativo, jurídico e de comunicação. Dentre suas

atribuições destacam-se os seguintes pontos:

registro e manutenção dos nomes de domínios que usam o <.br> , e a distribuição de

números de Sistema Autônomo (ASN) e endereços IPv4 e IPv6 no País, por meio do

Registro.br18

;

tratamento e resposta a incidentes de segurança em computadores envolvendo redes

conectadas à Internet brasileira, atividades do CERT.br19

;

18 Registro.br - Registro de domínios “.br” 19 CERT.br – Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil.

Page 41: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

41

projetos que apoiem ou aperfeiçoem a infraestrutura de redes no País, como a

interconexão direta entre redes (PTT.br) e a distribuição da Hora Legal brasileira

(NTP.br). Esses projetos estão a cargo do CEPTRO.br20

;

produção e divulgação de indicadores e estatísticas e informações estratégicas sobre o

desenvolvimento da Internet brasileira, sob responsabilidade do CETIC.br21

;

promover estudos e recomendar procedimentos, normas e padrões técnicos e

operacionais, para a segurança das redes e serviços de Internet, bem como para a sua

crescente e adequada utilização pela sociedade, realizada pelo W3C.br22

;

suporte técnico e operacional ao LACNIC, Registro de Endereços da Internet para a

América Latina e Caribe.

Figura 3 - Estrutura organizacional do NIC.br e CGI.br

Legenda dos setores representados pelos conselheiros do CGI.br:

Governo:

o 1 – Ministério da Ciência e Tecnologia

o 2 – Ministério das Comunicações

o 3 - Casa Civil da Presidência da República

o 4 – Ministério do Planejamento, Orçamento e Gestão

o 5 – Ministério do Desenvolvimento, Indústria e Comércio Exterior

o 6 – Ministério da Defesa

o 7 – Agência Nacional de Telecomunicações

o 8 – Conselho Nacional de Desenvolvimento Científico e Tecnológico

20 CEPTRO.br – Centro de Estudos e Pesquisas em Tecnologia de Redes e Operações. 21 CETIC.br – Centro de Estudos sobre as Tecnologias da Informação e da Comunicação. 22 W3C Brasil l – Escritório brasileiro do W3C (World Wide Web Consortium).

Page 42: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

42

o 9 – Conselho Nacional de Secretários Estaduais para Assuntos de Ciência e

Tecnologia

o 10 – Notório Saber

Sociedade Civil:

o 11 – Provedores de acesso e conteúdo

o 12 – Provedores de infraestrutura de telecomunicações

o 13 – Indústria TICs (Tecnologia da Informação e Comunicação) e software

o 14 – Empresas usuárias

o 15, 16, 17 e 18 – Terceiro setor

o 19, 20 e 21 – Academia

2.7.2 Princípios para a governança e uso da Internet

Na terceira reunião ordinária de 2009, o CGI.br aprovou a resolução CGI.br/RES/2009/003/P,

que estabelece os princípios fundamentais para a governança e uso da Internet no Brasil.

Além de alinhar o Brasil às iniciativas internacionais no sentido de governança e bom uso da

Internet, define a orientação e dá embasamento às ações e decisões do CGI.br, também deve

ser algo a ser observado e respeitado pela sociedade como uma bússola a ser seguida,

preservando os avanços alcançados, permitindo novas evoluções e por último e não menos

importante, preservando a cultura do ciberespaço de abertura, compartilhamento, cooperação

e aprendizado contínuo.

a) Liberdade, privacidade e direitos humanos

O uso da Internet deve guiar-se pelos princípios de liberdade de expressão, de

privacidade do indivíduo e de respeito aos direitos humanos, reconhecendo-os como

fundamentais para a preservação de uma sociedade justa e democrática.

b) Governança democrática e colaborativa

A governança da Internet deve ser exercida de forma transparente, multilateral e

democrática, com a participação dos vários setores da sociedade, preservando e

estimulando o seu caráter de criação coletiva.

Page 43: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

43

c) Universalidade

O acesso à Internet deve ser universal, a fim de que seja um meio para o

desenvolvimento social e humano, contribuindo para a construção de uma sociedade

inclusiva e não discriminatória em benefício de todos.

d) Diversidade

A diversidade cultural deve ser respeitada e preservada e sua expressão deve ser

estimulada, sem a imposição de crenças, costumes ou valores.

e) Inovação

A governança da Internet deve promover a contínua evolução e ampla difusão de novas

tecnologias e modelos de uso e acesso.

f) Neutralidade da rede

Filtragem ou privilégios de tráfego devem respeitar apenas critérios técnicos e éticos,

não sendo admissíveis motivos políticos, comerciais, religiosos, culturais, ou qualquer

outra forma de discriminação ou favorecimento.

g) Inimputabilidade da rede

O combate a ilícitos na rede deve atingir os responsáveis finais e não os meios de acesso

e transporte, sempre preservando os princípios maiores de defesa da liberdade, da

privacidade e do respeito aos direitos humanos.

h) Funcionalidade, segurança e estabilidade

A estabilidade, a segurança e a funcionalidade globais da rede devem ser preservadas de

forma ativa por meio de medidas técnicas compatíveis com os padrões internacionais e

estímulo ao uso das boas práticas.

i) Padronização e interoperabilidade

A Internet deve basear-se em padrões abertos que permitam a interoperabilidade e a

participação de todos em seu desenvolvimento.

j) Ambiente legal e regulatório

O ambiente legal e regulatório deve preservar a dinâmica da Internet como espaço de

colaboração.

Page 44: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

44

2.7.3 Considerações sobre o futuro

Sem qualquer juízo de valor sobre as instituições que governam a Internet, esta Dissertação

está alinhada com Castells (2003) quando ele coloca sua surpresa de que a Internet tenha sido

gerenciada desde a sua concepção até hoje de forma estável, sem ceder à burocracia

americana ou à desorganização que uma estrutura descentralizada como a sua poderia trazer,

citando a importância das pessoas que desde o princípio criaram uma cultura de abertura,

compartilhamento, cooperação e aprendizado contínuo.

Que isso tenha ocorrido foi a proeza desses cavalheiros da inovação tecnológica:

Cerf, Kahn, Postel e Berners-Lee e muitos outros, que realmente buscaram manter a

abertura da rede para seus pares como forma de aprender e compartilhar. Nessa

abordagem comunitária à tecnologia, o patriciado meritocrático encontrou-se com a

contracultura utópica na invenção da Internet e na preservação do espírito de

liberdade que está na sua fonte. A Internet é, acima de tudo, uma criação cultural

(CASTELLS, 2003, p. 32).

Acredita-se que uma das questões mais relevantes para o futuro da Internet não é apenas como

a tecnologia vai mudar, mas também como os processos de mudança e evolução em si serão

gerenciados. Como este trabalho descreve, a arquitetura da Internet tem sido impulsionada por

um grupo de designers, mas também na forma como o grupo mudou e como o número de

interessados tem crescido. Com o sucesso da Internet vem a proliferação das partes

interessadas – stakeholders – agora com uma dimensão econômica, bem como um

investimento intelectual na rede. Vê-se agora, no debate sobre o controle do espaço de nomes

de domínio e a forma de os endereços IP de próxima geração, uma luta para encontrar a

próxima estrutura social que vai orientar a Internet no futuro. A forma dessa estrutura será

mais difícil de encontrar, dado o grande número de interessados. Ao mesmo tempo, a

indústria se esforça por encontrar a justificação econômica ao grande investimento necessário

para o crescimento futuro, por exemplo, atualizar o acesso residencial a uma tecnologia mais

adequada.

Assim, estabelecer princípios para a governança e uso da Internet na linha da resolução

aprovada pelo CGI.br e ações do WSIS e IGF, contribuem muito para o futuro, pois se a

Internet tropeçar, não será porque faltará tecnologia, visão ou motivação. Será por não se

poders definir uma direção e marchar coletivamente no futuro.

Page 45: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

45

CAPÍTULO 3

CONCEITOS ESSENCIAIS

Quando se fala em conceitos essenciais, pretende-se discutir alguns pontos que para este

trabalho são considerados relevantes, como a web semântica, Visualização de Dados e

Mecanismos de Otimização de Buscas. Entretanto, vale registrar que existem pesquisas

envolvendo outras abordagens convergentes ao objetivo de aumentar a qualidade e

significância dos resultados de buscas na web, mas que não serão aplicadas na proposta de

portal. Dentre elas podem ser citadas Visual Search, Social Search e Peer-to-peer web search

engine, descrevendo-as resumidamente a seguir:

a) Visual Search é uma abordagem que permite que as buscas sejam realizadas sem

utilização de palavras, escritas ou faladas, apenas com imagens. Na essência pretende-

se, a partir de vários objetos da imagem, analisar cores, contornos e texturas do que está

no arquivo e assim construir representações digitais individuais de cada objeto, o que

permitiria a pesquisa por intermédio da comparação desses objetos – assim não seriam

mais necessárias as tags ou legendas associadas às imagens para classificá-las. Hoje

existem dificuldades que precisam ser equacionadas, como por exemplo, a necessidade

de uma grande capacidade de processamento dos buscadores. Além disso, também

existem aspectos éticos e legais como o reconhecimento facial e a invasão de

privacidade que isso acarretaria. Hoje um dos principais produtos nessa linha, ainda que

com imperfeições, é o Google Goggles. Funcionando a partir de smartphones que

utilizam o Android ou do iPhone, a Google disponibiliza uma busca online, onde a

câmera funciona como um scanner possibilitando, a partir da imagem fotografada,

pesquisar uma obra de arte, uma marca comercial, um monumento e até mesmo fazer a

tradução do texto de um menu de restaurante, oferecendo a possibilidade de encontrar

qualquer coisa por meio de imagens. Vale registrar que a tecnologia adotada pela

Google foi originalmente desenvolvida para reconhecimento de face e que essa função

teria sido desabilitada para evitar processos judiciais por invasão de privacidade. Outras

aplicações com a abordagem de reconhecimento visual estão em desenvolvimento

comercial e podem ser destacadas a Superfish (superfish.com) e Evolution Robotics

(evolution.com).

Page 46: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

46

A Superfish é uma startup sediada no Vale do Silício que desenvolveu uma aplicação

comercial, ainda em sua versão beta, que a partir de um aplicativo instalado no

navegador do usuário (add-on), recebe a imagem do objeto que está sendo procurado e

após uma pesquisa dessa imagem em seu banco de dados, oferece uma lista de itens

similares em outras lojas com seus respectivos preços, simplificando o processo de

busca daquele produto e de seus análogos. Essa aplicação, apesar de ser muito

promissora e com certeza útil, ainda apresenta falhas. Por exemplo, em uma busca por

um aparelho celular, são recebidas também ofertas de capas e outros acessórios, e em

alguns momentos até de outros produtos completamente diferentes em termos de

funcionalidade e aplicação, porém que possuem semelhança física com a imagem

consultada.

A Evolution Robotics é uma empresa que, entre suas linhas de pesquisa e

desenvolvimento, atua com reconhecimento de padrões visuais. Ela desenvolveu

software e hardware de baixo custo que podem ser integrados em produtos comerciais,

atuando em parceria com as indústrias interessadas em aplicar essa tecnologia em seus

produtos. Essas aplicações podem ser, por exemplo, buscadores visuais em telefones

celulares, já adotado no Japão, ou em um dispositivo que analisa as gôndolas e

prateleiras de um supermercado, informando às áreas competentes situações de falta de

produtos e espaços vazios ou até mesmo de produtos distribuídos fora das posições em

que deveriam estar.

b) Social Search é uma busca que se baseia na preferência dos seus amigos em redes

sociais e, a partir dessas preferências, propõe oferecer maior significância aos resultados

das suas pesquisas. Crê-se que os posts e outras informações compartilhadas por

pessoas conhecidas e de sua confiança permitirão maior relevância e credibilidade aos

resultados das pesquisas. Por exemplo, se você deseja informações do Museu do Prado,

em Madri, e alguém da sua rede de amigos já o tenha visitado, postando fotos e

comentários, esse item aparecerá em destaque no resultado de sua pesquisa. Outra

variante possível dessa abordagem está relacionada a posições geográficas. Em regiões

como nos EUA, onde a distribuição de backbones das redes IP é organizada de maneira

a propiciar a localização do internauta com maior precisão, se, por exemplo, alguém

compartilhar um link de uma loja de roupas localizada na mesma região em que outro

usuário realize uma busca semelhante, é provável que esse link seja exibido em uma

posição mais destacada.

Page 47: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

47

O Google lançou, em outubro de 2009, a versão experimental do Google Social Search,

e esta prevista uma versão atualizada ainda para 2011. A proposta do Google Social

Search é analisar as redes sociais nas quais o usuário esteja envolvido, entendendo as

suas conexões de relacionamentos e negócios, e ao realizar uma consulta, retornar

informações relevantes de pessoas que sejam, supostamente aos olhos do usuário,

conhecidas e confiáveis. Na mesma linha segue o Bing, que em outubro de 2010, a

partir de uma parceria com o Facebook, incluiu no retorno das buscas os posts de

pessoas com as quais o usuário se relaciona na rede social. Esses são, sem dúvida,

passos importantes para a personalização dos resultados das buscas.

c) Peer-to-peer web search engine. É uma proposta de um web search engine universal

baseado na tecnologia peer-to-peer, portanto, trabalhando de forma descentralizada.

Nessa proposta, os usuários passam a ter o papel, não apenas de consumidor dos

resultados das buscas, mas também em fornecer dados para os índices, bem como

armazená-los em seus próprios computadores que passariam a ser nós dessa rede de

busca.

Dentro desse conceito, pretende-se que a busca seja mais rápida e a própria classificação

de relevância das páginas poderá ser indicada pela frequência em que é visitada.

Os benefícios ou consequências da adoção dessa tecnologia seriam:

direitos civis e da privacidade – A censura torna-se quase impossível, além de

não se poder estabelecer uma central de acompanhamento, avaliação e

registro das pesquisas realizadas;

ecológicos – Redução de consumo de energia pela eliminação de centros de

dados para concentrar as informações, seu processamento e retorno aos

usuários, pois para essa solução bastariam os computadores dos usuários;

sociológicos – Todos os candidatos a nós teriam os mesmos direitos quanto à

adição de novos conteúdos, correspondendo aos mesmos princípios adotados

em Wikis, o que já se mostrou viável na web. Além disso, o conteúdo do

Search Engine não seria influenciado por aspectos políticos e interesses

comerciais do operador do portal de buscas. E por fim, a individualização da

relevância, pois todos podem avaliar a qualidade e a importância das páginas

web por suas próprias regras e ajustar a sua relevância pessoal como um

método de classificação (popular e científico).

Page 48: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

48

Nessa linha de pesquisa se pode citar a YaCy (yacy.com), Wowd (wowd.com), a Faroo

(faroo.com) que já disponibilizam soluções operacionais.

3.1 A QUESTÃO DA WEB SEMÂNTICA

É notório o esforço que se faz nas pesquisas em buscadores como o Google ou Bing. É

enorme a quantidade de dados recebidos que não possuem nenhum significado em relação ao

que realmente se está buscando – na maioria das vezes se despende tempo e esforço de análise

e, mesmo assim, invariavelmente, são dispensados dados que poderiam ser relevantes por

absoluta falta de tempo para uma filtragem mais apurada. Em Berners-Lee et al.(2001), os

autores definem e exemplificam de forma sucinta e clara o que seria a web semântica e como

ela poderia auxiliar nesses filtros para assim obter dados relevantes e significativos nas

buscas.

Neste artigo alguns pontos são enfatizados e devem ser discutidos a seguir para um melhor

entendimento:

A web semântica não é uma web separada, mas uma extensão da atual, em que a informação

é dada com significado bem definido, permitindo que os computadores e as pessoas

trabalhem em cooperação. (BERNERS-LEE, HENDLER E LASSILA)

Constata-se que o mais interessante na cultura da web é a possibilidade de que qualquer

pessoa no planeta, com pouco ou quase nenhum conhecimento técnico, possa fazer parte

desse espaço criativo em que se transformou a web, onde qualquer um pode criar e editar

hipertextos como uma forma de expressão e de atividade colaborativa, favorecendo o

crescimento exponencial de conteúdo, desestruturado, cada vez mais e em maior volume, e

assim, esse tipo de desenvolvimento, voltado para outras pessoas e criado por aqueles que não

estarão preocupados com metadados, ontologias ou taxonomias, continue existindo compondo

a web sintática, que conviverá com a web semântica – daí a afirmação de que a web semântica

será uma extensão da web atual (sintática).

Quanto às pessoas e computadores trabalharem em cooperação, entende-se que a

disponibilização de dados que possam ser integrados a outros sistemas computacionais com

Page 49: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

49

suas interfaces homem-máquina específicas e o uso de agentes de software que nos entreguem

resultados relevantes e significantes criam essa perspectiva de cooperação.

A web semântica permitirá que máquinas compreendam23

a semântica de documentos e

dados, e não discursos e escritas humanas. (BERNERS-LEE, HENDLER E LASSILA)

Esse sem dúvida será um dos grandes ganhos que a web semântica poderá nos oferecer. A

partir de agentes de software, serão realizadas as buscas e negociações entre computadores,

como no exemplo apresentado por Berners-Lee et al. (2001). Será possível buscar consultas

médicas estabelecendo critérios de distância da residência de quem procura, cobertura de

plano médico, critérios de classificação de qualidade, composição com agendas de diversas

pessoas etc., utilizando agentes de software que fariam automaticamente as buscas e

negociações necessárias retornando as melhores possibilidades.

Adequadamente projetada, a web semântica pode acompanhar a evolução do conhecimento

humano como um todo. (BERNERS-LEE, HENDLER E LASSILA)

A web semântica não é “apenas” uma ferramenta para a realização de tarefas e ações

automatizadas já discutidas anteriormente. Se adequadamente projetada, a web semântica

pode apoiar a evolução do conhecimento humano como um todo.

O esforço humano está entre a eficácia de pequenos grupos, agindo de forma independente, e

a necessidade de se integrar a comunidade em geral. Um pequeno grupo pode inovar rápida e

eficientemente, mas isso dá a esse grupo o entendimento a conceitos que nem sempre são

compreendidos pelos que estão fora dele.

Por outro lado, a coordenação das ações por meio de um grupo maior, além de um processo

lento, consome enorme quantidade de esforço e comunicação. De forma geral, o mundo

funciona entre os extremos desse espectro, com tendências a começar pequeno, a partir das

ideias individuais, e mover-se ao longo do tempo a um entendimento mais amplo da

comunidade em geral.

23 Vale registrar que o entendimento de "que máquinas compreendam", considerando que a essência da programação contemporânea envolve apenas a manipulação de símbolos pelo dispositivo, está baseado na disponibilização de linguagens de codificação que permitam a publicação de ontologias em um formato que capacite os computadores a processá-las automaticamente.

Page 50: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

50

Um processo essencial nesse contexto é a consolidação da cultura dos grupos menores

formando um grupo maior, exigindo para isso uma linguagem comum entre eles.

Frequentemente, grupos independentes desenvolvem conceitos semelhantes – assim,

estabelecer a relação entre eles nos trará grandes benefícios. Como um dicionário

Português/Inglês e Inglês/Português, ou pesos e medidas com suas tabelas de conversão.

Essas relações permitem a comunicação e colaboração, mesmo quando a uniformização dos

conceitos e termos ainda não existem.

A web semântica permitirá a qualquer pessoa expressar com pouco esforço novos conceitos

que sejam criados. Sua língua e lógica unificadora permitirá que os conceitos sejam

progressivamente ligados em uma web universal. Essa estrutura abrirá o conhecimento e o

funcionamento da humanidade para a análise por agentes de software, fornecendo uma nova

classe de ferramentas com as quais se poderá viver, trabalhar e aprender coletivamente.

Dentro dessa linha, Pierre Lévy24

, citado em Leme (2009, p. 25), define a web semântica

como a ferramenta necessária para o desenvolvimento da inteligência coletiva, sendo a

elaboração de um sistema de códigos, baseados em metadados, ontologias ou taxonomias,

dispensando as pessoas de usarem uma nova linguagem, mantendo a sua própria, pois haverá

um software que entenderá esses códigos e os traduzirá para uma forma compreensível a

todos.

Nos próximos itens serão discutidos com mais detalhes os conceitos tecnológicos em que se

apoia a web semântica.

3.1.1 Contraponto com a “inteligência artificial”

Como colocado em Berners-Lee et al. (2001), para se obter os benefícios da web semântica

não será necessária uma “inteligência artificial” no nível de sofisticação de personagens da

ficção como o computador HAL de 2001 – Uma Odisseia no Espaço, ou do robô C3PO de

Star Wars.

24 Filósofo francês, professor da cadeira de Pesquisas sobre Inteligência Coletiva da Universidade de Ottawa (Canadá).

Page 51: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

51

A web semântica tem uma proposta diferente da “inteligência artificial”. Ela pretende que,

dentro do conceito de documentos codificados por humanos, estes se tornem compreensíveis

pelas máquinas, e assim os computadores, programados para tal, passem a ter habilidades para

a resolução de questões bem definidas por meio de operações que processem dados. Isso

prescindirá do uso da “inteligência artificial” para os computadores compreenderem a

linguagem humana, pois serão as pessoas que deverão codificar as informações numa forma

de representação compreendida em um nível que permita às máquinas realizarem seu

processamento automático, utilizando-se de metadados, ontologias etc.

Da mesma forma como colocado por Breitman (2006, p. 9), em que pese que técnicas e

experiências da “inteligência artificial” sejam utilizadas na web semântica e face ao histórico

de insucessos da “inteligência artificial”, ambas se diferenciam, pois a web semântica

prescinde de uma inteligência superior como na proposta da “inteligência artificial”, pois

ainda que um agente de software não alcance resultados próximos dos obtidos pela mente

humana, mesmo assim contribuirá para uma Internet melhor. Deve-se considerar que mesmo

soluções parciais irão contribuir para que os seres humanos realizem melhor suas atividades

cotidianas na web.

O exposto acima pode ser condensado na seguinte definição colocada em Breitman (2006, p. 9):

Se o objetivo da IA é construir um agente de software que mostre inteligência no

nível humano (e superior), o objetivo da web semântica é auxiliar humanos a

realizarem suas tarefas diárias na rede. - Antoniou e Harmalen

3.1.2 Metadados

A definição de metadados, de uma maneira bem simples, pode ser colocada como dados sobre

os dados. Entretanto, existem algumas definições formais de entidades reconhecidas

destacadas a seguir:

A International Federation of Library Associations (IFLA) define da seguinte forma:

Page 52: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

52

Metadados são dados sobre dados. O termo refere-se a qualquer dado utilizado para

auxiliar na identificação, descrição e localização de recursos eletrônicos em rede.

Existem muitos formatos diferentes de metadados, alguns muito simples em sua

descrição, outros bem complexos e ricos. (IFLA, 2009)

O World Wide Web Consortium (W3C, 2001) define metadados como “informações para a

web que podem ser compreendidas por computadores”. Ambas as definições apresentam uma

abordagem voltada para web semântica.

Entretanto, essas definições limitam o seu escopo a um ambiente informatizado e na web.

Em verdade, como colocado por Breitman (2006, p. 16), pode-se utilizar o termo a

qualquer descrição de um dado; assim, o tradicional cartão de biblioteca é uma forma de

metadado, da mesma maneira que um item de catálogo é representado por um código de

produto.

Dentro desta linha, de acordo com Zorama Ercegovac, (apud ROSETTO et al., 2011, p. 4),

entende-se por metadados como sendo um sumário de informações sobre a forma e o

conteúdo de um recurso eletrônico, ou não, que pode ser um objeto bibliográfico (livros,

seriados, mapas etc.), catálogo de registros bibliográficos, inventários e registros de arquivos,

objetos geoespaciais (imagens de satélites etc.), recursos de museus e visuais, ou

implementações de software.

Percebe-se que o assunto “metadados”, antes restrito ao âmbito dos museólogos e

bibliotecários, em razão da sua aplicação na web semântica, passa a ter um papel de destaque

entre os temas das pesquisas em Ciências da Computação.

O quadro a seguir apresenta uma classificação de metadados e suas definições, conforme

proposto por Anne Gilliland-Swetland, da Universidade da Califórnia, Los Angeles, citado

em Breitman (2006, p. 17).

Page 53: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

53

Tipo Definição Exemplos

Administrativo Metadados utilizados na gerência e na administração de recursos de

informação

Aquisição de informação

Registro de direitos e reprodução

Documentação dos requisitos legais

de acesso

Informação de localização

Critérios de seleção para a

digitalização

Controle de versão

Descritivo Metadados utilizados para descrever

e identificar recursos de informação Registros de catalogação

Auxílio para a procura de

informação

Indexes especializados

Utilização de hiperlinks entre

recursos

Anotações

Preservação Metadados relacionados ao gerenciamento dos recursos de

informação

Documentação sobre a condição

física dos recursos

Documentação sobre as ações

tomadas de modo a preservar as

versões físicas e digitais dos

recursos, e.g., atualização e migração

Técnica Metadados relacionados a

funcionalidades do sistema e como

seus metadados se comportam

Documentação sobre hardware e

software

Informação relativa à digitação, e.g.,

formatos, compressão, rotinas de

escalonamento

Registro do tempo de resposta do

sistema

Autenticação de dados, e.g., senhas

e criptografia

Utilização Metadados relacionados ao nível e ao

tipo de utilização dos recursos Registros de exibição

Registro do uso e dos usuários dos

recursos

Reutilização do conteúdo e

informação relativa ao multiversionamento

Tabela 1 - Tipos e Funções de metadados por Anne Gilliland-Swetland (BREITMAN, 2006, p. 17)

De acordo com Breitman (2006, p. 16), o uso universalizado de metadados obriga o uso de

vocabulários controlados, algo relegado a um plano secundário durante anos pelos

catalogadores. Para garantir a comunicação entre aplicações, novas habilidades e ferramentas

serão necessárias para implementar os metadados na escala pretendida; assim, torna-se

importante elucidar aspectos conceituais e de sua aplicação:

Page 54: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

54

a) Metadados não são obrigatoriamente digitais. Profissionais de outras áreas o

utilizam há bastante tempo para gerenciar suas coleções (Museus, Bibliotecas etc.),

muito antes do advento dos recursos computacionais e digitais.

b) Metadados podem fornecer mais do que apenas dados sobre um objeto. Embora seu

uso mais conhecido seja a classificação e catalogação de objetos, também são utilizados

no processamento e preservação de objetos (vide tabela anterior).

c) Metadados podem ser obtidos de várias fontes. Podem ser fornecidos por seres

humanos, de bases de dados ou gerados automaticamente.

d) Metadados evoluem de acordo com sua vida útil ou a do objeto que descrevem. São

criados, alterados e até mesmo descartados ao longo da vida útil do objeto que

descrevem.

Atualmente há uma grande variedade de formatos de metadados. Nos próximos tópicos serão

destacados aqueles que apresentam maior relevância para a web semântica, o Dublin Core

Resource Description (DC), a Framework de Warwick e o Resource Description Framework

(RDF).

3.1.2.1 Padrão Dublin Core

Durante uma das primeiras conferências sobre a web realizada em outubro de 1994, foi

colocada a necessidade de uma semântica para descrever recursos disponibilizados na

Internet.

A primeira iniciativa nesse sentido ocorreu em um workshop realizado no ano de 1995, na

cidade de Dublin, Ohio, EUA, reunindo bibliotecários, investigadores, especialistas e

fornecedores de conteúdos, e também especialistas em informática, a fim de desenvolver uma

norma para a pesquisa de recursos, nascendo o Dublin Core. Um padrão internacional para a

descrição de recursos de informação, o nome “Dublin” deu-se devido ao nome da cidade onde

nasceu, e “core”, porque os seus elementos são suficientemente amplos e genéricos para

servirem na descrição de uma enorme variedade de recursos.

Page 55: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

55

Em workshops posteriores surgiu o Dublin Core Metadata Element Set, formado por quinze

elementos resultantes de um esforço interdisciplinar e de consenso internacional.

O Dublin Core está traduzido em vinte idiomas e foi adotado pelo CEN/ISSS (European

Committee for Standardization / Information Society Standardization System), com presença

oficial no W3C, estando representado nas normas internacionais abaixo:

ISO Standard 15836:2009, de fevereiro de 2009 (ISO 15836, 2009);

ANSI/NISO Standard Z39.85-2007 de maio de 2007 (NISO Z39.85, 2007);

IETF RFC 5013 de agosto de 2007 (KUNZE, et al., 2007).

Segundo Souza et al. (2000), existem projetos em países da América do Norte, Europa, Ásia e

Austrália utilizando o padrão Dublin Core no desenvolvimento de ferramentas para a

descrição de recursos eletrônicos, destacando-se os seguintes:

• Malvine – Manuscripts and Letters Via Integrated Networks in Europe – Um motor

de buscas focado na pesquisa de manuscritos pós-medievais, localizado na Biblioteca

Estadual de Berlim e mantido por um consórcio europeu de bibliotecas, arquivos e

museus. MALVINE disponibiliza informação acerca da natureza e localização de

manuscritos conservados num vasto número de instituições de patrimônio cultural.

(MALVINE Project, 2003).

• Foundations Project Minnesota’s Gateway to Environmental Information – Projeto

com financiamento e colaboração de Agências Ambientais do governo do Estado de

Minnesota, EUA, com padrão baseado no Dublin Core, visando melhorar o acesso

público aos dados e informações ambientais e de recursos naturais. (FOUNDATIONS

Project, 2007)

No Brasil, podem ser citados os trabalhos utilizando elementos metadados do Dublin Core na

definição do conjunto de informações para a descrição bibliográfica de documentos na

Biblioteca Digital de Teses da USP (ROSETTO et al., 2011) e o que discorre sobre a

implantação do tema metadados x Dublin Core na Embrapa, a partir da criação do Rural

Mídia – Banco de Imagens –, sistema que possibilita a digitalização, tratamento e organização

de imagens, via Web (SOUZA et al., 2000).

Page 56: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

56

Os quinze elementos definidos no Dublin Core Metadata Element Set por, DCMI (2011) são

os seguintes:

• Título – um título dado ao recurso;

• Criador – uma entidade principal responsável pela elaboração do conteúdo do

recurso;

• Assunto – assunto referente ao conteúdo do recurso;

• Descrição – uma descrição sobre o conteúdo do recurso;

• Editor – a instituição responsável pela difusão do recurso;

• Contribuinte – uma entidade responsável pela contribuição ao conteúdo do recurso;

• Data – data associada com um evento no ciclo de vida do recurso;

• Tipo – a natureza ou gênero do conteúdo do recurso;

• Formato – manifestação física ou digital do recurso;

• Identificação – identificação não ambígua do recurso dentro de um dado contexto;

• Fonte – uma referência para outro recurso o qual o presente recurso é derivado;

• Idioma – idioma do conteúdo intelectual do recurso;

• Relação – uma referência a outro recurso que se relaciona com o recurso;

• Cobertura – a extensão ou cobertura espaço-temporal do conteúdo do recurso;

• Direitos – Informações sobre os direitos do recurso e seu uso.

Conforme Breitman (2006, p. 19), o Dublin Core, organizado pelo Dublin Core Metadata

Initiative (DCMI, 2011), é um padrão simples e até certo ponto básico, sendo essa

simplicidade o seu ponto forte por facilitar seu entendimento mesmo por quem não tenha a

experiência de catalogadores, e assim propiciar sua adoção em larga escala. Porém, essa

mesma simplicidade pode ser encarada como seu ponto fraco por não oferecer uma semântica

Page 57: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

57

mais significativa. Em essência priorizou-se a facilidade e visibilidade em detrimento do

poder de expressão semântica.

3.1.2.2 Framework de Warwick

Realizado em abril de 1996 em Warwick, Inglaterra, o Metadata II Workshop propôs ao seu

final um framework com o objetivo de aumentar a interoperabilidade entre os fornecedores de

conteúdo, catálogos e indexadores, e apoiar a descoberta automática de recursos e sistemas de

descrição. Esse padrão se fez necessário para ampliar as possibilidades semânticas do padrão

Dublin Core.

Proposto como uma arquitetura container (vide figura a seguir), ficou conhecido como

Framework de Warwick. Forma um mecanismo que agrega lógica e, em alguns casos

fisicamente, pacotes distintos de metadados. Essa modularização de metadados representou

um aumento de novos elementos, que foram adicionados aos existentes no Dublin Core

(LAGOZE, 1996):

descrições específicas do domínio do documento (objeto);

termos e condições de uso do documento;

rótulos e gradação do documento;

informações de segurança, autenticidade, assinaturas;

origem do fornecedor;

conjunto de containers para documentos compostos e ponteiros para todas as

manifestações, instâncias ou versões do documento;

responsável por armazenar o documento;

conjunto de descritores do Dublin Core no documento;

Page 58: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

58

Figura 4 - Framework de Warwick

Algumas dificuldades foram percebidas, pois, apesar de a arquitetura estar bem delineada, por

exemplo, existe a questão da independência de sintaxe. Cada pacote pode fazer uso de

sintaxes diferentes, o que dá flexibilidade ao modelo mas não garante que os pacotes se

comuniquem. Outro problema está na semântica, já que não existe garantia de que os

conjuntos de metadados não utilizem conceitos com significados diferentes ou dois conceitos

com o mesmo significado. De fato, o Framework de Warwick não foi realmente utilizado pela

comunidade, dando espaço ao surgimento de outro framework que corrigia as deficiências

destacadas. Esse novo framework foi o Resource Description Framework – RDF – que será

tratado no item a seguir.

3.1.2.3 Resource Description Framework (RDF)

O RDF é uma linguagem para a representação de informações na web por meio de metadados

utilizando a linguagem XML (eXtensible Markup Language). Seu padrão, por intermédio do

XML, fornece um modelo de dados e sintaxe para codificar, representar e transmitir dados de

forma a permitir sua compreensão por computadores.

Page 59: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

59

Permite também representar novas gramáticas (metalinguagens) descritas por elementos,

atributos e regras de composição (NOLETO et al., 2004).

Segundo Breitman (2006, p. 20), trata-se de uma implementação do Framework de Warwick

com correções de suas deficiências. Por exemplo, a questão da superposição semântica é

obtida por meio das marcações de namespaces do XML, que definem um conjunto de nomes

de elementos usando prefixos declarados no cabeçalho referenciando uma URI (Universal

Resource Identifier). A URI pode ser um sujeito, objeto ou uma URL (Uniform Resource

Locator), o que serve para determinar de maneira clara um recurso.

A tecnologia RDF tem sua definição detalhada em dois documentos:

Resource Description Framework (RDF) é uma linguagem de uso geral para

representar as informações na web. Esse documento define uma sintaxe XML para

RDF chamada RDF/XML em termos de namespaces em XML, o XML Information

Set e XML Base (W3C, 2004);

Resource Description Framework (RDF) Schema Specification, detalha

como usar RDF para descrever vocabulários RDF. A especificação também define um

vocabulário básico para isso, bem como possibilita a sua expansão para viabilizar

adições futuras no RDF (W3C, 2000).

O modelo básico do RDF é formado por:

recurso (resource): qualquer entidade desde que tenha uma URI;

propriedade (property): é um recurso que tem nome e pode ser usado para determinar

outro recurso, por exemplo, criador e título;

declaração ou valor (statement): corresponde a uma propriedade ou ao seu valor,

relacionada a um recurso determinado.

De acordo com Breitman (2006, p. 22), em RDF frases são escritas com Recurso +

Propriedade + Valor, podendo ser entendidas respectivamente como o sujeito, o predicado e o

objeto de uma frase. Assim em RDF a informação, de uma forma simples, é representada por

uma coleção de frases, todas com o mesmo formato, isto é, sujeito, predicado e objeto.

Por estar baseada na sobreposição de camadas em uma base XML, deseja-se que a cada

camada se obtenha mais expressividade, por estarem em XML, garante-se que mesmo que o

Page 60: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

60

computador que processe o arquivo não possa entender as camadas superiores (RDF, OWL),

conseguirá ao menos processar a parte XML do arquivo.

3.1.2.4 Restrições ao modelo de Metadados da web semântica

Como todo grande projeto, a questão de metadados suscita críticas e restrições, e a web

semântica e seu modelo de metadados não seria uma exceção. Boa parte dessas críticas estão

registradas no documento Metacrap, assinado por Cory Doctorow (DOCTOROW, 2001),

afirmando que “há pelo menos sete obstáculos intransponíveis entre o mundo como nós o

conhecemos e a metautopia”.

Os sete obstáculos citados por Doctorow são:

as pessoas mentem – não se pode esperar que os sites que disponibilizem seus dados

de modo semântico o façam com 100% de honestidade. Em um mundo competitivo,

pode-se esperar que alguns sites tentem atrair mais consumidores manipulando e

mentindo nas informações que disponibilizam. Basta observar os spams que chegam

às caixas de e-mail;

as pessoas são preguiçosas – existe um trabalho de grande responsabilidade de criar

informação; entende-se a importância da criação e manutenção de metadados, ótimo

para a informação. Mas e as pessoas que nem se dão ao trabalho de digitar o assunto

em seus e-mails? Ou que armazenam em seu hard disk arquivos com os nomes

sugeridos pelo seu editor de texto (doc1.txt)?;

as pessoas não são cuidadosas – mesmo quando existem benefícios para a criação de

metadados consistentes, as pessoas não têm cuidado com isso. Basta observar o eBay

ou qualquer outro site de venda – todos os vendedores têm uma boa razão para

verificar os erros ortográficos das suas listas, pois anúncios com erros não vão

aparecer na pesquisa com a grafia correta e, consequentemente, terão menos ofertas e

preços mais baixos de venda. Entretanto, ao pesquisar “Palm” e depois procurar por

“Plam”,no eBay, surgirão muitos anúncios com a grafia incorreta;

missão: impossível – conhecer a si mesmo – Tim Berners-Lee parte da premissa de

que os usuários podem descrever de forma precisa suas atividades e seu domínio.

Entretanto, a prática desmente essa premissa – pois é notório que as pessoas não

Page 61: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

61

conseguem perceber de modo consistente seus próprios comportamentos. Isso vai

desde a estimativa de tempo de um empreiteiro numa reforma passando por um

programador para desenvolver uma rotina chegando a um usuário na descrição de uma

atividade para que ela seja informatizada;

os modelos não serão imparciais – imaginar que haverá neutralidade nos modelos de

metadados é irreal. Sempre haverá algum tipo de influência na sua elaboração. Por

exemplo, em um determinado subdomínio, “máquinas de lavar”, os especialistas

concordam em sub-hierarquias, com classes para a confiabilidade, o consumo de

energia, cor, tamanho etc. Isso pressupõe que há uma forma correta de categorização,

e que as pessoas razoáveis, dado o tempo suficiente e incentivo necessário, aceitarão

um modelo de hierarquia comum. Nada poderia ser mais incorreto. Qualquer

hierarquia de ideias implica necessariamente a importância de alguns itens sobre os

outros.

Um fabricante de pequeno porte de máquinas de lavar com consciência ambiental faria

uma hierarquia parecida com a que segue:

Consumo de energia:

Consumo de água:

Tamanho:

Capacidade:

Confiabilidade:

Enquanto um fabricante que privilegia o design de seus produtos, iria querer algo da

seguinte forma:

Cor:

Tamanho:

Programação:

Confiabilidade:

Page 62: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

62

A ideia de que interesses divergentes em um ambiente competitivo podem chegar a

acordo rápido sobre um vocabulário comum ignora os princípios de organização de

mercado.

métricas influenciam os resultados – a definição de um padrão comum para medir as

coisas importantes em qualquer domínio sofrerá a influência de quem as escolher. Os

definidores tenderão a escolher aspectos que favoreçam seus produtos nas medições

dessas métricas. Há casos envolvendo métricas de audiência, sempre muito discutidas

sobre refletir ou não a realidade, pesquisas de intenção de votos ou de satisfação, que

tendem a favorecer as organizações que as contrataram, benchmark de produtos

eletrônicos etc. Cada player desse domínio tentará influir na escolha dessas métricas;

há mais do que uma forma de descrever algo - isso é um fato, cada indivíduo

interpretará o objeto a partir de sua experiência pessoal anterior, o que por si só já abre

muitas possibilidades de entendimento. Mesmo que se busque um enfoque único e

bem definido, existirão variações e deseja-se que os modeladores tenham o bom senso

de considerar diferentes alternativas antes de se comprometer com a forma final dos

dados.

É verdade que existem imperfeições, mas mesmo assim se deve considerar que:

a) os problemas colocados por Cory Doctorow já existem dentro das organizações,

especialmente quando se fala de processos informatizados. Como no mundo

corporativo, deve-se aprender a conviver com essas falhas e ao longo do tempo buscar

reduzi-las a um nível que não comprometa o todo;

b) como colocado por Breitman (2006, p. 28), não se pode pura e simplesmente jogar

tudo fora. Os metadados são úteis e irão atingir os seus objetivos, mas não se pode

considerá-los como uma solução mágica que irá resolver todos os problemas.

3.1.3 Ontologias

O termo “ontologia” se origina das palavras gregas ontos e logoi, que significam o “estudo da

entidade”; sua aplicação original é na filosofia, com Aristóteles, e está relacionada ao estudo

da existência.

Page 63: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

63

Segundo Brandão et al. (2002, p. 3), o termo ontologia, dentro da comunidade de ciência da

computação, especialmente na área de inteligência artificial, tem a sua primeira referência em

1991 pelo grupo de pesquisa DARPA Knowledge Sharing Effort. Iniciando da proposta de

componentes reutilizáveis de conhecimento como uma maneira de favorecer a elaboração de

sistemas baseados em conhecimento, chegando ao termo ontologia para descrever o que

seriam tais componentes reutilizáveis.

Ainda no âmbito das ciências da computação e da informação, Gruber (2009) define ontologia

como um conjunto de primitivas que representam um modelo de domínio do conhecimento ou

do discurso. As primitivas de representação são tipicamente classes (ou conjuntos), atributos

(ou propriedades), e das relações (ou relações entre os membros da classe). As definições das

primitivas de representação incluem informações sobre o seu significado e as restrições à sua

aplicação de forma lógica e consistente.

Como colocado por Breitman (2006, p. 30), o consórcio W3C define que ontologias devem

atender descrições para os seguintes conceitos:

classes (ou “coisas”) nos seus domínios de interesse;

relacionamentos entre tais “coisas”;

propriedades ou atributos que essas “coisas” devem possuir.

Cita também a definição de Gruber que diz: “Ontologia é uma especificação formal e

explícita de uma conceitualização compartilhada”, detalhando o significado das palavras

chaves dentro dessa definição da seguinte forma:

conceitualização: representa um modelo abstrato de algum fenômeno que identifica

os conceitos relevantes para o mesmo;

explícita: demonstra que os elementos e suas restrições estão claramente definidos;

formal: deixa claro que a ontologia deve ser passível de processamento automático;

compartilhada: mostra a noção de que uma ontologia captura conhecimento

consensual, aceito por um grupo.

A partir das definições colocadas, nota-se, em primeiro lugar, como mencionado por Viana et

al. (2007), que surgiram muitas definições sobre ontologias sem que se tenha chegado a um

consenso sobre esse termo dentro da ciência da computação. Em segundo lugar, fica clara a

Page 64: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

64

importância das ontologias para a web semântica, dada a necessidade de busca ou a

combinação e integração de dados oriundos de diversas comunidades, no caso da web, dos

diversos sites.

Nessa linha, Brandão et al. (2002, p. 4) afirmam que as ontologias podem representar a

semântica dos documentos e permitir que ela seja utilizada por aplicações web e por agentes

de software, deixando as aplicações mais inteligentes no sentido de considerar uma

capacidade maior de processamento de tarefas em um nível conceitual mais elevado,

preenchendo o espaço entre a representação sintática da informação e sua conceitualização.

Apesar de dito no contexto mais restrito da gestão de compras governamentais eletrônicas,

pode-se generalizar a afirmação de Viana et al., quando dizem que:

(...) Conclui-se afirmando que a construção de ontologias é uma alternativa

tecnológica para a interoperabilidade dos sistemas de informação, podendo

favorecer a nova organização do trabalho colaborativo... (VIANA et al., 2007).

3.1.3.1 Classificações

De acordo com Breitman (2006), as ontologias podem ser classificadas de diversas formas:

a) Conforme seu espectro semântico

Esta é uma proposta de Ora Lassila e Debora McGuines, baseada na estrutura interna e no

conteúdo das ontologias, sendo dispostas da leve até a mais pesada, variando de catálogos de

termos informais a sofisticadas ontologias que se alteram dependendo do nível de

formalização e expressividade.

Lig

htw

eight

(lev

es) Vocabulários controlados Listas finitas de termos

Glossários Listas de termos cujo significado é descrito em

linguagem natural. O formato de um glossário é

próximo a um dicionário e os termos são

organizados em ordem alfabética, seguidas pelas

respectivas definições.

Page 65: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

65

Tesauros Listas de termos e definições que padronizam

palavras para indexação. Além de definições, um

tesauro fornece também as relações entre os

termos hierárquico, associativo, ou equivalência

(sinônimos).

Hierarquias tipo-de informais São hierarquias que usam relações de

generalização (tipo de) em uma direção

informal. Nesse tipo de hierarquia, conceitos

relacionados podem ser agregados em categorias

mesmo se eles não respeitam o relacionamento

de generalização.

Hea

vyw

eight

(pes

adas)

Hierarquias tipo-de formais São hierarquias que respeitam plenamente o

relacionamento de generalização.

Frames São modelos que incluem classes e propriedades.

As primitivas do modelo são classes (ou frames),

que apresentam propriedades (ou atributos). São

largamente usadas na modelagem do

conhecimento.

Ontologias que expressam restrição de

valor

São ontologias que fornecem construções para

restringirem os valores que suas classes podem

assumir.

Ontologias que expressam restrição lógica São ontologias que permitem restrições lógicas

de primeira ordem para serem expressas.

Tabela 2 - Classificação de Ontologias segundo seu espectro semântico

b) Conforme sua generalidade

Guarino (1998, p. 7) propõe uma classificação a partir da generalidade da ontologia,

identificando-as das seguintes formas:

Ontologia de nível superior

(top-level ontology)

Descrevem conceitos genéricos, tais como espaço, tempo e eventos.

Em geral, independem do domínio e podem ser reutilizadas na

construção de novas ontologias.

Ontologias de domínio

(domain ontology)

Descrevem vocabulário relacionado a domínio genérico, por meio das

especificações de conceitos definidos em ontologias de alto nível.

Page 66: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

66

Ontologias de tarefas

(task ontology)

Descrevem vocabulário relacionado a uma tarefa ou a uma atividade

genérica, por meio da especialização de conceitos definidos nas

ontologias de alto nível.

Ontologias de aplicação

(application ontology)

Descrevem vocabulário de uma aplicação específica. Esse tipo de

ontologia especializa conceitos tanto das ontologias de domínio

quanto de tarefas.

Tabela 3 - Classificação de ontologias quanto à generalidade

Figura 5 - Classificação de ontologias (Fonte: GUARINO, 1998, p. 7)

c) Conforme o tipo de informação que representam

Assunción Gómez-Pérez, Mariano Fernández-López e Oscar Corcho, (apud BREITMAN,

2006, p. 40), propõem uma classificação a partir do tipo de informação representada por uma

ontologia, identificando tipos conforme quadro abaixo:

Ontologias de representação do

conhecimento

Modelagem de elementos primitivos dos modelos de

representação do conhecimento. Fornecem representações

baseadas em classes, subclasses, atributos, axiomas.

Ontologias genéricas e de uso comum Representam o conhecimento comum que pode ser

utilizado em diferentes domínios. Em geral, incluem

vocabulário que relaciona classes, eventos, espaço, entre

outros conceitos.

Super ontologias Descrevem conceitos gerais

Page 67: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

67

Ontologias de domínio Fornecem conceitos que podem ser reutilizados dentro de

um domínio específico (biológico, jurídico, entre outros).

Ontologias de tarefas Detalham o vocabulário relacionado a uma tarefa ou

atividade.

Ontologias de domínio-tarefa Tratam-se de ontologias de tarefas que podem ser

reutilizadas em um domínio específico, porém, não podem

ser reutilizadas genericamente em domínio similares.

Ontologias de métodos Fornecem definições para conceitos e relacionamentos

relevantes para um processo.

Ontologias de aplicação Contêm todos os conceitos necessários para modelar uma

aplicação. É usada para especializar e estender ontologias

de domínio ou de tarefa para uma aplicação específica.

Tabela 4 - Classificação de ontologias quanto ao tipo de informação que representam.

3.1.3.2 Linguagens para representar ontologias

Ao longo dos últimos anos, uma série de linguagens foram desenvolvidas para a criação de

ontologias, podendo citar o KIF (Knowledge Interchange Format) e a Ontolíngua, baseada em

LISP e implementada como uma camada sobre o KIF. Com a expansão da Internet surgiram

outras linguagens mais leves, do tipo mark-up como o HTML, XML e RDF. Em 2000, em

Conferência de XML, Tim Berners-Lee propôs uma arquitetura visando construir

gradativamente novas camadas sobre as já existentes, partindo da premissa de que seria mais

fácil obter consenso em modificações menores do que em mudanças maiores ou radicais

(figura 5).

Page 68: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

68

Figura 6 - Estrutura interrelacionada de tecnologias da web semântica

Fonte: http://www.w3.org/2001/Talks/0228-tbl/slide5-0.html

Nesse modelo, a primeira camada é o HTML, criada para uso por seres humanos,

complementada com o XML, usado para estruturar textos e troca de documentos na web por

facilitar a interoperabilidade entre sistemas de informação.

A segunda camada é composta pelo RDF e RDF-Schema, que são hoje as fundações da web

semântica. A partir delas, ao longo do tempo foram propostas outras linguagens para

representar ontologias, como o SHOE, Oil, DAML, DAML+Oil e OWL.

3.1.3.2.1 RDF e RDF-Schema

O RDF (Resource Description Framework), apresentado no item 3.1.2.3, em sua estrutura

oferece uma quantidade limitada de elementos pré-definidos. Assim, foi necessário ampliá-lo

para permitir a expansão de seu vocabulário a fim de que novas classes e propriedades

particulares ao seu domínio fossem desenvolvidas, surgindo o RDF-Schema (W3C, 2004).

Ele não provê exatamente as classes e propriedades, mas sim um framework onde é possível

descrevê-las.

Page 69: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

69

Classes essenciais do RDF-Schema

rdfs:Resource A classe de todos os recursos

rdfs:Class A classe de todas as classes

rdfs:Literal A classe de todos os literais (cadeia de caracteres)

rdfs:Property A classe de todas as propriedades

rdfs: Statement A classe de todas as sentenças reificadas

Para definir relacionamentos

rdfs:subClassof Define um relacionamento de herança entre duas classes

rdfs:subPropertyf Define um relacionamento de herança entre duas propriedades

rdfs:type Define o relacionamento de um recurso a sua classe

Para permitir que definições de vocabulários se encontrem em outros lugares na web

rdfs:seeAlso Relaciona um recurso a outro que contém definição para o primeiro

rdfs:isDefinedBy Subpropriedade de rdfs:seeAlso e relaciona um recurso a um local onde sua

definição se encontra, em geral um RDF-Schema.

Para permitir que a informação seja mais bem compreendida por leitores humanos

rdfs:comment Comentários textuais associados a um recurso

rdfs:label Atribui uma etiqueta ou nome a um recurso

Para determinar restrições

rdfs:domain Determina o domínio de uma propriedade

rdfs:range Determina o alcance de uma propriedade

Tabela 5 - Classes / primitivas do RDF-schema

O RDF-Schema é utilizado junto com o RDF, podendo ser considerado um tipo de dicionário

legível por computadores. Ao uso conjunto das duas representações dá-se o nome de RDFS.

O RDFS recebe críticas como linguagem de ontologias por sua falta de expressividade, pois

conceitos lógicos como negação, disjunção e conjunção não estão disponíveis em RDF. Para

se conseguir a expressividade requerida pela web semântica foi preciso criar uma camada de

ontologia sobre a camada RDFS. Nos itens seguintes são descritas resumidamente as

propostas de linguagens para essa camada.

Page 70: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

70

3.1.3.2.2 SHOE

O SHOE (Simple HTML Ontology Extension) (University of Maryland , 2010), um projeto da

Universidade de Maryland em College Park, é uma extensão para HTML que permite aos

autores de páginas web inserir em seus documentos, por meio de tags não exibidas pelos

browsers, informações sobre o seu conteúdo para serem lidos por agentes de software

possibilitando pesquisas semânticas.

É menos expressivo que o RDF, e além de apresentar dificuldades para sua manutenção, foi

descontinuado, e seus pesquisadores adotaram as linguagens DAML+OIL e OWL. A página

sobre essa linguagem é mantida ativa pela Universidade de Maryland e pode ser visitada em

http://www.cs.umd.edu/projects/plus/SHOE (BREITMAN, 2006 p. 54).

3.1.3.2.3 OIL

A linguagem OIL (Ontology Inference Layer) nasceu sob os auspícios de um consórcio da

Comunidade Europeia por meio do projeto On-to-Knowledge, em razão da necessidade de

uma linguagem que possibilitasse a modelagem de ontologias na Web corrigindo deficiências

do RDF.

Segundo Fensel et al., (2001, p. 8) a linguagem OIL se sobrepõe tecnologicamente às

linguagens existentes até aquele momento por oferecer ao mesmo tempo:

sistemas baseados em Frame, fornecendo primitivas de modelagem epistemológicas;

lógica de descrição, fornecendo semântica formal e suporte à inferência;

padrões web: XML e RDF, sendo baseada nessas sintaxes.

Gómez-Pérez, citado em Breitman, define OIL como:

Uma linguagem baseada em frames que utilizam lógica de descrição para fornecer

uma semântica clara, ao mesmo tempo em que permitem implementações eficientes

de mecanismos de inferência que garantam a consistência da linguagem.

(BREITMAN, 2006, p. 55)

Page 71: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

71

Sendo estruturada em uma série de camadas onde cada camada adiciona funcionalidades e

complexidade ao nível anterior, de tal forma que os agentes (humanos ou computadores) que

conseguem processar uma camada inferior podem ao menos compreender parcialmente

ontologias expressas em qualquer das camadas superiores. Uma primeira e importante

aplicação desse princípio é a relação entre OIL e RDF-Schema, conforme mostrado na figura

a seguir:

Figura 7 - Camadas da Linguagem OIL (Fonte: FENSEL, et al., 2001, p. 10)

A arquitetura em camadas de OIL possui três vantagens principais:

um aplicativo não precisa usar uma linguagem que oferece mais expressividade e

complexidade do que o necessário;

a aplicação que pode processar apenas um nível de menor complexidade ainda

consegue capturar aspectos da ontologia;

a aplicação que conseguem compreender um nível maior de complexidade também

pode entender ontologias expressas em uma linguagem mais simples.

Fensel et al. (2001, p. 11) ilustram isso no exemplo abaixo, definindo herbívoro como uma

classe, que é uma subclasse de animal, porém, separados de todos os carnívoros:

Page 72: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

72

Uma aplicação limitada ao RDFS puro irá compreender apenas alguns aspectos dessa

definição:

Muitos aspectos e características de OIL foram incorporados a OWL como se verá mais

adiante.

3.1.3.2.4 DAML

Criada pelo Defense Advanced Research Projects Agency (DARPA), na mesma época em que

a OIL era desenvolvida pelo Consórcio Europeu, a DAML (DARPA Agent Markup

Language), extensão do RDF, objetiva permitir uma melhor interação de agentes de software.

Em outubro de 2000, foi divulgada a primeira especificação dessa linguagem de ontologias

chamada de DAML-ONT.

Herdando aspectos e características de OIL, pode-se afirmar que ambas apresentam

funcionalidades relativamente similares. A tabela a seguir (BREITMAN, 2006, p. 58) resume

as diferenças entre DAML e OIL.

Page 73: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

73

Similaridades Diferenças

Oferecem suporte a hierarquias de conceitos e

propriedades, baseadas nos relacionamentos de

subclasse e subpropriedade.

A OIL oferece melhor compatibilidade RDF-

Schema do que DAML.

Permitem que conceitos sejam construídos a

partir de outros conceitos, utilizando

combinações dos conectivos OR, AND e NOT.

A OIL foi projetada de modo a permitir a

inferência de modo completo e eficiente.

Algumas construções em DAML fazem com

que a inferência se torne impossível.

Permitem que sejam definidos o domínio, o

escopo e a cardinalidade das propriedades que

vão compor as restrições dos conceitos.

Em OIL pode-se explicitar condições que sejam

suficientes ou necessárias e suficientes. A última

opção permite a classificação automática de

conceitos.

Oferecem propriedades transitivas e inversas DAML permite a especificação de valores

default, ou seja, valores que serão inicializados

se nenhum outro for definido pelo modelador da

ontologia. A OIL, no entanto, não permite a

utilização de valores default, pois não existe

uma semântica formal clara para tratá-los.

Oferecem apoio a tipos de dados concretos

(inteiros, cadeias, etc.)

Tabela 6 - Comparação entre as Linguagens OIL e DAML.

3.1.3.2.5 DAML + OIL

Criada em dezembro de 2000 a partir da combinação das linguagens DAML e OIL, substituiu

a DAML ONT, sendo dividida em duas partes para permitir a implementação de mecanismos

de inferência.

A primeira parte se refere ao domínio de objetos, consistindo nos objetos que são membros de

classes definidas na ontologia DAML, e a segunda parte, domínio de tipos de dados, trata dos

valores importados do modelo XML. DAML é composta por:

elementos de classe – associam uma classe a sua definição;

expressões de classe – são as formas possíveis de referenciar uma classe;

propriedades – associa uma propriedade a sua definição.

Page 74: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

74

3.1.3.2.6 OWL

Conforme explicitado em W3C (2009), a linguagem OWL (Ontology Web Language) foi

desenhada para ser usada por aplicações que precisem processar o conteúdo da informação e

não apenas apresentá-las aos seres humanos, sendo uma revisão da DAML+OIL,

incorporando melhorias necessárias a ela, sendo atualmente uma recomendação do W3C.

Pode ser utilizada para representar explicitamente o significado dos termos em vocabulários e

os relacionamentos entre os termos, definindo uma ontologia. Além disso, possui mais

facilidades do que o XML, RDF e RDF-S para expressar o significado e a semântica,

possibilitando maior compreensão do conteúdo WEB pelos computadores, já que adiciona mais

vocabulário para descrever propriedades e classes, tais como relações entre classes (e.g.,

disjointness), cardinalidade (e.g., exactly one), características de propriedades (e.g., simétrica).

Conforme Breitman (2006, p. 59), a OWL foi projetada para atender as necessidades das

aplicações da web semântica, podendo ser resumidas da seguinte maneira:

Construção de ontologias:

o criar uma ontologia;

o explicitar conceitos fornecendo informações sobre os mesmos;

o explicitar propriedades fornecendo informações sobre os mesmos.

Explicitar fatos sobre um determinado domínio:

o fornecer informações sobre indivíduos que fazem parte do domínio em

questão;

Racionalizar sobre ontologias e fatos:

o determinar as consequências do que foi construído e explicitado.

Segundo Palazzi (2010, p. 14), a OWL disponibiliza três sublinguagens projetadas para uso

por implementadores e usuários:

• OWL Lite: oferece suporte aos usuários que precisem de uma hierarquia de

classificação e restrições simples. Por exemplo, enquanto o OWL Lite suporta

restrições de cardinalidade, ele somente permite 0 ou 1 como valores de cardinalidade.

Dessa forma, é mais simples criar ferramentas que suportam o OWL Lite do que em

outras sublinguagens. Além disso, fornece um caminho mais curto de migração para o

tesauro e outras taxonomias.

Page 75: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

75

• OWL DL: oferece suporte aos usuários que necessitem do máximo de expressividade

sem perder a completude computacional (todas as conclusões são garantidas de serem

processadas) e capacidade de decisão (todos os processamentos serão finalizados em

um tempo finito) dos sistemas de raciocínio. O OWL DL inclui todos os construtores

da linguagem OWL com restrições como separação entre tipos (uma classe não pode

ser ao mesmo tempo um indivíduo ou tipo, e uma propriedade não pode ser ao mesmo

tempo um indivíduo ou uma classe). OWL DL tem esse nome devido a sua

correspondência à Lógica de Descrição (Description Logic), um campo de pesquisa

que tem estudado as lógicas que formam a base formal da OWL.

• OWL Full: é importante para os usuários que desejam o máximo de expressividade e a

liberdade sintática do RDF, sem nenhuma garantia computacional. Por exemplo, em

OWL Full, uma classe pode ser tratada simultaneamente como uma coleção de

indivíduos ou, simplesmente, um indivíduo. O OWL Full permite uma ontologia

aumentar o significado de um vocabulário predefinido (RDF ou OWL). É improvável

que todo software de raciocínio seja capaz de suportar todas as características do OWL

Full.

3.1.3.3 Principais metodologias de desenvolvimento de ontologias

Conforme Brandão et al. (2002, p. 5), com a Engenharia de Ontologias dando os seus passos

iniciais, ainda não existem metodologias para desenvolvimento de ontologias que sejam mais

usadas e aceitas de forma consensual pela comunidade científica, existindo sim, propostas de

metodologias – algumas mais testadas que outras. Citando a primeira referência ao termo

Engenharia de Ontologias por Mizoguchi e Ikeda, e ao desenvolvimento de propostas como a

Enterprise Ontology, o projeto TOVE (TOronto Virtual Enterprise), projeto Esprit KACTUS

(para o domínio de circuitos elétricos) e o Projeto METHONTOLOGY (um framework para

construção de ontologias), concluem que apesar das várias tentativas em se criar

metodologias, a prática demonstra que a maior parte dos grupos pesquisadores cria o seu

próprio método de desenvolvimento, conforme as características da aplicação que pretende

desenvolver usando a ontologia. Registra-se, porém, que em 2005 foi elaborada a norma

ANSI/NISO Z39.19 – Guidelines for the Construction, Format, and Management of

Monolingual Controlled Vocabularies, que contribui para o estabelecimento de consenso

sobre a questão.

Page 76: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

76

A seguir são comparadas as metodologias Cyc, Gruninger e Fox, Uschold e King, Kactus,

Methontology, Método 101 e a norma ANSI/NISO Z39.19, a partir de quadro extraído de Silva

et al. (2008, p. 4).

Tabela 7 - Metodologias, métodos e norma frente às categorias de análise predefinidas

Page 77: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

77

3.1.3.4 Principais ontologias

Neste tópico são resumidas as principais ontologias públicas, iniciando pelas ontologias de

topo ou upper ontologies, como a Sumo, KR e Cyc, passando por ontologias linguísticas

como a WordNet, chegando às ontologias de domínio, considerando o contido em Breitman

(2006):

Nome Origem / Projeto Principais Características

SUMO (Suggested Upper Merged

Ontology)

Proposta pelo Standard Upper

Ontology (SUO) Working Group da

IEE e desenvolvida pela Teknowledge

Corporation

Ontologia de Topo, que é uma

iniciativa de software livre e

objetiva a construção de um

padrão público a ser

disponibilizado livremente pela

Internet.

Ontologia KR (Knowledge

representation ontology)

Proposta por John Sowa Ontologia de Topo, John Sowa se

baseou nas distinções por alguns

filósofos, em particular a

semiótica de Peirce e as categorias

de existência enumeradas por

Whitehead.

Cyc Desenvolvimento e propriedade

Cycorp

Talvez seja o maior investimento

já realizado para a criação de uma

ontologia de topo com a maior

amplitude possível. Tem a

intenção de acomodar todo o

conhecimento humano. O Cyc ao

contrário do SUMO é proprietário

e de acesso limitado / restrito.

WordNet Universidade de Princeton sob a

coordenação do pesquisador George

Miller.

É um banco de dados léxico que

possui os prováveis significados

de mais de 120 mil palavras

inglesas. Objetiva prover uma

base léxica on line para ser

utilizada por computadores.

GUM (Generalized Upper Model) Information Sciences Institute (EUA),

GMD (Alemanha) e CNR (Itália)

Ontologia linguística ligada à

semântica dos elementos da

gramática. De maneira contrária

ao WordNet, que provê a

Page 78: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

78

semântica dos termos, a GUM

descreve a semântica de

construtos gramaticais do tipo

frases.

SENSUS Grupo ISI

Ontologia de termos usados

comumente em linguagem natural.

Contém mais de 70 mil termos. A

parte superior da ontologia contém

cerca de 400 termos, referenciados

como a Base da ontologia, tendo

como fontes de sua construção,

essencialmente em meio

eletrônico, incluso o WordNet.

EDR (Electronic Dictionary

Research)

Electronic Dictionary Research and

Development Group

http://www.edrdg.org/

Projeto Japonês, com um

dicionário com mais de 400 mil

conceitos para termos em inglês e

japonês. Apesar da quantidade

elevada, não fornece tantos

detalhes para os conceitos

individualmente.

Euro WordNet The Global WordNet Association

http://www.illc.uva.nl/EuroWordNet/

É uma base de dados com

WordNets para várias línguas

europeias, estruturadas da mesma

forma que o WordNet da

Universidade de Princeton. Está

disponível para as línguas

portuguesa, sueca, grega,

dinamarquesa, basca, catalã,

romena, lituana, russa, búlgara e

eslovaca.

Projeto Open Directory (ODP) Open Directory Project

http://dmoz.org/

É um projeto público que adota o

trabalho de voluntários do mundo

todo e objetiva a construção de um

enorme tesauro de termos

codificados em RDF. Conta com

mais de 8 mil termos cadastrados

e tem como usuários muitos sites

de busca, e.g., o Google.

NAICS (North American Industry

Classification System)

Census Office dos EUA em

colaboração com entidades do

Classifica produtos e serviços de

modo geral. Desenvolvido com

Page 79: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

79

Canadá e México base na Standard Industrial

Classification (SIC), sobre os

setores: agricultura, mineração,

construção, serviços de utilidade

pública, atacado e varejo,

acomodações e alimentação,

finanças, imobiliário entre outros.

GALEN OpenGALEN Representa uma terminologia

clínica. Desenvolvida para

especificar restrições usadas em

domínios médicos. Busca atender

as demandas de integração e re-

uso de informações de pacientes,

transmissão de dados e a

padronização para atender a

elaboração de estatísticas na área

da saúde.

FOAF (Friend Of A Friend) The Friend Of A Friend Project

http://www.foaf-project.org/

Busca compartilhar informação

pessoal e sobre pessoas

conhecidas. Cada fato é descrito

por meio de triplas em RDF.

Tabela 8 - Tabela das principais ontologias

3.1.3.5 Ferramentas de apoio ao desenvolvimento de ontologias

Atualmente existe uma série de ferramentas disponíveis no mercado aplicáveis à web

semântica, que segundo Breitman (2006, p. 168) podem ser classificadas em três categorias

principais: editores de ontologias, metadados e ferramentas de visualização ou mecanismos de

inferência.

Os mecanismos de inferência podem derivar novos fatos ou associações a partir das

informações disponíveis. Além disso, acredita-se que possam emular a forma como os

humanos pensam e assim chegar a conclusões, implementando inteligência artificial, o que é

incorreto, pois apenas usam estratégias conhecidas de processamento de dados. Outro ponto

relevante é que as inferências serão tão boas quanto as informações disponíveis, o que no caso

da web semântica será limitada apenas às classes e associações possíveis de serem descritas

nos modelos OWL ou RDF. Como exemplo dessa categoria pode-se citar FaCT.

Page 80: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

80

Apesar de existir um bom número de ferramentas, como o SAMBO – System for Aligning and

Merging Bio-Ontologies (ABDULAHAD et al., 2004), Pellet (http://pellet.owldl.com) etc.,

segue abaixo tabela com resumo das ferramentas consideradas principais em Breitman (2006):

Nome Origem / Projeto Principais Características

C&L Depto. de Informática da PUC-RJ Ferramenta de apoio à Engenharia de requisitos

com o objetivo principal da edição de Cenários e

LAL (Léxico Ampliado da Linguagem). Projeto

desenvolvido com a filosofia de software livre.

OilEd University of Manchester

(Inglaterra)

*link conhecido estava inativo em

08/03/2011.

OilEd não pretende ser um ambiente completo para

desenvolvimento de ontologias em larga escala. Ele

é projetado para ser o “Bloco de Notas” dos editores

de ontologia, mais adequado ao aprendizado,

facilitando o uso e estimulando o interesse. Não

disponibiliza um ambiente completo, não

suportando migração, integração, versionamento,

argumentação, entre outras tarefas envolvidas no

processo de construção de uma ontologia.

OilEd - OilViz University of Manchester

(Inglaterra)

É um visualizador de hierarquias de classes que

pode ser incorporado ao OilEd, como opção ao

visualizador padrão do editor. Mostra a hierarquia

em forma de árvore.

FaCT University of Manchester

(Inglaterra)

É um mecanismo de inferência que verifica a

consistência de ontologias elaboradas com OilEd

por meio do mapeamento das ontologias para uma

linguagem de lógica de descrição. Suas

funcionalidades incluem detecção de

inconsistências e identificação automática de

relacionamentos taxonômicos.

Protégé 2000 Stanford University

http://protege.stanford.edu/

É um ambiente para criação de ontologias e bases

de conhecimento. Desenvolvido em Java e no

conceito de software livre, possibilita a criação de

ontologias de domínio, formulários de entrada de

dados e mecanismos de inserção de dados. Sua

arquitetura aberta possibilita que sejam

desenvolvidos livremente plugins que aumentam

suas funcionalidades, estando disponíveis plugins

para OWL e mecanismo de inferência RACER.

OntoViz Stanford University É um dos plugins disponíveis para visualização de

Page 81: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

81

http://protege.stanford.edu/ ontologias a partir do Protégé, possibilitando a

visualização de partes especificas da ontologia de

cada vez. Existem também a TGViz, Jambalaya e

PROMPTViz.

Editor de

Metadados

DC.dot

UKOLN

http://www.ukoln.ac.uk/metadata/dcdot/

É uma ferramenta que utiliza páginas como

marcação HTML como entrada, gerando uma

sugestão de marcação de Metadados descritos no

padrão Dublin Core. Basicamente identifica

informações sobre o autor, data de criação, assunto

e linguagem do conteúdo da página

Tabela 9 - Principais ferramentas para o desenvolvimento de ontologias

3.1.3.6 Agentes de software

Agentes de software são porções de software responsáveis por coordenar tarefas de busca,

comparação e negociação na web, encontrando alternativas possíveis para atender às

necessidades dos usuários e então as oferecendo para que os usuários tomem suas decisões.

Em Breitman (2006, p. 154), são colocadas algumas definições convergentes sobre o tema

que seguem abaixo:

a) Segundo o Laboratório de Agentes de Software do MIT, os agentes são diferentes do

software convencional, pois são:

semi-autônomos;

proativos;

adaptativos;

duram mais;

comportam-se mais como um assistente do que como uma ferramenta.

b) Grigori Antoniu e Frank Harmelen definem da seguinte forma:

Agentes são porções de software que trabalham de forma autônoma e proativa. Um

Agente pessoal na web semântica vai receber uma lista de tarefas e preferências de

uma pessoa, procurar recursos na rede, comunicar-se com outros agentes, comparar

informações, selecionar algumas opções e apresentar uma lista de soluções para o

usuário.

Page 82: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

82

c) James Hendler em seu artigo “Agentes na web semântica”, compara agentes de software e

agentes de viagens (humanos) da seguinte forma: “Em vez de fazer tudo para os usuários, os

agentes (de software) vão achar maneiras possíveis de atender às suas necessidades, e então

oferecer as opções ao usuário.”

d) Conforme Berners-Lee (2001, p. 35 a 43), os agentes de software serão os responsáveis por

coordenar tarefas de buscas, comparação e negociação na rede, reduzindo enormemente o

esforço realizado pelos usuários. É importante ressaltar que os agentes da web semântica não

agirão de forma autônoma, farão a parte mais “pesada” das investigações apresentando os

resultados para que o usuário tome suas decisões. Em seu artigo de 2001 na Scientific

American, exemplifica num caso hipotético em que a mãe de duas pessoas, Lucy e Pete,

precisa realizar tratamento médico e, a partir da declaração dessa necessidade, o “agente” de

Lucy busca alternativas considerando as premissas determinadas. A figura abaixo ilustra o

fluxo de funcionamento de agentes de software e como interagiriam com outros sistemas de

software e com seres humanos.

Figura 8 - Fluxo de trabalho de agente de software (Fonte: BERNERS-LEE et al., 2001)

Page 83: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

83

Outro ponto ressaltado por Breitman (2006, p. 154) é quanto à combinação de características

para determinar um agente de software, não sendo necessário que todas as características

estejam presentes, afirmando também que o conjunto de propriedades do agente deve ser

determinado em razão das tarefas que irá executar. A tabela abaixo mostra os tipos de agentes

conforme a OMG – Object Management Group (http://www.omg.org/):

Tipo Descrição

Autônomo Quando independe de controles externos. Vale registrar que essa autonomia é caracterizada

por uma escala gradativa e não apenas por estar presente ou não. A autonomia é

considerada pela FIPA (Foundation for Intelligent Physical Agents) e OMG como

característica essencial de agentes.

Interativos Quando podem se comunicar com o ambiente e outras entidades. Como a Autonomia,

também é um atributo caracterizado por uma escala gradativa, sendo também considerado

pela FIPA e OMG como característica essencial de agentes.

Adaptativos Quando são capazes de responder a outros agentes e a seu ambiente em determinado grau.

Também é considerado atributo essencial de agentes pela FIPA e OMG, no mínimo deve

conseguir reagir a um estímulo simples. Formas mais avançadas envolvem o aprendizado e

evolução.

Móveis Quando conseguem transportar seu próprio código para outros computadores ao fim de sua

execução. Justifica-se pelo ganho de desempenho que pode gerar ao estar mais próximo

dos recursos que irá consumir. Não é uma característica essencial de agentes.

Coordenados São capazes de cooperar com outros agentes para atingir objetivos. Atividades complexas,

tais como a resolução de problemas, fornecimento de insumos e linhas de montagens são

possíveis somente pela coordenação de múltiplas tarefas.

Tabela 10 - Tipos de agentes conforme a OMG Object Management Group

Os principais agentes e suas características estão listados na tabela que segue:

Nome Origem / Projeto Principais Características

CATO (Componente

para alinhamento

Taxônomico de

ontologias)

Departamento de Informática da

PUC - RJ

Ferramenta para alinhamento de ontologias em

OWL. Desenvolvido a partir da visão que a WS

será composta por aplicações com ontologias

parciais e respectivas contextualizações.

(FELICISSIMO, 2004)

API Jena HP Labs Semantic

http://jena.sourceforge.net/

É um framework Java para a construção de

aplicações web semântica. Fornecendo um

ambiente de programação para RDF, RDFS e

OWL, SPARQL, inclui um engine de inferência.

É open source e nasceu no HP Labs Semantic.

Embora nem todos a considerem como um

agente, pois sua aplicação mais usual é no

desenvolvimento de agentes.

Serviços Web

semânticos

Semantic Web Services Initiative

(SWSI)

http://www.swsi.org/

Trata-se de estender a capacidade dos serviços

web tradicionais por meio de descrições

semânticas a fim de se obter uma maior

capacidade de expressão na sua definição,

descoberta, seleção, monitoramento,

interoperabilidade e acesso.

Tabela 11 - Principais agentes

Page 84: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

84

3.1.4 Aplicações da web semântica

Na tabela seguinte são apresentadas algumas aplicações que utilizam conceitos de web

semântica, que já estão disponíveis na Internet mesmo que em estágio de protótipo.

Nome Origem / Projeto Principais Características

Sandbox Correlator Yahoo Research Busca dentro dos documentos, nomes, datas e locais,

localizando grupos de sentenças de interesse e as relaciona com

uma “virtual Wikipedia page” criada “on the fly”, apresentando

os resultados da pesquisa de uma maneira diferente dos outros

buscadores, criando uma página resumida o que permite um

melhor compreensão visual do resultado. Por exemplo, uma

pesquisa “Jogos Olímpicos Tênis”. Percebe que é uma consulta

que envolve dois conceitos “Jogos Olímpicos” e “Tênis” dando

um resumo dos dois conceitos separadamente e depois apresenta

os resultados dos dois conceitos combinados.

PowerSet / Bing PowerSet Empresa com proposta de solução web semântica para motor de

busca que foi comprada em 2008 pela Microsoft e incorporada

como uma divisão do BING.

Google Wave Google Não é uma aplicação especifica de processamento de arquivos

nos modelos RDF, OWL ou RDFS, e sim uma ferramenta para

disponibilizar informações em tempo real e possibilitar o

compartilhamento de diversas mídias como fotos, mapas, texto,

aplicações do tipo plugin, vídeos e interações com agentes. O

lado poderoso dessa ferramenta é a possibilidade de criação de

agentes que podem auxiliar no desenvolvimento de programas

web semânticos. (FONTES, 2009, p. 78)

Swoogle University of

Maryland,

Baltimore County

http://swoogle.umbc

.edu/

Motor de busca que descobre, analisa e indexa conhecimento

codificado em documentos de web semântica. Fornece acesso a

esses dados que ajudam a humanos e computadores a achar

documentos relevantes, termos, triplas. Prevê algoritmo

inspirado no Google PageRank, porém adaptado a semântica e

padrões utilizados em documentos da web semântica. Tem sido

utilizado em vários projetos para manter e gerenciar dados em

RDF.

Tabela 12 - Aplicações da web semântica

Page 85: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

85

3.2 A QUESTÃO DOS MECANISMOS DE BUSCAS

Quando se aborda a questão de otimização para os sites de buscas neste trabalho, pretende-se

com isso indicar caminhos para que o portal proposto tenha o melhor posicionamento possível

junto aos buscadores e assim obtenha melhor visibilidade, alcançando o maior número

possível de pessoas com ações de cunho técnico, dentro do escopo em discussão. Não serão

abordadas ações off-page, que envolvem ações de relações públicas até links patrocinados, por

estarem dentro de um escopo mais adequado ao estudo de questões de marketing e outras

ciências humanas correlatas.

Isto posto, o foco será em SEO (Search Engine Optimization), por tratar das técnicas que

considera aspectos de otimização on-page envolvendo conteúdos, códigos e estrutura do

website.

Sobre otimizações on-page Gabriel (2009), considera pontos que seguem como principais, e

eles serão o tema dos próximos itens:

código da página;

conteúdos da página;

estrutura da página e site.

3.2.1 Código da página

Dentro dos códigos HMTL, xHTML e linguagens de scripts que possam ter sido utilizadas,

existem vários fatores que influem no posicionamento ou ranking obtidos nos resultados dos

mecanismos de buscas.

3.2.1.1 Endereço da página (URL)

Observa-se se existem palavras-chaves no meio da URL da página; para os mecanismos de

buscas isso aumenta a relevância da palavra-chave, oferecendo vantagens no retorno das

Page 86: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

86

buscas. Por exemplo, a palavra chave “pesca” pode ter maior relevância para a URL

www.pesca-submarina.com.br do que para www.clubesubmarino.com.br.

Outro ponto relevante é a profundidade da URL e o uso de parâmetros. Buscadores indexam

até quatro níveis de profundidade e no máximo dois parâmetros. Uma boa URL pode ser:

www.ibm.com.br/clientes/sp. Não possui parâmetros e tem apenas dois níveis de

profundidade.

3.2.1.2 Metatags

Metatags declaradas em códigos HTML ou xHTML no início das páginas contendo

informações sobre a página incluem tags como keywords e description.

Em razão do mau uso por editores e desenvolvedores25

, essas tags estão perdendo importância

no processo de ranking, porém ainda são utilizados por alguns mecanismos de buscas,

algumas vezes combinando-as com outros conteúdos. Mas mesmo que não tenham o mesmo

peso do passado, tê-las disponíveis corretamente ajudará caso sejam necessárias e não trará

nenhum prejuízo se não forem utilizadas.

3.2.1.2.1 Metatag Keywords

Indicam aos mecanismos de buscas as palavras-chaves associadas à página. Apesar de alguns

buscadores utilizarem outros critérios para estabelecer as palavras-chave, essa Tag deve estar

disponível considerando as seguintes recomendações:

é inócuo um número excessivo de palavras-chave, pois a atribuição de valor a cada

uma no posicionamento é inversamente proporcional ao número de palavras

informadas. Utilize no máximo 10 palavras;

cada página tem temas e objetivos diferentes, assim deve-se personalizar as palavras-

chave para cada página;

25 Vide restrições de Cory Doctorow ao modelo de metadados da web semântica – As pessoas mentem.

Page 87: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

87

deve-se procurar definir palavras-chave que são utilizadas no corpo da página

garantindo a sintonia entre o conteúdo da página e as palavras-chave, do contrário a

página perderá posições no ranking.

3.2.1.2.2 Metatag Description

Serve como a descrição da página que será exibida no resultado das buscas, do contrário

utiliza-se o primeiro parágrafo do texto da página, o que nem sempre atende aos objetivos

pretendidos; também é utilizado para estabelecer o posicionamento da página devendo

observar as seguintes recomendações:

deve ser claro e ter o condão de estimular o público alvo a clicar e navegar pela

página. Recomenda-se que tenha no máximo 150 caracteres;

cada página tem temas e objetivos diferentes, assim deve-se personalizar as suas

descrições;

deve-se utilizar as palavras-chave no texto da descrição garantindo a sintonia entre a

descrição da página e as palavras-chave, do contrário se perderão posições no ranking.

3.2.1.3 Tag Title <title>

Considerado de grande importância por ser o primeiro item a ser visualizado, ser o título da

página e normalmente informar o conteúdo da página.

Deve ser criado considerando as seguintes recomendações:

deve ser ou conter a palavra-chave mais importante da página;

a palavra-chave deve estar posicionada o mais perto possível do início do texto;

deve servir para responder a questão: Onde estou?;

dever ser adequado para ser Bookmarked ou incluído entre os “favoritos” do browser;

deve conter no máximo 70 caracteres.

Page 88: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

88

3.2.1.4 Tag de subtítulo

Utilizado para breves descrições dos diferentes blocos de conteúdos da página, organizando e

melhorando a sua legibilidade. Tem seu peso decrescendo de <h1> (maior importância) até

<h6> (menor importância). Devem ser criados observando os seguintes pontos:

palavras-chave devem ser incluídas nos textos das tags;

as palavras-chave devem estar posicionadas o mais perto possível do início do texto.

3.2.1.5 Propriedade Alt na tag <image>

O texto incluído na tag<image> serve para descrever os elementos gráficos da página sendo

utilizado pelos buscadores para registrar e considerar tais elementos. Devem se utilizadas

nesses casos também palavras-chave da página para descrevê-los, mantendo a sintonia entre a

página e as imagens utilizadas, buscando uma melhoria no seu posicionamento. Um exemplo

adequado seria:

<img src=“http://www.osite.com.br/graf-séries-históricas.jpg”

alt=“Gráfico com evolução das séries históricas do IBGE” />

3.2.1.6 Topo de página

O topo das páginas é uma área importante para despertar o interesse do internauta em entrar e

conhecê-la. Além disso, como comentado no item 3.2.1.2.2. – Metatag Description –, caso ela

não seja definida, os buscadores exibem o primeiro parágrafo a partir do topo da página no

retorno das buscas, assim recomenda-se que o primeiro parágrafo seja um breve resumo do

seu conteúdo, incluindo as suas principais palavras-chave.

Page 89: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

89

3.2.1.7 Links internos: âncoras e propriedades

A definição dos anchor texts (textos de âncora) para os links entre páginas do mesmo domínio

devem observar algumas regras a fim de que sejam bem pontuados pelos buscadores.

procurar redigi-lo com palavra-chave importante da página destino. Isso aumenta a

pontuação / reputação desse link;

padronizar a forma de link para o mesmo domínio. Não usar http://osite.com e

http://www.osite.com, pois os buscadores podem entender que se tratam de domínios

distintos. Da mesma forma, se houver vários domínios apontando para o mesmo site,

deve-se adotar um principal, e os demais devem ser tratados por redirecionamento no

servidor para o domínio definido como o principal;

utilizar substantivos na definição do texto âncora evitando verbos, não utilizando

textos do tipo “clique aqui”.

utilizar a propriedade title, pois os buscadores entendem o texto associado a essa

propriedade como conteúdo normal da página. Exemplo:

<a href=“curso-de-linux.html” title=“Curso de Linux”> Curso de Linux </a>

o atributo nofollow deve ser utilizado sempre que houver link com página que não se

deseja que os agentes dos buscadores sigam a partir desse link. Por exemplo, um site

que não esteja diretamente relacionado ao assunto, ou que se esteja utilizando como

exemplo ruim de algo que não deveria ser daquela forma;

limitar a quantidade para até 100 links, pois os buscadores não indexam mais do que

isso.

3.2.1.8 Frequência das palavras-chave na página

O uso de palavras-chave no texto da página faz com que ela tenha um posicionamento melhor

junto aos buscadores. Entretanto, deve-se observar que o critério de avaliação da repetição das

palavras-chave no texto da página (F) é obtido pela divisão das vezes em que aparece no texto

(K) pelo total de palavras da página (T): F = K / T.

Page 90: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

90

Apesar de o número ideal para essa relação não ser divulgado pelos buscadores, os

especialistas consideram adequado entre 3% e 8%. Acima disso, além de trazer problemas de

qualidade para o texto, os mecanismos de buscas podem entender que se trata de uma

tentativa não ética de melhoria de posicionamento e assim penalizar a página reduzindo sua

posição, ou até mesmo excluindo-a da indexação.

3.2.1.9 Scripts na página

O uso de porções de códigos de Scripts no topo das páginas pode fazer com que os buscadores

indexem esses códigos como se fossem conteúdos, prejudicando a relevância do título e do

primeiro parágrafo.

Quando se torne indispensável que sejam definidos no topo da página para que possam ser

carregados previamente, é recomendado que sejam utilizados arquivos externos de scripts.

Por exemplo, no caso do Javascript em arquivos com extensão.js, referenciado-o no código

HTML / xHTML.

3.2.1.10 Menus de navegação

A questão dos menus é importante para o processo de indexação realizado pelos robots ou

crawlers dos mecanismos de buscas, pois com eles podem-se associar as opções de navegação

com seus respectivos links.

Quando os menus são desenvolvidos com recursos fora do HTML ou xHTML, como por

exemplo Javascript ou Flash, isso pode impedir que os agentes de indexação enxerguem tais

links de navegação, impossibilitando que sejam encontrados e indexados, reduzindo a

profundidade de indexação e o nível de saturação do domínio26

.

26

Nível de saturação do domínio ou Search Engine Saturation, é a relação entre as páginas indexadas e o total de páginas do site. Quanto maior a proporção de páginas indexadas, maior o nível de saturação do domínio e melhor a visibilidade que

o site pode alcançar no mecanismo de buscas (GABRIEL, 2009, p. 76).

Page 91: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

91

3.2.2 Conteúdo da página

O conteúdo é essencial, pois é o que atrairá as pessoas e os mecanismos de buscas ao site.

Mas alguns aspectos precisam ser explicitados:

bom posicionamento nos buscadores depende essencialmente de bom conteúdo;

bom conteúdo envolve boa redação, boa distribuição de palavras-chave, texto

atualizado e relevante;

páginas dinâmicas e arquivos Flash, não preparados para serem search engine

friendly, podem não ser vistas e, como consequência, não serem indexadas pelos

mecanismos de buscas;

as páginas devem seguir os padrões do W3C, pois em geral tornam-se mais fáceis de

serem tratadas pelos agentes dos buscadores. Pode-se usar o validador27

do W3C para

verificar o nível de aderência das páginas ao padrão;

em todas as tags de imagens, preencher o conteúdo da propriedade alt, que são

entendidas pelos buscadores como conteúdo e que podem ajudar no aumento de

ranking da página.

3.2.2.1 Conteúdo em Flash

Conteúdos em Flash podem ser entendidos pelos agentes dos mecanismos de buscas desde

que observadas especificações para tornar isso possível. A Google28

e a Adobe29

disponibilizam documentação para permitir aos desenvolvedores criarem conteúdos em Flash

que possam ser indexados, porém nem todos utilizam esse recurso gerando animações

preparadas para SEO.

Apesar do esforço da Google e da Adobe em permitir essa adequação, deve-se considerar que

conteúdos Flash não são nativamente amigáveis aos buscadores, e assim é muito importante

que exista um planejamento para que eles sejam realmente desenvolvidos de forma adequada

para SEO.

27 http://validator.w3.org. 28 http://googlewebmastercentral.blogspot.com/2008/06/improved-flash-indexing.html. 29 http://www.adobe.com/devnet/swf.html.

Page 92: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

92

3.2.2.2 Conteúdos dinâmicos ou profundos

São páginas com conteúdos gerados a partir de bancos de dados. Dinâmicos, pois os dados

dos bancos de dados podem mudar dinamicamente, e profundos, pois o dados estão

disponíveis em uma camada abaixo das páginas (banco de dados).

O uso de conteúdos dinâmicos torna os sites mais eficientes e simplifica todo o processo de

manutenção, o que faz com que se tornem uma tendência, porém isso afeta a classificação e

ranking do site pela impossibilidade dos agentes dos mecanismos de buscas agirem dentro dos

bancos de dados.

Para isso algumas soluções são possíveis. A primeira é tornar dinâmicos apenas os conteúdos

em que isso for mandatório e assim reduzir o tamanho da parte profunda. Outra possibilidade

seria adotar landing pages30

, planejadas para dar visibilidade a palavras-chave específicas do

site.

Outro problema em páginas dinâmicas é a questão dos links que são gerados com códigos e

números e não com palavras, mas que pode ser contornado por meio de parametrizações nos

servidores web. Por exemplo, no apache isso por ser ajustado com o comando RewriteEngine

On, permitindo que um link seja digitado como www.osite.com/cursos/brasil e entendido

como www.osite.com/pag.php?tipo=cursos?pais=brasil.

Ferramentas muito comuns em sites dinâmicos são os CMS (Content Management Systems),

possuindo templates que permitem a padronização do seu visual e funcionalidades e

possibilitam que toda a configuração do site fique armazenada em banco de dados. Eles

podem ser de dois tipos. Os que geram as páginas dinamicamente, ou aqueles que compilam o

conteúdo do banco de dados gerando páginas estáticas, sendo o segundo tipo mais amigável

para os buscadores.

Pode-se citar como exemplos de CMS o Joomla, o Mambo, o WordPress, Alfresco e Drupal.

30 É a página que aparece para uma pessoa quando ela clica em um anúncio ou link de um resultado de busca (orgânica ou links patrocinados) (GABRIEL, 2009, p. 105).

Page 93: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

93

3.2.2.3 Criação de conteúdos para SEO

A criação de conteúdos adequados para SEO não é tarefa simples. Conteúdos compostos por

recursos sofisticados de som, vídeos, imagens e cores podem não surtir o efeito desejado.

Mesmo um bom texto pode não obter os resultados esperados quanto a atrair e reter visitantes.

Os agentes dos buscadores não se preocupam com a sofisticação tecnológica com a qual o site

foi produzido, assim, alguns cuidados devem ser observados para a criação de bons conteúdos

para otimização dos mecanismos de buscas:

procurar escolher apenas um tema por página, permitindo assim um foco maior,

tornando o conteúdo mais atraente;

após a escolha do tema, definir quantas e quais palavras-chave serão usadas;

definir a frequência com que as palavras-chave devem aparecer;

organizar bem a estrutura do texto:

o definindo os tópicos que deve cobrir;

o definindo como usar título e subtítulos (quebrando e organizando o documento,

contendo as palavras-chave e/ou frases-chave).

Outra maneira de incluir bons conteúdos SEO é por meio da seção de comentários dos

usuários ou pela criação de fóruns de discussão, sendo formas para obterem-se bons

conteúdos sem custos adicionais, porém necessitam de mediação e monitoração para garantir

que as mensagens postadas estão adequadas ao conteúdo/tema.

3.2.3 Estrutura: página e site

A estrutura da página e do site também são fatores importantes, que em conjunto com o

código e conteúdo discutidos nos itens anteriores definem o seu posicionamento nos

mecanismos de buscas.

Page 94: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

94

3.2.3.1 Design e estrutura do website

Os problemas potenciais relacionados a design da página são:

navegação;

frames;

servidor;

arquivo robots.txt.

Caso esses itens não estejam bem projetados, poderá ocorrer o bloqueio ou impedimento para

que os robots ou crawlers dos buscadores entrem nessas páginas e façam sua indexação,

deixando-a perdida no universo da web profunda.

Tais itens são discorridos nos tópicos a seguir.

3.2.3.1.1 Navegação

Falta de clareza nos menus impedem que os robots acessem as páginas internas a partir dos

links definidos em cada opção de menu, reduzindo a quantidade de páginas indexadas do site

e assim afetando o seu índice de saturação. As razões mais comuns para isso são o uso de

scripts na construção da navegação ou o uso de Flash sem observar os cuidados para que seja

amigável aos robots dos buscadores.

3.2.3.1.2 Frames

Frames são geradas a partir de comandos HTML, possibilitando que a página seja estruturada

em partes independentes, formando um conjunto de páginas. O uso desse recurso de forma

incorreta poderá impedir que os buscadores indexem essas páginas. O conteúdo dentro da tag

<frameset> não será reconhecido como tal. Para evitar isso, os conteúdos devem estar entre as

tags <noframe> </noframe>.

Page 95: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

95

3.2.3.1.3 Servidor do website

Outro fator que pode criar dificuldades para os agentes dos buscadores indexarem as páginas

de um site é o dimensionamento do servidor que o hospedará. Caso exista um baixo

desempenho do servidor, robots dos buscadores, bem como as pessoas, abandonarão a

navegação e irão buscar outros sites para visitar.

Deve-se observar também o tamanho das imagens – se forem muito grandes, também afetarão

o tempo de resposta da navegação.

3.2.3.1.4 Arquivos Robots.txt

O robots.txt é um arquivo no formato texto que oferece informações restringindo o acesso ao

site por robots dos buscadores, permitindo que se controlem as permissões de acesso a

determinados pontos dos sites, declarando quais informações devem ou não ser indexadas

pelos robots que, antes de acessarem as páginas de um site, verificam se ele existe. Porém,

vale registrar que todos os robots honrados respeitam as suas instruções, embora alguns

possam interpretá-las de modo diferente. No entanto, ele não é um arquivo executável e

alguns criadores de spam e outros usuários mal-intencionados podem ignorá-lo. Dessa forma,

recomenda-se que informações confidenciais estejam protegidas por senha.

Para conhecer o conteúdo de robots.txt, basta digitar no browse a url

www.osite.com.br/robots.txt.

Sua sintaxe é bem simples, composta de quatro informações que determinam quais robots

podem acessar o site, em quais diretórios podem entrar, em quais diretórios não podem entrar

e a localização do arquivo que contém o mapa do site, devendo ser disponibilizado na raiz da

área de hospedagem do site.

A seguir, uma tabela com o detalhe e sintaxe para a elaboração desse arquivo:

Page 96: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

96

Sintaxe Funcionalidade

User-Agent Determina quais robots / buscadores podem acessar o site / servidor

Google: User-agent: Googlebot

Yahoo: User-agent: Slurp

MSN: User-agent: msnbot.

Todos os mecanismos: User-agent: *.

Allow Informa quais diretórios podem ser acessados

Disallow Informa quais diretórios estão bloqueados para acesso

Sitemap Informa a localização do mapa do site. Elaborado em formato XML.

Tabela 13 - Opções permitidas dentro do arquivo robots.txt

3.2.3.2 Idade e atualizações na página

A idade e a frequência de atualizações de uma página também são determinantes para que o

site consiga um bom posicionamento junto aos mecanismos de busca.

Quanto mais antigo for o site, melhor, porém devem existir atualizações periódicas para que

os robots continuem visitando e mantendo-o atualizado no banco de dados dos buscadores. À

medida que o site fique longos períodos sem atualizações, valendo registrar que esse tempo

não é conhecido e varia em cada mecanismo de busca, os algoritmos dos buscadores irão

reduzir a frequência das visitas e assim, quando uma alteração for realizada, ela demorará

mais para ser refletida nos buscadores afetando o seu posicionamento.

3.2.3.3 Análise do website versus análise de página individual

Deve-se, como estratégia, manter a coerência das páginas com o site como um todo. Como

discutido anteriormente, cada página deve ter seu tema e suas palavras-chave distribuídas

dentro do seu conteúdo, porém é muito importante que palavras-chave importantes para o

contexto geral do site sejam incluídas em todas as páginas.

Essa providência melhorará a coerência e contribuirá para um melhor posicionamento nos

mecanismos de busca.

Page 97: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

97

3.2.4 Ferramentas SEO

É relevante citar algumas ferramentas e sites de apoio na criação e manutenção de sites

amigáveis para buscadores e voltados a estratégias de otimização para os mecanismos de

buscas (SEO):

Google Central do Webmaster em www.google.com/webmasters, onde se encontrará

Recursos e documentação que auxiliam nas questões de indexação, inclusive a

validação e submissão do mapa do site. (em português)

Alexa em www.alexa.com, que permite a Análise de tráfego e links quebrados.

Mestre SEO em www.mestreseo.com.br, que Oferece artigos e informações além de

disponibilizar diversas ferramentas SEO, algumas gratuitas e outras disponíveis

apenas a assinantes.

W3C Quality Assurance Tools em www.w3.org/QA/Tools/, disponibiliza ferramentas

para garantir a qualidade e aderência dos códigos utilizados no site aos padrões

estabelecidos no W3C, validando códigos HTML, CSS, XML, etc.

Web Page Analyzer em www.websiteoptimization.com/services/analyze/ , avalia o

peso e velocidade do site oferecendo uma análise dos principais pontos, sugerindo

ajustes para melhorar os pontos deficientes.

3.3 A QUESTÃO DA VISUALIZAÇÃO DE DADOS

Ao se discutir a questão do volume excessivo de informações que a Internet nos trouxe e a

preocupação de que o excesso de informação tenha um efeito contrário à expansão do

conhecimento, percebe-se a importância de estudar e analisar, entre outros temas, como essas

informações podem ser trabalhadas sob a perspectiva do design das interfaces gráficas.

A Visualização de Dados tem como tema de estudos investigar as melhores práticas para

potencializar a compreensão da informação por meio de representações visuais, dentro de

abordagens que reflitam modelos e conceitos de fácil percepção. Isso é corroborado por

Flusser, quando afirma que:

Page 98: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

98

Uma imagem é uma superfície cujo significado pode ser abarcado num lance de

olhar: ela “sincroniza” a circunstância que indica como cena. Mas, depois de um

olhar abrangente, os olhos percorrem a imagem analisando-a, a fim de acolher

efetivamente seu significado; eles devem “diacronizar a sincronicidade” (FLUSSER,

2007, p. 131).

Dentro do contexto de potencializar a compreensão da informação, é importante colocar que,

sendo o principal objetivo da visualização de dados a transmissão de informações de forma

clara e efetiva, isso não significa que se precisa de um visual sofisticado e deslumbrante e

nem um visual funcional e enfadonho. Para transmitir suas ideias na forma visual é necessário

um equilíbrio entre a forma estética e suas funcionalidades – ambas precisam andar juntas,

fornecendo conhecimentos sobre os dados, comunicando seus principais aspectos de uma

forma mais intuitiva. Os designers precisam estar atentos ao equilíbrio entre design e

funcionalidade, criando efeitos visuais que sirvam ao objetivo principal – a informação a se

comunicar.

Além disso, a questão imagética deve ser percebida sempre com a preocupação de como isso

será olhado, interpretado e absorvido pelas novas gerações em um constante rever e

reaprender, o que pode ser alinhado com as palavras de Flusser:

Pois nós continuamos a ser programados por textos, ou seja, para a história, para a

ciência, para o engajamento político, para a “arte”: para uma existência dramática.

Nós “lemos” o mundo (por exemplo, lógica e matematicamente). Mas a nova

geração, que é programada por imagens eletrônicas, não compartilha nossos

“valores”. E ainda não sabemos os significados programados pelas imagens

eletrônicas que nos circundam (FLUSSER, 2007, p. 131).

Os próximos tópicos aprofundam a questão da visualização dos dados, abordando

principalmente aplicações que estão disponiveis na web e que já contribuem de alguma forma

a esse propósito.

3.3.1 Por que visualização de dados

Segundo Ribeiro (2009, p. 37), entre as possíveis formas de se comunicar a informação, a

representação visual se destaca como uma forte expressão do conhecimento. Nesse contexto,

a questão do design da informação ganha importância. Suas definições buscam referências no

Page 99: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

99

design gráfico, na comunicação, na estatística, na cartografia e nas ciências cognitivas, na

intenção de delinear um campo de pesquisa voltado aos indivíduos.

A visualização de dados possui a força de fazer com que assuntos complexos se tornem

concretos e acessíveis, relatando fatos e permitindo a tomada de decisões baseando-se em

dados. Daí sua importância no século 21. Não só retrata os fatos da nossa época, mas motiva o

debate. Visualizar dados governamentais, por exemplo, cria uma imagem do país, mostrando

o que foi feito e o que precisa ser aprimorado, indicando direções a seguir e eventuais enganos

a serem corrigidos ou evitados.

Dois exemplos ocorridos na década de 1850 demonstram o poder que a análise a partir da

visualização de dados pode trazer.

A Guerra da Crimeia, entre 1853 e 1856, envolveu a Rússia e uma aliança entre Inglaterra,

França e o Império Otomano na região do Mar Negro. Uma guerra com os seus traumas,

feridos e mortos, entretanto, dados coletados e tabulados foram transformados em imagens

que causaram uma revolução sanitária nos hospitais do mundo cujos efeitos se fazem sentir

até hoje, com a drástica redução do risco de morte por infecção hospitalar.

Florence Nightingale, uma enfermeira inglesa, utilizou estatísticas sobre a morte de soldados

para pintar um retrato da situação. O gráfico revelou que a maioria dos soldados morria nos

leitos de hospitais, e não nos campos de batalha. Eram dez vezes mais mortes causadas por

tifo, cólera e disenteria do que por ferimentos de batalha. A falta de ar fresco, luz e higiene

nos hospitais provocava milhares de mortes que poderiam ser evitadas. Era a primeira vez que

se observavam fatalidades militares com números, e o diagrama obtido era tão dramático que

o governo inglês decidiu melhorar imediatamente as condições sanitárias dos hospitais

militares, reduzindo a mortalidade de soldados de 42% para 2,2%.

Em 1854, durante um surto de cólera em Londres, o médico John Snow mapeou a localização

dos casos da doença. O Dr. John Snow, contrário à crença da época de que a doença era

causada pelo ar poluído, acreditava em sua transmissão pela água ingerida e, a partir da

visualização dos dados coletados em um mapa, identificou que a maioria dos doentes estava

ao redor de uma bomba de água na Broad Street. A correlação fez com que as autoridades

considerassem a água do poço contaminada. Assim que a bomba da Broad Street foi retirada,

a epidemia acabou.

Page 100: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

100

Outro exemplo mais atual data de 2006, quando Al Gore transformou o debate sobre a

questão do aquecimento global, ao subir em um guindaste para mostrar uma curva que

representava o aumento de CO2 e da temperatura mundial. Se Al Gore, em vez de gráficos,

mostrasse apenas uma planilha com dezenas de linhas e colunas e centenas de números,

quantas pessoas perceberiam a gravidade do problema?

3.3.2 Classificação dos modelos e uma análise de contexto

Dada a sua importância, a visualização de dados tem atraído a atenção de pesquisadores

interessados em desenvolver aplicações computacionais melhores buscando compreender as

regras que orientam esses modelos e em quais contextos são utilizados.

Sobre isso, Ribeiro (2009) coloca que as classificações partem da análise das formas visuais

adotadas e dos relacionamentos existentes em um determinado conjunto de dados, citando

Freitas et al. (2001), identifica três necessidades inerentes ao processo de criação de

visualizações:

a) definição de uma representação visual;

b) escolha dos mecanismos de interação necessários para manipular os dados;

c) implementação dos algoritmos.

Além disso, coloca a classificação de visualizações considerando os seguintes aspectos:

a) pelas características dos dados;

b) pela quantidade de dimensões;

c) pelos tipos de relacionamentos;

d) pelos tipos de valores assumidos;

e) pelos tipos de representações visuais;

f) pelos tipos de interações possíveis.

Outras classificações podem levar em consideração os processos de criação, no qual, de forma

simplificada, os dados são submetidos a um processo de filtragem, mapeados pela sua

transcodificação por meio de algoritmos, para finalmente serem mostrados de forma gráfica.

Page 101: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

101

Ribeiro, citando Chi (1999), coloca que os dados, desde seu estado bruto até a sua

apresentação gráfica final, passarão por quatro estágios em função de intervenções que podem

ocorrer por três tipos de operações.

Figura 9 - Modelo de Chi para o fluxo de criação de visualizações

Em sua investigação, destacando na Internet e suas interfaces as propriedades de dinâmica, no

sentido da capacidade de atualização dos dados ao longo do tempo e interatividade, para dar

ao usuário a opção de escolher como navegar e utilizar as possibilidades dadas pelo ambiente,

Ribeiro afirma que:

Trata-se, portanto, do palco apropriado para o aprofundamento nos estudos sobre

visualização: por evidenciar o problema do excesso de dados, a Internet se torna o

terreno fértil para o desenvolvimento de pesquisas no campo do design da

informação. A visualização, nesse contexto, apresenta-se como poderoso

instrumento de organização e filtragem do excesso de informações e se populariza

com a expansão da rede (RIBEIRO, 2009).

Page 102: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

102

Ribeiro ainda propõe a seguinte classificação para aplicações de visualização na web:

Categoria Definição Exemplo Alguns formatos

usados

Científicas Promovem o conhecimento de um

determinado ramo da ciência. WikiSky Mapas (Espaço)

Ativistas Divulgam e buscam conscientização sobre

uma determinada causa. WikiCrimes Mapas geográficos

Redes

Sociais e

conteúdo

colaborativo

Cruzam e filtram dados gerados a partir de

mensagens e de forma coletiva, gerando

visualizações que permitam compreender a

frequência de participação, distribuição ao

longo do tempo etc. em cada uma dessas

redes.

TweetStats Gráficos de barras e

tag clouds

Busca

Procuram exibir os resultados das pesquisas

de uma maneira diferente da conhecida

listagem textual.

SiloBreaker

Mapa conceitual,

gráficos de linhas,

gráficos de barras

Monitoração

Trata do acompanhamento de um

determinado processo dinâmico,

convertendo dados registráveis em um

padrão visual.

Google

Analytics

Mapas geográficos,

gráficos de linhas, de

barras e de pizza.

Notícias

Buscam organizar as notícias, facilitando a

leitura e filtragem, e assim permitir um

melhor entendimento.

NewsMap Tag Clouds31

Tabela 14 - Resumo das principais categorias de visualização de dados

31 Tags Cloud, ou nuvem de etiquetas, em geral reúne um conjunto de etiquetas utilizadas em um determinado website disposto em ordem alfabética, e a quantidade de conteúdos que o site apresenta em cada etiqueta é mostrado proporcionalmente pelo tamanho da fonte. Dessa forma, em uma mesma interface é possível localizar uma determinada etiqueta tanto pela ordem alfabética como pela frequência da incidência de conteúdos marcados com a mesma etiqueta no referido site. As etiquetas disponibilizadas na nuvem são links que levam a coleções de itens relacionados às palavras da etiqueta.

Page 103: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

103

3.3.3 Aplicações de visualização de dados na web

À guisa de exemplo, seguem abaixo resumidamente algumas aplicações em sites que

disponibilizam soluções de visualização de dados consideradas convergentes com o nosso

trabalho, por permitirem a integração de dados com suas visualizações, ressaltando que

existem e surgem outras frequentemente na web.

3.3.3.1 Google public data explorer32

O Google public data explorer, outra ferramenta gratuita da Google, propõe facilitar a tarefa

de explorar, visualizar e comunicar grandes volumes de dados. Como em gráficos e mapas

dinâmicos, as mudanças que ocorrem ao longo do tempo se tornam fáceis de serem percebidas

e compreendidas, permitindo que usuários comuns, sem conhecimento técnico profundo,

possam navegar entre diferentes abordagens e pontos de vista estabelecendo suas

comparações e, por fim, compartilhando suas descobertas.

Uma funcionalidade interessante, que é muito utilizada em outros serviços da Google, está na

possibilidade de incorporar esses dados em gráficos nas páginas dos usuários, permitindo que

os dados sejam atualizados automaticamente ao longo do tempo. Nesse serviço estão

disponíveis alguns conjuntos de dados (data sets) de organismos internacionais, como o

Banco Mundial, o US Census Bureau etc., mas os usuários podem utilizar seus próprios dados

por meio da opção My Datasets, formando o conjunto de dados a ser compartilhado. Abaixo

uma figura que ilustra um exemplo de visualização embutida extraído da página da Google:

32 http://www.google.com/publicdata/home.

Page 104: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

104

Figura 10 - Exemplo de visualização de dados no Google public data explorer

(http://www.google.com/publicdata/home)

Page 105: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

105

3.3.3.2 Many Eyes33

Na mesma linha do exemplo anterior, porém mais antigo, o Many Eyes também é um site

gratuito, criado por pesquisadores do Visual Communication Lab da IBM, com destaque para

a pesquisadora brasileira Fernanda B. Viegas. Nele os usuários podem fazer uploads de

dados, criar visualizações interativas e abrir discussões e debates com outros participantes do

site. Segundo Viegas et al. (2007), ele tem o objetivo de apoiar a colaboração em torno de

visualizações em grande escala, promovendo uma forma de análise social de dados em

apresentações que não servem apenas como uma ferramenta de descoberta, mas também

como um meio para estimular discussões sobre o tema entre os usuários. Para apoiar esse

objetivo, o site tem funcionalidades que permitem a criação de visualizações e colaboração

assíncrona em torno delas.

Figura 11 - Exemplo de visualização de dados da Bovespa em 2009

(http://www-958.ibm.com/software/data/cognos/manyeyes/visualizations/bovespa-2009-4/comments/32602b6ece7f11deb007000255111976)

33 http://www-958.ibm.com/software/data/cognos/manyeyes/.

Page 106: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

106

3.3.3.3 Bime Analytics34

O Bime Analytics é uma ferramenta paga, desenvolvida por uma empresa francesa sediada em

Montpellier, utilizando o conceito de cloud computing. Propõe, segundo seu fabricante, uma

abordagem revolucionária para a análise de dados e dashboards por meio de visualizações

interativas dos dados na web.

Com uma política de comercialização que vai de pequenos times a soluções mais abrangentes

dentro da intranet da organização contratante, a solução oferece um conjunto de

possibilidades mais completas e complexas que as gratuitas da Google e Many Eyes.

Figura 12 - Visualização da distribuição de usuários do Facebook no mundo. (https://newsletter.bimeapp.com/players/dashboard/077077D2E5C3ACE47B43366C09E17404)

34 http://bimeanalytics.com/

Page 107: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

107

CAPÍTULO 4

O E-GOV E A PROPOSTA DO PORTAL

4.1 O E-GOV

A humanidade tem experimentado, ao longo dos últimos anos, mudanças significativas –

apesar de gradativas – na sua forma de organização. Isso tem ocorrido por meio de complexas

redes socialmente estruturadas, fruto da disponibilização de novas Tecnologias da Informação

e Comunicação (TICs), cada vez mais acessíveis e disponíveis para as pessoas e empresas em

âmbito mundial, trazendo reflexos importantes no processo de desenvolvimento

socioeconômico das nações, organizações e pessoas.

Dentro do bojo desse processo, um dos reflexos foi a geração de um volume avassalador de

informação e conhecimento, tornando-se importantes fatores que contribuem para a redução

de desigualdades, de agregação de valor, criação de emprego qualificado e de propagação do

bem estar. Segundo Castells,

O problema é que, hoje em dia, as forças produtivas não se medem em toneladas de

aço nem em quilowatts, como diriam Henry Ford ou Lênin, mas na capacidade

inovadora de gerar valor agregado através do conhecimento e da informação. Esse

modelo de crescimento econômico baseado no conhecimento é o mesmo em toda

parte, como foi a industrialização no paradigma de desenvolvimento anterior. Ele

requer o uso de tecnologias de informação e comunicação baseadas na eletrônica,

mas não é resultado da tecnologia: é produto de um conjunto de condições inter-

relacionadas (CASTELLS, 2008).

No contexto da redução das desigualdades, as atuais TICs criam condições para que os

governos divulguem uma quantidade variada e ilimitada de informações às populações que

representam, e essas mesmas TIC’s também possibilitam aos indivíduos que se manifestem

quanto às questões relevantes em suas comunidades, levando-as à atenção dos governos

municipais, estaduais e federal.

Segundo o W3C (2009), desde o final da década de 1990, os governos buscam formas

eficientes de manter contato com seus cidadãos pela Internet. Ao disponibilizar informações

Page 108: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

108

do governo online de maneira que sejam fáceis de encontrar, disponíveis, acessíveis,

compreensíveis e utilizáveis, possibilitando uma interação entre o governo e sua população

inimaginável no passado, estabelece-se o conceito de e-Gov ou “governo eletrônico”.

Contudo, explorar tais possibilidades dentro dos sistemas de governo, não importa em qual

cidade, estado ou país, tendem a tornar-se um desafio importante, pois tangencia e até mesmo

colide com aspectos políticos, legais e culturais.

Assim, criar condições para estabelecer um e-Gov exige, dos políticos e burocratas,

disposição e vontade política destinadas a abertura, transparência, colaboração e

conhecimento para usufruir das vantagens oferecidas pela Internet, abrindo uma grande

perspectiva a um diálogo aberto entre o povo e o governo.

Quando se fala de e-Gov, percebe-se que esse relacionamento dos governos com suas

comunidades por intermédio da web pode ser classificado em três tipos distintos: em primeiro

lugar, aqueles que fornecem serviços públicos à população, empresas e outros setores do

governo, disponibilizando serviços ou transações; na interação com a população pela

disponibilização de informações e esclarecimentos sobre seus serviços, por meio de sites de e-

Gov ou de mídias sociais; e, por fim, como infraestrutura para fornecer dados governamentais

abertos, permitindo que usuários e serviços informatizados possam recuperar e trabalhar

dados fornecidos pelo próprio governo.

Este trabalho, apesar de discorrer sobre os dois primeiros tipos em relação ao e-Gov no Brasil,

será focado no terceiro tipo, abordando a questão de Dados Governamentais Abertos (DGA)

ou Open Government Data (OGD), que serão conceituados como informações públicas

governamentais, distribuídas a quem interessar, na forma digital, por meio da web, de maneira

a promover fácil acesso, sua análise, e permitir sua reutilização e apresentação integradas.

Pode-se facilmente identificar motivadores para a adoção de DGA, dos quais destacam-se os

seguintes:

o desenvolvimento de uma comunidade esclarecida e bem informada é essencial para

a formação de um governo representativo;

pré-condição para que sejam eleitos os melhores candidatos nos Legislativos e nos

Executivos nas esferas municipais, estaduais e federal;

essencial para a fiscalização das ações dos governos;

Page 109: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

109

mandatório para proporcionar transparência aos serviços públicos;

proporcionar serviços públicos melhores e mais eficientes;

incentivar o uso e reuso de dados dos governos;

atração de investidores nas cidades, estados e no país.

Entre os possíveis benefícios a serem atingidos, pode-se elencar os seguintes:

o inclusão;

o transparência;

o múltiplas visões;

o análise dos resultados;

o reutilização;

o melhoria nas buscas;

o integração dos dados;

o Social Empowerment.

Dentre os benefícios, destaca-se o Social Empowerment ou Empoderamento Social.

Certamente será o que dará sustentação e perenidade aos avanços nesse sentido, fazendo com

que esse seja um caminho sem volta e certamente irá influenciar ações dos governos sobre

onde, como e quando investir, por meio do envolvimento e retorno que espera-se haverá dos

cidadãos, especialmente porque as próximas gerações serão formadas basicamente por

“nativos digitais”, o que aumentará significativamente o nível de exigência pelo e-Gov.

Segundo Pereira (2006), “o empoderamento (social) devolve poder e dignidade a quem

desejar o estatuto de cidadania, e principalmente a liberdade de decidir e controlar seu próprio

destino com responsabilidade e respeito ao outro”.

Ainda sobre e-Gov, vale detalhar as três leis dos dados abertos governamentais e os oito

princípios dos dados abertos governamentais que devem nortear os governos para a adoção do

DGA, detalhados em (W3C, 2011):

Leis dos dados abertos Governamentais:

1. se o dado não pode ser encontrado e indexado na web, ele não existe;

2. se não estiver aberto e disponível em formato compreensível por máquina, ele não

pode ser reaproveitado;

Page 110: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

110

3. se algum dispositivo legal não permitir sua reaplicação, ele não é útil.

Oito princípios dos dados abertos governamentais

completos: todos os dados públicos estão disponíveis. Dado público é o dado que não

está sujeito a limitações válidas de privacidade, segurança ou controle de acesso;

primários: os dados são apresentados tais como os coletados na fonte, com o maior

nível possível de granularidade e sem agregação ou modificação;

atuais: os dados são disponibilizados tão rapidamente quanto necessário à preservação

do seu valor;

acessíveis: os dados são disponibilizados para o maior alcance possível de usuários e

para o maior conjunto possível de finalidades;

compreensíveis por máquinas: os dados são razoavelmente estruturados de modo a

possibilitar processamento automatizado;

não-discriminatório: os dados são disponíveis para todos sem exigência de

requerimento ou cadastro;

não-proprietário: os dados são disponíveis em formato sobre o qual nenhuma entidade

detenha controle exclusivo;

livres de licença: os dados não estão sujeitos a nenhuma restrição de direito autoral,

patente, propriedade intelectual ou segredo industrial. Restrições sensatas relacionadas

à privacidade, segurança e privilégios de acesso são permitidas.

Conforme o site www.data.gov, os países que já adotaram a política de Dados

Governamentais Abertos (DGA) estabelecendo a comunicação aberta com os cidadãos pela

web são: Alemanha, Austrália, Canadá, Dinamarca, Espanha, Estônia, EUA, Finlândia,

Grécia, Inglaterra, Irlanda, Itália, Nova Zelândia e Noruega. Pela representatividade política e

econômica que esses países possuem, fica demonstrado ser uma forte tendência, devendo

alcançar os países com governos representativos, ancorados em sistemas democráticos.

4.2 e-Gov NO BRASIL

Quando se fala do e-Gov no Brasil, percebe-se competência por parte da comunidade

tecnológica e científica para vencer grandes desafios, como a apuração eleitoral por meio de

Page 111: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

111

urnas eletrônicas, entrega das declarações de imposto de renda pela Internet, a emissão das

notas fiscais eletrônicas tanto em nível municipal como estadual utilizando a Internet e

recursos como arquivos XML, o que possibilita que as informações da NFe sejam integradas a

diversos sistemas computacionais das partes envolvidas, fornecedores, compradores e das

Secretarias de Receitas Municipais e Estaduais, afora outras obrigações fiscais e

previdenciárias transmitidas pela Internet e integradas aos computadores dos sistemas de

arrecadação federal. Por fim, aqueles que oferecem serviços de auto-atendimento, como por

exemplo, agendamentos de atendimento para obtenção de passaporte, agendamentos para

tratar questões previdenciárias etc.

Nos exemplos citados tem-se a percepção de que a motivação e vontade política por essas

realizações se deve, no primeiro caso, a interesses políticos em uma apuração mais rápida e

certa projeção internacional pela inovação tecnológica, e nos demais casos para, pura e

simplesmente, ampliar o espectro de arrecadação reduzindo as possibilidades de sonegação

fiscal e previdenciária, ou ter ganhos em relação ao volume de trabalho burocrático na

administração pública, e nesse caso, também beneficiando ao cidadão com a substituição da

interface pessoal pela eletrônica com ganhos no tempo de resolução de problemas e na

economia dos custos de locomoção, e espera-se que, a médio prazo, com a redução do

tamanho da máquina estatal.

Em que pese a existência da Lei complementar número 131 de 27/05/2009, também chamada

de Lei Capiberibe, em razão do nome de seus autores, a deputada federal Janete Capiberibe e

o Senador João Capiberibe, ambos do Amapá, que obriga a divulgação de dados públicos

pela Internet para os governos nas três esferas de poder, estabelecendo prazos de um a quatro

anos para isso e que alguns órgãos dos governos municipais, estaduais e federais já o fazem,

porém isso ocorre, em geral, sem observar padrões e formatos consagrados e aceitos pela

comunidade que permitam a integração e o processamento por outros sistemas

computacionais. Mesmo a legislação citada não estabelece e sequer menciona qual o formato

em que tais dados devem ser disponibilizados.

Assim, percebe-se no Brasil a tendência em estabelecer um e-Gov voltado somente para

fornecer serviços públicos à comunidade e outros setores do governo (disponibilizando

informações ou transações), porém em formatos destinados apenas à interpretação e

compreensão por seres humanos.

Page 112: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

112

Nesse contexto, apenas tangencia o papel de fornecedor de infraestrutura para Dados

Governamentais Abertos (DGA), impedindo que usuários e serviços possam recuperar e

trabalhar dados fornecidos pelo próprio governo. Vale registrar que existem exceções, como

no caso do Banco Central do Brasil35

que, apesar de não disponibilizar dados para serem

extraídos manualmente em formatos consagrados como, por exemplo, o RDF, oferece web

services utilizando como retorno o formato XML para consulta de séries temporais e algumas

ações como a da Secretaria da Segurança Pública do Rio Grande do Sul36

que disponibiliza

para download estatísticas de criminalidade em formado XML, do Tribunal de Contas dos

Municípios do Estado do Ceará 37

e o do Projeto LexML38

que pretende reunir leis, decretos,

acórdãos, súmulas, projetos de leis entre outros documentos das esferas federal, estadual e

municipal dos Poderes Executivo, Legislativo e Judiciário de todo o Brasil, formando uma

rede de informação legislativa e jurídica, visando organizar, integrar e dar acesso às

informações disponibilizadas nos diversos portais de órgãos do governo na Internet, dentro

dos conceitos e tecnologias que envolvem a web semântica e a integração de informações

entre sistemas computacionais.

Também é relevante mencionar algumas ações oriundas da sociedade que trabalham no

sentido de dar acessibilidade à sociedade dos dados abertos disponibilizados pelos governos

das três esferas de poder:

1. Opendata Brasil39

;

2. Comunidade Transparência Hacker (THacker)40

;

3. GT Dados Abertos W3C Brasil41

.

Os itens seguintes tratarão com mais detalhes pontos apresentados nessa introdução utilizando

os resultados da Pesquisa sobre o uso das TICs no Brasil – TIC governo eletrônico – 2010

realizado por CETIC.BR (2010). Aspectos relacionados ao relatório metodológico e perfil da

amostra podem e devem ser obtidos diretamente na obra que está disponível na Internet para

download42

.

35 https://www3.bcb.gov.br/sgspub/JSP/sgsgeral/sgsAjuda.jsp#SA 36 http://www.ssp.rs.gov.br/portal/principal.php?action=estatistica&cod_catestat=33 37 http://api.tcm.ce.gov.br/ 38 http://projeto.lexml.gov.br/ 39 http://opendatabr.org/ 40 http://thacker.com.br/ 41 http://www.w3c.br/GT/GrupoDadosAbertos 42 http://www.cetic.br/tic/egov/2010/index.htm

Page 113: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

113

Nessa pesquisa, o CETIC.BR buscou investigar a existência de desalinhamentos entre as

ofertas do governo e a demanda em serviços de e-Gov pela população.

4.2.1 Maneiras de acesso ao e-Gov

Em relação às formas de acessar os serviços prestados pelos governos, por meio dos dados da

pesquisa expostos em quadro abaixo, fica caracterizado que a principal maneira de acesso é a

presencial, não somente pelos 60% da população em geral que assim o fazem, mas também

porque quase a metade de usuários que acessou via web, também o fez presencialmente,

indicando dificuldades na localização dos serviços ou a inexistência do serviço procurado em

sua versão e-Gov.

Outro aspecto relevante é quanto à escolha da tecnologia como mediadora do acesso, ficando

a Internet com 35% e o acesso telefônico com apenas 8%. O acesso telefônico é indicado na

pesquisa como um canal auxiliar de comunicação, estando associado a ele uma percepção

negativa, talvez fruto da imagem negativa dos Call Centers privados.

Quanto aos usuários que acessam a web, o fato de que 73% dos internautas que o fazem a

cada três meses utilizam serviços de e-Gov, enquanto que esse percentual sobe para 80%

quando se tratam de internautas que acessam a web diariamente, o que indica uma relação

entre o domínio desse conhecimento e o uso de serviços por meio de e-Gov, reforçando a

necessidade do governo em desenvolver políticas de inclusão digital que permitam a

apropriação efetiva dessa ferramenta pela população.

Outra forma de acesso identificada pela pesquisa é aquela realizada por outra pessoa,

chegando a 9% da população em geral, e quando se trata da declaração de Imposto de Renda

esse número chega a 22%, estando isso associado à baixa escolaridade e as dificuldades que

as pessoas mais idosas possuem em utilizar esse tipo de ferramenta.

População Geral 81% com 16 anos ou mais usaram ao menos um serviço do governo nos últimos doze meses

60% Utilizaram o acesso presencial

6% Utilizaram também o acesso telefônico

35% Utilizaram o acesso Web

47% Utilizaram também o acesso presencial

11% Utilizaram também o acesso telefônico

Page 114: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

114

8% Utilizaram o acesso telefônico

9% Foram auxiliados por outras pessoas

22% Quando se trata de declarar o Imposto de Renda

Internautas * 73% Utilizaram o acesso web

49% Utilizaram o acesso presencial

Internautas ** 80% Utilizaram o acesso web

Tabela 15 - Uso do acesso web x presencial (cidadão).

* ao menos um acesso a web nos últimos 3 meses

** acessos diários à web

Em relação às empresas, nota-se que a forma predominante de acesso é por meio da web, até

mesmo em razão de suas obrigações fiscais e previdenciárias.

Empresas Geral 85% Usaram ao menos um serviço do governo nos últimos 12 meses

22% Utilizaram o acesso presencial

79% Utilizaram o acesso Web

11% Utilizaram o acesso telefônico

Tabela 16 - Uso do acesso tecnológico x presencial (Empresas).

4.2.2 Cenário para o futuro do e-Gov no Brasil

Considerando que 56% da população em geral usaria o e-Gov para um próximo acesso a

serviços de governo, assim comparado aos 35% que declararam já utilizar o e-Gov,

caracteriza-se uma tendência de crescimento. Também é relevante notar alguns pontos da

pesquisa:

a) quem é usuário de e-Gov tende a continuar a utilizá-lo;

b) a tendência de uso do e-Gov para os não usuários é menor, porém isso pode ser

explicado por barreiras e limitadores de acesso que influenciam essa resposta.

c) a propensão ao uso de e-Gov tende a crescer nas faixas de idade menores e a diminuir

nas faixas dos mais velhos;

d) a escolaridade também é determinante em se adotar o e-Gov, crescendo a tendência de

uso conforme aumenta a escolaridade;

População Geral 56% Utilizariam a Internet no próximo acesso

Já usuários ou não de e-Gov

93% Usuários

37% Não usuários

Page 115: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

115

Idade

75% 16 a 34 anos

21% 60 anos ou mais

Escolaridade

87% Com Ensino Superior

7% Ensino Fundamental

37% Não utilizariam a Internet no próximo acesso

6% Usuários

54% Não usuários

6% Não sabem se utilizariam a Internet no próximo acesso

1% Usuários

9% Não usuários

Tabela 17 - Quadro de propensão ao uso de e-Gov (cidadão)

Como quase 60% da população em geral declarou-se propensa a fazer propaganda positiva do

e-Gov, recomendando o uso desses serviços para sua rede de contatos, isso indica uma

tendência de proliferação do uso de e-Gov por intermédio da propaganda “boca a boca”.

Nos dados apresentados abaixo também se nota a influência da faixa etária e nível de

escolaridade sobre a decisão de recomendar o uso de serviços e-Gov.

População Geral 59% Recomendariam a amigos o uso de serviços e-Gov

Já usuários ou não de e-Gov

89% Usuários

37% Não usuários

Idade

73% 16 a 34 anos

27% 60 anos ou mais

Escolaridade

87% Com Ensino Superior

7% Ensino fundamental

24% Não recomendariam a amigos o uso de serviços e-Gov

Já usuários ou não de e-Gov

9% Usuários

34% Não usuários

17% Não sabem se recomendariam o uso de serviços e-Gov

Já usuários ou não de e-Gov

2% Usuários

28% Não usuários

Tabela 18 - Nível de recomendação ao uso de e-Gov (cidadão)

Reforçando a percepção de que a divulgação dos serviços ocorre principalmente pelo seu

“network” pessoal, 51% dos usuários de e-Gov afirmaram que tomaram conhecimento dessa

Page 116: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

116

oferta por meio de informações de amigos, familiares ou conhecidos, enquanto que 38%

souberam em pesquisas em buscadores na web e 22% por meio da televisão.

Nesse quesito detectou-se que as pessoas de menor escolaridade são mais influenciadas por

sua rede de contatos dos que as com maior nível de ensino formal.

Vale reforçar a necessidade dos governos em investir para garantir a qualidade dos serviços

disponibilizados no ambiente web para que a divulgação realizada pelos seus usuários

continue positiva, devendo-se também investir em outras formas de divulgação para tornar o

e-Gov amplamente conhecido pela população.

População Geral Como soube sobre a oferta de serviços e-Gov que utilizou?

51% Network pessoal (amigos, familiares e conhecidos)

Escolaridade

43% Superior

48% Ensino Médio

58% Fundamental

86% Infantil

38% Busca ou pesquisa na Internet

22% Televisão

5% Anúncios ou folhetos em agências ou órgãos do governo

5% Atuação profissional

Tabela 19 - Formas de contato inicial com ofertas do e-Gov (cidadão)

Quanto ao nível de satisfação pelos serviços prestados pelo governo, percebe-se que a

população tem uma percepção de boa qualidade. Porém, ao se destacar apenas aqueles que

estão muito satisfeitos, os resultados sugerem uma baixa expectativa da população em relação

aos serviços oferecidos pelo governo, podendo ser fruto do distanciamento da população com

o serviço público causado pela baixa confiança na instituição “governo”. Assim, o governo

deve buscar aumentar o número de usuários muito satisfeitos e principalmente reverter o nível

de confiança da população pela sua instituição.

População Geral 85% Satisfeito ou muito satisfeito com os serviços utilizados

8% Muito satisfeito com os serviços utilizados

77% Satisfeito com os serviços utilizados

Quanto aos serviços oferecidos de e-Gov

Usuário e-Gov 91% Satisfeito ou muito satisfeito com os serviços e-Gov

13% Muito satisfeito com os serviços utilizados

78% Satisfeito com os serviços utilizados

Tabela 20 - Nível de satisfação com os serviços e-Gov (cidadão).

Page 117: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

117

População Geral Nível de Confiança na instituição “governo”

13% Confiam muito

53% Confiam pouco

34% Não confiam

Tabela 21 - Nível de confiança no governo (cidadão)

Entre as empresas, o uso do e-Gov é alto, com elevado nível de satisfação, o que aumenta a

propensão em recomendá-los e a voltar a utilizá-los.

Empresas Geral 95% Satisfeito ou muito satisfeito com os serviços de e-Gov usados

91% Recomendariam os serviços de e-Gov

96% Propensos a utilizar no futuro

62% Provavelmente utilizarão no futuro

Tabela 22 - Nível de satisfação com os serviços e-Gov (empresas)

No quadro abaixo, nota-se um nível de concordância maior para os usuários de e-Gov

provavelmente refletindo o seu maior conhecimento dessa tecnologia.

Quanto à participação da população, percebe-se interesse em participação ativa na formulação

dessas políticas públicas e na melhora do conhecimento e domínio sobre a ferramenta, bem

como em participar ativamente nas decisões que afetem também a sua comunidade.

Quanto à percepção dos benefícios alcançados pelo e-Gov, nota-se a compreensão de que a

sua existência facilita a vida das pessoas, que se obtêm resultados mais rápidos que

pessoalmente e que também reduz custos para o governo.

Outro aspecto importante é a percepção da falta de divulgação pelo governo dos serviços

disponibilizados em e-Gov.

Quanto às questões de segurança, nota-se, em níveis semelhantes, que as pessoas têm receio

de oferecer seus dados pessoais, seja diretamente ao governo ou por meio da Internet,

indicando que o governo deve investir em tecnologia e propaganda que dêem aos usuários dos

seus serviços a necessária percepção de segurança.

Page 118: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

118

População

Geral

Usuários

e-Gov

O governo deve ensinar as pessoas a utilizarem os serviços públicos pela

Internet 85% 92%

O governo deve consultar os cidadãos para decidir quais serviços

públicos precisam ser oferecidos pela Internet 80% 91%

A existência de serviços públicos pela Internet facilita a vida das pessoas 77% 92%

Falta divulgação sobre os serviços de governo oferecidos pela Internet 76% 84%

Serviços de governo pela Internet dão às pessoas resultados mais rápidos do que pessoalmente

67% 87%

A oferta de serviços públicos pela Internet é vantajosa para o governo, porque reduz custos

67% 83%

Eu gostaria de me envolver mais ativamente nas decisões que afetam a

comunidade/bairro onde eu vivo 65% 71%

Eu me sinto seguro(a) colocando informações pessoais, como CPF e RG,

em sites do governo 26% 29%

Eu me sinto seguro(a) colocando informações pessoais como CPF e RG

na Internet 22% 30%

Tabela 23 - Avaliações positivas sobre a prestação de serviços do governo (cidadão)

Aspectos relacionados aos sites de e-Gov foram avaliados e percebe-se que a população

entende ser fácil encontrá-los (80% de concordância). Possivelmente, o uso de mecanismos de

buscas cada vez mais eficientes contribuiu para essa resposta.

Quanto à experiência de uso dos sites, a pesquisa indica ser positiva, pois os usuários

entendem que possuem conteúdo relevante (82% de concordância), com clareza no conteúdo

e facilidade na navegação (78% de concordância). Essas respostas indicam que os sites são

organizados e bem estruturados proporcionando uma boa navegação. Além disso, parecem ter

bom funcionamento, uma vez que apenas 19% dos usuários de e-Gov afirmaram ter

encontrado algum problema ao acessá-los, em contrapartida aos 79% que não se queixaram de

nenhum problema.

Os que indicaram problemas no acesso, os detalharam conforme quadro a seguir, revelando

oportunidades de melhorias nos serviços e-Gov:

Page 119: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

119

Problemas

encontrados

Principal

problema

encontrado

Demora a carregar páginas 59% 34%

Não encontro a informação desejada 48% 29%

Não encontro o serviço desejado 35% 10%

Muito conteúdo que não é do meu interesse 35% 9%

Excesso de informação na página inicial 27% 9%

Tabela 24 - Problemas encontrados em sites do governo

Como foi visto nesse item, o cenário para o futuro do e-Gov no Brasil é muito positivo,

oferecendo uma demanda reprimida por esse tipo de serviço, um público que gostaria de usá-

los e influenciar em sua elaboração, além de diversas oportunidades de melhoria e

crescimento.

4.2.3 Qualificação do uso do e-Gov

Analisando o quadro abaixo, percebe-se que os sites de e-Gov no Brasil, para a população,

servem principalmente como fornecedores de informações, já que 90% dos usuários do e-Gov

o fizeram com essa intenção, mesmo considerando que 51% também realizaram transações.

Constata-se, assim, essa aplicação mais consultiva e menos transacional.

Usuários de e-Gov

90% Realizaram buscas de informações

39% Realizaram apenas busca de informações

51% Realizaram busca de informações e transações

61% Realizaram transações

10% Realizaram apenas transações

51% Realizaram busca de informações e transações

Tabela 25 - Uso de serviço e-Gov por categoria (Buscas e/ou transações)

Quando se refere às empresas, esse quadro se inverte, estando as transações em 100% dos

acessos, enquanto que a busca por informações ocorreu em 88%. Esse quadro provavelmente

é influenciado pelo uso cada vez maior das TIC’s no setor público, na busca de melhor

Page 120: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

120

desempenho, controle e eficiência, não só no aspecto redução de custos operacionais, mas

também na busca da redução de sonegação e evasão fiscal.

Comprovando a hipótese do uso incipiente do e-Gov no Brasil, existe o fato de que 29%,

quase 1/3 dos usuários de e-Gov, utilizou apenas um serviço em doze meses, e que a metade

(50%) usou apenas dois serviços. Quando se fala de empresas, esse quadro novamente se

inverte, com mais da metade delas (56%) utilizando até seis serviços nos últimos doze meses.

Figura 13 - Número máximo de serviços e-Gov utilizados (Fonte: CETIC.BR, 2010, p. 36)

Como colocado em CETIC.BR (2010, p. 36), apoiados nesses números, pode-se concluir

que o e-Gov no Brasil se concentra na simples busca de informações, sendo necessárias

ações para ampliar o nível de sofisticação dos serviços públicos eletrônicos – sem isso, não

se aproveita plenamente o potencial transformador das TIC’s, não gerando os benefícios

esperados pela população e pelo Estado.

4.2.4 Limitadores ao uso do e-Gov

Dentre os dados apresentados no gráfico a seguir, a questão da segurança e proteção de dados

pessoais se destaca entre os fatores limitadores ao uso do e-Gov, com 39% de concordância;

Page 121: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

121

segundo o CETIC.BR (2010, p. 37), não se pode afirmar se esse grupo realmente vivenciou

um incidente de segurança, porém fica perceptível a falta de informações sobre questões de

segurança, resultando em um sentimento de medo e desconfiança no uso da Internet mesmo

entre os não usuários do e-Gov. A partir disso o governo, além de oferecer interfaces seguras,

deve informar aos cidadãos as medidas e os procedimentos de segurança utilizados em seus

sites e aplicativos. Além disso, deve-se enfrentar a falta de confiança da população na

instituição governo – o que reflete na desconfiança por parte da população no uso que pode

ser dado às suas informações pessoais, somando-se a isso a impessoalidade da Internet que

impede a “identificação do funcionário” que fez o atendimento.

Aspectos técnicos também foram apontados, envolvendo a tecnologia usada,

congestionamentos, dificuldades no acesso, indisponibilidade dos serviços, conexões lentas,

quedas de sinal e interrupções nas transmissões de dados.

Outro ponto colocado pela substituição da interface humana pela digital é a falta de um

comprovante que dê garantias de que a operação foi bem sucedida, o que ressalta mais uma

vez a questão da falta de confiança dos usuários na instituição governo.

Aspectos que envolvem a qualidade dos serviços oferecidos pelo e-Gov são notados nos

fatores limitadores com maior nível de concordância:

29% - “Os serviços de que eu preciso são difíceis de encontrar”;

28% - “Dificilmente recebo retorno (resposta) às minhas solicitações”;

23% - “Os serviços de que eu preciso estão disponíveis na Internet, mas não é

possível completar a transação”;

21% - “Na Internet não tenho confirmação de que o pedido chegou e que será

processado”;

21% - “Usar a Internet para contato com o governo é muito complicado”.

Mesmo considerando a percepção positiva que as pessoas demonstram em relação aos

serviços de e-Gov, com uma alta taxa de recomendação e satisfação, percebe-se nos pontos

colocados acima que existem muitas oportunidades de melhoria na qualidade e variedade dos

serviços oferecidos, por meio de serviços fáceis de usar e de encontrar, eficazes, funcionais,

que sejam transparentes e permitam o seu acompanhamento em todas as suas etapas.

Page 122: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

122

Nessa direção, quando questionados sobre quais aspectos o governo deveria levar em conta na

construção de sites, sobressaíram os pontos relacionados à qualidade no serviço:

62% - “a clareza da linguagem, sem siglas desconhecidas ou palavras que não

conheço”;

56% - “a facilidade de usar e encontrar exatamente o que procuro”;

Para esse grupo, que percebe as vantagens da Internet em relação ao acesso presencial, é de

grande importância garantir a efetividade do seu uso, fazendo com que todas as suas

demandas sejam atendidas pela via digital, possibilitando que o e-Gov se consolide como

forma de acesso a qualquer serviço, independentemente de sua natureza ou complexidade.

Outros fatores limitadores importantes são a propriedade de computador e disponibilidade de

acesso à Internet no domicílio, já que estão associados ao uso mais frequente da Internet,

trazendo habilidade e familiaridade com seu uso, implicando em um aumento de confiança, o

que poderia afetar as respostas da questão sobre segurança e proteção de dados pessoais.

Entre as empresas, além da maioria já utilizar o e-Gov há mais de três anos (62%), existe a

necessidade de se instalar aspectos competitivos tornando o uso dos serviços eletrônicos,

envolvendo governo, bancos, clientes ou fornecedores uma prática recorrente. A confiança

está presente nessas operações e em algumas organizações uma parte significativa das

transações ocorre pelo meio eletrônico.

Algumas vantagens são destacadas pelo usuário da empresa, como a agilidade, a economia de

tempo, redução de custos e autonomia que é possível alcançar utilizando o e-Gov.

No que tange à segurança, o usuário da empresa, ao contrário dos cidadãos, ressalta o registro

e a consistência das informações, além da possibilidade de poder obter e imprimir

informações confirmando a transação, sendo uma vantagem destacada principalmente quando

há o contraponto com o atendimento telefônico.

O uso do e-Gov traz segurança e credibilidade na conduta profissional e pública por reduzir a

margem de manobra, tanto da fiscalização como por parte dos contratantes, por exemplo, no

caso das compras governamentais com ferramentas como o pregão eletrônico.

Page 123: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

123

Entre as empresas, as maiores dificuldades citadas dizem respeito a pontos que envolvem

questões de qualidade do serviço e de segurança de informação:

48% - “Os serviços de que a empresa precisa são difíceis de encontrar”;

31% - “Na Internet, não há confirmação de que o pedido chegou e que vai ser

processado”;

31% - “Por preocupação com a proteção e a segurança dos dados da empresa”;

26% - “Usar a Internet para contato com o governo é muito complicado”.

Figura 14 - Fatores limitadores ao uso de serviços de e-Gov (Fonte: CETIC.BR, 2010, p. 37)

4.2.5 Barreiras ao uso do e-Gov

As barreiras ao uso do e-Gov mais citadas foram as seguintes:

Page 124: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

124

48% - “Prefiro ser atendido por uma pessoa frente a frente”;

48% - “Não sei usar o computador muito bem”;

43% - “Não tenho computador”;

36% - “Não tenho acesso à Internet em casa”.

A proximidade entre a preferência pelo atendimento presencial e barreiras relacionadas à falta

de acesso à Internet, a não propriedade de computador e a falta de habilidade em seu uso

mostram a existência de uma relação entre o domínio das habilidades e o uso do governo

eletrônico.

Provavelmente, a preferência pela forma presencial surja como uma solução a essas

deficiências; além disso, pode faltar confiança do cidadão em sua capacidade de resolver as

questões de sua relação com o governo.

O constrangimento pela falta de conhecimento e habilidade no uso dos recursos

computacionais, especialmente detectado nas faixas etárias mais altas, levam essas pessoas a

preferir o acesso presencial justificando com a falta de interesse, tempo e paciência para esse

aprendizado. Há que se destacar o papel desempenhado pelos mais jovens em suas famílias no

que se refere ao auxílio nos assuntos que envolvem questões eletrônico-digitais.

Dificuldades na navegação, na compreensão, na interação com os sites e links também são

mencionados, acrescentando ainda relatos de problemas quanto à complexidade para chega-

rem onde desejam: abertura e preenchimento de inúmeras guias, caminhos longos e

complexos, o que cria a necessidade da ajuda de terceiros. A falta de informação e habilidades

do usuário podem contribuir para tal queixa, porém é interessante notar que isso sugere que a

linguagem dos sites de serviços públicos ainda é complicada e de difícil entendimento para os

usuários em geral.

Os pontos envolvendo a posse do computador e o acesso à Internet já encontram amparo em

políticas públicas. A partir dessa análise, é possível afirmar que algumas intervenções são

necessárias para garantir o acesso da população ao e-Gov como principal forma de acesso a

esses serviços, gerando resultados que melhorem suas vidas e simplifiquem o acesso a direitos

e obrigações por parte das empresas.

Page 125: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

125

Figura 15 - Barreiras ao uso de serviços de e-Gov (Fonte: CETIC.BR, 2010, p. 41)

4.2.6 Desafios ao e-Gov

Conforme citado em CETIC.BR:

A premissa fundamental do governo eletrônico são as necessidades e os desejos do

cidadão estarem refletidos na formulação das ofertas de serviços. O uso de novas

tecnologias para a transformação dos processos internos governamentais,

modernização dos instrumentos de gestão e entrega de serviços públicos pelas

agências governamentais deixou de ser uma opção e tornou-se condição essencial

para mudar o paradigma de eficiência do setor público que passou a ser o de criar

um governo que trabalhe melhor, custe menos e focalize o cidadão (CETIC.BR,

2010, p. 43).

Dentro dessa linha, o trabalho de pesquisa realizado pelo CETIC.BR (2010) buscou

compreender se os anseios do cidadão refletem-se nos serviços de governo eletrônico

Page 126: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

126

disponibilizados, e quais são as oportunidades para sua melhoria, com base na premissa

fundamental de foco no cidadão.

Nesse trabalho foram identificados pontos relevantes para essa análise:

desconhecimento da extensão de serviços já disponibilizados em e-Gov;

33% não souberam responder quais serviços deveriam ser disponibilizados e 54%

responderam que não haviam serviços a serem disponibilizados via web;

quando informados sobre o repertório de serviços oferecidos, consideraram-no vasto e

útil, maior do que previamente imaginado;

altos indicadores de satisfação, recomendação e propensão ao uso.

A partir disso, seria lícito supor que o e-Gov brasileiro atende amplamente as necessidades e

anseios do cidadão, que estaria satisfeito com a qualidade desses serviços, porém existem

indícios que contradizem essa conclusão, como os fatores limitadores de uso e as barreiras ao

não-usuário.

A princípio, o uso do e-Gov mostrou-se superficial e focado na busca de informações, no uso

de poucos serviços e na baixa frequência, predominando o acesso presencial aos serviços do

governo. Diante disso, surge a questão: Como é possível que altas taxas de satisfação,

recomendação e propensão ao uso não sejam convertidas em uma apropriação completa da

ferramenta, em um nível semelhante ao alcançado no relacionamento governo-empresa?

A resposta a essa questão deve levar em consideração os seguintes elementos contextuais da

sociedade brasileira:

a compreensão do indivíduo acerca da questão da cidadania;

a comunicação estado-sociedade.

Os resultados da pesquisa demonstram que a relação governo-cidadão transforma-se em uma

relação de mão única, com os participantes não sendo pró-ativos, não se percebendo como

agentes do processo, culminado em uma postura passiva, abdicando do exercício pleno de

cidadania. Como citado em CETIC.BR (2010, p. 45): “O cidadão não participante do processo

social espera que o governo forneça as soluções, não se informa a respeito da esfera pública, e

não acredita que possa influenciar o processo de maneira significativa”.

Page 127: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

127

O quadro abaixo em seus números demonstra o referido acima, reforçando que ao abrir mão

de sua participação em causas de ordem pública, o cidadão esvazia o seu papel na sociedade,

reduzindo sua relação com o governo a uma troca mínima de direitos e deveres, sendo que

nesse contexto, o cidadão talvez não conheça de fato os seus direitos. Esse cenário explica a

baixa expectativa sobre os serviços oferecidos de e-Gov, o que provavelmente favoreceu os

seus altos índices de aprovação.

Essa avaliação explica a contradição entre o cenário positivo para o uso do e-Gov e o seu uso

incipiente, bem abaixo do seu real potencial.

Influência percebida pelos cidadãos em questões de ordem pública

12% Participam em associações, condomínios, audiências públicas e sindicatos

Por região

21% Norte (maior índice percentual)

8% Centro-Oeste (menor índice percentual)

Por faixa etária

19% 45 a 49 anos (maior índice percentual)

7% 16 a 24 anos (menor índice percentual)

18% Já se engajaram para resolver problemas em suas comunidades

Por faixa etária

28% 45 a 49 anos (maior índice percentual)

11% 16 a 24 anos (menor índice percentual)

Nível de influência que as pessoas podem ter nas decisões de seus municípios

22% Muita influência

25% Influência moderada

32% Pouca influência

17% Nenhuma influência

Nível de informação acerca das ações do governo

50% São pouco ou nada informados (maior índice percentual)

4% Bem informados (menor índice percentual)

Tabela 26 - Influência percebida pelos cidadãos em questões de ordem pública

Quando se trata da comunicação Estado-sociedade, especificamente sobre e-Gov, percebem-

se problemas face ao baixo nível de conhecimento sobre os serviços disponibilizados. Pouco

mais da metade da população sabe que existem serviços do governo disponíveis na Internet e

42% desconhecia completamente essa informação.

Page 128: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

128

Quanto aos canais de comunicação, foram mencionados, além das ações mais tradicionais

como em campanhas em canal aberto, até em formatos diferenciados como merchandising

social, jornalismo comunitário, folhetos e cartilhas, artigos em jornais de grande circulação e

gratuitos, além de informativos em boletos de impostos e contas de concessionários de

serviços públicos, como água e luz.

Ações em mídias sociais também foram mencionadas e incentivadas pelos entrevistados e

assim investigou-se também a penetração desses meios entre os entrevistados:

Penetração das mídias sociais (ao menos um acesso nos últimos 3 meses)

População

Geral

Usuários

do e-Gov

Não usuários

do e-Gov

79% 72% 82% Orkut

77% 74% 68% MSN

60% 54% 49% YouTube

18% 18% 14% Blogs

17% 15% 13% Twitter

11% 10% 7% Facebook

Tabela 27 - Penetração das mídias sociais (ao menos um acesso nos últimos 3 meses)

Sobre a retenção das informações nas comunicações Estado-sociedade, conforme o quadro

abaixo, percebe-se que metade da população não se recorda de qualquer propaganda enquanto

que da outra metade, apenas 14% se lembram de propaganda que abordava alguma explicação

sobre um serviço ou programa do governo, indicando que o foco das comunicações Estado-

sociedade está voltado para a divulgação de obras ou serviços em andamento ou sendo

entregues, dando um beneficio menor para a população comparativamente à comunicação

voltada para explicações e orientações, sendo provável que esteja pautada no pressuposto de

que quanto mais o governo falar de suas obras e serviços, maior será o seu nível de aceitação

e popularidade, podendo o baixo conhecimento dos serviços de e-Gov estar relacionado em

certa medida a essa orientação do governo.

Page 129: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

129

Lembrança das peças publicitárias do governo

48% Recordam-se de alguma propaganda sobre programas ou serviços do governo

38% Relacionadas à divulgação da existência de uma obra ou serviço

30% Relacionadas aos resultados de uma obra ou serviço que está sendo entregue

14% Disseram ser uma novidade que o governo estava lançando

14% Disseram que se tratava de uma explicação sobre um serviço ou programa

50% Não se lembram de qualquer propaganda sobre programas ou serviços do governo

Tabela 28 - Lembrança das peças publicitárias do governo

4.2.7 Oportunidades de melhorias e novos serviços

Partindo-se da premissa fundamental de que o governo eletrônico deve estar centrado no

cidadão, existem algumas linhas de ação a ser consideradas para o desenvolvimento do

governo eletrônico no Brasil.

Simplicidade e inclusão: As aplicações do e-Gov devem ser simples, intuitivas e, por que não,

lúdicas, sempre com o propósito de favorecerem aqueles com poucas habilidades e

familiaridade com a Internet. Nessa linha devem-se considerar as aplicações voltadas às redes

sociais, em especial os sites de relacionamentos, uma mídia importante pelo seu caráter

amplamente inclusivo, tanto para as camadas mais desfavorecidas da população, quanto para

as pessoas com níveis de escolaridade menores, além de alcançarem indivíduos em todas as

faixas do espectro etário, de crianças até os mais idosos.

Qualidade dos Serviços: Nessa linha de ação as questões relacionadas com a segurança das

informações, desempenho das aplicações, infraestrutura de sistemas, clareza na linguagem,

objetividade dos portais e a criação de canais auxiliares de apoio (telefone, e-mail etc.) são

oportunidades de melhoria que, além de modernizá-lo, atribuirão maior qualidade aos serviços

oferecidos, preparando o e-Gov para os desafios da inclusão. Paralelamente, a adoção mais

intensa de certificados digitais, smart cards ou outros dispositivos que aumentem os níveis de

segurança durante a navegação e a realização dos serviços aumentará a percepção do cidadão

quanto à melhoria na qualidade dos serviços, reduzindo fatores limitadores e barreiras ao uso.

Disponibilizar novos serviços: A partir das demandas identificadas junto aos usuários, criar

novos serviços e funcionalidades, focando em alguns pontos como a área de Saúde, com

Page 130: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

130

serviços de agendamento de consultas e perícias, divulgação de endereços de postos,

disponibilidade de serviços médicos e afins, além de queixas relacionadas ao atendimento

público. Outro ponto bem citado está relacionado à emissão de documentos, como certidão de

nascimento, RG, e título de eleitor, além de serviços de recolocação de trabalho, com ofertas

de emprego, o que na percepção do cidadão ainda é insuficiente.

Comunicação: Nesse quesito, dois pontos chamam a atenção: o primeiro está relacionado ao

desconhecimento das pessoas sobre os serviços de e-Gov. O segundo ponto está relacionado

ao cenário positivo para o e-Gov em razão dos altos índices de aprovação, recomendação e

propensão ao uso. A combinação desses dois pontos sugere uma demanda reprimida,

indicando que, uma vez vencida a barreira do desconhecimento, o cenário positivo ao e-Gov

alavancará a apropriação dessa ferramenta por parte do cidadão.

Outra questão relevante é a fixação das mensagens publicitárias e o foco que elas possuem

que, como visto em item anterior, está direcionado para a divulgação de obras ou serviços em

andamento ou sendo entregues. Além disso, do grupo entrevistado, apenas 14% lembraram de

alguma mensagem com conteúdo explicativo ou de orientação, some-se a isso que quando se

questionou quais conteúdos deveriam ser priorizados nos sites do governo, foram indicados

como os mais relevantes: explicações sobre os direitos, com 83% de concordância, e como

utilizar os serviços, com 81% de concordância, demonstrando que as informações mais

desejadas pelo cidadão não estão sendo transmitidas pelo governo.

As mídias de comunicação mais tradicionais, como a televisão, são bem citadas pelos

entrevistados. Porém, o desejo do cidadão indica para uma comunicação educativa,

detalhando o que e como fazer e não apenas expositiva, mostrando o que foi feito e o que vai

ser lançado e considerando a presença do cidadão nas novas mídias sociais e sites de

relacionamentos, o que favorece a adoção de estratégias de comunicação que privilegiem um

modelo participativo e de construção conjunta do conhecimento, inclusive levando o cidadão

a se envolver mais em questões da esfera pública.

Educação: Percebe-se ao longo dos itens anteriores deste capítulo que o cidadão com maior

nível educacional apropria-se mais fácil e rapidamente das novas tecnologias que envolvem a

Internet, ganhando autonomia e se emancipando para estabelecer seus relacionamentos,

dentre eles a sua relação com o governo e sua participação nas questões de ordem pública.

Nessa linha, é lícito supor que isso aproximaria o cidadão da esfera pública, de forma que por

Page 131: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

131

si só pudesse compreender a dimensão dos seus direitos e deveres, e o seu papel relevante no

processo de elaboração de políticas públicas do governo. Em resumo, o que se pretende com

isso é a consolidação da cidadania.

4.3 O PORTAL

4.3.1 Ética, legalidade e respeito

Ao introduzir-se a proposta de portal, dada a sua importância, deve ser abordada a questão de

ética, legalidade e respeito, e discorrer sobre alguns conceitos e como serão tratados nessa

proposta de Portal.

Quando se fala em captura de dados na Internet para a formação de um banco de dados a ser

compartilhado de forma livre e gratuita, é preciso estar atentos a uma série de aspectos para

que direitos como a privacidade, autoria e permissão para sua reprodução e tratamento sejam

observados.

Neste trabalho se propõe o uso de três modos para a coleta de dados na web: web services,

API’s e scraping43

.

Quando se trata de web services ou API’s, em tese existe a concordância explícita, mesmo que

não formal, de acesso, captura e tratamento das informações dos sites que as detêm pela

própria disponibilização desses serviços que, por métodos e protocolos previamente definidos,

entregam tais dados a quem os solicitar.

Porém quando se trata de scraping, vai-se a uma área cinzenta na qual se pode violar o direito

à privacidade das pessoas ou organizações. Apesar de existir o entendimento de que o simples

fato de a pessoa ou organização demonstrar algum interesse em divulgar tais informações

eliminaria a violação ao seu direito à privacidade, deve-se observar que tais dados podem ter

algum contexto coletivo e que poderiam, se divulgados, prejudicar os interesses de terceiros.

Sobre isso, Patrícia Peck (apud PINHEIRO, 2007, p. 44), diz:

43 Técnica de captura de dados que utiliza agentes de software para ler as páginas dos sites e, a partir disso, extrair ou “raspar” os dados que desejar.

Page 132: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

132

É evidente que o direito à privacidade constitui um limite natural ao direito à

informação. No entanto, não há lesão a direito se houver consentimento, mesmo que

implícito, na hipótese em que a pessoa demonstra de algum modo interesse em

divulgar aspectos da própria vida. Assim como há limites naturais ao direito à

privacidade quando atinge interesses coletivos. Nesse caso, a predominância do

interesse coletivo sobre o particular requer verificação caso a caso.

Vale registrar, segundo Doneda (2009), que existem no Brasil alguns mecanismos legais para

a proteção de dados pessoais refletidos na Constituição de 1988, na Lei de Habeas Data de

1997 e no Código de Defesa do Consumidor de 1990.

Outro importante item a ser observado é a questão dos direitos autorais. O fato de uma obra

estar na web não implica que ela esteja em domínio público. A disponibilização de uma obra –

seja ela artística, literária ou científica – em um website para fins de promoção, divulgação e

disseminação, ainda a mantêm, inclusive o site, como uma obra protegida pela legislação

brasileira que regula direitos autorais. Sobre a questão, Gustavo Testa (apud CORRÊA, 2008,

p. 27) se manifesta da seguinte forma:

Então, a construção de uma página na Internet, objetivando a divulgação e

disseminação de trabalho artístico, literário ou científico, próprio e original, com ou

sem cunho oneroso, seria uma verdadeira obra, protegida pela Lei de Direitos

Autorais, culminando em uma série de direitos patrimoniais e morais ao respectivo

autor. O ato de construir e colocar uma página na Internet não significa abrir mão de

direitos autorais; somente sua manifestação inequívoca nesse sentido teria o condão

de torná-la pública.

Ainda neste tema, Patrícia Peck (apud PINHEIRO, 2007, p. 91) se posiciona na mesma linha

quando afirma que:

É importante destacar que o acesso a dados lançados na rede não os torna de

domínio público, não outorgando ao usuário o direito de dispor deles da forma que

lhe aprouver. Estando ou não na forma digital, o Direito deve proteger a criação

humana, o direito imaterial. Mas a falta de controle e coerção permite que aconteça

na web o que já ocorre em relação à cópia xerox de livros, só que em dimensão

muito maior. Essas violações constantes prejudicam não só o autor como,

principalmente, o próprio Direito, que fica desmoralizado diante dos infratores e de

toda a sociedade. Toda conduta delituosa com alto grau de assiduidade leva ao

descrédito da norma jurídica a que se refere.

Mesmo com os entendimentos acima, ainda pairam dúvidas e questões sobre o tema dos

direitos autorais quando falamos em Internet, que tem em seu DNA o fato de ser uma rede de

compartilhamento de dados e assim, utilizá-la, segundo alguns, já seria uma autorização

tácita, no mínimo pelo conhecimento geral que haveria, quase que certamente, a ampla

propagação da obra disponibilizada.

Page 133: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

133

Este trabalho, visando critérios de respeito legal e ético, pretende lançar mão de um processo

de road map que irá determinar, além de quais inovações serão implementadas no portal,

também analisar, caso a caso, quais novas séries e dados serão integrados ao acervo do portal,

observando:

reputação e credibilidade da fonte que disponibilizou o dado na web para garantir sua

qualidade e o direito a sua publicação pela fonte original;

avaliar se a publicação de tal informação não trará prejuízos a terceiros;

buscar autorização, explícita ou implícita para captura e tratamento dessas

informações.

Além disso, será observada a publicação dos créditos pela informação, citando a sua fonte,

autoria, forma de coleta, e outros dados de forma análoga às referências ao uso de uma obra

literária.

Concluindo, vale registrar que estão em andamento, em diferentes estágios de

desenvolvimento, legislações que pretendem propor a regulamentação de temas de alto

interesse para a sociedade, associados ao uso de serviços e da capacidade de disseminação de

informações pela Internet, da publicação de dados abertos governamentais, estabelecendo

direitos e obrigações, tipificando crimes cibernéticos e determinando penas para esses crimes:

a) Marco Civil da Internet44

– Propõe estabelecer direitos e deveres fundamentais

relativos ao uso da Internet no Brasil e determinar as diretrizes para atuação da União,

dos Estados, do Distrito Federal e dos Municípios em relação à matéria. A disciplina

do uso da Internet no Brasil terá como fundamentos o reconhecimento do alcance

global da Internet, o exercício da cidadania em meios digitais, os direitos humanos, a

pluralidade, a diversidade, a abertura, a livre iniciativa, a livre concorrência e a

colaboração, e observará os seguintes princípios:

garantia da liberdade de expressão, comunicação e manifestação de

pensamento;

proteção da privacidade;

proteção dos dados pessoais;

preservação e garantia da neutralidade da rede;

44 http://culturadigital.br/marcocivil

Page 134: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

134

preservação da estabilidade, segurança e funcionalidade da rede, por meio de

medidas técnicas compatíveis com os padrões internacionais e pelo estímulo ao

uso de boas práticas;

preservação da natureza participativa da rede.

Esse anteprojeto de Lei elaborado pelo Ministério da Justiça foi objeto de debate

público e deverá ser enviado ao Congresso Nacional para votação em meados do

segundo semestre deste ano.

b) Lei para Proteção de Dados Pessoais 45

– A partir de uma iniciativa do Ministério da

Justiça (MJ) e em parceria com o Centro de Tecnologia e Sociedade da Fundação

Getúlio Vargas do Rio de Janeiro (CTS/FGV-Rio), está em consulta pública esse

anteprojeto de Lei que visa propor a base normativa para o tratamento de dados

pessoais, proporcionando melhorias e inovações sobre a privacidade e proteção de

dados em atividades ligadas à Internet. Sobressaindo-se temas como o monitoramento

online, a interconexão entre bancos de dados, o papel e a competência da autoridade

de garantia, o tratamento, a gestão e a segurança dos dados pessoais coletados, dentre

outros.

c) Projeto de Lei 84/1999 ou Lei Azeredo46

– De autoria do ex-Deputado Luiz Piauhylino

(PE), foi apresentada em 24/02/1999 e tem como seu atual relator o Deputado Eduardo

Azeredo (MG). Esse projeto de Lei propõe tipificar condutas realizadas mediante uso

de sistema eletrônico, digital ou similares, de rede de computadores, ou que sejam

praticadas contra rede de computadores, dispositivos de comunicação ou sistemas

informatizados e similares, versando sobre pontos como, por exemplo, o tempo de

retenção e guarda dos dados de acessos pelos provedores de internet e a criminalização

de compartilhamento de arquivos.

d) Projeto de Lei 41/2010 ou Lei Geral de Acesso à Informação47

– De autoria do

Deputado Reginaldo Lopes (MG), esse Projeto de Lei estabelece procedimentos a

serem observados pelos órgãos públicos, em todas as esferas de poder, para garantir o

acesso à informação previsto na Constituição Federal (artigo 5o. inciso XXXIII e

artigo 37o.). Se aprovado na sua forma atual, esse projeto poderá ser um divisor de

45 http://culturadigital.br/dadospessoais/ 46 http://www.safernet.org.br/site/institucional/projetos/obsleg/pl-azeredo 47http://www.senado.gov.br/atividade/materia/Consulta.asp?STR_TIPO=PLC&TXT_NUM=41&TXT_ANO=2010&Tipo_Cons=6&IND_COMPL=&FlagTot=1.

Page 135: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

135

águas quanto à disponibilização de dados abertos públicos pela inclusão dos Oito

princípios dos dados abertos governamentais48

em seu texto, conforme citado em

Silva (2010, p. 84 a 87) e também mencionado em W3C et al., (2011, p. 45):

Alguns meses antes da aprovação do projeto de lei na Câmara, durante a passagem

por uma das comissões que tinham o poder e a responsabilidade de modificá-lo, a

Comunidade Transparência Hacker49 inseriu sugestões que adaptam o texto para

garantir o acesso a dados abertos. Hoje, o projeto de lei engloba os oito princípios

dos dados abertos, de forma a garantir o acesso a informações em formatos abertos,

não proprietários e compreensíveis por máquina; entre outras características.

4.3.2 Proposta de Portal

Neste trabalho discute-se uma proposta de modelo para contribuir na transformação desse

cenário de dados públicos de pouca acessabilidade por meio da formatação de um portal com

a finalidade de consolidar informações públicas, basicamente, séries temporais, disponíveis na

web e originadas de entidades e organizações de governo, sejam federais, estaduais ou

municipais, bem como de empresas de economia mista, sindicatos patronais e setoriais,

ampliando o espectro dos dados além dos Dados Governamentais Abertos (DGA) para Dados

Sociais Abertos (DSA) e na essência criando um Mashup50

.

Esse Portal receberá a coleta dos dados brutos e sem formatação para no passo seguinte

colocá-los no padrão Linked Data e assim disponibilizá-los aos interessados.

Conceitualmente, esse portal deverá ser desenvolvido para a coleta de dados utilizando-se de

webservices, api’s e técnicas de scraping (“raspagem”), integração de dados em formatos

compreensíveis como, por exemplo, CSV, TSV e TXT, mesmo que envolvam intervenções

humanas, e eventualmente por inclusões manuais.

A partir disso o software deverá processar as informações capturadas gerando séries históricas

dos dados coletados, permitindo sua disponibilização aos interessados em formatos

estruturados e compreensíveis por humanos, como planilhas, e por máquinas, como XML,

RDF etc., possibilitando dessa maneira que interessados, inclusive desenvolvedores, possam

integrá-las a sistemas existentes ou criando sistemas em que elas possam ser inseridas.

48 http://www.alagoascolaborativo.org.br/dadosabertos/post/8-princ%C3%ADpios-dos-dados-abertos 49 http://thacker.com.br/ 50 É um website ou uma aplicação web que usa conteúdo de mais de uma fonte para criar um novo serviço completo.

Page 136: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

136

Deverá estabelecer integração com sites que permitam a visualização de dados ou até mesmo

desenvolvê-las de forma a permitir melhor interpretação e compreensão das informações para

os usuários finais por meio desse recurso.

Na figura abaixo a proposta deste Portal vem representada graficamente. E será detalhado a

seguir o objetivo macro de cada componente representado.

Figura 16 - Desenho esquemático da proposta do Portal de séries históricas.

Page 137: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

137

Nessa proposta, o projeto está dividido em quatro entidades:

a) os fornecedores de dados públicos e sociais abertos, que podem ser órgãos dos

governos das três esferas de poder, sindicatos patronais, institutos e autarquias;

b) a sociedade e seus cidadãos, pessoas físicas ou jurídicas, como consumidores;

c) o próprio portal como agente de transformação e consolidação;

d) e, por fim, os que são chamados de contribuidores materiais e tecnológicos.

Assim, por meio das interações entre eles, serão gerados os conteúdos que serão

disponibilizados e consumidos no portal.

O papel de cada uma dessas entidades será definido da seguinte forma:

fornecedores de dados sociais abertos: grupo composto de entidades públicas ou não,

que disponibilizam dados públicos de interesse socioeconômico. Esses dados estarão

em padrões que possam ser compreendidos por computadores e capturados

automaticamente por meio de web services, até aqueles que precisem ser capturados

manualmente;

sociedade: grupo composto por qualquer interessado em acessos aos dados

disponibilizados, sejam pessoas físicas, jurídicas, nacionais ou de outros países;

portal: no contexto dessa entidade considera-se toda concepção tecnológica do projeto

desde o seu desenho de software, passando por sua infraestrutura tecnológica

necessária, chegando às pessoas envolvidas em torná-lo realidade e a mantê-lo vivo e

pulsante;

contribuidores: será formado por pessoas, empresas ou entidades que possam

contribuir para o sucesso e perenidade do projeto, seja oferecendo conhecimento sobre

os dados capturados, esforço para a publicação dos dados que somente possam ser

capturados manualmente, publicação de artigos relacionados ou até mesmo

materialmente.

Ainda sobre os contribuidores, vale distingui-los em dois grupos específicos:

Contribuidores materiais serão aqueles que de alguma forma possam contribuir

para a existência do portal, como entidades ou instituições de fomento tecnológico

ligados ao governo ou pessoas jurídicas que se interessem em ter o seu nome

associado a um projeto social desse tipo.

Page 138: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

138

Contribuidores tecnológicos serão aqueles que possam emprestar seu

conhecimento e especialização no desenvolvimento do projeto. Além de

desenvolvedores e pesquisadores das Ciências das Tecnologias da Informação e

Comunicação, também serão bem-vindos pesquisadores da Comunicação e

Semiótica, da Economia e das Ciências Sociais, entre outras áreas de interesse.

Resta por fim esclarecer o papel do Gestor de Série Temporal. Essa figura terá o papel de, ao

“adotar” uma série temporal, ser o responsável pelo sucesso de suas atualizações e pela

completude e clareza das suas informações, entre outras, pela periodicidade de publicação,

fontes, detalhamento de sua lógica de formação e eventual contato via web com usuários que

manifestem dúvidas ou sugestões. Apesar de possuir uma responsabilidade permanente, pode

ser considerado também um contribuidor tecnológico.

Já dentro do Portal, percebe-se a divisão em cinco blocos principais: Captura, Semântica,

Entrega, SEO e Road Map, que serão abordados, bem como seus componentes, nos itens

seguintes.

4.3.2.1 Detalhamento do Portal

4.3.2.1.1 Captura

Este bloco conterá todos os recursos tecnológicos para que a captura de dados ocorra,

envolvendo os tratamentos de API’s, web services de entrada, agentes para scraping.

Considerando existirem dados relevantes e que não possam sem capturados por esses

mecanismos, deverá contemplar também uma interface para entrada de dados. Além disso, um

“robô de buscas” comandará e controlará o processo de captura das séries. Abaixo seguem os

detalhes dessas funcionalidades.

4.3.2.1.1.1 Coleta

As coletas das informações serão comandadas pelo “robô de buscas”, a ser detalhado a seguir,

quando passará os argumentos e acionará o mecanismos de coleta necessários (API, web

Page 139: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

139

service ou Agente de Scraping) para que busquem os dados especificados nas URL’s

determinadas.

Considerando a multiplicidade de sites de e-Gov e a falta de padronização na estrutura e na

maneira de disponibilização dos dados, acredita-se que o desenvolvimento desses mecanismos

possa chegar à personalização até ao nivel de série. Por exemplo, em um site, a série A possui

uma estrutura e uma forma de disponibilização por meio de web services, e a série B,

disponivel no mesmo site, somente poderá ser coletada por um Agente de Scraping.

Recomenda-se que o foco inicial das coletas sejam em sites de e-Gov que disponibilizem

dados por meio de web services ou API’s como por exemplo as séries históricas disponíveis

no site do Banco Central do Brasil, de maneira a inserir conteudo no banco de dados com

maior rapidez, aumentando sua atratividade para a sociedade.

4.3.2.1.1.2 “Robô de buscas”

O “robô de buscas” gerenciará e comandará o processo de captura dos dados. A partir de

metadados definidos para as séries históricas, ele deverá conhecer detalhes de cada uma delas,

como por exemplo: URL em que está disponível, método de captura (web service, API,

scraping ou manual), argumentos que devem ser utilizados no caso das API’s e web services,

a estrutura dos dados que serão recebidos (layout) como retorno, periodicidade / data

aproximada de publicação pela fonte e quem é o Gestor de Série Temporal responsável por

ela.

Por meio dessas informações essenciais o “robô de buscas” saberá o momento em que as

séries devem estar disponíveis para coleta, quais argumentos devem ser informados, em qual

URL estarão disponíveis e quem seria o responsável por ela em caso de falha na coleta ou

alerta para coleta quando o método de captura for manual.

Ao receber o retorno da coleta, deverá gravar as atualizações das séries capturadas com

sucesso no banco de dados ou reagendar a repetição da coleta até que obtenha sucesso, ou

atingindo um número de repetições sem sucesso, alertar o Gestor de Série Temporal

responsável.

Page 140: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

140

Vale registrar que terá também o papel de validador dos dados coletados, alertando ao Gestor

da Série Temporal a ocorrência de inconsistências determinadas a partir de parâmetros

estabelecidos em metadados da série.

4.3.2.1.1.3 Interface de entrada de dados

Essa interface será o canal de atualização das séries em que não foi possível a coleta por meio

do “robô de buscas”, ou que o método de coleta seja manual. Deverá possuir uma interface

homem máquina bem definida no sentido de permitir que essa atividade ocorra de forma

simples e rápida.

4.3.2.1.2 Semântica

Neste bloco estarão concentradas as questões ligadas aos metadados, ontologias, RDF e banco

de dados. Tanto para sua definição e desenvolvimento quanto à sua implementação e uso.

4.3.2.1.2.1 Ontologias

Rautenberg et al. (2009, p. 134), citando Gasevic et al. e Gómez-Perez et al., destaca o esforço

para o desenvolvimento de ontologias, afirmando que:

Para o desenvolvimento de ontologias é necessário um esforço considerável de

engenharia, disciplina e rigor, onde princípios de projetos, atividades e processos de

desenvolvimento, tecnologias de suporte e metodologias sistêmicas devem ser

empregados. Nesse sentido surge a Engenharia de Ontologias preocupando-se com o

conjunto de atividades, o processo de desenvolvimento de ontologias, o ciclo de vida

de ontologias, os métodos e metodologias para desenvolver ontologias e as

ferramentas e linguagens de suporte à construção de ontologias.

Ainda segundo Rautenberg et al. (2009, p. 134), a terminologia da Engenharia de Ontologias

é baseada na Engenharia de Software. Dessa forma, em seu processo de desenvolvimento são

considerados os seguintes estágios:

Page 141: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

141

especificação – identificar o propósito e escopo da ontologia;

conceitualização – descrever, em modelo conceitual, a ontologia em questão,

conforme especificações definidas na etapa anterior;

formalização – desenvolver o modelo formal a partir da descrição conceitual;

implementação – implementar a ontologia formalizada em uma linguagem de

representação;

manutenção – atualizar e corrigir a ontologia implementada à medida que surjam

novos requisitos.

Rautemberg também menciona outras atividades, importantes, que devem ser executadas

durante o ciclo de vida da Ontologia, como:

aquisição de conhecimento – adquirir conhecimento sobre um domínio por meio de

técnicas de elicitação do conhecimento com especialistas de domínio e/ou por acesso à

bibliografia relevante;

avaliação – julgar tecnicamente a qualidade da ontologia por meio de:

o avaliação técnica – julgar a ontologia e a documentação diante de um frame de

referência, o que envolve duas tarefas:

verificação, visando assegurar o alinhamento da ontologia com o

entendimento aceito sobre o domínio em fontes de conhecimento

especializado;

validação, buscando garantir que a ontologia atende à sua finalidade,

conforme os documentos de especificação.

o avaliação dos usuários – verificar a usabilidade e utilidade da ontologia a partir

do ponto de vista do usuário e da (re)utilização em outras aplicações de acordo

com a sua documentação.

documentação – registrar o que, como e por que foi feito. A qualidade da

documentação associada aos termos presentes na ontologia melhora a sua clareza,

facilita o processo de manutenção, uso e reuso.

A isso pode-se acrescentar as seguintes atividades:

planejamento do desenvolvimento, o que envolverá, entre outras tarefas, a definição

da metodologia, ferramentas e linguagem de suporte a construção da ontologia, a

serem utilizadas;

Page 142: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

142

integração, onde se consideram termos e conceitos de outras ontologias.

E assim tem-se abaixo a representação gráfica do ciclo de vida da ontologia citada em

Almeida et al. (2010, p. 160), adaptada de Fernandez, Gomez-Perez e Juristo:

Figura 17 - Representação gráfica do ciclo de vida da ontologia.

Considerando o que foi apresentado, fica claro o nível de complexidade e dificuldade para o

desenvolvimento da ontologia necessária ao portal e ao compartilhamento com outras

aplicações, representando um trabalho de grande envergadura, mas que ao ser desenvolvido

representará uma importante contribuição ao compartilhamento de dados públicos abertos.

4.3.2.1.2.2 Metadados

A partir do entendimento discutido no item 3.1.2. Metadados, pode-se entendê-los como um

sumário de informações sobre a forma e o conteúdo de um recurso eletrônico, ou não, que

pode ser um objeto bibliográfico (livros, seriados, mapas etc.), catálogo de registros

bibliográficos, inventários e registros de arquivos, objetos geoespaciais (imagens de satélites

Page 143: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

143

etc), recursos de museus e visuais, ou implementações de software. Acrescentando a essa

definição o esclarecimento de que, no contexto dessa proposta, metadados serão utilizados

para descrever as séries históricas que serão coletadas e o conjunto de dados que serão

coletados nas séries.

Dessa forma, deve-se trabalhar no sentido de se obter uma definição de metadados para

descrever de forma completa as séries históricas e os seus dados que serão incorporados ao

banco de dados. Essa descrição deverá ser suficiente para que a sua identificação seja única e

permita que os outros componentes do portal possam executar suas ações corretamente.

4.3.2.1.2.3 Dados em formato RDF

Com a definição de metadados e os dados coletados, serão gerados arquivos em formato RDF

para que possam ser acessados por meio de linguagem orientada a dados, que recuperem

dados armazenados em arquivos RDF, como por exemplo, SPARQL. Vale registrar que esses

arquivos RDF devem informar as séries que estão sendo coletadas e disponibilizadas, bem

como os seus dados acumulados, o que permitiria ao usuário a sua combinação com outros

dados em arquivos RDF que existam ou venham a existir.

4.3.2.1.2.4 Banco de dados

Armazenará as tabelas de controle de coletas, metadados, além dos dados coletados.

4.3.2.1.3 Entrega

Neste bloco serão tratadas as funcionalidades relacionadas às entregas das séries históricas

utilizando web services, interfaces homem-máquina e visualização de dados.

Page 144: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

144

4.3.2.1.3.1 Webservices

Serão definidos conforme padrões técnicos estabelecidos pelo W3C e quanto aos aspectos

funcionais deverá possuir métodos variados, a serem identificados, para atender diferentes

necessidades dos sistemas usuários de nosso portal.

4.3.2.1.3.2 Interfaces de consultas

A interface de consulta dos usuários deverá permitir:

consultar a documentação sobre os arquivos RDF disponiveis;

consultar o conteúdo dos arquivos RDF por meio de linguagem orientada a dados, que

recuperem dados armazenados em arquivos RDF, como por exemplo, SPARQL. As

querys dessa linguagem podem ser realizadas por clientes de outras ferramentas como

o Protégé ou o Twinkle: SPARQL Tool.

4.3.2.1.3.3 Visualização de dados

Para a visualização de dados, a princípio, considera-se priorizar o uso e integração com outras

ferramentas de visualização de dados disponíveis na Web, como o Many Eyes e The Google

Public Data Explorer.

4.3.2.1.4 SEO

Utilizando recursos on-page, terá a função de buscar uma melhora de posicionamento junto

aos buscadores para promover o Portal, visando aumentar sua efetividade e divulgação ao

público de interesse pelo seu aumento de tráfego.

Page 145: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

145

4.3.2.1.5 Road Map

Disponibilizará funcionalidades que permitam a interação do time envolvido com as sugestões

oriundas da sociedade, fornecedores de dados abertos e contribuidores tecnológicos,

estabelecendo e priorizando o Road Map de forma a publicar o planejamento dos avanços

programados para o portal, tanto em funcionalidades como a incorporação de novas séries

temporais.

4.3.2.1.6 Social empowerment

Concluindo, está inserida nessa representação o relacionamento entre a Sociedade e o governo

como uma ação do social empowerment e a resposta do governo para a sociedade como uma

reação ao social empowerment, buscando assim demonstrar o poder que esse conhecimento

atribuirá à sociedade como um todo e os avanços que isso possibilitará.

Page 146: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

146

CAPÍTULO 5

CONSIDERAÇÕES FINAIS

O objetivo desta dissertação foi o de examinar da maneira mais ampla possível o cenário que

envolve as questões da web semântica e do e-Gov, propondo um modelo de portal que

complementasse uma lacuna, contribuindo mesmo que de forma mínima para o entendimento

desse contexto. A partir do estudo dos seus aspectos históricos e como foi formada a Internet,

da discussão de conceitos e tecnologias que viabilizam a implementação desse modelo,

passando pela análise do e-Gov no Brasil e suas oportunidades de melhoria, abordando

aspectos legais e éticos no trato dessas informações, pretende-se com isso estabelecer um

modelo que pode servir, ao menos, de ponto de partida para outros trabalhos que envolvam

portais de conhecimento e informação focados na coleta e armazenamento sistêmicos de

dados públicos abertos.

Ao longo do seu desenvolvimento foi possível identificar pontos e aspectos determinantes

para a implantação de um portal como esse:

a) sobre a web semântica, conceitos e tecnologias relacionadas:

as discussões na academia sobre sua aplicação e desenvolvimento não estão

completamente amadurecidas, existindo os que acreditam e os que duvidam;

no mundo corporativo esse tema terá muito para ser debatido e discutido,

sobretudo acerca da forma de utilizá-lo em aplicações comerciais e

principalmente quanto às maneiras que deverão ser utilizadas para a expansão

de sua base de aplicações;

no âmbito governamental, a questão do e-Gov estará focada no atendimento de

anseios da população, priorizando mais as interfaces homem-máquina do que

as interfaces que adotem a web semântica como abordagem.

b) quanto ao e-Gov, existem as oportunidades que envolvem as questões de qualidade

dos serviços atuais, navegabilidade, novos serviços, comunicação e educação. Isso em

certa medida identifica oportunidades para portais complementares ao e-Gov, porém

mantêm o alto nível de dificuldade para coleta de dados, bem como reduzem o público

alvo, especialmente quando se tratam dos quesitos Comunicação, Educação e

Segurança de Dados (credibilidade);

Page 147: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

147

c) ainda sobre o e-Gov, fica claro que o governo deve assumir o seu papel de fornecedor

de dados abertos, respeitando os princípios dos dados abertos governamentais,

buscando também estimular a sociedade, por meio das comunidades hackers, a

desenvolver sites e serviços que utilizem os dados abertos disponibilizados, sem

pretender produzi-los internamente, pois certamente seriam produzidos com maior

custo, demorariam mais e seriam menos aderentes às necessidades da população.

Nessa linha, comentando os resultados alcançados no projeto vencedor do primeiro

concurso Apps for Democracy51

, no Distrito de Columbia, nos EUA, chamado Stumble

Safely, desenvolvido por empresa privada que cruzou as informações de ocorrências

policiais com endereços de bares e clubes da cidade. Posteriormente, mostrou essa

informação em uma interface de mapa interativo permitindo traçar os caminhos mais

seguros para se voltar de um bar para casa à noite ou de madrugada, Silva afirma que:

O que acontece, em um exemplo como esse, é que a informação tem o potencial de

refletir valores que não poderiam ser trabalhados dentro da administração pública e

como essa informação pertence ao cidadão, faz sentido que ela gere o máximo de

valor possível, refletindo a multiplicidade de interesses e de opiniões do coletivo

(SILVA, 2010, p. 97).

d) quanto aos aspectos legais e éticos, especialmente às legislações específicas para

internet, crimes cibernéticos, dados abertos e proteção de dados pessoais, o País está

atrasado em relação a diversos países, inclusive da América Latina, como a Argentina,

que teve sua legislação promulgada em outubro de 2000, apesar da tramitação de

projetos de Lei que podem nos recuperar desse atraso;

e) concretizar o modelo proposto de portal não é uma tarefa simples e envolverá, além do

conhecimento técnico, muito investimento, tempo e dedicação.

5.1 LIMITAÇÕES DO ESTUDO

É importante reconhecer que este trabalho apresentou uma visão geral sobre os temas

abordados ao longo do seu desenvolvimento, como por exemplo, web semântica, metadados,

ontologias, web services, agentes de software, visualização de dados e otimização dos

51 Concurso de incentivo do governo do Distrito de Columbia, EUA, ao uso e desenvolvimento de aplicativos e serviços com a apropriação de dados abertos públicos (W3C et al., 201,1 p. 28 e 29).

Page 148: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

148

mecanismos de buscas, além do e-Gov no Brasil. Todos esses temas são muito amplos e

complexos, e se torna quase inevitável a existência de limitações em trabalhos que tenham a

ambição de investigá-los, ainda mais simultaneamente.

O mesmo se dá quando se imagina a implementação desse modelo frente ao tempo necessário,

investimento material e de dedicação pessoal para a sua realização.

Frente a essas limitações, procurou-se o ponto de equilíbrio para dar ao trabalho o conteúdo

necessário à sua conclusão em bom termo, buscando não resvalar na superficialidade e nem

atingir um aprofundamento desnecessário para o contexto da proposta.

5.2 POSSÍVEIS CONTRIBUIÇÕES

Esta dissertação, com sua proposta de modelo para a construção de portal que dê

transparência a séries históricas de indicadores sociais, econômicos e financeiros, públicos na

web, focando na interatividade humana e integração com outros sistemas computacionais,

pretendeu contribuir discutindo os conceitos e tecnologias relacionadas a metadados,

ontologias, web services, agentes de software, visualização de dados e otimização dos

mecanismos de buscas, a partir da ótica de uma aplicação prática que envolveu também a

análise e discussão de oportunidades de melhoria, não somente no próprio e-Gov, mas

também em portais complementares a ele, servindo como ponto de partida para outros

trabalhos que envolvam portais de conhecimento e informação focados na coleta e

armazenamento sistêmicos de dados abertos públicos.

5.3 SUGESTÕES PARA ESTUDOS FUTUROS

Este trabalho permitiu vislumbrar algumas propostas para estudos futuros:

a) concretizar a implementação do modelo discutido, aprofundando os estudos

envolvendo metadados, ontologias, web services, agentes de software, visualização de

dados e otimização dos mecanismos de buscas, oportunidades de coleta de dados em

sites de e-Gov e contribuindo para aumentar a base de aplicações voltadas para a web

Page 149: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

149

semântica, com dados abertos públicos, estruturados e integraveis a outros sistemas

computacionais;

b) aprofundar os estudos envolvendo interface homem-máquina, estabelecendo uma

proposta de interface focada para atender determinado segmento, usuário potencial de

fonte de dados de outros portais que utilizam a web semântica como, por exemplo, o

Projeto LexML52

, que pretende reunir leis, decretos, acórdãos, súmulas, projetos de

leis entre outros documentos das esferas federal, estadual e municipal dos Poderes

Executivo, Legislativo e Judiciário de todo o Brasil, formando uma rede de

informação legislativa e jurídica, visando organizar, integrar e dar acesso às

informações disponibilizadas nos diversos portais de órgãos do governo na Internet,

estabelecendo uma proposta de interface funcional que atenda ao segmento jurídico;

c) considerando que como nesta proposta de portal os sites de comparação de preços

também são focados na coleta e armazenamento sistêmico de informações, assim,

durante a elaboração deste trabalho procurou-se identificar por meio de pesquisa em

trabalhos acadêmicos e literaturas especializadas, como esses modelos foram

implementados tecnicamente para tentar estabelecer uma relação com o nosso modelo,

porém esse esforço levou apenas a trabalhos relacionados à implantação do negócio

com abordagem de administração e negócios, resvalando apenas em indícios de como

foram implementados, compreensível por tratar-se de assunto diretamente relacionado

ao core business dessas empresas. Em Tasic (2007, p. 90 e 91), abordando o

desenvolvimento do site de comparação de preços BUSCAPÉ, é mencionado que foi

desenvolvida entre junho de 1998 e junho de 1999 uma tecnologia chamada pelos seus

desenvolvedores como Spyder e detalhada conforme abaixo:

Tecnicamente, o “spyder” funciona como um robô eletrônico que acessa

automaticamente os sites de comércio eletrônico dos lojistas cadastrados e identifica

no site do lojista o que é produto e o que é preço. Após essa identificação, o

“spyder” então classifica e cataloga todos os produtos e preços encontrados em um

único banco de dados do Buscapé. Uma vez armazenadas no banco de dados, as

informações são publicadas no site do Buscapé e podem ser acessadas por qualquer

internauta. Sendo crucial no modelo de negócio do Buscapé, é essa tecnologia que

permite a coleta e armazenamento sistêmicos de informações em sites de comércio

eletrônico e as organiza de modo a permitir a comparação de preços pela internet.

52 http://projeto.lexml.gov.br/

Page 150: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

150

Parece que um estudo mais profundo sobre a forma como os sites de busca foram

implementados e como seriam afetados com o desenvolvimento e implantação da web

semântica, trariam respostas para questões como:

as empresas atuantes nesse segmento da web teriam benefícios ou

desvantagens com a web semântica?;

este tipo de serviço, com web semântica, poderia atrair novos entrantes

e assim abalar as empresas líderes nesse segmento da Internet?;

quais mudanças poderiam ocorrer para os internautas? Favoráveis ou

não?

Page 151: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

151

REFERÊNCIAS

ABDULAHAD, Bassam; LOUNIS, Georgios. A user interface for the ontology merging tool

SAMBO. Linköpings Universitet, 2004. Final thesis. Disponível em: <http://liu.diva

portal.org/smash/get/ diva2:19999/FULLTEXT01>. Acesso em: 11 dez. 2010.

ALMEIDA, Maurício Barcellos; SOUZA, Renato Rocha; COELHO, Kátia Cardoso. Uma proposta de

ontologia de domínio para segurança da informação em organizações: Descrição do estágio

terminológico. Informação & Sociedade: Estudos, UFPB, João Pessoa, v. 20, n.1, p.155-168, abr.

2010. Disponível em: <http://www.ies.ufpb.br/ojs2/index.php/ies/article/view/3753/3427.>. Acesso

em: 6 ago. 2011

BERGMAN, Michael K. White paper: the deep web: surfacing hidden value. University of

Michigan, 2001. Disponível em: <http://quod.lib.umich.edu/cgi/t/text/text-

idx?c=jep;view=text;rgn=main;idno=3336451.0007.104. >. Acesso em: 8 jan. 2011.

BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web: a new form of web

content that is meaningful to computers will unleash a revolution os new possibilities. Scientific

American Magazine, maio 2001, p. 35- 43.

BESSA, Fátima. Abordagem crítica à tecnologia educativa. Universidade do Minho, 2007/2008.

Disponível em: <http://www.e-profe.net/tecnologia/galaxia_internet.pdf.>. Acesso em: 25 jan. 2011.

BRANDÃO, Anarosa Alves Franco; LUCENA, Carlos José Pereira. Uma introdução à engenharia

de ontologias no contexto da web semântica. PUC-RJ, 2002. Disponível em: <http://www.dbd.puc-

rio.br/depto_informatica/02_29_brandao.pdf. >. Acesso em: 5 mar. 2011.

BREITMAN, Karin Koogan. WEB semântica - a internet do futuro. Rio de Janeiro: LTC, 2006.

BUSH, Vannevar. As we may think. the atlantic monthly, 1945. Disponível em:

<http://www.theatlantic.com/past/docs/unbound/flashbks/computer/bushf.htm.>. Acesso em: 15 jan.

2011.

CASTELLS, Manuel. A galáxia da internet: reflexões sobre internet, negócios e sociedade. Rio de

Janeiro: Zahar, 2003.

_____. O novo paradigma do desenvolvimento e suas instituições: conhecimento, tecnologia da

informação e recursos humanos. Perspectiva comparada com referência a América Latina, In:

NASSIF, André. Apostila Economia Digital. São Paulo: FGV Management, 2008

CERF, Vinton G., et al. A brief history of the internet. Internet Society, 2011. Disponível em:

<http://www.isoc.org/internet/history/brief.shtml >. Acesso em: 15 jan. 2011.

CETIC.BR. Pesquisa sobre uso das tecnologias da informação e comunicação no Brasil - TIC

Governo eletrônico, 2010. NIC.BR. Disponível em: <http://www.cetic.br/tic/egov/2010/index.htm.>.

Acesso em: 19 mar. 2011.

CORRÊA, Gustavo Testa. Aspectos jurídicos da internet. São Paulo: Saraiva, 2008.

Page 152: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

152

DCMI. Dublin Core Metadata Initiative, 2011. Disponível em: <http://dublincore.org/.>. Acesso

em: 26 fev. 2011.

DOCTOROW, Cory. Metacrap: putting the torch to seven straw-men of the meta-utopia, 2001.

Disponível em: <http://www.well.com/~doctorow/metacrap.htm.>. Acesso em: 26 fev. 2011.

DONEDA, Danilo. La protección de datos personales em Brasil y perspectivas de regulación em

el Mercosul, 2009. Disponível em:

<http://www.doneda.net/doneda.net/Palestras_files/bogota_09a.pdf.>. Acesso em: 15 abr. 2011.

FELICISSIMO, Carolina Howard. Uma estratégia para o alinhamento taxonômico de ontologias.

PUC-RJ, 2004. Dissertação de mestrado em informática. Disponível em: <http://www-di.inf.puc-

rio.br/~julio/CAROL.pdf.>. Acesso em: 11 dez. 2010.

FENSEL, Dieter, et al. OIL: ontology infrastructure to enable the semantic web. Citeseerx, 2001.

Disponível em:

<http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.25.396&rep=rep1&type=pdf.>. Acesso

em: 7 mar. 2011.

FLUSSER, Vílem. O mundo codificado: por uma filosofia do design e da comunicação. São Paulo:

Cosac Naify, 2007.

FONTES, Mário Madureira. Aspectos ontológicos da web-semântica. PUC-SP, 2009. Dissertação de

Mestrado em Tecnologias da Inteligência e Design Digital. Disponível em:

<http://www.sapientia.pucsp.br/tde_busca/arquivo.php?codArquivo=10200.>. Acesso em: 11 dez.

2010.

BRIDGES, Environmental information acess in Minnesota's. Foundations project bridges, 2007.

Disponível em: <http://www.bridges.state.mn.us/.>. Acesso em: 26 fev. 2011.

GABRIEL, Martha. SEM e SEO: dominando o marketing de busca. São Paulo: Novatec, 2009.

GRUBER, Tom. Ontology. Tom Gruber pages, 2009. Disponível em:

<http://tomgruber.org/writing/ontology-definition-2007.htm.>. Acesso em: 5 mar. 2011.

GUARINO, Nicola. Formal ontology and information systems. The Laboratory for Applied

Ontology (LOA), 1998. Disponível em: <http://www.loa-cnr.it/Papers/FOIS98.pdf.>. Acesso em: 5

mar. 2011.

GULLI, Antonio; SIGNORINI, Alessio. The indexable web is more than 11.5 billion pages.

University of Iowa, 2005. Disponível em: <http://www.cs.uiowa.edu/~asignori/papers/the-indexable-

web-is-more-than-11.5-billion-pages/size-indexable-web.pdf.>. Acesso em: 8 jan. 2011.

IFLA, International Federation of Library Associations. IFLA - Digital Libraries: metadata

resources, 2009. Disponível em: <http://archive.ifla.org/II/metadata.htm.>. Acesso em: 24 fev. 2011.

Page 153: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

153

ISO, International Organization Standardization. ISO 15836. ISO, 2009. Disponível em:

<http://www.iso.org/iso/search.htm?qt=15836&searchSubmit=Search&sort=rel&type=simple&publis

hed=on.>. Acesso em: 26 fev. 2011.

KUNZE, John A; BAKER, Thomas. RFC 5013 - The Dublin Core metadata element set. IETF,

2007. Disponível em: <http://www.ietf.org/rfc/rfc5013.txt.>. Acesso em: 26 fev. 2011.

KUROSE, James F; ROSS, Keith W. Rede de computadores e a internet. São Paulo: Addison

Wesley, 2003.

LAGOZE, Carl. The warwick framework: a container architecture for diverse sets of metadata. D-

Lib Magazine. Corporation for National Research Initiatives (CNRI), 1996. Disponível em:

<http://www.dlib.org/dlib/july96/lagoze/07lagoze.html.>. Acesso em: 26 fev. 2011.

LEÃO, Lúcia. Derivas: cartografias do ciberespaço. São Paulo: Annablume, 2004.

LEME, Luciano Gonzaga. Site com conteúdo apropriado à web semântica e mecanismos de busca.

PUC-SP, 2009. Dissertação de Mestrado em Tecnologias da Inteligência e Design Digital. Disponível

em: <http://www.sapientia.pucsp.br/tde_busca/arquivo.php?codArquivo=8837.>. Acesso em: 11 dez.

2010.

MALVINE Project. Malvine, 2003. Disponível em:

<http://www.malvine.org/malvine/por/index.html.>. Acesso em: 26 fev. 2011.

NELSON, Theodor Holm. Ted Nelson’s computer paradigm, expressed as one-liners. Xanadu,

1999. Disponível em:

<http://xanadu.com.au/ted/TN/WRITINGS/TCOMPARADIGM/tedCompOneLiners.html.>. Acesso

em: 22 jan. 2011.

NISO Z39.85. ANSI/NISO Z39.85 - The Dublin Core Metadata Element Set. NISO Standards, 2007.

Disponível em: <http://www.niso.org/kst/reports/standards/kfile_download?id%3Austring%3Aiso-

8859-1=Z39-85-2007.pdf&pt=RkGKiXzW643YeUaYUqZ1BFwDhIG4-

24RJbcZBWg8uE4vWdpZsJDs4RjLz0t90_d5_ymGsj_IKVa86hjP37r_hFEijh12LhLqJw52B-

5udAaMy22WJJl0y5GhhtjwcI3V.>. Acesso em: 26 fev. 2011.

NOLETO, Danilo de Abreu; TEIXEIRA, Darlene; BRITO, Parcilene Fernandes de. O padrão RDF

como facilitador no processo de inteligência competitiva. Anais do Congresso Anual de Tecnologia

de Informação - CATI2004, 2004. Disponível em:

<http://www.fgvsp.br/cati2004/artigos/pdf/T00241.pdf.>. Acesso em: 26 fev. 2011.

PALAZZI, Daniele Cristina. QDAontology: Abordagem para o desenvolvimento de ontologias em

e-Science: um estudo de caso em biologia. Universidade Federal de Juiz de Fora, 2010. Dissertação de

Mestrado em Modelagem Computacional. Disponível em:

<http://www.ufjf.br/mmc/files/2010/06/dissertacao_daniele_palazzi.pdf.>. Acesso em: 7 mar. 2011.

PEREIRA, Ferdinand Cavalcante. O que é empoderamento (Empowerment). SaPIência, 2006.

Disponível em: <http://www.fapepi.pi.gov.br/novafapepi/sapiencia8/artigos1.php.>. Acesso em: 19

mar. 2011.

Page 154: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

154

PINHEIRO, Patricia Peck. Direito digital. São Paulo: Editora Saraiva, 2007.

RAUTENBERG, Sandro; TODESCO, José L.; GAUTHIER, Fernando A. O. Processo de

desenvolvimento de ontologias: uma proposta e uma ferramenta. Rev. Tecnol. UFSC. Fortaleza,

v.30, n.1, p.133-144, jun. 2009. Disponível em: <http://vm-ontokem.led.ufsc.br/joomla/pdf/Processo_de_desenvolvimento_de_ontologias_uma_proposta_e_uma_

ferramenta.pdf.>. Acesso em: 6 ago. 2011.

RIBEIRO, Daniel Melo. Visualização de dados na internet. PUC-SP, 2009. Dissertação de Mestrado

em Tecnologias da Inteligência e Design Digital. Disponível em:

<http://www.sapientia.pucsp.br/tde_busca/arquivo.php?codArquivo=8423.>. Acesso em: 11 dez.

2010.

ROSETTO, Marcia; NOGUEIRA, Adriana Hypólito. Aplicação de elementos metadados Dublin

Core. UFRJ. Universidade de São Paulo, 2011. Disponível em:

<http://www.sibi.ufrj.br/snbu/snbu2002/oralpdf/82.a.pdf.>. Acesso em: 24 fev. 2011.

SILVA, Daniela Bezerra da. Transparência na esfera pública interconectada. Faculdade Casper

Líbero, 2010. Dissertação de Mestrado em Comunicação. Disponível em:

<http://www.facasper.com.br/rep_arquivos/2011/03/25/1301072384.pdf.>. Acesso em: 6 ago. 2011.

SILVA, Daniela Lucas da; SOUZA, Renato Rocha; ALMEIDA, Maurício Barcellos. Comparação de

metodologias para construção de ontologias e vocabulários controlados. Seminário de Pesquisa

em Ontologia no Brasil, 2008. Artigo. Disponível em: <http://www.uff.br/ontologia/artigos/19.pdf.>.

Acesso em: 7 mar. 2011.

SOUZA, Marcia Izabel Fugisawa et al. Informação para internet: uso de metadados e o padrão

Dublin Core para catalogação de recursos eletrônicos na Embrapa. MCT - IBICT - Diálogo Científico.

Embrapa, 2000. Disponível em: <http://dici.ibict.br/archive/00000702/01/T042.pdf.>. Acesso em: 26

fev. 2011.

TASIC, Igor Alexander Bello. Estratégia e empreendedorismo: decisão e criação sob incerteza.

Fundação Getúlio Vargas, 2007. Dissertação de Mestrado em Administração de Empresas. Disponível

em: <http://bibliotecadigital.fgv.br/dspace/bitstream/handle/10438/2324/150183.pdf?sequence=2.>.

Acesso em: 2 maio 2011.

University of Maryland . SHOE: simple HTML ontology extension. Departament of Computer

Science, 2010. Disponível em: <http://www.cs.umd.edu/projects/plus/SHOE/#demos.>. Acesso em: 7

mar. 2011.

VIANA, Laura Cristina Simões; NABUCO, Olga Fernanda. Ontologias e tecnologia da informação

e comunicação: sistemas especialistas, web semântica e gestão integrada de compras governamentais

eletrônicas. Revista Eletrônica de Comunicação Informação & Inovação em Saúde, 2007. Disponível

em: <http://www.reciis.cict.fiocruz.br/index.php/reciis/article/view/47/35.>. Acesso em: 5 mar. 2011.

VIEGAS, Fernanda B. et al. Many eyes: a site for visualization at internet scale. IBM Research, 2007.

Disponível em: <http://www.research.ibm.com/visual/papers/viegasinfovis07.pdf.>. Acesso em: 21

mar. 2011.

Page 155: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO …...Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica, ontologias, otimização em mecanismos de buscas e visualização

155

W3C. Dados abertos governamentais. W3C. 2011. Disponível em:

<http://www.w3c.br/pub/Materiais/PublicacoesW3C/dados-abertos-governamentais.pdf.>. Acesso em:

6 ago. 2011.

______. Melhorando o acesso ao governo com o melhor uso da web. W3C, 2009. Disponível em:

<http://www.w3c.br/divulgacao/pdf/gov-web.pdf.>. Acesso em: 17 abr. 2011.

______. RDF/XML Syntax Specification: Revised. W3C, 2004. Disponível em:

<http://www.w3.org/TR/REC-rdf-syntax/.>. Acesso em: 26 fev. 2011.

______. Resource Description Framework (RDF) Schema Specification 1.0. W3C, 2000.

Disponível em: <http://www.w3.org/TR/2000/CR-rdf-schema-20000327/.>. Acesso em: 26 fev. 2011.

W3C; THacker; CGI.BR. Manual dos dados abertos: governo. W3C BR. 2011. Disponível em:

<http://www.w3c.br/pub/Materiais/PublicacoesW3C/Manual_Dados_Abertos_WEB.pdf.>. Acesso

em: 6 ago. 2011.

W3C, World Wide Web Consortium. Metadata and resource description. W3C. 2001. Disponível

em: <http://www.w3.org/Metadata/.>. Acesso em: 24 fev. 2011.

______. OWL, Web ontology language. W3C. 2009. Disponível em: <http://www.w3.org/TR/owl-

features/.>. Acesso em: 7 mar. 2011.

______. RDF, Vocabulary description language 1.0: RDF Schema. W3C, 2004. Disponível em:

<http://www.w3.org/TR/rdf-schema/.>. Acesso em: 7 mar. 2011.

WORLDWIDEWEBSIZE. The size of the world wide web:The Internet, 2011. Disponível em:

<http://www.worldwidewebsize.com/index.php?lang=EN.> Acesso em: 8 jan. 2011.