PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
PUC-SP
Paulo Sérgio Rangel Garcia
Estudo sobre aplicação de web semântica e visualização em dados abertos.
Proposta de portal para transparência em séries históricas de indicadores sociais,
econômicos e financeiros, públicos na web
MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA E DESIGN DIGITAL
SÃO PAULO
2011
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
PUC-SP
Paulo Sérgio Rangel Garcia
Estudo sobre aplicação de web semântica e visualização em dados abertos
Proposta de portal para transparência em séries históricas de indicadores sociais,
econômicos e financeiros, públicos na web
MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA E DESIGN DIGITAL
Dissertação apresentada à Banca Examinadora da
Pontifícia Universidade Católica de São Paulo – PUC-
SP, como exigência parcial para obtenção do título de
MESTRE em Tecnologias da Inteligência e Design
Digital - Processos Cognitivos e Ambientes Digitais,
sob a orientação do Professor Doutor Demi Getschko.
SÃO PAULO
2011
Banca Examinadora:
-------------------------------------------------------------------
-------------------------------------------------------------------
-------------------------------------------------------------------
Esta dissertação é dedicada a minha esposa, Vilma,
por seu incentivo e apoio aos meus projetos e acima
de tudo pelo que ela representa em minha vida.
AGRADECIMENTOS
Em primeiro lugar, aos meus pais, Floreal Garcia e Ana Teodora Rangel Garcia, por tudo o
que fazem e fizeram na constituição de nossa família, por seus valores pessoais e pelas
experiências de vida que compartilham com todos, apoiando a busca do conhecimento.
A todos os professores que ao longo de nossas vidas nos beneficiam, compartilhando
conhecimentos e experiências que nos permitem chegar cada vez mais longe, representados
especialmente pelos professores, Sérgio Basbaum, Alexandre Campos, Ítalo Santiago
Vega, Jorge de Albuquerque Vieira, Nélson Brissac e o meu orientador nesta Dissertação,
Professor Demi Getschko.
E também a todos os nossos amigos e colegas que de forma direta ou não nos apoiaram e
incentivaram na superação dos desafios para a realização de trabalhos como este,
especialmente representados por Edna Conti, sempre zelosa e prestativa com todos os
alunos do TIDD.
Por vezes sentimos que aquilo que fazemos não é
senão uma gota de água no mar. Mas o mar seria
menor se lhe faltasse uma gota.
Madre Teresa de Calcutá, Agnes Gonxha Bojaxhiu
RESUMO
GARCIA, Paulo Sérgio Rangel. Estudo sobre aplicação de web semântica e
visualização de dados abertos. 2011. 155f. Dissertação (Mestrado) – Pontifícia
Universidade Católica de São Paulo – PUC-SP, São Paulo, 2011.
Este trabalho tem como objetivo discutir um modelo para a construção de
portal que dê transparência a séries históricas de indicadores sociais, econômicos e
financeiros, públicos e disponíveis na web. Para se chegar a esse objetivo, foram realizados
estudos em autores como Manuel Castells, Tim Berners-Lee, Vinton Cerf, Karin K.
Breitman, Martha Gabriel e Fernanda Viegas entre outros, sobre web semântica,
ontologias, otimização em mecanismos de buscas e visualização de dados.
A partir do estudo da evolução histórica da Internet, buscou-se compreender
como foi possível formar esse contexto de dinamismo não ordenado, com alta produção,
criando condições para a alta disponibilidade de dados e informações que existem hoje.
Abordando conceitos e tecnologias relacionadas à web semântica, ontologias, web services,
agentes de software, visualização de dados e otimização dos mecanismos de buscas,
discutiu-se técnicas e metodologias que viabilizem a sua construção de maneira a permitir
que tais dados sejam coletados e que estejam disponíveis em formatos compreensíveis para
seres humanos e integráveis a outros sistemas computacionais. Foi também analisado o
e-Gov atual, especialmente no Brasil, avaliando suas características, tendências e
oportunidades de evolução utilizando dados e estudos disponibilizados pelo NIC.BR e
W3C BR.
Assim, com base nesses estudos e na experiência do autor, esta dissertação
tem o objetivo de propor um modelo de portal que permita a interatividade humana e
integração com outros sistemas computacionais, das séries históricas públicas coletadas,
formatando e disponibilizando-as de maneira estruturada para a sociedade.
` Por fim, é feita a indicação de pesquisas futuras, as quais venham contribuir
para a discussão e o desenvolvimento de sites e serviços que apropriem dados abertos
públicos.
Palavras-chave: web semântica, Ontologias, Metadados, Visualização de dados, Dados
abertos.
ABSTRACT
GARCIA, Paulo Sérgio Rangel Garcia. Study on application of semantic web and
viewing in open data. São Paulo, 2011. 2011. 155f. Dissertation (Masters) – Pontifícia
Universidade Católica de São Paulo – PUC-SP, São Paulo, 2011.
This paper aims to discuss a model for constructing a transparent portal that
contains historical trends of public social, economical and financial indicators, preferably
if collected at e-Gov websites. In order to reach that objective, we researched extensively
within Manuel Castells, Tim Berners-Lee, Vinton Cerf, Karin K. Breitman, Martha Gabriel
and Fernanda Viegas’s work, amongst others, about semantic web, ontologies, search
engine optimization and data visualization.
Starting from a study of the historical evolution of internet, we try to
understand how was possible to forge this context of highly productive disorganized
dynamics that provided the conditions of the massive availability of information and data
that we see today. By utilizing concepts and technologies such as metadata, ontologies,
web services, software agents, data visualization and optimization of research mechanisms,
we discuss techniques and methodologies that could make collecting data as fast as
possible feasible, as well as putting it together in a way that either humans or other
computer systems may easily understand. We also analyze the current e-Gov services
provided by the Brazilian government by evaluating its characteristics, tendencies and
possibilities for evolution and growth by utilizing data and research provided by NIC.BR
and W3C BR.
Thus, based on research and the author’s own experience, this dissertation will
try to propose a model for a portal that allows human interaction and integration with other
computer systems for historical trends collected via web and formats and provides this data
to society in a structured way.
Finally, we indicate future researches that may contribute to the discussion
and development of websites and services that apropriate public open data.
Keywords: Semantic web, Ontologies, Metadata, Data visualization, Open data.
Lista de Figuras
Figura 1 - Linha do Tempo da Internet .......................................................................................... 36
Figura 2 - Estrutura do ICANN ...................................................................................................... 37
Figura 3 - Estrutura organizacional do NIC.br e CGI.br .................................................................. 41
Figura 4 - Framework de Warwick ................................................................................................ 58
Figura 5 - Classificação de ontologias. .......................................................................................... 66
Figura 6 - Estrutura interrelacionada de tecnologias da web semântica ....................................... 68
Figura 7 - Camadas da Linguagem OIL .......................................................................................... 71
Figura 8 - Fluxo de trabalho de agente de software ...................................................................... 82
Figura 9 - Modelo de Chi para o fluxo de criação de visualizações .............................................. 101
Figura 10 - Exemplo de visualização de dados no Google Public Data Explorer ........................... 104
Figura 11 - Exemplo de visualização de dados da Bovespa em 2009 ........................................... 105
Figura 12 - Visualização da distribuição de usuários do Facebook no mundo .............................. 106
Figura 13 - Número máximo de serviços e-Gov utilizados ........................................................... 120
Figura 14 - Fatores limitadores ao uso de serviços de e-Gov ....................................................... 123
Figura 15 - Barreiras ao uso de serviços de e-Gov ....................................................................... 125
Figura 16 - Desenho esquemático da proposta do Portal de séries históricas ............................. 136
Figura 17 - Representação gráfica do ciclo de vida da ontologia. ................................................. 142
LISTA DE TABELAS
Tabela 1 - Tipos e funções de metadados por Anne Gilliland-Swetland ......................................... 53
Tabela 2 - Classificação de Ontologias segundo seu espectro semântico ...................................... 65
Tabela 3 - Classificação de ontologias quanto à generalidade ....................................................... 65
Tabela 4- Classificação de ontologias quanto ao tipo de informação que representam. ................ 66
Tabela 5- Classes / primitivas do RDF-schema .............................................................................. 69
Tabela 6 - Comparação entre as Linguagens OIL e DAML .............................................................. 73
Tabela 7 - Metodologias, métodos e norma frente às categorias de análise predefinidas ............. 76
Tabela 8 - Tabela das principais ontologias ................................................................................... 77
Tabela 9 - Principais ferramentas para o desenvolvimento de ontologias. .................................... 80
Tabela 10 - Tipos de agentes conforme a OMG Object Management Group ................................. 83
Tabela 11 - Principais agentes ...................................................................................................... 83
Tabela 12 - Aplicações da web semântica ..................................................................................... 84
Tabela 13 - Opções permitidas dentro do arquivo robots.txt ........................................................ 96
Tabela 14 - Resumo das principais categorias de visualização de dados ...................................... 102
Tabela 15 - Uso do acesso web x presencial (cidadão) ................................................................ 114
Tabela 16 - Uso do acesso tecnológico x presencial (Empresas) .................................................. 114
Tabela 17 - Quadro de propensão ao uso de e-Gov (cidadão) ..................................................... 115
Tabela 18 - Nível de recomendação ao uso de e-Gov (cidadão) .................................................. 115
Tabela 19 - Formas de contato inicial com ofertas do e-Gov (cidadão) ....................................... 116
Tabela 20 - Nível de satisfação com os serviços e-Gov (cidadão)................................................. 116
Tabela 21 - Nível de confiança no governo (cidadão) .................................................................. 117
Tabela 22 - Nível de satisfação com os serviços e-Gov (empresas) ............................................. 117
Tabela 23 - Avaliações positivas sobre a prestação de serviços do governo (cidadão) ................. 118
Tabela 24 - Problemas encontrados em sites do governo ........................................................... 119
Tabela 25 - Uso de serviço e-Gov por categoria (Buscas e/ou transações) .................................. 119
Tabela 26 - Influência percebida pelos cidadãos em questões de ordem pública ........................ 127
Tabela 27 - Penetração das mídias sociais (ao menos um acesso nos últimos 3 meses) .............. 128
Tabela 28 - Lembrança das peças publicitárias do governo ......................................................... 129
SUMÁRIO
CAPÍTULO 1
INTRODUÇÃO .............................................................................................................. 14
1.1 COMO CONTRIBUIR PARA MUDAR ESTE CENÁRIO? ...................................... 15
1.2 WEB SEMÂNTICA ................................................................................................... 16
1.3 VISUALIZAÇÃO DE DADOS .................................................................................. 17
1.4 OTIMIZAÇÃO ON-PAGE (SEO) .............................................................................. 17
1.5 GUIA DO LEITOR .................................................................................................... 18
CAPÍTULO 2
UM BREVE HISTÓRICO DA INTERNET ................................................................. 20
2.1 O INÍCIO (1945 A 1972) .......................................................................................... 22
2.2 REDE DE REDES (1972 - 1990) .............................................................................. 25
2.3 OUTRAS INFLUÊNCIAS NA FORMAÇÃO DA INTERNET ................................ 27
2.4 WORLD WIDE WEB, O HIPERTEXTO E A INTERNET
COMERCIAL (1990 - 1995) ..................................................................................... 28
2.5 A FORMAÇÃO DA CULTURA DA INTERNET .................................................... 31
2.6 O ESTADO ATUAL E SEUS REFLEXOS ............................................................... 33
2.7 A GOVERNANÇA DA INTERNET ......................................................................... 35
2.7.1 A governança da Internet no Brasil ......................................................................... 40
2.7.2 Princípios para a governança e uso da Internet ........................................................ 42
2.7.3 Considerações sobre o futuro .................................................................................. 44
CAPÍTULO 3
CONCEITOS ESSENCIAIS ......................................................................................... 45
3.1 A QUESTÃO DA WEB SEMÂNTICA ..................................................................... 48
3.1.1 Contraponto com a “inteligência artificial” ............................................................. 50
3.1.2 Metadados .............................................................................................................. 51
3.1.2.1 Padrão Dublin Core ............................................................................................. 54
3.1.2.2 Framework de Warwick ...................................................................................... 57
3.1.2.3 Resource Description Framework (RDF) ............................................................. 58
3.1.2.4 Restrições ao modelo de Metadados da web semântica ........................................ 60
3.1.3 Ontologias .............................................................................................................. 62
3.1.3.1 Classificações ...................................................................................................... 64
3.1.3.2 Linguagens para Representar Ontologias ............................................................. 67
3.1.3.2.1 RDF e RDF-Schema ......................................................................................... 68
3.1.3.2.2 SHOE ............................................................................................................... 70
3.1.3.2.3 OIL................................................................................................................... 70
3.1.3.2.4 DAML .............................................................................................................. 72
3.1.3.2.5 DAML + OIL ................................................................................................... 73
3.1.3.2.6 OWL ................................................................................................................. 74
3.1.3.3 Principais metodologias de desenvolvimento de Ontologias................................. 75
3.1.3.4 Principais Ontologias ........................................................................................... 77
3.1.3.5 Ferramentas de apoio ao desenvolvimento de ontologias ..................................... 79
3.1.3.6 Agentes de software ............................................................................................ 81
3.1.4 Aplicações da web semântica.................................................................................. 84
3.2 A QUESTÃO DOS MECANISMOS DE BUSCAS ................................................... 85
3.2.1 Código da página.................................................................................................... 85
3.2.1.1 Endereço da página (URL) .................................................................................. 85
3.2.1.2 Metatags .............................................................................................................. 86
3.2.1.2.1 Metatag Keywords ............................................................................................ 86
3.2.1.2.2 Metatag Description ......................................................................................... 87
3.2.1.3 Tag Title <title>................................................................................................... 87
3.2.1.4 Tag de subtítulo ................................................................................................... 88
3.2.1.5 Propriedade Alt na tag <image> .......................................................................... 88
3.2.1.6 Topo de página .................................................................................................... 88
3.2.1.7 Links Internos: âncoras e propriedades ................................................................. 89
3.2.1.8 Frequência das palavras-chave na página ............................................................. 89
3.2.1.9 Scripts na página ................................................................................................. 90
3.2.1.10 Menus de navegação .......................................................................................... 90
3.2.2 Conteúdo da página ................................................................................................ 91
3.2.2.1 Conteúdo em Flash ............................................................................................. 91
3.2.2.2 Conteúdos dinâmicos ou profundos ..................................................................... 92
3.2.2.3 Criação de conteúdos para SEO ........................................................................... 93
3.2.3 Estrutura: página e site ........................................................................................... 93
3.2.3.1 Design e estrutura do website............................................................................... 94
3.2.3.1.1 Navegação ........................................................................................................ 94
3.2.3.1.2 Frames ............................................................................................................. 94
3.2.3.1.3 Servidor do website .......................................................................................... 95
3.2.3.1.4 Arquivos Robots.txt .......................................................................................... 95
3.2.3.2 Idade e atualizações na página ............................................................................. 96
3.2.3.3 Análise do website versus análise de página individual ........................................ 96
3.2.4 Ferramentas SEO ................................................................................................... 97
3.3 A QUESTÃO DA VISUALIZAÇÃO DE DADOS ................................................... 97
3.3.1 Porque Visualização de Dados ................................................................................ 98
3.3.2 Classificação dos modelos e uma análise de contexto ........................................... 100
3.3.3 Aplicações de Visualização de dados na web ........................................................ 103
3.3.3.1 Google public data explorer .............................................................................. 103
3.3.3.2 Many Eyes ......................................................................................................... 105
3.3.3.3 Bime Analytics .................................................................................................. 106
CAPÍTULO 4
O E-GOV E A PROPOSTA DO PORTAL ................................................................. 107
4.1 O E-GOV ................................................................................................................ 107
4.2 E-GOV NO BRASIL .............................................................................................. 110
4.2.1 Maneiras de acesso ao e-Gov ................................................................................. 113
4.2.2 Cenário para o futuro do e-Gov no Brasil ............................................................. 114
4.2.3 Qualificação do uso do e-Gov............................................................................... 119
4.2.4 Limitadores ao uso do e-Gov ................................................................................ 120
4.2.5 Barreiras ao uso do e-Gov .................................................................................... 123
4.2.6 Desafios ao e-Gov ................................................................................................ 125
4.2.7 Oportunidades de melhorias e novos serviços ....................................................... 129
4.3 O PORTAL ............................................................................................................. 131
4.3.1 Ética, legalidade e respeito ................................................................................... 131
4.3.2 Proposta de Portal ................................................................................................ 135
4.3.2.1 Detalhamento do Portal .................................................................................... 138
4.3.2.1.1 Captura ........................................................................................................... 138
4.3.2.1.1.1 Coleta .......................................................................................................... 138
4.3.2.1.1.2 "Robô de buscas" ......................................................................................... 139
4.3.2.1.1.3 Interface de entrada de dados ....................................................................... 140
4.3.2.1.2 Semântica ....................................................................................................... 140
4.3.2.1.2.1 Ontologias ................................................................................................... 140
4.3.2.1.2.2 Metadados ................................................................................................... 142
4.3.2.1.2.3 Dados em formato RDF ............................................................................... 143
4.3.2.1.2.4 Banco de dados ............................................................................................ 143
4.3.2.1.3 Entrega ........................................................................................................... 143
4.3.2.1.3.1 Webservices ................................................................................................ 144
4.3.2.1.3.2 Interface de consultas................................................................................... 144
4.3.2.1.3.3 Visualização de dados ....................................................................................144
4.3.2.1.4 SEO ................................................................................................................ 144
4.3.2.1.5 Road Map ........................................................................................................ 145
4.3.2.1.6 Social empowerment ........................................................................................ 145
CAPÍTULO 5
CONSIDERAÇÕES FINAIS ....................................................................................... 146
5.1. LIMITAÇÕES DO ESTUDO .................................................................................. 147
5.2. POSSÍVEIS CONTRIBUIÇÕES ............................................................................. 148
5.3. SUGESTÕES PARA ESTUDOS FUTUROS .......................................................... 148
REFERÊNCIAS ........................................................................................................... 151
14
CAPÍTULO 1
INTRODUÇÃO
A razão desta dissertação surgiu de nossa percepção quanto às dificuldades na busca1 em
obterem-se de forma objetiva e relevante as informações necessárias no ciberespaço.
Percebe-se que, em sua evolução histórica, a Internet criou condições para que um volume
crescente e avassalador de dados, informações e conhecimento2 nos sejam disponibilizados,
porém sem uma forma estruturada, implicando em que apenas humanos possam interpretar
essa vastidão de conteúdo, requerendo um enorme esforço para avaliar, classificar e
selecionar as informações de interesse.
Quando se fala em web, pode-se dividi-la da seguinte forma:
web indexada são as páginas3 que estão dentro dos bancos de dados dos buscadores
4;
web visível são as páginas que não estão, mas podem ser indexadas;
web invisível, ou também chamada de web profunda, são as páginas não indexadas
que não podem ser indexadas pelos buscadores.
Em 2001 estimava-se a web profunda em 500 bilhões de páginas (BERGMAN, 2001). Quanto
à web indexada, estimava-se até o final de janeiro de 2005 em torno de 11,5 bilhões de
páginas, com o Google sendo responsável por 76% dessa abrangência (GULLI et al.,2005).
Considerando Bergman e Gulli, percebe-se que os buscadores abrangem em torno de 2% das
páginas existentes, o que é uma fração muito pequena do todo, ao contrário do que acredita a
maior parte dos internautas que os considera verdadeiros oráculos, detentores de todo o saber
da web.
1 Esta ação de busca pode ser definida como o processo pelo qual obtém-se informações relevantes no uso de critérios e
filtros de seleção em grandes volumes de informação (GABRIEL, 2009, p. 21). 2 Dados são o produto da pesquisa, criação, coleta ou descoberta, mas estão em um estado bruto, inadequados para a comunicação, não podendo compor uma mensagem completa. Para terem valor precisam estar organizados, transformados e apresentados de forma lógica de maneira a terem significado e sentido para o interlocutor -- nesse momento os dados se transformam em Informação. Finalmente, o Conhecimento é a compreensão das informações, obtido pela experiência, podendo ser comunicado por meio de interações entre indivíduos, o que caracteriza o seu aspecto participativo (RIBEIRO, 2009, p. 24). 3 Website é o conjunto de páginas que o compõe. 4 São websites que pesquisam todos os documentos na rede, e a apresentação do resultado é aleatória, dependendo do ranking de acessos aos sites. As informações podem referir-se a qualquer tema. Google, Yahoo!, MSN são os buscadores mais acessados.
15
Entretanto vale registrar que o tamanho exato da web indexada e da web profunda é variável e
impreciso, apesar de existirem mensurações atualizadas podendo ser obtidas em
Worldwidewebsize (2011), que em 8 de janeiro de 2011 estimava em 13,75 bilhões de
páginas indexadas na web.
Essa diferença entre a web indexada e a web profunda ocorre por alguns fatores, por exemplo:
sites em que é necessária a autenticação do usuário para acessar suas páginas, por
exemplo, os sites de relacionamento e suas comunidades;
critérios e filtros adotados pelos buscadores, supostamente bem intencionados; eles
podem considerar páginas como inadequadas, por exemplo, pelo uso de mecanismos
on-page considerados não éticos, e assim puni-las com a não inclusão em seus bancos
de dados;
estruturas de websites impedindo que os robots ou crawlers5 desses buscadores
cheguem até a parte mais profunda de suas páginas, não as adicionando a seus bancos
de dados, por exemplo, ausência do arquivo robots.txt que declara se podem ou não
ser explorados por estes agentes dos buscadores;
até mesmo por razões políticas, como no caso da Google na China.
1.1 COMO CONTRIBUIR PARA MUDAR ESSE CENÁRIO?
É consenso que não existe conhecimento sem informação, mas existiria aumento de
conhecimento com o excesso de informações desorganizadas? Ou ainda, o excesso no
contexto desorganizado não nos colocaria diante de estímulos frágeis, sem significado e que
isso teria um efeito contrário ao aumento do conhecimento? São questões importantes e fica
claro que impõem a necessidade de mudanças nesse cenário desordenado, mas também é
certo que isso não se fará com ações isoladas ou com a adoção de uma tecnologia “mágica”
que supra todas as deficiências e necessidades. Isso, provavelmente, se dará por um conjunto
de ações (planejadas ou espontâneas) e tecnologias que de forma gradativa e integrada irão
evoluir adicionando facilidades e funcionalidades ao ciberespaço.
5 Robots ou crawlers (robôs ou aranhas) são os agentes utilizados pelos buscadores para varrer a Internet buscando informações (keywords, metatags etc.) nas páginas para indexá-las em seus bancos de dados.
16
Em Tasic (2007, p. 13), o autor, citando Edmonson e Mcmanus, coloca que boas questões em
pesquisas devem buscar um balanço entre a sua significância no mundo real e sua potencial
contribuição para a Academia, com um equilíbrio, evitando que as questões sejam meramente
filosóficas ou esotéricas, ou simplesmente pragmáticas ou mundanas. Seguindo nessa direção,
acrescenta que a questão da pesquisa deve ser aquela em que a resposta não é conhecida
completamente.
Nessa linha, por meio do estudo da evolução da Internet para compreensão do seu contexto de
alta produção e disponibilidade desordenada de dados, pelo estudo de conceitos e tecnologias
que se propõe a organizá-la e buscando entender o cenário do e-Gov no Brasil, esta
dissertação tem a pretensão de propor uma resposta à seguinte questão:
Como dar transparência a séries históricas de indicadores sociais, econômicos e financeiros,
públicos na web coletados em sites de e-Gov?
Com base nesses estudos, esta dissertação tem a ambição de propor um modelo de portal que
permita a interatividade humana e integração com outros sistemas computacionais, das séries
históricas públicas coletadas gratuitamente via web.
Quanto às tecnologias que serão abordadas, este trabalho focará web semântica, Visualização
de Dados e Otimização on-page (SEO6).
1.2 WEB SEMÂNTICA
No mundo corporativo e acadêmico existem pesquisadores trabalhando no desenvolvimento e
criação da web semântica. Nela as informações estarão organizadas de maneira estruturada,
permitindo que máquinas processem e integrem seus recursos de forma inteligente,
possibilitando buscas de informações mais rápidas, consistentes e relevantes, facilitando a
comunicação entre dispositivos heterogêneos. Vale acrescentar que pela estruturação e
conjuntos de regras de inferência, as informações poderão ser automaticamente deduzidas,
6 SEO - Search Engine Optimization engloba as técnicas envolvidas no tratamento de conteúdo, código e estruturas das páginas do website de forma tecnológica e ética para otimização no processo de indexação dos buscadores.
17
assim, ao contrário da web sintática7, a web semântica será processada também por
computadores (BERNERS-LEE et al.,2001).
Também é relevante conceituar que a ideia da web semântica não envolve uma Internet
desconectada da atual, mas um complemento ou sua extensão (FELICISSIMO, 2004, p. 15).
1.3 VISUALIZAÇÃO DE DADOS
A visualização de dados tem sido utilizada ao longo dos tempos de muitas formas, mas a
partir da computação tem se destacado entre as possíveis maneiras de transmitir a informação,
pois assim a comunicação visual se apresenta como poderosa expressão do conhecimento.
A visualização de dados tem o poder de fazer com que assuntos complexos se tornem
concretos e acessíveis, relatando fatos e possibilitando a tomada de decisões baseando-se em
dados.
Daí a importância da visualização de dados no século 21. Não só retrata os fatos da nossa
época, mas motiva o debate. Visualizar dados governamentais, por exemplo, cria uma
imagem do país, mostrando os avanços e atrasos, as conquistas e mazelas, indicando direções
a seguir e desvios a serem corrigidos e evitados.
1.4 OTIMIZAÇÃO ON-PAGE (SEO)
Um campo que tem trabalhado intensamente com a questão da otimização em mecanismos de
buscas na web é o do marketing, especificamente o marketing de busca.
Search Engine Marketing (SEM) ou Marketing de Otimização de Buscas (MOB) é o processo
que utiliza os mecanismos de buscas para promover um website, aumentar seu tráfego e/ou
fidelidade e prioritariamente aumentar o retorno sobre o investimento. SEM abrange todas as
ações internas (on-page) e externas (off-page) ao site para atingir as metas pretendidas
(GABRIEL, 2009, p. 44).
7 Web sintática é a web na sua forma atual em que apenas faz a apresentação do conteúdo ficando a sua interpretação a cargo dos seres humanos (BREITMAN, 2006, p. 2).
18
A parte do SEM que trata as técnicas de otimização internas ao site (on-page) recebe o nome
de SEO (Search Engine Optimization), envolvendo conteúdo, código e estrutura do website
tratados ética e tecnicamente, enquanto que a parte que trata as otimizações off-page
envolvem ações de relações públicas, links patrocinados etc. (GABRIEL, 2009, p. 46)
Esta dissertação focará as técnicas de SEO por tratarem de aspectos on-page que se alinham à
proposta de trabalho.
1.5 GUIA DO LEITOR
O capítulo 2 desta dissertação aborda a evolução histórica da Internet, buscando compreender
como se chegou ao cenário atual, como ocorre a governança da Internet e quais entidades a
organizam.
O capítulo 3 trata de conceitos essenciais. Inicia-se com a questão da web semântica,
debatendo o contraponto entre a web semântica e a inteligência artificial, Metadados (Padrão
Dublin Core, RDF e restrições a metadados), Ontologias e suas linguagens, principais
metodologias de desenvolvimento, principais ontologias, ferramentas de apoio ao
desenvolvimento e principais agentes e aplicações que utilizam web semântica.
Depois se tratará da questão da visualização de dados e por que utilizá-la, classificação de
modelos e uma análise de contexto finalizando esse item com aplicações de visualização de
dados existentes na web.
Finalmente será abordada a questão dos mecanismos de busca, detalhando o seu significado,
técnicas e cuidados necessários encerrando com a indicação de algumas ferramentas SEO
disponíveis.
No capítulo 4 será apresentado o estado atual do e-Gov no Brasil avaliando suas
características, tendências e oportunidades de evolução.
Concluindo este capítulo, discorrer-se-á sobre o modelo para um portal focado na coleta e
armazenamento sistêmicos de séries históricas públicas em sites de e-Gov, que permita,
19
gratuitamente, a interatividade dos seus usuários e a integração desses dados com outros
sistemas computacionais por meio da web.
Finalmente, no capítulo 5, serão apresentadas as limitações deste estudo, considerações finais
e contribuições, além de propostas para trabalhos futuros partindo do que foi abordado nesta
dissertação.
20
CAPÍTULO 2
UM BREVE HISTÓRICO DA INTERNET
No final do século XX surgiu um cenário convergente em que três processos isolados se
uniram criando uma estrutura social baseada em redes:
as demandas da economia por flexibilidade administrativa e pela globalização do
capital, comércio e da produção;
as exigências da sociedade sobre liberdade individual e a comunicação aberta e
transparente;
avanços tecnológicos na microeletrônica que alavancaram o desenvolvimento da
computação e das telecomunicações.
Nessas condições, a Internet, uma tecnologia com pouca aplicação prática e restrita aos
círculos dos cientistas e pesquisadores computacionais, dos hackers8 e das comunidades
contraculturais, transformou-se na mola propulsora para o surgimento de uma nova estrutura
social baseada em redes e com ela um novo modelo de economia (CASTELLS, 2003, p. 8).
Vive-se um momento de grandes transformações, onde tecnologias como redes de telefonia
fixa e móvel, TV a cabo, distribuição de energia elétrica, redes wi-fi, equipamentos de
processamento de informação cada vez menores, portáteis e baratos, convergem conectando
tudo e todos, transformando e informatizando a sociedade e criando a grande rede global
chamada Internet. (LEÃO, 2004, p. 18) afirma que se trata de transformações nas práticas
sociais, na vivência do espaço urbano e na forma de produzir e consumir informação.
É preciso entender o que a Internet representa para a sociedade, cada vez mais permeada pela
computação ubíqua9. Quanto ela atinge, envolve e modifica as pessoas? Como se chegou ao
8 De acordo com a RFC 1.392, da Internet Engineering Task Force (IETF), de 1993, hacker é “uma pessoa que sente prazer em ter uma compreensão profunda dos processos internos de um sistema, de um computador ou de uma rede informática em específico. O termo é frequentemente colocado em um contexto pejorativo, em que ‘cracker’ seria o nome correto”. Disponível em http://www.ietf.org/rfc/rfc1392.txt 9 Computação ubíqua tem como objetivo tornar a interação pessoa-máquina invisível, ou seja, integrar a informática com as ações e comportamentos naturais das pessoas. Não literalmente invisível, mas de uma forma que as pessoas não percebam que estão dando comandos a um computador, mas conversando com alguém. Além disso, os computadores teriam sistemas inteligentes que estariam conectados ou procurando conexão o tempo todo, dessa forma tornando-se onipresente. Também é conhecida pelos termos em língua inglesa de pervasive computing, calm technology, things that
think e everyware, e denomina-se alternativamente de inteligência ambiental.
21
estágio atual e quais serão os próximos passos, enfim, o que esperar em relação ao
desenvolvimento futuro dessas tecnologias, como isso poderá se dar?
Castells (2003) define a Internet como o tecido de nossas vidas, comparando a tecnologia da
informação à eletricidade e a Internet à rede elétrica ou a um motor elétrico em face de sua
capacidade de distribuir a força da informação por todos os domínios da atividade humana,
completando que se a capacidade de gerar e distribuir energia viabilizaram as fábricas e as
grandes corporações como os fundamentos da sociedade industrial, a Internet se tornou o
alicerce tecnológico para o modelo organizacional da era da Informação: a rede.
Sobre o momento atual da Internet, David Weinberger coloca que:
Não estamos na era da informação. Não estamos na era da Internet. Nós estamos na
era das conexões. Ser conectado está no cerne da nossa democracia e nossa
economia. Quanto maior e melhor forem essas conexões, mais fortes serão nossos
governos, negócios, ciência, cultura, educação... (LEÃO, 2004).
Quanto ao futuro, Leonard Kleinrock refere-se à computação nomádica e aos espaços
inteligentes. Abordando a computação ubíqua a partir da disponibilidade de dispositivos de
computação, pequenos e de pouco peso, baratos e essencialmente portáteis, assim a
computação nomádica trata a tecnologia que permite aos usuários móveis terem acesso à
Internet de modo transparente, sem importar para onde irão ou estejam, reforçando que o
próximo passo será sair do ciberespaço e entrar no mundo físico dos espaços inteligentes. No
ambiente, veículos, casas, relógios etc., de certa forma adquirem vida por meio de sensores,
atuadores, câmeras, microfones, GPS. Essa tecnologia fornecerá os serviços IP de que se
necessita, tornando a Internet um sistema nervoso de presença global (KUROSE et al.,2003,
p. 54 e 55).
Ainda sobre o futuro, Tim Berners-Lee projeta que a Internet será um espaço muito mais
criativo, onde qualquer um poderá criar e editar hipertextos como uma forma de expressão e
de atividade colaborativa. Além disso, visualiza os computadores trocando dados de forma
que viabilizem o relacionamento de significados em diferentes bancos de dados formando a
web semântica (KUROSE et al.,2003, p. 128 e 129).
José Joaquin Garcia-Luna-Aceves, Professor de Engenharia da Computação na Universidade
da Califórnia em Santa Cruz (UCSC), entende que no futuro a Internet terá plena penetração e
22
que se aprenderá a entendê-la como forma de comunicação e como o caminho que todos os
computadores usam para se comunicar e ajudar as pessoas a interagir, e reforça citando que “a
rede é o computador e o computador é a rede” (KUROSE et al., 2003, p. 294).
A visão de futuro de Philip Zimmermann, criador do PGP 10
, é a de que todo ou a maior parte
do tráfego da Internet será criptografado, e assim ela se tornará “opaca” para as agências de
inteligência. Ele antevê esse cenário a partir da crença do desenvolvimento cada vez maior da
tecnologia sem fio e do uso intensivo de celulares e smartphones para realização de
transações comerciais e bancárias, forçando a evolução da criptografia para dar segurança aos
protocolos IP (KUROSE et al.,2003, p. 487).
Percebe-se que cada uma das previsões acima mostra visões de futuro diferentes para a web,
provavelmente influenciados pelos campos de pesquisas em que cada um atua, mas também é
claro que nenhuma dessas visões são excludentes entre si e que podem em certa medida se
concretizarem, complementando-se de forma integrada.
Dentro dessa abordagem, compreender como os fatos históricos e o contexto em que
ocorreram ajudará a entender a sua cultura e evolução até se chegar ao contexto atual da web.
A partir disso, poder-se-á compreender as visões de futuro prognosticadas por especialistas e
supor nossas próprias alternativas de futuro.
2.1 O INÍCIO (1945 A 1972)
A história da Internet começou por volta de 1945, como demonstra o artigo publicado por
Bush (1945), onde foi descrito o Memex, um dispositivo para ajudar a memória e
guardar conhecimentos (daí o nome Memex: Memory Extension). A partir da ideia de que a
soma dos conhecimentos aumentava em um ritmo maior que a evolução dos meios
de armazenamento e acesso aos dados, e observando o funcionamento da mente humana, que,
segundo o autor opera sempre por meio de associações, Bush imaginou e descreveu, de
10 PGP é um software de criptografia para e-mail desenvolvido para os grupos de direitos humanos e das liberdades civis. Hoje o PGP é usado como produto comercial. Do inglês Pretty Good Privacy (privacidade bastante boa), é um programa de computador que utiliza criptografia para proteger a privacidade do e-mail e dos arquivos guardados no computador do usuário. Pode ainda ser utilizado como um sistema à prova de falsificações de assinaturas digitais permitindo, dessa forma, a comprovação de que arquivos ou e-mails não foram modificados.
23
maneira detalhada, um dispositivo que poderia armazenar um grande volume de informações,
de modo a serem alcançadas de forma rápida e fácil. Esse equipamento, concebido para suprir
as “falhas da memória humana” por meio de recursos mecânicos pode ser considerado o
precursor da ideia de hipertexto.
Ainda em 1945, Douglas Engelbart, após ler e ser influenciado pelo artigo de Vannevar Bush,
trabalhou nos anos seguintes nessa linha de pesquisa e em 1963, dentro da ARPA, criou o
Augmentation Research Center, apresentando em 1968 na “Fall Joint Computer Conference”,
em São Francisco, o On-Line System (NLS), considerado o primeiro ambiente integrado de
processamento de ideias. Ele utilizava novos recursos para a época, e que hoje estão
completamente integrados no dia-a-dia, como o mouse para seleção na tela, teleconferência,
links por hipertexto, processador de texto, sistemas de ajuda online e um ambiente gráfico
com janelas. Foi o primeiro modelo funcional do que seriam os computadores de hoje.
Após esse início, o próximo marco foram os primeiros registros da descrição das interações
sociais que poderiam ser realizadas por meio de redes, em uma série de memorandos escritos
por Joseph Licklider, um psicólogo transformado em cientista da computação no
Massachusetts Institute of Technology (MIT), em agosto de 1962, discutindo o conceito de
“Galactic Network”. Ele imaginava um mundo interconectado por meio do qual todos
pudessem acessar, rapidamente e de qualquer lugar, dados e programas. Antevisão muito
próxima do que é a Internet atual (CERF et al).
Ainda nos anos 1960, surgiu a precursora da Internet como se conhece hoje: a Arpanet, que
era uma rede de computadores criada pela Advanced Research Projects Agency (ARPA) em
1969. A ARPA nasceu em 1958 dentro do Departamento de Defesa dos Estados Unidos com
a finalidade de mobilizar recursos de pesquisa, especialmente do mundo acadêmico, para
buscar superioridade tecnológico-militar em relação à União Soviética, que lançara em 1957 o
satélite Sputnik (CERF et al).
A Arpanet era então um pequeno projeto dentro de um dos departamentos da ARPA, o
Information Processing Techniques Office (IPTO), fundado em 1962, que teve Licklider
como primeiro Diretor (CERF et al).
Considerando a importância crescente e o alto custo envolvido dos computadores na década
de 1960, além do advento dos computadores com multiprogramação (Time-sharing)
24
(KUROSE et al., 2003, p. 44), compreende-se o objetivo formal do IPTO definido por
Licklider em estimular a pesquisa em computação interativa (CASTELLS, 2003).
Como parte desse trabalho, a criação da Arpanet foi justificada como uma forma de permitir
que os centros de computadores e grupos de pesquisadores que trabalhavam para a agência
pudessem compartilhar online o tempo de processamento desses computadores (CERF et al).
A ideia era estabelecer essa rede por meio de comutação de pacotes e não de comutação de
circuitos, como operavam as redes telefônicas, então a rede de comunicação globalmente
dominante. Segundo Kurose et al. (2003, p. 44), três grupos de pesquisa ao redor do mundo
trabalhavam sobre comutação de pacotes sem que nenhum tivesse conhecimento do trabalho
do outro. O primeiro trabalho publicado foi o de Leonard Kleinrock, na época Doutorando do
MIT. Em 1964, Paul Baran iniciou investigações sobre comutação de pacotes no Rand
Institute para segurança na transmissão de voz em redes militares, enquanto Donald Davies e
Roger Scantlebury desenvolviam suas pesquisas em comutação de pacotes no British National
Physical Laboratory. Considera-se que os trabalhos do MIT (1961-1967), Rand (1962-1965),
BNPL (1964-1967) sejam o alicerce do que é hoje a Internet.
Após o refinamento das especificações da Arpanet, foi realizada uma seleção para o
desenvolvimento de um dos principais componentes, o comutador de pacotes, chamado
Interface Message Processors (IMP’s). Finalizada em dezembro de 1968, o vencedor foi o
grupo dirigido por Frank Heart na Bolt Beranek and Newman (BBN).
Em setembro de 1969, os primeiros nós da rede foram instalados na Universidade da
Califórnia em Los Angeles (UCLA), no Stanford Research Institute (SRI), na Universidade
da Califórnia em Santa Bárbara e na Universidade de Utah.
Em outubro de 1972, Robert Kahn organizou uma grande e bem sucedida demonstração da
ARPANET na Conferência Internacional de Comunicação de Computadores (ICCC). Essa foi
a primeira demonstração pública da nova tecnologia de rede (NCP, ou network control
protocol) para o público.
Também em 1972 foi introduzida a primeira aplicação. Tratava-se do primeiro programa de e-
mail elaborado por Ray Tomlinson da BBN. Ele escreveu o software básico de envio e leitura
de mensagens, motivado pela necessidade dos desenvolvedores da Arpanet em ter um
mecanismo simples e fácil de comunicação e coordenação. Logo em seguida, Roberts
25
expandiu as funcionalidades para listar, ler seletivamente, arquivar, encaminhar e responder
mensagens. O e-mail foi a principal aplicação de rede por mais de uma década. Esse foi o
prenúncio do tipo de atividade que se vê na World Wide Web de hoje (CERF et al).
2.2 REDE DE REDES (1972 - 1990)
A Arpanet inicial era uma rede única e fechada, assim o passo seguinte seria conectá-la por
meio de IMP’s com outras redes de comunicação, começando com as administradas pela
ARPA: a PRNET e a SATNET, criando o conceito de rede de redes (CASTELLS, 2003, p.
15).
Em meados da década de 1970 surgiram outras redes de comutação de pacotes como a
Alohanet, uma rede que conectava universidades das ilhas do Havaí por microondas, a Telnet,
uma rede comercial da BBN, a Tymnet, e a Transpac, uma rede francesa de comutação de
pacotes. Em 1973, Robert Metcalfe apresentou em sua tese de doutorado em ciência da
computação em Harvad os princípios da Ethernet. O protocolo Ethernet levou ao enorme
crescimento de LAN’s de curta distância (KUROSE et al.,2003, p. 45).
Em 1973, Robert Khan (ARPA) e Vinton Cerf (Stanford) escreveram artigo (A Protocol for
Packet Network Intercommunication) traçando a arquitetura básica da Internet. Quatro regras
foram críticas para os princípios da arquitetura de Kahn e Cerf, conforme (KUROSE et al.,
2003, p. 46):
minimalismo, autonomia: cada rede distinta deveria ser independente e mudanças
internas não deveriam ser requisitadas para conectá-las à Internet;
serviço de melhor esforço: comunicações seriam na base do melhor esforço. Se um
pacote não chegasse à sua destinação final, ele seria retransmitido da fonte;
roteadores sem estado: caixas pretas seriam usadas para conectar as redes. Mais tarde
elas seriam chamadas gateways e roteadores. Os gateways não reteriam informações
sobre os fluxos de pacotes passantes. Isso assegurou que eles se mantivessem simples,
evitando adaptações complicadas e recuperações de erros;
controle descentralizado: não haveria controle global no nível operacional.
26
Para ser possível a conexão com outras redes de computadores era necessária a padronização
dos protocolos de comunicação, o que foi obtido parcialmente em seminário em Stanford por
um grupo liderado por Cerf, Gerard Lelann e Metcalfe com o projeto do Transmission
Control Protocol (TCP). Em 1978, Cerf, Postel e Crocker dividem o TCP em duas partes
acrescentando o protocolo intra-rede (IP), o que criou o protocolo TCP/IP, padrão utilizado
até hoje na Internet (CASTELLS, 2003, p. 14 e 15).
Vale registrar que além dos esforços coordenados pela ARPA sobre interconexão de redes,
uma série de empresas estava desenvolvendo arquiteturas de redes. A Digital Equipment
Corporation (DEC) apresentou o DECnet em 1975 conectando dois computadores PDP-11,
contribuindo sobremaneira no conjunto de protocolos do padrão OSI (Open Systems
Interconnection) com as ideias pioneiras do DECnet. A IBM, com a arquitetura SNA, e a
Xerox, com a arquitetura XNS, também contribuíram para a base de conhecimento que
fundamentou os avanços das redes nas décadas de 1980 e 1990 (KUROSE et al.,2003, p. 46 e
47).
Em 1975, a Arpanet foi transferida para a Defense Communication Agency (DCA), a fim de
permitir a comunicação por computador disponível para os diferentes ramos das forças
armadas, criando uma conexão entre várias redes que controlava – estabelecendo assim a
Defense Data Network, que operava no padrão TCP/IP. Em 1983, preocupado com possíveis
falhas de segurança, o Departamento de Defesa Americano decidiu formar uma rede
independente para fins militares específicos chamada MILNET. A partir disso a Arpanet
passou a ser dedicada exclusivamente à pesquisa e tornou-se a Arpa-Internet. Em 1984, a
National Science Foundation (NSF) criou a NSFNET, sua própria rede de computadores e em
1988 começou a usar a Arpa-Internet como seu backbone (CASTELLS, 2003, p. 15).
No início de 1990, já considerada obsoleta, a Arpanet foi tirada do ar. Com a Internet livre de
sua vinculação militar, permitiu ao governo americano entregar sua administração à National
Science Foundation, o que durou pouco. Com o domínio público da tecnologia de redes e as
telecomunicações plenamente desreguladas, a NSF encaminhou a privatização da Internet. Na
década de 1980, o Departamento de Defesa já havia decidido comercializar a tecnologia da
Internet financiando fabricantes para incluir TCP/IP entre seus protocolos. Assim, na década
de 1990, a maior parte dos computadores nos Estados Unidos poderia entrar em rede criando
os alicerces para a interconexão de redes. Com a extinção da NSFnet, em 1995, abriu-se
espaço para a operação privada da Internet (CASTELLS, 2003, p. 15).
27
2.3 OUTRAS INFLUÊNCIAS NA FORMAÇÃO DA INTERNET
A Internet, como se conhece hoje, não foi influenciada apenas pela Arpanet. A partir do
programa desenvolvido em 1977 pelos estudantes de Chicago, Ward Christensen e Randy
Suess, batizado de MODEM, foi possível a transferência de arquivos entre computadores
pessoais. Em 1978, eles desenvolveram outro programa chamado Computer Bulletin Board
System, que possibilitava aos computadores armazenar e transmitir mensagens. Ambos os
programas foram liberados para o domínio público, o que contribuiu na constituição da
cultura de formação de rede a partir dos Bulletin Board Systems (BBS), entre os quais se
destacam a FIDOnet e a BITnet da IBM (CASTELLS, 2003, p. 16).
Outra rede que deve ser citada é o Projeto Minitel. Ele foi desenvolvido paralelamente à
Arpanet pelo governo francês no início da década de 1980. Consistia em uma rede pública de
comutação de pacotes (baseada no conjunto de protocolos X.25 que usava circuitos virtuais),
servidores Minitel e terminais baratos com modems de baixa velocidade embutidos. Em 1984
o governo francês forneceu de graça um terminal Minitel a qualquer residência francesa que
desejasse, transformando o projeto em um grande sucesso. Os sites do Minitel incluíam os de
livre acesso como lista telefônica e outros onde se cobravam taxas pelo tempo de uso. No seu
auge, em 1990, o Minitel tinha aproximadamente 20 mil serviços diferentes, era usado por
20% da população francesa, criando 10 mil empregos e gerando um movimento de um bilhão
de dólares por ano. Assim, uma rede importante já estava nos lares franceses dez anos antes
de a maioria dos americanos ouvir falar da Internet (KUROSE et al.,2003, p. 47 e 48). Contra
ela pesa o fato de que foi baseada em um princípio de rede de computadores centralizada,
controlada pelo governo (CASTELLS, 2003, p. 27).
No Brasil, um sistema bem-sucedido baseado no Minitel, chamado VideoTexto, foi iniciado
em São Paulo, pela antiga estatal Telesp. Operou de 1982 até meados dos anos 1990; algumas
poucas companhias telefônicas de outros estados instalaram sistemas similares, mas com
bases de dados e serviços diferentes. O principal motivo para o sucesso do VideoTexto em
São Paulo foi porque a Telesp oferecia apenas o serviço e o acesso à lista telefônica de
assinantes, enquanto outras empresas – bancos, provedores de bancos de dados, jornais –
ofereciam conteúdos e serviços adicionais. O sistema teve seu ápice em 1995, com cerca de
70 mil assinantes.
28
Outra influência importante nasceu nos Laboratórios Bell quando, em 1974, por exigência do
governo dos EUA, cederam às universidades americanas os códigos fonte do UNIX com
permissão para alterações, o que fez com que se tornasse um difusor dessa tecnologia. Em
1978, a Bell distribuiu seu programa UUCP (Unix-to-Unix CoPy), que permitia aos
computadores copiarem arquivos entre si. Em 1979, baseado nessa tecnologia, quatro
estudantes da Carolina do Norte projetaram um programa para comunicação entre
computadores que permitiu a formação da rede de computadores USEnet fora do backbone da
Arpanet. Em 1980, essa tecnologia foi aperfeiçoada por estudantes de pós-graduação da
Universidade da Califórnia, em Berkeley, criando uma ponte entre a USEnet e a Arpanet,
permitindo o mesmo para outras redes que passaram a comunicar-se entre si, sendo
finalmente congregadas na forma da Internet.
Outra contribuição essencial na formação da Internet também veio da cultura dos usuários
UNIX, por intermédio do “Movimento do Código Fonte Aberto”. Esse movimento ganhou
força em 1984, quando a AT&T reivindicou direitos de propriedade sobre o Unix. Nessa
ocasião, Richard Stallman, programador no Laboratório de Inteligência Artificial do MIT,
lança a Free Software Foundation, propondo a adoção do Copyleft, de forma que quem usasse
um software gratuito deveria em contrapartida distribuir pela Internet os códigos
aperfeiçoados dele, em oposição aos direitos de Copyright. Também criando o GNU, um
sistema operacional alternativo ao Unix sob o conceito do Copyleft.
Dentro dos princípios do Copyleft, em 1991, Linus Torvalds, estudante da Universidade de
Helsinki, desenvolveu o Linux, baseado no Unix, e o resultado foi a elaboração de um sistema
robusto e constantemente atualizado pelo esforço de milhares de hackers e milhões de
usuários. Outros grupos de desenvolvimento cooperativo de software foram criados a partir da
cultura dos usuários do Unix, como por exemplo o Apache (servidor web) e o PHP
(linguagem de desenvolvimento web).
2.4 WORLD WIDE WEB, O HIPERTEXTO E A INTERNET COMERCIAL (1990 -
1995)
Além de Vannevar Bush e Douglas Engelbart, existiram outros precursores do hipertexto
antes que Tim Berners-Lee fizesse o desenvolvimento da World Wide Web.
29
Em 1963, Ted Nelson, pensador independente e em certa medida radical, anteviu um
hipertexto de informação interligada em seu manifesto de 1963, Computer Lib. Trabalhando
desde então em um sistema, considerado utópico para alguns, chamado Xanadu, um
hipertexto aberto, auto-evolutivo, destinado a vincular toda a informação passada, presente e
futura do planeta (CASTELLS, 2003, p. 18). Apesar de a web dever muito de sua inspiração
ao Xanadu, Ted Nelson é um critico da World Wide Web, o XML e todos os sistemas
relacionados ao protocolo de Berners-Lee, lembrando que a web é uma simplificação
grosseira das ideias contidas no Xanadu, afirmando que “HTML é precisamente o que
tentávamos evitar: links quebrados, links unidirecionais, citações sem ligação com sua fonte,
nenhum controle de versões publicadas, nenhum controle de direitos autorais” (NELSON,
1999).
Já na década de 1980, Bill Atkinson, membro do time de desenvolvimento do Apple
Macintosh, projetou e implementou o HyperCard, considerado o primeiro
sistema hipermídia popular. Também foi o criador de MacPaint, e desenvolveu e
implementou QuickDraw, a toolbox de base que o Macintosh usava para gráficos. O
desempenho de QuickDraw foi essencial para o sucesso da interface gráfica do Macintosh.
Sem ter consciência de que o seu trabalho continuava uma tradição de mais de 50 anos na
busca de soluções para associar fontes de informação por meio da computação interativa,
iniciadas por Bush, Engelbart, Nelson e Atkinson, o inglês Tim Berners-Lee, então um
programador do CERN em Genebra (Laboratório Europeu para a Física de Partículas),
começou a transformar em realidade esses anseios com o desenvolvimento do Enquire11
em
1980. O seu trabalho foi favorecido pela existência da Internet e pela capacidade
computacional descentralizada. As utopias passaram a ser possíveis (CASTELLS, 2003, p.
18).
Bernes-Lee definiu e implementou o programa que possibilitava obter e acrescentar
informação de e para qualquer computador conectado na Internet: HTTP, MTML e URI
(depois URL). Junto com Robert Cailliau, desenvolveu o navegador/editor em dezembro de
1990, chamando-o de World Wide Web. Esse navegador foi disponibilizado pelo CERN na
Internet em agosto de 1991. A partir desse trabalho, hackers do mundo inteiro tentaram
11 ENQUIRE foi um projeto usado para reconhecer e armazenar associações de informação, desenvolvido por Tim Berners-Lee no segundo semestre de 1980, enquanto ele trabalhava na CERN. Ao invés de um navegador da web, o ENQUIRE estava mais próximo a uma wiki.
30
desenvolver novos navegadores. A primeira versão veio em abril de 1992, no Instituto de
Tecnologia de Helsinki, o Erwise. E logo em seguida, o ViolaWWW, desenvolvido por Pei-
Yuan Wei na Universidade da Califórnia em Berkeley (CASTELLS, 2003).
Desse esforço de desenvolvimento de versões da www, surgiu o Mosaic, desenvolvido por
Marc Andreessen e Eric Bina no National Center for Supercomputer Applications da
Universidade de Illinois. Eles dotaram o Mosaic de uma avançada capacidade gráfica,
possibilitando captar e distribuir imagens pela Internet, além de várias técnicas de interfaces
já utilizadas no mundo da multimídia, divulgando o software na Usenet em janeiro de 1993.
Mais tarde Andreessen foi procurado por Jim Clark, fundador e recém-saído da Silicon
Graphics, e junto com Bina formaram a Mosaic Communications, mais tarde chamada de
Netscape Communications, lançando o primeiro navegador comercial, o Netscape Navigator
em outubro de 1994. Em 1995, lançaram o Navigator pela Internet, gratuitamente para fins
educacionais e por US$ 39 para aplicações comerciais (CASTELLS, 2003).
A Microsoft percebeu a Internet somente depois do sucesso do Navigator e, ainda em 1995,
lançou junto com o Windows 95 o seu navegador Internet Explorer, baseado em tecnologia
desenvolvida pela Spyglass, empresa nascida de uma divisão da University of Illinois em
Urbana-Champaign, para comercializar e dar apoio às tecnologias desenvolvidas pelo
National Center for Supercomputing Applications (NCSA). O crescimento do Internet
Explorer foi tal que, em reação a isso, em 1998 a Netscape liberou o código-fonte do
Navigator na Internet. Ao longo do tempo outros navegadores surgiram como o Navipress da
America On Line (AOL), o Mozilla Firefox, Opera e Safari e mais recentemente o Chrome do
Google.
Também em 1995 a Sun Microsystems liberou gratuitamente na Internet o Java, linguagem de
programação de miniaplicativos (applets). A tecnologia Java havia sido projetada para se
mover por meio de redes de dispositivos heterogêneos como a Internet. Com ela, aplicações
poderiam ser executadas dentro dos navegadores nos Applets Java e tudo seria
disponibilizado pela Internet. Por meio do HTML embutidos nos navegadores foi possível
alavancar a rápida disseminação do Java. A rapidez no desenrolar dos fatos seguintes foi
enorme, o número de usuários cresceu velozmente, grandes companhias de tecnologia, como
a IBM anunciaram suporte para a tecnologia Java solidificando o sucesso da linguagem.
31
Assim, o sonho nascido da imaginação dos cientistas da computação no início da década de
1960 de uma rede de comunicação congregando comunidades de hackers e pesquisadores, já
por volta de 1970, começa a se tornar realidade. Entretanto, para a maior parte da sociedade
foi apenas em 1995 que ela nasceu.
Isso ocorreu com a criação dos protocolos e ferramentas tecnológicas que permitiram a
comunicação ampla, acessível e fácil entre qualquer rede e computador no mundo. A World
Wide Web funcionava com software adequado e haviam vários navegadores, fáceis de serem
utilizados. Em suma, passaram a existir as condições para que seu uso fosse disseminado
entre a sociedade em geral.
Passados quinze anos, é instigante observar que foram criados, desenvolvidos e modificados
tantos conceitos à volta da Internet e como isso tudo entrou na vida das pessoas gerando um
grau de dependência tecnológica nunca antes imaginado. Como colocado por Bessa
(2007/2008, p. 4), “Nada na história das invenções terá tido uma absorção tão rápida e tão
intensa. Nunca a história precisou de tão pouco tempo para se fazer”.
Esse nascimento se deu com características e marcas relevantes quanto à cultura em que
nasceu e a cultura que se formou a partir de então. Isso será discutido nos próximos tópicos.
2.5 A FORMAÇÃO DA CULTURA DA INTERNET
A abordagem no histórico da Internet descrito por Castells (2003) leva a algumas conclusões.
A primeira é a de que a tensão crescente entre o bloco dos países Ocidentais liderados pelos
EUA e os do bloco comunista liderados pela União Soviética após a Segunda Guerra
Mundial, fez surgir a busca pela supremacia militar por meio de avanços em tecnologias
bélicas. O lançamento do satélite Sputnik e uma aparente superioridade tecnológica Soviética
influenciou a criação da ARPA, e a partir disso surge a Arpanet, considerada o embrião da
Internet atual. Sem esse contexto não teriam existido a ARPA e a Arpanet, e certamente a
Internet, se existisse, não seria igual aos moldes de hoje.
Outra conclusão é quanto ao gerenciamento e nível de delegação que a ARPA recebeu do
Departamento de Defesa Americano. Fica nítido que houve inteligência organizacional por
partes dos decisores, políticos ou militares, ao atribuírem à ARPA autonomia para moldar as
32
formas de estímulo às pesquisas tecnológicas em áreas vitais, sem abafar a criatividade e
mantendo a independência dos cientistas.
Ter seus quadros formados por cientistas acadêmicos e seus alunos de pós-graduação deu à
ARPA a compreensão de como as pesquisas se desenvolvem, o que a levou a conceder a
autonomia necessária aos pesquisadores contratados ou financiados por ela. Isso permitiu
atrair pesquisadores inovadores e talentosos para seus projetos. Em certa medida esse
conjunto de pessoas criou um ambiente em que estiveram presentes boas intenções, valores
morais e atitudes acadêmicas de transparência, inovação e cooperação na realização de seus
desenvolvimentos e descobertas, o que muito contribuiu para o futuro da Internet.
Também vale concluir que apesar dos pesquisadores da ARPA não fazerem parte da
contracultura, o resultado de seu trabalho criou a ponte necessária para a comunicação com o
ambiente estudantil mais amplo, desenvolvidos em outras redes fora da Arpanet, como os
BBS’s e a Usenet.
Essas comunidades alternativas à Arpanet, também formadas nos campi universitários,
trouxeram e reforçaram os mesmos valores de transparência e cooperação, principalmente por
meio da publicação de códigos fonte e pelo esforço conjunto de muitos voluntários que
obtiveram avanços significativos em programas os quais alavancaram o desenvolvimento da
Internet.
Foi dentro desse caldeirão, onde ingredientes tão díspares como a pesquisa militar, a
contracultura e grandes projetos de pesquisa, que se formou a Internet e a sua cultura. Sobre
isso, Castells (2003) diz que “antes de mais nada, a Internet nasceu da improvável interseção
da big science, da pesquisa militar e da cultura libertária”. Disso percebe-se que nasceu
influenciada por duas linhas de pensamento: a primeira voltada para os méritos científicos e
para servir à Pátria e a segunda, rebelde e libertária, focada em conceitos de igualdade e
cooperação.
Concluindo, convém considerar que, se a Internet conhecida hoje possui defeitos e falhas que
podem comprometer de alguma forma conceitos como liberdade e privacidade, fica claro que
não provêem das intenções ou do caráter de seus idealizadores e produtores iniciais, mas sim
de defeitos surgidos no seu próprio crescimento e desenvolvimento.
33
2.6 O ESTADO ATUAL E SEUS REFLEXOS
Castells (2003) afirma que os sistemas tecnológicos são socialmente produzidos e que a
produção social é estruturada culturalmente. Assim como se discutiu no tópico anterior, a
Internet foi formada a partir de culturas que se consolidaram, chegando a uma forma em
meados dos anos 1990, mas a partir desse ponto, essa cultura da Internet, em um processo
contínuo, transforma-se por inserir em seu contexto “genético” outros grupos de usuários com
traços culturais diferentes. Esses grupos produzem e consomem recursos da Internet
modificando-a e a sua cultura.
Segundo Castells (2003), pode-se dividi-los entre Produtores e Consumidores, sendo que os
usuários Produtores são aqueles que de alguma forma intervêm na produção e na construção
do ambiente tecnológico, e os Consumidores são aqueles que somente consomem os recursos
sem nenhuma ação de desenvolvimento. Apesar de Castells (2003, p. 34) focar na cultura do
grupo dos Produtores, vale registrar que mesmo os Consumidores descobrem, pelas suas
experiências, aplicações e usos não percebidos de antemão pelos Produtores, o que em certa
dose altera o ambiente por meio de um efeito agregado na evolução do sistema tecnológico da
Internet.
A divisão proposta por Castells (2003, p. 34) para a cultura dos Produtores é a seguinte:
Tecnoelites: Refere-se a uma cultura tecnomeritocrática estabelecida na academia e na
ciência. Crê no progresso científico e tecnológico para o bem e progresso da
humanidade e em valores de reputação, competência, exame dos pares,
compartilhamento e cooperação. A Internet foi concebida nesse ambiente a partir de
onde esses valores, hábitos e conhecimento se espalharam pela cultura hacker.
Hacker: Pode-se afirmar que é o gerador do ambiente fomentador de inovações
tecnológicas vitais, mediante a cooperação e a comunicação livre; além disso, faz a
ponte entre o conhecimento nascido nas Tecnoelites e os subprodutos empresariais que
difundem a Internet na sociedade em geral. Vale conceituar o termo hacker. Segundo
Bessa (2007/2008, p. 7), a comunidade hacker é
(...) composta por aqueles entusiastas da tecnologia, que bebem na fonte dos
acadêmicos mas que, acima de tudo, se assumem como defensores do contrapoder,
da liberdade e independência, caracterizando-se pela sua criatividade tecnológica e
34
pela forma diligente como compartilham toda a informação, aprendendo uns com os
outros e fazendo da Internet a sua própria escola.
A visão divulgada nos meios de comunicação que seriam irresponsáveis viciados em
computador empenhados em quebrar senhas e códigos, penetrar em sistemas
ilegalmente, ou criar o caos no tráfego de computadores, na verdade se refere aos
“crackers”.
Comunidades Virtuais: Pode-se afirmar que surgiram ainda na Arpanet com uma das
primeiras listas temáticas, a SF-Lovers (para amantes da ficção científica), chegando
hoje a comunidades em sites de relacionamentos como Orkut, Twitter, Facebook etc.
Apesar de não formarem exatamente uma cultura em razão da multiplicidade de
interesses e valores, com conhecimento técnico limitado habitam a Internet se
relacionando, discutindo, publicando, levando assim suas inovações sociais e de forma
dinâmica e interessante, contribuindo na reconfiguração e evolução da Internet e dos
recursos da rede, de acordo com as necessidades surgidas para essas interações sociais.
Empreendedores: De acordo com Castells (2003, p. 51), em sua forma real o
empresário da Internet é um ser simbiótico de duas cabeças. Isso em razão da
necessidade da comunhão de interesses dos criadores/desenvolvedores com os
capitalistas de riscos. Os empresários da Internet são uma composição de pessoas e
organizações integradas por inventores, tecnólogos e capitalistas de riscos que
percebem as potencialidades econômicas da Net e, por meio de suas habilidades,
desenvolvem projetos economicamente viáveis, baseados na produção de software e
hardware, contribuindo para o desenvolvimento da Internet, porém com uma
abordagem capitalista, menos acessível e mais condicionante aos seus produtos.
Enfim, a Cultural empresarial é, acima de tudo, uma cultural de dinheiro (muito) e do
trabalho (compulsivo e incessante).
É nesse contexto que a Internet se desenvolve e cresce, e onde essas culturas interagem. Sobre
isso Castells coloca da seguinte forma:
A cultura da Internet é uma cultura feita de uma crença tecnocrática no progresso
dos seres humanos através da tecnologia livre e aberta, incrustada em redes virtuais
que pretendem reinventar a sociedade, e materializada por empresários movidos a
dinheiro nas engrenagens da nova economia (CASTELLS, 2003, p. 53).
35
A Internet no cenário atual é uma entidade que por sua constituição aberta e distribuída tem
uma elasticidade que a torna um importante instrumento para o desenvolvimento da nova
economia e até mesmo para o desenvolvimento do Terceiro Mundo, como menciona Castells
(2003, p. 10). Porém, isso também a torna suscetível às apropriações para fins ilícitos e
práticas criminosas das mais variadas formas – conhecidas e das que ainda serão percebidas.
Outro ponto relevante é quanto às facilidades atuais de geração de conteúdo. A cultura aberta
e compartilhada da Net proporcionou o surgimento de ferramentas de desenvolvimento de
conteúdos web fáceis de serem usadas, requerendo pouco ou quase nenhum conhecimento
técnico dos novos Produtores. Nesse contexto podem ser citados os blogs, sites de
relacionamentos, construtores de sites disponibilizados por provedores como UOL ou Google,
transformando a Internet em um espaço criativo em que qualquer um pode criar e editar
hipertextos como uma forma de expressão e de atividade colaborativa, favorecendo o
crescimento exponencial de conteúdo, desestruturado, cada vez mais e em maior volume.
2.7 A GOVERNANÇA DA INTERNET
Nesse tópico será focalizado o gerenciamento das comunicações e das funções de
coordenação da Internet, envolvendo desenvolvimento de protocolos compartilhados e
acordos quanto aos padrões e atribuições de nomes e endereços na Internet. Acredita-se que
estando equacionados esses pontos, considerando a estrutura descentralizada da Internet, o
resto se desenvolveria naturalmente e que a forma na qual foi forjada essa coordenação foi
decisiva para o desenvolvimento da Net e continua sendo para a sua evolução e crescimento,
independentemente de qualquer controle central (CASTELLS, 2003).
Como se nota ao longo deste capítulo, a ARPA conduzia sua autoridade na rede de forma
benevolente, considerando que buscava estimular a pesquisa tecnológica em áreas vitais sem
tolher a criatividade e a independência de seus pesquisadores. Além disso, o Network Working
Group produzia os padrões técnicos de forma consensual com a comunidade científica por
meio das RFC’s (Request for comments), o que ditou a forma como se daria a coordenação,
baseando-a na competência técnica, consulta à comunidade e decisões por consenso.
Com o início das operações da Arpanet nos anos 1970, o NWG foi dissolvido e seu papel
passou a ser realizado dentro da ARPA em um programa comandado por Cerf e Kahn, quando
36
foi criado o Internet Configuration Control Board (ICCB), que coordenava junto à
Comunidade o desenvolvimento dos Protocolos.
Em 1984, foi criado o Internet Activies Board (IAB), responsável pela supervisão técnica e da
engenharia de desenvolvimento da Internet. No ano de 1989 foi dividida em Internet
Engineering Task Force (IETF), responsável pelo desenvolvimento dos protocolos e outros
aspectos técnicos, e a Internet Research Task Force (IRTF), dedicada ao planejamento de
longo prazo.
Segundo Castells (2003, p. 30), em 1992, com a expansão da Internet e a intenção da NSF em
privatizar a rede, fazia-se necessário tirá-la do controle direto do governo americano; dessa
forma, foi criada em janeiro de 1992 a Internet Society (ISOC), englobando a IAB, IETF e
IRTF, cuja direção foi entregue a Vinton Cerf e Robert Kahn pelo respeito técnico e moral
que possuíam junto à comunidade científica da Internet dentro e fora dos EUA. Apesar ou por
causa da internacionalização acentuada da Internet, a ambiguidade do seu gerenciamento,
baseado na probidade e prestígio de seus fundadores mas, em última instância, ainda sob
supervisão e controle do governo americano, passou a ser cada vez mais questionada por
outros governos, especialmente dos países europeus.
A figura a seguir traz uma linha do tempo que demonstra a evolução da supervisão e
gerenciamento da Internet desde a década de 1960 até meados dos anos 1990, mostrando os
organismos do governo americano a que estavam submetidos, a evolução dos grupos de
trabalhos e consultivos, os principais eventos da Internet e por fim o crescimento operacional.
Figura 1 - Linha do Tempo da Internet (Fonte: CERF et al.)
37
Quanto à atribuição de endereços da Internet, isso fora delegado pelo governo americano à
Internet Assigned Numbers Autority (IANA), dirigida por Jon Postel da Universidade do Sul
da Califórnia (USC). Segundo Castells (2003), sua administração era respeitada e considerada
justa, consciente e neutra, atuando como árbitro para a atribuição de domínios na Internet.
Porém, com sua morte em 1998, a confiança que detinha da comunidade da Internet não
poderia ser transferida para uma instituição do governo. Como em 1997 a administração
Clinton manifestou a intenção de privatizar a IANA e outras organizações gerenciadoras da
Internet, Jon Postel, em sua última contribuição, em setembro de 1998, ofereceu ao governo
dos EUA seu projeto de privatização. A organização proposta, a Internet Corporation for
Assigned Names and Numbers (ICANN) foi aprovada no final de 1998 e completou sua fase
formativa em 2000.
Castells (2003) afirma que suas normas incorporaram o espírito de abertura da comunidade da
Internet, a descentralização, formação de consenso e a autonomia que caracterizaram o
governo ad hoc da Internet desde sua formação, somando uma orientação global a sua
composição. É uma entidade privada sem fins lucrativos que administra a alocação espacial
de endereços IP, atribuição de parâmetros de protocolos, organização e administração do
sistema de nomes de domínios e administração do sistema de servidores de raiz.
Atualmente a ICANN está organizada conforme a estrutura detalhada a seguir:
Figura 2 - Estrutura do ICANN (Fonte: <http://www.icann.org/en/structure/>. Acesso em 30/01/11)
38
Para maiores detalhes sobre essa estrutura e o funcionamento de cada item desse modelo,
recomenda-se o acesso ao site da ICANN (http://www.icann.org).
Como colocado por Castells (2003), a visão romântica de uma comunidade global da Internet
se autorrepresentando por meio do voto eletrônico deve ser acrescida com a realidade de
outros interesses representados por lobbies, das redes de apoio e reconhecimento de nomes de
certos candidatos; também não faltariam críticas bem formuladas à democracia na ICANN.
Além disso, os vínculos entre a ICANN e o Departamento de Comércio dos EUA não teriam
sido rompidos. Alguns países, especialmente os europeus, são críticos do que chamam de
“domínio americano” na ICANN. Dessa forma, a contradição entre as raízes históricas da
Internet nos EUA e seu caráter global sugere a transformação final da ICANN numa
instituição culturalmente mais ampla.
Por fim, dentro dos mesmos princípios e espírito da ICANN, outra organização foi formada
para presidir os protocolos e o desenvolvimento da web, o World Wide Web Consortium,
suportado nos EUA pelo MIT, na Europa pelo instituto francês INRIA, sendo dirigido por
Tim Berners-Lee.
Ainda no âmbito internacional não se pode deixar de citar The World Summit on the
Information Society12
(WSIS), duas conferências patrocinadas pela Organização das Nações
Unidas sobre informação, comunicação e, em suma, a sociedade da informação.
A primeira ocorreu em Genebra, na Suíça, em 2003, e a segunda em Túnis, na Tunísia, em
2005, com a proposta de reduzir a distância que a divisão digital global gerou entre os países
ricos e os países pobres, por meio da ampliação do acesso à Internet das populações dos
países em desenvolvimento.
Em Genebra, com a presença de delegados de 175 países, foi aprovada uma Declaração
de Princípios13
, com 67 itens, formando um roteiro para a construção de uma sociedade de
informação acessível a todos, baseada no conhecimento compartilhado. Um Plano de Ação14
foi definido com a meta de ter 50% da população mundial conectada na web até 2015, porém
sem dar detalhes de como isso poderia acontecer. A Cúpula de Genebra também não
resolveu questões controversas como a governança da Internet e o seu financiamento.
12 http://www.itu.int/wsis/index.html. 13 http://www.itu.int/wsis/docs/geneva/official/dop.html. 14 http://www.itu.int/wsis/docs/geneva/official/poa.html.
39
Sem a definição de um acordo sobre o futuro da governança da Internet, o Working Group on
Internet Governance (WGIG) foi formado para elaborar propostas nesse sentido.
Na ocasião, delegados da Sociedade Civil (ONG’s) elaboraram o documento “Shaping
Information Societies for Human Needs15
”, que consolida um amplo leque de questões
relacionadas aos direitos humanos e direitos de comunicação.
A segunda Cúpula aconteceu em 2005 em Túnis, e apenas às vésperas do evento a
Association for Progressive Communications (APC)16
divulgou o seu padrão. A APC propôs
ações específicas em cada uma das cinco áreas abaixo:
a criação do Internet Governance Forum (IGF)17
;
a transformação da ICANN em uma entidade de representação global, com plena
autoridade sobre o gerenciamento de DNS, e uma forma apropriada de prestação de
contas aos seus stakeholders no governo, setor privado e na sociedade civil;
o início de uma convenção entre os vários interessados na governança da Internet e
nos direitos humanos universais que codificam os direitos básicos aplicáveis à
Internet, a ser juridicamente vinculada em direito internacional às cláusulas da
declaração universal dos direitos humanos especialmente relevantes para a Internet,
tais como os direitos à liberdade de expressão, liberdade de associação e de
privacidade;
garantir o acesso fácil e universal à Internet. A APC colocou que a Internet é um
espaço público global, que deve ser aberto e acessível a todos, sem discriminação de
qualquer espécie. A Internet deve ser vista como uma infraestrutura pública global,
reconhecendo-se ser um bem público relacionado ao conceito de patrimônio comum
da humanidade e o acesso a ele é de interesse público, e deve ser fornecido como um
compromisso público global para a igualdade;
medidas para promover a capacitação em “desenvolvimento” no que diz respeito ao
aumento da participação dos países “em desenvolvimento” em fóruns globais de
política pública sobre a governança da Internet.
15 http://www.itu.int/wsis/docs/geneva/civil-society-declaration.pdf. 16 Trata-se de uma rede internacional de organizações da sociedade civil cujo objetivo é capacitar e apoiar grupos e indivíduos que trabalham para a paz, direitos humanos, desenvolvimento e proteção do meio ambiente, pelo uso estratégico das tecnologias da informação e comunicação (TIC), incluindo a Internet. 17 http://www.intgovforum.org/cms/.
40
A Cúpula de Túnis contou com a participação de 1.500 pessoas de organizações
internacionais, cerca de 6.200 pessoas de ONGs, por volta de 4.800 pessoas do setor privado,
e 980 de meios de comunicação.
Um dos resultados concretos da WSIS foi a criação do Internet Governance Forum (IGF),
cuja 6ª Reunião Anual será realizada em Nairóbi, no Quênia, em setembro de 2011, com o
tema principal “Internet como um catalisador para a mudança: o acesso, desenvolvimento,
liberdade e inovação”.
2.7.1 A governança da Internet no Brasil
No Brasil a governança da Internet é desempenhada pelo Comitê Gestor da Internet no Brasil
(CGI.br) criado em maio de 1995 por meio da Portaria Interministerial nº 147 de 31/05/1995,
alterada pelo Decreto Presidencial nº 4.829 de 03/09/2003, com a responsabilidade de
coordenar e integrar os serviços de Internet no País. Possui um modelo multistakeholder
formado por membros indicados pelo governo federal e por eleitos dos setores empresarial,
terceiro setor e comunidade acadêmica, totalizando 21 membros, sendo nove representantes
do governo, 11 da sociedade civil e um membro de notório saber em assuntos de Internet.
Como braço executivo do CGI.br, o Núcleo de Informação e Coordenação do Ponto BR
(NIC.br) foi criado para implementar as decisões e projetos do CGI.br, tendo diretamente
ligado a ele os departamentos administrativo, jurídico e de comunicação. Dentre suas
atribuições destacam-se os seguintes pontos:
registro e manutenção dos nomes de domínios que usam o <.br> , e a distribuição de
números de Sistema Autônomo (ASN) e endereços IPv4 e IPv6 no País, por meio do
Registro.br18
;
tratamento e resposta a incidentes de segurança em computadores envolvendo redes
conectadas à Internet brasileira, atividades do CERT.br19
;
18 Registro.br - Registro de domínios “.br” 19 CERT.br – Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil.
41
projetos que apoiem ou aperfeiçoem a infraestrutura de redes no País, como a
interconexão direta entre redes (PTT.br) e a distribuição da Hora Legal brasileira
(NTP.br). Esses projetos estão a cargo do CEPTRO.br20
;
produção e divulgação de indicadores e estatísticas e informações estratégicas sobre o
desenvolvimento da Internet brasileira, sob responsabilidade do CETIC.br21
;
promover estudos e recomendar procedimentos, normas e padrões técnicos e
operacionais, para a segurança das redes e serviços de Internet, bem como para a sua
crescente e adequada utilização pela sociedade, realizada pelo W3C.br22
;
suporte técnico e operacional ao LACNIC, Registro de Endereços da Internet para a
América Latina e Caribe.
Figura 3 - Estrutura organizacional do NIC.br e CGI.br
Legenda dos setores representados pelos conselheiros do CGI.br:
Governo:
o 1 – Ministério da Ciência e Tecnologia
o 2 – Ministério das Comunicações
o 3 - Casa Civil da Presidência da República
o 4 – Ministério do Planejamento, Orçamento e Gestão
o 5 – Ministério do Desenvolvimento, Indústria e Comércio Exterior
o 6 – Ministério da Defesa
o 7 – Agência Nacional de Telecomunicações
o 8 – Conselho Nacional de Desenvolvimento Científico e Tecnológico
20 CEPTRO.br – Centro de Estudos e Pesquisas em Tecnologia de Redes e Operações. 21 CETIC.br – Centro de Estudos sobre as Tecnologias da Informação e da Comunicação. 22 W3C Brasil l – Escritório brasileiro do W3C (World Wide Web Consortium).
42
o 9 – Conselho Nacional de Secretários Estaduais para Assuntos de Ciência e
Tecnologia
o 10 – Notório Saber
Sociedade Civil:
o 11 – Provedores de acesso e conteúdo
o 12 – Provedores de infraestrutura de telecomunicações
o 13 – Indústria TICs (Tecnologia da Informação e Comunicação) e software
o 14 – Empresas usuárias
o 15, 16, 17 e 18 – Terceiro setor
o 19, 20 e 21 – Academia
2.7.2 Princípios para a governança e uso da Internet
Na terceira reunião ordinária de 2009, o CGI.br aprovou a resolução CGI.br/RES/2009/003/P,
que estabelece os princípios fundamentais para a governança e uso da Internet no Brasil.
Além de alinhar o Brasil às iniciativas internacionais no sentido de governança e bom uso da
Internet, define a orientação e dá embasamento às ações e decisões do CGI.br, também deve
ser algo a ser observado e respeitado pela sociedade como uma bússola a ser seguida,
preservando os avanços alcançados, permitindo novas evoluções e por último e não menos
importante, preservando a cultura do ciberespaço de abertura, compartilhamento, cooperação
e aprendizado contínuo.
a) Liberdade, privacidade e direitos humanos
O uso da Internet deve guiar-se pelos princípios de liberdade de expressão, de
privacidade do indivíduo e de respeito aos direitos humanos, reconhecendo-os como
fundamentais para a preservação de uma sociedade justa e democrática.
b) Governança democrática e colaborativa
A governança da Internet deve ser exercida de forma transparente, multilateral e
democrática, com a participação dos vários setores da sociedade, preservando e
estimulando o seu caráter de criação coletiva.
43
c) Universalidade
O acesso à Internet deve ser universal, a fim de que seja um meio para o
desenvolvimento social e humano, contribuindo para a construção de uma sociedade
inclusiva e não discriminatória em benefício de todos.
d) Diversidade
A diversidade cultural deve ser respeitada e preservada e sua expressão deve ser
estimulada, sem a imposição de crenças, costumes ou valores.
e) Inovação
A governança da Internet deve promover a contínua evolução e ampla difusão de novas
tecnologias e modelos de uso e acesso.
f) Neutralidade da rede
Filtragem ou privilégios de tráfego devem respeitar apenas critérios técnicos e éticos,
não sendo admissíveis motivos políticos, comerciais, religiosos, culturais, ou qualquer
outra forma de discriminação ou favorecimento.
g) Inimputabilidade da rede
O combate a ilícitos na rede deve atingir os responsáveis finais e não os meios de acesso
e transporte, sempre preservando os princípios maiores de defesa da liberdade, da
privacidade e do respeito aos direitos humanos.
h) Funcionalidade, segurança e estabilidade
A estabilidade, a segurança e a funcionalidade globais da rede devem ser preservadas de
forma ativa por meio de medidas técnicas compatíveis com os padrões internacionais e
estímulo ao uso das boas práticas.
i) Padronização e interoperabilidade
A Internet deve basear-se em padrões abertos que permitam a interoperabilidade e a
participação de todos em seu desenvolvimento.
j) Ambiente legal e regulatório
O ambiente legal e regulatório deve preservar a dinâmica da Internet como espaço de
colaboração.
44
2.7.3 Considerações sobre o futuro
Sem qualquer juízo de valor sobre as instituições que governam a Internet, esta Dissertação
está alinhada com Castells (2003) quando ele coloca sua surpresa de que a Internet tenha sido
gerenciada desde a sua concepção até hoje de forma estável, sem ceder à burocracia
americana ou à desorganização que uma estrutura descentralizada como a sua poderia trazer,
citando a importância das pessoas que desde o princípio criaram uma cultura de abertura,
compartilhamento, cooperação e aprendizado contínuo.
Que isso tenha ocorrido foi a proeza desses cavalheiros da inovação tecnológica:
Cerf, Kahn, Postel e Berners-Lee e muitos outros, que realmente buscaram manter a
abertura da rede para seus pares como forma de aprender e compartilhar. Nessa
abordagem comunitária à tecnologia, o patriciado meritocrático encontrou-se com a
contracultura utópica na invenção da Internet e na preservação do espírito de
liberdade que está na sua fonte. A Internet é, acima de tudo, uma criação cultural
(CASTELLS, 2003, p. 32).
Acredita-se que uma das questões mais relevantes para o futuro da Internet não é apenas como
a tecnologia vai mudar, mas também como os processos de mudança e evolução em si serão
gerenciados. Como este trabalho descreve, a arquitetura da Internet tem sido impulsionada por
um grupo de designers, mas também na forma como o grupo mudou e como o número de
interessados tem crescido. Com o sucesso da Internet vem a proliferação das partes
interessadas – stakeholders – agora com uma dimensão econômica, bem como um
investimento intelectual na rede. Vê-se agora, no debate sobre o controle do espaço de nomes
de domínio e a forma de os endereços IP de próxima geração, uma luta para encontrar a
próxima estrutura social que vai orientar a Internet no futuro. A forma dessa estrutura será
mais difícil de encontrar, dado o grande número de interessados. Ao mesmo tempo, a
indústria se esforça por encontrar a justificação econômica ao grande investimento necessário
para o crescimento futuro, por exemplo, atualizar o acesso residencial a uma tecnologia mais
adequada.
Assim, estabelecer princípios para a governança e uso da Internet na linha da resolução
aprovada pelo CGI.br e ações do WSIS e IGF, contribuem muito para o futuro, pois se a
Internet tropeçar, não será porque faltará tecnologia, visão ou motivação. Será por não se
poders definir uma direção e marchar coletivamente no futuro.
45
CAPÍTULO 3
CONCEITOS ESSENCIAIS
Quando se fala em conceitos essenciais, pretende-se discutir alguns pontos que para este
trabalho são considerados relevantes, como a web semântica, Visualização de Dados e
Mecanismos de Otimização de Buscas. Entretanto, vale registrar que existem pesquisas
envolvendo outras abordagens convergentes ao objetivo de aumentar a qualidade e
significância dos resultados de buscas na web, mas que não serão aplicadas na proposta de
portal. Dentre elas podem ser citadas Visual Search, Social Search e Peer-to-peer web search
engine, descrevendo-as resumidamente a seguir:
a) Visual Search é uma abordagem que permite que as buscas sejam realizadas sem
utilização de palavras, escritas ou faladas, apenas com imagens. Na essência pretende-
se, a partir de vários objetos da imagem, analisar cores, contornos e texturas do que está
no arquivo e assim construir representações digitais individuais de cada objeto, o que
permitiria a pesquisa por intermédio da comparação desses objetos – assim não seriam
mais necessárias as tags ou legendas associadas às imagens para classificá-las. Hoje
existem dificuldades que precisam ser equacionadas, como por exemplo, a necessidade
de uma grande capacidade de processamento dos buscadores. Além disso, também
existem aspectos éticos e legais como o reconhecimento facial e a invasão de
privacidade que isso acarretaria. Hoje um dos principais produtos nessa linha, ainda que
com imperfeições, é o Google Goggles. Funcionando a partir de smartphones que
utilizam o Android ou do iPhone, a Google disponibiliza uma busca online, onde a
câmera funciona como um scanner possibilitando, a partir da imagem fotografada,
pesquisar uma obra de arte, uma marca comercial, um monumento e até mesmo fazer a
tradução do texto de um menu de restaurante, oferecendo a possibilidade de encontrar
qualquer coisa por meio de imagens. Vale registrar que a tecnologia adotada pela
Google foi originalmente desenvolvida para reconhecimento de face e que essa função
teria sido desabilitada para evitar processos judiciais por invasão de privacidade. Outras
aplicações com a abordagem de reconhecimento visual estão em desenvolvimento
comercial e podem ser destacadas a Superfish (superfish.com) e Evolution Robotics
(evolution.com).
46
A Superfish é uma startup sediada no Vale do Silício que desenvolveu uma aplicação
comercial, ainda em sua versão beta, que a partir de um aplicativo instalado no
navegador do usuário (add-on), recebe a imagem do objeto que está sendo procurado e
após uma pesquisa dessa imagem em seu banco de dados, oferece uma lista de itens
similares em outras lojas com seus respectivos preços, simplificando o processo de
busca daquele produto e de seus análogos. Essa aplicação, apesar de ser muito
promissora e com certeza útil, ainda apresenta falhas. Por exemplo, em uma busca por
um aparelho celular, são recebidas também ofertas de capas e outros acessórios, e em
alguns momentos até de outros produtos completamente diferentes em termos de
funcionalidade e aplicação, porém que possuem semelhança física com a imagem
consultada.
A Evolution Robotics é uma empresa que, entre suas linhas de pesquisa e
desenvolvimento, atua com reconhecimento de padrões visuais. Ela desenvolveu
software e hardware de baixo custo que podem ser integrados em produtos comerciais,
atuando em parceria com as indústrias interessadas em aplicar essa tecnologia em seus
produtos. Essas aplicações podem ser, por exemplo, buscadores visuais em telefones
celulares, já adotado no Japão, ou em um dispositivo que analisa as gôndolas e
prateleiras de um supermercado, informando às áreas competentes situações de falta de
produtos e espaços vazios ou até mesmo de produtos distribuídos fora das posições em
que deveriam estar.
b) Social Search é uma busca que se baseia na preferência dos seus amigos em redes
sociais e, a partir dessas preferências, propõe oferecer maior significância aos resultados
das suas pesquisas. Crê-se que os posts e outras informações compartilhadas por
pessoas conhecidas e de sua confiança permitirão maior relevância e credibilidade aos
resultados das pesquisas. Por exemplo, se você deseja informações do Museu do Prado,
em Madri, e alguém da sua rede de amigos já o tenha visitado, postando fotos e
comentários, esse item aparecerá em destaque no resultado de sua pesquisa. Outra
variante possível dessa abordagem está relacionada a posições geográficas. Em regiões
como nos EUA, onde a distribuição de backbones das redes IP é organizada de maneira
a propiciar a localização do internauta com maior precisão, se, por exemplo, alguém
compartilhar um link de uma loja de roupas localizada na mesma região em que outro
usuário realize uma busca semelhante, é provável que esse link seja exibido em uma
posição mais destacada.
47
O Google lançou, em outubro de 2009, a versão experimental do Google Social Search,
e esta prevista uma versão atualizada ainda para 2011. A proposta do Google Social
Search é analisar as redes sociais nas quais o usuário esteja envolvido, entendendo as
suas conexões de relacionamentos e negócios, e ao realizar uma consulta, retornar
informações relevantes de pessoas que sejam, supostamente aos olhos do usuário,
conhecidas e confiáveis. Na mesma linha segue o Bing, que em outubro de 2010, a
partir de uma parceria com o Facebook, incluiu no retorno das buscas os posts de
pessoas com as quais o usuário se relaciona na rede social. Esses são, sem dúvida,
passos importantes para a personalização dos resultados das buscas.
c) Peer-to-peer web search engine. É uma proposta de um web search engine universal
baseado na tecnologia peer-to-peer, portanto, trabalhando de forma descentralizada.
Nessa proposta, os usuários passam a ter o papel, não apenas de consumidor dos
resultados das buscas, mas também em fornecer dados para os índices, bem como
armazená-los em seus próprios computadores que passariam a ser nós dessa rede de
busca.
Dentro desse conceito, pretende-se que a busca seja mais rápida e a própria classificação
de relevância das páginas poderá ser indicada pela frequência em que é visitada.
Os benefícios ou consequências da adoção dessa tecnologia seriam:
direitos civis e da privacidade – A censura torna-se quase impossível, além de
não se poder estabelecer uma central de acompanhamento, avaliação e
registro das pesquisas realizadas;
ecológicos – Redução de consumo de energia pela eliminação de centros de
dados para concentrar as informações, seu processamento e retorno aos
usuários, pois para essa solução bastariam os computadores dos usuários;
sociológicos – Todos os candidatos a nós teriam os mesmos direitos quanto à
adição de novos conteúdos, correspondendo aos mesmos princípios adotados
em Wikis, o que já se mostrou viável na web. Além disso, o conteúdo do
Search Engine não seria influenciado por aspectos políticos e interesses
comerciais do operador do portal de buscas. E por fim, a individualização da
relevância, pois todos podem avaliar a qualidade e a importância das páginas
web por suas próprias regras e ajustar a sua relevância pessoal como um
método de classificação (popular e científico).
48
Nessa linha de pesquisa se pode citar a YaCy (yacy.com), Wowd (wowd.com), a Faroo
(faroo.com) que já disponibilizam soluções operacionais.
3.1 A QUESTÃO DA WEB SEMÂNTICA
É notório o esforço que se faz nas pesquisas em buscadores como o Google ou Bing. É
enorme a quantidade de dados recebidos que não possuem nenhum significado em relação ao
que realmente se está buscando – na maioria das vezes se despende tempo e esforço de análise
e, mesmo assim, invariavelmente, são dispensados dados que poderiam ser relevantes por
absoluta falta de tempo para uma filtragem mais apurada. Em Berners-Lee et al.(2001), os
autores definem e exemplificam de forma sucinta e clara o que seria a web semântica e como
ela poderia auxiliar nesses filtros para assim obter dados relevantes e significativos nas
buscas.
Neste artigo alguns pontos são enfatizados e devem ser discutidos a seguir para um melhor
entendimento:
A web semântica não é uma web separada, mas uma extensão da atual, em que a informação
é dada com significado bem definido, permitindo que os computadores e as pessoas
trabalhem em cooperação. (BERNERS-LEE, HENDLER E LASSILA)
Constata-se que o mais interessante na cultura da web é a possibilidade de que qualquer
pessoa no planeta, com pouco ou quase nenhum conhecimento técnico, possa fazer parte
desse espaço criativo em que se transformou a web, onde qualquer um pode criar e editar
hipertextos como uma forma de expressão e de atividade colaborativa, favorecendo o
crescimento exponencial de conteúdo, desestruturado, cada vez mais e em maior volume, e
assim, esse tipo de desenvolvimento, voltado para outras pessoas e criado por aqueles que não
estarão preocupados com metadados, ontologias ou taxonomias, continue existindo compondo
a web sintática, que conviverá com a web semântica – daí a afirmação de que a web semântica
será uma extensão da web atual (sintática).
Quanto às pessoas e computadores trabalharem em cooperação, entende-se que a
disponibilização de dados que possam ser integrados a outros sistemas computacionais com
49
suas interfaces homem-máquina específicas e o uso de agentes de software que nos entreguem
resultados relevantes e significantes criam essa perspectiva de cooperação.
A web semântica permitirá que máquinas compreendam23
a semântica de documentos e
dados, e não discursos e escritas humanas. (BERNERS-LEE, HENDLER E LASSILA)
Esse sem dúvida será um dos grandes ganhos que a web semântica poderá nos oferecer. A
partir de agentes de software, serão realizadas as buscas e negociações entre computadores,
como no exemplo apresentado por Berners-Lee et al. (2001). Será possível buscar consultas
médicas estabelecendo critérios de distância da residência de quem procura, cobertura de
plano médico, critérios de classificação de qualidade, composição com agendas de diversas
pessoas etc., utilizando agentes de software que fariam automaticamente as buscas e
negociações necessárias retornando as melhores possibilidades.
Adequadamente projetada, a web semântica pode acompanhar a evolução do conhecimento
humano como um todo. (BERNERS-LEE, HENDLER E LASSILA)
A web semântica não é “apenas” uma ferramenta para a realização de tarefas e ações
automatizadas já discutidas anteriormente. Se adequadamente projetada, a web semântica
pode apoiar a evolução do conhecimento humano como um todo.
O esforço humano está entre a eficácia de pequenos grupos, agindo de forma independente, e
a necessidade de se integrar a comunidade em geral. Um pequeno grupo pode inovar rápida e
eficientemente, mas isso dá a esse grupo o entendimento a conceitos que nem sempre são
compreendidos pelos que estão fora dele.
Por outro lado, a coordenação das ações por meio de um grupo maior, além de um processo
lento, consome enorme quantidade de esforço e comunicação. De forma geral, o mundo
funciona entre os extremos desse espectro, com tendências a começar pequeno, a partir das
ideias individuais, e mover-se ao longo do tempo a um entendimento mais amplo da
comunidade em geral.
23 Vale registrar que o entendimento de "que máquinas compreendam", considerando que a essência da programação contemporânea envolve apenas a manipulação de símbolos pelo dispositivo, está baseado na disponibilização de linguagens de codificação que permitam a publicação de ontologias em um formato que capacite os computadores a processá-las automaticamente.
50
Um processo essencial nesse contexto é a consolidação da cultura dos grupos menores
formando um grupo maior, exigindo para isso uma linguagem comum entre eles.
Frequentemente, grupos independentes desenvolvem conceitos semelhantes – assim,
estabelecer a relação entre eles nos trará grandes benefícios. Como um dicionário
Português/Inglês e Inglês/Português, ou pesos e medidas com suas tabelas de conversão.
Essas relações permitem a comunicação e colaboração, mesmo quando a uniformização dos
conceitos e termos ainda não existem.
A web semântica permitirá a qualquer pessoa expressar com pouco esforço novos conceitos
que sejam criados. Sua língua e lógica unificadora permitirá que os conceitos sejam
progressivamente ligados em uma web universal. Essa estrutura abrirá o conhecimento e o
funcionamento da humanidade para a análise por agentes de software, fornecendo uma nova
classe de ferramentas com as quais se poderá viver, trabalhar e aprender coletivamente.
Dentro dessa linha, Pierre Lévy24
, citado em Leme (2009, p. 25), define a web semântica
como a ferramenta necessária para o desenvolvimento da inteligência coletiva, sendo a
elaboração de um sistema de códigos, baseados em metadados, ontologias ou taxonomias,
dispensando as pessoas de usarem uma nova linguagem, mantendo a sua própria, pois haverá
um software que entenderá esses códigos e os traduzirá para uma forma compreensível a
todos.
Nos próximos itens serão discutidos com mais detalhes os conceitos tecnológicos em que se
apoia a web semântica.
3.1.1 Contraponto com a “inteligência artificial”
Como colocado em Berners-Lee et al. (2001), para se obter os benefícios da web semântica
não será necessária uma “inteligência artificial” no nível de sofisticação de personagens da
ficção como o computador HAL de 2001 – Uma Odisseia no Espaço, ou do robô C3PO de
Star Wars.
24 Filósofo francês, professor da cadeira de Pesquisas sobre Inteligência Coletiva da Universidade de Ottawa (Canadá).
51
A web semântica tem uma proposta diferente da “inteligência artificial”. Ela pretende que,
dentro do conceito de documentos codificados por humanos, estes se tornem compreensíveis
pelas máquinas, e assim os computadores, programados para tal, passem a ter habilidades para
a resolução de questões bem definidas por meio de operações que processem dados. Isso
prescindirá do uso da “inteligência artificial” para os computadores compreenderem a
linguagem humana, pois serão as pessoas que deverão codificar as informações numa forma
de representação compreendida em um nível que permita às máquinas realizarem seu
processamento automático, utilizando-se de metadados, ontologias etc.
Da mesma forma como colocado por Breitman (2006, p. 9), em que pese que técnicas e
experiências da “inteligência artificial” sejam utilizadas na web semântica e face ao histórico
de insucessos da “inteligência artificial”, ambas se diferenciam, pois a web semântica
prescinde de uma inteligência superior como na proposta da “inteligência artificial”, pois
ainda que um agente de software não alcance resultados próximos dos obtidos pela mente
humana, mesmo assim contribuirá para uma Internet melhor. Deve-se considerar que mesmo
soluções parciais irão contribuir para que os seres humanos realizem melhor suas atividades
cotidianas na web.
O exposto acima pode ser condensado na seguinte definição colocada em Breitman (2006, p. 9):
Se o objetivo da IA é construir um agente de software que mostre inteligência no
nível humano (e superior), o objetivo da web semântica é auxiliar humanos a
realizarem suas tarefas diárias na rede. - Antoniou e Harmalen
3.1.2 Metadados
A definição de metadados, de uma maneira bem simples, pode ser colocada como dados sobre
os dados. Entretanto, existem algumas definições formais de entidades reconhecidas
destacadas a seguir:
A International Federation of Library Associations (IFLA) define da seguinte forma:
52
Metadados são dados sobre dados. O termo refere-se a qualquer dado utilizado para
auxiliar na identificação, descrição e localização de recursos eletrônicos em rede.
Existem muitos formatos diferentes de metadados, alguns muito simples em sua
descrição, outros bem complexos e ricos. (IFLA, 2009)
O World Wide Web Consortium (W3C, 2001) define metadados como “informações para a
web que podem ser compreendidas por computadores”. Ambas as definições apresentam uma
abordagem voltada para web semântica.
Entretanto, essas definições limitam o seu escopo a um ambiente informatizado e na web.
Em verdade, como colocado por Breitman (2006, p. 16), pode-se utilizar o termo a
qualquer descrição de um dado; assim, o tradicional cartão de biblioteca é uma forma de
metadado, da mesma maneira que um item de catálogo é representado por um código de
produto.
Dentro desta linha, de acordo com Zorama Ercegovac, (apud ROSETTO et al., 2011, p. 4),
entende-se por metadados como sendo um sumário de informações sobre a forma e o
conteúdo de um recurso eletrônico, ou não, que pode ser um objeto bibliográfico (livros,
seriados, mapas etc.), catálogo de registros bibliográficos, inventários e registros de arquivos,
objetos geoespaciais (imagens de satélites etc.), recursos de museus e visuais, ou
implementações de software.
Percebe-se que o assunto “metadados”, antes restrito ao âmbito dos museólogos e
bibliotecários, em razão da sua aplicação na web semântica, passa a ter um papel de destaque
entre os temas das pesquisas em Ciências da Computação.
O quadro a seguir apresenta uma classificação de metadados e suas definições, conforme
proposto por Anne Gilliland-Swetland, da Universidade da Califórnia, Los Angeles, citado
em Breitman (2006, p. 17).
53
Tipo Definição Exemplos
Administrativo Metadados utilizados na gerência e na administração de recursos de
informação
Aquisição de informação
Registro de direitos e reprodução
Documentação dos requisitos legais
de acesso
Informação de localização
Critérios de seleção para a
digitalização
Controle de versão
Descritivo Metadados utilizados para descrever
e identificar recursos de informação Registros de catalogação
Auxílio para a procura de
informação
Indexes especializados
Utilização de hiperlinks entre
recursos
Anotações
Preservação Metadados relacionados ao gerenciamento dos recursos de
informação
Documentação sobre a condição
física dos recursos
Documentação sobre as ações
tomadas de modo a preservar as
versões físicas e digitais dos
recursos, e.g., atualização e migração
Técnica Metadados relacionados a
funcionalidades do sistema e como
seus metadados se comportam
Documentação sobre hardware e
software
Informação relativa à digitação, e.g.,
formatos, compressão, rotinas de
escalonamento
Registro do tempo de resposta do
sistema
Autenticação de dados, e.g., senhas
e criptografia
Utilização Metadados relacionados ao nível e ao
tipo de utilização dos recursos Registros de exibição
Registro do uso e dos usuários dos
recursos
Reutilização do conteúdo e
informação relativa ao multiversionamento
Tabela 1 - Tipos e Funções de metadados por Anne Gilliland-Swetland (BREITMAN, 2006, p. 17)
De acordo com Breitman (2006, p. 16), o uso universalizado de metadados obriga o uso de
vocabulários controlados, algo relegado a um plano secundário durante anos pelos
catalogadores. Para garantir a comunicação entre aplicações, novas habilidades e ferramentas
serão necessárias para implementar os metadados na escala pretendida; assim, torna-se
importante elucidar aspectos conceituais e de sua aplicação:
54
a) Metadados não são obrigatoriamente digitais. Profissionais de outras áreas o
utilizam há bastante tempo para gerenciar suas coleções (Museus, Bibliotecas etc.),
muito antes do advento dos recursos computacionais e digitais.
b) Metadados podem fornecer mais do que apenas dados sobre um objeto. Embora seu
uso mais conhecido seja a classificação e catalogação de objetos, também são utilizados
no processamento e preservação de objetos (vide tabela anterior).
c) Metadados podem ser obtidos de várias fontes. Podem ser fornecidos por seres
humanos, de bases de dados ou gerados automaticamente.
d) Metadados evoluem de acordo com sua vida útil ou a do objeto que descrevem. São
criados, alterados e até mesmo descartados ao longo da vida útil do objeto que
descrevem.
Atualmente há uma grande variedade de formatos de metadados. Nos próximos tópicos serão
destacados aqueles que apresentam maior relevância para a web semântica, o Dublin Core
Resource Description (DC), a Framework de Warwick e o Resource Description Framework
(RDF).
3.1.2.1 Padrão Dublin Core
Durante uma das primeiras conferências sobre a web realizada em outubro de 1994, foi
colocada a necessidade de uma semântica para descrever recursos disponibilizados na
Internet.
A primeira iniciativa nesse sentido ocorreu em um workshop realizado no ano de 1995, na
cidade de Dublin, Ohio, EUA, reunindo bibliotecários, investigadores, especialistas e
fornecedores de conteúdos, e também especialistas em informática, a fim de desenvolver uma
norma para a pesquisa de recursos, nascendo o Dublin Core. Um padrão internacional para a
descrição de recursos de informação, o nome “Dublin” deu-se devido ao nome da cidade onde
nasceu, e “core”, porque os seus elementos são suficientemente amplos e genéricos para
servirem na descrição de uma enorme variedade de recursos.
55
Em workshops posteriores surgiu o Dublin Core Metadata Element Set, formado por quinze
elementos resultantes de um esforço interdisciplinar e de consenso internacional.
O Dublin Core está traduzido em vinte idiomas e foi adotado pelo CEN/ISSS (European
Committee for Standardization / Information Society Standardization System), com presença
oficial no W3C, estando representado nas normas internacionais abaixo:
ISO Standard 15836:2009, de fevereiro de 2009 (ISO 15836, 2009);
ANSI/NISO Standard Z39.85-2007 de maio de 2007 (NISO Z39.85, 2007);
IETF RFC 5013 de agosto de 2007 (KUNZE, et al., 2007).
Segundo Souza et al. (2000), existem projetos em países da América do Norte, Europa, Ásia e
Austrália utilizando o padrão Dublin Core no desenvolvimento de ferramentas para a
descrição de recursos eletrônicos, destacando-se os seguintes:
• Malvine – Manuscripts and Letters Via Integrated Networks in Europe – Um motor
de buscas focado na pesquisa de manuscritos pós-medievais, localizado na Biblioteca
Estadual de Berlim e mantido por um consórcio europeu de bibliotecas, arquivos e
museus. MALVINE disponibiliza informação acerca da natureza e localização de
manuscritos conservados num vasto número de instituições de patrimônio cultural.
(MALVINE Project, 2003).
• Foundations Project Minnesota’s Gateway to Environmental Information – Projeto
com financiamento e colaboração de Agências Ambientais do governo do Estado de
Minnesota, EUA, com padrão baseado no Dublin Core, visando melhorar o acesso
público aos dados e informações ambientais e de recursos naturais. (FOUNDATIONS
Project, 2007)
No Brasil, podem ser citados os trabalhos utilizando elementos metadados do Dublin Core na
definição do conjunto de informações para a descrição bibliográfica de documentos na
Biblioteca Digital de Teses da USP (ROSETTO et al., 2011) e o que discorre sobre a
implantação do tema metadados x Dublin Core na Embrapa, a partir da criação do Rural
Mídia – Banco de Imagens –, sistema que possibilita a digitalização, tratamento e organização
de imagens, via Web (SOUZA et al., 2000).
56
Os quinze elementos definidos no Dublin Core Metadata Element Set por, DCMI (2011) são
os seguintes:
• Título – um título dado ao recurso;
• Criador – uma entidade principal responsável pela elaboração do conteúdo do
recurso;
• Assunto – assunto referente ao conteúdo do recurso;
• Descrição – uma descrição sobre o conteúdo do recurso;
• Editor – a instituição responsável pela difusão do recurso;
• Contribuinte – uma entidade responsável pela contribuição ao conteúdo do recurso;
• Data – data associada com um evento no ciclo de vida do recurso;
• Tipo – a natureza ou gênero do conteúdo do recurso;
• Formato – manifestação física ou digital do recurso;
• Identificação – identificação não ambígua do recurso dentro de um dado contexto;
• Fonte – uma referência para outro recurso o qual o presente recurso é derivado;
• Idioma – idioma do conteúdo intelectual do recurso;
• Relação – uma referência a outro recurso que se relaciona com o recurso;
• Cobertura – a extensão ou cobertura espaço-temporal do conteúdo do recurso;
• Direitos – Informações sobre os direitos do recurso e seu uso.
Conforme Breitman (2006, p. 19), o Dublin Core, organizado pelo Dublin Core Metadata
Initiative (DCMI, 2011), é um padrão simples e até certo ponto básico, sendo essa
simplicidade o seu ponto forte por facilitar seu entendimento mesmo por quem não tenha a
experiência de catalogadores, e assim propiciar sua adoção em larga escala. Porém, essa
mesma simplicidade pode ser encarada como seu ponto fraco por não oferecer uma semântica
57
mais significativa. Em essência priorizou-se a facilidade e visibilidade em detrimento do
poder de expressão semântica.
3.1.2.2 Framework de Warwick
Realizado em abril de 1996 em Warwick, Inglaterra, o Metadata II Workshop propôs ao seu
final um framework com o objetivo de aumentar a interoperabilidade entre os fornecedores de
conteúdo, catálogos e indexadores, e apoiar a descoberta automática de recursos e sistemas de
descrição. Esse padrão se fez necessário para ampliar as possibilidades semânticas do padrão
Dublin Core.
Proposto como uma arquitetura container (vide figura a seguir), ficou conhecido como
Framework de Warwick. Forma um mecanismo que agrega lógica e, em alguns casos
fisicamente, pacotes distintos de metadados. Essa modularização de metadados representou
um aumento de novos elementos, que foram adicionados aos existentes no Dublin Core
(LAGOZE, 1996):
descrições específicas do domínio do documento (objeto);
termos e condições de uso do documento;
rótulos e gradação do documento;
informações de segurança, autenticidade, assinaturas;
origem do fornecedor;
conjunto de containers para documentos compostos e ponteiros para todas as
manifestações, instâncias ou versões do documento;
responsável por armazenar o documento;
conjunto de descritores do Dublin Core no documento;
58
Figura 4 - Framework de Warwick
Algumas dificuldades foram percebidas, pois, apesar de a arquitetura estar bem delineada, por
exemplo, existe a questão da independência de sintaxe. Cada pacote pode fazer uso de
sintaxes diferentes, o que dá flexibilidade ao modelo mas não garante que os pacotes se
comuniquem. Outro problema está na semântica, já que não existe garantia de que os
conjuntos de metadados não utilizem conceitos com significados diferentes ou dois conceitos
com o mesmo significado. De fato, o Framework de Warwick não foi realmente utilizado pela
comunidade, dando espaço ao surgimento de outro framework que corrigia as deficiências
destacadas. Esse novo framework foi o Resource Description Framework – RDF – que será
tratado no item a seguir.
3.1.2.3 Resource Description Framework (RDF)
O RDF é uma linguagem para a representação de informações na web por meio de metadados
utilizando a linguagem XML (eXtensible Markup Language). Seu padrão, por intermédio do
XML, fornece um modelo de dados e sintaxe para codificar, representar e transmitir dados de
forma a permitir sua compreensão por computadores.
59
Permite também representar novas gramáticas (metalinguagens) descritas por elementos,
atributos e regras de composição (NOLETO et al., 2004).
Segundo Breitman (2006, p. 20), trata-se de uma implementação do Framework de Warwick
com correções de suas deficiências. Por exemplo, a questão da superposição semântica é
obtida por meio das marcações de namespaces do XML, que definem um conjunto de nomes
de elementos usando prefixos declarados no cabeçalho referenciando uma URI (Universal
Resource Identifier). A URI pode ser um sujeito, objeto ou uma URL (Uniform Resource
Locator), o que serve para determinar de maneira clara um recurso.
A tecnologia RDF tem sua definição detalhada em dois documentos:
Resource Description Framework (RDF) é uma linguagem de uso geral para
representar as informações na web. Esse documento define uma sintaxe XML para
RDF chamada RDF/XML em termos de namespaces em XML, o XML Information
Set e XML Base (W3C, 2004);
Resource Description Framework (RDF) Schema Specification, detalha
como usar RDF para descrever vocabulários RDF. A especificação também define um
vocabulário básico para isso, bem como possibilita a sua expansão para viabilizar
adições futuras no RDF (W3C, 2000).
O modelo básico do RDF é formado por:
recurso (resource): qualquer entidade desde que tenha uma URI;
propriedade (property): é um recurso que tem nome e pode ser usado para determinar
outro recurso, por exemplo, criador e título;
declaração ou valor (statement): corresponde a uma propriedade ou ao seu valor,
relacionada a um recurso determinado.
De acordo com Breitman (2006, p. 22), em RDF frases são escritas com Recurso +
Propriedade + Valor, podendo ser entendidas respectivamente como o sujeito, o predicado e o
objeto de uma frase. Assim em RDF a informação, de uma forma simples, é representada por
uma coleção de frases, todas com o mesmo formato, isto é, sujeito, predicado e objeto.
Por estar baseada na sobreposição de camadas em uma base XML, deseja-se que a cada
camada se obtenha mais expressividade, por estarem em XML, garante-se que mesmo que o
60
computador que processe o arquivo não possa entender as camadas superiores (RDF, OWL),
conseguirá ao menos processar a parte XML do arquivo.
3.1.2.4 Restrições ao modelo de Metadados da web semântica
Como todo grande projeto, a questão de metadados suscita críticas e restrições, e a web
semântica e seu modelo de metadados não seria uma exceção. Boa parte dessas críticas estão
registradas no documento Metacrap, assinado por Cory Doctorow (DOCTOROW, 2001),
afirmando que “há pelo menos sete obstáculos intransponíveis entre o mundo como nós o
conhecemos e a metautopia”.
Os sete obstáculos citados por Doctorow são:
as pessoas mentem – não se pode esperar que os sites que disponibilizem seus dados
de modo semântico o façam com 100% de honestidade. Em um mundo competitivo,
pode-se esperar que alguns sites tentem atrair mais consumidores manipulando e
mentindo nas informações que disponibilizam. Basta observar os spams que chegam
às caixas de e-mail;
as pessoas são preguiçosas – existe um trabalho de grande responsabilidade de criar
informação; entende-se a importância da criação e manutenção de metadados, ótimo
para a informação. Mas e as pessoas que nem se dão ao trabalho de digitar o assunto
em seus e-mails? Ou que armazenam em seu hard disk arquivos com os nomes
sugeridos pelo seu editor de texto (doc1.txt)?;
as pessoas não são cuidadosas – mesmo quando existem benefícios para a criação de
metadados consistentes, as pessoas não têm cuidado com isso. Basta observar o eBay
ou qualquer outro site de venda – todos os vendedores têm uma boa razão para
verificar os erros ortográficos das suas listas, pois anúncios com erros não vão
aparecer na pesquisa com a grafia correta e, consequentemente, terão menos ofertas e
preços mais baixos de venda. Entretanto, ao pesquisar “Palm” e depois procurar por
“Plam”,no eBay, surgirão muitos anúncios com a grafia incorreta;
missão: impossível – conhecer a si mesmo – Tim Berners-Lee parte da premissa de
que os usuários podem descrever de forma precisa suas atividades e seu domínio.
Entretanto, a prática desmente essa premissa – pois é notório que as pessoas não
61
conseguem perceber de modo consistente seus próprios comportamentos. Isso vai
desde a estimativa de tempo de um empreiteiro numa reforma passando por um
programador para desenvolver uma rotina chegando a um usuário na descrição de uma
atividade para que ela seja informatizada;
os modelos não serão imparciais – imaginar que haverá neutralidade nos modelos de
metadados é irreal. Sempre haverá algum tipo de influência na sua elaboração. Por
exemplo, em um determinado subdomínio, “máquinas de lavar”, os especialistas
concordam em sub-hierarquias, com classes para a confiabilidade, o consumo de
energia, cor, tamanho etc. Isso pressupõe que há uma forma correta de categorização,
e que as pessoas razoáveis, dado o tempo suficiente e incentivo necessário, aceitarão
um modelo de hierarquia comum. Nada poderia ser mais incorreto. Qualquer
hierarquia de ideias implica necessariamente a importância de alguns itens sobre os
outros.
Um fabricante de pequeno porte de máquinas de lavar com consciência ambiental faria
uma hierarquia parecida com a que segue:
Consumo de energia:
Consumo de água:
Tamanho:
Capacidade:
Confiabilidade:
Enquanto um fabricante que privilegia o design de seus produtos, iria querer algo da
seguinte forma:
Cor:
Tamanho:
Programação:
Confiabilidade:
62
A ideia de que interesses divergentes em um ambiente competitivo podem chegar a
acordo rápido sobre um vocabulário comum ignora os princípios de organização de
mercado.
métricas influenciam os resultados – a definição de um padrão comum para medir as
coisas importantes em qualquer domínio sofrerá a influência de quem as escolher. Os
definidores tenderão a escolher aspectos que favoreçam seus produtos nas medições
dessas métricas. Há casos envolvendo métricas de audiência, sempre muito discutidas
sobre refletir ou não a realidade, pesquisas de intenção de votos ou de satisfação, que
tendem a favorecer as organizações que as contrataram, benchmark de produtos
eletrônicos etc. Cada player desse domínio tentará influir na escolha dessas métricas;
há mais do que uma forma de descrever algo - isso é um fato, cada indivíduo
interpretará o objeto a partir de sua experiência pessoal anterior, o que por si só já abre
muitas possibilidades de entendimento. Mesmo que se busque um enfoque único e
bem definido, existirão variações e deseja-se que os modeladores tenham o bom senso
de considerar diferentes alternativas antes de se comprometer com a forma final dos
dados.
É verdade que existem imperfeições, mas mesmo assim se deve considerar que:
a) os problemas colocados por Cory Doctorow já existem dentro das organizações,
especialmente quando se fala de processos informatizados. Como no mundo
corporativo, deve-se aprender a conviver com essas falhas e ao longo do tempo buscar
reduzi-las a um nível que não comprometa o todo;
b) como colocado por Breitman (2006, p. 28), não se pode pura e simplesmente jogar
tudo fora. Os metadados são úteis e irão atingir os seus objetivos, mas não se pode
considerá-los como uma solução mágica que irá resolver todos os problemas.
3.1.3 Ontologias
O termo “ontologia” se origina das palavras gregas ontos e logoi, que significam o “estudo da
entidade”; sua aplicação original é na filosofia, com Aristóteles, e está relacionada ao estudo
da existência.
63
Segundo Brandão et al. (2002, p. 3), o termo ontologia, dentro da comunidade de ciência da
computação, especialmente na área de inteligência artificial, tem a sua primeira referência em
1991 pelo grupo de pesquisa DARPA Knowledge Sharing Effort. Iniciando da proposta de
componentes reutilizáveis de conhecimento como uma maneira de favorecer a elaboração de
sistemas baseados em conhecimento, chegando ao termo ontologia para descrever o que
seriam tais componentes reutilizáveis.
Ainda no âmbito das ciências da computação e da informação, Gruber (2009) define ontologia
como um conjunto de primitivas que representam um modelo de domínio do conhecimento ou
do discurso. As primitivas de representação são tipicamente classes (ou conjuntos), atributos
(ou propriedades), e das relações (ou relações entre os membros da classe). As definições das
primitivas de representação incluem informações sobre o seu significado e as restrições à sua
aplicação de forma lógica e consistente.
Como colocado por Breitman (2006, p. 30), o consórcio W3C define que ontologias devem
atender descrições para os seguintes conceitos:
classes (ou “coisas”) nos seus domínios de interesse;
relacionamentos entre tais “coisas”;
propriedades ou atributos que essas “coisas” devem possuir.
Cita também a definição de Gruber que diz: “Ontologia é uma especificação formal e
explícita de uma conceitualização compartilhada”, detalhando o significado das palavras
chaves dentro dessa definição da seguinte forma:
conceitualização: representa um modelo abstrato de algum fenômeno que identifica
os conceitos relevantes para o mesmo;
explícita: demonstra que os elementos e suas restrições estão claramente definidos;
formal: deixa claro que a ontologia deve ser passível de processamento automático;
compartilhada: mostra a noção de que uma ontologia captura conhecimento
consensual, aceito por um grupo.
A partir das definições colocadas, nota-se, em primeiro lugar, como mencionado por Viana et
al. (2007), que surgiram muitas definições sobre ontologias sem que se tenha chegado a um
consenso sobre esse termo dentro da ciência da computação. Em segundo lugar, fica clara a
64
importância das ontologias para a web semântica, dada a necessidade de busca ou a
combinação e integração de dados oriundos de diversas comunidades, no caso da web, dos
diversos sites.
Nessa linha, Brandão et al. (2002, p. 4) afirmam que as ontologias podem representar a
semântica dos documentos e permitir que ela seja utilizada por aplicações web e por agentes
de software, deixando as aplicações mais inteligentes no sentido de considerar uma
capacidade maior de processamento de tarefas em um nível conceitual mais elevado,
preenchendo o espaço entre a representação sintática da informação e sua conceitualização.
Apesar de dito no contexto mais restrito da gestão de compras governamentais eletrônicas,
pode-se generalizar a afirmação de Viana et al., quando dizem que:
(...) Conclui-se afirmando que a construção de ontologias é uma alternativa
tecnológica para a interoperabilidade dos sistemas de informação, podendo
favorecer a nova organização do trabalho colaborativo... (VIANA et al., 2007).
3.1.3.1 Classificações
De acordo com Breitman (2006), as ontologias podem ser classificadas de diversas formas:
a) Conforme seu espectro semântico
Esta é uma proposta de Ora Lassila e Debora McGuines, baseada na estrutura interna e no
conteúdo das ontologias, sendo dispostas da leve até a mais pesada, variando de catálogos de
termos informais a sofisticadas ontologias que se alteram dependendo do nível de
formalização e expressividade.
Lig
htw
eight
(lev
es) Vocabulários controlados Listas finitas de termos
Glossários Listas de termos cujo significado é descrito em
linguagem natural. O formato de um glossário é
próximo a um dicionário e os termos são
organizados em ordem alfabética, seguidas pelas
respectivas definições.
65
Tesauros Listas de termos e definições que padronizam
palavras para indexação. Além de definições, um
tesauro fornece também as relações entre os
termos hierárquico, associativo, ou equivalência
(sinônimos).
Hierarquias tipo-de informais São hierarquias que usam relações de
generalização (tipo de) em uma direção
informal. Nesse tipo de hierarquia, conceitos
relacionados podem ser agregados em categorias
mesmo se eles não respeitam o relacionamento
de generalização.
Hea
vyw
eight
(pes
adas)
Hierarquias tipo-de formais São hierarquias que respeitam plenamente o
relacionamento de generalização.
Frames São modelos que incluem classes e propriedades.
As primitivas do modelo são classes (ou frames),
que apresentam propriedades (ou atributos). São
largamente usadas na modelagem do
conhecimento.
Ontologias que expressam restrição de
valor
São ontologias que fornecem construções para
restringirem os valores que suas classes podem
assumir.
Ontologias que expressam restrição lógica São ontologias que permitem restrições lógicas
de primeira ordem para serem expressas.
Tabela 2 - Classificação de Ontologias segundo seu espectro semântico
b) Conforme sua generalidade
Guarino (1998, p. 7) propõe uma classificação a partir da generalidade da ontologia,
identificando-as das seguintes formas:
Ontologia de nível superior
(top-level ontology)
Descrevem conceitos genéricos, tais como espaço, tempo e eventos.
Em geral, independem do domínio e podem ser reutilizadas na
construção de novas ontologias.
Ontologias de domínio
(domain ontology)
Descrevem vocabulário relacionado a domínio genérico, por meio das
especificações de conceitos definidos em ontologias de alto nível.
66
Ontologias de tarefas
(task ontology)
Descrevem vocabulário relacionado a uma tarefa ou a uma atividade
genérica, por meio da especialização de conceitos definidos nas
ontologias de alto nível.
Ontologias de aplicação
(application ontology)
Descrevem vocabulário de uma aplicação específica. Esse tipo de
ontologia especializa conceitos tanto das ontologias de domínio
quanto de tarefas.
Tabela 3 - Classificação de ontologias quanto à generalidade
Figura 5 - Classificação de ontologias (Fonte: GUARINO, 1998, p. 7)
c) Conforme o tipo de informação que representam
Assunción Gómez-Pérez, Mariano Fernández-López e Oscar Corcho, (apud BREITMAN,
2006, p. 40), propõem uma classificação a partir do tipo de informação representada por uma
ontologia, identificando tipos conforme quadro abaixo:
Ontologias de representação do
conhecimento
Modelagem de elementos primitivos dos modelos de
representação do conhecimento. Fornecem representações
baseadas em classes, subclasses, atributos, axiomas.
Ontologias genéricas e de uso comum Representam o conhecimento comum que pode ser
utilizado em diferentes domínios. Em geral, incluem
vocabulário que relaciona classes, eventos, espaço, entre
outros conceitos.
Super ontologias Descrevem conceitos gerais
67
Ontologias de domínio Fornecem conceitos que podem ser reutilizados dentro de
um domínio específico (biológico, jurídico, entre outros).
Ontologias de tarefas Detalham o vocabulário relacionado a uma tarefa ou
atividade.
Ontologias de domínio-tarefa Tratam-se de ontologias de tarefas que podem ser
reutilizadas em um domínio específico, porém, não podem
ser reutilizadas genericamente em domínio similares.
Ontologias de métodos Fornecem definições para conceitos e relacionamentos
relevantes para um processo.
Ontologias de aplicação Contêm todos os conceitos necessários para modelar uma
aplicação. É usada para especializar e estender ontologias
de domínio ou de tarefa para uma aplicação específica.
Tabela 4 - Classificação de ontologias quanto ao tipo de informação que representam.
3.1.3.2 Linguagens para representar ontologias
Ao longo dos últimos anos, uma série de linguagens foram desenvolvidas para a criação de
ontologias, podendo citar o KIF (Knowledge Interchange Format) e a Ontolíngua, baseada em
LISP e implementada como uma camada sobre o KIF. Com a expansão da Internet surgiram
outras linguagens mais leves, do tipo mark-up como o HTML, XML e RDF. Em 2000, em
Conferência de XML, Tim Berners-Lee propôs uma arquitetura visando construir
gradativamente novas camadas sobre as já existentes, partindo da premissa de que seria mais
fácil obter consenso em modificações menores do que em mudanças maiores ou radicais
(figura 5).
68
Figura 6 - Estrutura interrelacionada de tecnologias da web semântica
Fonte: http://www.w3.org/2001/Talks/0228-tbl/slide5-0.html
Nesse modelo, a primeira camada é o HTML, criada para uso por seres humanos,
complementada com o XML, usado para estruturar textos e troca de documentos na web por
facilitar a interoperabilidade entre sistemas de informação.
A segunda camada é composta pelo RDF e RDF-Schema, que são hoje as fundações da web
semântica. A partir delas, ao longo do tempo foram propostas outras linguagens para
representar ontologias, como o SHOE, Oil, DAML, DAML+Oil e OWL.
3.1.3.2.1 RDF e RDF-Schema
O RDF (Resource Description Framework), apresentado no item 3.1.2.3, em sua estrutura
oferece uma quantidade limitada de elementos pré-definidos. Assim, foi necessário ampliá-lo
para permitir a expansão de seu vocabulário a fim de que novas classes e propriedades
particulares ao seu domínio fossem desenvolvidas, surgindo o RDF-Schema (W3C, 2004).
Ele não provê exatamente as classes e propriedades, mas sim um framework onde é possível
descrevê-las.
69
Classes essenciais do RDF-Schema
rdfs:Resource A classe de todos os recursos
rdfs:Class A classe de todas as classes
rdfs:Literal A classe de todos os literais (cadeia de caracteres)
rdfs:Property A classe de todas as propriedades
rdfs: Statement A classe de todas as sentenças reificadas
Para definir relacionamentos
rdfs:subClassof Define um relacionamento de herança entre duas classes
rdfs:subPropertyf Define um relacionamento de herança entre duas propriedades
rdfs:type Define o relacionamento de um recurso a sua classe
Para permitir que definições de vocabulários se encontrem em outros lugares na web
rdfs:seeAlso Relaciona um recurso a outro que contém definição para o primeiro
rdfs:isDefinedBy Subpropriedade de rdfs:seeAlso e relaciona um recurso a um local onde sua
definição se encontra, em geral um RDF-Schema.
Para permitir que a informação seja mais bem compreendida por leitores humanos
rdfs:comment Comentários textuais associados a um recurso
rdfs:label Atribui uma etiqueta ou nome a um recurso
Para determinar restrições
rdfs:domain Determina o domínio de uma propriedade
rdfs:range Determina o alcance de uma propriedade
Tabela 5 - Classes / primitivas do RDF-schema
O RDF-Schema é utilizado junto com o RDF, podendo ser considerado um tipo de dicionário
legível por computadores. Ao uso conjunto das duas representações dá-se o nome de RDFS.
O RDFS recebe críticas como linguagem de ontologias por sua falta de expressividade, pois
conceitos lógicos como negação, disjunção e conjunção não estão disponíveis em RDF. Para
se conseguir a expressividade requerida pela web semântica foi preciso criar uma camada de
ontologia sobre a camada RDFS. Nos itens seguintes são descritas resumidamente as
propostas de linguagens para essa camada.
70
3.1.3.2.2 SHOE
O SHOE (Simple HTML Ontology Extension) (University of Maryland , 2010), um projeto da
Universidade de Maryland em College Park, é uma extensão para HTML que permite aos
autores de páginas web inserir em seus documentos, por meio de tags não exibidas pelos
browsers, informações sobre o seu conteúdo para serem lidos por agentes de software
possibilitando pesquisas semânticas.
É menos expressivo que o RDF, e além de apresentar dificuldades para sua manutenção, foi
descontinuado, e seus pesquisadores adotaram as linguagens DAML+OIL e OWL. A página
sobre essa linguagem é mantida ativa pela Universidade de Maryland e pode ser visitada em
http://www.cs.umd.edu/projects/plus/SHOE (BREITMAN, 2006 p. 54).
3.1.3.2.3 OIL
A linguagem OIL (Ontology Inference Layer) nasceu sob os auspícios de um consórcio da
Comunidade Europeia por meio do projeto On-to-Knowledge, em razão da necessidade de
uma linguagem que possibilitasse a modelagem de ontologias na Web corrigindo deficiências
do RDF.
Segundo Fensel et al., (2001, p. 8) a linguagem OIL se sobrepõe tecnologicamente às
linguagens existentes até aquele momento por oferecer ao mesmo tempo:
sistemas baseados em Frame, fornecendo primitivas de modelagem epistemológicas;
lógica de descrição, fornecendo semântica formal e suporte à inferência;
padrões web: XML e RDF, sendo baseada nessas sintaxes.
Gómez-Pérez, citado em Breitman, define OIL como:
Uma linguagem baseada em frames que utilizam lógica de descrição para fornecer
uma semântica clara, ao mesmo tempo em que permitem implementações eficientes
de mecanismos de inferência que garantam a consistência da linguagem.
(BREITMAN, 2006, p. 55)
71
Sendo estruturada em uma série de camadas onde cada camada adiciona funcionalidades e
complexidade ao nível anterior, de tal forma que os agentes (humanos ou computadores) que
conseguem processar uma camada inferior podem ao menos compreender parcialmente
ontologias expressas em qualquer das camadas superiores. Uma primeira e importante
aplicação desse princípio é a relação entre OIL e RDF-Schema, conforme mostrado na figura
a seguir:
Figura 7 - Camadas da Linguagem OIL (Fonte: FENSEL, et al., 2001, p. 10)
A arquitetura em camadas de OIL possui três vantagens principais:
um aplicativo não precisa usar uma linguagem que oferece mais expressividade e
complexidade do que o necessário;
a aplicação que pode processar apenas um nível de menor complexidade ainda
consegue capturar aspectos da ontologia;
a aplicação que conseguem compreender um nível maior de complexidade também
pode entender ontologias expressas em uma linguagem mais simples.
Fensel et al. (2001, p. 11) ilustram isso no exemplo abaixo, definindo herbívoro como uma
classe, que é uma subclasse de animal, porém, separados de todos os carnívoros:
72
Uma aplicação limitada ao RDFS puro irá compreender apenas alguns aspectos dessa
definição:
Muitos aspectos e características de OIL foram incorporados a OWL como se verá mais
adiante.
3.1.3.2.4 DAML
Criada pelo Defense Advanced Research Projects Agency (DARPA), na mesma época em que
a OIL era desenvolvida pelo Consórcio Europeu, a DAML (DARPA Agent Markup
Language), extensão do RDF, objetiva permitir uma melhor interação de agentes de software.
Em outubro de 2000, foi divulgada a primeira especificação dessa linguagem de ontologias
chamada de DAML-ONT.
Herdando aspectos e características de OIL, pode-se afirmar que ambas apresentam
funcionalidades relativamente similares. A tabela a seguir (BREITMAN, 2006, p. 58) resume
as diferenças entre DAML e OIL.
73
Similaridades Diferenças
Oferecem suporte a hierarquias de conceitos e
propriedades, baseadas nos relacionamentos de
subclasse e subpropriedade.
A OIL oferece melhor compatibilidade RDF-
Schema do que DAML.
Permitem que conceitos sejam construídos a
partir de outros conceitos, utilizando
combinações dos conectivos OR, AND e NOT.
A OIL foi projetada de modo a permitir a
inferência de modo completo e eficiente.
Algumas construções em DAML fazem com
que a inferência se torne impossível.
Permitem que sejam definidos o domínio, o
escopo e a cardinalidade das propriedades que
vão compor as restrições dos conceitos.
Em OIL pode-se explicitar condições que sejam
suficientes ou necessárias e suficientes. A última
opção permite a classificação automática de
conceitos.
Oferecem propriedades transitivas e inversas DAML permite a especificação de valores
default, ou seja, valores que serão inicializados
se nenhum outro for definido pelo modelador da
ontologia. A OIL, no entanto, não permite a
utilização de valores default, pois não existe
uma semântica formal clara para tratá-los.
Oferecem apoio a tipos de dados concretos
(inteiros, cadeias, etc.)
Tabela 6 - Comparação entre as Linguagens OIL e DAML.
3.1.3.2.5 DAML + OIL
Criada em dezembro de 2000 a partir da combinação das linguagens DAML e OIL, substituiu
a DAML ONT, sendo dividida em duas partes para permitir a implementação de mecanismos
de inferência.
A primeira parte se refere ao domínio de objetos, consistindo nos objetos que são membros de
classes definidas na ontologia DAML, e a segunda parte, domínio de tipos de dados, trata dos
valores importados do modelo XML. DAML é composta por:
elementos de classe – associam uma classe a sua definição;
expressões de classe – são as formas possíveis de referenciar uma classe;
propriedades – associa uma propriedade a sua definição.
74
3.1.3.2.6 OWL
Conforme explicitado em W3C (2009), a linguagem OWL (Ontology Web Language) foi
desenhada para ser usada por aplicações que precisem processar o conteúdo da informação e
não apenas apresentá-las aos seres humanos, sendo uma revisão da DAML+OIL,
incorporando melhorias necessárias a ela, sendo atualmente uma recomendação do W3C.
Pode ser utilizada para representar explicitamente o significado dos termos em vocabulários e
os relacionamentos entre os termos, definindo uma ontologia. Além disso, possui mais
facilidades do que o XML, RDF e RDF-S para expressar o significado e a semântica,
possibilitando maior compreensão do conteúdo WEB pelos computadores, já que adiciona mais
vocabulário para descrever propriedades e classes, tais como relações entre classes (e.g.,
disjointness), cardinalidade (e.g., exactly one), características de propriedades (e.g., simétrica).
Conforme Breitman (2006, p. 59), a OWL foi projetada para atender as necessidades das
aplicações da web semântica, podendo ser resumidas da seguinte maneira:
Construção de ontologias:
o criar uma ontologia;
o explicitar conceitos fornecendo informações sobre os mesmos;
o explicitar propriedades fornecendo informações sobre os mesmos.
Explicitar fatos sobre um determinado domínio:
o fornecer informações sobre indivíduos que fazem parte do domínio em
questão;
Racionalizar sobre ontologias e fatos:
o determinar as consequências do que foi construído e explicitado.
Segundo Palazzi (2010, p. 14), a OWL disponibiliza três sublinguagens projetadas para uso
por implementadores e usuários:
• OWL Lite: oferece suporte aos usuários que precisem de uma hierarquia de
classificação e restrições simples. Por exemplo, enquanto o OWL Lite suporta
restrições de cardinalidade, ele somente permite 0 ou 1 como valores de cardinalidade.
Dessa forma, é mais simples criar ferramentas que suportam o OWL Lite do que em
outras sublinguagens. Além disso, fornece um caminho mais curto de migração para o
tesauro e outras taxonomias.
75
• OWL DL: oferece suporte aos usuários que necessitem do máximo de expressividade
sem perder a completude computacional (todas as conclusões são garantidas de serem
processadas) e capacidade de decisão (todos os processamentos serão finalizados em
um tempo finito) dos sistemas de raciocínio. O OWL DL inclui todos os construtores
da linguagem OWL com restrições como separação entre tipos (uma classe não pode
ser ao mesmo tempo um indivíduo ou tipo, e uma propriedade não pode ser ao mesmo
tempo um indivíduo ou uma classe). OWL DL tem esse nome devido a sua
correspondência à Lógica de Descrição (Description Logic), um campo de pesquisa
que tem estudado as lógicas que formam a base formal da OWL.
• OWL Full: é importante para os usuários que desejam o máximo de expressividade e a
liberdade sintática do RDF, sem nenhuma garantia computacional. Por exemplo, em
OWL Full, uma classe pode ser tratada simultaneamente como uma coleção de
indivíduos ou, simplesmente, um indivíduo. O OWL Full permite uma ontologia
aumentar o significado de um vocabulário predefinido (RDF ou OWL). É improvável
que todo software de raciocínio seja capaz de suportar todas as características do OWL
Full.
3.1.3.3 Principais metodologias de desenvolvimento de ontologias
Conforme Brandão et al. (2002, p. 5), com a Engenharia de Ontologias dando os seus passos
iniciais, ainda não existem metodologias para desenvolvimento de ontologias que sejam mais
usadas e aceitas de forma consensual pela comunidade científica, existindo sim, propostas de
metodologias – algumas mais testadas que outras. Citando a primeira referência ao termo
Engenharia de Ontologias por Mizoguchi e Ikeda, e ao desenvolvimento de propostas como a
Enterprise Ontology, o projeto TOVE (TOronto Virtual Enterprise), projeto Esprit KACTUS
(para o domínio de circuitos elétricos) e o Projeto METHONTOLOGY (um framework para
construção de ontologias), concluem que apesar das várias tentativas em se criar
metodologias, a prática demonstra que a maior parte dos grupos pesquisadores cria o seu
próprio método de desenvolvimento, conforme as características da aplicação que pretende
desenvolver usando a ontologia. Registra-se, porém, que em 2005 foi elaborada a norma
ANSI/NISO Z39.19 – Guidelines for the Construction, Format, and Management of
Monolingual Controlled Vocabularies, que contribui para o estabelecimento de consenso
sobre a questão.
76
A seguir são comparadas as metodologias Cyc, Gruninger e Fox, Uschold e King, Kactus,
Methontology, Método 101 e a norma ANSI/NISO Z39.19, a partir de quadro extraído de Silva
et al. (2008, p. 4).
Tabela 7 - Metodologias, métodos e norma frente às categorias de análise predefinidas
77
3.1.3.4 Principais ontologias
Neste tópico são resumidas as principais ontologias públicas, iniciando pelas ontologias de
topo ou upper ontologies, como a Sumo, KR e Cyc, passando por ontologias linguísticas
como a WordNet, chegando às ontologias de domínio, considerando o contido em Breitman
(2006):
Nome Origem / Projeto Principais Características
SUMO (Suggested Upper Merged
Ontology)
Proposta pelo Standard Upper
Ontology (SUO) Working Group da
IEE e desenvolvida pela Teknowledge
Corporation
Ontologia de Topo, que é uma
iniciativa de software livre e
objetiva a construção de um
padrão público a ser
disponibilizado livremente pela
Internet.
Ontologia KR (Knowledge
representation ontology)
Proposta por John Sowa Ontologia de Topo, John Sowa se
baseou nas distinções por alguns
filósofos, em particular a
semiótica de Peirce e as categorias
de existência enumeradas por
Whitehead.
Cyc Desenvolvimento e propriedade
Cycorp
Talvez seja o maior investimento
já realizado para a criação de uma
ontologia de topo com a maior
amplitude possível. Tem a
intenção de acomodar todo o
conhecimento humano. O Cyc ao
contrário do SUMO é proprietário
e de acesso limitado / restrito.
WordNet Universidade de Princeton sob a
coordenação do pesquisador George
Miller.
É um banco de dados léxico que
possui os prováveis significados
de mais de 120 mil palavras
inglesas. Objetiva prover uma
base léxica on line para ser
utilizada por computadores.
GUM (Generalized Upper Model) Information Sciences Institute (EUA),
GMD (Alemanha) e CNR (Itália)
Ontologia linguística ligada à
semântica dos elementos da
gramática. De maneira contrária
ao WordNet, que provê a
78
semântica dos termos, a GUM
descreve a semântica de
construtos gramaticais do tipo
frases.
SENSUS Grupo ISI
Ontologia de termos usados
comumente em linguagem natural.
Contém mais de 70 mil termos. A
parte superior da ontologia contém
cerca de 400 termos, referenciados
como a Base da ontologia, tendo
como fontes de sua construção,
essencialmente em meio
eletrônico, incluso o WordNet.
EDR (Electronic Dictionary
Research)
Electronic Dictionary Research and
Development Group
http://www.edrdg.org/
Projeto Japonês, com um
dicionário com mais de 400 mil
conceitos para termos em inglês e
japonês. Apesar da quantidade
elevada, não fornece tantos
detalhes para os conceitos
individualmente.
Euro WordNet The Global WordNet Association
http://www.illc.uva.nl/EuroWordNet/
É uma base de dados com
WordNets para várias línguas
europeias, estruturadas da mesma
forma que o WordNet da
Universidade de Princeton. Está
disponível para as línguas
portuguesa, sueca, grega,
dinamarquesa, basca, catalã,
romena, lituana, russa, búlgara e
eslovaca.
Projeto Open Directory (ODP) Open Directory Project
http://dmoz.org/
É um projeto público que adota o
trabalho de voluntários do mundo
todo e objetiva a construção de um
enorme tesauro de termos
codificados em RDF. Conta com
mais de 8 mil termos cadastrados
e tem como usuários muitos sites
de busca, e.g., o Google.
NAICS (North American Industry
Classification System)
Census Office dos EUA em
colaboração com entidades do
Classifica produtos e serviços de
modo geral. Desenvolvido com
79
Canadá e México base na Standard Industrial
Classification (SIC), sobre os
setores: agricultura, mineração,
construção, serviços de utilidade
pública, atacado e varejo,
acomodações e alimentação,
finanças, imobiliário entre outros.
GALEN OpenGALEN Representa uma terminologia
clínica. Desenvolvida para
especificar restrições usadas em
domínios médicos. Busca atender
as demandas de integração e re-
uso de informações de pacientes,
transmissão de dados e a
padronização para atender a
elaboração de estatísticas na área
da saúde.
FOAF (Friend Of A Friend) The Friend Of A Friend Project
http://www.foaf-project.org/
Busca compartilhar informação
pessoal e sobre pessoas
conhecidas. Cada fato é descrito
por meio de triplas em RDF.
Tabela 8 - Tabela das principais ontologias
3.1.3.5 Ferramentas de apoio ao desenvolvimento de ontologias
Atualmente existe uma série de ferramentas disponíveis no mercado aplicáveis à web
semântica, que segundo Breitman (2006, p. 168) podem ser classificadas em três categorias
principais: editores de ontologias, metadados e ferramentas de visualização ou mecanismos de
inferência.
Os mecanismos de inferência podem derivar novos fatos ou associações a partir das
informações disponíveis. Além disso, acredita-se que possam emular a forma como os
humanos pensam e assim chegar a conclusões, implementando inteligência artificial, o que é
incorreto, pois apenas usam estratégias conhecidas de processamento de dados. Outro ponto
relevante é que as inferências serão tão boas quanto as informações disponíveis, o que no caso
da web semântica será limitada apenas às classes e associações possíveis de serem descritas
nos modelos OWL ou RDF. Como exemplo dessa categoria pode-se citar FaCT.
80
Apesar de existir um bom número de ferramentas, como o SAMBO – System for Aligning and
Merging Bio-Ontologies (ABDULAHAD et al., 2004), Pellet (http://pellet.owldl.com) etc.,
segue abaixo tabela com resumo das ferramentas consideradas principais em Breitman (2006):
Nome Origem / Projeto Principais Características
C&L Depto. de Informática da PUC-RJ Ferramenta de apoio à Engenharia de requisitos
com o objetivo principal da edição de Cenários e
LAL (Léxico Ampliado da Linguagem). Projeto
desenvolvido com a filosofia de software livre.
OilEd University of Manchester
(Inglaterra)
*link conhecido estava inativo em
08/03/2011.
OilEd não pretende ser um ambiente completo para
desenvolvimento de ontologias em larga escala. Ele
é projetado para ser o “Bloco de Notas” dos editores
de ontologia, mais adequado ao aprendizado,
facilitando o uso e estimulando o interesse. Não
disponibiliza um ambiente completo, não
suportando migração, integração, versionamento,
argumentação, entre outras tarefas envolvidas no
processo de construção de uma ontologia.
OilEd - OilViz University of Manchester
(Inglaterra)
É um visualizador de hierarquias de classes que
pode ser incorporado ao OilEd, como opção ao
visualizador padrão do editor. Mostra a hierarquia
em forma de árvore.
FaCT University of Manchester
(Inglaterra)
É um mecanismo de inferência que verifica a
consistência de ontologias elaboradas com OilEd
por meio do mapeamento das ontologias para uma
linguagem de lógica de descrição. Suas
funcionalidades incluem detecção de
inconsistências e identificação automática de
relacionamentos taxonômicos.
Protégé 2000 Stanford University
http://protege.stanford.edu/
É um ambiente para criação de ontologias e bases
de conhecimento. Desenvolvido em Java e no
conceito de software livre, possibilita a criação de
ontologias de domínio, formulários de entrada de
dados e mecanismos de inserção de dados. Sua
arquitetura aberta possibilita que sejam
desenvolvidos livremente plugins que aumentam
suas funcionalidades, estando disponíveis plugins
para OWL e mecanismo de inferência RACER.
OntoViz Stanford University É um dos plugins disponíveis para visualização de
81
http://protege.stanford.edu/ ontologias a partir do Protégé, possibilitando a
visualização de partes especificas da ontologia de
cada vez. Existem também a TGViz, Jambalaya e
PROMPTViz.
Editor de
Metadados
DC.dot
UKOLN
http://www.ukoln.ac.uk/metadata/dcdot/
É uma ferramenta que utiliza páginas como
marcação HTML como entrada, gerando uma
sugestão de marcação de Metadados descritos no
padrão Dublin Core. Basicamente identifica
informações sobre o autor, data de criação, assunto
e linguagem do conteúdo da página
Tabela 9 - Principais ferramentas para o desenvolvimento de ontologias
3.1.3.6 Agentes de software
Agentes de software são porções de software responsáveis por coordenar tarefas de busca,
comparação e negociação na web, encontrando alternativas possíveis para atender às
necessidades dos usuários e então as oferecendo para que os usuários tomem suas decisões.
Em Breitman (2006, p. 154), são colocadas algumas definições convergentes sobre o tema
que seguem abaixo:
a) Segundo o Laboratório de Agentes de Software do MIT, os agentes são diferentes do
software convencional, pois são:
semi-autônomos;
proativos;
adaptativos;
duram mais;
comportam-se mais como um assistente do que como uma ferramenta.
b) Grigori Antoniu e Frank Harmelen definem da seguinte forma:
Agentes são porções de software que trabalham de forma autônoma e proativa. Um
Agente pessoal na web semântica vai receber uma lista de tarefas e preferências de
uma pessoa, procurar recursos na rede, comunicar-se com outros agentes, comparar
informações, selecionar algumas opções e apresentar uma lista de soluções para o
usuário.
82
c) James Hendler em seu artigo “Agentes na web semântica”, compara agentes de software e
agentes de viagens (humanos) da seguinte forma: “Em vez de fazer tudo para os usuários, os
agentes (de software) vão achar maneiras possíveis de atender às suas necessidades, e então
oferecer as opções ao usuário.”
d) Conforme Berners-Lee (2001, p. 35 a 43), os agentes de software serão os responsáveis por
coordenar tarefas de buscas, comparação e negociação na rede, reduzindo enormemente o
esforço realizado pelos usuários. É importante ressaltar que os agentes da web semântica não
agirão de forma autônoma, farão a parte mais “pesada” das investigações apresentando os
resultados para que o usuário tome suas decisões. Em seu artigo de 2001 na Scientific
American, exemplifica num caso hipotético em que a mãe de duas pessoas, Lucy e Pete,
precisa realizar tratamento médico e, a partir da declaração dessa necessidade, o “agente” de
Lucy busca alternativas considerando as premissas determinadas. A figura abaixo ilustra o
fluxo de funcionamento de agentes de software e como interagiriam com outros sistemas de
software e com seres humanos.
Figura 8 - Fluxo de trabalho de agente de software (Fonte: BERNERS-LEE et al., 2001)
83
Outro ponto ressaltado por Breitman (2006, p. 154) é quanto à combinação de características
para determinar um agente de software, não sendo necessário que todas as características
estejam presentes, afirmando também que o conjunto de propriedades do agente deve ser
determinado em razão das tarefas que irá executar. A tabela abaixo mostra os tipos de agentes
conforme a OMG – Object Management Group (http://www.omg.org/):
Tipo Descrição
Autônomo Quando independe de controles externos. Vale registrar que essa autonomia é caracterizada
por uma escala gradativa e não apenas por estar presente ou não. A autonomia é
considerada pela FIPA (Foundation for Intelligent Physical Agents) e OMG como
característica essencial de agentes.
Interativos Quando podem se comunicar com o ambiente e outras entidades. Como a Autonomia,
também é um atributo caracterizado por uma escala gradativa, sendo também considerado
pela FIPA e OMG como característica essencial de agentes.
Adaptativos Quando são capazes de responder a outros agentes e a seu ambiente em determinado grau.
Também é considerado atributo essencial de agentes pela FIPA e OMG, no mínimo deve
conseguir reagir a um estímulo simples. Formas mais avançadas envolvem o aprendizado e
evolução.
Móveis Quando conseguem transportar seu próprio código para outros computadores ao fim de sua
execução. Justifica-se pelo ganho de desempenho que pode gerar ao estar mais próximo
dos recursos que irá consumir. Não é uma característica essencial de agentes.
Coordenados São capazes de cooperar com outros agentes para atingir objetivos. Atividades complexas,
tais como a resolução de problemas, fornecimento de insumos e linhas de montagens são
possíveis somente pela coordenação de múltiplas tarefas.
Tabela 10 - Tipos de agentes conforme a OMG Object Management Group
Os principais agentes e suas características estão listados na tabela que segue:
Nome Origem / Projeto Principais Características
CATO (Componente
para alinhamento
Taxônomico de
ontologias)
Departamento de Informática da
PUC - RJ
Ferramenta para alinhamento de ontologias em
OWL. Desenvolvido a partir da visão que a WS
será composta por aplicações com ontologias
parciais e respectivas contextualizações.
(FELICISSIMO, 2004)
API Jena HP Labs Semantic
http://jena.sourceforge.net/
É um framework Java para a construção de
aplicações web semântica. Fornecendo um
ambiente de programação para RDF, RDFS e
OWL, SPARQL, inclui um engine de inferência.
É open source e nasceu no HP Labs Semantic.
Embora nem todos a considerem como um
agente, pois sua aplicação mais usual é no
desenvolvimento de agentes.
Serviços Web
semânticos
Semantic Web Services Initiative
(SWSI)
http://www.swsi.org/
Trata-se de estender a capacidade dos serviços
web tradicionais por meio de descrições
semânticas a fim de se obter uma maior
capacidade de expressão na sua definição,
descoberta, seleção, monitoramento,
interoperabilidade e acesso.
Tabela 11 - Principais agentes
84
3.1.4 Aplicações da web semântica
Na tabela seguinte são apresentadas algumas aplicações que utilizam conceitos de web
semântica, que já estão disponíveis na Internet mesmo que em estágio de protótipo.
Nome Origem / Projeto Principais Características
Sandbox Correlator Yahoo Research Busca dentro dos documentos, nomes, datas e locais,
localizando grupos de sentenças de interesse e as relaciona com
uma “virtual Wikipedia page” criada “on the fly”, apresentando
os resultados da pesquisa de uma maneira diferente dos outros
buscadores, criando uma página resumida o que permite um
melhor compreensão visual do resultado. Por exemplo, uma
pesquisa “Jogos Olímpicos Tênis”. Percebe que é uma consulta
que envolve dois conceitos “Jogos Olímpicos” e “Tênis” dando
um resumo dos dois conceitos separadamente e depois apresenta
os resultados dos dois conceitos combinados.
PowerSet / Bing PowerSet Empresa com proposta de solução web semântica para motor de
busca que foi comprada em 2008 pela Microsoft e incorporada
como uma divisão do BING.
Google Wave Google Não é uma aplicação especifica de processamento de arquivos
nos modelos RDF, OWL ou RDFS, e sim uma ferramenta para
disponibilizar informações em tempo real e possibilitar o
compartilhamento de diversas mídias como fotos, mapas, texto,
aplicações do tipo plugin, vídeos e interações com agentes. O
lado poderoso dessa ferramenta é a possibilidade de criação de
agentes que podem auxiliar no desenvolvimento de programas
web semânticos. (FONTES, 2009, p. 78)
Swoogle University of
Maryland,
Baltimore County
http://swoogle.umbc
.edu/
Motor de busca que descobre, analisa e indexa conhecimento
codificado em documentos de web semântica. Fornece acesso a
esses dados que ajudam a humanos e computadores a achar
documentos relevantes, termos, triplas. Prevê algoritmo
inspirado no Google PageRank, porém adaptado a semântica e
padrões utilizados em documentos da web semântica. Tem sido
utilizado em vários projetos para manter e gerenciar dados em
RDF.
Tabela 12 - Aplicações da web semântica
85
3.2 A QUESTÃO DOS MECANISMOS DE BUSCAS
Quando se aborda a questão de otimização para os sites de buscas neste trabalho, pretende-se
com isso indicar caminhos para que o portal proposto tenha o melhor posicionamento possível
junto aos buscadores e assim obtenha melhor visibilidade, alcançando o maior número
possível de pessoas com ações de cunho técnico, dentro do escopo em discussão. Não serão
abordadas ações off-page, que envolvem ações de relações públicas até links patrocinados, por
estarem dentro de um escopo mais adequado ao estudo de questões de marketing e outras
ciências humanas correlatas.
Isto posto, o foco será em SEO (Search Engine Optimization), por tratar das técnicas que
considera aspectos de otimização on-page envolvendo conteúdos, códigos e estrutura do
website.
Sobre otimizações on-page Gabriel (2009), considera pontos que seguem como principais, e
eles serão o tema dos próximos itens:
código da página;
conteúdos da página;
estrutura da página e site.
3.2.1 Código da página
Dentro dos códigos HMTL, xHTML e linguagens de scripts que possam ter sido utilizadas,
existem vários fatores que influem no posicionamento ou ranking obtidos nos resultados dos
mecanismos de buscas.
3.2.1.1 Endereço da página (URL)
Observa-se se existem palavras-chaves no meio da URL da página; para os mecanismos de
buscas isso aumenta a relevância da palavra-chave, oferecendo vantagens no retorno das
86
buscas. Por exemplo, a palavra chave “pesca” pode ter maior relevância para a URL
www.pesca-submarina.com.br do que para www.clubesubmarino.com.br.
Outro ponto relevante é a profundidade da URL e o uso de parâmetros. Buscadores indexam
até quatro níveis de profundidade e no máximo dois parâmetros. Uma boa URL pode ser:
www.ibm.com.br/clientes/sp. Não possui parâmetros e tem apenas dois níveis de
profundidade.
3.2.1.2 Metatags
Metatags declaradas em códigos HTML ou xHTML no início das páginas contendo
informações sobre a página incluem tags como keywords e description.
Em razão do mau uso por editores e desenvolvedores25
, essas tags estão perdendo importância
no processo de ranking, porém ainda são utilizados por alguns mecanismos de buscas,
algumas vezes combinando-as com outros conteúdos. Mas mesmo que não tenham o mesmo
peso do passado, tê-las disponíveis corretamente ajudará caso sejam necessárias e não trará
nenhum prejuízo se não forem utilizadas.
3.2.1.2.1 Metatag Keywords
Indicam aos mecanismos de buscas as palavras-chaves associadas à página. Apesar de alguns
buscadores utilizarem outros critérios para estabelecer as palavras-chave, essa Tag deve estar
disponível considerando as seguintes recomendações:
é inócuo um número excessivo de palavras-chave, pois a atribuição de valor a cada
uma no posicionamento é inversamente proporcional ao número de palavras
informadas. Utilize no máximo 10 palavras;
cada página tem temas e objetivos diferentes, assim deve-se personalizar as palavras-
chave para cada página;
25 Vide restrições de Cory Doctorow ao modelo de metadados da web semântica – As pessoas mentem.
87
deve-se procurar definir palavras-chave que são utilizadas no corpo da página
garantindo a sintonia entre o conteúdo da página e as palavras-chave, do contrário a
página perderá posições no ranking.
3.2.1.2.2 Metatag Description
Serve como a descrição da página que será exibida no resultado das buscas, do contrário
utiliza-se o primeiro parágrafo do texto da página, o que nem sempre atende aos objetivos
pretendidos; também é utilizado para estabelecer o posicionamento da página devendo
observar as seguintes recomendações:
deve ser claro e ter o condão de estimular o público alvo a clicar e navegar pela
página. Recomenda-se que tenha no máximo 150 caracteres;
cada página tem temas e objetivos diferentes, assim deve-se personalizar as suas
descrições;
deve-se utilizar as palavras-chave no texto da descrição garantindo a sintonia entre a
descrição da página e as palavras-chave, do contrário se perderão posições no ranking.
3.2.1.3 Tag Title <title>
Considerado de grande importância por ser o primeiro item a ser visualizado, ser o título da
página e normalmente informar o conteúdo da página.
Deve ser criado considerando as seguintes recomendações:
deve ser ou conter a palavra-chave mais importante da página;
a palavra-chave deve estar posicionada o mais perto possível do início do texto;
deve servir para responder a questão: Onde estou?;
dever ser adequado para ser Bookmarked ou incluído entre os “favoritos” do browser;
deve conter no máximo 70 caracteres.
88
3.2.1.4 Tag de subtítulo
Utilizado para breves descrições dos diferentes blocos de conteúdos da página, organizando e
melhorando a sua legibilidade. Tem seu peso decrescendo de <h1> (maior importância) até
<h6> (menor importância). Devem ser criados observando os seguintes pontos:
palavras-chave devem ser incluídas nos textos das tags;
as palavras-chave devem estar posicionadas o mais perto possível do início do texto.
3.2.1.5 Propriedade Alt na tag <image>
O texto incluído na tag<image> serve para descrever os elementos gráficos da página sendo
utilizado pelos buscadores para registrar e considerar tais elementos. Devem se utilizadas
nesses casos também palavras-chave da página para descrevê-los, mantendo a sintonia entre a
página e as imagens utilizadas, buscando uma melhoria no seu posicionamento. Um exemplo
adequado seria:
<img src=“http://www.osite.com.br/graf-séries-históricas.jpg”
alt=“Gráfico com evolução das séries históricas do IBGE” />
3.2.1.6 Topo de página
O topo das páginas é uma área importante para despertar o interesse do internauta em entrar e
conhecê-la. Além disso, como comentado no item 3.2.1.2.2. – Metatag Description –, caso ela
não seja definida, os buscadores exibem o primeiro parágrafo a partir do topo da página no
retorno das buscas, assim recomenda-se que o primeiro parágrafo seja um breve resumo do
seu conteúdo, incluindo as suas principais palavras-chave.
89
3.2.1.7 Links internos: âncoras e propriedades
A definição dos anchor texts (textos de âncora) para os links entre páginas do mesmo domínio
devem observar algumas regras a fim de que sejam bem pontuados pelos buscadores.
procurar redigi-lo com palavra-chave importante da página destino. Isso aumenta a
pontuação / reputação desse link;
padronizar a forma de link para o mesmo domínio. Não usar http://osite.com e
http://www.osite.com, pois os buscadores podem entender que se tratam de domínios
distintos. Da mesma forma, se houver vários domínios apontando para o mesmo site,
deve-se adotar um principal, e os demais devem ser tratados por redirecionamento no
servidor para o domínio definido como o principal;
utilizar substantivos na definição do texto âncora evitando verbos, não utilizando
textos do tipo “clique aqui”.
utilizar a propriedade title, pois os buscadores entendem o texto associado a essa
propriedade como conteúdo normal da página. Exemplo:
<a href=“curso-de-linux.html” title=“Curso de Linux”> Curso de Linux </a>
o atributo nofollow deve ser utilizado sempre que houver link com página que não se
deseja que os agentes dos buscadores sigam a partir desse link. Por exemplo, um site
que não esteja diretamente relacionado ao assunto, ou que se esteja utilizando como
exemplo ruim de algo que não deveria ser daquela forma;
limitar a quantidade para até 100 links, pois os buscadores não indexam mais do que
isso.
3.2.1.8 Frequência das palavras-chave na página
O uso de palavras-chave no texto da página faz com que ela tenha um posicionamento melhor
junto aos buscadores. Entretanto, deve-se observar que o critério de avaliação da repetição das
palavras-chave no texto da página (F) é obtido pela divisão das vezes em que aparece no texto
(K) pelo total de palavras da página (T): F = K / T.
90
Apesar de o número ideal para essa relação não ser divulgado pelos buscadores, os
especialistas consideram adequado entre 3% e 8%. Acima disso, além de trazer problemas de
qualidade para o texto, os mecanismos de buscas podem entender que se trata de uma
tentativa não ética de melhoria de posicionamento e assim penalizar a página reduzindo sua
posição, ou até mesmo excluindo-a da indexação.
3.2.1.9 Scripts na página
O uso de porções de códigos de Scripts no topo das páginas pode fazer com que os buscadores
indexem esses códigos como se fossem conteúdos, prejudicando a relevância do título e do
primeiro parágrafo.
Quando se torne indispensável que sejam definidos no topo da página para que possam ser
carregados previamente, é recomendado que sejam utilizados arquivos externos de scripts.
Por exemplo, no caso do Javascript em arquivos com extensão.js, referenciado-o no código
HTML / xHTML.
3.2.1.10 Menus de navegação
A questão dos menus é importante para o processo de indexação realizado pelos robots ou
crawlers dos mecanismos de buscas, pois com eles podem-se associar as opções de navegação
com seus respectivos links.
Quando os menus são desenvolvidos com recursos fora do HTML ou xHTML, como por
exemplo Javascript ou Flash, isso pode impedir que os agentes de indexação enxerguem tais
links de navegação, impossibilitando que sejam encontrados e indexados, reduzindo a
profundidade de indexação e o nível de saturação do domínio26
.
26
Nível de saturação do domínio ou Search Engine Saturation, é a relação entre as páginas indexadas e o total de páginas do site. Quanto maior a proporção de páginas indexadas, maior o nível de saturação do domínio e melhor a visibilidade que
o site pode alcançar no mecanismo de buscas (GABRIEL, 2009, p. 76).
91
3.2.2 Conteúdo da página
O conteúdo é essencial, pois é o que atrairá as pessoas e os mecanismos de buscas ao site.
Mas alguns aspectos precisam ser explicitados:
bom posicionamento nos buscadores depende essencialmente de bom conteúdo;
bom conteúdo envolve boa redação, boa distribuição de palavras-chave, texto
atualizado e relevante;
páginas dinâmicas e arquivos Flash, não preparados para serem search engine
friendly, podem não ser vistas e, como consequência, não serem indexadas pelos
mecanismos de buscas;
as páginas devem seguir os padrões do W3C, pois em geral tornam-se mais fáceis de
serem tratadas pelos agentes dos buscadores. Pode-se usar o validador27
do W3C para
verificar o nível de aderência das páginas ao padrão;
em todas as tags de imagens, preencher o conteúdo da propriedade alt, que são
entendidas pelos buscadores como conteúdo e que podem ajudar no aumento de
ranking da página.
3.2.2.1 Conteúdo em Flash
Conteúdos em Flash podem ser entendidos pelos agentes dos mecanismos de buscas desde
que observadas especificações para tornar isso possível. A Google28
e a Adobe29
disponibilizam documentação para permitir aos desenvolvedores criarem conteúdos em Flash
que possam ser indexados, porém nem todos utilizam esse recurso gerando animações
preparadas para SEO.
Apesar do esforço da Google e da Adobe em permitir essa adequação, deve-se considerar que
conteúdos Flash não são nativamente amigáveis aos buscadores, e assim é muito importante
que exista um planejamento para que eles sejam realmente desenvolvidos de forma adequada
para SEO.
27 http://validator.w3.org. 28 http://googlewebmastercentral.blogspot.com/2008/06/improved-flash-indexing.html. 29 http://www.adobe.com/devnet/swf.html.
92
3.2.2.2 Conteúdos dinâmicos ou profundos
São páginas com conteúdos gerados a partir de bancos de dados. Dinâmicos, pois os dados
dos bancos de dados podem mudar dinamicamente, e profundos, pois o dados estão
disponíveis em uma camada abaixo das páginas (banco de dados).
O uso de conteúdos dinâmicos torna os sites mais eficientes e simplifica todo o processo de
manutenção, o que faz com que se tornem uma tendência, porém isso afeta a classificação e
ranking do site pela impossibilidade dos agentes dos mecanismos de buscas agirem dentro dos
bancos de dados.
Para isso algumas soluções são possíveis. A primeira é tornar dinâmicos apenas os conteúdos
em que isso for mandatório e assim reduzir o tamanho da parte profunda. Outra possibilidade
seria adotar landing pages30
, planejadas para dar visibilidade a palavras-chave específicas do
site.
Outro problema em páginas dinâmicas é a questão dos links que são gerados com códigos e
números e não com palavras, mas que pode ser contornado por meio de parametrizações nos
servidores web. Por exemplo, no apache isso por ser ajustado com o comando RewriteEngine
On, permitindo que um link seja digitado como www.osite.com/cursos/brasil e entendido
como www.osite.com/pag.php?tipo=cursos?pais=brasil.
Ferramentas muito comuns em sites dinâmicos são os CMS (Content Management Systems),
possuindo templates que permitem a padronização do seu visual e funcionalidades e
possibilitam que toda a configuração do site fique armazenada em banco de dados. Eles
podem ser de dois tipos. Os que geram as páginas dinamicamente, ou aqueles que compilam o
conteúdo do banco de dados gerando páginas estáticas, sendo o segundo tipo mais amigável
para os buscadores.
Pode-se citar como exemplos de CMS o Joomla, o Mambo, o WordPress, Alfresco e Drupal.
30 É a página que aparece para uma pessoa quando ela clica em um anúncio ou link de um resultado de busca (orgânica ou links patrocinados) (GABRIEL, 2009, p. 105).
93
3.2.2.3 Criação de conteúdos para SEO
A criação de conteúdos adequados para SEO não é tarefa simples. Conteúdos compostos por
recursos sofisticados de som, vídeos, imagens e cores podem não surtir o efeito desejado.
Mesmo um bom texto pode não obter os resultados esperados quanto a atrair e reter visitantes.
Os agentes dos buscadores não se preocupam com a sofisticação tecnológica com a qual o site
foi produzido, assim, alguns cuidados devem ser observados para a criação de bons conteúdos
para otimização dos mecanismos de buscas:
procurar escolher apenas um tema por página, permitindo assim um foco maior,
tornando o conteúdo mais atraente;
após a escolha do tema, definir quantas e quais palavras-chave serão usadas;
definir a frequência com que as palavras-chave devem aparecer;
organizar bem a estrutura do texto:
o definindo os tópicos que deve cobrir;
o definindo como usar título e subtítulos (quebrando e organizando o documento,
contendo as palavras-chave e/ou frases-chave).
Outra maneira de incluir bons conteúdos SEO é por meio da seção de comentários dos
usuários ou pela criação de fóruns de discussão, sendo formas para obterem-se bons
conteúdos sem custos adicionais, porém necessitam de mediação e monitoração para garantir
que as mensagens postadas estão adequadas ao conteúdo/tema.
3.2.3 Estrutura: página e site
A estrutura da página e do site também são fatores importantes, que em conjunto com o
código e conteúdo discutidos nos itens anteriores definem o seu posicionamento nos
mecanismos de buscas.
94
3.2.3.1 Design e estrutura do website
Os problemas potenciais relacionados a design da página são:
navegação;
frames;
servidor;
arquivo robots.txt.
Caso esses itens não estejam bem projetados, poderá ocorrer o bloqueio ou impedimento para
que os robots ou crawlers dos buscadores entrem nessas páginas e façam sua indexação,
deixando-a perdida no universo da web profunda.
Tais itens são discorridos nos tópicos a seguir.
3.2.3.1.1 Navegação
Falta de clareza nos menus impedem que os robots acessem as páginas internas a partir dos
links definidos em cada opção de menu, reduzindo a quantidade de páginas indexadas do site
e assim afetando o seu índice de saturação. As razões mais comuns para isso são o uso de
scripts na construção da navegação ou o uso de Flash sem observar os cuidados para que seja
amigável aos robots dos buscadores.
3.2.3.1.2 Frames
Frames são geradas a partir de comandos HTML, possibilitando que a página seja estruturada
em partes independentes, formando um conjunto de páginas. O uso desse recurso de forma
incorreta poderá impedir que os buscadores indexem essas páginas. O conteúdo dentro da tag
<frameset> não será reconhecido como tal. Para evitar isso, os conteúdos devem estar entre as
tags <noframe> </noframe>.
95
3.2.3.1.3 Servidor do website
Outro fator que pode criar dificuldades para os agentes dos buscadores indexarem as páginas
de um site é o dimensionamento do servidor que o hospedará. Caso exista um baixo
desempenho do servidor, robots dos buscadores, bem como as pessoas, abandonarão a
navegação e irão buscar outros sites para visitar.
Deve-se observar também o tamanho das imagens – se forem muito grandes, também afetarão
o tempo de resposta da navegação.
3.2.3.1.4 Arquivos Robots.txt
O robots.txt é um arquivo no formato texto que oferece informações restringindo o acesso ao
site por robots dos buscadores, permitindo que se controlem as permissões de acesso a
determinados pontos dos sites, declarando quais informações devem ou não ser indexadas
pelos robots que, antes de acessarem as páginas de um site, verificam se ele existe. Porém,
vale registrar que todos os robots honrados respeitam as suas instruções, embora alguns
possam interpretá-las de modo diferente. No entanto, ele não é um arquivo executável e
alguns criadores de spam e outros usuários mal-intencionados podem ignorá-lo. Dessa forma,
recomenda-se que informações confidenciais estejam protegidas por senha.
Para conhecer o conteúdo de robots.txt, basta digitar no browse a url
www.osite.com.br/robots.txt.
Sua sintaxe é bem simples, composta de quatro informações que determinam quais robots
podem acessar o site, em quais diretórios podem entrar, em quais diretórios não podem entrar
e a localização do arquivo que contém o mapa do site, devendo ser disponibilizado na raiz da
área de hospedagem do site.
A seguir, uma tabela com o detalhe e sintaxe para a elaboração desse arquivo:
96
Sintaxe Funcionalidade
User-Agent Determina quais robots / buscadores podem acessar o site / servidor
Google: User-agent: Googlebot
Yahoo: User-agent: Slurp
MSN: User-agent: msnbot.
Todos os mecanismos: User-agent: *.
Allow Informa quais diretórios podem ser acessados
Disallow Informa quais diretórios estão bloqueados para acesso
Sitemap Informa a localização do mapa do site. Elaborado em formato XML.
Tabela 13 - Opções permitidas dentro do arquivo robots.txt
3.2.3.2 Idade e atualizações na página
A idade e a frequência de atualizações de uma página também são determinantes para que o
site consiga um bom posicionamento junto aos mecanismos de busca.
Quanto mais antigo for o site, melhor, porém devem existir atualizações periódicas para que
os robots continuem visitando e mantendo-o atualizado no banco de dados dos buscadores. À
medida que o site fique longos períodos sem atualizações, valendo registrar que esse tempo
não é conhecido e varia em cada mecanismo de busca, os algoritmos dos buscadores irão
reduzir a frequência das visitas e assim, quando uma alteração for realizada, ela demorará
mais para ser refletida nos buscadores afetando o seu posicionamento.
3.2.3.3 Análise do website versus análise de página individual
Deve-se, como estratégia, manter a coerência das páginas com o site como um todo. Como
discutido anteriormente, cada página deve ter seu tema e suas palavras-chave distribuídas
dentro do seu conteúdo, porém é muito importante que palavras-chave importantes para o
contexto geral do site sejam incluídas em todas as páginas.
Essa providência melhorará a coerência e contribuirá para um melhor posicionamento nos
mecanismos de busca.
97
3.2.4 Ferramentas SEO
É relevante citar algumas ferramentas e sites de apoio na criação e manutenção de sites
amigáveis para buscadores e voltados a estratégias de otimização para os mecanismos de
buscas (SEO):
Google Central do Webmaster em www.google.com/webmasters, onde se encontrará
Recursos e documentação que auxiliam nas questões de indexação, inclusive a
validação e submissão do mapa do site. (em português)
Alexa em www.alexa.com, que permite a Análise de tráfego e links quebrados.
Mestre SEO em www.mestreseo.com.br, que Oferece artigos e informações além de
disponibilizar diversas ferramentas SEO, algumas gratuitas e outras disponíveis
apenas a assinantes.
W3C Quality Assurance Tools em www.w3.org/QA/Tools/, disponibiliza ferramentas
para garantir a qualidade e aderência dos códigos utilizados no site aos padrões
estabelecidos no W3C, validando códigos HTML, CSS, XML, etc.
Web Page Analyzer em www.websiteoptimization.com/services/analyze/ , avalia o
peso e velocidade do site oferecendo uma análise dos principais pontos, sugerindo
ajustes para melhorar os pontos deficientes.
3.3 A QUESTÃO DA VISUALIZAÇÃO DE DADOS
Ao se discutir a questão do volume excessivo de informações que a Internet nos trouxe e a
preocupação de que o excesso de informação tenha um efeito contrário à expansão do
conhecimento, percebe-se a importância de estudar e analisar, entre outros temas, como essas
informações podem ser trabalhadas sob a perspectiva do design das interfaces gráficas.
A Visualização de Dados tem como tema de estudos investigar as melhores práticas para
potencializar a compreensão da informação por meio de representações visuais, dentro de
abordagens que reflitam modelos e conceitos de fácil percepção. Isso é corroborado por
Flusser, quando afirma que:
98
Uma imagem é uma superfície cujo significado pode ser abarcado num lance de
olhar: ela “sincroniza” a circunstância que indica como cena. Mas, depois de um
olhar abrangente, os olhos percorrem a imagem analisando-a, a fim de acolher
efetivamente seu significado; eles devem “diacronizar a sincronicidade” (FLUSSER,
2007, p. 131).
Dentro do contexto de potencializar a compreensão da informação, é importante colocar que,
sendo o principal objetivo da visualização de dados a transmissão de informações de forma
clara e efetiva, isso não significa que se precisa de um visual sofisticado e deslumbrante e
nem um visual funcional e enfadonho. Para transmitir suas ideias na forma visual é necessário
um equilíbrio entre a forma estética e suas funcionalidades – ambas precisam andar juntas,
fornecendo conhecimentos sobre os dados, comunicando seus principais aspectos de uma
forma mais intuitiva. Os designers precisam estar atentos ao equilíbrio entre design e
funcionalidade, criando efeitos visuais que sirvam ao objetivo principal – a informação a se
comunicar.
Além disso, a questão imagética deve ser percebida sempre com a preocupação de como isso
será olhado, interpretado e absorvido pelas novas gerações em um constante rever e
reaprender, o que pode ser alinhado com as palavras de Flusser:
Pois nós continuamos a ser programados por textos, ou seja, para a história, para a
ciência, para o engajamento político, para a “arte”: para uma existência dramática.
Nós “lemos” o mundo (por exemplo, lógica e matematicamente). Mas a nova
geração, que é programada por imagens eletrônicas, não compartilha nossos
“valores”. E ainda não sabemos os significados programados pelas imagens
eletrônicas que nos circundam (FLUSSER, 2007, p. 131).
Os próximos tópicos aprofundam a questão da visualização dos dados, abordando
principalmente aplicações que estão disponiveis na web e que já contribuem de alguma forma
a esse propósito.
3.3.1 Por que visualização de dados
Segundo Ribeiro (2009, p. 37), entre as possíveis formas de se comunicar a informação, a
representação visual se destaca como uma forte expressão do conhecimento. Nesse contexto,
a questão do design da informação ganha importância. Suas definições buscam referências no
99
design gráfico, na comunicação, na estatística, na cartografia e nas ciências cognitivas, na
intenção de delinear um campo de pesquisa voltado aos indivíduos.
A visualização de dados possui a força de fazer com que assuntos complexos se tornem
concretos e acessíveis, relatando fatos e permitindo a tomada de decisões baseando-se em
dados. Daí sua importância no século 21. Não só retrata os fatos da nossa época, mas motiva o
debate. Visualizar dados governamentais, por exemplo, cria uma imagem do país, mostrando
o que foi feito e o que precisa ser aprimorado, indicando direções a seguir e eventuais enganos
a serem corrigidos ou evitados.
Dois exemplos ocorridos na década de 1850 demonstram o poder que a análise a partir da
visualização de dados pode trazer.
A Guerra da Crimeia, entre 1853 e 1856, envolveu a Rússia e uma aliança entre Inglaterra,
França e o Império Otomano na região do Mar Negro. Uma guerra com os seus traumas,
feridos e mortos, entretanto, dados coletados e tabulados foram transformados em imagens
que causaram uma revolução sanitária nos hospitais do mundo cujos efeitos se fazem sentir
até hoje, com a drástica redução do risco de morte por infecção hospitalar.
Florence Nightingale, uma enfermeira inglesa, utilizou estatísticas sobre a morte de soldados
para pintar um retrato da situação. O gráfico revelou que a maioria dos soldados morria nos
leitos de hospitais, e não nos campos de batalha. Eram dez vezes mais mortes causadas por
tifo, cólera e disenteria do que por ferimentos de batalha. A falta de ar fresco, luz e higiene
nos hospitais provocava milhares de mortes que poderiam ser evitadas. Era a primeira vez que
se observavam fatalidades militares com números, e o diagrama obtido era tão dramático que
o governo inglês decidiu melhorar imediatamente as condições sanitárias dos hospitais
militares, reduzindo a mortalidade de soldados de 42% para 2,2%.
Em 1854, durante um surto de cólera em Londres, o médico John Snow mapeou a localização
dos casos da doença. O Dr. John Snow, contrário à crença da época de que a doença era
causada pelo ar poluído, acreditava em sua transmissão pela água ingerida e, a partir da
visualização dos dados coletados em um mapa, identificou que a maioria dos doentes estava
ao redor de uma bomba de água na Broad Street. A correlação fez com que as autoridades
considerassem a água do poço contaminada. Assim que a bomba da Broad Street foi retirada,
a epidemia acabou.
100
Outro exemplo mais atual data de 2006, quando Al Gore transformou o debate sobre a
questão do aquecimento global, ao subir em um guindaste para mostrar uma curva que
representava o aumento de CO2 e da temperatura mundial. Se Al Gore, em vez de gráficos,
mostrasse apenas uma planilha com dezenas de linhas e colunas e centenas de números,
quantas pessoas perceberiam a gravidade do problema?
3.3.2 Classificação dos modelos e uma análise de contexto
Dada a sua importância, a visualização de dados tem atraído a atenção de pesquisadores
interessados em desenvolver aplicações computacionais melhores buscando compreender as
regras que orientam esses modelos e em quais contextos são utilizados.
Sobre isso, Ribeiro (2009) coloca que as classificações partem da análise das formas visuais
adotadas e dos relacionamentos existentes em um determinado conjunto de dados, citando
Freitas et al. (2001), identifica três necessidades inerentes ao processo de criação de
visualizações:
a) definição de uma representação visual;
b) escolha dos mecanismos de interação necessários para manipular os dados;
c) implementação dos algoritmos.
Além disso, coloca a classificação de visualizações considerando os seguintes aspectos:
a) pelas características dos dados;
b) pela quantidade de dimensões;
c) pelos tipos de relacionamentos;
d) pelos tipos de valores assumidos;
e) pelos tipos de representações visuais;
f) pelos tipos de interações possíveis.
Outras classificações podem levar em consideração os processos de criação, no qual, de forma
simplificada, os dados são submetidos a um processo de filtragem, mapeados pela sua
transcodificação por meio de algoritmos, para finalmente serem mostrados de forma gráfica.
101
Ribeiro, citando Chi (1999), coloca que os dados, desde seu estado bruto até a sua
apresentação gráfica final, passarão por quatro estágios em função de intervenções que podem
ocorrer por três tipos de operações.
Figura 9 - Modelo de Chi para o fluxo de criação de visualizações
Em sua investigação, destacando na Internet e suas interfaces as propriedades de dinâmica, no
sentido da capacidade de atualização dos dados ao longo do tempo e interatividade, para dar
ao usuário a opção de escolher como navegar e utilizar as possibilidades dadas pelo ambiente,
Ribeiro afirma que:
Trata-se, portanto, do palco apropriado para o aprofundamento nos estudos sobre
visualização: por evidenciar o problema do excesso de dados, a Internet se torna o
terreno fértil para o desenvolvimento de pesquisas no campo do design da
informação. A visualização, nesse contexto, apresenta-se como poderoso
instrumento de organização e filtragem do excesso de informações e se populariza
com a expansão da rede (RIBEIRO, 2009).
102
Ribeiro ainda propõe a seguinte classificação para aplicações de visualização na web:
Categoria Definição Exemplo Alguns formatos
usados
Científicas Promovem o conhecimento de um
determinado ramo da ciência. WikiSky Mapas (Espaço)
Ativistas Divulgam e buscam conscientização sobre
uma determinada causa. WikiCrimes Mapas geográficos
Redes
Sociais e
conteúdo
colaborativo
Cruzam e filtram dados gerados a partir de
mensagens e de forma coletiva, gerando
visualizações que permitam compreender a
frequência de participação, distribuição ao
longo do tempo etc. em cada uma dessas
redes.
TweetStats Gráficos de barras e
tag clouds
Busca
Procuram exibir os resultados das pesquisas
de uma maneira diferente da conhecida
listagem textual.
SiloBreaker
Mapa conceitual,
gráficos de linhas,
gráficos de barras
Monitoração
Trata do acompanhamento de um
determinado processo dinâmico,
convertendo dados registráveis em um
padrão visual.
Analytics
Mapas geográficos,
gráficos de linhas, de
barras e de pizza.
Notícias
Buscam organizar as notícias, facilitando a
leitura e filtragem, e assim permitir um
melhor entendimento.
NewsMap Tag Clouds31
Tabela 14 - Resumo das principais categorias de visualização de dados
31 Tags Cloud, ou nuvem de etiquetas, em geral reúne um conjunto de etiquetas utilizadas em um determinado website disposto em ordem alfabética, e a quantidade de conteúdos que o site apresenta em cada etiqueta é mostrado proporcionalmente pelo tamanho da fonte. Dessa forma, em uma mesma interface é possível localizar uma determinada etiqueta tanto pela ordem alfabética como pela frequência da incidência de conteúdos marcados com a mesma etiqueta no referido site. As etiquetas disponibilizadas na nuvem são links que levam a coleções de itens relacionados às palavras da etiqueta.
103
3.3.3 Aplicações de visualização de dados na web
À guisa de exemplo, seguem abaixo resumidamente algumas aplicações em sites que
disponibilizam soluções de visualização de dados consideradas convergentes com o nosso
trabalho, por permitirem a integração de dados com suas visualizações, ressaltando que
existem e surgem outras frequentemente na web.
3.3.3.1 Google public data explorer32
O Google public data explorer, outra ferramenta gratuita da Google, propõe facilitar a tarefa
de explorar, visualizar e comunicar grandes volumes de dados. Como em gráficos e mapas
dinâmicos, as mudanças que ocorrem ao longo do tempo se tornam fáceis de serem percebidas
e compreendidas, permitindo que usuários comuns, sem conhecimento técnico profundo,
possam navegar entre diferentes abordagens e pontos de vista estabelecendo suas
comparações e, por fim, compartilhando suas descobertas.
Uma funcionalidade interessante, que é muito utilizada em outros serviços da Google, está na
possibilidade de incorporar esses dados em gráficos nas páginas dos usuários, permitindo que
os dados sejam atualizados automaticamente ao longo do tempo. Nesse serviço estão
disponíveis alguns conjuntos de dados (data sets) de organismos internacionais, como o
Banco Mundial, o US Census Bureau etc., mas os usuários podem utilizar seus próprios dados
por meio da opção My Datasets, formando o conjunto de dados a ser compartilhado. Abaixo
uma figura que ilustra um exemplo de visualização embutida extraído da página da Google:
32 http://www.google.com/publicdata/home.
104
Figura 10 - Exemplo de visualização de dados no Google public data explorer
(http://www.google.com/publicdata/home)
105
3.3.3.2 Many Eyes33
Na mesma linha do exemplo anterior, porém mais antigo, o Many Eyes também é um site
gratuito, criado por pesquisadores do Visual Communication Lab da IBM, com destaque para
a pesquisadora brasileira Fernanda B. Viegas. Nele os usuários podem fazer uploads de
dados, criar visualizações interativas e abrir discussões e debates com outros participantes do
site. Segundo Viegas et al. (2007), ele tem o objetivo de apoiar a colaboração em torno de
visualizações em grande escala, promovendo uma forma de análise social de dados em
apresentações que não servem apenas como uma ferramenta de descoberta, mas também
como um meio para estimular discussões sobre o tema entre os usuários. Para apoiar esse
objetivo, o site tem funcionalidades que permitem a criação de visualizações e colaboração
assíncrona em torno delas.
Figura 11 - Exemplo de visualização de dados da Bovespa em 2009
(http://www-958.ibm.com/software/data/cognos/manyeyes/visualizations/bovespa-2009-4/comments/32602b6ece7f11deb007000255111976)
33 http://www-958.ibm.com/software/data/cognos/manyeyes/.
106
3.3.3.3 Bime Analytics34
O Bime Analytics é uma ferramenta paga, desenvolvida por uma empresa francesa sediada em
Montpellier, utilizando o conceito de cloud computing. Propõe, segundo seu fabricante, uma
abordagem revolucionária para a análise de dados e dashboards por meio de visualizações
interativas dos dados na web.
Com uma política de comercialização que vai de pequenos times a soluções mais abrangentes
dentro da intranet da organização contratante, a solução oferece um conjunto de
possibilidades mais completas e complexas que as gratuitas da Google e Many Eyes.
Figura 12 - Visualização da distribuição de usuários do Facebook no mundo. (https://newsletter.bimeapp.com/players/dashboard/077077D2E5C3ACE47B43366C09E17404)
34 http://bimeanalytics.com/
107
CAPÍTULO 4
O E-GOV E A PROPOSTA DO PORTAL
4.1 O E-GOV
A humanidade tem experimentado, ao longo dos últimos anos, mudanças significativas –
apesar de gradativas – na sua forma de organização. Isso tem ocorrido por meio de complexas
redes socialmente estruturadas, fruto da disponibilização de novas Tecnologias da Informação
e Comunicação (TICs), cada vez mais acessíveis e disponíveis para as pessoas e empresas em
âmbito mundial, trazendo reflexos importantes no processo de desenvolvimento
socioeconômico das nações, organizações e pessoas.
Dentro do bojo desse processo, um dos reflexos foi a geração de um volume avassalador de
informação e conhecimento, tornando-se importantes fatores que contribuem para a redução
de desigualdades, de agregação de valor, criação de emprego qualificado e de propagação do
bem estar. Segundo Castells,
O problema é que, hoje em dia, as forças produtivas não se medem em toneladas de
aço nem em quilowatts, como diriam Henry Ford ou Lênin, mas na capacidade
inovadora de gerar valor agregado através do conhecimento e da informação. Esse
modelo de crescimento econômico baseado no conhecimento é o mesmo em toda
parte, como foi a industrialização no paradigma de desenvolvimento anterior. Ele
requer o uso de tecnologias de informação e comunicação baseadas na eletrônica,
mas não é resultado da tecnologia: é produto de um conjunto de condições inter-
relacionadas (CASTELLS, 2008).
No contexto da redução das desigualdades, as atuais TICs criam condições para que os
governos divulguem uma quantidade variada e ilimitada de informações às populações que
representam, e essas mesmas TIC’s também possibilitam aos indivíduos que se manifestem
quanto às questões relevantes em suas comunidades, levando-as à atenção dos governos
municipais, estaduais e federal.
Segundo o W3C (2009), desde o final da década de 1990, os governos buscam formas
eficientes de manter contato com seus cidadãos pela Internet. Ao disponibilizar informações
108
do governo online de maneira que sejam fáceis de encontrar, disponíveis, acessíveis,
compreensíveis e utilizáveis, possibilitando uma interação entre o governo e sua população
inimaginável no passado, estabelece-se o conceito de e-Gov ou “governo eletrônico”.
Contudo, explorar tais possibilidades dentro dos sistemas de governo, não importa em qual
cidade, estado ou país, tendem a tornar-se um desafio importante, pois tangencia e até mesmo
colide com aspectos políticos, legais e culturais.
Assim, criar condições para estabelecer um e-Gov exige, dos políticos e burocratas,
disposição e vontade política destinadas a abertura, transparência, colaboração e
conhecimento para usufruir das vantagens oferecidas pela Internet, abrindo uma grande
perspectiva a um diálogo aberto entre o povo e o governo.
Quando se fala de e-Gov, percebe-se que esse relacionamento dos governos com suas
comunidades por intermédio da web pode ser classificado em três tipos distintos: em primeiro
lugar, aqueles que fornecem serviços públicos à população, empresas e outros setores do
governo, disponibilizando serviços ou transações; na interação com a população pela
disponibilização de informações e esclarecimentos sobre seus serviços, por meio de sites de e-
Gov ou de mídias sociais; e, por fim, como infraestrutura para fornecer dados governamentais
abertos, permitindo que usuários e serviços informatizados possam recuperar e trabalhar
dados fornecidos pelo próprio governo.
Este trabalho, apesar de discorrer sobre os dois primeiros tipos em relação ao e-Gov no Brasil,
será focado no terceiro tipo, abordando a questão de Dados Governamentais Abertos (DGA)
ou Open Government Data (OGD), que serão conceituados como informações públicas
governamentais, distribuídas a quem interessar, na forma digital, por meio da web, de maneira
a promover fácil acesso, sua análise, e permitir sua reutilização e apresentação integradas.
Pode-se facilmente identificar motivadores para a adoção de DGA, dos quais destacam-se os
seguintes:
o desenvolvimento de uma comunidade esclarecida e bem informada é essencial para
a formação de um governo representativo;
pré-condição para que sejam eleitos os melhores candidatos nos Legislativos e nos
Executivos nas esferas municipais, estaduais e federal;
essencial para a fiscalização das ações dos governos;
109
mandatório para proporcionar transparência aos serviços públicos;
proporcionar serviços públicos melhores e mais eficientes;
incentivar o uso e reuso de dados dos governos;
atração de investidores nas cidades, estados e no país.
Entre os possíveis benefícios a serem atingidos, pode-se elencar os seguintes:
o inclusão;
o transparência;
o múltiplas visões;
o análise dos resultados;
o reutilização;
o melhoria nas buscas;
o integração dos dados;
o Social Empowerment.
Dentre os benefícios, destaca-se o Social Empowerment ou Empoderamento Social.
Certamente será o que dará sustentação e perenidade aos avanços nesse sentido, fazendo com
que esse seja um caminho sem volta e certamente irá influenciar ações dos governos sobre
onde, como e quando investir, por meio do envolvimento e retorno que espera-se haverá dos
cidadãos, especialmente porque as próximas gerações serão formadas basicamente por
“nativos digitais”, o que aumentará significativamente o nível de exigência pelo e-Gov.
Segundo Pereira (2006), “o empoderamento (social) devolve poder e dignidade a quem
desejar o estatuto de cidadania, e principalmente a liberdade de decidir e controlar seu próprio
destino com responsabilidade e respeito ao outro”.
Ainda sobre e-Gov, vale detalhar as três leis dos dados abertos governamentais e os oito
princípios dos dados abertos governamentais que devem nortear os governos para a adoção do
DGA, detalhados em (W3C, 2011):
Leis dos dados abertos Governamentais:
1. se o dado não pode ser encontrado e indexado na web, ele não existe;
2. se não estiver aberto e disponível em formato compreensível por máquina, ele não
pode ser reaproveitado;
110
3. se algum dispositivo legal não permitir sua reaplicação, ele não é útil.
Oito princípios dos dados abertos governamentais
completos: todos os dados públicos estão disponíveis. Dado público é o dado que não
está sujeito a limitações válidas de privacidade, segurança ou controle de acesso;
primários: os dados são apresentados tais como os coletados na fonte, com o maior
nível possível de granularidade e sem agregação ou modificação;
atuais: os dados são disponibilizados tão rapidamente quanto necessário à preservação
do seu valor;
acessíveis: os dados são disponibilizados para o maior alcance possível de usuários e
para o maior conjunto possível de finalidades;
compreensíveis por máquinas: os dados são razoavelmente estruturados de modo a
possibilitar processamento automatizado;
não-discriminatório: os dados são disponíveis para todos sem exigência de
requerimento ou cadastro;
não-proprietário: os dados são disponíveis em formato sobre o qual nenhuma entidade
detenha controle exclusivo;
livres de licença: os dados não estão sujeitos a nenhuma restrição de direito autoral,
patente, propriedade intelectual ou segredo industrial. Restrições sensatas relacionadas
à privacidade, segurança e privilégios de acesso são permitidas.
Conforme o site www.data.gov, os países que já adotaram a política de Dados
Governamentais Abertos (DGA) estabelecendo a comunicação aberta com os cidadãos pela
web são: Alemanha, Austrália, Canadá, Dinamarca, Espanha, Estônia, EUA, Finlândia,
Grécia, Inglaterra, Irlanda, Itália, Nova Zelândia e Noruega. Pela representatividade política e
econômica que esses países possuem, fica demonstrado ser uma forte tendência, devendo
alcançar os países com governos representativos, ancorados em sistemas democráticos.
4.2 e-Gov NO BRASIL
Quando se fala do e-Gov no Brasil, percebe-se competência por parte da comunidade
tecnológica e científica para vencer grandes desafios, como a apuração eleitoral por meio de
111
urnas eletrônicas, entrega das declarações de imposto de renda pela Internet, a emissão das
notas fiscais eletrônicas tanto em nível municipal como estadual utilizando a Internet e
recursos como arquivos XML, o que possibilita que as informações da NFe sejam integradas a
diversos sistemas computacionais das partes envolvidas, fornecedores, compradores e das
Secretarias de Receitas Municipais e Estaduais, afora outras obrigações fiscais e
previdenciárias transmitidas pela Internet e integradas aos computadores dos sistemas de
arrecadação federal. Por fim, aqueles que oferecem serviços de auto-atendimento, como por
exemplo, agendamentos de atendimento para obtenção de passaporte, agendamentos para
tratar questões previdenciárias etc.
Nos exemplos citados tem-se a percepção de que a motivação e vontade política por essas
realizações se deve, no primeiro caso, a interesses políticos em uma apuração mais rápida e
certa projeção internacional pela inovação tecnológica, e nos demais casos para, pura e
simplesmente, ampliar o espectro de arrecadação reduzindo as possibilidades de sonegação
fiscal e previdenciária, ou ter ganhos em relação ao volume de trabalho burocrático na
administração pública, e nesse caso, também beneficiando ao cidadão com a substituição da
interface pessoal pela eletrônica com ganhos no tempo de resolução de problemas e na
economia dos custos de locomoção, e espera-se que, a médio prazo, com a redução do
tamanho da máquina estatal.
Em que pese a existência da Lei complementar número 131 de 27/05/2009, também chamada
de Lei Capiberibe, em razão do nome de seus autores, a deputada federal Janete Capiberibe e
o Senador João Capiberibe, ambos do Amapá, que obriga a divulgação de dados públicos
pela Internet para os governos nas três esferas de poder, estabelecendo prazos de um a quatro
anos para isso e que alguns órgãos dos governos municipais, estaduais e federais já o fazem,
porém isso ocorre, em geral, sem observar padrões e formatos consagrados e aceitos pela
comunidade que permitam a integração e o processamento por outros sistemas
computacionais. Mesmo a legislação citada não estabelece e sequer menciona qual o formato
em que tais dados devem ser disponibilizados.
Assim, percebe-se no Brasil a tendência em estabelecer um e-Gov voltado somente para
fornecer serviços públicos à comunidade e outros setores do governo (disponibilizando
informações ou transações), porém em formatos destinados apenas à interpretação e
compreensão por seres humanos.
112
Nesse contexto, apenas tangencia o papel de fornecedor de infraestrutura para Dados
Governamentais Abertos (DGA), impedindo que usuários e serviços possam recuperar e
trabalhar dados fornecidos pelo próprio governo. Vale registrar que existem exceções, como
no caso do Banco Central do Brasil35
que, apesar de não disponibilizar dados para serem
extraídos manualmente em formatos consagrados como, por exemplo, o RDF, oferece web
services utilizando como retorno o formato XML para consulta de séries temporais e algumas
ações como a da Secretaria da Segurança Pública do Rio Grande do Sul36
que disponibiliza
para download estatísticas de criminalidade em formado XML, do Tribunal de Contas dos
Municípios do Estado do Ceará 37
e o do Projeto LexML38
que pretende reunir leis, decretos,
acórdãos, súmulas, projetos de leis entre outros documentos das esferas federal, estadual e
municipal dos Poderes Executivo, Legislativo e Judiciário de todo o Brasil, formando uma
rede de informação legislativa e jurídica, visando organizar, integrar e dar acesso às
informações disponibilizadas nos diversos portais de órgãos do governo na Internet, dentro
dos conceitos e tecnologias que envolvem a web semântica e a integração de informações
entre sistemas computacionais.
Também é relevante mencionar algumas ações oriundas da sociedade que trabalham no
sentido de dar acessibilidade à sociedade dos dados abertos disponibilizados pelos governos
das três esferas de poder:
1. Opendata Brasil39
;
2. Comunidade Transparência Hacker (THacker)40
;
3. GT Dados Abertos W3C Brasil41
.
Os itens seguintes tratarão com mais detalhes pontos apresentados nessa introdução utilizando
os resultados da Pesquisa sobre o uso das TICs no Brasil – TIC governo eletrônico – 2010
realizado por CETIC.BR (2010). Aspectos relacionados ao relatório metodológico e perfil da
amostra podem e devem ser obtidos diretamente na obra que está disponível na Internet para
download42
.
35 https://www3.bcb.gov.br/sgspub/JSP/sgsgeral/sgsAjuda.jsp#SA 36 http://www.ssp.rs.gov.br/portal/principal.php?action=estatistica&cod_catestat=33 37 http://api.tcm.ce.gov.br/ 38 http://projeto.lexml.gov.br/ 39 http://opendatabr.org/ 40 http://thacker.com.br/ 41 http://www.w3c.br/GT/GrupoDadosAbertos 42 http://www.cetic.br/tic/egov/2010/index.htm
113
Nessa pesquisa, o CETIC.BR buscou investigar a existência de desalinhamentos entre as
ofertas do governo e a demanda em serviços de e-Gov pela população.
4.2.1 Maneiras de acesso ao e-Gov
Em relação às formas de acessar os serviços prestados pelos governos, por meio dos dados da
pesquisa expostos em quadro abaixo, fica caracterizado que a principal maneira de acesso é a
presencial, não somente pelos 60% da população em geral que assim o fazem, mas também
porque quase a metade de usuários que acessou via web, também o fez presencialmente,
indicando dificuldades na localização dos serviços ou a inexistência do serviço procurado em
sua versão e-Gov.
Outro aspecto relevante é quanto à escolha da tecnologia como mediadora do acesso, ficando
a Internet com 35% e o acesso telefônico com apenas 8%. O acesso telefônico é indicado na
pesquisa como um canal auxiliar de comunicação, estando associado a ele uma percepção
negativa, talvez fruto da imagem negativa dos Call Centers privados.
Quanto aos usuários que acessam a web, o fato de que 73% dos internautas que o fazem a
cada três meses utilizam serviços de e-Gov, enquanto que esse percentual sobe para 80%
quando se tratam de internautas que acessam a web diariamente, o que indica uma relação
entre o domínio desse conhecimento e o uso de serviços por meio de e-Gov, reforçando a
necessidade do governo em desenvolver políticas de inclusão digital que permitam a
apropriação efetiva dessa ferramenta pela população.
Outra forma de acesso identificada pela pesquisa é aquela realizada por outra pessoa,
chegando a 9% da população em geral, e quando se trata da declaração de Imposto de Renda
esse número chega a 22%, estando isso associado à baixa escolaridade e as dificuldades que
as pessoas mais idosas possuem em utilizar esse tipo de ferramenta.
População Geral 81% com 16 anos ou mais usaram ao menos um serviço do governo nos últimos doze meses
60% Utilizaram o acesso presencial
6% Utilizaram também o acesso telefônico
35% Utilizaram o acesso Web
47% Utilizaram também o acesso presencial
11% Utilizaram também o acesso telefônico
114
8% Utilizaram o acesso telefônico
9% Foram auxiliados por outras pessoas
22% Quando se trata de declarar o Imposto de Renda
Internautas * 73% Utilizaram o acesso web
49% Utilizaram o acesso presencial
Internautas ** 80% Utilizaram o acesso web
Tabela 15 - Uso do acesso web x presencial (cidadão).
* ao menos um acesso a web nos últimos 3 meses
** acessos diários à web
Em relação às empresas, nota-se que a forma predominante de acesso é por meio da web, até
mesmo em razão de suas obrigações fiscais e previdenciárias.
Empresas Geral 85% Usaram ao menos um serviço do governo nos últimos 12 meses
22% Utilizaram o acesso presencial
79% Utilizaram o acesso Web
11% Utilizaram o acesso telefônico
Tabela 16 - Uso do acesso tecnológico x presencial (Empresas).
4.2.2 Cenário para o futuro do e-Gov no Brasil
Considerando que 56% da população em geral usaria o e-Gov para um próximo acesso a
serviços de governo, assim comparado aos 35% que declararam já utilizar o e-Gov,
caracteriza-se uma tendência de crescimento. Também é relevante notar alguns pontos da
pesquisa:
a) quem é usuário de e-Gov tende a continuar a utilizá-lo;
b) a tendência de uso do e-Gov para os não usuários é menor, porém isso pode ser
explicado por barreiras e limitadores de acesso que influenciam essa resposta.
c) a propensão ao uso de e-Gov tende a crescer nas faixas de idade menores e a diminuir
nas faixas dos mais velhos;
d) a escolaridade também é determinante em se adotar o e-Gov, crescendo a tendência de
uso conforme aumenta a escolaridade;
População Geral 56% Utilizariam a Internet no próximo acesso
Já usuários ou não de e-Gov
93% Usuários
37% Não usuários
115
Idade
75% 16 a 34 anos
21% 60 anos ou mais
Escolaridade
87% Com Ensino Superior
7% Ensino Fundamental
37% Não utilizariam a Internet no próximo acesso
6% Usuários
54% Não usuários
6% Não sabem se utilizariam a Internet no próximo acesso
1% Usuários
9% Não usuários
Tabela 17 - Quadro de propensão ao uso de e-Gov (cidadão)
Como quase 60% da população em geral declarou-se propensa a fazer propaganda positiva do
e-Gov, recomendando o uso desses serviços para sua rede de contatos, isso indica uma
tendência de proliferação do uso de e-Gov por intermédio da propaganda “boca a boca”.
Nos dados apresentados abaixo também se nota a influência da faixa etária e nível de
escolaridade sobre a decisão de recomendar o uso de serviços e-Gov.
População Geral 59% Recomendariam a amigos o uso de serviços e-Gov
Já usuários ou não de e-Gov
89% Usuários
37% Não usuários
Idade
73% 16 a 34 anos
27% 60 anos ou mais
Escolaridade
87% Com Ensino Superior
7% Ensino fundamental
24% Não recomendariam a amigos o uso de serviços e-Gov
Já usuários ou não de e-Gov
9% Usuários
34% Não usuários
17% Não sabem se recomendariam o uso de serviços e-Gov
Já usuários ou não de e-Gov
2% Usuários
28% Não usuários
Tabela 18 - Nível de recomendação ao uso de e-Gov (cidadão)
Reforçando a percepção de que a divulgação dos serviços ocorre principalmente pelo seu
“network” pessoal, 51% dos usuários de e-Gov afirmaram que tomaram conhecimento dessa
116
oferta por meio de informações de amigos, familiares ou conhecidos, enquanto que 38%
souberam em pesquisas em buscadores na web e 22% por meio da televisão.
Nesse quesito detectou-se que as pessoas de menor escolaridade são mais influenciadas por
sua rede de contatos dos que as com maior nível de ensino formal.
Vale reforçar a necessidade dos governos em investir para garantir a qualidade dos serviços
disponibilizados no ambiente web para que a divulgação realizada pelos seus usuários
continue positiva, devendo-se também investir em outras formas de divulgação para tornar o
e-Gov amplamente conhecido pela população.
População Geral Como soube sobre a oferta de serviços e-Gov que utilizou?
51% Network pessoal (amigos, familiares e conhecidos)
Escolaridade
43% Superior
48% Ensino Médio
58% Fundamental
86% Infantil
38% Busca ou pesquisa na Internet
22% Televisão
5% Anúncios ou folhetos em agências ou órgãos do governo
5% Atuação profissional
Tabela 19 - Formas de contato inicial com ofertas do e-Gov (cidadão)
Quanto ao nível de satisfação pelos serviços prestados pelo governo, percebe-se que a
população tem uma percepção de boa qualidade. Porém, ao se destacar apenas aqueles que
estão muito satisfeitos, os resultados sugerem uma baixa expectativa da população em relação
aos serviços oferecidos pelo governo, podendo ser fruto do distanciamento da população com
o serviço público causado pela baixa confiança na instituição “governo”. Assim, o governo
deve buscar aumentar o número de usuários muito satisfeitos e principalmente reverter o nível
de confiança da população pela sua instituição.
População Geral 85% Satisfeito ou muito satisfeito com os serviços utilizados
8% Muito satisfeito com os serviços utilizados
77% Satisfeito com os serviços utilizados
Quanto aos serviços oferecidos de e-Gov
Usuário e-Gov 91% Satisfeito ou muito satisfeito com os serviços e-Gov
13% Muito satisfeito com os serviços utilizados
78% Satisfeito com os serviços utilizados
Tabela 20 - Nível de satisfação com os serviços e-Gov (cidadão).
117
População Geral Nível de Confiança na instituição “governo”
13% Confiam muito
53% Confiam pouco
34% Não confiam
Tabela 21 - Nível de confiança no governo (cidadão)
Entre as empresas, o uso do e-Gov é alto, com elevado nível de satisfação, o que aumenta a
propensão em recomendá-los e a voltar a utilizá-los.
Empresas Geral 95% Satisfeito ou muito satisfeito com os serviços de e-Gov usados
91% Recomendariam os serviços de e-Gov
96% Propensos a utilizar no futuro
62% Provavelmente utilizarão no futuro
Tabela 22 - Nível de satisfação com os serviços e-Gov (empresas)
No quadro abaixo, nota-se um nível de concordância maior para os usuários de e-Gov
provavelmente refletindo o seu maior conhecimento dessa tecnologia.
Quanto à participação da população, percebe-se interesse em participação ativa na formulação
dessas políticas públicas e na melhora do conhecimento e domínio sobre a ferramenta, bem
como em participar ativamente nas decisões que afetem também a sua comunidade.
Quanto à percepção dos benefícios alcançados pelo e-Gov, nota-se a compreensão de que a
sua existência facilita a vida das pessoas, que se obtêm resultados mais rápidos que
pessoalmente e que também reduz custos para o governo.
Outro aspecto importante é a percepção da falta de divulgação pelo governo dos serviços
disponibilizados em e-Gov.
Quanto às questões de segurança, nota-se, em níveis semelhantes, que as pessoas têm receio
de oferecer seus dados pessoais, seja diretamente ao governo ou por meio da Internet,
indicando que o governo deve investir em tecnologia e propaganda que dêem aos usuários dos
seus serviços a necessária percepção de segurança.
118
População
Geral
Usuários
e-Gov
O governo deve ensinar as pessoas a utilizarem os serviços públicos pela
Internet 85% 92%
O governo deve consultar os cidadãos para decidir quais serviços
públicos precisam ser oferecidos pela Internet 80% 91%
A existência de serviços públicos pela Internet facilita a vida das pessoas 77% 92%
Falta divulgação sobre os serviços de governo oferecidos pela Internet 76% 84%
Serviços de governo pela Internet dão às pessoas resultados mais rápidos do que pessoalmente
67% 87%
A oferta de serviços públicos pela Internet é vantajosa para o governo, porque reduz custos
67% 83%
Eu gostaria de me envolver mais ativamente nas decisões que afetam a
comunidade/bairro onde eu vivo 65% 71%
Eu me sinto seguro(a) colocando informações pessoais, como CPF e RG,
em sites do governo 26% 29%
Eu me sinto seguro(a) colocando informações pessoais como CPF e RG
na Internet 22% 30%
Tabela 23 - Avaliações positivas sobre a prestação de serviços do governo (cidadão)
Aspectos relacionados aos sites de e-Gov foram avaliados e percebe-se que a população
entende ser fácil encontrá-los (80% de concordância). Possivelmente, o uso de mecanismos de
buscas cada vez mais eficientes contribuiu para essa resposta.
Quanto à experiência de uso dos sites, a pesquisa indica ser positiva, pois os usuários
entendem que possuem conteúdo relevante (82% de concordância), com clareza no conteúdo
e facilidade na navegação (78% de concordância). Essas respostas indicam que os sites são
organizados e bem estruturados proporcionando uma boa navegação. Além disso, parecem ter
bom funcionamento, uma vez que apenas 19% dos usuários de e-Gov afirmaram ter
encontrado algum problema ao acessá-los, em contrapartida aos 79% que não se queixaram de
nenhum problema.
Os que indicaram problemas no acesso, os detalharam conforme quadro a seguir, revelando
oportunidades de melhorias nos serviços e-Gov:
119
Problemas
encontrados
Principal
problema
encontrado
Demora a carregar páginas 59% 34%
Não encontro a informação desejada 48% 29%
Não encontro o serviço desejado 35% 10%
Muito conteúdo que não é do meu interesse 35% 9%
Excesso de informação na página inicial 27% 9%
Tabela 24 - Problemas encontrados em sites do governo
Como foi visto nesse item, o cenário para o futuro do e-Gov no Brasil é muito positivo,
oferecendo uma demanda reprimida por esse tipo de serviço, um público que gostaria de usá-
los e influenciar em sua elaboração, além de diversas oportunidades de melhoria e
crescimento.
4.2.3 Qualificação do uso do e-Gov
Analisando o quadro abaixo, percebe-se que os sites de e-Gov no Brasil, para a população,
servem principalmente como fornecedores de informações, já que 90% dos usuários do e-Gov
o fizeram com essa intenção, mesmo considerando que 51% também realizaram transações.
Constata-se, assim, essa aplicação mais consultiva e menos transacional.
Usuários de e-Gov
90% Realizaram buscas de informações
39% Realizaram apenas busca de informações
51% Realizaram busca de informações e transações
61% Realizaram transações
10% Realizaram apenas transações
51% Realizaram busca de informações e transações
Tabela 25 - Uso de serviço e-Gov por categoria (Buscas e/ou transações)
Quando se refere às empresas, esse quadro se inverte, estando as transações em 100% dos
acessos, enquanto que a busca por informações ocorreu em 88%. Esse quadro provavelmente
é influenciado pelo uso cada vez maior das TIC’s no setor público, na busca de melhor
120
desempenho, controle e eficiência, não só no aspecto redução de custos operacionais, mas
também na busca da redução de sonegação e evasão fiscal.
Comprovando a hipótese do uso incipiente do e-Gov no Brasil, existe o fato de que 29%,
quase 1/3 dos usuários de e-Gov, utilizou apenas um serviço em doze meses, e que a metade
(50%) usou apenas dois serviços. Quando se fala de empresas, esse quadro novamente se
inverte, com mais da metade delas (56%) utilizando até seis serviços nos últimos doze meses.
Figura 13 - Número máximo de serviços e-Gov utilizados (Fonte: CETIC.BR, 2010, p. 36)
Como colocado em CETIC.BR (2010, p. 36), apoiados nesses números, pode-se concluir
que o e-Gov no Brasil se concentra na simples busca de informações, sendo necessárias
ações para ampliar o nível de sofisticação dos serviços públicos eletrônicos – sem isso, não
se aproveita plenamente o potencial transformador das TIC’s, não gerando os benefícios
esperados pela população e pelo Estado.
4.2.4 Limitadores ao uso do e-Gov
Dentre os dados apresentados no gráfico a seguir, a questão da segurança e proteção de dados
pessoais se destaca entre os fatores limitadores ao uso do e-Gov, com 39% de concordância;
121
segundo o CETIC.BR (2010, p. 37), não se pode afirmar se esse grupo realmente vivenciou
um incidente de segurança, porém fica perceptível a falta de informações sobre questões de
segurança, resultando em um sentimento de medo e desconfiança no uso da Internet mesmo
entre os não usuários do e-Gov. A partir disso o governo, além de oferecer interfaces seguras,
deve informar aos cidadãos as medidas e os procedimentos de segurança utilizados em seus
sites e aplicativos. Além disso, deve-se enfrentar a falta de confiança da população na
instituição governo – o que reflete na desconfiança por parte da população no uso que pode
ser dado às suas informações pessoais, somando-se a isso a impessoalidade da Internet que
impede a “identificação do funcionário” que fez o atendimento.
Aspectos técnicos também foram apontados, envolvendo a tecnologia usada,
congestionamentos, dificuldades no acesso, indisponibilidade dos serviços, conexões lentas,
quedas de sinal e interrupções nas transmissões de dados.
Outro ponto colocado pela substituição da interface humana pela digital é a falta de um
comprovante que dê garantias de que a operação foi bem sucedida, o que ressalta mais uma
vez a questão da falta de confiança dos usuários na instituição governo.
Aspectos que envolvem a qualidade dos serviços oferecidos pelo e-Gov são notados nos
fatores limitadores com maior nível de concordância:
29% - “Os serviços de que eu preciso são difíceis de encontrar”;
28% - “Dificilmente recebo retorno (resposta) às minhas solicitações”;
23% - “Os serviços de que eu preciso estão disponíveis na Internet, mas não é
possível completar a transação”;
21% - “Na Internet não tenho confirmação de que o pedido chegou e que será
processado”;
21% - “Usar a Internet para contato com o governo é muito complicado”.
Mesmo considerando a percepção positiva que as pessoas demonstram em relação aos
serviços de e-Gov, com uma alta taxa de recomendação e satisfação, percebe-se nos pontos
colocados acima que existem muitas oportunidades de melhoria na qualidade e variedade dos
serviços oferecidos, por meio de serviços fáceis de usar e de encontrar, eficazes, funcionais,
que sejam transparentes e permitam o seu acompanhamento em todas as suas etapas.
122
Nessa direção, quando questionados sobre quais aspectos o governo deveria levar em conta na
construção de sites, sobressaíram os pontos relacionados à qualidade no serviço:
62% - “a clareza da linguagem, sem siglas desconhecidas ou palavras que não
conheço”;
56% - “a facilidade de usar e encontrar exatamente o que procuro”;
Para esse grupo, que percebe as vantagens da Internet em relação ao acesso presencial, é de
grande importância garantir a efetividade do seu uso, fazendo com que todas as suas
demandas sejam atendidas pela via digital, possibilitando que o e-Gov se consolide como
forma de acesso a qualquer serviço, independentemente de sua natureza ou complexidade.
Outros fatores limitadores importantes são a propriedade de computador e disponibilidade de
acesso à Internet no domicílio, já que estão associados ao uso mais frequente da Internet,
trazendo habilidade e familiaridade com seu uso, implicando em um aumento de confiança, o
que poderia afetar as respostas da questão sobre segurança e proteção de dados pessoais.
Entre as empresas, além da maioria já utilizar o e-Gov há mais de três anos (62%), existe a
necessidade de se instalar aspectos competitivos tornando o uso dos serviços eletrônicos,
envolvendo governo, bancos, clientes ou fornecedores uma prática recorrente. A confiança
está presente nessas operações e em algumas organizações uma parte significativa das
transações ocorre pelo meio eletrônico.
Algumas vantagens são destacadas pelo usuário da empresa, como a agilidade, a economia de
tempo, redução de custos e autonomia que é possível alcançar utilizando o e-Gov.
No que tange à segurança, o usuário da empresa, ao contrário dos cidadãos, ressalta o registro
e a consistência das informações, além da possibilidade de poder obter e imprimir
informações confirmando a transação, sendo uma vantagem destacada principalmente quando
há o contraponto com o atendimento telefônico.
O uso do e-Gov traz segurança e credibilidade na conduta profissional e pública por reduzir a
margem de manobra, tanto da fiscalização como por parte dos contratantes, por exemplo, no
caso das compras governamentais com ferramentas como o pregão eletrônico.
123
Entre as empresas, as maiores dificuldades citadas dizem respeito a pontos que envolvem
questões de qualidade do serviço e de segurança de informação:
48% - “Os serviços de que a empresa precisa são difíceis de encontrar”;
31% - “Na Internet, não há confirmação de que o pedido chegou e que vai ser
processado”;
31% - “Por preocupação com a proteção e a segurança dos dados da empresa”;
26% - “Usar a Internet para contato com o governo é muito complicado”.
Figura 14 - Fatores limitadores ao uso de serviços de e-Gov (Fonte: CETIC.BR, 2010, p. 37)
4.2.5 Barreiras ao uso do e-Gov
As barreiras ao uso do e-Gov mais citadas foram as seguintes:
124
48% - “Prefiro ser atendido por uma pessoa frente a frente”;
48% - “Não sei usar o computador muito bem”;
43% - “Não tenho computador”;
36% - “Não tenho acesso à Internet em casa”.
A proximidade entre a preferência pelo atendimento presencial e barreiras relacionadas à falta
de acesso à Internet, a não propriedade de computador e a falta de habilidade em seu uso
mostram a existência de uma relação entre o domínio das habilidades e o uso do governo
eletrônico.
Provavelmente, a preferência pela forma presencial surja como uma solução a essas
deficiências; além disso, pode faltar confiança do cidadão em sua capacidade de resolver as
questões de sua relação com o governo.
O constrangimento pela falta de conhecimento e habilidade no uso dos recursos
computacionais, especialmente detectado nas faixas etárias mais altas, levam essas pessoas a
preferir o acesso presencial justificando com a falta de interesse, tempo e paciência para esse
aprendizado. Há que se destacar o papel desempenhado pelos mais jovens em suas famílias no
que se refere ao auxílio nos assuntos que envolvem questões eletrônico-digitais.
Dificuldades na navegação, na compreensão, na interação com os sites e links também são
mencionados, acrescentando ainda relatos de problemas quanto à complexidade para chega-
rem onde desejam: abertura e preenchimento de inúmeras guias, caminhos longos e
complexos, o que cria a necessidade da ajuda de terceiros. A falta de informação e habilidades
do usuário podem contribuir para tal queixa, porém é interessante notar que isso sugere que a
linguagem dos sites de serviços públicos ainda é complicada e de difícil entendimento para os
usuários em geral.
Os pontos envolvendo a posse do computador e o acesso à Internet já encontram amparo em
políticas públicas. A partir dessa análise, é possível afirmar que algumas intervenções são
necessárias para garantir o acesso da população ao e-Gov como principal forma de acesso a
esses serviços, gerando resultados que melhorem suas vidas e simplifiquem o acesso a direitos
e obrigações por parte das empresas.
125
Figura 15 - Barreiras ao uso de serviços de e-Gov (Fonte: CETIC.BR, 2010, p. 41)
4.2.6 Desafios ao e-Gov
Conforme citado em CETIC.BR:
A premissa fundamental do governo eletrônico são as necessidades e os desejos do
cidadão estarem refletidos na formulação das ofertas de serviços. O uso de novas
tecnologias para a transformação dos processos internos governamentais,
modernização dos instrumentos de gestão e entrega de serviços públicos pelas
agências governamentais deixou de ser uma opção e tornou-se condição essencial
para mudar o paradigma de eficiência do setor público que passou a ser o de criar
um governo que trabalhe melhor, custe menos e focalize o cidadão (CETIC.BR,
2010, p. 43).
Dentro dessa linha, o trabalho de pesquisa realizado pelo CETIC.BR (2010) buscou
compreender se os anseios do cidadão refletem-se nos serviços de governo eletrônico
126
disponibilizados, e quais são as oportunidades para sua melhoria, com base na premissa
fundamental de foco no cidadão.
Nesse trabalho foram identificados pontos relevantes para essa análise:
desconhecimento da extensão de serviços já disponibilizados em e-Gov;
33% não souberam responder quais serviços deveriam ser disponibilizados e 54%
responderam que não haviam serviços a serem disponibilizados via web;
quando informados sobre o repertório de serviços oferecidos, consideraram-no vasto e
útil, maior do que previamente imaginado;
altos indicadores de satisfação, recomendação e propensão ao uso.
A partir disso, seria lícito supor que o e-Gov brasileiro atende amplamente as necessidades e
anseios do cidadão, que estaria satisfeito com a qualidade desses serviços, porém existem
indícios que contradizem essa conclusão, como os fatores limitadores de uso e as barreiras ao
não-usuário.
A princípio, o uso do e-Gov mostrou-se superficial e focado na busca de informações, no uso
de poucos serviços e na baixa frequência, predominando o acesso presencial aos serviços do
governo. Diante disso, surge a questão: Como é possível que altas taxas de satisfação,
recomendação e propensão ao uso não sejam convertidas em uma apropriação completa da
ferramenta, em um nível semelhante ao alcançado no relacionamento governo-empresa?
A resposta a essa questão deve levar em consideração os seguintes elementos contextuais da
sociedade brasileira:
a compreensão do indivíduo acerca da questão da cidadania;
a comunicação estado-sociedade.
Os resultados da pesquisa demonstram que a relação governo-cidadão transforma-se em uma
relação de mão única, com os participantes não sendo pró-ativos, não se percebendo como
agentes do processo, culminado em uma postura passiva, abdicando do exercício pleno de
cidadania. Como citado em CETIC.BR (2010, p. 45): “O cidadão não participante do processo
social espera que o governo forneça as soluções, não se informa a respeito da esfera pública, e
não acredita que possa influenciar o processo de maneira significativa”.
127
O quadro abaixo em seus números demonstra o referido acima, reforçando que ao abrir mão
de sua participação em causas de ordem pública, o cidadão esvazia o seu papel na sociedade,
reduzindo sua relação com o governo a uma troca mínima de direitos e deveres, sendo que
nesse contexto, o cidadão talvez não conheça de fato os seus direitos. Esse cenário explica a
baixa expectativa sobre os serviços oferecidos de e-Gov, o que provavelmente favoreceu os
seus altos índices de aprovação.
Essa avaliação explica a contradição entre o cenário positivo para o uso do e-Gov e o seu uso
incipiente, bem abaixo do seu real potencial.
Influência percebida pelos cidadãos em questões de ordem pública
12% Participam em associações, condomínios, audiências públicas e sindicatos
Por região
21% Norte (maior índice percentual)
8% Centro-Oeste (menor índice percentual)
Por faixa etária
19% 45 a 49 anos (maior índice percentual)
7% 16 a 24 anos (menor índice percentual)
18% Já se engajaram para resolver problemas em suas comunidades
Por faixa etária
28% 45 a 49 anos (maior índice percentual)
11% 16 a 24 anos (menor índice percentual)
Nível de influência que as pessoas podem ter nas decisões de seus municípios
22% Muita influência
25% Influência moderada
32% Pouca influência
17% Nenhuma influência
Nível de informação acerca das ações do governo
50% São pouco ou nada informados (maior índice percentual)
4% Bem informados (menor índice percentual)
Tabela 26 - Influência percebida pelos cidadãos em questões de ordem pública
Quando se trata da comunicação Estado-sociedade, especificamente sobre e-Gov, percebem-
se problemas face ao baixo nível de conhecimento sobre os serviços disponibilizados. Pouco
mais da metade da população sabe que existem serviços do governo disponíveis na Internet e
42% desconhecia completamente essa informação.
128
Quanto aos canais de comunicação, foram mencionados, além das ações mais tradicionais
como em campanhas em canal aberto, até em formatos diferenciados como merchandising
social, jornalismo comunitário, folhetos e cartilhas, artigos em jornais de grande circulação e
gratuitos, além de informativos em boletos de impostos e contas de concessionários de
serviços públicos, como água e luz.
Ações em mídias sociais também foram mencionadas e incentivadas pelos entrevistados e
assim investigou-se também a penetração desses meios entre os entrevistados:
Penetração das mídias sociais (ao menos um acesso nos últimos 3 meses)
População
Geral
Usuários
do e-Gov
Não usuários
do e-Gov
79% 72% 82% Orkut
77% 74% 68% MSN
60% 54% 49% YouTube
18% 18% 14% Blogs
17% 15% 13% Twitter
11% 10% 7% Facebook
Tabela 27 - Penetração das mídias sociais (ao menos um acesso nos últimos 3 meses)
Sobre a retenção das informações nas comunicações Estado-sociedade, conforme o quadro
abaixo, percebe-se que metade da população não se recorda de qualquer propaganda enquanto
que da outra metade, apenas 14% se lembram de propaganda que abordava alguma explicação
sobre um serviço ou programa do governo, indicando que o foco das comunicações Estado-
sociedade está voltado para a divulgação de obras ou serviços em andamento ou sendo
entregues, dando um beneficio menor para a população comparativamente à comunicação
voltada para explicações e orientações, sendo provável que esteja pautada no pressuposto de
que quanto mais o governo falar de suas obras e serviços, maior será o seu nível de aceitação
e popularidade, podendo o baixo conhecimento dos serviços de e-Gov estar relacionado em
certa medida a essa orientação do governo.
129
Lembrança das peças publicitárias do governo
48% Recordam-se de alguma propaganda sobre programas ou serviços do governo
38% Relacionadas à divulgação da existência de uma obra ou serviço
30% Relacionadas aos resultados de uma obra ou serviço que está sendo entregue
14% Disseram ser uma novidade que o governo estava lançando
14% Disseram que se tratava de uma explicação sobre um serviço ou programa
50% Não se lembram de qualquer propaganda sobre programas ou serviços do governo
Tabela 28 - Lembrança das peças publicitárias do governo
4.2.7 Oportunidades de melhorias e novos serviços
Partindo-se da premissa fundamental de que o governo eletrônico deve estar centrado no
cidadão, existem algumas linhas de ação a ser consideradas para o desenvolvimento do
governo eletrônico no Brasil.
Simplicidade e inclusão: As aplicações do e-Gov devem ser simples, intuitivas e, por que não,
lúdicas, sempre com o propósito de favorecerem aqueles com poucas habilidades e
familiaridade com a Internet. Nessa linha devem-se considerar as aplicações voltadas às redes
sociais, em especial os sites de relacionamentos, uma mídia importante pelo seu caráter
amplamente inclusivo, tanto para as camadas mais desfavorecidas da população, quanto para
as pessoas com níveis de escolaridade menores, além de alcançarem indivíduos em todas as
faixas do espectro etário, de crianças até os mais idosos.
Qualidade dos Serviços: Nessa linha de ação as questões relacionadas com a segurança das
informações, desempenho das aplicações, infraestrutura de sistemas, clareza na linguagem,
objetividade dos portais e a criação de canais auxiliares de apoio (telefone, e-mail etc.) são
oportunidades de melhoria que, além de modernizá-lo, atribuirão maior qualidade aos serviços
oferecidos, preparando o e-Gov para os desafios da inclusão. Paralelamente, a adoção mais
intensa de certificados digitais, smart cards ou outros dispositivos que aumentem os níveis de
segurança durante a navegação e a realização dos serviços aumentará a percepção do cidadão
quanto à melhoria na qualidade dos serviços, reduzindo fatores limitadores e barreiras ao uso.
Disponibilizar novos serviços: A partir das demandas identificadas junto aos usuários, criar
novos serviços e funcionalidades, focando em alguns pontos como a área de Saúde, com
130
serviços de agendamento de consultas e perícias, divulgação de endereços de postos,
disponibilidade de serviços médicos e afins, além de queixas relacionadas ao atendimento
público. Outro ponto bem citado está relacionado à emissão de documentos, como certidão de
nascimento, RG, e título de eleitor, além de serviços de recolocação de trabalho, com ofertas
de emprego, o que na percepção do cidadão ainda é insuficiente.
Comunicação: Nesse quesito, dois pontos chamam a atenção: o primeiro está relacionado ao
desconhecimento das pessoas sobre os serviços de e-Gov. O segundo ponto está relacionado
ao cenário positivo para o e-Gov em razão dos altos índices de aprovação, recomendação e
propensão ao uso. A combinação desses dois pontos sugere uma demanda reprimida,
indicando que, uma vez vencida a barreira do desconhecimento, o cenário positivo ao e-Gov
alavancará a apropriação dessa ferramenta por parte do cidadão.
Outra questão relevante é a fixação das mensagens publicitárias e o foco que elas possuem
que, como visto em item anterior, está direcionado para a divulgação de obras ou serviços em
andamento ou sendo entregues. Além disso, do grupo entrevistado, apenas 14% lembraram de
alguma mensagem com conteúdo explicativo ou de orientação, some-se a isso que quando se
questionou quais conteúdos deveriam ser priorizados nos sites do governo, foram indicados
como os mais relevantes: explicações sobre os direitos, com 83% de concordância, e como
utilizar os serviços, com 81% de concordância, demonstrando que as informações mais
desejadas pelo cidadão não estão sendo transmitidas pelo governo.
As mídias de comunicação mais tradicionais, como a televisão, são bem citadas pelos
entrevistados. Porém, o desejo do cidadão indica para uma comunicação educativa,
detalhando o que e como fazer e não apenas expositiva, mostrando o que foi feito e o que vai
ser lançado e considerando a presença do cidadão nas novas mídias sociais e sites de
relacionamentos, o que favorece a adoção de estratégias de comunicação que privilegiem um
modelo participativo e de construção conjunta do conhecimento, inclusive levando o cidadão
a se envolver mais em questões da esfera pública.
Educação: Percebe-se ao longo dos itens anteriores deste capítulo que o cidadão com maior
nível educacional apropria-se mais fácil e rapidamente das novas tecnologias que envolvem a
Internet, ganhando autonomia e se emancipando para estabelecer seus relacionamentos,
dentre eles a sua relação com o governo e sua participação nas questões de ordem pública.
Nessa linha, é lícito supor que isso aproximaria o cidadão da esfera pública, de forma que por
131
si só pudesse compreender a dimensão dos seus direitos e deveres, e o seu papel relevante no
processo de elaboração de políticas públicas do governo. Em resumo, o que se pretende com
isso é a consolidação da cidadania.
4.3 O PORTAL
4.3.1 Ética, legalidade e respeito
Ao introduzir-se a proposta de portal, dada a sua importância, deve ser abordada a questão de
ética, legalidade e respeito, e discorrer sobre alguns conceitos e como serão tratados nessa
proposta de Portal.
Quando se fala em captura de dados na Internet para a formação de um banco de dados a ser
compartilhado de forma livre e gratuita, é preciso estar atentos a uma série de aspectos para
que direitos como a privacidade, autoria e permissão para sua reprodução e tratamento sejam
observados.
Neste trabalho se propõe o uso de três modos para a coleta de dados na web: web services,
API’s e scraping43
.
Quando se trata de web services ou API’s, em tese existe a concordância explícita, mesmo que
não formal, de acesso, captura e tratamento das informações dos sites que as detêm pela
própria disponibilização desses serviços que, por métodos e protocolos previamente definidos,
entregam tais dados a quem os solicitar.
Porém quando se trata de scraping, vai-se a uma área cinzenta na qual se pode violar o direito
à privacidade das pessoas ou organizações. Apesar de existir o entendimento de que o simples
fato de a pessoa ou organização demonstrar algum interesse em divulgar tais informações
eliminaria a violação ao seu direito à privacidade, deve-se observar que tais dados podem ter
algum contexto coletivo e que poderiam, se divulgados, prejudicar os interesses de terceiros.
Sobre isso, Patrícia Peck (apud PINHEIRO, 2007, p. 44), diz:
43 Técnica de captura de dados que utiliza agentes de software para ler as páginas dos sites e, a partir disso, extrair ou “raspar” os dados que desejar.
132
É evidente que o direito à privacidade constitui um limite natural ao direito à
informação. No entanto, não há lesão a direito se houver consentimento, mesmo que
implícito, na hipótese em que a pessoa demonstra de algum modo interesse em
divulgar aspectos da própria vida. Assim como há limites naturais ao direito à
privacidade quando atinge interesses coletivos. Nesse caso, a predominância do
interesse coletivo sobre o particular requer verificação caso a caso.
Vale registrar, segundo Doneda (2009), que existem no Brasil alguns mecanismos legais para
a proteção de dados pessoais refletidos na Constituição de 1988, na Lei de Habeas Data de
1997 e no Código de Defesa do Consumidor de 1990.
Outro importante item a ser observado é a questão dos direitos autorais. O fato de uma obra
estar na web não implica que ela esteja em domínio público. A disponibilização de uma obra –
seja ela artística, literária ou científica – em um website para fins de promoção, divulgação e
disseminação, ainda a mantêm, inclusive o site, como uma obra protegida pela legislação
brasileira que regula direitos autorais. Sobre a questão, Gustavo Testa (apud CORRÊA, 2008,
p. 27) se manifesta da seguinte forma:
Então, a construção de uma página na Internet, objetivando a divulgação e
disseminação de trabalho artístico, literário ou científico, próprio e original, com ou
sem cunho oneroso, seria uma verdadeira obra, protegida pela Lei de Direitos
Autorais, culminando em uma série de direitos patrimoniais e morais ao respectivo
autor. O ato de construir e colocar uma página na Internet não significa abrir mão de
direitos autorais; somente sua manifestação inequívoca nesse sentido teria o condão
de torná-la pública.
Ainda neste tema, Patrícia Peck (apud PINHEIRO, 2007, p. 91) se posiciona na mesma linha
quando afirma que:
É importante destacar que o acesso a dados lançados na rede não os torna de
domínio público, não outorgando ao usuário o direito de dispor deles da forma que
lhe aprouver. Estando ou não na forma digital, o Direito deve proteger a criação
humana, o direito imaterial. Mas a falta de controle e coerção permite que aconteça
na web o que já ocorre em relação à cópia xerox de livros, só que em dimensão
muito maior. Essas violações constantes prejudicam não só o autor como,
principalmente, o próprio Direito, que fica desmoralizado diante dos infratores e de
toda a sociedade. Toda conduta delituosa com alto grau de assiduidade leva ao
descrédito da norma jurídica a que se refere.
Mesmo com os entendimentos acima, ainda pairam dúvidas e questões sobre o tema dos
direitos autorais quando falamos em Internet, que tem em seu DNA o fato de ser uma rede de
compartilhamento de dados e assim, utilizá-la, segundo alguns, já seria uma autorização
tácita, no mínimo pelo conhecimento geral que haveria, quase que certamente, a ampla
propagação da obra disponibilizada.
133
Este trabalho, visando critérios de respeito legal e ético, pretende lançar mão de um processo
de road map que irá determinar, além de quais inovações serão implementadas no portal,
também analisar, caso a caso, quais novas séries e dados serão integrados ao acervo do portal,
observando:
reputação e credibilidade da fonte que disponibilizou o dado na web para garantir sua
qualidade e o direito a sua publicação pela fonte original;
avaliar se a publicação de tal informação não trará prejuízos a terceiros;
buscar autorização, explícita ou implícita para captura e tratamento dessas
informações.
Além disso, será observada a publicação dos créditos pela informação, citando a sua fonte,
autoria, forma de coleta, e outros dados de forma análoga às referências ao uso de uma obra
literária.
Concluindo, vale registrar que estão em andamento, em diferentes estágios de
desenvolvimento, legislações que pretendem propor a regulamentação de temas de alto
interesse para a sociedade, associados ao uso de serviços e da capacidade de disseminação de
informações pela Internet, da publicação de dados abertos governamentais, estabelecendo
direitos e obrigações, tipificando crimes cibernéticos e determinando penas para esses crimes:
a) Marco Civil da Internet44
– Propõe estabelecer direitos e deveres fundamentais
relativos ao uso da Internet no Brasil e determinar as diretrizes para atuação da União,
dos Estados, do Distrito Federal e dos Municípios em relação à matéria. A disciplina
do uso da Internet no Brasil terá como fundamentos o reconhecimento do alcance
global da Internet, o exercício da cidadania em meios digitais, os direitos humanos, a
pluralidade, a diversidade, a abertura, a livre iniciativa, a livre concorrência e a
colaboração, e observará os seguintes princípios:
garantia da liberdade de expressão, comunicação e manifestação de
pensamento;
proteção da privacidade;
proteção dos dados pessoais;
preservação e garantia da neutralidade da rede;
44 http://culturadigital.br/marcocivil
134
preservação da estabilidade, segurança e funcionalidade da rede, por meio de
medidas técnicas compatíveis com os padrões internacionais e pelo estímulo ao
uso de boas práticas;
preservação da natureza participativa da rede.
Esse anteprojeto de Lei elaborado pelo Ministério da Justiça foi objeto de debate
público e deverá ser enviado ao Congresso Nacional para votação em meados do
segundo semestre deste ano.
b) Lei para Proteção de Dados Pessoais 45
– A partir de uma iniciativa do Ministério da
Justiça (MJ) e em parceria com o Centro de Tecnologia e Sociedade da Fundação
Getúlio Vargas do Rio de Janeiro (CTS/FGV-Rio), está em consulta pública esse
anteprojeto de Lei que visa propor a base normativa para o tratamento de dados
pessoais, proporcionando melhorias e inovações sobre a privacidade e proteção de
dados em atividades ligadas à Internet. Sobressaindo-se temas como o monitoramento
online, a interconexão entre bancos de dados, o papel e a competência da autoridade
de garantia, o tratamento, a gestão e a segurança dos dados pessoais coletados, dentre
outros.
c) Projeto de Lei 84/1999 ou Lei Azeredo46
– De autoria do ex-Deputado Luiz Piauhylino
(PE), foi apresentada em 24/02/1999 e tem como seu atual relator o Deputado Eduardo
Azeredo (MG). Esse projeto de Lei propõe tipificar condutas realizadas mediante uso
de sistema eletrônico, digital ou similares, de rede de computadores, ou que sejam
praticadas contra rede de computadores, dispositivos de comunicação ou sistemas
informatizados e similares, versando sobre pontos como, por exemplo, o tempo de
retenção e guarda dos dados de acessos pelos provedores de internet e a criminalização
de compartilhamento de arquivos.
d) Projeto de Lei 41/2010 ou Lei Geral de Acesso à Informação47
– De autoria do
Deputado Reginaldo Lopes (MG), esse Projeto de Lei estabelece procedimentos a
serem observados pelos órgãos públicos, em todas as esferas de poder, para garantir o
acesso à informação previsto na Constituição Federal (artigo 5o. inciso XXXIII e
artigo 37o.). Se aprovado na sua forma atual, esse projeto poderá ser um divisor de
45 http://culturadigital.br/dadospessoais/ 46 http://www.safernet.org.br/site/institucional/projetos/obsleg/pl-azeredo 47http://www.senado.gov.br/atividade/materia/Consulta.asp?STR_TIPO=PLC&TXT_NUM=41&TXT_ANO=2010&Tipo_Cons=6&IND_COMPL=&FlagTot=1.
135
águas quanto à disponibilização de dados abertos públicos pela inclusão dos Oito
princípios dos dados abertos governamentais48
em seu texto, conforme citado em
Silva (2010, p. 84 a 87) e também mencionado em W3C et al., (2011, p. 45):
Alguns meses antes da aprovação do projeto de lei na Câmara, durante a passagem
por uma das comissões que tinham o poder e a responsabilidade de modificá-lo, a
Comunidade Transparência Hacker49 inseriu sugestões que adaptam o texto para
garantir o acesso a dados abertos. Hoje, o projeto de lei engloba os oito princípios
dos dados abertos, de forma a garantir o acesso a informações em formatos abertos,
não proprietários e compreensíveis por máquina; entre outras características.
4.3.2 Proposta de Portal
Neste trabalho discute-se uma proposta de modelo para contribuir na transformação desse
cenário de dados públicos de pouca acessabilidade por meio da formatação de um portal com
a finalidade de consolidar informações públicas, basicamente, séries temporais, disponíveis na
web e originadas de entidades e organizações de governo, sejam federais, estaduais ou
municipais, bem como de empresas de economia mista, sindicatos patronais e setoriais,
ampliando o espectro dos dados além dos Dados Governamentais Abertos (DGA) para Dados
Sociais Abertos (DSA) e na essência criando um Mashup50
.
Esse Portal receberá a coleta dos dados brutos e sem formatação para no passo seguinte
colocá-los no padrão Linked Data e assim disponibilizá-los aos interessados.
Conceitualmente, esse portal deverá ser desenvolvido para a coleta de dados utilizando-se de
webservices, api’s e técnicas de scraping (“raspagem”), integração de dados em formatos
compreensíveis como, por exemplo, CSV, TSV e TXT, mesmo que envolvam intervenções
humanas, e eventualmente por inclusões manuais.
A partir disso o software deverá processar as informações capturadas gerando séries históricas
dos dados coletados, permitindo sua disponibilização aos interessados em formatos
estruturados e compreensíveis por humanos, como planilhas, e por máquinas, como XML,
RDF etc., possibilitando dessa maneira que interessados, inclusive desenvolvedores, possam
integrá-las a sistemas existentes ou criando sistemas em que elas possam ser inseridas.
48 http://www.alagoascolaborativo.org.br/dadosabertos/post/8-princ%C3%ADpios-dos-dados-abertos 49 http://thacker.com.br/ 50 É um website ou uma aplicação web que usa conteúdo de mais de uma fonte para criar um novo serviço completo.
136
Deverá estabelecer integração com sites que permitam a visualização de dados ou até mesmo
desenvolvê-las de forma a permitir melhor interpretação e compreensão das informações para
os usuários finais por meio desse recurso.
Na figura abaixo a proposta deste Portal vem representada graficamente. E será detalhado a
seguir o objetivo macro de cada componente representado.
Figura 16 - Desenho esquemático da proposta do Portal de séries históricas.
137
Nessa proposta, o projeto está dividido em quatro entidades:
a) os fornecedores de dados públicos e sociais abertos, que podem ser órgãos dos
governos das três esferas de poder, sindicatos patronais, institutos e autarquias;
b) a sociedade e seus cidadãos, pessoas físicas ou jurídicas, como consumidores;
c) o próprio portal como agente de transformação e consolidação;
d) e, por fim, os que são chamados de contribuidores materiais e tecnológicos.
Assim, por meio das interações entre eles, serão gerados os conteúdos que serão
disponibilizados e consumidos no portal.
O papel de cada uma dessas entidades será definido da seguinte forma:
fornecedores de dados sociais abertos: grupo composto de entidades públicas ou não,
que disponibilizam dados públicos de interesse socioeconômico. Esses dados estarão
em padrões que possam ser compreendidos por computadores e capturados
automaticamente por meio de web services, até aqueles que precisem ser capturados
manualmente;
sociedade: grupo composto por qualquer interessado em acessos aos dados
disponibilizados, sejam pessoas físicas, jurídicas, nacionais ou de outros países;
portal: no contexto dessa entidade considera-se toda concepção tecnológica do projeto
desde o seu desenho de software, passando por sua infraestrutura tecnológica
necessária, chegando às pessoas envolvidas em torná-lo realidade e a mantê-lo vivo e
pulsante;
contribuidores: será formado por pessoas, empresas ou entidades que possam
contribuir para o sucesso e perenidade do projeto, seja oferecendo conhecimento sobre
os dados capturados, esforço para a publicação dos dados que somente possam ser
capturados manualmente, publicação de artigos relacionados ou até mesmo
materialmente.
Ainda sobre os contribuidores, vale distingui-los em dois grupos específicos:
Contribuidores materiais serão aqueles que de alguma forma possam contribuir
para a existência do portal, como entidades ou instituições de fomento tecnológico
ligados ao governo ou pessoas jurídicas que se interessem em ter o seu nome
associado a um projeto social desse tipo.
138
Contribuidores tecnológicos serão aqueles que possam emprestar seu
conhecimento e especialização no desenvolvimento do projeto. Além de
desenvolvedores e pesquisadores das Ciências das Tecnologias da Informação e
Comunicação, também serão bem-vindos pesquisadores da Comunicação e
Semiótica, da Economia e das Ciências Sociais, entre outras áreas de interesse.
Resta por fim esclarecer o papel do Gestor de Série Temporal. Essa figura terá o papel de, ao
“adotar” uma série temporal, ser o responsável pelo sucesso de suas atualizações e pela
completude e clareza das suas informações, entre outras, pela periodicidade de publicação,
fontes, detalhamento de sua lógica de formação e eventual contato via web com usuários que
manifestem dúvidas ou sugestões. Apesar de possuir uma responsabilidade permanente, pode
ser considerado também um contribuidor tecnológico.
Já dentro do Portal, percebe-se a divisão em cinco blocos principais: Captura, Semântica,
Entrega, SEO e Road Map, que serão abordados, bem como seus componentes, nos itens
seguintes.
4.3.2.1 Detalhamento do Portal
4.3.2.1.1 Captura
Este bloco conterá todos os recursos tecnológicos para que a captura de dados ocorra,
envolvendo os tratamentos de API’s, web services de entrada, agentes para scraping.
Considerando existirem dados relevantes e que não possam sem capturados por esses
mecanismos, deverá contemplar também uma interface para entrada de dados. Além disso, um
“robô de buscas” comandará e controlará o processo de captura das séries. Abaixo seguem os
detalhes dessas funcionalidades.
4.3.2.1.1.1 Coleta
As coletas das informações serão comandadas pelo “robô de buscas”, a ser detalhado a seguir,
quando passará os argumentos e acionará o mecanismos de coleta necessários (API, web
139
service ou Agente de Scraping) para que busquem os dados especificados nas URL’s
determinadas.
Considerando a multiplicidade de sites de e-Gov e a falta de padronização na estrutura e na
maneira de disponibilização dos dados, acredita-se que o desenvolvimento desses mecanismos
possa chegar à personalização até ao nivel de série. Por exemplo, em um site, a série A possui
uma estrutura e uma forma de disponibilização por meio de web services, e a série B,
disponivel no mesmo site, somente poderá ser coletada por um Agente de Scraping.
Recomenda-se que o foco inicial das coletas sejam em sites de e-Gov que disponibilizem
dados por meio de web services ou API’s como por exemplo as séries históricas disponíveis
no site do Banco Central do Brasil, de maneira a inserir conteudo no banco de dados com
maior rapidez, aumentando sua atratividade para a sociedade.
4.3.2.1.1.2 “Robô de buscas”
O “robô de buscas” gerenciará e comandará o processo de captura dos dados. A partir de
metadados definidos para as séries históricas, ele deverá conhecer detalhes de cada uma delas,
como por exemplo: URL em que está disponível, método de captura (web service, API,
scraping ou manual), argumentos que devem ser utilizados no caso das API’s e web services,
a estrutura dos dados que serão recebidos (layout) como retorno, periodicidade / data
aproximada de publicação pela fonte e quem é o Gestor de Série Temporal responsável por
ela.
Por meio dessas informações essenciais o “robô de buscas” saberá o momento em que as
séries devem estar disponíveis para coleta, quais argumentos devem ser informados, em qual
URL estarão disponíveis e quem seria o responsável por ela em caso de falha na coleta ou
alerta para coleta quando o método de captura for manual.
Ao receber o retorno da coleta, deverá gravar as atualizações das séries capturadas com
sucesso no banco de dados ou reagendar a repetição da coleta até que obtenha sucesso, ou
atingindo um número de repetições sem sucesso, alertar o Gestor de Série Temporal
responsável.
140
Vale registrar que terá também o papel de validador dos dados coletados, alertando ao Gestor
da Série Temporal a ocorrência de inconsistências determinadas a partir de parâmetros
estabelecidos em metadados da série.
4.3.2.1.1.3 Interface de entrada de dados
Essa interface será o canal de atualização das séries em que não foi possível a coleta por meio
do “robô de buscas”, ou que o método de coleta seja manual. Deverá possuir uma interface
homem máquina bem definida no sentido de permitir que essa atividade ocorra de forma
simples e rápida.
4.3.2.1.2 Semântica
Neste bloco estarão concentradas as questões ligadas aos metadados, ontologias, RDF e banco
de dados. Tanto para sua definição e desenvolvimento quanto à sua implementação e uso.
4.3.2.1.2.1 Ontologias
Rautenberg et al. (2009, p. 134), citando Gasevic et al. e Gómez-Perez et al., destaca o esforço
para o desenvolvimento de ontologias, afirmando que:
Para o desenvolvimento de ontologias é necessário um esforço considerável de
engenharia, disciplina e rigor, onde princípios de projetos, atividades e processos de
desenvolvimento, tecnologias de suporte e metodologias sistêmicas devem ser
empregados. Nesse sentido surge a Engenharia de Ontologias preocupando-se com o
conjunto de atividades, o processo de desenvolvimento de ontologias, o ciclo de vida
de ontologias, os métodos e metodologias para desenvolver ontologias e as
ferramentas e linguagens de suporte à construção de ontologias.
Ainda segundo Rautenberg et al. (2009, p. 134), a terminologia da Engenharia de Ontologias
é baseada na Engenharia de Software. Dessa forma, em seu processo de desenvolvimento são
considerados os seguintes estágios:
141
especificação – identificar o propósito e escopo da ontologia;
conceitualização – descrever, em modelo conceitual, a ontologia em questão,
conforme especificações definidas na etapa anterior;
formalização – desenvolver o modelo formal a partir da descrição conceitual;
implementação – implementar a ontologia formalizada em uma linguagem de
representação;
manutenção – atualizar e corrigir a ontologia implementada à medida que surjam
novos requisitos.
Rautemberg também menciona outras atividades, importantes, que devem ser executadas
durante o ciclo de vida da Ontologia, como:
aquisição de conhecimento – adquirir conhecimento sobre um domínio por meio de
técnicas de elicitação do conhecimento com especialistas de domínio e/ou por acesso à
bibliografia relevante;
avaliação – julgar tecnicamente a qualidade da ontologia por meio de:
o avaliação técnica – julgar a ontologia e a documentação diante de um frame de
referência, o que envolve duas tarefas:
verificação, visando assegurar o alinhamento da ontologia com o
entendimento aceito sobre o domínio em fontes de conhecimento
especializado;
validação, buscando garantir que a ontologia atende à sua finalidade,
conforme os documentos de especificação.
o avaliação dos usuários – verificar a usabilidade e utilidade da ontologia a partir
do ponto de vista do usuário e da (re)utilização em outras aplicações de acordo
com a sua documentação.
documentação – registrar o que, como e por que foi feito. A qualidade da
documentação associada aos termos presentes na ontologia melhora a sua clareza,
facilita o processo de manutenção, uso e reuso.
A isso pode-se acrescentar as seguintes atividades:
planejamento do desenvolvimento, o que envolverá, entre outras tarefas, a definição
da metodologia, ferramentas e linguagem de suporte a construção da ontologia, a
serem utilizadas;
142
integração, onde se consideram termos e conceitos de outras ontologias.
E assim tem-se abaixo a representação gráfica do ciclo de vida da ontologia citada em
Almeida et al. (2010, p. 160), adaptada de Fernandez, Gomez-Perez e Juristo:
Figura 17 - Representação gráfica do ciclo de vida da ontologia.
Considerando o que foi apresentado, fica claro o nível de complexidade e dificuldade para o
desenvolvimento da ontologia necessária ao portal e ao compartilhamento com outras
aplicações, representando um trabalho de grande envergadura, mas que ao ser desenvolvido
representará uma importante contribuição ao compartilhamento de dados públicos abertos.
4.3.2.1.2.2 Metadados
A partir do entendimento discutido no item 3.1.2. Metadados, pode-se entendê-los como um
sumário de informações sobre a forma e o conteúdo de um recurso eletrônico, ou não, que
pode ser um objeto bibliográfico (livros, seriados, mapas etc.), catálogo de registros
bibliográficos, inventários e registros de arquivos, objetos geoespaciais (imagens de satélites
143
etc), recursos de museus e visuais, ou implementações de software. Acrescentando a essa
definição o esclarecimento de que, no contexto dessa proposta, metadados serão utilizados
para descrever as séries históricas que serão coletadas e o conjunto de dados que serão
coletados nas séries.
Dessa forma, deve-se trabalhar no sentido de se obter uma definição de metadados para
descrever de forma completa as séries históricas e os seus dados que serão incorporados ao
banco de dados. Essa descrição deverá ser suficiente para que a sua identificação seja única e
permita que os outros componentes do portal possam executar suas ações corretamente.
4.3.2.1.2.3 Dados em formato RDF
Com a definição de metadados e os dados coletados, serão gerados arquivos em formato RDF
para que possam ser acessados por meio de linguagem orientada a dados, que recuperem
dados armazenados em arquivos RDF, como por exemplo, SPARQL. Vale registrar que esses
arquivos RDF devem informar as séries que estão sendo coletadas e disponibilizadas, bem
como os seus dados acumulados, o que permitiria ao usuário a sua combinação com outros
dados em arquivos RDF que existam ou venham a existir.
4.3.2.1.2.4 Banco de dados
Armazenará as tabelas de controle de coletas, metadados, além dos dados coletados.
4.3.2.1.3 Entrega
Neste bloco serão tratadas as funcionalidades relacionadas às entregas das séries históricas
utilizando web services, interfaces homem-máquina e visualização de dados.
144
4.3.2.1.3.1 Webservices
Serão definidos conforme padrões técnicos estabelecidos pelo W3C e quanto aos aspectos
funcionais deverá possuir métodos variados, a serem identificados, para atender diferentes
necessidades dos sistemas usuários de nosso portal.
4.3.2.1.3.2 Interfaces de consultas
A interface de consulta dos usuários deverá permitir:
consultar a documentação sobre os arquivos RDF disponiveis;
consultar o conteúdo dos arquivos RDF por meio de linguagem orientada a dados, que
recuperem dados armazenados em arquivos RDF, como por exemplo, SPARQL. As
querys dessa linguagem podem ser realizadas por clientes de outras ferramentas como
o Protégé ou o Twinkle: SPARQL Tool.
4.3.2.1.3.3 Visualização de dados
Para a visualização de dados, a princípio, considera-se priorizar o uso e integração com outras
ferramentas de visualização de dados disponíveis na Web, como o Many Eyes e The Google
Public Data Explorer.
4.3.2.1.4 SEO
Utilizando recursos on-page, terá a função de buscar uma melhora de posicionamento junto
aos buscadores para promover o Portal, visando aumentar sua efetividade e divulgação ao
público de interesse pelo seu aumento de tráfego.
145
4.3.2.1.5 Road Map
Disponibilizará funcionalidades que permitam a interação do time envolvido com as sugestões
oriundas da sociedade, fornecedores de dados abertos e contribuidores tecnológicos,
estabelecendo e priorizando o Road Map de forma a publicar o planejamento dos avanços
programados para o portal, tanto em funcionalidades como a incorporação de novas séries
temporais.
4.3.2.1.6 Social empowerment
Concluindo, está inserida nessa representação o relacionamento entre a Sociedade e o governo
como uma ação do social empowerment e a resposta do governo para a sociedade como uma
reação ao social empowerment, buscando assim demonstrar o poder que esse conhecimento
atribuirá à sociedade como um todo e os avanços que isso possibilitará.
146
CAPÍTULO 5
CONSIDERAÇÕES FINAIS
O objetivo desta dissertação foi o de examinar da maneira mais ampla possível o cenário que
envolve as questões da web semântica e do e-Gov, propondo um modelo de portal que
complementasse uma lacuna, contribuindo mesmo que de forma mínima para o entendimento
desse contexto. A partir do estudo dos seus aspectos históricos e como foi formada a Internet,
da discussão de conceitos e tecnologias que viabilizam a implementação desse modelo,
passando pela análise do e-Gov no Brasil e suas oportunidades de melhoria, abordando
aspectos legais e éticos no trato dessas informações, pretende-se com isso estabelecer um
modelo que pode servir, ao menos, de ponto de partida para outros trabalhos que envolvam
portais de conhecimento e informação focados na coleta e armazenamento sistêmicos de
dados públicos abertos.
Ao longo do seu desenvolvimento foi possível identificar pontos e aspectos determinantes
para a implantação de um portal como esse:
a) sobre a web semântica, conceitos e tecnologias relacionadas:
as discussões na academia sobre sua aplicação e desenvolvimento não estão
completamente amadurecidas, existindo os que acreditam e os que duvidam;
no mundo corporativo esse tema terá muito para ser debatido e discutido,
sobretudo acerca da forma de utilizá-lo em aplicações comerciais e
principalmente quanto às maneiras que deverão ser utilizadas para a expansão
de sua base de aplicações;
no âmbito governamental, a questão do e-Gov estará focada no atendimento de
anseios da população, priorizando mais as interfaces homem-máquina do que
as interfaces que adotem a web semântica como abordagem.
b) quanto ao e-Gov, existem as oportunidades que envolvem as questões de qualidade
dos serviços atuais, navegabilidade, novos serviços, comunicação e educação. Isso em
certa medida identifica oportunidades para portais complementares ao e-Gov, porém
mantêm o alto nível de dificuldade para coleta de dados, bem como reduzem o público
alvo, especialmente quando se tratam dos quesitos Comunicação, Educação e
Segurança de Dados (credibilidade);
147
c) ainda sobre o e-Gov, fica claro que o governo deve assumir o seu papel de fornecedor
de dados abertos, respeitando os princípios dos dados abertos governamentais,
buscando também estimular a sociedade, por meio das comunidades hackers, a
desenvolver sites e serviços que utilizem os dados abertos disponibilizados, sem
pretender produzi-los internamente, pois certamente seriam produzidos com maior
custo, demorariam mais e seriam menos aderentes às necessidades da população.
Nessa linha, comentando os resultados alcançados no projeto vencedor do primeiro
concurso Apps for Democracy51
, no Distrito de Columbia, nos EUA, chamado Stumble
Safely, desenvolvido por empresa privada que cruzou as informações de ocorrências
policiais com endereços de bares e clubes da cidade. Posteriormente, mostrou essa
informação em uma interface de mapa interativo permitindo traçar os caminhos mais
seguros para se voltar de um bar para casa à noite ou de madrugada, Silva afirma que:
O que acontece, em um exemplo como esse, é que a informação tem o potencial de
refletir valores que não poderiam ser trabalhados dentro da administração pública e
como essa informação pertence ao cidadão, faz sentido que ela gere o máximo de
valor possível, refletindo a multiplicidade de interesses e de opiniões do coletivo
(SILVA, 2010, p. 97).
d) quanto aos aspectos legais e éticos, especialmente às legislações específicas para
internet, crimes cibernéticos, dados abertos e proteção de dados pessoais, o País está
atrasado em relação a diversos países, inclusive da América Latina, como a Argentina,
que teve sua legislação promulgada em outubro de 2000, apesar da tramitação de
projetos de Lei que podem nos recuperar desse atraso;
e) concretizar o modelo proposto de portal não é uma tarefa simples e envolverá, além do
conhecimento técnico, muito investimento, tempo e dedicação.
5.1 LIMITAÇÕES DO ESTUDO
É importante reconhecer que este trabalho apresentou uma visão geral sobre os temas
abordados ao longo do seu desenvolvimento, como por exemplo, web semântica, metadados,
ontologias, web services, agentes de software, visualização de dados e otimização dos
51 Concurso de incentivo do governo do Distrito de Columbia, EUA, ao uso e desenvolvimento de aplicativos e serviços com a apropriação de dados abertos públicos (W3C et al., 201,1 p. 28 e 29).
148
mecanismos de buscas, além do e-Gov no Brasil. Todos esses temas são muito amplos e
complexos, e se torna quase inevitável a existência de limitações em trabalhos que tenham a
ambição de investigá-los, ainda mais simultaneamente.
O mesmo se dá quando se imagina a implementação desse modelo frente ao tempo necessário,
investimento material e de dedicação pessoal para a sua realização.
Frente a essas limitações, procurou-se o ponto de equilíbrio para dar ao trabalho o conteúdo
necessário à sua conclusão em bom termo, buscando não resvalar na superficialidade e nem
atingir um aprofundamento desnecessário para o contexto da proposta.
5.2 POSSÍVEIS CONTRIBUIÇÕES
Esta dissertação, com sua proposta de modelo para a construção de portal que dê
transparência a séries históricas de indicadores sociais, econômicos e financeiros, públicos na
web, focando na interatividade humana e integração com outros sistemas computacionais,
pretendeu contribuir discutindo os conceitos e tecnologias relacionadas a metadados,
ontologias, web services, agentes de software, visualização de dados e otimização dos
mecanismos de buscas, a partir da ótica de uma aplicação prática que envolveu também a
análise e discussão de oportunidades de melhoria, não somente no próprio e-Gov, mas
também em portais complementares a ele, servindo como ponto de partida para outros
trabalhos que envolvam portais de conhecimento e informação focados na coleta e
armazenamento sistêmicos de dados abertos públicos.
5.3 SUGESTÕES PARA ESTUDOS FUTUROS
Este trabalho permitiu vislumbrar algumas propostas para estudos futuros:
a) concretizar a implementação do modelo discutido, aprofundando os estudos
envolvendo metadados, ontologias, web services, agentes de software, visualização de
dados e otimização dos mecanismos de buscas, oportunidades de coleta de dados em
sites de e-Gov e contribuindo para aumentar a base de aplicações voltadas para a web
149
semântica, com dados abertos públicos, estruturados e integraveis a outros sistemas
computacionais;
b) aprofundar os estudos envolvendo interface homem-máquina, estabelecendo uma
proposta de interface focada para atender determinado segmento, usuário potencial de
fonte de dados de outros portais que utilizam a web semântica como, por exemplo, o
Projeto LexML52
, que pretende reunir leis, decretos, acórdãos, súmulas, projetos de
leis entre outros documentos das esferas federal, estadual e municipal dos Poderes
Executivo, Legislativo e Judiciário de todo o Brasil, formando uma rede de
informação legislativa e jurídica, visando organizar, integrar e dar acesso às
informações disponibilizadas nos diversos portais de órgãos do governo na Internet,
estabelecendo uma proposta de interface funcional que atenda ao segmento jurídico;
c) considerando que como nesta proposta de portal os sites de comparação de preços
também são focados na coleta e armazenamento sistêmico de informações, assim,
durante a elaboração deste trabalho procurou-se identificar por meio de pesquisa em
trabalhos acadêmicos e literaturas especializadas, como esses modelos foram
implementados tecnicamente para tentar estabelecer uma relação com o nosso modelo,
porém esse esforço levou apenas a trabalhos relacionados à implantação do negócio
com abordagem de administração e negócios, resvalando apenas em indícios de como
foram implementados, compreensível por tratar-se de assunto diretamente relacionado
ao core business dessas empresas. Em Tasic (2007, p. 90 e 91), abordando o
desenvolvimento do site de comparação de preços BUSCAPÉ, é mencionado que foi
desenvolvida entre junho de 1998 e junho de 1999 uma tecnologia chamada pelos seus
desenvolvedores como Spyder e detalhada conforme abaixo:
Tecnicamente, o “spyder” funciona como um robô eletrônico que acessa
automaticamente os sites de comércio eletrônico dos lojistas cadastrados e identifica
no site do lojista o que é produto e o que é preço. Após essa identificação, o
“spyder” então classifica e cataloga todos os produtos e preços encontrados em um
único banco de dados do Buscapé. Uma vez armazenadas no banco de dados, as
informações são publicadas no site do Buscapé e podem ser acessadas por qualquer
internauta. Sendo crucial no modelo de negócio do Buscapé, é essa tecnologia que
permite a coleta e armazenamento sistêmicos de informações em sites de comércio
eletrônico e as organiza de modo a permitir a comparação de preços pela internet.
52 http://projeto.lexml.gov.br/
150
Parece que um estudo mais profundo sobre a forma como os sites de busca foram
implementados e como seriam afetados com o desenvolvimento e implantação da web
semântica, trariam respostas para questões como:
as empresas atuantes nesse segmento da web teriam benefícios ou
desvantagens com a web semântica?;
este tipo de serviço, com web semântica, poderia atrair novos entrantes
e assim abalar as empresas líderes nesse segmento da Internet?;
quais mudanças poderiam ocorrer para os internautas? Favoráveis ou
não?
151
REFERÊNCIAS
ABDULAHAD, Bassam; LOUNIS, Georgios. A user interface for the ontology merging tool
SAMBO. Linköpings Universitet, 2004. Final thesis. Disponível em: <http://liu.diva
portal.org/smash/get/ diva2:19999/FULLTEXT01>. Acesso em: 11 dez. 2010.
ALMEIDA, Maurício Barcellos; SOUZA, Renato Rocha; COELHO, Kátia Cardoso. Uma proposta de
ontologia de domínio para segurança da informação em organizações: Descrição do estágio
terminológico. Informação & Sociedade: Estudos, UFPB, João Pessoa, v. 20, n.1, p.155-168, abr.
2010. Disponível em: <http://www.ies.ufpb.br/ojs2/index.php/ies/article/view/3753/3427.>. Acesso
em: 6 ago. 2011
BERGMAN, Michael K. White paper: the deep web: surfacing hidden value. University of
Michigan, 2001. Disponível em: <http://quod.lib.umich.edu/cgi/t/text/text-
idx?c=jep;view=text;rgn=main;idno=3336451.0007.104. >. Acesso em: 8 jan. 2011.
BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web: a new form of web
content that is meaningful to computers will unleash a revolution os new possibilities. Scientific
American Magazine, maio 2001, p. 35- 43.
BESSA, Fátima. Abordagem crítica à tecnologia educativa. Universidade do Minho, 2007/2008.
Disponível em: <http://www.e-profe.net/tecnologia/galaxia_internet.pdf.>. Acesso em: 25 jan. 2011.
BRANDÃO, Anarosa Alves Franco; LUCENA, Carlos José Pereira. Uma introdução à engenharia
de ontologias no contexto da web semântica. PUC-RJ, 2002. Disponível em: <http://www.dbd.puc-
rio.br/depto_informatica/02_29_brandao.pdf. >. Acesso em: 5 mar. 2011.
BREITMAN, Karin Koogan. WEB semântica - a internet do futuro. Rio de Janeiro: LTC, 2006.
BUSH, Vannevar. As we may think. the atlantic monthly, 1945. Disponível em:
<http://www.theatlantic.com/past/docs/unbound/flashbks/computer/bushf.htm.>. Acesso em: 15 jan.
2011.
CASTELLS, Manuel. A galáxia da internet: reflexões sobre internet, negócios e sociedade. Rio de
Janeiro: Zahar, 2003.
_____. O novo paradigma do desenvolvimento e suas instituições: conhecimento, tecnologia da
informação e recursos humanos. Perspectiva comparada com referência a América Latina, In:
NASSIF, André. Apostila Economia Digital. São Paulo: FGV Management, 2008
CERF, Vinton G., et al. A brief history of the internet. Internet Society, 2011. Disponível em:
<http://www.isoc.org/internet/history/brief.shtml >. Acesso em: 15 jan. 2011.
CETIC.BR. Pesquisa sobre uso das tecnologias da informação e comunicação no Brasil - TIC
Governo eletrônico, 2010. NIC.BR. Disponível em: <http://www.cetic.br/tic/egov/2010/index.htm.>.
Acesso em: 19 mar. 2011.
CORRÊA, Gustavo Testa. Aspectos jurídicos da internet. São Paulo: Saraiva, 2008.
152
DCMI. Dublin Core Metadata Initiative, 2011. Disponível em: <http://dublincore.org/.>. Acesso
em: 26 fev. 2011.
DOCTOROW, Cory. Metacrap: putting the torch to seven straw-men of the meta-utopia, 2001.
Disponível em: <http://www.well.com/~doctorow/metacrap.htm.>. Acesso em: 26 fev. 2011.
DONEDA, Danilo. La protección de datos personales em Brasil y perspectivas de regulación em
el Mercosul, 2009. Disponível em:
<http://www.doneda.net/doneda.net/Palestras_files/bogota_09a.pdf.>. Acesso em: 15 abr. 2011.
FELICISSIMO, Carolina Howard. Uma estratégia para o alinhamento taxonômico de ontologias.
PUC-RJ, 2004. Dissertação de mestrado em informática. Disponível em: <http://www-di.inf.puc-
rio.br/~julio/CAROL.pdf.>. Acesso em: 11 dez. 2010.
FENSEL, Dieter, et al. OIL: ontology infrastructure to enable the semantic web. Citeseerx, 2001.
Disponível em:
<http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.25.396&rep=rep1&type=pdf.>. Acesso
em: 7 mar. 2011.
FLUSSER, Vílem. O mundo codificado: por uma filosofia do design e da comunicação. São Paulo:
Cosac Naify, 2007.
FONTES, Mário Madureira. Aspectos ontológicos da web-semântica. PUC-SP, 2009. Dissertação de
Mestrado em Tecnologias da Inteligência e Design Digital. Disponível em:
<http://www.sapientia.pucsp.br/tde_busca/arquivo.php?codArquivo=10200.>. Acesso em: 11 dez.
2010.
BRIDGES, Environmental information acess in Minnesota's. Foundations project bridges, 2007.
Disponível em: <http://www.bridges.state.mn.us/.>. Acesso em: 26 fev. 2011.
GABRIEL, Martha. SEM e SEO: dominando o marketing de busca. São Paulo: Novatec, 2009.
GRUBER, Tom. Ontology. Tom Gruber pages, 2009. Disponível em:
<http://tomgruber.org/writing/ontology-definition-2007.htm.>. Acesso em: 5 mar. 2011.
GUARINO, Nicola. Formal ontology and information systems. The Laboratory for Applied
Ontology (LOA), 1998. Disponível em: <http://www.loa-cnr.it/Papers/FOIS98.pdf.>. Acesso em: 5
mar. 2011.
GULLI, Antonio; SIGNORINI, Alessio. The indexable web is more than 11.5 billion pages.
University of Iowa, 2005. Disponível em: <http://www.cs.uiowa.edu/~asignori/papers/the-indexable-
web-is-more-than-11.5-billion-pages/size-indexable-web.pdf.>. Acesso em: 8 jan. 2011.
IFLA, International Federation of Library Associations. IFLA - Digital Libraries: metadata
resources, 2009. Disponível em: <http://archive.ifla.org/II/metadata.htm.>. Acesso em: 24 fev. 2011.
153
ISO, International Organization Standardization. ISO 15836. ISO, 2009. Disponível em:
<http://www.iso.org/iso/search.htm?qt=15836&searchSubmit=Search&sort=rel&type=simple&publis
hed=on.>. Acesso em: 26 fev. 2011.
KUNZE, John A; BAKER, Thomas. RFC 5013 - The Dublin Core metadata element set. IETF,
2007. Disponível em: <http://www.ietf.org/rfc/rfc5013.txt.>. Acesso em: 26 fev. 2011.
KUROSE, James F; ROSS, Keith W. Rede de computadores e a internet. São Paulo: Addison
Wesley, 2003.
LAGOZE, Carl. The warwick framework: a container architecture for diverse sets of metadata. D-
Lib Magazine. Corporation for National Research Initiatives (CNRI), 1996. Disponível em:
<http://www.dlib.org/dlib/july96/lagoze/07lagoze.html.>. Acesso em: 26 fev. 2011.
LEÃO, Lúcia. Derivas: cartografias do ciberespaço. São Paulo: Annablume, 2004.
LEME, Luciano Gonzaga. Site com conteúdo apropriado à web semântica e mecanismos de busca.
PUC-SP, 2009. Dissertação de Mestrado em Tecnologias da Inteligência e Design Digital. Disponível
em: <http://www.sapientia.pucsp.br/tde_busca/arquivo.php?codArquivo=8837.>. Acesso em: 11 dez.
2010.
MALVINE Project. Malvine, 2003. Disponível em:
<http://www.malvine.org/malvine/por/index.html.>. Acesso em: 26 fev. 2011.
NELSON, Theodor Holm. Ted Nelson’s computer paradigm, expressed as one-liners. Xanadu,
1999. Disponível em:
<http://xanadu.com.au/ted/TN/WRITINGS/TCOMPARADIGM/tedCompOneLiners.html.>. Acesso
em: 22 jan. 2011.
NISO Z39.85. ANSI/NISO Z39.85 - The Dublin Core Metadata Element Set. NISO Standards, 2007.
Disponível em: <http://www.niso.org/kst/reports/standards/kfile_download?id%3Austring%3Aiso-
8859-1=Z39-85-2007.pdf&pt=RkGKiXzW643YeUaYUqZ1BFwDhIG4-
24RJbcZBWg8uE4vWdpZsJDs4RjLz0t90_d5_ymGsj_IKVa86hjP37r_hFEijh12LhLqJw52B-
5udAaMy22WJJl0y5GhhtjwcI3V.>. Acesso em: 26 fev. 2011.
NOLETO, Danilo de Abreu; TEIXEIRA, Darlene; BRITO, Parcilene Fernandes de. O padrão RDF
como facilitador no processo de inteligência competitiva. Anais do Congresso Anual de Tecnologia
de Informação - CATI2004, 2004. Disponível em:
<http://www.fgvsp.br/cati2004/artigos/pdf/T00241.pdf.>. Acesso em: 26 fev. 2011.
PALAZZI, Daniele Cristina. QDAontology: Abordagem para o desenvolvimento de ontologias em
e-Science: um estudo de caso em biologia. Universidade Federal de Juiz de Fora, 2010. Dissertação de
Mestrado em Modelagem Computacional. Disponível em:
<http://www.ufjf.br/mmc/files/2010/06/dissertacao_daniele_palazzi.pdf.>. Acesso em: 7 mar. 2011.
PEREIRA, Ferdinand Cavalcante. O que é empoderamento (Empowerment). SaPIência, 2006.
Disponível em: <http://www.fapepi.pi.gov.br/novafapepi/sapiencia8/artigos1.php.>. Acesso em: 19
mar. 2011.
154
PINHEIRO, Patricia Peck. Direito digital. São Paulo: Editora Saraiva, 2007.
RAUTENBERG, Sandro; TODESCO, José L.; GAUTHIER, Fernando A. O. Processo de
desenvolvimento de ontologias: uma proposta e uma ferramenta. Rev. Tecnol. UFSC. Fortaleza,
v.30, n.1, p.133-144, jun. 2009. Disponível em: <http://vm-ontokem.led.ufsc.br/joomla/pdf/Processo_de_desenvolvimento_de_ontologias_uma_proposta_e_uma_
ferramenta.pdf.>. Acesso em: 6 ago. 2011.
RIBEIRO, Daniel Melo. Visualização de dados na internet. PUC-SP, 2009. Dissertação de Mestrado
em Tecnologias da Inteligência e Design Digital. Disponível em:
<http://www.sapientia.pucsp.br/tde_busca/arquivo.php?codArquivo=8423.>. Acesso em: 11 dez.
2010.
ROSETTO, Marcia; NOGUEIRA, Adriana Hypólito. Aplicação de elementos metadados Dublin
Core. UFRJ. Universidade de São Paulo, 2011. Disponível em:
<http://www.sibi.ufrj.br/snbu/snbu2002/oralpdf/82.a.pdf.>. Acesso em: 24 fev. 2011.
SILVA, Daniela Bezerra da. Transparência na esfera pública interconectada. Faculdade Casper
Líbero, 2010. Dissertação de Mestrado em Comunicação. Disponível em:
<http://www.facasper.com.br/rep_arquivos/2011/03/25/1301072384.pdf.>. Acesso em: 6 ago. 2011.
SILVA, Daniela Lucas da; SOUZA, Renato Rocha; ALMEIDA, Maurício Barcellos. Comparação de
metodologias para construção de ontologias e vocabulários controlados. Seminário de Pesquisa
em Ontologia no Brasil, 2008. Artigo. Disponível em: <http://www.uff.br/ontologia/artigos/19.pdf.>.
Acesso em: 7 mar. 2011.
SOUZA, Marcia Izabel Fugisawa et al. Informação para internet: uso de metadados e o padrão
Dublin Core para catalogação de recursos eletrônicos na Embrapa. MCT - IBICT - Diálogo Científico.
Embrapa, 2000. Disponível em: <http://dici.ibict.br/archive/00000702/01/T042.pdf.>. Acesso em: 26
fev. 2011.
TASIC, Igor Alexander Bello. Estratégia e empreendedorismo: decisão e criação sob incerteza.
Fundação Getúlio Vargas, 2007. Dissertação de Mestrado em Administração de Empresas. Disponível
em: <http://bibliotecadigital.fgv.br/dspace/bitstream/handle/10438/2324/150183.pdf?sequence=2.>.
Acesso em: 2 maio 2011.
University of Maryland . SHOE: simple HTML ontology extension. Departament of Computer
Science, 2010. Disponível em: <http://www.cs.umd.edu/projects/plus/SHOE/#demos.>. Acesso em: 7
mar. 2011.
VIANA, Laura Cristina Simões; NABUCO, Olga Fernanda. Ontologias e tecnologia da informação
e comunicação: sistemas especialistas, web semântica e gestão integrada de compras governamentais
eletrônicas. Revista Eletrônica de Comunicação Informação & Inovação em Saúde, 2007. Disponível
em: <http://www.reciis.cict.fiocruz.br/index.php/reciis/article/view/47/35.>. Acesso em: 5 mar. 2011.
VIEGAS, Fernanda B. et al. Many eyes: a site for visualization at internet scale. IBM Research, 2007.
Disponível em: <http://www.research.ibm.com/visual/papers/viegasinfovis07.pdf.>. Acesso em: 21
mar. 2011.
155
W3C. Dados abertos governamentais. W3C. 2011. Disponível em:
<http://www.w3c.br/pub/Materiais/PublicacoesW3C/dados-abertos-governamentais.pdf.>. Acesso em:
6 ago. 2011.
______. Melhorando o acesso ao governo com o melhor uso da web. W3C, 2009. Disponível em:
<http://www.w3c.br/divulgacao/pdf/gov-web.pdf.>. Acesso em: 17 abr. 2011.
______. RDF/XML Syntax Specification: Revised. W3C, 2004. Disponível em:
<http://www.w3.org/TR/REC-rdf-syntax/.>. Acesso em: 26 fev. 2011.
______. Resource Description Framework (RDF) Schema Specification 1.0. W3C, 2000.
Disponível em: <http://www.w3.org/TR/2000/CR-rdf-schema-20000327/.>. Acesso em: 26 fev. 2011.
W3C; THacker; CGI.BR. Manual dos dados abertos: governo. W3C BR. 2011. Disponível em:
<http://www.w3c.br/pub/Materiais/PublicacoesW3C/Manual_Dados_Abertos_WEB.pdf.>. Acesso
em: 6 ago. 2011.
W3C, World Wide Web Consortium. Metadata and resource description. W3C. 2001. Disponível
em: <http://www.w3.org/Metadata/.>. Acesso em: 24 fev. 2011.
______. OWL, Web ontology language. W3C. 2009. Disponível em: <http://www.w3.org/TR/owl-
features/.>. Acesso em: 7 mar. 2011.
______. RDF, Vocabulary description language 1.0: RDF Schema. W3C, 2004. Disponível em:
<http://www.w3.org/TR/rdf-schema/.>. Acesso em: 7 mar. 2011.
WORLDWIDEWEBSIZE. The size of the world wide web:The Internet, 2011. Disponível em:
<http://www.worldwidewebsize.com/index.php?lang=EN.> Acesso em: 8 jan. 2011.