94
d mensões e característ cas da  bras le ra: um estudo do .gov .br W Brazilian Internet Steering Committee Brazilian Network Information Center 2010

Dimensões e características da Web brasileira: um estudo do .gov.br

Embed Size (px)

Citation preview

Page 1: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 1/93

dmensões e característcas da

  braslera: um estudo do .gov.br

W

Brazilian Internet SteeringCommittee

Brazilian Network 

Information Center

2010

Page 2: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 2/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m

   e  s   t  u   d  o   d  o .  g  o  v .   b  r

     C     r      é     d     i     t     o     s

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m

   e  s   t  u   d  o   d  o .  g  o  v .   b  r

     C     r      é     d     i     t     o     s Comitê Getor a Internet no Brai – CGI.br

Coordenador

Augusto Cesar Gadelha Vera

Conselheiros

Adrano Slva Mota

Alexandre Annenberg NettoCarlos Alberto AfonsoDem GetschkoErnesto Costa de PaulaFlávo Rech WagnerFrancelno José Lamy de Mranda GrandoGustavo Gndre Montero SoaresHenrque Faulhaber Jame Barrero Wagner Jorge Santana de OlveraLsandro Zambenedett GranvlleMarcelo Bechara de Souza HobakaMarcelo Fernandes CostaMaro Lus TezaNelson Smões da SlvaNvaldo CletoPlíno de Aguar JunorRenato da Slvera MartnRogéro Santanna dos Santos

Diretor Executivo

Hartmut Rchard Glaser

Núcleo de Informação e Coordenação do Ponto BR – NIC.br

Diretor Presidente

Dem Getschko

Diretor Administrativo e Financeiro

Rcardo Narch

Diretor de Serviços e Tecnologia

Frederco Neves

Diretor de Projetos Especiais e de Desenvolvimento

Mlton Kaoru Kashwakura

Page 3: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 3/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m   e

  s   t  u   d  o   d  o .  g  o  v .   b  r

     C     r      é     d     i     t     o     s

3

C O O R D E N A çã O G E R A L

NIC.br / CEPTRO - Centro e Etuo e Pequia em Tecnoogia e Ree e OperaçeAntono Marcos MorerasHetor de Souza GanzelPedro Hadek

NIC.br / CETIC - Centro e Etuo obre a Tecnoogia a Informaço e a Comunicaço

Alexandre Barbosa Julano CappRobson Tavares

W3C - Ecritório BraiCarlnhos CecconVagner DnzOrípde Clento Flho

 Aeoria e ComunicaçoCarolne D’Avo

P A R C E i R O S

InWeb - Intituto Naciona e Ciência e Tecnoogia para a W

Adrano C. Machado PereraCrstna Duarte MurtaCEFET-MG - Centro Federal de Educao Tecnológca de Mnas Geras, Departamento de Computao

Altgran da SlvaUFAM - Unversdade Federal do Amazonas, Departamento de Cênca da Computao

Dmtr Fazto de Almeda RezendeEduardo Luz Gonalves Ros-NetoUFMG - Unversdade Federal de Mnas Geras, Departamento de Demografia

Dorgval Olavo Guedes NetoRenato FerreraWagner Mera JrUFMG - Unversdade Federal de Mnas Geras, Departamento de Cênca da Computao

Minitrio o Paneamento, Orçamento e Geto

Cláudo Munz Machado Cavalcant Joo Batsta Ferr de OlveraSLTi - Secretara de Logístca e Tecnologa da informao

 ABEP

Dayse VannaPRODERJ - Centro de informao e Comuncao do Estado do Ro de Janero

Káta BrunoCEPROMAT - Centro de Processamento de Dados do Estado de Mato Grosso

A G R A D E C i M E N T O E S P E C i A L A O S C O L A B O R A D O R E S :

Gustavo da Gama Torres José Mara LeocádoSERPRO - Servo Federal de Processamento de Dados

isabele dos Passos Omena José Nlo Martns SampaoATi Agênca de Tecnologa da informao, Governo do Estado de Pernambuco

Ncolau RenhardFEA - Faculdade de Economa e Admnstrao, Unversdade de So Paulo

Oron BorbaCiASC Centro de informátca e Automao do Estado de Santa Catarna

Paulo MaaCaxa Econômca Federal

Roberto AguneSecretara de Gesto Públca do Estado de So Paulo

Tatyana SouzaPRODEB - Companha de Processamento de Dados do Estado da Baha

Page 4: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 4/93

Page 5: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 5/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m   e

  s   t  u   d  o   d  o .  g  o  v .   b  r

       í      n      d      i      c      e

5

Índce

Prefáco

introduo

Os desafos técncos para o estudo da Web braslera

Metodologa

Concetos e orentaões para o Censo Web .brAplcao

Defino da pergunta e os dados para respondê-la

Breve descro da metodologa

Resultados

Análses

Concluso

Bblografa

Análse dos resultadosDefnndo o conceto de Web

As dmensões e as característcas da Web braslera

As dmensões e as característcas do .gov.br

Partcpao das regões na composo da Web governamental

Outros domas na Web governamental

Aderênca aos padrões HTML do W3C

Aderênca aos padrões de acessbldade ASES

Tecnologas utlzadas para servr arquvos naWeb governamental

9

  13

19

27

2734

35

35

37

38

38

39

4343

44

45

45

48

49

49

50

Page 6: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 6/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m

   e  s   t  u   d  o   d  o .  g  o  v .   b  r

       Í      N      D      I      C      E

Tecnologas utlzadas para servr arquvosnas cnco regões brasleras

As tecnologas utlzadas para servr arquvos nas UFs

Domínos como sítos estruturados em págnas

Objetos mas usados nas págnas da

Web governamentalTecnologas utlzadas para dsponblzaode dados e de conteúdo na Web governamental

Sncronzao de tempo dos servdores brasleros5

Geolocalzao dos iPs

Tempo médo de respostas dos servdores brasleros

Respostas dos sítos brasleros de governo a consultas iPV6

indcadores e unverso de dadosA1: Tamanho total da Web braslera - númerode sítos e págnas da Web  

A2: Tamanho total da Web braslera - tamanhoem Ggabytes

C1: Dstrbuo do uso de domas na Web braslera - Proporo de domas

E1: Proporo de págnas da Web aderentes aos padrões HTML do W3C 

F1: Proporo de Págnas da Web aderentes aos padrões de acessbldade ASES

G1: Proporo de tpos de objetos usadosnas págnas da Web - percentual por tpo de objeto

G2: Proporo de tpos de tecnologas usadasnas págnas da Web - percentual por tpo de tecnologa

H1: idade (últma atualzao) médadas págnas da Web braslera

H2: Proporo de págnas dnâmcas na Web braslera

B1: Proporo de sítos Web utlzando iPv6

B2: Proporo de sítos Web utlzandodomíno alternatvo iPv6 (pv6.domno)

B3: Proporo de sítos Web respondendoa png iPv6

B4: Proporo de síto Web que respondem ao comando GETno endereo iPv6

i1: informao sobre sncronzao de tempo de servdoresda Web braslera

i2: informao sobre tempo de resposta médodos servdores da Web braslera

D2: Proporo de países que hospedam os sítos Web brasleros

51

52

53

53

54

55

56

57

58

  63

65

67

71

  72

75

78

80

82

84

86

87

87

88

89

91

92

Page 7: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 7/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m   e

  s   t  u   d  o   d  o .  g  o  v .   b  r

     p     r     e     f      á     c     i     o

7

Prefáco

Page 8: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 8/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m

   e  s   t  u   d  o   d  o .  g  o  v .   b  r

     p     r     e     f      á     c     i     o

Page 9: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 9/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m   e

  s   t  u   d  o   d  o .  g  o  v .   b  r

     p     r     e     f      á     c     i     o

9

Prefáco

O prmero prncípo da Web, proposto pelo W3C Brasl, afrma que “o prn-cpal valor da Web é o socal. Mas do que tecnológco, este é um ambente

de comuncao humana, de transaões comercas, de oportundades para

compartlhar conhecmentos e, para ser um ambente unversal, deve estar

dsponível para todas as pessoas, ndependentemente dos equpamentos e

softwares que utlzem, prncpalmente da cultura em que nserem, da loca-

lzao geográfca, das habldades físcas ou mentas, das condões socoe-

conômcas ou de nstruo”. A unversaldade da Web só pode ser garantda

e aprofundada com um modelo de governana democrátco e pluralsta quetenha foco no acesso por todos e na sua própra evoluo tecnológca.

Acompanhando delberao do Comtê Gestor da internet no Brasl – CGi.br,

em 2007, o Núcleo de informao e Coordenao do Ponto BR – NiC.br ns-

talou o escrtóro do W3C no Brasl – o prmero na Amérca do Sul. O W3C é

um consórco nternaconal com a msso de conduzr a Web ao seu potencal

máxmo, crando padrões e dretrzes que garantam a sua evoluo permanente.

Medr e acompanhar a evoluo da Web braslera é uma das mas recentes

atvdades do CGi.br conduzda pelo escrtóro do W3C no Brasl e pelo Cen-tro de Estudos e Pesqusas em Tecnologa de Redes e Operaões (CEPTRO.br),

a fm de se produzrem nformaões e ndcadores que contrbuam para o en-

tendmento das característcas da Web e do seu comportamento nas áreas de

acessbldade e unversaldade, além de acompanhar a sua própra evoluo.

É com satsfao que comprovamos a utlzao dos resultados das pesqusas

dvulgadas pelo CGi.br por gestores públcos na construo de estratégas

governamentas e na elaborao de polítcas públcas que atendam às ne-

cessdades da populao braslera, por pesqusadores na elaborao de pes-

Page 10: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 10/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m

   e  s   t  u   d  o   d  o .  g  o  v .   b  r

     p     r     e     f      á     c     i     o

0

qusas acadêmcas e por empresas prvadas no acompanhamento do cenáro

tecnológco braslero.

O CGi.br apresenta a prmera edo da Pesqusa “Dmensões e caracte-

rístcas da Web braslera: um estudo do .gov.br”, pesqusa nédta na sua

forma e extenso no Brasl e também fora do País. incalmente, a pesqusadedcou-se apenas ao domíno .gov.br, cujo olhar faz um rao-x da Web go-

vernamental. Posterormente, sero dvulgados também os resultados sobre

os demas domínos da Web. Essa pesqusa será realzada anualmente, com

objetvo de gerar uma sére hstórca e de poder acompanhar a evoluo da

Web braslera.

Os resultados dessa pesqusa revelam característcas dos domínos, págnas

Web e servdores Web brasleros, que mostram como as organzaões de-

senvolvem as suas págnas Web, consderando aspectos de acessbldade,unversaldade, tpos de tecnologas e tpos de documentos. A pesqusa tam-

bém mostrará característcas dos servdores Web, consderando aspectos de

geolocalzao, sncronzao de timestamp e preparao para protocolo

iPv6.

Portanto, é com satsfao que o CGi.br dvulga o resultado dessa pesqusa e

a análse sobre o seu sgnfcado, com a expectatva de que esses dados se-

 jam mportantes ferramentas de compreenso e evoluo da Web braslera.

Hartmut Richar GaerDretor Executvo - CGi.br

Page 11: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 11/93

Page 12: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 12/93

Page 13: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 13/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m   e

  s   t  u   d  o   d  o .  g  o  v .   b  r

     i     n     t     r     o     d     u     ç      ã     o

13

introduoA internet é provavelmente a mas sofstcada tecnologa de nformao e

comuncao atualmente dsponível para a socedade, em funo da sua

forma de organzao e de seus mpactos nas esferas tecnológcas, socal,

econômca e polítca. Ela é também a nfraestrutura necessára para uma

de suas maores e mas conhecda aplcao: a Web, grande responsável

pela popularzao da internet, a ponto de hoje ser confundda com esta.

internet e Web so, portanto, concetos dstntos. A Web pode ser defnda,

grosso modo, como a parte da internet acessada por meo de navegadores,

ou browsers. 

O mpacto do uso da internet e da Web na socedade, nos ndvíduos e nas

organzaões tornou-se objeto de pesqusa, extrapolando o campo especal-

zado da computao aplcada, e atngndo áreas de estudos organzaconas

e socológcos. Por ser essencalmente dnâmca e sem fronteras, tanto do

ponto de vsta físco como vrtual, é mportante que seja conhecda em de-

talhes, tanto para assegurar sua lvre transformao quanto para permtr sua

dsponbldade, confabldade e acessbldade por todos.

Assm, o Comtê Gestor de internet do Brasl – CGi.br e o Núcleo de informa-

o e Coordenao do Ponto BR – NiC.br, por meo do W3C Brasl e do Cen-

tro de Estudos e Pesqusas em Tecnologas de Redes e Operaões – CEPTRO.

br, crou mas uma ncatva para um melhor conhecmento e entendmento

da internet braslera: o Projeto Censo da Web .br. Realzado em parcera

com a Secretara de Logístca e Tecnologa da informao do Mnstéro do

Planejamento, Oramento e Gesto (SLTi / MPOG), a Assocao Braslera

de Entdades Estaduas de Tecnologa da informao e Comuncao (ABEP)

e o insttuto Naconal de Cênca e Tecnologa para a Web (inWeb), anda

Page 14: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 14/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m

   e  s   t  u   d  o   d  o .  g  o  v .   b  r

     i     n     t

     r     o     d     u     ç      ã     o

4

com o apoo metodológco do Centro de Estudos sobre as Tecnologas de

informao e Comuncao – CETiC.br, esse projeto tem como objetvo crar

ndcadores para contrbur para o estudo e evoluo da Web braslera, cujo

escopo é defndo mas adante.

Desde meados dos anos 90, a Web braslera tem mostrado acentuado cresc-mento, tanto no número de usuáros como no leque de servos e aplcaões

oferecdos por meo da rede. É flagrante o avano de seu uso pela populao

braslera: de 37 mlhões de usuáros, em 2005, passou a aproxmadamente

65 mlhões, em 2009. igualmente mpressonante é a mudana de compor-

tamento do cdado, que utlza cada vez mas servos transaconas em

ambentes vrtuas, conforme mostram as pesqusas do CGi.br.

Para compreender o fenômeno do desenvolvmento da Web braslera, enten-

der o seu crescmento e potencal, bem como acompanhar a sua transforma-o, esse projeto e seu relatóro agora apresentados so um esforo de ses

meses de contínuo trabalho e de superao de uma equpe dante de uma

empretada novadora, únca no mundo em seu escopo e objetvos, cujos pr-

meros resultados podero ser aprecados e utlzados a partr de agora.

Como opo metodológca apresentada adante, trabalhamos ncalmente o

domíno “.gov.br”. O que veremos nesse relatóro so as característcas e as

dmensões da “Web governamental”.

Esse relatóro dvde-se em quatro partes. A prmera, escrta por Antôno Mar-cos Moreras, gerente do CEPTRO.br, será a descro do projeto, pelo qual

ele apresenta os desafos tecnológcos enfrentados pela equpe técnca dante

de um levantamento ponero. Embora já tenha havdo ncatvas parecdas

com esse projeto Censo da Web, as quas foram útes para a concepo do

projeto e desenvolvmento da ferramenta tecnológca, a própra evoluo da

Web e as respostas buscadas às perguntas propostas tornaram-no únco.

O tópco segunte será Aspectos Metodológcos, uma descro da Metodo-

loga proposta e escrta pela inWeb, parcera técnco-centífca do projeto.Esse tópco constará de uma breve descro da metodologa escolhda e um

sumáro do processo de coleta de dados.

O penúltmo capítulo apresentará uma Análse dos Resultados, buscando

explcar a mportânca de cada ndcador defndo e compreender os resul-

tados obtdos com a complao das nformaões coletadas.

Fnalmente, apresentamos todos os ndcadores do domíno “.gov.br” com

suas respectvas tabelas de resultados, com alguns recortes por Estado ou

por rego.

Page 15: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 15/93

   D   i  m  e  n  s   õ  e  s  e  c

  a  r  a  c   t  e  r   í  s   t   i  c  a  s   d  a    W   e    b   b  r  a  s   i   l  e   i  r  a  :  u  m   e

  s   t  u   d  o   d  o .  g  o  v .   b  r

     i     n     t     r     o     d     u     ç      ã     o

15

Esse estudo ajudará a responder váras questões, complementando e servn-

do de subsído para outras aões. Por exemplo: Quantos sítos há na Web.

br? Qual o tamanho da Web.br, e como se dá seu crescmento? Que tpo de

tecnologas so utlzadas? Onde os sítos Web esto hospedados? No Brasl

ou no exteror? Os sítos so aderentes aos padrões Web, como HTML e CSS?

Os sítos so acessíves? Há suporte a iPv6? Quas tecnologas so usadas

para os servdores, págnas, magens, documentos, vídeos etc? Os servdores

mantém seus relógos sncronzados com a Hora Legal Braslera?.

A proposta deste projeto é que ele seja realzado anualmente e esperamos

que os seus resultados contínuos possam servr para que nsttuões públcas,

prvadas e acadêmcas possam medr e acompanhar a evoluo da Web bra-

slera e das polítcas públcas governamentas na área de governo eletrônco.

Vagner Diniz

Gerente - W3C Escrtóro Brasl

Page 16: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 16/93

Page 17: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 17/93

   D     m      

   õ        

        

          í  

            

   d      W                

                 :    m

     

        d  o

   d  o .  g

  o  v .   

  

   C   a   p    í   t   u   l   o    1

   O   s

   D   e   s   a   f   i   O   s   t

    é   c   n   i   c   O   s

   p   a   r   a   O

    e   s   t   u   D   O

    D   a

    W    e    b   b   r   a   s   i   l   e   i   r

   a

17

CAPÍTULO 1

Os desafos técncos parao estudo da Web braslera

Page 18: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 18/93

Page 19: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 19/93

   D     m      

   õ        

        

          í  

            

   d      W                

                 :    m

     

        d  o

   d  o .  g

  o  v .   

  

   c   a   p    í   t   u   l   o    1

   O   s

   D   e   s   a   f   i   O   s   t

    é   c   n   i   c   O   s

   p   a   r   a   O

    e   s   t   u   D   O

    D   a

    W    e    b   b   r   a   s   i   l   e   i   r

   a

19

Os desafos técncos para

o estudo da Web brasleraNo CEPTRO.br, nossa curosdade pela Web fo aguada ao realzarmos

alguns estudos smples sobre a geolocalzao dos servdores que hospe-

davam os domínos “.br”, apresentados nas duas últmas reunões do PTT

Fórum1, evento destnado aos Sstemas Autônomos brasleros − redes que

compõem a internet. Esses dados nos nformavam que mas de um tero dosservdores Web estavam hospedados fora do Brasl, cenáro muto aquém do

deal, já que mplca em latêncas mas altas e custos mas elevados para os

provedores de acesso naconas, embora o valor de hospedagem para o síto

possa ser menor. Precsávamos saber mas. Que tpos de sítos eram esses?

Eram os mas ou menos mportantes? Grandes ou pequenos? Voltados ao

mercado naconal ou ao exteror?

Conduzmos também um projeto para a dssemnao do iPv6 no país, e

acompanhar a sua adoo na Web braslera sera um ótmo ndcador da

efetvdade de nossas aões. De forma semelhante, gostaríamos de saber se

os servdores Web estavam sncronzados com a hora correta, o que é reco-

mendado pelo CGi.br e possbltado através do servo NTP.br oferecdo

em conjunto com o Observatóro Naconal. Quando o escrtóro do W3C

apresentou-nos o desejo e a necessdade do governo de conhecer melhor

a aderênca aos padrões de acessbldade dos sítos, percebemos que real-

mente era uma necessdade conhecer melhor a Web braslera e decdmos

1 PTT - Ponto de Troca de Tráfego

Page 20: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 20/93

   D     m      

   õ        

        

          í  

            

   d      W                

                 :    m

     

        d  o

   d  o .  g

  o  v .   

  

   c   a   p    í   t   u   l   o    1

   O   s

   D   e   s   a   f   i   O   s   t

    é   c   n   i   c   O   s

   p   a   r   a   O

    e   s   t   u   D   O

    D   a

    W    e    b   b   r   a   s   i   l   e   i   r   a

0

nos dedcar ao projeto. No tínhamos dea, contudo, do tamanho do de-

safo ao qual nos proporíamos, prncpalmente em seus aspectos técncos.

A forma como é consttuída a Web, por s só, traz dversas dfculdades.

Por exemplo, no há realmente uma “Web braslera”; a World Wide Web,

como o própro nome dz, é uma rede de alcance mundal. Lmtar o escopodo estudo fo o prmero dos desafos. O que faríamos? Consderaríamos a

lnguagem das págnas? Se o fzéssemos, havera a dfculdade em s, de

dentfcar o doma, e o rsco de consderarmos sítos dos demas países lu-

sófonos. Consderaríamos, ento, a geolocalzao dos servdores utlzados

para hospedar a Web? Sabíamos de antemo que uma grande percentagem

dos domínos “.br” estavam hospedados fora do país. Decdmos consderar

apenas a Web formada pelos domínos “.br”, conscentes de que há sítos

naconas hospedados em outros domínos que fcaram fora do estudo. Para

mnmzar o problema, consderamos no estudo os sítos sob outros domí-

nos encontrados por meo de um redreconamento a partr de uma URL que

apontasse para um “.br”.

A Web é uma rede cujos conteúdos esto nterlgados através de documen-

tos de hpertexto. Seu estudo é possível por um processo de análse e coleta

sucessva das págnas, a partr de um conjunto de sítos prevamente conhec-

dos. Essa busca é feta de forma automátca por um programa de computador

normalmente chamado de crawler, coletor, ou batedor. Nem toda a Web está

nterlgada, contudo, embora a maor parte dela esteja: há “lhas” de tama-nhos varados sem lgao com o restante da rede. isso sgnfca que o conjun-

to ncal de sítos a partr dos quas a pesqusa é feta nfluenca o resultado,

e encontrar o conjunto adequado, geralmente o mas completo possível, é um

passo mportante. Na coleta do “.gov.br”, por exemplo, a stuao deal sera

conhecermos os domínos regstrados dretamente sob o “.gov.br”, mas os

domínos regstrados sob as sglas das undades federatvas, como “.sp.gov.br”.

Os prmeros esto sob responsabldade do Governo Federal, e obtvemos a

base; os demas so responsabldade dos Governos Estaduas e contamos como apoo da ABEP (Assocao Braslera de Entdades Estaduas de TiCs) em sua

obteno. Anda assm, apenas 8 undades federatvas havam nos envado os

dados na época da coleta, obrgando-nos a, palatvamente, complementar os

dados usando sítos encontrados em buscadores Web.

Há também armadlhas para o processo de coleta: sítos com um número

nfnto de págnas, geradas dnamcamente. Elementos smples, como um

calendáro gerado automatcamente no síto, podem crar stuaões desse

gênero. Lmtes de tamanho e profunddade têm de ser estabelecdos, com o

rsco de mpedrem a coleta de partes de sítos maores que estes.

Page 21: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 21/93

   D     m      

   õ        

        

          í  

            

   d      W                

                 :    m

     

        d  o

   d  o .  g

  o  v .   

  

   c   a   p    í   t   u   l   o    1

   O   s

   D   e   s   a   f   i   O   s   t

    é   c   n   i   c   O   s

   p   a   r   a   O

    e   s   t   u   D   O

    D   a

    W    e    b   b   r   a   s   i   l   e   i   r

   a

21

Outro ponto a ser consderado é o que apeldamos de “Web profunda”: a

parte da rede em que é requerda a autentcao do usuáro para a navega-

o, por exemplo a maor parte dos sítos de relaconamento ou comun-

dades. Essa parte da Web é nacessível através do método utlzado, tendo

fcado fora do estudo. Exste anda a possbldade de serem consultados

servdores temporaramente ndsponíves, ou de serem encontrados sítos

sem o arquvo robots.txt, que especfca se eles podem ou no ser vstados

por batedores automatzados, ou sítos em que esse arquvo negue a poss-

bldade da coleta.

Consderamos, anda, os recursos de tempo, processamento, conectvdade

e dsco, para coletar, armazenar e processar os dados: mesmo agora, com

a prmera parte do estudo concluída, temos anda dfculdade em estmar

o que sera necessáro para um estudo no formato censtáro de toda a Web 

“.br”. As estmatvas de quantdade de dados, por exemplo, varam entre 30

e 300Tbytes, consderando-se apenas as págnas em formato HTML.

Ao aventarmos a possbldade de fazer o estudo, um dos prmeros passos

fo procurar por pesqusas smlares realzadas anterormente, e por ferra-

mentas. Encontramos algumas pesqusas de cunho acadêmco, nclusve

realzadas sobre a Web braslera, que nos auxlaram no processo. Encon-

tramos também algumas ferramentas que poderam ser aprovetadas para a

coleta dos dados. Em partcular, estudamos três programas de computador

para essa fnaldade: o Nutch, um coletor utlzado para a crao de bus-cadores; o Hertrx, usado no Web Archive, um projeto que mantém um

arquvo hstórco de parte relevante da Web; e o WiRE, utlzado em um dos

estudos acadêmcos que encontramos, escrto justamente com a fnaldade

de realzar estudos sobre a Web, tendo já embutdas algumas ferramentas

de análse que consderamos de nteresse: análse do tamanho das págnas,

tpos de documentos, domas, cálculo de rankings, etc. A concluso fo: co-

mear o estudo utlzando qualquer uma delas trara vantagens em relao

ao desenvolvmento de uma ferramenta nteramente nova. Optamos peloWiRE, prncpalmente pela exstênca das funconaldades de análse, já n-

corporadas ao programa.

Sabíamos que algumas modfcaões teram de ser fetas no WiRE orgnal.

Por exemplo, sera necessáro que armazenássemos as págnas Web ntegral-

mente, para possbltar a aderênca aos padrões, ento os arquvos HTML

coletados, que antes passavam por um fltro para elmnar algumas tags 

HTML, e eram armazenados em um grande arquvo de dados de formato

propretáro, passaram a ser armazenados ntegralmente no sstema de ar-

quvos, em pastas e subpastas, num formato smlar ao orgnal dos própros

Page 22: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 22/93

   D     m      

   õ        

        

          í  

            

   d      W                

                 :    m

     

        d  o

   d  o .  g

  o  v .   

  

   c   a   p    í   t   u   l   o    1

   O   s

   D   e   s   a   f   i   O   s   t

    é   c   n   i   c   O   s

   p   a   r   a   O

    e   s   t   u   D   O

    D   a

    W    e    b   b   r   a   s   i   l   e   i   r   a

2

sítos. Essa modfcao ajudou também a tornar o WiRE mas escalável.

Outra modfcao fo feta para acertar o comportamento do software em

relao aos redirects, de forma que se adequasse à defno de Web bras-

lera explcada anterormente.

Embora o WiRE tvesse sdo usado em város estudos acadêmcos, foramnecessáras anda dversas novas mplementaões e correões de comporta-

mento para que o consderássemos pronto para ser usado no estudo. Fzemos

uma melhora sgnfcatva na ferramenta de dentfcao de domas, com

objetvo de melhorar seu desempenho. Pode-se ctar anda, nesse contexto:

a normalzao das págnas segundo a RFC3986, o tratamento do HTTP 1.1,

com a transferênca progressva dos dados, a melhora do tratamento da co-

dfcao das págnas, a aleatorzao da ordem em que os documentos so

baxados e mudanas no tratamento das lstas de sítos a serem percorrdos,

além de dversas correões de bugs. O WiRE é uma ferramenta dfícl de ser

testada. Para alcanar esse resultado, foram necessáros meses de desenvol-

vmento, e mutas coletas de partes sgnfcatvas da Web braslera.

Gostaríamos, com o estudo da Web, de responder a váras questões que

no estavam contempladas nos resultados das análses fetas pelo WiRE. Por

exemplo: a geolocalzao dos servdores, a aderênca ao iPv6 e ao NTP, e

a aderênca aos padrões HTML e de acessbldade (eMAG / WCAG). Essas

análses poderam ser ncorporadas ao WiRE ou mplementadas numa fer-

ramenta separada. Optamos pela segunda alternatva, de forma a evtar ansero acdental de novos bugs no códgo do WiRE, com o qual anda no

estávamos completamente famlarzados. Fo crada a ferramenta cujo nome

provsóro é Análseinternet, que realza os testes ctados, e tem a funo

adconal de armazenar tanto os dados do WiRE, quanto os de suas própras

análses, num banco de dados únco. Reutlzamos, quando possível, ferra-

mentas já prontas. Por exemplo, para verfcar a aderênca ao padro HTML

usamos o valdador crado pelo W3C, rodando localmente, o qual é consul-

tado pelo Análseinternet. Para os testes de acessbldade, ncorporamos aoprograma rotnas do ASES, programa desenvolvdo pelo Governo Braslero.

Ao termnar a análse dos dados desse prmero estudo parcal, da Web “.gov.

br”, concluímos que temos um conjunto de ferramentas confáves que nos

servro bem nos estudos adconas que faremos. Sabemos, no entanto, de

lmtaões que anda precsam ser vencdas, por sso modfcaões contnu-

am a ser fetas, segudas de testes extensvos. Dentre as modfcaões em

curso, podemos destacar: a análse do tempo correto através do protocolo

NTP, no lugar de usar apenas a hora fornecda pelo própro HTTP, quando

possível; a contagem do tamanho dos objetos no HTML presentes nas pá-

Page 23: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 23/93

   D     m      

   õ        

        

          í  

            

   d      W                

                 :    m

     

        d  o

   d  o .  g

  o  v .   

  

   c   a   p    í   t   u   l   o    1

   O   s

   D   e   s   a   f   i   O   s   t

    é   c   n   i   c   O   s

   p   a   r   a   O

    e   s   t   u   D   O

    D   a

    W    e    b   b   r   a   s   i   l   e   i   r

   a

23

gnas, como magens e vídeos, sem baxá-los, através de consultas HTTP

HEAD; a melhora no tratamento às “armadlhas” ctadas anterormente e a

melhora na velocdade das coletas e análses. Além dsso, há a necessdade

de automatzarmos parte das análses estatístcas necessáras para a gerao

deste relatóro, com a possbldade de utlzao de ferramentas do tpo

Data Warehouse e Data Mining.

Estamos, anda, nos preparando para em breve tornar públcos os códgos

utlzados, com lcenas lvres, de forma a garantr a transparênca total so-

bre a metodologa e, quá, consegur a colaborao de outros desenvolve-

dores e utlzadores dos programas para vencer os muto desafos que anda

nos restam.

 Antonio M. MoreiraGerente - CEPTRO.br

Page 24: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 24/93

Page 25: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 25/93

   D         n  s   õ    s    c

    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u       s     u   d     d   .      v .   b  r

   C   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i

   a

25

CAPÍTULO 2

Metodologa

Page 26: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 26/93

Page 27: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 27/93

   D         n  s   õ    s    c

    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u       s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i

   a

27

Metodologa 

Concetos e orentaões parao Censo Web .br

A palavra censo orgna-se no latm census e sgnfca hoje a “contagem ou

enumerao completa” de uma populao de ndvíduos ou objetos determ-

nados. Portanto, censo é o resultado fnal de uma contagem específca que

defne o conjunto de dados estatístcos sobre as dversas varáves de uma

populao nvestgada.

Para a realzao de um censo, é fundamental defnr rgorosamente o con-

ceto das undades empírcas que sero objetos de análse, além dos proce-

dmentos técnco-metodológcos para elaborao do quadro populaconal

(defno dos perfis e dos lmtes da populao objeto de nvestgao), co-

leta dos dados (característcas ndvduas a serem dentfcadas) e tabulao

dos resultados (defnda segundo os requstos de um plano tabular).

Neste sentdo, a possbldade de realzao de um censo está dretamentecondconada ao conhecmento e à defno préva dos “lmtes populaco-

nas” aos quas devem-se ater os objetos ndvduas a serem recenseados.

Em outras palavras, para o estudo do tamanho e composo da Web bras-

lera, é necessáro a defno de seus domínos e consequentes lmtes.

Ento, para uma prmera consoldao de um Censo da Web Braslera, de-

fnram-se concetualmente as undades a serem pesqusadas como aqueles

sítos da Web referencados por um nome sob o domíno .BR. Assm sendo,

assume-se que um conteúdo pertence à Web braslera se o domíno de topo

do nome do seu síto Web respeta uma das seguntes condões:

Page 28: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 28/93

   D         n  s   õ    s    c    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u  

     s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i   a

8

1. Está sob a herarqua .BR;

2. No está sob a herarqua .BR, mas exste um redreconamento a partr de

um domíno sob o .BR. para ele. Por exemplo, uma empresa multnaconal

que regstra o domíno .BR com a sua marca, porém o aponta (redrecona)

para o síto Web prncpal da empresa que está sob a herarqua .com.Consderaram-se, anda, em algumas das análses, os links para documentos

presentes nas págnas de sítos .BR, mesmo que estejam hospedados fora

desta herarqua de domínos.

Contudo, um dos maores problemas encontrados até agora para a consecuo

deste censo esbarra exatamente na topologa do unverso vrtual da Web, que

lmta a capacdade técnca de mensurao do tamanho e composo real

do que sera uma “populao de domínos e objetos vrtuas”. Para além das

questões que cercam a complexdade de dentfcao dos lmtes da “Web profunda”, o própro espao conhecdo da Web .br, por exemplo, devdo à

sua dnâmca nerente, parece ntratável quanto as técncas de rastreamento

e coleta de nformaões, dficultando em muto o trabalho de contagem e de

dentfcao dos perfs de domínos e de objetos e, prncpalmente, sobre o

conhecmento da “populardade” desses objetos na populao.

Dante do quadro de ncertezas sobre a dnâmca, tamanho e composo da

Web, em prncípo parecera extrema ousada a proposo de uma metodo-

loga rgorosa de ampla aplcao para mensurao objetva da Web bras-lera. Portanto, dexa-se claro que o avano e consoldao dessa metodolo-

ga refere-se a um processo maor e ntegrado de planejamento sstemátco

sobre dferentes etapas que devem definr um modelo para “dentficao”,

“coleta”, “valdao” e “análse” de todas as nformaões dsponíves para

determnao de uma populao de domínos .br.

Em outras palavras, há a conscênca de que a aplcao do conceto de

“censo” e a determnao de uma “populao de domínos” deve ocorrer

em perspectva e consoldar uma metodologa aproprada para a realzaorgorosa de uma contagem defntva em um futuro próxmo, que se realzará

a partr do aperfeoamento dessa metodologa e das contagens sucessvas

que se pretende conduzr desde agora. Nesse momento, desenvolvem-se

essa metodologa e sua padronzao para realzaões futuras.

Para a defesa da dea de um “Censo da Web .br”, poder-se-a se traar um

paralelo com a metodologa consoldada nos estudos de populao em ge-

ral, nomeadamente a área da Demografia. Assm, um ponto fundamental a

ser defindo no Censo da Web .br é a realzao eventual de uma contagem/ enumerao completa da populao de domínos .br. Partndo da experên-

Page 29: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 29/93

   D         n  s   õ    s    c

    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u       s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i

   a

29

ca desenvolvda na Demografia, para proceder à enumerao propramente

dta, é necessáro definr concetualmente o que é “populao”; faz parte

desse entendmento definr também o conjunto de técncas necessáras para

a dentficao e regstro dessa populao [1].

Por exemplo, para a contagem da populao humana, definem-se os dom-cílos de referênca onde resde nequvocamente cada ndvíduo membro

da populao-alvo. Assm, a contagem pode ser feta por meo do regstro

fiducáro de móves em prefeturas muncpas. Nesse caso, o censo podera

se resumr smplesmente à coleta de nformaões em cada prefe tura do país

sobre o regstro fiducáro de cada domcílo e soma efetva de todos os mem-

bros assocados a cada domcílo enumerado. No caso dessa contagem popu-

laconal (de ndvíduos), parte-se do pressuposto (forte em demografia) de que

cada pessoa faz parte de um domcílo, ou seja, resde em um e apenas um

domcílo (exstem exceões e também técncas para ajustar tas exceões).

Assm, quando se enumera a populao braslera, aponta-se um quadro

populaconal defindo, baseado nos domcílos e nos ndvíduos referdos à

undade de resdênca, e as técncas de contagem da populao resumem-se

à qualficao do desenho de pesqusa e organzao no trval do trabalho

de campo, ou efetvamente à qualdade do trabalho dos recenseadores em

cada domclo exstente (e devdamente regstrado) para catalogar o número

de resdentes em cada habtao.

A partr desse pequeno exemplo, magna-se a aplcao de uma lógca se-

melhante de pesqusa para enumerao da Web braslera. O ponto prncpal

sera definr um lmte referencal para o unverso da populao alvo, mesmo

que este seja apenas estmado e nunca verficado emprcamente, pos, nes-

se caso, o que mporta é estabelecer uma “métrca” como referênca para

análse dos objetos coletados em dferentes momentos no tempo. Assm,

parte-se das nformaões coletadas sobre os regstros oficas dos domínos

.br como uma referênca sobre a populao alvo; os lmtes referencas para

a populao so dados pela defino do domíno de prmero nível .br .Segundo a lógca demográfica ndcada, a partr da defino de uma “ma-

lha dgtal” dos domínos regstrados “.br”, estabelecem-se os vínculos de

cada objeto ndvdual observável do unverso vrtual com seu domíno de

referênca. Consequentemente, obtém-se um quadro populaconal defindo

bascamente pelo tamanho do conjunto de domínos de prmero nível e sua

composo por objetos atrbuídos.

Contudo, esse procedmento em s mesmo no resolve todo o problema da

contagem, porque no ndca uma dea real do tamanho da Web; além ds-

Page 30: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 30/93

   D         n  s   õ    s    c    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u  

     s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i   a

0

so, sabe-se que o rastreamento efetvo de toda a populao (tanto a da popu-

lao humana quanto a de objetos na Web), ou seja, a chamada “cobertura

censtára”, perfeta em qualquer contagem, depende de uma sére de fatores

mutas vezes no controlados, que nvablzam um fechamento completo

da enumerao. Por exemplo, a contagem de ndvíduos em um domcílo

pode ser prejudcada pela recusa do resdente em receber um recenseador.

Assm, até mesmo em Demografia, exstem lmtaões para a realzao de

“censos perfetos” e, recorrentemente, os melhores censos demográficos as-

sumem um erro de cobertura acetável entre 2 a 8% dos ndvíduos/domcí-

los em relao à populao total.

Em que pesem as lmtaões mpostas pelo própro processo de coleta (qual-

dade dos batedores/recenseadores), dstrbuo populaconal (objetos sola-

dos ou natngíves) e natureza dnâmca da Web, exstem também métodos

demográficos específicos para correo dos erros de cobertura censtára,

que poderam ser estenddos e aplcados no caso do Censo da Web .br. Nes-

se caso, a questo sera definr o “grau de cobertura” em relao à provável

populao real e, a partr desse parâmetro, promover a correo do tamanho

efetvo da populao alvo.

Esse relatóro enseja um prmero esforo a fm de estabelecer a metodologa

capaz de estmar o chamado “grau de cobertura” para a consequente corre-

o das estmatvas do tamanho da Web .br.

Chega-se, assm, ao desafio segunte, um segundo ponto: a defino de um

procedmento metodológco rgoroso para estmar o grau de cobertura e o

tamanho mas provável da populao-alvo.

Aqu surgem alguns desafios que têm sdo estudados para se adequarem à

aplcao metodológca no âmbto da computao e da estmatva do ta-

manho da Web .br. Em prncípo, exstem duas formas báscas de cálculo

da cobertura e estmatva do tamanho real de uma populao: 1) estmar a

cobertura em um censo, a partr da comparao demográfica com um censo

anteror; 2) utlzar técncas estatístcas específicas para se definrem popu-

laões dfíces de serem contadas (raras);

1. No caso da estmatva de cobertura a partr de dos censos, exstram

duas lmtaões medatas para aplcao no Censo da Web .br. Prme-

ro, sera necessáro haver um censo (ou pelo menos um esforo dêntco

de contagem de todos os domínos .br) num tempo T1, e outro num

tempo T2. Na análse demográfica tradconal de populaões humanas,

utlzam-se dos censos como parâmetro para se balzar todo o período

de exposo da populao-alvo que, medante análses demográficas

Page 31: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 31/93

   D         n  s   õ    s    c

    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u       s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i

   a

31

dretas e ndretas sobre as “entradas” e “saídas” de ndvíduos da po-

pulao geral, possbltaro a estmatva se gura de um tamanho e de

uma composo populaconal. Assm, na realdade, essa metodologa

propõe tomar uma populao exposta num período qualquer e, a partr

do seu regstro dreto (sto é, da contagem em dos momentos dstntos),

utlza varáves estruturas específicas para estmar efetos dretos e nd-

retos de transformao da populao do tempo orgnal T1 para T2. Ao

comparar as resultantes entre o modelo do tamanho e da composo da

populao esperada com a populao observada no segundo momen-

to, obtém-se uma defno aproxmada do tamanho populaconal no

tempo T2. isso Demanda um conhecmento específico sobre a estrutura

populaconal, ou seja, que se conheam as varáves populaconas prn-

cpas (no caso da demografia humana, so as varáves de dade e sexo,

pos expressam dretamente o efeto de entrada e saída – nascmento -óbtos na populao geral) que definem a estrutura da populao e sua

dnâmca. A replcao dessa metodologa estrta, no caso do Censo da

Web .br, no se mostra factível, dada a nexstênca de varáves estrutu-

ras da populao de domínos e objetos.

2. Há uma segunda metodologa que se apresenta mas adequada e plena-

mente realzável para a consecuo do Censo Web .br., e dz respeto

às técncas estatístcas desenvolvdas para estmatvas de tamanhos de

populaões raras ou dfíces de contar. Uma das técncas de estmatvasde tamanho populaconal mas utlzadas nas cêncas bológcas (e

também na demografia para controle do grau de cobertura censtára)

para contar populaões ecológcas é a chamada “captura-recaptura”

[7, 1]. A replcao dessa técnca consste bascamente em enume-

rar o unverso dos domínos .br e dentfcá-los (marcá-los) um a um.

Na realdade, basta um dentfcador exclusvo para cada domíno que

surgu na amostra dessa prmera enumerao. Depos de um ntervalo

de tempo sufcente para haver transformaões nessa populao (por

exemplo, surgmento de novos domínos), proceder-se-a a uma segun-

da enumerao, segundo os mesmos parâmetros executados na coleta

anteror. Tem-se assm duas amostras da populao de domínos, em

que os ndvíduos expostos (domínos .br e seus objetos vnculados) em

uma amostra no necessaramente aparecero na amostra segunte, e

vce-versa. Utlza-se, ento, um modelo matemátco smples para es-

tmar o tamanho provável da populao total a partr da probabldade

de haver defasagens e repetões da presena dos domínos em dferen-

tes amostras da mesma populao (domínos .br e seus objetos vncula-

Page 32: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 32/93

   D         n  s   õ    s    c    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u  

     s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i   a

2

dos). Consequentemente, estabelecer-se-a, a partr dos procedmentos

de “captura-recaptura”, uma metodologa rgorosa e estatstcamente

segura para estmatva do tamanho real de uma populao com estru-

tura desconhecda.

Como se afirmou, talvez o maor problema para a consecuo de um censo sejao estabelecmento dos parâmetros de cobertura censtára, vsto que a “cober-

tura” reflete o grau de acudade da contagem frente à populao ncal, cuja

contagem pressupõe que seus lmtes (espacas e temporas) sejam definíves a

 priori , de manera que o resultado final da contagem e lstagem reflta realstca-

mente o total de “objetos” que devem fazer parte da populao ncal.

Em geral, quando se conhece de antemo a populao a ser nvestgada (es-

pecalmente quando se conhece seu tamanho no tempo ncal T1), pode-se

defnr a estmatva do grau de cobertura (por exemplo, o grau de acudadedo censo) a partr de técncas demográficas dretas e ndretas, comparando-

se a composo populaconal nos tempos T1 e T2; entretanto, esse é o caso

específico de populaões humanas, como ficou claro no tem 1.

A defasagem na composo populaconal de T1 e T2 deve-se a dos fatores:

mudanas efetvas nas característcas populaconas ao longo do tempo, e

erro de cobertura da contagem/lstagem de objetos e característcas nos cen-

sos em T1 e T2.

No caso dos censos demográficos tradconas, o erro de cobertura é umaconsequênca dreta da omsso ou ncluso ndevda de domcílos partcu-

lares e das pessoas neles resdentes, assm como das pessoas resdentes em

domcílos partculares ocupados e consderados os mesmos nos dos censos

comparados (T1 e T2). No caso do censo da Web .br, os erros de cobertura

sero consequenca dreta da omsso ndevda de sítos .br (e de seus obje-

tos vnculados) numa contagem em T1 e outra, em T2.

A medo do erro de cobertura é essencal, pos pode nformar o grau de pre-

cso (acudade) das medões do tamanho da Web braslera e, caso necessá-ro, orentar os parâmetros para correo das estmatvas. Ento, a medo do

erro de cobertura é feta a partr da construo de ndcadores de omsso de

sítos (equvalentes aos domcílos) e objetos (equvalentes às pessoas).

No por acaso o método escolhdo para estmao desses ndcadores é o

chamado Dual Sstem Estimation [4, 3, 1], uma metodologa baseada na téc-

nca de “captura-recaptura”, referda no tem 2. cujo pressuposto é a amos-

tragem e as coletas semelhantes em dos (ou mas) momentos no tempo,

tendo a ndependênca estatístca entre as amostras/coletas como requsto.No caso do desenvolvmento dessa metodologa para a medo da Web .br,

Page 33: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 33/93

   D         n  s   õ    s    c

    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u       s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i

   a

33

deve-se garantr a ndependênca em relao ao lanamento das sementes

e do batedor (ferramenta de contagem), a partr de uma mesma lsta de do-

mínos. Nesse momento, desenvolve-se uma nova metodologa para valdar

os dados da coleta, vsando uma estmatva da cobertura censtára, cons-

derando nformaões relaconadas às quantdades de domínos regstrados

(nesse caso, especficamente, aqueles regstrados com domínos do “gov.

br”), erros retornados no procedmento de coleta de dados e ndcadores

relaconados ao contexto da Web, como crescmento do volume de domí-

nos regstrados, modficao do tamanho de objetos nformaconas, dentre

outros. Esses resultados podero ser acompanhados mas adante, na seo

de apresentao de resultados e desdobramentos.

Como se trata de algo novo, a proposta é a evoluo da metodologa a ser

adotada com o tempo, a partr de novas coletas realzadas e novas técncas

propostas para tratar um censo de objetos da Web.

A segur, descrever-se-á brevemente o método de estmao da cobertura

censtára e do seu grau de acudade. O método utlzado para cálculo

dos ndcadores de “omsso” (erro de cobertura) será o Dual Sstem Esti-

mation, que se basea nas técncas de “captura-recaptura”. Sua utlzao

requer ndependênca na coleta das duas pesqusas (coletas em T1 e T2) e

pressupõe o confronto das nformaões da segunte manera (lustrada na

Tabela 2.1), onde:

a é o número de undades ncluídas em T1 e T2;

b é o número de undades ncluídas apenas em T1;

c é o número de undades ncluídas apenas em T2;

d é o número de undades desconhecdas que no foramncluídas nem em T1 nem em T2 (desconhecdo) e;

t é o total de undades da populao.

COlETA T1

COlETA T2

TOTAlUNIdAdEsINClUídAs

UNIdAdEsNãO INClUídAs

TOTAl t a + c b + d

UNIdAdEsINClUídAs a + b a b

UNIdAdEsNãO INClUídAs c + d c d

Tabela 2.1: Tabela de informaões “Captura-Recaptura”

Page 34: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 34/93

   D         n  s   õ    s    c    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u  

     s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i   a

4

Apenas d é, de fato, um dado desconhecdo, pos é o provável número de

sítos no coletado nas amostras em T1 e T2 [4]. Quando se compara a pr-

mera “captura” em T1 com o resultado da “recaptura” em T2, observa-se

que o erro de cobertura (d) pode ser corrgdo a partr das probabldades

conhecdas para a, b e c, ou seja, P(T1)=a+b e P(T2)=a+c, vsto que a so os

sítos ncluídos em ambas coletas; b é composto pelos sítos coletados em

T1, mas que no foram recapturados; e c so os sítos no capturados em T1,

mas capturados em T2.

Fnalmente, a partr das coletas sucessvas (que podem ser ampladas para

uma sére temporal maor), poderemos:

•Calcular o tamanho do erro de cobertura (d); como output sero

defindas “taxas de omsso”;

•Estmar o tamanho da Web .br e do número de págnas vncula-das, em uma data específica;

•Estmar tamanhos em dferentes pontos no tempo para avala-

o da evoluo da Web braslera (por exemplo, crescmento e

dnâmca da estrutura e composo da Web);

•Estabelecer ndcadores varados, segundo as dversas caracte-

rístcas de composo dos sítos e págnas da Web .br.

Aplcao

Em resumo, até esse momento dscutram-se as possbldades reas para

replcao de um censo demográfico sobre a populao de domínos .br.

Como já se ressaltou, a realzao efetva de uma contagem/enumerao po-

pulaconal que permta estmar o tamanho e composo da Web braslera

mplca uma metodologa no trval, e que anda está em desenvolvmentopara consoldao.

Nesse prmero esforo, desenvolvem-se as aplcaões necessáras para de-

termnao do quadro populaconal a ser trabalhado (domínos .br e seus

objetos vnculados), as técncas apropradas de coleta e valdao dos pro-

cedmentos e nformaões coletadas, bem como a metodologa adequada

para análse e afero do tamanho da Web .br.

Para se atngrem os objetvos traados ncalmente, fo precso redefinr

os procedmentos e orentaões do estudo, expermentalmente aplcados

Page 35: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 35/93

   D         n  s   õ    s    c

    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u       s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i

   a

35

à coleta restrta dos domí nos .gov.br. A partr dessa prmera experênca,

testaram-se alguns procedmentos para estmatva do tamanho populaconal

da Web braslera sob os domínos .gov.br.

Nesse prmero momento, o objetvo restrnge-se à tentatva de aplcao,

avalao e valdao dos procedmentos metodológcos pré-defindos. Asegur, descreve-se seu “passo-a-passo”:

Defino da pergunta e os dadospara respondê-la

Prmero, o objetvo é definr uma estmatva para o tamanho da parte daWeb .br sob o domíno .gov.br. Para tal, utlzaram-se as nformaões sobre o

número de sítos (.gov.br) coletados em dos momentos dstntos, bem como

o número de págnas referdas ao conjunto de sítos coletados.

Portanto, há duas varáves báscas: 1) número de sítos .gov.br, e 2) número

de págnas vnculadas aos sítos coletados.

Em segundo lugar, como a coleta do .gov.br fo feta em dos momentos ds-

tntos (T1 e T2), a que o número de sítos e págnas dz respeto. Como forma

de se garantr a aplcao do método de “captura-recaptura” para estmaro tamanho da Web .gov.br, as duas coletas fetas em T1 e T2 satsfazem os

requstos necessáros (ndependênca das coletas, e garanta do lanamento

aleatóro das sementes).

Breve descro da metodologa

O método conhecdo como Dual Sstem Estimation (DSE) – aqu tratado

como método de “captura-recaptura” – é comumente utlzado pelos nsttu-

tos naconas de estatístcas de populao, especalmente para conferênca

(checagem) da qualdade censtára [7, 1].

As estmatvas sobre o tamanho da populao dervam de relaões matemá-

tcas e de estatístcas elementares, desde que alguns pressupostos fundamen-

tas sejam observados: ndependênca das coletas, dstrbuo aleatóra dos

objetos na populao e a mesma chance aleatóra de o objeto ser coletado

em todas as coletas. Claramente, alguns desses pressupostos no so ob-

Page 36: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 36/93

   D         n  s   õ    s    c    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u  

     s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i   a

6

servados emprcamente no unverso da Web. Em especal, a dstrbuo

aleatóra de objetos e de suas conexões no unverso online (sabe-se que a

topologa da rede online possu uma dstrbuo em escala-lvre, observan-

do os requstos de uma power law e, consequentemente, a dstrbuo de

vértces e arcos no segue um padro) [2, 5, 6].

De qualquer forma, nca-se a aplcao de uma metodologa que deve ser

ajustada ao unverso da Web, como fizeram Janguo Lu e Dngdng L para

estmar o tamanho da Web profunda [6]. Observa-se, portanto, que exste

uma correspondênca plausível entre as estmatvas e as coletas fetas.

Para a compreenso do método “captura-recaptura”, consderou-se uma po-

pulao desconhecda (o tamanho da Web .gov.br), cujos objetos (ndví-

duos) foram lstados em um prmero momento, gerando um conjunto de

objetos n1, e posterormente, em um segundo momento, um conjunto deobjetos n2. É mportante frsar que a lstagem representou a coleta exaustva

de todos os objetos da populao-alvo. Ao se comparar os dos conjuntos

coletados (n1 e n2), notou-se que exste um conjunto m de objetos duplca-

dos, sto é, objetos presentes nas duas coletas.

Assume-se que as duas coletas so ndependentes e que os objetos coletados

têm a mesma probabldade de serem coletados em ambas as coletas. Como

mostram Alho e Spencer [1], o conjunto de objetos duplcados m segue

uma dstrbuo de probabldade hpergeométrca quando conhecemos o

tamanho da populao total de objetos N (observados e no observados).

Pode-se, ndretamente, a partr da equao da dstrbuo de probab-

ldade hpergeométrca, estmar o tamanho total da populao N a partr de

um estmador de máxma verossmlhana que torne o conjunto de objetos

m observados o mas provável possível.

Portanto, o estmador EN será o valor de N que maxmza a probabldade

de o conjunto observado de objetos duplcados m ser verdadero para toda a

populao. Aqu o estmador de máxma verossmlhana é:

em que n1 e n2 representam o conjunto de objetos coletados em cada mo-

mento T1 e T2, e m representa o conjunto de objetos coletados em ambos

momentos.

A equao 3.1 mostra o estmador clássco do método de “captura-recap-

tura”, defindo desde Francs Bacon (1560) e renventado dversas vezes,

até a consoldao com Laplace (1802) e a sua especficao no campo da

 

Page 37: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 37/93

   D         n  s   õ    s    c

    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u       s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i

   a

37

bologa com Petersen (1896), conhecdo como estmador de Petersen [7, 1].

Além dsso, outros estmadores foram desenvolvdos para se adequarem à

realdade empírca dos dados. Apenas para efetos comparatvos, ndca-se

aqu um estmador dervado de Petersen, utlzado por Lu e L [6], o conhe-

cdo estmador de Shumacher, ndcado para populaões com dstrbuo

unforme, vsto ser objetvo do grupo de trabalho aprofundar o conhecmen-

to sobre a metodologa e desenvolver estmadores adequados à realdade

empírca da Web .br.

Resultados

  VAlOREs síTIOs síTIOs Ok PáGINAs HTMl Ok

N1 18.911 12.891 6.334.054

N2 19.300 12.279 6.575.751

N1 -N2 = M 18.053 11.309 3.459.590

N1 + N2 = T 20.158 13.861 9.450.215

Tabela 2.2: Tabela de Resultados

Usando as técncas apresentadas na metodologa para avalar a estmatvapara sítos (Hosts), os valores obtdos foram:

•Razo de Consstênca (fator de correo)

•Estmador Clássco de Shumacher

 

Usando as técncas apresentadas na metodologa para avalar a estmatva

para sítos com págnas váldas, Sítos OK, os valores obtdos foram:

•Razo de Consstênca (fator de correo)

•Estmador Clássco de Shumacher

Aplcando essas mesmas técncas para avalar a estmatva para Págnas da

Web (Págnas HTML váldas), os valores obtdos foram:

•Razo de Consstênca (fator de correo)

•Estmador Clássco de Shumacher

1,0029 

12.039.334 

1,2740 

20.217 

1,0097 

13.996 

Page 38: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 38/93

   D         n  s   õ    s    c    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u  

     s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i   a

8

Análses

Brevemente, aponta-se que os dos estmadores utlzados (Petersen e Shuma-

cher) apresentam o mesmo valor para o tamanho da provável populao de

sítos e págnas da Web .gov.br. Por meo da razo de consstênca (sto é, do

estmador de cobertura das coletas fetas), percebe-se claramente os lmtes de

coletas soladas. Em outras palavras, quando se obtém o somatóro de todos

os objetos coletados em dos momentos dstntos no tempo, têm-se um total

de 20.158 sítos, 13.861 sítos OK e 12.039.334 págnas váldas (OK), sob

o domíno .gov.br. Contudo, a razo de consstênca, fator de correo para

a cobertura das coletas, ndca que houve uma subestmatva na ordem de

0,3% para o tamanho da populao de sítos .gov.br e 0,97% para sítos OK.

No caso de págnas HTML váldas, a subestmatva fo bem mas acentuada,de aproxmadamente 27%, devdo à grande varabldade de págnas entre

as 2 coletas, justficada pela característca dnâmca da Web e também pela

natureza de suas págnas, que mutas vezes varam tecnologcamente a cada

execuo, o que dz respeto ao conceto de págnas dnâmcas.

Concluso

Os concetos adotados como parte metodológca esto adequados aos obje-

tvos do projeto e seus desdobramentos até o presente. No que dz respeto

aos ndcadores gerados e suas análses, cabe ressaltar que estas so váldas

e pertnentes às questões que se buscavam responder, respetadas às lmta-

ões exstentes em termos de coleta de dados realzada para a análse.

Em termos de estmatvas futuras e prevsões acerca do unverso de domí-

nos da Web, as técncas aplcadas até aqu anda no se mostraram efcen-

tes, dado o cenáro deste projeto ser muto dnâmco e desafador, o quedemanda novos estudos centífcos, que podero gerar novos métodos que

permtam extrapolar os resultados apresentados e fazer prevsões futuras de

mudanas da Web braslera. isso refora a boa escolha da estratéga de con-

tagem adotada até aqu para análse do unverso da Web .gov.br, que deverá

ser amplado para outros domínos nas etapas seguntes do trabalho.

Mesmo assm, exste nteresse em pesqusa e desenvolvmento de novas téc-

ncas que permtam, de forma complementar ao método de contagem (Cen-

so), fazer estmatvas e avalar tendêncas futuras para a Web braslera, a fm

Page 39: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 39/93

   D         n  s   õ    s    c

    r    c       r   í  s        c    s   d      W   e    b   b  r    s             r    :  u       s     u   d     d   .      v .   b  r

   c   a   p    í   t   u   l   o    2

   m   e   t   o   D   o   l   o   g   i

   a

39

de se posslbtar o confronto de análses e a garanta de melhor qualdade

acerca do estudo e da avalao de característcas quanttatvas e qualtatvas

sobre a Web.

Equipe tcnica

inWeb – insttuto Naconal de Cênca e Tecnologa para a Web

Bblografa

_______ [1] JUHA M. ALHO AND BRUCE D. SPENCER. Statstcal Demography andForecastng (Sprnger Seres n Statstcs). Sprnger, August 2005.

_______ [2] RiCARDO BAEZA-YATES, CARLOS CASTiLLO, and Efthms N. Efthmads.Characterzaton of natonal Web domans. ACM Trans. internet Technol., 7(2):9,2007.

_______ [3] BEVERLEY CAUSEY. Dual system estmaton based on teratveproportonal fttng. Techncal Report, Statstcal Research Report - Bureau of theCensus, Washngton, USA,1984.

_______ [4] insttuto Braslero de Geografa e Estatístca. Metodologa do censodemográfco 2000. Sére Relatóros Metodológcos, 25, 2003.

_______ [5] DANiEL GOMES E JOãO MiRANDA. Arquvo e Medo da Web Portuguesa. in Pedro isaas, edtor, Proceedngs of ibero-Amercana iADiS WWW/ internet 2008, Lsbon, Portugal,December 2008.

_______ [6] JiANGUO LU AND DiNGDiNG Li. Estmatng deep Web data sourcesze by capture-recapture method. inf. Retr., 13(1):70-95, 2010.

_______ [7] TRENT L. MCDONALD STEVEN C. AMSTRUP. Handbook of Capture-Recapture Analyss. Prnceton Unversty Press, USA, 2005.

Page 40: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 40/93

Page 41: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 41/93

   D     m      

   õ        c

  a  r  a  c

       r   í  

        c  a  

   d  a    W   e    b   b  r  a  

             r  a  :    m

     

        d  

   d   .  g

    v .   b

  r

   C   a   p    í   t   u   l   o    3

   A   n

    á   l   i   s   e

   D   o   s

   R   e   s   u   l   t   A   D   o

   s

41

CAPÍTULO 3

Análse dos Resultados

Page 42: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 42/93

Page 43: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 43/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

43

Análse dos resultados

Defnndo o conceto de Web

A World Wide Web, também conhecda como Web, ou smplesmente WWW,

é um ggantesco acervo unversal de págnas, documentos, dados, aplca-

ões e servos nterlgados por meo da rede mundal de computadores,

dsponblzado às pessoas de qualquer lugar do globo, a qualquer momento

e por dversos dspostvos, desde computadores até aparelhos móves, como

telefones celulares. Esse menso acervo pode reunr dversos tpos de conte-údos dgtas, desde págnas de hpertextos, até arquvos no formato de ma-

gens, fguras, som, vídeos, e códgos de programao, dentre outros. Todo

arquvo dsponível na Web é dentfcado por um endereo únco e exclu-

svo, chamado URL, que sgnfca Uniform Resource Locator, em português

Localzador Padro de Recursos. Uma URL ndca o local onde se localza o

arquvo dgtal na Web. Essa fo a grande nveno de Tm Berners-Lee, que,

ao crar todo um sstema de localzao na Web, possbltou que os docu-

mentos pudessem ser acessíves em qualquer lugar do globo.Cada um destes acervos é dentfcado por um nome ou domíno, comumen-

te conhecdo por Website, síto, ou síto Web. Toda vez que navegamos na

Web, dgtamos esses nomes para acessarmos os sítos que desejamos, por

exemplo: http://www.cg.br, http://www.google.com.br, http://www.receta.

fazenda.gov.br. É mportante notar que a Web, embora seja uma aplcao

poderosa e de ampla utlzao, é apenas uma parte da rede, uma aplcao.

Os nomes de domínos também têm sua organzao própra, no sendo de

uso exclusvo da Web, e esto estruturados globalmente em níves herár-

Page 44: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 44/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o   s

4

qucos. Os domínos de prmero nível so chamados de TLDs, acrônmo de

Top Level Domains; exstem dversos tpos, por exemplo o “.net”, o “.com”,

“.org”, entre outros. Os domínos que dentfcam um determnado país de

orgem, como o .br, so chamados de códgo de país ou Countr Code.

Assm, o .br é um Countr Code Top Level Domain – ccTLD, o domíno de

prmero nível do Brasl. Para o nosso caso braslero, abaxo desse domíno

de prmero nível exstem outros níves, como o “.gov.br”, o “.com.br”, o

“.org.br”. Somente abaxo desses domínos, e segundo esse esquema herár-

quco, os dversos domínos so regstrados e crados, por exemplo o domí-

no “governoeletronco.gov.br”. O correto entendmento dessa estrutura de

domínos é mportante para também compreender as análses expostas neste

documento.

As dmensões e as característcasda Web braslera

Para fns de determnao do escopo, a Web braslera é defnda no con-

texto do desse projeto como a rede formada pelos sítos de aceso públco

dentfcados por um domínos .br, mas os sítos para os quas há redreco-

namentos dretos, va servdor, a partr de um síto.br, dos quas analsa-se

apenas a págna prncpal.

De acordo com dados do Registro.br, autordade de regstro para nomes de

domíno no Brasl, o mês de mao de 2010 fo encerrado com cerca de 2,1

mlhões de nomes de domínos regstrados sob esse respectvo ccTLD, os

quas contêm sítos das mas varadas nsttuões prvadas, governamentas,

nsttuões de ensno, organzaões do tercero setor, profssonas lberas,

pessoas físcas, etc. isso exge a realzao de estudos sobre unversos espe-

cífcos de nomes de domínos, por exemplo “.com.br”, “.org.br”, “.net.br”,

”.gov.br” e outros grupos menores, com o objetvo de medr suas caracterís-tcas na Web.

Como ponto de partda para um levantamento mas amplo das dmensões e

característcas do .br, optou-se por uma coleta exaustva da Web governamen-

tal braslera, aquela constante nos sítos e págnas sob o domíno .gov.br.

Os prncpas resultados e algumas conclusões desse levantamento so apre-

sentados neste relatóro. Esse prmero estudo será de grande utldade e

subsdará o planejamento de uma coleta mas ampla e detalhada das d-

mensões de toda a Web braslera sob o ccTLD .br.

Page 45: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 45/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

45

As dmensões e as característcas do .gov.br

A coleta de dados sobre os domínos do governo fo realzada em outubro de

2009 e dentfcou um total de 18.796 sítos sob o .gov.br, a partr de URLs

percorrdas. A dentfcao do total de sítos partu de dados fornecdos das

seguntes fontes:

a. Domínos dentfcados como .gov.br (domínos reservados ao Governo Fe-

deral), cuja lsta fo fornecda pela autordade de regstro para nomes de

domíno no Brasl, o Regstro.br, com autorzao do Mnstéro do Planeja-

mento, responsável pelo uso dos domínos sob o .gov.br.

b. Domínos dentfcados como sigla-uf..gov.br, regstrados pelas empresas

estaduas de processamento de dados, vnculadas aos governos estaduas;

c. Resultados de consultas e buscas de nformaões, utlzando ferramentas debusca, com o objetvo de complementar as nformaões anterores.

Essas dferentes fontes foram unfcadas e servram como semente para um

sstema coletor. Objetvou-se com esse levantamento produzr um cadastro

que pudesse contemplar o maor número possível de sítos governamentas,

de tal modo que fosse o mas próxmo de um censo da Web governamental

braslera. Porém, nem todas as empresas de processamento de dados das

undades das federaões e responsáves pelos regstros dos domínos sigla-uf.

 gov.br puderam responder em tempo, fato que ntroduzu mas uma dfcul-dade para a realzao de um censo da Web governamental, além daquelas

nerentes a própra Web.

Partcpao das regões na composoda Web governamental

A partr dos resultados da coleta, nvestgou-se a partcpao de cada uma das

cnco regões brasleras e também a do Governo Federal na composo da Web 

a partr da análse dos subdomínos correspondentes aos estados, por exemplo o

subdomíno .sp.gov.br fo consderado como que da rego sudeste, e o .gov.br 

como do governo federal. Avalaram-se dos aspectos dessa partcpao:

a. O número total de sítos correspondentes a cada uma das cnco regões do

país e do governo federal;

b. A quantdade total de btes por rego e Governo Federal , consderando-se apenas os documentos HTML (sto é, magens, vídeos e outros tpos de

Page 46: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 46/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o   s

6

arquvos no foram contablzados na tabela abaxo. Vde fgura 17 para

uma análse de outros tpos de arquvos).

A Tabela 3.1 apresenta um sumáro do número de sítos e da quantdade

de btes coletados para cada uma das grandes regões brasleras. Embora

a coleta tenha chegado a um total de 18.796 sítos, foram consderados os

que contnham pelo menos um documento HTML nessa análse. Os sítos

satsfazendo essas condões totalzam 11.856.

REGIãO VOlUME

EMGIGABYTEs

NÚMEROTOTAl

dE síTIOs

PARTICIPAÇãO dAREGIãO NO TAMANHO

TOTAl EM BYTEs

PARTICIPAÇãO dAREGIãO NO NÚMERO

TOTAl dE síTIOs .GOV.BR

sUl 26 3.416 18% 29%

sUdEsTE 32 3.358 22% 28%

NORTE 7 816 5% 7%

NORdEsTE 27 1.786 18% 15%

GOV.BR 38 1.668 26% 14%

CENTROOEsTE 17 812 11% 7%

TOTAl 148 11.856 100% 100%

Tabela 3.1 – Quantdade de sítos e tamanho em Ggabytes por rego geográfca

A dstrbuo percentual dos dados apresentados na Tabela 3.1 pode ser

analsada no gráfco apresentado na Fgura 3.1.

Fgura 3.1 – Partcpao das regões e do governo federal na composo da Web governamental

18%

SUL SU DE S TE NO RT E NO RD E S TE GOV.B R CE NTRO O E STE

29%

22%

28%

5%7%

18%

15%

26%

14%

11%

7%

PARTICIPAÇÃO DA REG IÃO NO TAMANHO TOTAL EM BYTES

PARTICIPAÇÃO DA REGIÃO NO NÚMERO TOTAL DE SÍTI OS .GOV.BR

Page 47: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 47/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

47

Observou-se uma maor partcpao em relao ao tamanho em btes na

Web governamental no agrupamento composto pelos sítos Governo Fede-

ral , 26%. Em número absoluto de sítos, a rego Sul apresentou 33% dos

18,7 ml sítos coletados.

Em relao à partcpao das undades da federao na composo daWeb governamental, o domíno pr.gov.br, pertencente ao Estado do Paraná,

fo o que apresentou a maor partcpao em número absoluto de sítos de

todos os sítos brasleros de governo coletados, cerca de 17%, conforme

mostrado na Fgura 3.2. O Governo Federal  representado pelos sítos com

domíno .gov.br vem em segundo lugar, empatado com o Estado de So Pau-

lo (sp.gov.br). Estes dos últmos partcpam, cada um, com 14% dos sítos

sob a Web governamental braslera.

Fgura 3.2 - Dstrbuo percentual do número de sítos por UF, nclundo o Governo Federal (gov)

Em relao ao tamanho do conteúdo em btes dos sítos brasleros de gover-

no, o Governo Federal é o que apresenta o maor índce, com 26% do total

verfcado, segudo pelo Estado de So Paulo, com 12%. Os demas estadosapresentam índce nferor a 10% do total de quantdade em btes.

A relao entre o número de sítos ou eventualmente o número de págnas

e a quantdade em btes pode também ser uma abordagem de análse a

ser consderada no futuro. Observando-se a Fgura 3.2, verfca-se que os

estados, em geral, guardam a mesma partcpao percentual em relao

ao total tanto em número de btes de seus sítos como na quantdade de sí-

tos na Web governamental braslera, ndcando que possuem um tamanho

médo de sítos em btes equvalentes. Poucos estados fogem dessa regra.

De um lado, os domínos do Governo Federal apresentam maor conteúdo

14   E   M    P

   E   R   C   E   N   T   U   A   I   S

GOV SP

PARTICIPAÇÃO DAS UNIDADES FEDERATIVAS NA COMPOSIÇÃO DA WEB BRASILEIRA - % EM QUANTIDADE DE SÍTIOS

PARTICIPAÇÃO DAS UNIDADES FEDERATIVAS NA COMPOSIÇÃO DA WEB BRASILEIRA - % EM QUANTIDADE DE BYTES

PR RS MG SC M T RJ AL BA CE M S SE GO DF PE PA RN PB PI M A ES RO AC TO AM AP RR

14

26

17

12

7

5

7 7

5

2

5 5

1

44

32 2 2 222 2

1 1 1 1 1 1 1 1 1 000

Page 48: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 48/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o   s

8

em btes em relao aos seus sítos. De outro, o Estado de Paraná (PR), que

apresenta maor quantdade de sítos em números absolutos e relatvos à

partcpao no total da Web governamental braslera. investgar as razões

pode mas do que demonstrar exstr quantdade de domínos governamen-

tas na Web sem conteúdos sgnfcatvos, ou anda domínos governamen-

tas com conteúdo excessvo, revelando uma dfculdade no acesso à nfor-

mao relevante e públca.

Outros domas na Web governamental

Das 3.182.202 págnas que puderam ter seu doma dentfcado através de

análse automatzada, 97% esto em português. O software utlzado paradentfcar a lnguagem compara o texto contdo nas págnas com dconá-

ros com palavras-chave dos domas português, nglês, espanhol e francês,

contablzando as palavras que aparecem num determnado documento.

Caso o número de palavras-chave de um dos domas testados ultrapasse

um determnado lmte nferor, e no haja ambgudade (mas de um doma

com palavras-chave sufcentes), ele é consderado dentfcado. Os resulta-

dos para os domas estrangeros esto lustrados na Fgura 3.3.

Fgura 3.3 – Outros domas encontrados na Web governamental

É mportante lembrar anda que em 47% das 6,3 mlhões de págnas em

HTML coletadas o doma no pode ser dentfcado por meo do proce-

dmento utlzado. A amostra é sgnfcatva e pode revelar que essencal-

mente os conteúdos da Web governamental braslera vsam atender ao pú-

blco nterno, tendo pouca quantdade de nformao em outros domas.

Por outro lado, sem uma abordagem semântca no é possível verfcar

se nformaões relevantes em outros domas so oportunas, sejam, por

exemplo, para conteúdo de relaões exterores ou para os fns de tursmo.

identfcar qual nformao pôde e convém estar em outro doma no fo

anda objeto de análse.

Page 49: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 49/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

49

Aderênca aos padrões HTML do W3C

identfcou-se a avalao da aderênca das págnas HTML aos padrões do

W3C através da aplcao de um software valdador projetado pelo própro

consórco. Tal como propugna o W3C e as boas prátcas de desenvolvmento

Web, a aderênca aos padrões Web é ndcador mportante da unversal-

dade de acesso por qualquer dspostvo conectado à Web, bem como por

qualquer ambente operaconal. Quanto mas aderente aos padrões, melhor

a págna será acessada por qualquer usuáro, ndependente do dspostvo

e de seu ambente operaconal. Por outro lado, págnas no aderentes tero

acessos restrtos a alguns dspostvos ou sstemas operaconas, donde pres-

supõe seu caráter de no unversaldade. Consdera-se que, prncpalmente

para conteúdos da Web governamental, a aderênca aos padrões e a unver-saldade do acesso devem ser constantemente consderadas e exgdas.

Para essa análse, verfcou-se a contagem do número de ncorreões de

acordo com o padro encontrado pelo software valdador. Dos 6,3 mlhões

de págnas HTML coletadas, cerca de 91% apresentaram mas de uma n-

correo de aderênca, apenas 5% esto completamente de acordo com o

padro, e 4% no puderam ser avaladas, conforme mostra a Fgura 3.4.

Fgura 3.4 – Aderênca aos padrões HTML do W3C

Aderênca aos padrões de acessbldade ASES

A aderênca a padrões de acessbldade vsa garantr o acesso unversal aos

sítos Web, mesmo para portadores de defcênca. Os crtéros de acessb-

ldade so separados em 3 níves de acessbldade ou conformdade, defn-

dos pelo padro WCAG. O nível de conformdade A é consderado manda-

tóro para que um síto seja consderado acessível. O nível de conformdade

AA consste em prátcas de que deveram ser segudas, ndo além das mas

Page 50: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 50/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o   s

0

báscas, e o nível de conformdade AAA, em prátcas opconas, porém me-

lhoraram anda mas a acessbldade do síto.

O governo braslero crou o e-MAG – Modelo de Acessbldade de Governo

Eletrônco, dentro dos padrões nternaconas: consste em um conjunto de

recomendaões a ser consderado para que o processo de acessbldade dossítos e portas do governo braslero seja conduzdo de forma padronzada

e de fácl mplementao. Crou anda o ASES, software que auxla o de-

senvolvedor Web na construo de sítos acessíves, em conformdade com

o e-MAG.

Fez-se a avalao da aderênca das págnas HTML coletadas aos padrões de

acessbldade através dos mesmos testes utlzados no ASES. O processo de

avalao consste da contagem de conformdades das págnas.

Dos 6,3 mlhões de págnas HTML coletadas, 98% no apresentaram nenhu-ma aderênca aos padrões de acessbldade conforme mostrado na Fgura 3.5.

Fgura 3.5 – Proporo de págnas aderentes aos padrões de acessbldade ASES

Tecnologas utlzadas para servrarquvos na Web governamental

Dentre os resultados obtdos da coletada de dados do .gov.br, pode-se des-

tacar o mapeamento das tecnologas de dsponblzao e armazenagem

de nformaões. A segur, apresenta-se o gráfco relatvo à partcpao das

prncpas tecnologas servdoras de documentos na Web governamental (F-

gura 3.6).

2%

98%

APRESENTAM ALGUM TIPO DE CONFORMIDADE

NENHUM TIPO DE CONFORMIDADE

Page 51: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 51/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

51

Fgura 3.6 – Tecnologas utlzadas para servr arquvos na Web

As tecnologas baseadas em software de códgo aberto foram encontradas

em mas de 60% das págnas coletadas. Plataformas propretáras ocupam

pouco mas de 30% da fata de sstemas servdores de documentos na Web 

governamental.

Tecnologas utlzadas para servrarquvos nas cnco regões brasleras

Conforme lustrado no gráfco a segur, as págnas coletadas sob subdomí-

nos relatvos a undades federatvas da rego Sul apresentam a maor n-cdênca de servdores de Web baseados em sstemas de códgo aberto, e

também o menor percentual de uso de sstemas propretáros, consderando

nclusve as págnas do Governo Federal .

Fgura 3.7 – Tecnologas utlzadas para servr arquvos por rego

48 4851

39

58

30

11

0

50

44

6

1

87

11

20

5 5 50

55

32

95

APACHE

CENTRO OESTE GOV. FEDERAL NORDESTE NORTE SUDESTE SUL

OUTROSMICROSOFT / IIS ZOPE

Page 52: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 52/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o   s

2

As tecnologas utlzadas para servrarquvos nas UFs

Também fo verfcada a utlzao do tpo de plataforma servdora por un-dade da federao. O gráfco da Fgura 3.8 apresenta o uso do tpo de plata-

forma servdora de Web, em relao ao total de sítos daquela UF. O Amapá

e o Paraná so os prmeros colocados em uso relatvo de sstema de códgo

aberto para servr conteúdo na Web. Em relao ao uso de software propre-

táros, verfca-se que o DF é o estado que mas utlza esse tpo de sstema

para servr conteúdo dentre os demas.

Fgura 3.8 – Uso dos prncpas servdores de Web nas UFs brasleras

Verfca-se, anda, que a maora dos sítos do Governo Federal está hospe-

dada em servdores Apache, que é uma tecnologa aberta.

APACHE

AP –

PR –

AC –

SC –

PB –

PI –

SE –

AM –

GO –

RS –

MG –

MA –

MT –

GOV –

PA –

PE –

RJ –

TO –

SP –

CE –

RO –

BA –

MS –

AL –

RR –

RN –

ES –

DF –

MICROSOFT / IIS

0 10 20 30 40 50 60 70 80 90

Page 53: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 53/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

53

Domínos como sítos estruturados em págnas

Somente os domínos com algum conteúdo verfcável podem ser consde-

rados como sítos estruturados; para tanto, levantou-se quantos domínos

apontavam pelo menos um documento HTML, comumente chamado de pá-

gna HTML, ou seja, um arquvo que pode ser nterpretado por um navega-

dor Web, conhecdo também como browser.

O termo síto, equvalente a Website ou síto eletrônco, refere-se a um con-

  junto de págnas HTML referencadas por um mesmo nome (consderado

aqu como o nome de domíno completo) na internet. Por exemplo, http:// 

www.prefetura.sp.gov.br (consderou-se como URL tudo o que está depos

do http:// e antes da prmera “/”). As URLs http://síto.prefetura.sp.gov.br/ 

pagna1.html e http://síto.prefetura.sp.gov.br/calendaro/evento.html fazemparte do mesmo síto, para efeto desta pesqusa, enquanto http://www.pre-

fetura.sp.gov.br refere-se a um síto dferente.

Do total ncal de 18.796 sítos, apenas 11.586 apresentaram essas caracte-

rístcas. Efetuou-se também o levantamento do total de arquvos dgtas para

cada grupo.

A coleta de dados realzada dentfcou 7.947.607 arquvos dgtas; destes,

6.331.256 so documentos em formato HTML, crados ou no por sstemas

automatzados de gerao de conteúdo. Os demas 1.616.351 arquvos dgtas

no HTML so arquvos em outros formatos, como: TXT, SWF, EXE, ZiP, RAR.

Anda segundo a coleta, o número médo de documentos HTML por síto é

de 534 documentos. Todos esses números descrevem de forma sucnta algu-

mas característcas dos sítos de governo presentes na Web braslera.

Objetos mas usados nas págnasda Web governamental

O levantamento ndcou que entre todos os 192,2 mlhões de links encontra-

dos nas págnas da Web .gov.br, cerca de 89% correspondem a algum tpo

de arquvo gráfco, 8,3% correspondam a algum tpo de arquvo hpertexto

e 2,5% algum tpo de arquvo de texto como .DOC, .PDF, .XML, .ODT ,con-

forme apresenta a Fgura 3.9.

Page 54: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 54/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o   s

4

Fgura 3.9 - Objetos mas freqüentes na Web governamental

Base utilizada: 192.247.032 lnks analisados

Tecnologas utlzadas paradsponblzao de dados e deconteúdo na Web governamental

As tecnologas empregadas na dstrbuo de nformao de manera au-

tomatzada dos sítos governamentas braslero dstrbuem-se bascamente

em dos tpos de tecnologa: PHP e ASP. As tecnologas baseadas em sste-

mas de códgo aberto, como o PHP, predomnaram no conjunto total das

págnas de governo coletadas. 70% das págnas HTML coletadas tnham a

extenso .PHP.

Fgura 3.10 – Tpos de tecnologa utlzada para gerar documentos

Page 55: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 55/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

55

Dos links para objetos gráfcos dentfcados, cerca de 99% apontavam para

magens em formato .GiF, .JPG, .PNG ou .BMP. Os arquvos em formato

.PDF representam 80% dentre todos os tpos de documentos coletados; já os

arquvos em formato .DOC representam 13%. Esses resultados esto lustra-

dos nos gráfcos das Fguras 3.11 e 3.12.

Fgura 3.11 - Tpos de hpertexto mas utlzadosBase utlzada: 15.957.331 objetos coletados

Fgura 3.12 - Tpos de documentos mas utlza-dos

Base utlzada: 4.821.244 objetos coletados

É evdente, portanto, a opo pelo formato .PDF para publcao de documentos.

Dentre os conteúdos edtáves, o formato DOC é o mas publcado. A publ-

cao de formato edtável pode no ser uma boa prátca, a no ser em casos

de publcao de modelos utlzados pelos usuáros para o envo de outrasnformaões. Evdente também anda a baxa utlzao de arquvos .XML,

formato aproprado para nteroperao de dados.

Sncronzao de tempodos servdores brasleros

A sncronzao dos relógos dos servdores, estaões de trabalho e outros

dspostvos conectados à internet é mportante para o correto funconamen-

to de mutas aplcaões, bem como em stuaões em que se necessta a aná-

lse dos regstros (logs) fetos pelas aplcaões para tratar ncdentes de segu-

rana e eventos correlatos. O NiC.br provê um servo públco e gratuto que

fornece a Hora Legal Braslera va internet, em conjunto com o Observató-

ro Naconal, nsttuo responsável pela sua defno. Oferece anda um

síto Web com nformaões e nstruões sobre como utlzar esse servo: o

http://ntp.br. O CGi.br recomenda formalmente a sncronzao de todos os

Page 56: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 56/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o   s

6

dspostvos lgados à rede em sua resoluo CGi.br/RES/2008/009/P (http:// 

www.cg.br/regulamentacao/resolucao2008-009.htm).

Para aferr a sncronzao dos servdores que hospedam os sítos .gov.br,

obteve-se o horáro de seus relógos, va protocolo http comparado com

a hora correta. O resultado mostra que apenas pouco mas da metade dosservdores está corretamente sncronzada, e o restante apresenta dferenas

em relao à Hora Legal Braslera entre 1 segundo e até mas de que duas

horas, denotando a necessdade de revso nas confguraões.

Fgura 3.13 – Sncronzao de tempo dos servdores

Geolocalzao dos iPs

Estmou-se a geolocalzao dos servdores com o uso da base de dados

GeoLte, da empresa MaxMnd1, consultada a partr de seus endereos iP.

Servdores Web hospedados em locas dstantes dos usuáros mplcam uma

velocdade menor de acesso, por conta do tempo de tráfego dos pacotes. Ahospedagem dos servdores no exteror, além dsso, colabora para o aumento

dos custos de acesso à internet no Brasl, já que mplca maor utlzao dos

enlaces nternaconas, com custo alto, pelas operadoras de telecomuncaões.

Cerca de 6% dos sítos .gov.br esto hospedados fora do país.

1 “Ths product ncludes GeoLte data created by MaxMnd, avalable from http://maxmnd.com/ ”

52%

16% 15%

5% 6%4% 2%

SINCRONIZADO DE1 SEGUNDOATÉ MINUTO

1 MINUTOATÉ 10

MINUTOS

10 MINUTOSATÉ 30

MINUTOS

30 MINUTOSATÉ 1 HORA

1 HORAATÉ 2 HORAS

MAIS QUEDUAS

HORAS

Page 57: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 57/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

57

Fgura 3.14 – Geolocalzao dos iPsBase: 11.856 sítos com pelo menos um documento HTML

Tempo médo de respostasdos servdores brasleros

O tempo médo de resposta dos servdores, nesse estudo, consste no tempo

que levaram para responder uma consulta http smples (HEAD), nclundo o

tempo de da e volta dos pacotes de dados, mas o tempo de processamento

do servdor. O teste é nfluencado, portanto, pela localzao do meddorna rede do NiC.br, em So Paulo.

Fgura 3.15 – Dstrbuo do tempo médo de resposta para sítos hospedados no Brasl

De forma smplfcada, o ndcador pode ser consderado uma medda de

desempenho do síto, do ponto de vsta de um usuáro localzado em SoPaulo. Nota-se como os sítos hospedados fora do Brasl (Fgura 3.16) têm

9%

32%

18% 17%

25%

ATÉ 10 MS 11-50 MS 51-100 MS 101-200 MS MAIS QUE 200

Page 58: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 58/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o   s

8

resultados pores do que os hospedados no país. Dos hospedados no país,

aproxmadamente 59% apresentaram tempos até 100ms, o que é um bom

resultado, contudo aponta para a possbldade de melhora na nfraestrutura

dos demas servdores e na própra nfraestrutura da internet braslera.

Fgura 3.16 – Dstrbuo do tempo médo de resposta para os sítos hospedados no exteror.

Respostas dos sítos braslerosde governo a consultas iPV6

O protocolo iP é a base tecnológca que sustenta a internet; é quem torna

possível a utlzao ntelgente da nfraestrutura de telecomuncaões, que

faz da internet uma rede muto mas ubíqua, versátl e acessível, em compa-

rao aos servos convenconas de telecomuncaões. Todas as aplcaões

internet, nclusve a Web, amparam-se, num nível mas básco, nesse proto-

colo. A nformao na internet dvde-se em pacotes que trafegam de forma

ndependente pela rede, e o iP permte que eles encontrem seu camnho,

dentfcando cada dspostvo na internet com um número, o “endereo iP”.

A verso mas usada hoje do protocolo, o iPv4, tem perto de 4 blhões de

endereos possíves, todava cerca de 94% desse total já é utlzado. Com o

iPv4, a internet só consegue manter o atual rtmo de expanso por mas 1 ou

2 anos. Por sso, um novo protocolo, o iPv6, será ntroduzdo na rede; ele

deverá funconar lado a lado com o iPv4 durante um período de transo

e o substturá a longo prazo, possbltando a contnudade da expanso da

internet. Todos devem fazer a mplantao de forma célere, pos quando o

iPv4 esgotar-se, paulatnamente surgro servos e usuáros que consegu-

ro comuncar-se utlzando apenas o iPv6.

1%

48%51%

MAIS QUE 200101-200 MSDE 0 ATÉ 100 MS

Page 59: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 59/93

   D     m      

   õ        c

        c

          í  

        c    

   d      W   e    b   b      

                 :    m

     

        d  

   d   .  g

    v .   b

  

   c   a   p    í   t   u   l   o    3

   a   n

    á   l   i   s   e

   D   o   s

   r   e   s   u   l   t   a   D   o

   s

59

O Governo Federal mostra compreenso sobre a gravdade da stuao ao

estabelecer no documento de referênca da e-PiNG: “Os órgos da Admns-

trao Públca Federal devero se nterconectar utlzando iPv4 e planejar

sua futura mgrao para iPv6. Novas contrataões e atualzaões de redes

devem prever suporte à coexstênca dos protocolos iPv4 e iPv6 e a produtos

que suportem ambos os protocolos.2”

Nenhum síto estava dsponível va protocolo iPv6 no censo da Web para o

.gov.br.

Equipe técnica CETIC.br 

Centro de Estudos sobre as Tecnologas da informao e da Comuncao

2 Dsponível em: http://www.governoeletronco.gov.br/anexos/e-png-versao-3.0.  Acesso em23 de julho de 2010.

Page 60: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 60/93

Page 61: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 61/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   C   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

61

CAPÍTULO 4

indcadores e

unverso de dados

Page 62: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 62/93

Page 63: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 63/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

63

indcadores eunverso de dados

Esta seo apresenta os ndcadores avalados uncamente para o unverso

de domínos .gov.br, apresentando para cada um deles sua defno, propó-

sto, metodologa utlzada para obteno e apresentao dos resultados. Osndcadores avalados no contexto dessa etapa do projeto foram os seguntes:

A1: Tamanho total da Web braslera: número de sítos e págnas da Web 

A2: Tamanho total da Web braslera: tamanho em Ggabytes

B1: Proporo de sítos Web utlzando iPv6

B2: Proporo de sítos Web utlzando domíno alternatvo iPv6 (pv6.do-

míno)

B3: Proporo de sítos Web respondendo a Ping iPv6B4: Proporo de sítos Web que respondem ao comando GET no endereo

iPv6

C1: Dstrbuo do uso de domas na Web braslera: proporo de domas

E1: Proporo de págnas da Web aderentes aos padrões HTML do W3C

F1: Proporo de págnas da Web aderentes aos padrões de acessbldade

Ases

G1: Proporo de tpos de objetos usados nas págnas da Web: percentual

por tpo de objeto

G2: Proporo de tpos de tecnologas usadas nas págnas da Web 

Page 64: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 64/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

4

H1: idade (ultma atualzao) méda das págnas da Web braslera

H2: Proporo de págnas dnâmcas na Web braslera

I1: informao sobre sncronzao de tempo dos servdores da Web bra-

slera

I2: informao sobre tempo de resposta médo dos servdores da Web bra-

slera

Nesse projeto, so varáves vnculadas à grandeza a ser medda (domíno):

• URL (Uniform Resource Locator): URL é um string compacto, defindo

por padrões do W3C que ndca a localzao de um recurso dsponível

na internet. Todos os arquvos dsponíves na Web e documentos gerados

dnamcamente so capturados va uma URL. Os documentos da Web so

dentficados pelo substring http:// no níco da URL.

• Págna da Web (Documento HTML): uma págna da Web é um recurso

escrto na lnguagem HTML. Uma págna pode conter links para outros

tpos de recursos, tas como arquvos pdf, arquvos de magens e recursos

que dsparam a execuo de programas com parâmetros específcos e

que geram págnas dnâmcas.

• Síto Web: é o conjunto de uma ou mas URLs assocadas a um determ-

nado domíno.

Temos os seguntes unversos de dados nesse projeto:

• Unverso de sítos da Web: todos os sítos encontrados na coleta de da-

dos, ndependente de terem ou no uma ou mas págnas HTML váldas.

• Unverso de sítos da Web com págnas HTML váldas: exste pelo menos

uma págna da Web válda, ou seja, obtda com sucesso (códgo http-

status gual a 2XX).

• Unverso de Págnas HTML váldas: unverso de págnas HTML requsta-

das e obtdas com sucesso (códgo http-status gual a 2XX).

Exstem ndcadores relaconados a apenas um unverso; outros, a mas de

um. No caso dos ndcadores geras de tamanho da Web, so geras, sem vín-

culo a um ou outro unverso. Os ndcadores sero apresentados dvddos

de acordo com o unverso ao qual pertencem.

As subseões a segur apresentam a avalao de cada um dos ndcadores

para a coleta de domínos .gov.br.

Page 65: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 65/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

65

A1: Tamanho total da Web braslera- número de sítos e págnas da Web 

Defno do ndcadorTotal de sítos coletados sob o domíno .gov.br e de suas respectvas págnas,

nclundo aquelas págnas fora do domíno .gov.br, redreconadas a partr

de um domíno .gov.br.

Propóstoidentficar o número total de sítos e de págnas da Web braslera para os dfe-

rentes unversos de dados, ou seja, consderando o valor quanttatvo de sítose de págnas obtdos e aqueles que responderam de forma válda à requso

HTTP realzada (ou seja, tveram um códgo de retorno gual a 2XX).

MetodologaExecuo de um crawler que percorre as págnas que satsfazem a defno

anteror, a partr de um conjunto ncal de sementes fornecdas manualmente.

Apresentao dos resultadosAs Tabelas 4.1, 4.2 e 4.3 apresentam os resultados obtdos para esse ndca-

dor, utlzando recortes ncrementalmente restrtos. Enquanto a Tabela 4.1

consdera objetos quasquer encontrados pelo coletor durante o processo,

a Tabela 4.2 lmta-se ao conjunto de págnas HTML e os servdores que as

contêm. Em seguda, a Tabela 4.3 restrnge esse conjunto aos sítos dentro

do subdomíno .gov.br.

NÚMERO dE OBjETOs E síTIOs dA Web

NÚMERO dE síTIOs WEBNÚMERO TOTAl

dE OBjETOs dA WEBNÚMERO MédIO

dE OBjETOs POR síTIO

18.796 7.947.607 422,84

Tabela 4.1: indcador A1 - Número de objetos e sítos da Web,consderando todos os objetos encontrados pelo coletor.

Page 66: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 66/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

6

NÚMERO dE PáGINAs HTMl E síTIOs dA WEB

NÚMERO dE síTIOs WEB NÚMERO TOTAldE PáGINAs HTMl dA WEB

NÚMERO MédIOdE PáGINAs HTMl POR síTIO

12.891 6.334.054 491,35

Tabela 4.2: indcador A1 - Número de Págnas HTML e sítos da Web encontrados pelo coletor.

NÚMERO dE PáGINAs HTMl E síTIOs dA WEB - .GOV.BR

NÚMERO dE síTIOs WEB NÚMERO TOTAldE PáGINAs HTMl dA WEB

NÚMERO MédIOdE PáGINAs HTMl POR síTIO

11.856 6.331.256 534,01

Tabela 4.3: indcador A1 - Número de Págnas HTML e sítos da Web encontrados pelo coletor com sufixo .gov.br

sUBdOMíNIO síTIOs sUBdOMíNIO PáGINAs PáGINAs/síTIO

ac.gov.br 39 (0,33%) rr.gov.br 6.366 (0,10%) 163,23

rr.gov.br 51 (0,43%) ap.gov.br 12.323 (0,19%) 241,62

ap.gov.br 58 (0,49%) am.gov.br 28.091 (0,44%) 484,32

ro.gov.br 91 (0,77%) ro.gov.br 41.342 (0,65%) 454,30

ma.gov.br 110 (0,93%) ma.gov.br 48.330 (0,76%) 439,26

to.gov.br 117 (0,99%) ac.gov.br 48.875 (0,77%) 417,73

p.gov.br 121 (1,02%) rn.gov.br 52.277 (0,83%) 432,04

se.gov.br 125 (1,05%) to.gov.br 59.427 (0,94%) 475,41

am.gov.br 132 (1,11%) es.gov.br 64.612 (1,02%) 489,48

al.gov.br 150 (1,27%) p.gov.br 68.905 (1,09%) 459,36

df.gov.br 160 (1,35%) pb.gov.br 95.276 (1,50%) 595,47

rn.gov.br 170 (1,43%) pa.gov.br 110.814 (1,75%) 651,84

mt.gov.br 189 (1,59%) go.gov.br 121.225 (1,91%) 641,40

pb.gov.br 192 (1,62%) ms.gov.br 129.391 (2,04%) 673,91

pe.gov.br 208 (1,75%) df.gov.br 131.323 (2,07%) 631,36

pa.gov.br 218 (1,84%) pe.gov.br 133.296 (2,11%) 611,44

go.gov.br 221 (1,86%) se.gov.br 147.673 (2,33%) 668,20

ms.gov.br 242 (2,04%) ce.gov.br 183.836 (2,90%) 759,65

es.gov.br 290 (2,45%) ba.gov.br 185.756 (2,93%) 640,53

ce.gov.br 353 (2,98%) al.gov.br 204.487 (3,23%) 579,28

ba.gov.br 467 (3,94%) rj.gov.br 215.681 (3,41%) 461,84rj.gov.br 572 (4,82%) mt.gov.br 287.227 (4,54%) 502,14

rs.gov.br 605 (5,10%) sc.gov.br 368.328 (5,82%) 608,80

sc.gov.br 791 (6,67%) mg.gov.br 404.006 (6,38%) 510,75

mg.gov.br 832 (7,02%) pr.gov.br 416.006 (6,57%) 500,00

sp.gov.br 1.664 (14,04%) rs.gov.br 430.720 (6,80%) 258,84

pr.gov.br 2.020 (17,04%) sp.gov.br 828.095 (13.08%) 409,94

gov.br 1.668 (14,07%) gov.br 1.507.568 (23,81%) 903,81

TOTAl 11.856 (100,00%) TOTAl 6.331.256 (100,00%) 534,01

(a) (b)

Tabela 4.4: Dstrbuo de Sítos (a) e Págnas (b) do gov.br por Undade da Federao

Page 67: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 67/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

67

síTIOs PáGINAs síTIOs PáGINAs

1 (0,01%) >12000 70 (0,60%) 900 - 1000

29 (0,22%) 10000 - 12000 93 (0,80%) 800 - 900

181 (1,40%) 9000 - 10000 123 (1,05%) 700 - 800

61 (0,47%) 8000 - 9000 191 (1,64%) 600 - 700

38 (0,29%) 7000 - 8000 299 (2,56%) 500 - 600

55 (0,43%) 6000 - 7000 187 (1,60%) 400 - 500

51 (0,40%) 5000 - 6000 269 (2,30%) 300 - 400

71 (0,55%) 4000 - 5000 411 (3,52%) 200 - 300

108 (0,84%) 3000 - 4000 855 (7,32%) 100 - 200

176 (1,37%) 2000 - 3000 9.179 (78,61%) <100

443 (3,44%) 1000 - 2000

12.891 (100,00%) TOTAL 11.677 (100,00%) TOTAL

(a) (b)

Tabela 4.5: Dstrbuo de págnas por síto na coleta realzada,para todos os sítos (a) e para sítos com menos de 1000 págnas (b).

A2: Tamanho total da Web braslera- tamanho em Ggabytes

Defno do ndcadorSoma do tamanho das págnas sob o domíno .gov.br., consderando as pre-

mssas adotadas nesse projeto.

PropóstoCalcular o volume ocupado pelos sítos Web e págnas da Web braslera.

MetodologaExecuo de um crawler que percorre as págnas que satsfazem a de-

fno anteror, a partr de um conjunto ncal de sementes fornecdas

manualmente.

Page 68: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 68/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

8

Apresentao dos resultadosAs Tabelas 4.6, 4.7 e 4.8, apresentam os resultados obtdos para esse nd-

cador, utlzando recortes ncrementalmente restrtos. Enquanto a Tabela 4.6

consdera objetos quasquer encontrados pelo coletor durante o processo,

a Tabela 4.7 lmta-se ao conjunto de págnas HTML e os servdores que ascontêm. Em seguda, a Tabela 4.8 restrnge esse conjunto aos sítos dentro

do subdomíno .gov.br.

TAMANHO dA WEB .GOV.BR.

TAMANHO dA WEB

(VOlUME EM GB)TAMANHO MédIO

dOs síTIOs WEB (EM MB)TAMANHO MédIO

dAs PáGINAs dA WEB (EM kB)

169,7 9,43 24,17

Tabela 4.6: indcador A2: Tamanho Total da Web sob o domíno .gov.br.(Tamanho em GigaBtes)

 VOlUME EM ByTES dAs PáGINAs COlETAdAs

TAMANHO dA WEB

(VOlUME EM GB)TAMANHO MédIO

dOs síTIOs WEB (EM MB)TAMANHO MédIO

dAs PáGINAs dA WEB (EM kB)

148,37 11,79 24,56

Tabela 4.7: Volume em bytes nas págnas HTML coletadase número de sítos encontrados pelo coletor

 VOlUME EM ByTES dAs PáGINAs COlETAdAs - .GOV.BR

TAMANHO dA WEB

(VOlUME EM GB)TAMANHO MédIO

dOs síTIOs WEB (EM MB)TAMANHO MédIO

dAs PáGINAs dA WEB (EM kB)

148,33 12,81 24,57

Tabela 4.8: Volume em bytes nas págnas HTML coletadas e número de sítosonde estas págnas foram encontradas, consderando somente sítos com sufixo .gov.br

Page 69: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 69/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

69

sUBdOMíNIO VOlUME (GB) PáGINAs VOlUME/PáGINAs(kB)

rr.gov.br 0,10 (0,07%) 6.366 15,73

ap.gov.br 0,18 (0,12%) 12.323 14,68

am.gov.br 0,48 (0,32%) 28.091 17,83

to.gov.br 0,81 (0,54%) 59.427 13,63

ac.gov.br 1,04 (0,70%) 48.875 22,02

ro.gov.br 1,06 (0,71%) 41.342 26,21

es.gov.br 1,09 (0,73%) 64.612 16,78

ma.gov.br 1,24 (0,84%) 48.330 26,21

p.gov.br 1,91 (1,29%) 68.905 28,31

pb.gov.br 2,19 (1,48%) 95.276 23,07

rn.gov.br 2,22 (1,49%) 52.277 44,04

pa.gov.br 2,37 (1,60%) 110.814 22,02

pe.gov.br 2,75 (1,85%) 133.296 20,97

df.gov.br 2,86 (1,93%) 131.323 22,02

go.gov.br 2,89 (1,95%) 121.225 24,12

se.gov.br 2,90 (1,96%) 147.673 19,92

ms.gov.br 3,23 (2,18%) 129.391 25,17

ce.gov.br 5,05 (3,40%) 183.836 28,31ba.gov.br 5,18 (3,49%) 185.756 28,31

al.gov.br 5,24 (3,53%) 204.487 26,21

rj.gov.br 5,50 (3,71%) 215.681 26,21

mt.gov.br 7,79 (5,25%) 287.227 28,31

sc.gov.br 7,85 (5,29%) 368.328 22,02

mg.gov.br 8,22 (5,54%) 404.006 20,97

rs.gov.br 8,73 (5,88%) 430.720 20,97

pr.gov.br 9,88 (6,66%) 416.006 24,11

sp.gov.br 17,62 (11,88%) 829.095 22,02

gov.br 37,96 (25,59%) 1.507.568 26,21

TOTAL 148,33 (100,00%) 6.331.256 24,12

Tabela 4.9: Dstrbuo do volume em Gigabtes no domíno .gov.br. por Undade da Federao

Page 70: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 70/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

0

sITIOs TAMANHO sITIOs TAMANHO

1 (0,01%) >2.100 M 22 (0,18%) 48 -50 M

1 (0,01%) 1.300 -2.100 M 26 (0,21%) 46 -48 M

2 (0,02%) 1.000 -1300 M 22 (0,18%) 44 -46 M

1 (0,01%) 800 -1.000 M 20 (0,16%) 42 -44 M

2 (0,02%) 750 -800 M 28 (0,23%) 40 -42 M

1 (0,01%) 700 -750 M 31 (0,25%) 38 -40 M

2 (0,02%) 650 -700 M 23 (0,19%) 36 -38 M

1 (0,01%) 600 -650 M 27 (0,22%) 34 -36 M

8 (0,06%) 550 -600 M 35 (0,29%) 32 -34 M

4 (0,03%) 500 -550 M 34 (0,28%) 30 -32 M

11 (0,09%) 450 -500 M 51 (0,42%) 28 -30 M

11 (0,09%) 400 -450 M 44 (0,36%) 26 -28 M

9 (0,07%) 350 -400 M 63 (0,51%) 24 -26 M

22 (0,17%) 300 -350 M 36 (0,29%) 22 -24 M

54 (0,42%) 250 -300 M 69 (0,56%) 20 -22 M

60 (0,47%) 200 -250 M 71 (0,58%) 18 -20 M

99 (0,77%) 150 -200 M 74 (0,60%) 16 -18 M

138 (1,07%) 100 -150 M 105 (0,86%) 14 -16 M227 (1,76%) 50 -100 M 120 (0,98%) 12 -14 M

12.237 (94,93%) <50 M 146 (1,19%) 10 -12 M

195 (1,59%) 8 -10 M

433 (3,54%) 6 -8 M

402 (3,29%) 4 -6 M

732 (5,98%) 2 -4 M

9.428 (77,05%) <2 M

12.891 (100,00%) TOTAL 12.237 (100,00%) TOTAL

(a) (b)

Tabela 4.10: Dstrbuo do volume em bytes por sítona coleta realzada para todos os sítos (a) e para sítos com menos de 50 MBytes (b).

Page 71: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 71/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

71

C1: Dstrbuo do uso de domas naWeb braslera - Proporo de domas

Defno do ndcadorValor percentual da quantdade de págnas do domíno .gov.br., de acordo

com uma relao pré-definda de domas.

PropóstoObter uma dstrbuo da quantdade relatva de págnas do domíno .gov.

br., de acordo com o seu doma.

MetodologaExecuo de um crawler que percorre as págnas que satsfazem a defno

anteror, a partr de um conjunto ncal de sementes fornecdas manualmen-

te. O crawler utlzado basea-se na frequênca de ocorrênca de palavras em

um dado doma, de acordo com dconáros pré-construídos de um conjun-

to de domas pré-determnado.

Apresentao dos resultadosA Tabela 4.11 apresenta a dstrbuo de quatro domas pré-defindos nas

págnas do domíno .gov.br: Português, inglês, Espanhol, e Francês. Cabe

ressaltar que exste um unverso de págnas HTML para as quas no fo

possível dentficar o doma a partr da técnca utlzada. Esse unverso cor-

responde a 2.912.597 (47,8% do total de págnas).

dIsTRIBUIÇãO dOsIdIOMAs UTIlIzAdOs

PElAs PáGINAsdO dOMíNIO

PERCENTUAl dE PáGINAs dA WEB PARA

CAdA TIPO dE IdIOMA dE UM CONjUNTO PRé-dETERMINAdO

Português 3.088.680 97,05 %

inglês 80.726 2,54 %

Espanhol 10.623 0,33 %

Francês 2.623 0,08 %

Tabela 4.11: Dstrbuo dos idomas das págnas no domíno .gov.br

Page 72: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 72/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

2

E1: Proporo de págnas da Web aderentes aos padrões HTML do W3C 

Defno do ndcadorValor percentual de págnas HTML da Web braslera “.br” que atendem aos

padrões W3C, de acordo com o seu tpo de documento.

PropóstoAvalar a qualdade das págnas HTML da Web braslera “.br” em relao à

conformdade com o padro HTML especficado pelo W3C.

MetodologaFo executado um valdador W3C de documentos que dentfca o tpo de

documento e nforma o número de erros obtdos de acordo com esse tpo. O

valdador de documentos retorna o número total de erros obtdos a partr da

análse de concordânca com as normas do W3C.

Apresentao dos resultados

A partr da valdao das págnas da Web feta com o programa valdadordo W3C, fo realzada a consoldao dos valores retornados pelo valdador,

ndcando o número de ncorreões encontrado na págna.

A Tabela 4.12 apresenta os resultados geras de valdao das págnas Web,

utlzando a ferramenta de valdao da W3C.

 VAlOR RETORNAdOPElA FERRAMENTA

 VAlOR ABsOlUTO

 VAlORPERCENTUAl (%)

NãO FOI POssíVEl VAlIdAR 267.137 4,24

PáGINAs VálIdAs 316.501 5,02

 APREsENTAM INCORREÇõEs >0 5.717.315 90,74

Tabela 4.12: Quantdade e percentual de págnasda Web governamental aderentes aos padrões W3C

Page 73: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 73/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

73

QUANTIdAdE dE INCORREÇõEsPáGINAs dA WEB 

  VAlOR ABsOlUTO VAlOR PERCENTUAl (%)

≤ 10 1.212.156 21,20

≥ 10 e < 20 738.550 12,92

≥ 20 e < 30 673.568 11,78

≥ 30 e < 40 394.189 6,89

≥ 40 e < 50 332.285 5,81

≥ 50 e < 60 302.258 5,29

≥ 60 e < 70 241.251 4,22

≥ 70 e < 80 245.156 4,23

≥ 80 e < 90 183.045 3,20

≥ 90 e < 100 158.907 2,78

≥ 100 1.235.950 21,6

Tabela 4.13: Aderênca da Web governamental aos padrões W3C –Dstrbuo das ncorreões por faxa

Page 74: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 74/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

4

UF

 VAlIdAÇãO W3C (PáGINAs HTMl dA WEB)

NãOCONFORMIdAdE

CONFORMI-dAdE

%CONFORMIdAdE

Acre - AC 64.227 333 0,51

Alagoas - AL 212.728 4.724 2,17

Amapá - AP 21.055 969 4,39

Amazonas - AM 29.759 68 0,22

Baha - BA 173.239 9.181 5,03

Ceará - CE 158.334 19.346 10,88

Dstrto Federal - DF 119.812 3.553 2,88

Espírto Santo - ES 69.865 9.921 12,43

Goás - GO 118.375 2.097 1,74

Maranho - MA 51.023 277 0,53

Mato Grosso - MT 274.311 12.990 4,52

Mato Grosso do Sul - MS 135.955 1.219 0,88

Mnas Geras - MG 364.647 37.625 9,35

Pará - PA 135.466 2.230 1,61

Paraíba - PB 95.327 1.930 1,98

Paraná - PR 380.268 30.607 7,44

Pernambuco -PE 125.689 8.528 6,35

Pauí -Pi 82.204 588 0,71

Ro de Janero -RJ 198.123 17.442 8,09

Ro Grande do Norte -RN 53.568 668 1,23

Ro Grande do Sul -RS 417.061 6.486 1,53

Rondôna -RO 72.109 10.251 12,44

Rorama -RR 6.538 32 0,48

Santa Catarna -SC 365.692 9.036 2,41

So Paulo -SP 799.181 50.790 5,97

Sergpe -SE 154.299 50 0,03

Tocantns -TO 83.248 1.361 1,6

Total 4.762.103 242.302 4,84

Outros domínos 955.212 74.199 7,2

Tabela 4.14: Aderênca da Web governmanetal aos padrões W3C -Recorte por Undade Federatva

Page 75: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 75/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

75

F1: Proporo de Págnas da Web aderentesaos padrões de acessbldade ASES

4.5.1 Defno do ndcadorValor percentual de Págnas HTML váldas, compatíves com os padrões de-

termnados de acessbldade, consderando os níves de conformdade A,

AA, AAA.

4.5.2 PropóstoAvalar a qualdade das págnas HTML em relao à conformdade com os

padrões de acessbldade WCAG 1.0 (W3C) e eMAG (Governo Braslero).

4.5.3 MetodologaPara se avalar a acessbldade, realzaram-se:

- a coleta dos dados de págnas, segundo o procedmento padro de coleta

adotado nesse projeto.

- a execuo do valdador ASES de acessbldade, que atrbu um valor de

acessbldade (A, AA, AAA ou no conformdade) para cada págna HTML

coletada.

Para defno das formas de avalao da acessbldade, adotou-se como

documento de referênca o WCAG 1.0 - Web Content Accessibilit Guidelines

1.0, para explctar as conformdades de acessbldade de A, AA e AAA. Para

sso, foram utlzados os níves de prordade e a defno descrta a segur.

O grupo de trabalho atrbuu a cada ponto de verficao um nível de pro-

rdade, com base no respectvo mpacto, em termos de acessbldade. Esses

níves so descrtos a segur:

•Prordade 1: Pontos que os cradores de conteúdo Web devem satsfazer

nteramente. Se no o fizerem, um ou mas grupos de usuáros ficaro

mpossbltados de acessar as nformaões contdas no documento. A sa-

tsfao desse tpo de pontos é um requsto básco para que determnados

grupos possam acessar documentos dsponíves na Web.

•Prordade 2: Pontos que os cradores de conteúdos na Web deveram sats-

fazer. Se no o fizerem, um ou mas grupos de usuáros tero dficuldades

em acessar as nformaões contdas no documento. A satsfao desse tpo

Page 76: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 76/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

6

de pontos promoverá a remoo de barreras sgnficatvas ao acesso a do-

cumentos dsponíves na Web.

•Prordade 3: Pontos que os cradores de conteúdos na Web podem sats-

fazer. Se no o fizerem, um ou mas grupos podero ter dficuldades para

acessar nformaões contdas nos documentos. A satsfao desse tpo depontos rá melhorar o acesso a documentos armazenados na Web.

Alguns pontos de verficao especficam um nível de prordade que poderá

mudar sob determnadas condões (explctadas). Assm, as conformdades

de acessbldade para cada págna da Web ficaram defindas da segunte

forma:

•Nível de conformdade “A”: foram satsfetos todos os pontos de verficao

de prordade 1;•Nível de conformdade “AA”: foram satsfetos todos os pontos de

verficao de prordades 1 e 2;

•Nível de conformdade “AAA”: foram satsfetos todos os pontos de

verficao de prordades 1, 2 e 3;

•No conformdade: no foram satsfetos nenhum ponto de verficao por

completo; logo, no exste conformdade para a págna da Web analsada.

Cabe ressaltar que a págna Web de nível A no é nem AA e nem AAA, bemcomo AA no é AAA.

Apresentao dos resultadosA Tabela 4.15 apresenta os resultados obtdos para o ndcador de acessb-

ldade, consderando págnas HTML da Web do unverso .gov.br. Os dados

apresentados na tabela so referentes a 6.279.206 págnas HTML. Outras

54.848 págnas (0,86%) no foram classficadas, uma vez que o valdador

no retornou um resultado esperado.

A Tabela 4.17 apresenta os resultados obtdos para o ndcador de aces-

sbldade, consderando págnas HTML, fazendo um recorte por Undade

Federatva (UF), realzado a partr da dentfcao da UF na URL da págna

HTML (http://...uf.gov.br/).

Page 77: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 77/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

77

CONFORMIdAdE COM Os NíVEIs dE PRIORIdAdE(PáGINAs HTMl dA Web) - RECORTE POR UNIdAdE

PRIORIdAdE 3 PRIORIdAdE 2 PRIORIdAdE 1NãO

CONFORMIdAdE

QUANTITATIVO 39.440 14.662 71.628 6.153.476

PERCENTAGEM 0,63 0,23 1,14 98,00

Tabela 4.15: indcador F1 – Conformdade das págnas Web governamentalcom os níves de prordade (Págnas HTML da Web)

UFNíves de prordade (págnas HTML da Web)

3 2 1 No Conformdade

Acre -AC 6 5 8 65.213 99,97%

Alagoas -AL 0 0 1.773 216.815 99,19%

Amapá -Ap 60 0 2 22.154 99,72%

Amazonas -AM 12 0 23 32.373 99,89%

Baha -BA 9 1 380 167.227 99,77%

Ceará -CE 1.762 0 171 182.977 98,95%

Dstrto Federal -DF 210 0 638 129.955 99,35%

Espírto Santo -ES 157 6 458 86.622 99,29%

Goás -GO 1.053 0 17 120.113 99,12%

Maranho -MA 67 16 427 51.092 99,01%

Mato Grosso -MT 88 0 2 287.222 99,97%

Mato Grosso do Sul -MS 7.093 0 607 130.144 94,41%

Mnas Geras -MG 1.111 300 407 406.274 99,55%

Pará -PA 94 159 6.468 131.378 95,13%

Paraíba -PB 78 2 15 97.531 99,90%

Paraná -PR 5.537 49 4.255 407.748 97,64%

Pernambuco -PE 75 8 123 134.526 99,85%

Pauí -Pi 32 12 17 82.997 99,93%

Ro de Janero -RJ 298 228 893 215.409 99,35%

Ro Grande do Norte -RN 36 12 31 54.442 99,86%

Ro Grande do Sul -RS 4.922 4319 1.913 438.921 97,52%Rondôna -RO 380 824 169 81.014 98,33%

Rorama -RR 1 0 3 6.575 99,94%

Santa Catarna -SC 4.393 23 506 376.020 98,71%

So Paulo -SP 7.489 655 4.370 848.759 98,55%

Sergpe -SE 29 2 66 156.452 99,94%

Tocantns -TO 1.940 104 496 83.847 97,06%

Total 36.932 6.725 24.238 5.013.800 98,66%

Outros domínos 2.508 7.937 47.390 1.139.676 95,17%

Tabela 4.16: Conformdade com os níves de prordade (Págnas HTML da Web) -recorte por Undade Federatva

Page 78: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 78/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

8

G1: Proporo de tpos de objetos usadosnas págnas da Web - percentual por tpode objeto

Defno do ndcadorValor percentual dos tpos de objetos usados nas págnas da Web braslera “.br”,

de acordo com uma classficao categórca (magens, scripts, vídeos etc.).

PropóstoObter uma dstrbuo dos tpos de objetos usados nas págnas da Web bra-

slera “.br”, de acordo com uma categora pré-definda (magens, scripts,vídeos, etc.).

MetodologaAs págnas foram coletadas usando o Web  crawler, consderando tanto a

URL de cada págna coletada quanto as URLs presentes em cada págna co-

letada. Todas as extensões foram convertdas para caxa baxa. A taxonoma

de tpos de documentos fo extraída da e-Png, Padrões de interoperabldade

de Governo Eletrônco, Documento de Referênca Verso 2.0, 11 de Dezem-bro de 2009.

Apresentao dos resultadosOs resultados esto na Tabela 4.17.

Page 79: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 79/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

79GRUPO

QUANTIdAdEPOR GRUPO

% TIPOQUANTIdAdE

POR TIPO%

HIPERTExTO 15.957.331 8.30

htm 7.220.067 45.25

html 8.089.407 50.69

mht 5.128 0.03

rss 61.829 0.39

shtml 318.241 1.99xhtml 1.731 0.01

xml 260.928 1.64

dOCUMENTO 4.821.244 2.51

doc 627.197 13.01

docx 225 0.00

odt 8.516 0.18

pdf 3.864.991 80.17

rtf 24.766 0.51

txt 32.932 0.68

xml 260.928 5.41xsl 1.689 0.04

PlANIlHA 156.623 0.08

ods 331 0.21

xls 156.240 99.76

xlsx 52 0.03

 APREsENTAÇãO 28.533 0.01

odp 158 0.55

ppt 28.302 99.19

pptx 73 0.26

BANCO dE dAdOs 6.531 0.00

csv 6.405 98.07

myd 63 0.96my 63 0.96

GRáFICOs 170.538.106 88.71

bmp 118.730 0.07

gf 660.78.840 38.75

gf 66.078.840 38.75

  jpeg 51.888 0.03

  jpg 28.281.181 16.58

odg 24 0.00

png 9.915.715 5.81

svg 480 0.00

tf 12.408 0.01

 áUdIO E VídEO 472.158 0.25

av 7.964 1.69

md 20 0.00

mp3 412.649 87.40

mp4 49.252 10.43

mpg 1.519 0.32

ogg 251 0.05

wav 503 0.11

TOTAl 192.247.032 100.00

Tabela 4.17: Quantdade e percentual de objetos nas págnas HTML, por tpos de documentos

Page 80: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 80/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

0

G2: Proporo de tpos de tecnologasusadas nas págnas da Web - percentualpor tpo de tecnologa

Defno do ndcadorValor percentual dos tpos de tecnologas usadas nas págnas da Web bras-

lera “.br”.

PropóstoObter uma dstrbuo dos tpos de lnguagens usadas nas págnas da Web 

braslera “.br”, de acordo com uma lsta de valores pré-determnados (PHP,ASP, ASPX, JSF, JSP, etc.).

MetodologaA determnao de tecnologas usadas é um desafio, porque uma págna

coletada no possu obrgatoramente nformaões sobre a tecnologa que a

gerou. Uma opo adotada fo se basear nas eventuas extensões de arquvo

presentes na URL.

Para determnar as tecnologas, partu-se de um dconáro de 406 extensões

de arquvos e processamos o arquvo de págnas váldas (OK), verficando

em cada URL lstada naquele arquvo a ocorrênca de uma extenso válda.

Uma extenso válda deve ocorrer antes da prmera “?” da URL e a partr da

ultma “/” que antecede essa “?”´ . O processo verfica ento, por casamento

de padrões, a ocorrênca das extensões na cadea delmtada por “/” e “?”

da URL. Para extensões que tenham o mesmo radcal (p.ex., asp e aspx),

consdera-se a mas longa.

O ponto de partda da metodologa fo apurar quas as possíves extensões,como medda das tecnologas utlzadas. Nesse caso, buscou-se uma lsta de

406 extensões de arquvos, a partr do síto http://www.fle-extensons.org .

Com base nessas extensões, analsou-se a URL de cada págna coletada, de

forma a dentficar quas extensões ocorram na URL.

Feta a dentfcao de extensões, há três casos possíves. O prmero caso:

nenhuma extenso encontrada na URL, o que mpede estmar qual a tecno-

loga utlzada. O segundo caso: há exatamente uma extenso, caso no qual

a tecnologa, se for o caso, é assocada dretamente. O tercero caso: mas

Page 81: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 81/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

81

de uma extenso assocada à URL e se faz necessáro estmar qual extenso

detectada é a mas pertnente.

Utlzou-se dos crtéros para se detectar a extenso mas pertnente. O pr-

mero crtéro é a poso onde a extenso ocorre na URL, com base na

premssa de que a extenso do prmero arquvo que ocorre dentfica a suatecnologa base. Esse crtéro fo valdado em uma poro sgnficatva dos

casos. O segundo crtéro é, para extensões que ocorram na mesma poso,

escolher a maor, por ser naturalmente mas dscrmnatva. Por exemplo,

consderar que as extensões php e php3 so detectadas a partr da mesma

poso em uma URL, o que se explca pelo fato de php ser parte de php3.

Nesse caso, a extenso seleconada será php3, pos ela é a maor e a mas

dscrmnatva.

O últmo passo da metodologa é seleconar, dentre as extensões dentf-cadas, aquelas que so assocadas à tecnologas. Este processo é feto ma-

nualmente, verficando as extensões que efetvamente ocorreram e as suas

respectvas descrões.

Apresentao dos resultadosOs resultados so apresentados na Tabela 4.18.

TEC QUANTIdAdE % dEsCRIÇãO

ap 868.183 24,34 ASP scrpt, Pageap 94.017 2,64 ASP.NET scrpt, page

cfm 10.003 0,28 Cold Fuson Markup

cgi 6.186 0,17 Common Gateway interface

com 73 0,00 Common Object Module

bc 1 0,00 Database Contaner

6.515 0,18 Dynamc Lnk Lbrary fle

o 38.690 1,08 Oracle Applcaton Server

ee 4 0,00 Executable fle

  1 0,00 JavaScrpt fle p 53.260 1,49 JAVA Server page

nf  86 0,00 iBM Notes

php 2.483.013 69,61 PHP scrpt, page

php3 335 0,01 PHP verson 3 scrpt fle

py 1.424 0,04 Python

q 115 0,00 Structured Query Language Data SQL

wp 5.346 0,15 SharePont Servces Soluton

TOTAl 3.567.252 100,00

Tabela 4.18: Quantdade e proporo de tecnologas utlzadas na Web braslera

Page 82: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 82/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

2

H1: idade (últma atualzao) méda daspágnas da Web braslera

Defno do ndcadorValor médo da dade das págnas da Web braslera “.br”, consderando a

data da últma atualzao da págna da Web.

PropóstoObter a dade méda das págnas da Web, consderando a sua últma data

de atualzao.

MetodologaO software de coleta utlzado procura regstrar a dade das págnas coleta-

das, ndcando a dferena entre a data e hora em que uma URL é coletada

e a data e hora reportadas pelo servdor, por meo da últma atualzao da

págna em questo. Essa nformao (data da ultma atualzao de cada

págna) no é fornecda por todos os servdores, nem para todo tpo de con-

teúdo. Por no se tratar de nformao obrgatóra, mutas vezes ela no está

presente na coleta. Além dsso, erros na confgurao da hora nos servdoresWeb podem levar a erros na nformao de data e hora por eles fornecda.

Nos dados da coleta, págnas para as quas a nformao de data de altera-

o no fo fornecda ficaram sem regstro de dade.

As págnas com nformao de dade foram consderadas em termos de das,

a fim de se smplficar a análse.

Apresentao dos resultados

O resultado é apresentado no quadro a segur.

IdAdE MédIAdAs PáGINAs

IdAdE MédIA dAs PáGINAs dA WEB GOVERNAMENTAl BRAsIlEIRA

656 das

Observação: do total de 6.331.256, pouco menos de 10% (614.770) apresentaram

nformao de dade válda.

Page 83: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 83/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

83

CONjUNTOTOTAl

dE PáGINAsQUANTIdAdE dE

PáGINAs C/ IdAdE%

IdAdE MédIAEM dIAs

ac.gov.br 48.875 458 1 225,82

al.gov.br 204.487 111.374 54 491,84

ap.gov.br 12.323 2.803 23 450,68

am.gov.br 28.091 581 2 562,51

ba.gov.br 185.756 6.321 3 455,69

ce.gov.br 183.836 10.955 6 635,69

df.gov.br 131.323 7.806 6 779,38

es.gov.br 64.612 4.557 7 1.242,94

go.gov.br 121.225 19.341 16 538,9

ma.gov.br 48.330 3.320 7 1.545,25mt.gov.br 287.227 19.946 7 1.150,8

ms.gov.br 129.391 2.765 2 712,44

mg.gov.br 404.006 28.967 7 377,94

pa.gov.br 110.814 4.129 4 868,85

pb.gov.br 95.276 2.715 3 477,63

pr.gov.br 416.006 17.593 4 664,57

pe.gov.br 133.296 4.206 3 1.385,63

p.gov.br 68.905 6.322 9 176,09

rj.gov.br 215.681 16.132 7 399,39

rn.gov.br 52.277 3.598 7 678,95

rs.gov.br 430.720 24.370 6 685,02

ro.gov.br 41.342 7.389 18 270,44

rr.gov.br 6.366 306 5 601,63

sc.gov.br 368.328 18.909 5 767,16

sp.gov.br 828.095 100.790 12 600,65se.gov.br 147.673 1.291 1 1.986,37

to.gov.br 59.427 1.053 2 1.594,59

Total estados 4.823.688 427.997 9 607,55

Outros .gov.br 1.507.568 186.773 12 768,31

Total .gov.br 6.331.256 614.770 10 656,24

Outras págnas 2.798 1.110 40 440,07

TOTAl 6.334.054 615.880 10 655,85

Tabela 4.19: idade das págnas da Web governamental braslera por estado

Page 84: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 84/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

4

H2: Proporo de págnas dnâmcasna Web braslera

Defno do ndcadorValor percentual de págnas consderadas dnâmcas na Web governamental

braslera (.gov.br). Uma págna dnâmca em geral é a referênca do uso de

lnguagens de programao server-side, tal como PHP, ASP, JSP, ColdFuson

entre outras, no desenvolvmento de um síto ou de aplcaões para ntranet

e extranet. Ela recebe esse nome por ter sdo gerada em tempo de execuo,

produzndo o conteúdo estátco que o usuáro vsualza no momento de sua

solctao, va requso HTTP.

PropóstoTer uma medda percentual da quantdade de conteúdo dnâmco gerado a

partr das págnas da Web governamental braslera (.gov.br).

MetodologaO coletor utlzado tem um conjunto de regras nternas para determnar se

uma págna é dnâmca ou estátca. Essas regras consderam o tpo de ter-mnao utlzada para o arquvo de conteúdo (por exemplo, termnaões

como .jsp ou .php so assocadas a documentos dnâmcos), bem como a

exstênca de parâmetros assocados à URL.

Com base nessa nformao, o coletor armazena, para cada págna con-

sultada com sucesso, a natureza do conteúdo a ela assocado (estátco ou

dnâmco).

Apresentao dos resultadosO resultado é apresentado no quadro a segur.

PERCENTUAldE PáGINAsdINâMICAs

PERCENTUAl dE PáGINAs dINâMICAs dA WEB GOVERNAMENTAl BRAsIlEIRA

74,8 %

Page 85: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 85/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

85

CONjUNTO(xx.GOV.BR)

TOTAl dE PáGINAsENCONTRAdAs

TOTAl dE PáGINAsdINâMICAs

PORCENTAGEM

.ac.gov.br 48.875 48.297 99

.al.gov.br 204.487 65.766 32

.ap.gov.br 12.323 8.832 72

.am.gov.br 28.091 14.660 52

.ba.gov.br 185.756 164.832 89

.ce.gov.br 183.836 89.914 49

.df.gov.br 131.323 101.298 77

.es.gov.br 64.612 52.169 81

.go.gov.br 121.225 97.212 80

.ma.gov.br 48.330 42.655 88

.mt.gov.br 287.227 243.994 85

.ms.gov.br 129.391 106.624 82

.mg.gov.br 404.006 335.168 83

.pa.gov.br 110.814 79.986 72

.pb.gov.br 95.276 87.897 92

.pr.gov.br 416.006 353.119 85

.pe.gov.br 133.296 113.213 85

.p.gov.br 68.905 65.701 95

.rj.gov.br 215.681 184.889 86

.rn.gov.br 52.277 47.317 91

.rs.gov.br 430.720 370.529 86

.ro.gov.br 41.342 34.350 83

.rr.gov.br 6.366 6.010 94

.sc.gov.br 368.328 315.023 86

.sp.gov.br 828.095 637.510 77

.se.gov.br 147.673 128.428 87

.to.gov.br 59.427 53.480 90

Total estados 4.851.779 3.863.533 80

Outros .gov.br 1.479.477 873.269 59

Total .gov.br 6.331.256 4.736.802 75

Outras págs 2.798 1.499 54

Total 6.334.054 4.738.301 75

Tabela 4.20: Porcentagem de págnas dnâmcas na Web governamental brasileira

Page 86: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 86/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

6

B1: Proporo de sítos Web utlzando iPv6

Defno do ndcadorValor percentual de sítos Web no unverso de servdores que respondem

pelas págnas da Web braslera “.br”, preparados operaconalmente para

responder segundo o protocolo iPv6.

PropóstoTer uma medda da atual quantdade de servdores Web operaconalmente

prontos para se comuncarem utlzando iPv6.

MetodologaExecuo de consulta específca para o protocolo iPv6 aos servdores Web.

A resposta ndca se o servdor está operaconalmente preparado para res-

ponder a requso iPv6.

Apresentao dos resultados

Somente 4 (quatro) dos 12.891 hosts da prmera coleta filtrada respondemao protocolo iPv6. Os hosts esto lstados na Tabela 7.1. Observa-se que,

segundo a defno do Projeto Censo Web, todos os hosts coletados a partr

de redreconamentos da Web governamental braslera so consderados

como pertencentes a esse subconjunto da Web. Portanto, os hosts lstados

a segur, embora no sejam do subdomíno .gov.br, so consderados, para

efeto desse Projeto, pertencentes à Web governamental braslera.

A Tabela 4.21 apresenta a relao de hosts que responderam à consulta va

protocolo iPv6.

URl

www.google.com

www.lacnc.net

www.tu.nt

www.terra.com.br

Tabela 4.21: Hosts que responderam ao Protocolo iPv6

Page 87: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 87/93

Page 88: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 88/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

8

PropóstoTer uma medda da atual quantdade de servdores Web atvos, que respon-

dam a PiNG no domíno iPv6.

MetodologaPrograma de software específco para realzar uma consulta iPv6 aos serv-

dores Web e obter uma resposta que permta saber se o servdor está opera-

conalmente preparado para responder a requsões iPv6.

Apresentao dos resultados

URl

www.tu.nt

Tabela 4.22: Hosts que responderam ao PiNG va protocolo iPv6

identficou-se que apenas um síto da Web governamental braslera respondeu

a um PiNG nos endereos iPv6. A proporo é, ento, 1/12.891 = 0, 008%.

B4: Proporo de sítos Web que respon-dem ao comando GET no endereo iPv6

Defno do ndcadorValor percentual de sítos Web no unverso de servdores que hospedam as

págnas da Web braslera “.br”, que respondem a um comando GET na por-

ta 80 do endereo com protocolo iPv6.

PropóstoTer uma medda da atual quantdade de servdores Web atvos e responden-

do GET na porta 80 do endereo iPv6.

MetodologaPrograma de software específico para realzar uma consulta iPv6 aos serv-

dores Web, a fm de obter uma resposta que permta saber se está operaco-

nalmente preparado para responder a requso iPv6.

Page 89: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 89/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

89

Apresentao dos resultados

URl

www.google.com

www.lacnc.net

www.tu.nt

Tabela 4.23: Hosts que responderam ao HTTP GET va protocolo iPv6

i1: informao sobre sncronzao detempo dos servdores da Web braslera

Defno do ndcadorValor estmado da dferena de sncronzao de tempo dos servdores da

Web braslera (.gov.br) em relao a hora certa mundal, conhecda como

tempo UTC (Coordinated Universal Time).

Propósto

Estmar o grau de sncronsmo dos servdores da Web governamental bras-lera (.gov.br) em relao a hora certa mundal.

Os computadores podem sncronzar o tempo, utlzando um servdor de

tempo e um protocolo. Normalmente, adota-se o NTP (Network Time Proto-

col ), que converte o tempo para uma lnguagem compreensível ao servdor.

Esse mecansmo é fundamental para garantr o correto regstro das transa-

ões realzadas na Web, bem como as dferentes comuncaões que ocorrem

entre servdores na rede.

MetodologaFo realzada uma requso HTTP ao servdor pelo método HEAD. O ser-

vdor respondeu com a data e a hora no campo Date. Fo meddo o RTT

(round-trip time) da consulta. A hora marcada pelo servdor fo estmada da

segunte forma: tempo dado pelo campo Date somado à metade do RTT.

Observa-se que o RTT é dado em mlssegundos e o campo Date, em se-

gundos. A estmatva de sncronzao fo feta pelo cálculo do módulo da

dferena entre o tempo estmado do servdor e o tempo marcado no relógo

Page 90: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 90/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

0

da máquna que fez o expermento, sncronzada va NTP. O resultado final

é dado em segundos.

Apresentao dos resultados

Foram obtdos 12836 tempos váldos, dos 12891 servdores consultados. A Ta-bela 4.24 apresenta as prncpas estatístcas referentes aos tempos encontrados.

MIN MEdIANA MédIA MAx CV Q1 Q2 Q3 P90 P97 P99

0 1 150.766 336.045.799 40 0 1 170 3.435 5.750 11.860

Tabela 4.24: Dferena absoluta entre a hora do servdor e o UTC em segundos

UF MEdIANA MédIA MáxIMO CV

AC 150 1.040 10.534 2,17AL 31 4.279 79.706 2,36

AM 4 1.670 57.403 3,93

AP 1194 1.212 3.953 0,61

BA 2 3.415 585.462 9,80

CE 1 1.193 203.281 9,35

DF 2 432 3.903 1,72

ES 0 1.193 236.686 11,76

GO 0 929 29.154 2,8

MA 284 2,36e+06 252.563.955 10,29

MG 1 551 37.261 3,38

MS 3507 2.778 68.881 1,94

MT 1 2.364 191.897 6,52

PA 25 2.537 348.840 9,30

PB 195 1.088 22.034 2,21

PE 3 15.583 2.631.634 11,88

PR 0 122.887 247.348.217 44,82

RN 0 437 8.462 3,39

RO 21 1.962 50.529 2,90

RR 0 867 8.355 2,37

RS 0 1.010 86.762 4,60

SC 10 1,03e+06 246.533.888 14,96

SE 1 676 11.389 2,92

SP 6 152.961 215.427.138 34,94

TO 321 3.134 82.862 3,05

Tabela 4.25: indcador i1 - Estatístcas da sncronzaopor undade da federao: tempo em segundos

Page 91: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 91/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

91

i2: informao sobre tempo de respostamédo dos servdores da Web braslera

Defno do ndcadorValor do tempo de resposta médo para os servdores da Web, consderando

cada síto Web dentficado na coleta de dados do unverso .gov.br.

PropóstoEste ndcador vsa oferecer uma noo acerca do tempo de resposta médo

dos sítos da Web do unverso .gov.br.

MetodologaPara realzar a coleta da nformao de tempo de resposta de um determ-

nado síto da Web, é feta uma consulta específca ao servdor do síto Web,

onde se regstra o tempo gasto (em undade mlsegundos) para concretzar

a resposta do servdor.

Portanto, trata-se de um método smples, que fornece apenas uma dea

aproxmada do tempo necessáro para acesso ao servdor, contudo permte

ter uma avalao geral acerca desse ndcador de qualdade no tempo deresposta a uma requso.

Apresentao dos resultadosA Tabela 4.26 apresenta os resultados obtdos para o ndcador de tempo de

resposta médo para os sítos da Web do unverso .gov.br.

Os dados apresentados na tabela so referentes a 12.871 sítos que tveram

pelo menos uma págna HTML com resposta válda. Outros 20 sítos (0.15%)

no foram contemplados nessa análse, vsto que a consulta de tempo de

resposta a eles no obteve resultado (o que ocorre devdo ao servdor do

síto no acetar este tpo de consulta ou a algum erro de ndsponbldade).

Page 92: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 92/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m

        t     d     d   .  g     .   b  

   c

   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o   s

2

TEMPO dE REsPOsTA(MIlIsEGUNdOs)

síTIOs WEB 

  VAlOR ABsOlUTO PERCENTAGEM

≤ 10 1.101 8,55

> 10 e ≤ 50 4.111 31,94

> 50 e ≤ 100 2.278 17,70

> 100 e ≤ 200 2.143 16,65

> 200 e ≤ 300 1.184 9,20

> 300 e ≤ 400 534 4,15

> 400 e ≤ 500 311 2,42

> 500 e ≤ 600 274 2,13

> 600 e ≤ 700 176 1,37

> 700 e ≤ 800 152 1,18

> 800 e ≤ 900 100 0,78

> 900 e ≤ 1000 77 0,60

> 1000 430 3,34

Tabela 4.26: Tempo de resposta médo dos sítos Web 

MédIA MIN MAx MEdIANA dEsVIO PAdRãO CV Q1 Q2 Q3 P90 P97 P99

190,20 1 8313 71 368,78 1,94 27 71 201 475 1049 1595

Tabela 4.27: Tempo de Resposta - Análse Estatístca

D2: Proporo de países que hospedamos sítos Web brasleros

Defno do ndcadorValor percentual da quantdade de sítos da Web braslera de acordo com o

país que é hospedero desse síto.

PropóstoObter uma dstrbuo percentual dos sítos da Web braslera de acordo

com o país que o hospeda

Page 93: Dimensões e características da Web brasileira: um estudo do .gov.br

8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br

http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 93/93

   D     m         õ        

           t       í     t            d      W   e    b   b            l           :    m   

     t     d     d   .  g     .   b  

   c   a   p    í   t   u   l   o    4

   i   n   D   i   c   a   D

   o   r   e   s

   e

   u   n   i   v   e   r   s   o    D

   e

   D   a   D   o

   s

93

MetodologaEstmou-se a geolocalzao dos servdores com o uso da base de dados da

GeoLte, da empresa MaxMnd, consultada a partr de seus endereos iP.

Apresentao dos resultadosA tabela 4.28 apresenta os resultados para o ndcador, obtdos a partr de

um unverso de 11.856 sítos com domínos “.gov.br” e com pelo menos um

documento HTML váldo.

lOCAlIzAÇãO BRAsIl ExTERIOR NãO IdENTIFICAdO

PROPORÇãO dE

síTIOs HOsPEdAdOs

93% 6% 1%

Tabela 4.28: Proporo dos servdores hospedados no Brasl e em outros países