Dimensões e características da Web brasileira: um estudo do .gov.br
-
Upload
biblioteca-tracto -
Category
Documents
-
view
221 -
download
0
Transcript of Dimensões e características da Web brasileira: um estudo do .gov.br
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 1/93
dmensões e característcas da
braslera: um estudo do .gov.br
W
Brazilian Internet SteeringCommittee
Brazilian Network
Information Center
2010
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 2/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m
e s t u d o d o . g o v . b r
C r é d i t o s
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m
e s t u d o d o . g o v . b r
C r é d i t o s Comitê Getor a Internet no Brai – CGI.br
Coordenador
Augusto Cesar Gadelha Vera
Conselheiros
Adrano Slva Mota
Alexandre Annenberg NettoCarlos Alberto AfonsoDem GetschkoErnesto Costa de PaulaFlávo Rech WagnerFrancelno José Lamy de Mranda GrandoGustavo Gndre Montero SoaresHenrque Faulhaber Jame Barrero Wagner Jorge Santana de OlveraLsandro Zambenedett GranvlleMarcelo Bechara de Souza HobakaMarcelo Fernandes CostaMaro Lus TezaNelson Smões da SlvaNvaldo CletoPlíno de Aguar JunorRenato da Slvera MartnRogéro Santanna dos Santos
Diretor Executivo
Hartmut Rchard Glaser
Núcleo de Informação e Coordenação do Ponto BR – NIC.br
Diretor Presidente
Dem Getschko
Diretor Administrativo e Financeiro
Rcardo Narch
Diretor de Serviços e Tecnologia
Frederco Neves
Diretor de Projetos Especiais e de Desenvolvimento
Mlton Kaoru Kashwakura
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 3/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m e
s t u d o d o . g o v . b r
C r é d i t o s
3
C O O R D E N A çã O G E R A L
NIC.br / CEPTRO - Centro e Etuo e Pequia em Tecnoogia e Ree e OperaçeAntono Marcos MorerasHetor de Souza GanzelPedro Hadek
NIC.br / CETIC - Centro e Etuo obre a Tecnoogia a Informaço e a Comunicaço
Alexandre Barbosa Julano CappRobson Tavares
W3C - Ecritório BraiCarlnhos CecconVagner DnzOrípde Clento Flho
Aeoria e ComunicaçoCarolne D’Avo
P A R C E i R O S
InWeb - Intituto Naciona e Ciência e Tecnoogia para a W
Adrano C. Machado PereraCrstna Duarte MurtaCEFET-MG - Centro Federal de Educao Tecnológca de Mnas Geras, Departamento de Computao
Altgran da SlvaUFAM - Unversdade Federal do Amazonas, Departamento de Cênca da Computao
Dmtr Fazto de Almeda RezendeEduardo Luz Gonalves Ros-NetoUFMG - Unversdade Federal de Mnas Geras, Departamento de Demografia
Dorgval Olavo Guedes NetoRenato FerreraWagner Mera JrUFMG - Unversdade Federal de Mnas Geras, Departamento de Cênca da Computao
Minitrio o Paneamento, Orçamento e Geto
Cláudo Munz Machado Cavalcant Joo Batsta Ferr de OlveraSLTi - Secretara de Logístca e Tecnologa da informao
ABEP
Dayse VannaPRODERJ - Centro de informao e Comuncao do Estado do Ro de Janero
Káta BrunoCEPROMAT - Centro de Processamento de Dados do Estado de Mato Grosso
A G R A D E C i M E N T O E S P E C i A L A O S C O L A B O R A D O R E S :
Gustavo da Gama Torres José Mara LeocádoSERPRO - Servo Federal de Processamento de Dados
isabele dos Passos Omena José Nlo Martns SampaoATi Agênca de Tecnologa da informao, Governo do Estado de Pernambuco
Ncolau RenhardFEA - Faculdade de Economa e Admnstrao, Unversdade de So Paulo
Oron BorbaCiASC Centro de informátca e Automao do Estado de Santa Catarna
Paulo MaaCaxa Econômca Federal
Roberto AguneSecretara de Gesto Públca do Estado de So Paulo
Tatyana SouzaPRODEB - Companha de Processamento de Dados do Estado da Baha
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 4/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 5/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m e
s t u d o d o . g o v . b r
í n d i c e
5
Índce
Prefáco
introduo
Os desafos técncos para o estudo da Web braslera
Metodologa
Concetos e orentaões para o Censo Web .brAplcao
Defino da pergunta e os dados para respondê-la
Breve descro da metodologa
Resultados
Análses
Concluso
Bblografa
Análse dos resultadosDefnndo o conceto de Web
As dmensões e as característcas da Web braslera
As dmensões e as característcas do .gov.br
Partcpao das regões na composo da Web governamental
Outros domas na Web governamental
Aderênca aos padrões HTML do W3C
Aderênca aos padrões de acessbldade ASES
Tecnologas utlzadas para servr arquvos naWeb governamental
9
13
19
27
2734
35
35
37
38
38
39
4343
44
45
45
48
49
49
50
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 6/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m
e s t u d o d o . g o v . b r
Í N D I C E
Tecnologas utlzadas para servr arquvosnas cnco regões brasleras
As tecnologas utlzadas para servr arquvos nas UFs
Domínos como sítos estruturados em págnas
Objetos mas usados nas págnas da
Web governamentalTecnologas utlzadas para dsponblzaode dados e de conteúdo na Web governamental
Sncronzao de tempo dos servdores brasleros5
Geolocalzao dos iPs
Tempo médo de respostas dos servdores brasleros
Respostas dos sítos brasleros de governo a consultas iPV6
indcadores e unverso de dadosA1: Tamanho total da Web braslera - númerode sítos e págnas da Web
A2: Tamanho total da Web braslera - tamanhoem Ggabytes
C1: Dstrbuo do uso de domas na Web braslera - Proporo de domas
E1: Proporo de págnas da Web aderentes aos padrões HTML do W3C
F1: Proporo de Págnas da Web aderentes aos padrões de acessbldade ASES
G1: Proporo de tpos de objetos usadosnas págnas da Web - percentual por tpo de objeto
G2: Proporo de tpos de tecnologas usadasnas págnas da Web - percentual por tpo de tecnologa
H1: idade (últma atualzao) médadas págnas da Web braslera
H2: Proporo de págnas dnâmcas na Web braslera
B1: Proporo de sítos Web utlzando iPv6
B2: Proporo de sítos Web utlzandodomíno alternatvo iPv6 (pv6.domno)
B3: Proporo de sítos Web respondendoa png iPv6
B4: Proporo de síto Web que respondem ao comando GETno endereo iPv6
i1: informao sobre sncronzao de tempo de servdoresda Web braslera
i2: informao sobre tempo de resposta médodos servdores da Web braslera
D2: Proporo de países que hospedam os sítos Web brasleros
51
52
53
53
54
55
56
57
58
63
65
67
71
72
75
78
80
82
84
86
87
87
88
89
91
92
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 7/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m e
s t u d o d o . g o v . b r
p r e f á c i o
7
Prefáco
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 8/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m
e s t u d o d o . g o v . b r
p r e f á c i o
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 9/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m e
s t u d o d o . g o v . b r
p r e f á c i o
9
Prefáco
O prmero prncípo da Web, proposto pelo W3C Brasl, afrma que “o prn-cpal valor da Web é o socal. Mas do que tecnológco, este é um ambente
de comuncao humana, de transaões comercas, de oportundades para
compartlhar conhecmentos e, para ser um ambente unversal, deve estar
dsponível para todas as pessoas, ndependentemente dos equpamentos e
softwares que utlzem, prncpalmente da cultura em que nserem, da loca-
lzao geográfca, das habldades físcas ou mentas, das condões socoe-
conômcas ou de nstruo”. A unversaldade da Web só pode ser garantda
e aprofundada com um modelo de governana democrátco e pluralsta quetenha foco no acesso por todos e na sua própra evoluo tecnológca.
Acompanhando delberao do Comtê Gestor da internet no Brasl – CGi.br,
em 2007, o Núcleo de informao e Coordenao do Ponto BR – NiC.br ns-
talou o escrtóro do W3C no Brasl – o prmero na Amérca do Sul. O W3C é
um consórco nternaconal com a msso de conduzr a Web ao seu potencal
máxmo, crando padrões e dretrzes que garantam a sua evoluo permanente.
Medr e acompanhar a evoluo da Web braslera é uma das mas recentes
atvdades do CGi.br conduzda pelo escrtóro do W3C no Brasl e pelo Cen-tro de Estudos e Pesqusas em Tecnologa de Redes e Operaões (CEPTRO.br),
a fm de se produzrem nformaões e ndcadores que contrbuam para o en-
tendmento das característcas da Web e do seu comportamento nas áreas de
acessbldade e unversaldade, além de acompanhar a sua própra evoluo.
É com satsfao que comprovamos a utlzao dos resultados das pesqusas
dvulgadas pelo CGi.br por gestores públcos na construo de estratégas
governamentas e na elaborao de polítcas públcas que atendam às ne-
cessdades da populao braslera, por pesqusadores na elaborao de pes-
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 10/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m
e s t u d o d o . g o v . b r
p r e f á c i o
0
qusas acadêmcas e por empresas prvadas no acompanhamento do cenáro
tecnológco braslero.
O CGi.br apresenta a prmera edo da Pesqusa “Dmensões e caracte-
rístcas da Web braslera: um estudo do .gov.br”, pesqusa nédta na sua
forma e extenso no Brasl e também fora do País. incalmente, a pesqusadedcou-se apenas ao domíno .gov.br, cujo olhar faz um rao-x da Web go-
vernamental. Posterormente, sero dvulgados também os resultados sobre
os demas domínos da Web. Essa pesqusa será realzada anualmente, com
objetvo de gerar uma sére hstórca e de poder acompanhar a evoluo da
Web braslera.
Os resultados dessa pesqusa revelam característcas dos domínos, págnas
Web e servdores Web brasleros, que mostram como as organzaões de-
senvolvem as suas págnas Web, consderando aspectos de acessbldade,unversaldade, tpos de tecnologas e tpos de documentos. A pesqusa tam-
bém mostrará característcas dos servdores Web, consderando aspectos de
geolocalzao, sncronzao de timestamp e preparao para protocolo
iPv6.
Portanto, é com satsfao que o CGi.br dvulga o resultado dessa pesqusa e
a análse sobre o seu sgnfcado, com a expectatva de que esses dados se-
jam mportantes ferramentas de compreenso e evoluo da Web braslera.
Hartmut Richar GaerDretor Executvo - CGi.br
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 11/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 12/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 13/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m e
s t u d o d o . g o v . b r
i n t r o d u ç ã o
13
introduoA internet é provavelmente a mas sofstcada tecnologa de nformao e
comuncao atualmente dsponível para a socedade, em funo da sua
forma de organzao e de seus mpactos nas esferas tecnológcas, socal,
econômca e polítca. Ela é também a nfraestrutura necessára para uma
de suas maores e mas conhecda aplcao: a Web, grande responsável
pela popularzao da internet, a ponto de hoje ser confundda com esta.
internet e Web so, portanto, concetos dstntos. A Web pode ser defnda,
grosso modo, como a parte da internet acessada por meo de navegadores,
ou browsers.
O mpacto do uso da internet e da Web na socedade, nos ndvíduos e nas
organzaões tornou-se objeto de pesqusa, extrapolando o campo especal-
zado da computao aplcada, e atngndo áreas de estudos organzaconas
e socológcos. Por ser essencalmente dnâmca e sem fronteras, tanto do
ponto de vsta físco como vrtual, é mportante que seja conhecda em de-
talhes, tanto para assegurar sua lvre transformao quanto para permtr sua
dsponbldade, confabldade e acessbldade por todos.
Assm, o Comtê Gestor de internet do Brasl – CGi.br e o Núcleo de informa-
o e Coordenao do Ponto BR – NiC.br, por meo do W3C Brasl e do Cen-
tro de Estudos e Pesqusas em Tecnologas de Redes e Operaões – CEPTRO.
br, crou mas uma ncatva para um melhor conhecmento e entendmento
da internet braslera: o Projeto Censo da Web .br. Realzado em parcera
com a Secretara de Logístca e Tecnologa da informao do Mnstéro do
Planejamento, Oramento e Gesto (SLTi / MPOG), a Assocao Braslera
de Entdades Estaduas de Tecnologa da informao e Comuncao (ABEP)
e o insttuto Naconal de Cênca e Tecnologa para a Web (inWeb), anda
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 14/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m
e s t u d o d o . g o v . b r
i n t
r o d u ç ã o
4
com o apoo metodológco do Centro de Estudos sobre as Tecnologas de
informao e Comuncao – CETiC.br, esse projeto tem como objetvo crar
ndcadores para contrbur para o estudo e evoluo da Web braslera, cujo
escopo é defndo mas adante.
Desde meados dos anos 90, a Web braslera tem mostrado acentuado cresc-mento, tanto no número de usuáros como no leque de servos e aplcaões
oferecdos por meo da rede. É flagrante o avano de seu uso pela populao
braslera: de 37 mlhões de usuáros, em 2005, passou a aproxmadamente
65 mlhões, em 2009. igualmente mpressonante é a mudana de compor-
tamento do cdado, que utlza cada vez mas servos transaconas em
ambentes vrtuas, conforme mostram as pesqusas do CGi.br.
Para compreender o fenômeno do desenvolvmento da Web braslera, enten-
der o seu crescmento e potencal, bem como acompanhar a sua transforma-o, esse projeto e seu relatóro agora apresentados so um esforo de ses
meses de contínuo trabalho e de superao de uma equpe dante de uma
empretada novadora, únca no mundo em seu escopo e objetvos, cujos pr-
meros resultados podero ser aprecados e utlzados a partr de agora.
Como opo metodológca apresentada adante, trabalhamos ncalmente o
domíno “.gov.br”. O que veremos nesse relatóro so as característcas e as
dmensões da “Web governamental”.
Esse relatóro dvde-se em quatro partes. A prmera, escrta por Antôno Mar-cos Moreras, gerente do CEPTRO.br, será a descro do projeto, pelo qual
ele apresenta os desafos tecnológcos enfrentados pela equpe técnca dante
de um levantamento ponero. Embora já tenha havdo ncatvas parecdas
com esse projeto Censo da Web, as quas foram útes para a concepo do
projeto e desenvolvmento da ferramenta tecnológca, a própra evoluo da
Web e as respostas buscadas às perguntas propostas tornaram-no únco.
O tópco segunte será Aspectos Metodológcos, uma descro da Metodo-
loga proposta e escrta pela inWeb, parcera técnco-centífca do projeto.Esse tópco constará de uma breve descro da metodologa escolhda e um
sumáro do processo de coleta de dados.
O penúltmo capítulo apresentará uma Análse dos Resultados, buscando
explcar a mportânca de cada ndcador defndo e compreender os resul-
tados obtdos com a complao das nformaões coletadas.
Fnalmente, apresentamos todos os ndcadores do domíno “.gov.br” com
suas respectvas tabelas de resultados, com alguns recortes por Estado ou
por rego.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 15/93
D i m e n s õ e s e c
a r a c t e r í s t i c a s d a W e b b r a s i l e i r a : u m e
s t u d o d o . g o v . b r
i n t r o d u ç ã o
15
Esse estudo ajudará a responder váras questões, complementando e servn-
do de subsído para outras aões. Por exemplo: Quantos sítos há na Web.
br? Qual o tamanho da Web.br, e como se dá seu crescmento? Que tpo de
tecnologas so utlzadas? Onde os sítos Web esto hospedados? No Brasl
ou no exteror? Os sítos so aderentes aos padrões Web, como HTML e CSS?
Os sítos so acessíves? Há suporte a iPv6? Quas tecnologas so usadas
para os servdores, págnas, magens, documentos, vídeos etc? Os servdores
mantém seus relógos sncronzados com a Hora Legal Braslera?.
A proposta deste projeto é que ele seja realzado anualmente e esperamos
que os seus resultados contínuos possam servr para que nsttuões públcas,
prvadas e acadêmcas possam medr e acompanhar a evoluo da Web bra-
slera e das polítcas públcas governamentas na área de governo eletrônco.
Vagner Diniz
Gerente - W3C Escrtóro Brasl
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 16/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 17/93
D m
õ
í
d W
: m
d o
d o . g
o v .
C a p í t u l o 1
O s
D e s a f i O s t
é c n i c O s
p a r a O
e s t u D O
D a
W e b b r a s i l e i r
a
17
CAPÍTULO 1
Os desafos técncos parao estudo da Web braslera
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 18/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 19/93
D m
õ
í
d W
: m
d o
d o . g
o v .
c a p í t u l o 1
O s
D e s a f i O s t
é c n i c O s
p a r a O
e s t u D O
D a
W e b b r a s i l e i r
a
19
Os desafos técncos para
o estudo da Web brasleraNo CEPTRO.br, nossa curosdade pela Web fo aguada ao realzarmos
alguns estudos smples sobre a geolocalzao dos servdores que hospe-
davam os domínos “.br”, apresentados nas duas últmas reunões do PTT
Fórum1, evento destnado aos Sstemas Autônomos brasleros − redes que
compõem a internet. Esses dados nos nformavam que mas de um tero dosservdores Web estavam hospedados fora do Brasl, cenáro muto aquém do
deal, já que mplca em latêncas mas altas e custos mas elevados para os
provedores de acesso naconas, embora o valor de hospedagem para o síto
possa ser menor. Precsávamos saber mas. Que tpos de sítos eram esses?
Eram os mas ou menos mportantes? Grandes ou pequenos? Voltados ao
mercado naconal ou ao exteror?
Conduzmos também um projeto para a dssemnao do iPv6 no país, e
acompanhar a sua adoo na Web braslera sera um ótmo ndcador da
efetvdade de nossas aões. De forma semelhante, gostaríamos de saber se
os servdores Web estavam sncronzados com a hora correta, o que é reco-
mendado pelo CGi.br e possbltado através do servo NTP.br oferecdo
em conjunto com o Observatóro Naconal. Quando o escrtóro do W3C
apresentou-nos o desejo e a necessdade do governo de conhecer melhor
a aderênca aos padrões de acessbldade dos sítos, percebemos que real-
mente era uma necessdade conhecer melhor a Web braslera e decdmos
1 PTT - Ponto de Troca de Tráfego
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 20/93
D m
õ
í
d W
: m
d o
d o . g
o v .
c a p í t u l o 1
O s
D e s a f i O s t
é c n i c O s
p a r a O
e s t u D O
D a
W e b b r a s i l e i r a
0
nos dedcar ao projeto. No tínhamos dea, contudo, do tamanho do de-
safo ao qual nos proporíamos, prncpalmente em seus aspectos técncos.
A forma como é consttuída a Web, por s só, traz dversas dfculdades.
Por exemplo, no há realmente uma “Web braslera”; a World Wide Web,
como o própro nome dz, é uma rede de alcance mundal. Lmtar o escopodo estudo fo o prmero dos desafos. O que faríamos? Consderaríamos a
lnguagem das págnas? Se o fzéssemos, havera a dfculdade em s, de
dentfcar o doma, e o rsco de consderarmos sítos dos demas países lu-
sófonos. Consderaríamos, ento, a geolocalzao dos servdores utlzados
para hospedar a Web? Sabíamos de antemo que uma grande percentagem
dos domínos “.br” estavam hospedados fora do país. Decdmos consderar
apenas a Web formada pelos domínos “.br”, conscentes de que há sítos
naconas hospedados em outros domínos que fcaram fora do estudo. Para
mnmzar o problema, consderamos no estudo os sítos sob outros domí-
nos encontrados por meo de um redreconamento a partr de uma URL que
apontasse para um “.br”.
A Web é uma rede cujos conteúdos esto nterlgados através de documen-
tos de hpertexto. Seu estudo é possível por um processo de análse e coleta
sucessva das págnas, a partr de um conjunto de sítos prevamente conhec-
dos. Essa busca é feta de forma automátca por um programa de computador
normalmente chamado de crawler, coletor, ou batedor. Nem toda a Web está
nterlgada, contudo, embora a maor parte dela esteja: há “lhas” de tama-nhos varados sem lgao com o restante da rede. isso sgnfca que o conjun-
to ncal de sítos a partr dos quas a pesqusa é feta nfluenca o resultado,
e encontrar o conjunto adequado, geralmente o mas completo possível, é um
passo mportante. Na coleta do “.gov.br”, por exemplo, a stuao deal sera
conhecermos os domínos regstrados dretamente sob o “.gov.br”, mas os
domínos regstrados sob as sglas das undades federatvas, como “.sp.gov.br”.
Os prmeros esto sob responsabldade do Governo Federal, e obtvemos a
base; os demas so responsabldade dos Governos Estaduas e contamos como apoo da ABEP (Assocao Braslera de Entdades Estaduas de TiCs) em sua
obteno. Anda assm, apenas 8 undades federatvas havam nos envado os
dados na época da coleta, obrgando-nos a, palatvamente, complementar os
dados usando sítos encontrados em buscadores Web.
Há também armadlhas para o processo de coleta: sítos com um número
nfnto de págnas, geradas dnamcamente. Elementos smples, como um
calendáro gerado automatcamente no síto, podem crar stuaões desse
gênero. Lmtes de tamanho e profunddade têm de ser estabelecdos, com o
rsco de mpedrem a coleta de partes de sítos maores que estes.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 21/93
D m
õ
í
d W
: m
d o
d o . g
o v .
c a p í t u l o 1
O s
D e s a f i O s t
é c n i c O s
p a r a O
e s t u D O
D a
W e b b r a s i l e i r
a
21
Outro ponto a ser consderado é o que apeldamos de “Web profunda”: a
parte da rede em que é requerda a autentcao do usuáro para a navega-
o, por exemplo a maor parte dos sítos de relaconamento ou comun-
dades. Essa parte da Web é nacessível através do método utlzado, tendo
fcado fora do estudo. Exste anda a possbldade de serem consultados
servdores temporaramente ndsponíves, ou de serem encontrados sítos
sem o arquvo robots.txt, que especfca se eles podem ou no ser vstados
por batedores automatzados, ou sítos em que esse arquvo negue a poss-
bldade da coleta.
Consderamos, anda, os recursos de tempo, processamento, conectvdade
e dsco, para coletar, armazenar e processar os dados: mesmo agora, com
a prmera parte do estudo concluída, temos anda dfculdade em estmar
o que sera necessáro para um estudo no formato censtáro de toda a Web
“.br”. As estmatvas de quantdade de dados, por exemplo, varam entre 30
e 300Tbytes, consderando-se apenas as págnas em formato HTML.
Ao aventarmos a possbldade de fazer o estudo, um dos prmeros passos
fo procurar por pesqusas smlares realzadas anterormente, e por ferra-
mentas. Encontramos algumas pesqusas de cunho acadêmco, nclusve
realzadas sobre a Web braslera, que nos auxlaram no processo. Encon-
tramos também algumas ferramentas que poderam ser aprovetadas para a
coleta dos dados. Em partcular, estudamos três programas de computador
para essa fnaldade: o Nutch, um coletor utlzado para a crao de bus-cadores; o Hertrx, usado no Web Archive, um projeto que mantém um
arquvo hstórco de parte relevante da Web; e o WiRE, utlzado em um dos
estudos acadêmcos que encontramos, escrto justamente com a fnaldade
de realzar estudos sobre a Web, tendo já embutdas algumas ferramentas
de análse que consderamos de nteresse: análse do tamanho das págnas,
tpos de documentos, domas, cálculo de rankings, etc. A concluso fo: co-
mear o estudo utlzando qualquer uma delas trara vantagens em relao
ao desenvolvmento de uma ferramenta nteramente nova. Optamos peloWiRE, prncpalmente pela exstênca das funconaldades de análse, já n-
corporadas ao programa.
Sabíamos que algumas modfcaões teram de ser fetas no WiRE orgnal.
Por exemplo, sera necessáro que armazenássemos as págnas Web ntegral-
mente, para possbltar a aderênca aos padrões, ento os arquvos HTML
coletados, que antes passavam por um fltro para elmnar algumas tags
HTML, e eram armazenados em um grande arquvo de dados de formato
propretáro, passaram a ser armazenados ntegralmente no sstema de ar-
quvos, em pastas e subpastas, num formato smlar ao orgnal dos própros
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 22/93
D m
õ
í
d W
: m
d o
d o . g
o v .
c a p í t u l o 1
O s
D e s a f i O s t
é c n i c O s
p a r a O
e s t u D O
D a
W e b b r a s i l e i r a
2
sítos. Essa modfcao ajudou também a tornar o WiRE mas escalável.
Outra modfcao fo feta para acertar o comportamento do software em
relao aos redirects, de forma que se adequasse à defno de Web bras-
lera explcada anterormente.
Embora o WiRE tvesse sdo usado em város estudos acadêmcos, foramnecessáras anda dversas novas mplementaões e correões de comporta-
mento para que o consderássemos pronto para ser usado no estudo. Fzemos
uma melhora sgnfcatva na ferramenta de dentfcao de domas, com
objetvo de melhorar seu desempenho. Pode-se ctar anda, nesse contexto:
a normalzao das págnas segundo a RFC3986, o tratamento do HTTP 1.1,
com a transferênca progressva dos dados, a melhora do tratamento da co-
dfcao das págnas, a aleatorzao da ordem em que os documentos so
baxados e mudanas no tratamento das lstas de sítos a serem percorrdos,
além de dversas correões de bugs. O WiRE é uma ferramenta dfícl de ser
testada. Para alcanar esse resultado, foram necessáros meses de desenvol-
vmento, e mutas coletas de partes sgnfcatvas da Web braslera.
Gostaríamos, com o estudo da Web, de responder a váras questões que
no estavam contempladas nos resultados das análses fetas pelo WiRE. Por
exemplo: a geolocalzao dos servdores, a aderênca ao iPv6 e ao NTP, e
a aderênca aos padrões HTML e de acessbldade (eMAG / WCAG). Essas
análses poderam ser ncorporadas ao WiRE ou mplementadas numa fer-
ramenta separada. Optamos pela segunda alternatva, de forma a evtar ansero acdental de novos bugs no códgo do WiRE, com o qual anda no
estávamos completamente famlarzados. Fo crada a ferramenta cujo nome
provsóro é Análseinternet, que realza os testes ctados, e tem a funo
adconal de armazenar tanto os dados do WiRE, quanto os de suas própras
análses, num banco de dados únco. Reutlzamos, quando possível, ferra-
mentas já prontas. Por exemplo, para verfcar a aderênca ao padro HTML
usamos o valdador crado pelo W3C, rodando localmente, o qual é consul-
tado pelo Análseinternet. Para os testes de acessbldade, ncorporamos aoprograma rotnas do ASES, programa desenvolvdo pelo Governo Braslero.
Ao termnar a análse dos dados desse prmero estudo parcal, da Web “.gov.
br”, concluímos que temos um conjunto de ferramentas confáves que nos
servro bem nos estudos adconas que faremos. Sabemos, no entanto, de
lmtaões que anda precsam ser vencdas, por sso modfcaões contnu-
am a ser fetas, segudas de testes extensvos. Dentre as modfcaões em
curso, podemos destacar: a análse do tempo correto através do protocolo
NTP, no lugar de usar apenas a hora fornecda pelo própro HTTP, quando
possível; a contagem do tamanho dos objetos no HTML presentes nas pá-
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 23/93
D m
õ
í
d W
: m
d o
d o . g
o v .
c a p í t u l o 1
O s
D e s a f i O s t
é c n i c O s
p a r a O
e s t u D O
D a
W e b b r a s i l e i r
a
23
gnas, como magens e vídeos, sem baxá-los, através de consultas HTTP
HEAD; a melhora no tratamento às “armadlhas” ctadas anterormente e a
melhora na velocdade das coletas e análses. Além dsso, há a necessdade
de automatzarmos parte das análses estatístcas necessáras para a gerao
deste relatóro, com a possbldade de utlzao de ferramentas do tpo
Data Warehouse e Data Mining.
Estamos, anda, nos preparando para em breve tornar públcos os códgos
utlzados, com lcenas lvres, de forma a garantr a transparênca total so-
bre a metodologa e, quá, consegur a colaborao de outros desenvolve-
dores e utlzadores dos programas para vencer os muto desafos que anda
nos restam.
Antonio M. MoreiraGerente - CEPTRO.br
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 24/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 25/93
D n s õ s c
r c r í s c s d W e b b r s r : u s u d d . v . b r
C a p í t u l o 2
m e t o D o l o g i
a
25
CAPÍTULO 2
Metodologa
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 26/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 27/93
D n s õ s c
r c r í s c s d W e b b r s r : u s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i
a
27
Metodologa
Concetos e orentaões parao Censo Web .br
A palavra censo orgna-se no latm census e sgnfca hoje a “contagem ou
enumerao completa” de uma populao de ndvíduos ou objetos determ-
nados. Portanto, censo é o resultado fnal de uma contagem específca que
defne o conjunto de dados estatístcos sobre as dversas varáves de uma
populao nvestgada.
Para a realzao de um censo, é fundamental defnr rgorosamente o con-
ceto das undades empírcas que sero objetos de análse, além dos proce-
dmentos técnco-metodológcos para elaborao do quadro populaconal
(defno dos perfis e dos lmtes da populao objeto de nvestgao), co-
leta dos dados (característcas ndvduas a serem dentfcadas) e tabulao
dos resultados (defnda segundo os requstos de um plano tabular).
Neste sentdo, a possbldade de realzao de um censo está dretamentecondconada ao conhecmento e à defno préva dos “lmtes populaco-
nas” aos quas devem-se ater os objetos ndvduas a serem recenseados.
Em outras palavras, para o estudo do tamanho e composo da Web bras-
lera, é necessáro a defno de seus domínos e consequentes lmtes.
Ento, para uma prmera consoldao de um Censo da Web Braslera, de-
fnram-se concetualmente as undades a serem pesqusadas como aqueles
sítos da Web referencados por um nome sob o domíno .BR. Assm sendo,
assume-se que um conteúdo pertence à Web braslera se o domíno de topo
do nome do seu síto Web respeta uma das seguntes condões:
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 28/93
D n s õ s c r c r í s c s d W e b b r s r : u
s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i a
8
1. Está sob a herarqua .BR;
2. No está sob a herarqua .BR, mas exste um redreconamento a partr de
um domíno sob o .BR. para ele. Por exemplo, uma empresa multnaconal
que regstra o domíno .BR com a sua marca, porém o aponta (redrecona)
para o síto Web prncpal da empresa que está sob a herarqua .com.Consderaram-se, anda, em algumas das análses, os links para documentos
presentes nas págnas de sítos .BR, mesmo que estejam hospedados fora
desta herarqua de domínos.
Contudo, um dos maores problemas encontrados até agora para a consecuo
deste censo esbarra exatamente na topologa do unverso vrtual da Web, que
lmta a capacdade técnca de mensurao do tamanho e composo real
do que sera uma “populao de domínos e objetos vrtuas”. Para além das
questões que cercam a complexdade de dentfcao dos lmtes da “Web profunda”, o própro espao conhecdo da Web .br, por exemplo, devdo à
sua dnâmca nerente, parece ntratável quanto as técncas de rastreamento
e coleta de nformaões, dficultando em muto o trabalho de contagem e de
dentfcao dos perfs de domínos e de objetos e, prncpalmente, sobre o
conhecmento da “populardade” desses objetos na populao.
Dante do quadro de ncertezas sobre a dnâmca, tamanho e composo da
Web, em prncípo parecera extrema ousada a proposo de uma metodo-
loga rgorosa de ampla aplcao para mensurao objetva da Web bras-lera. Portanto, dexa-se claro que o avano e consoldao dessa metodolo-
ga refere-se a um processo maor e ntegrado de planejamento sstemátco
sobre dferentes etapas que devem definr um modelo para “dentficao”,
“coleta”, “valdao” e “análse” de todas as nformaões dsponíves para
determnao de uma populao de domínos .br.
Em outras palavras, há a conscênca de que a aplcao do conceto de
“censo” e a determnao de uma “populao de domínos” deve ocorrer
em perspectva e consoldar uma metodologa aproprada para a realzaorgorosa de uma contagem defntva em um futuro próxmo, que se realzará
a partr do aperfeoamento dessa metodologa e das contagens sucessvas
que se pretende conduzr desde agora. Nesse momento, desenvolvem-se
essa metodologa e sua padronzao para realzaões futuras.
Para a defesa da dea de um “Censo da Web .br”, poder-se-a se traar um
paralelo com a metodologa consoldada nos estudos de populao em ge-
ral, nomeadamente a área da Demografia. Assm, um ponto fundamental a
ser defindo no Censo da Web .br é a realzao eventual de uma contagem/ enumerao completa da populao de domínos .br. Partndo da experên-
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 29/93
D n s õ s c
r c r í s c s d W e b b r s r : u s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i
a
29
ca desenvolvda na Demografia, para proceder à enumerao propramente
dta, é necessáro definr concetualmente o que é “populao”; faz parte
desse entendmento definr também o conjunto de técncas necessáras para
a dentficao e regstro dessa populao [1].
Por exemplo, para a contagem da populao humana, definem-se os dom-cílos de referênca onde resde nequvocamente cada ndvíduo membro
da populao-alvo. Assm, a contagem pode ser feta por meo do regstro
fiducáro de móves em prefeturas muncpas. Nesse caso, o censo podera
se resumr smplesmente à coleta de nformaões em cada prefe tura do país
sobre o regstro fiducáro de cada domcílo e soma efetva de todos os mem-
bros assocados a cada domcílo enumerado. No caso dessa contagem popu-
laconal (de ndvíduos), parte-se do pressuposto (forte em demografia) de que
cada pessoa faz parte de um domcílo, ou seja, resde em um e apenas um
domcílo (exstem exceões e também técncas para ajustar tas exceões).
Assm, quando se enumera a populao braslera, aponta-se um quadro
populaconal defindo, baseado nos domcílos e nos ndvíduos referdos à
undade de resdênca, e as técncas de contagem da populao resumem-se
à qualficao do desenho de pesqusa e organzao no trval do trabalho
de campo, ou efetvamente à qualdade do trabalho dos recenseadores em
cada domclo exstente (e devdamente regstrado) para catalogar o número
de resdentes em cada habtao.
A partr desse pequeno exemplo, magna-se a aplcao de uma lógca se-
melhante de pesqusa para enumerao da Web braslera. O ponto prncpal
sera definr um lmte referencal para o unverso da populao alvo, mesmo
que este seja apenas estmado e nunca verficado emprcamente, pos, nes-
se caso, o que mporta é estabelecer uma “métrca” como referênca para
análse dos objetos coletados em dferentes momentos no tempo. Assm,
parte-se das nformaões coletadas sobre os regstros oficas dos domínos
.br como uma referênca sobre a populao alvo; os lmtes referencas para
a populao so dados pela defino do domíno de prmero nível .br .Segundo a lógca demográfica ndcada, a partr da defino de uma “ma-
lha dgtal” dos domínos regstrados “.br”, estabelecem-se os vínculos de
cada objeto ndvdual observável do unverso vrtual com seu domíno de
referênca. Consequentemente, obtém-se um quadro populaconal defindo
bascamente pelo tamanho do conjunto de domínos de prmero nível e sua
composo por objetos atrbuídos.
Contudo, esse procedmento em s mesmo no resolve todo o problema da
contagem, porque no ndca uma dea real do tamanho da Web; além ds-
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 30/93
D n s õ s c r c r í s c s d W e b b r s r : u
s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i a
0
so, sabe-se que o rastreamento efetvo de toda a populao (tanto a da popu-
lao humana quanto a de objetos na Web), ou seja, a chamada “cobertura
censtára”, perfeta em qualquer contagem, depende de uma sére de fatores
mutas vezes no controlados, que nvablzam um fechamento completo
da enumerao. Por exemplo, a contagem de ndvíduos em um domcílo
pode ser prejudcada pela recusa do resdente em receber um recenseador.
Assm, até mesmo em Demografia, exstem lmtaões para a realzao de
“censos perfetos” e, recorrentemente, os melhores censos demográficos as-
sumem um erro de cobertura acetável entre 2 a 8% dos ndvíduos/domcí-
los em relao à populao total.
Em que pesem as lmtaões mpostas pelo própro processo de coleta (qual-
dade dos batedores/recenseadores), dstrbuo populaconal (objetos sola-
dos ou natngíves) e natureza dnâmca da Web, exstem também métodos
demográficos específicos para correo dos erros de cobertura censtára,
que poderam ser estenddos e aplcados no caso do Censo da Web .br. Nes-
se caso, a questo sera definr o “grau de cobertura” em relao à provável
populao real e, a partr desse parâmetro, promover a correo do tamanho
efetvo da populao alvo.
Esse relatóro enseja um prmero esforo a fm de estabelecer a metodologa
capaz de estmar o chamado “grau de cobertura” para a consequente corre-
o das estmatvas do tamanho da Web .br.
Chega-se, assm, ao desafio segunte, um segundo ponto: a defino de um
procedmento metodológco rgoroso para estmar o grau de cobertura e o
tamanho mas provável da populao-alvo.
Aqu surgem alguns desafios que têm sdo estudados para se adequarem à
aplcao metodológca no âmbto da computao e da estmatva do ta-
manho da Web .br. Em prncípo, exstem duas formas báscas de cálculo
da cobertura e estmatva do tamanho real de uma populao: 1) estmar a
cobertura em um censo, a partr da comparao demográfica com um censo
anteror; 2) utlzar técncas estatístcas específicas para se definrem popu-
laões dfíces de serem contadas (raras);
1. No caso da estmatva de cobertura a partr de dos censos, exstram
duas lmtaões medatas para aplcao no Censo da Web .br. Prme-
ro, sera necessáro haver um censo (ou pelo menos um esforo dêntco
de contagem de todos os domínos .br) num tempo T1, e outro num
tempo T2. Na análse demográfica tradconal de populaões humanas,
utlzam-se dos censos como parâmetro para se balzar todo o período
de exposo da populao-alvo que, medante análses demográficas
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 31/93
D n s õ s c
r c r í s c s d W e b b r s r : u s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i
a
31
dretas e ndretas sobre as “entradas” e “saídas” de ndvíduos da po-
pulao geral, possbltaro a estmatva se gura de um tamanho e de
uma composo populaconal. Assm, na realdade, essa metodologa
propõe tomar uma populao exposta num período qualquer e, a partr
do seu regstro dreto (sto é, da contagem em dos momentos dstntos),
utlza varáves estruturas específicas para estmar efetos dretos e nd-
retos de transformao da populao do tempo orgnal T1 para T2. Ao
comparar as resultantes entre o modelo do tamanho e da composo da
populao esperada com a populao observada no segundo momen-
to, obtém-se uma defno aproxmada do tamanho populaconal no
tempo T2. isso Demanda um conhecmento específico sobre a estrutura
populaconal, ou seja, que se conheam as varáves populaconas prn-
cpas (no caso da demografia humana, so as varáves de dade e sexo,
pos expressam dretamente o efeto de entrada e saída – nascmento -óbtos na populao geral) que definem a estrutura da populao e sua
dnâmca. A replcao dessa metodologa estrta, no caso do Censo da
Web .br, no se mostra factível, dada a nexstênca de varáves estrutu-
ras da populao de domínos e objetos.
2. Há uma segunda metodologa que se apresenta mas adequada e plena-
mente realzável para a consecuo do Censo Web .br., e dz respeto
às técncas estatístcas desenvolvdas para estmatvas de tamanhos de
populaões raras ou dfíces de contar. Uma das técncas de estmatvasde tamanho populaconal mas utlzadas nas cêncas bológcas (e
também na demografia para controle do grau de cobertura censtára)
para contar populaões ecológcas é a chamada “captura-recaptura”
[7, 1]. A replcao dessa técnca consste bascamente em enume-
rar o unverso dos domínos .br e dentfcá-los (marcá-los) um a um.
Na realdade, basta um dentfcador exclusvo para cada domíno que
surgu na amostra dessa prmera enumerao. Depos de um ntervalo
de tempo sufcente para haver transformaões nessa populao (por
exemplo, surgmento de novos domínos), proceder-se-a a uma segun-
da enumerao, segundo os mesmos parâmetros executados na coleta
anteror. Tem-se assm duas amostras da populao de domínos, em
que os ndvíduos expostos (domínos .br e seus objetos vnculados) em
uma amostra no necessaramente aparecero na amostra segunte, e
vce-versa. Utlza-se, ento, um modelo matemátco smples para es-
tmar o tamanho provável da populao total a partr da probabldade
de haver defasagens e repetões da presena dos domínos em dferen-
tes amostras da mesma populao (domínos .br e seus objetos vncula-
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 32/93
D n s õ s c r c r í s c s d W e b b r s r : u
s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i a
2
dos). Consequentemente, estabelecer-se-a, a partr dos procedmentos
de “captura-recaptura”, uma metodologa rgorosa e estatstcamente
segura para estmatva do tamanho real de uma populao com estru-
tura desconhecda.
Como se afirmou, talvez o maor problema para a consecuo de um censo sejao estabelecmento dos parâmetros de cobertura censtára, vsto que a “cober-
tura” reflete o grau de acudade da contagem frente à populao ncal, cuja
contagem pressupõe que seus lmtes (espacas e temporas) sejam definíves a
priori , de manera que o resultado final da contagem e lstagem reflta realstca-
mente o total de “objetos” que devem fazer parte da populao ncal.
Em geral, quando se conhece de antemo a populao a ser nvestgada (es-
pecalmente quando se conhece seu tamanho no tempo ncal T1), pode-se
defnr a estmatva do grau de cobertura (por exemplo, o grau de acudadedo censo) a partr de técncas demográficas dretas e ndretas, comparando-
se a composo populaconal nos tempos T1 e T2; entretanto, esse é o caso
específico de populaões humanas, como ficou claro no tem 1.
A defasagem na composo populaconal de T1 e T2 deve-se a dos fatores:
mudanas efetvas nas característcas populaconas ao longo do tempo, e
erro de cobertura da contagem/lstagem de objetos e característcas nos cen-
sos em T1 e T2.
No caso dos censos demográficos tradconas, o erro de cobertura é umaconsequênca dreta da omsso ou ncluso ndevda de domcílos partcu-
lares e das pessoas neles resdentes, assm como das pessoas resdentes em
domcílos partculares ocupados e consderados os mesmos nos dos censos
comparados (T1 e T2). No caso do censo da Web .br, os erros de cobertura
sero consequenca dreta da omsso ndevda de sítos .br (e de seus obje-
tos vnculados) numa contagem em T1 e outra, em T2.
A medo do erro de cobertura é essencal, pos pode nformar o grau de pre-
cso (acudade) das medões do tamanho da Web braslera e, caso necessá-ro, orentar os parâmetros para correo das estmatvas. Ento, a medo do
erro de cobertura é feta a partr da construo de ndcadores de omsso de
sítos (equvalentes aos domcílos) e objetos (equvalentes às pessoas).
No por acaso o método escolhdo para estmao desses ndcadores é o
chamado Dual Sstem Estimation [4, 3, 1], uma metodologa baseada na téc-
nca de “captura-recaptura”, referda no tem 2. cujo pressuposto é a amos-
tragem e as coletas semelhantes em dos (ou mas) momentos no tempo,
tendo a ndependênca estatístca entre as amostras/coletas como requsto.No caso do desenvolvmento dessa metodologa para a medo da Web .br,
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 33/93
D n s õ s c
r c r í s c s d W e b b r s r : u s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i
a
33
deve-se garantr a ndependênca em relao ao lanamento das sementes
e do batedor (ferramenta de contagem), a partr de uma mesma lsta de do-
mínos. Nesse momento, desenvolve-se uma nova metodologa para valdar
os dados da coleta, vsando uma estmatva da cobertura censtára, cons-
derando nformaões relaconadas às quantdades de domínos regstrados
(nesse caso, especficamente, aqueles regstrados com domínos do “gov.
br”), erros retornados no procedmento de coleta de dados e ndcadores
relaconados ao contexto da Web, como crescmento do volume de domí-
nos regstrados, modficao do tamanho de objetos nformaconas, dentre
outros. Esses resultados podero ser acompanhados mas adante, na seo
de apresentao de resultados e desdobramentos.
Como se trata de algo novo, a proposta é a evoluo da metodologa a ser
adotada com o tempo, a partr de novas coletas realzadas e novas técncas
propostas para tratar um censo de objetos da Web.
A segur, descrever-se-á brevemente o método de estmao da cobertura
censtára e do seu grau de acudade. O método utlzado para cálculo
dos ndcadores de “omsso” (erro de cobertura) será o Dual Sstem Esti-
mation, que se basea nas técncas de “captura-recaptura”. Sua utlzao
requer ndependênca na coleta das duas pesqusas (coletas em T1 e T2) e
pressupõe o confronto das nformaões da segunte manera (lustrada na
Tabela 2.1), onde:
a é o número de undades ncluídas em T1 e T2;
b é o número de undades ncluídas apenas em T1;
c é o número de undades ncluídas apenas em T2;
d é o número de undades desconhecdas que no foramncluídas nem em T1 nem em T2 (desconhecdo) e;
t é o total de undades da populao.
COlETA T1
COlETA T2
TOTAlUNIdAdEsINClUídAs
UNIdAdEsNãO INClUídAs
TOTAl t a + c b + d
UNIdAdEsINClUídAs a + b a b
UNIdAdEsNãO INClUídAs c + d c d
Tabela 2.1: Tabela de informaões “Captura-Recaptura”
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 34/93
D n s õ s c r c r í s c s d W e b b r s r : u
s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i a
4
Apenas d é, de fato, um dado desconhecdo, pos é o provável número de
sítos no coletado nas amostras em T1 e T2 [4]. Quando se compara a pr-
mera “captura” em T1 com o resultado da “recaptura” em T2, observa-se
que o erro de cobertura (d) pode ser corrgdo a partr das probabldades
conhecdas para a, b e c, ou seja, P(T1)=a+b e P(T2)=a+c, vsto que a so os
sítos ncluídos em ambas coletas; b é composto pelos sítos coletados em
T1, mas que no foram recapturados; e c so os sítos no capturados em T1,
mas capturados em T2.
Fnalmente, a partr das coletas sucessvas (que podem ser ampladas para
uma sére temporal maor), poderemos:
•Calcular o tamanho do erro de cobertura (d); como output sero
defindas “taxas de omsso”;
•Estmar o tamanho da Web .br e do número de págnas vncula-das, em uma data específica;
•Estmar tamanhos em dferentes pontos no tempo para avala-
o da evoluo da Web braslera (por exemplo, crescmento e
dnâmca da estrutura e composo da Web);
•Estabelecer ndcadores varados, segundo as dversas caracte-
rístcas de composo dos sítos e págnas da Web .br.
Aplcao
Em resumo, até esse momento dscutram-se as possbldades reas para
replcao de um censo demográfico sobre a populao de domínos .br.
Como já se ressaltou, a realzao efetva de uma contagem/enumerao po-
pulaconal que permta estmar o tamanho e composo da Web braslera
mplca uma metodologa no trval, e que anda está em desenvolvmentopara consoldao.
Nesse prmero esforo, desenvolvem-se as aplcaões necessáras para de-
termnao do quadro populaconal a ser trabalhado (domínos .br e seus
objetos vnculados), as técncas apropradas de coleta e valdao dos pro-
cedmentos e nformaões coletadas, bem como a metodologa adequada
para análse e afero do tamanho da Web .br.
Para se atngrem os objetvos traados ncalmente, fo precso redefinr
os procedmentos e orentaões do estudo, expermentalmente aplcados
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 35/93
D n s õ s c
r c r í s c s d W e b b r s r : u s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i
a
35
à coleta restrta dos domí nos .gov.br. A partr dessa prmera experênca,
testaram-se alguns procedmentos para estmatva do tamanho populaconal
da Web braslera sob os domínos .gov.br.
Nesse prmero momento, o objetvo restrnge-se à tentatva de aplcao,
avalao e valdao dos procedmentos metodológcos pré-defindos. Asegur, descreve-se seu “passo-a-passo”:
Defino da pergunta e os dadospara respondê-la
Prmero, o objetvo é definr uma estmatva para o tamanho da parte daWeb .br sob o domíno .gov.br. Para tal, utlzaram-se as nformaões sobre o
número de sítos (.gov.br) coletados em dos momentos dstntos, bem como
o número de págnas referdas ao conjunto de sítos coletados.
Portanto, há duas varáves báscas: 1) número de sítos .gov.br, e 2) número
de págnas vnculadas aos sítos coletados.
Em segundo lugar, como a coleta do .gov.br fo feta em dos momentos ds-
tntos (T1 e T2), a que o número de sítos e págnas dz respeto. Como forma
de se garantr a aplcao do método de “captura-recaptura” para estmaro tamanho da Web .gov.br, as duas coletas fetas em T1 e T2 satsfazem os
requstos necessáros (ndependênca das coletas, e garanta do lanamento
aleatóro das sementes).
Breve descro da metodologa
O método conhecdo como Dual Sstem Estimation (DSE) – aqu tratado
como método de “captura-recaptura” – é comumente utlzado pelos nsttu-
tos naconas de estatístcas de populao, especalmente para conferênca
(checagem) da qualdade censtára [7, 1].
As estmatvas sobre o tamanho da populao dervam de relaões matemá-
tcas e de estatístcas elementares, desde que alguns pressupostos fundamen-
tas sejam observados: ndependênca das coletas, dstrbuo aleatóra dos
objetos na populao e a mesma chance aleatóra de o objeto ser coletado
em todas as coletas. Claramente, alguns desses pressupostos no so ob-
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 36/93
D n s õ s c r c r í s c s d W e b b r s r : u
s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i a
6
servados emprcamente no unverso da Web. Em especal, a dstrbuo
aleatóra de objetos e de suas conexões no unverso online (sabe-se que a
topologa da rede online possu uma dstrbuo em escala-lvre, observan-
do os requstos de uma power law e, consequentemente, a dstrbuo de
vértces e arcos no segue um padro) [2, 5, 6].
De qualquer forma, nca-se a aplcao de uma metodologa que deve ser
ajustada ao unverso da Web, como fizeram Janguo Lu e Dngdng L para
estmar o tamanho da Web profunda [6]. Observa-se, portanto, que exste
uma correspondênca plausível entre as estmatvas e as coletas fetas.
Para a compreenso do método “captura-recaptura”, consderou-se uma po-
pulao desconhecda (o tamanho da Web .gov.br), cujos objetos (ndví-
duos) foram lstados em um prmero momento, gerando um conjunto de
objetos n1, e posterormente, em um segundo momento, um conjunto deobjetos n2. É mportante frsar que a lstagem representou a coleta exaustva
de todos os objetos da populao-alvo. Ao se comparar os dos conjuntos
coletados (n1 e n2), notou-se que exste um conjunto m de objetos duplca-
dos, sto é, objetos presentes nas duas coletas.
Assume-se que as duas coletas so ndependentes e que os objetos coletados
têm a mesma probabldade de serem coletados em ambas as coletas. Como
mostram Alho e Spencer [1], o conjunto de objetos duplcados m segue
uma dstrbuo de probabldade hpergeométrca quando conhecemos o
tamanho da populao total de objetos N (observados e no observados).
Pode-se, ndretamente, a partr da equao da dstrbuo de probab-
ldade hpergeométrca, estmar o tamanho total da populao N a partr de
um estmador de máxma verossmlhana que torne o conjunto de objetos
m observados o mas provável possível.
Portanto, o estmador EN será o valor de N que maxmza a probabldade
de o conjunto observado de objetos duplcados m ser verdadero para toda a
populao. Aqu o estmador de máxma verossmlhana é:
em que n1 e n2 representam o conjunto de objetos coletados em cada mo-
mento T1 e T2, e m representa o conjunto de objetos coletados em ambos
momentos.
A equao 3.1 mostra o estmador clássco do método de “captura-recap-
tura”, defindo desde Francs Bacon (1560) e renventado dversas vezes,
até a consoldao com Laplace (1802) e a sua especficao no campo da
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 37/93
D n s õ s c
r c r í s c s d W e b b r s r : u s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i
a
37
bologa com Petersen (1896), conhecdo como estmador de Petersen [7, 1].
Além dsso, outros estmadores foram desenvolvdos para se adequarem à
realdade empírca dos dados. Apenas para efetos comparatvos, ndca-se
aqu um estmador dervado de Petersen, utlzado por Lu e L [6], o conhe-
cdo estmador de Shumacher, ndcado para populaões com dstrbuo
unforme, vsto ser objetvo do grupo de trabalho aprofundar o conhecmen-
to sobre a metodologa e desenvolver estmadores adequados à realdade
empírca da Web .br.
Resultados
VAlOREs síTIOs síTIOs Ok PáGINAs HTMl Ok
N1 18.911 12.891 6.334.054
N2 19.300 12.279 6.575.751
N1 -N2 = M 18.053 11.309 3.459.590
N1 + N2 = T 20.158 13.861 9.450.215
Tabela 2.2: Tabela de Resultados
Usando as técncas apresentadas na metodologa para avalar a estmatvapara sítos (Hosts), os valores obtdos foram:
•Razo de Consstênca (fator de correo)
•Estmador Clássco de Shumacher
Usando as técncas apresentadas na metodologa para avalar a estmatva
para sítos com págnas váldas, Sítos OK, os valores obtdos foram:
•Razo de Consstênca (fator de correo)
•Estmador Clássco de Shumacher
Aplcando essas mesmas técncas para avalar a estmatva para Págnas da
Web (Págnas HTML váldas), os valores obtdos foram:
•Razo de Consstênca (fator de correo)
•Estmador Clássco de Shumacher
1,0029
12.039.334
1,2740
20.217
1,0097
13.996
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 38/93
D n s õ s c r c r í s c s d W e b b r s r : u
s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i a
8
Análses
Brevemente, aponta-se que os dos estmadores utlzados (Petersen e Shuma-
cher) apresentam o mesmo valor para o tamanho da provável populao de
sítos e págnas da Web .gov.br. Por meo da razo de consstênca (sto é, do
estmador de cobertura das coletas fetas), percebe-se claramente os lmtes de
coletas soladas. Em outras palavras, quando se obtém o somatóro de todos
os objetos coletados em dos momentos dstntos no tempo, têm-se um total
de 20.158 sítos, 13.861 sítos OK e 12.039.334 págnas váldas (OK), sob
o domíno .gov.br. Contudo, a razo de consstênca, fator de correo para
a cobertura das coletas, ndca que houve uma subestmatva na ordem de
0,3% para o tamanho da populao de sítos .gov.br e 0,97% para sítos OK.
No caso de págnas HTML váldas, a subestmatva fo bem mas acentuada,de aproxmadamente 27%, devdo à grande varabldade de págnas entre
as 2 coletas, justficada pela característca dnâmca da Web e também pela
natureza de suas págnas, que mutas vezes varam tecnologcamente a cada
execuo, o que dz respeto ao conceto de págnas dnâmcas.
Concluso
Os concetos adotados como parte metodológca esto adequados aos obje-
tvos do projeto e seus desdobramentos até o presente. No que dz respeto
aos ndcadores gerados e suas análses, cabe ressaltar que estas so váldas
e pertnentes às questões que se buscavam responder, respetadas às lmta-
ões exstentes em termos de coleta de dados realzada para a análse.
Em termos de estmatvas futuras e prevsões acerca do unverso de domí-
nos da Web, as técncas aplcadas até aqu anda no se mostraram efcen-
tes, dado o cenáro deste projeto ser muto dnâmco e desafador, o quedemanda novos estudos centífcos, que podero gerar novos métodos que
permtam extrapolar os resultados apresentados e fazer prevsões futuras de
mudanas da Web braslera. isso refora a boa escolha da estratéga de con-
tagem adotada até aqu para análse do unverso da Web .gov.br, que deverá
ser amplado para outros domínos nas etapas seguntes do trabalho.
Mesmo assm, exste nteresse em pesqusa e desenvolvmento de novas téc-
ncas que permtam, de forma complementar ao método de contagem (Cen-
so), fazer estmatvas e avalar tendêncas futuras para a Web braslera, a fm
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 39/93
D n s õ s c
r c r í s c s d W e b b r s r : u s u d d . v . b r
c a p í t u l o 2
m e t o D o l o g i
a
39
de se posslbtar o confronto de análses e a garanta de melhor qualdade
acerca do estudo e da avalao de característcas quanttatvas e qualtatvas
sobre a Web.
Equipe tcnica
inWeb – insttuto Naconal de Cênca e Tecnologa para a Web
Bblografa
_______ [1] JUHA M. ALHO AND BRUCE D. SPENCER. Statstcal Demography andForecastng (Sprnger Seres n Statstcs). Sprnger, August 2005.
_______ [2] RiCARDO BAEZA-YATES, CARLOS CASTiLLO, and Efthms N. Efthmads.Characterzaton of natonal Web domans. ACM Trans. internet Technol., 7(2):9,2007.
_______ [3] BEVERLEY CAUSEY. Dual system estmaton based on teratveproportonal fttng. Techncal Report, Statstcal Research Report - Bureau of theCensus, Washngton, USA,1984.
_______ [4] insttuto Braslero de Geografa e Estatístca. Metodologa do censodemográfco 2000. Sére Relatóros Metodológcos, 25, 2003.
_______ [5] DANiEL GOMES E JOãO MiRANDA. Arquvo e Medo da Web Portuguesa. in Pedro isaas, edtor, Proceedngs of ibero-Amercana iADiS WWW/ internet 2008, Lsbon, Portugal,December 2008.
_______ [6] JiANGUO LU AND DiNGDiNG Li. Estmatng deep Web data sourcesze by capture-recapture method. inf. Retr., 13(1):70-95, 2010.
_______ [7] TRENT L. MCDONALD STEVEN C. AMSTRUP. Handbook of Capture-Recapture Analyss. Prnceton Unversty Press, USA, 2005.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 40/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 41/93
D m
õ c
a r a c
r í
c a
d a W e b b r a
r a : m
d
d . g
v . b
r
C a p í t u l o 3
A n
á l i s e
D o s
R e s u l t A D o
s
41
CAPÍTULO 3
Análse dos Resultados
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 42/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 43/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
43
Análse dos resultados
Defnndo o conceto de Web
A World Wide Web, também conhecda como Web, ou smplesmente WWW,
é um ggantesco acervo unversal de págnas, documentos, dados, aplca-
ões e servos nterlgados por meo da rede mundal de computadores,
dsponblzado às pessoas de qualquer lugar do globo, a qualquer momento
e por dversos dspostvos, desde computadores até aparelhos móves, como
telefones celulares. Esse menso acervo pode reunr dversos tpos de conte-údos dgtas, desde págnas de hpertextos, até arquvos no formato de ma-
gens, fguras, som, vídeos, e códgos de programao, dentre outros. Todo
arquvo dsponível na Web é dentfcado por um endereo únco e exclu-
svo, chamado URL, que sgnfca Uniform Resource Locator, em português
Localzador Padro de Recursos. Uma URL ndca o local onde se localza o
arquvo dgtal na Web. Essa fo a grande nveno de Tm Berners-Lee, que,
ao crar todo um sstema de localzao na Web, possbltou que os docu-
mentos pudessem ser acessíves em qualquer lugar do globo.Cada um destes acervos é dentfcado por um nome ou domíno, comumen-
te conhecdo por Website, síto, ou síto Web. Toda vez que navegamos na
Web, dgtamos esses nomes para acessarmos os sítos que desejamos, por
exemplo: http://www.cg.br, http://www.google.com.br, http://www.receta.
fazenda.gov.br. É mportante notar que a Web, embora seja uma aplcao
poderosa e de ampla utlzao, é apenas uma parte da rede, uma aplcao.
Os nomes de domínos também têm sua organzao própra, no sendo de
uso exclusvo da Web, e esto estruturados globalmente em níves herár-
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 44/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o s
4
qucos. Os domínos de prmero nível so chamados de TLDs, acrônmo de
Top Level Domains; exstem dversos tpos, por exemplo o “.net”, o “.com”,
“.org”, entre outros. Os domínos que dentfcam um determnado país de
orgem, como o .br, so chamados de códgo de país ou Countr Code.
Assm, o .br é um Countr Code Top Level Domain – ccTLD, o domíno de
prmero nível do Brasl. Para o nosso caso braslero, abaxo desse domíno
de prmero nível exstem outros níves, como o “.gov.br”, o “.com.br”, o
“.org.br”. Somente abaxo desses domínos, e segundo esse esquema herár-
quco, os dversos domínos so regstrados e crados, por exemplo o domí-
no “governoeletronco.gov.br”. O correto entendmento dessa estrutura de
domínos é mportante para também compreender as análses expostas neste
documento.
As dmensões e as característcasda Web braslera
Para fns de determnao do escopo, a Web braslera é defnda no con-
texto do desse projeto como a rede formada pelos sítos de aceso públco
dentfcados por um domínos .br, mas os sítos para os quas há redreco-
namentos dretos, va servdor, a partr de um síto.br, dos quas analsa-se
apenas a págna prncpal.
De acordo com dados do Registro.br, autordade de regstro para nomes de
domíno no Brasl, o mês de mao de 2010 fo encerrado com cerca de 2,1
mlhões de nomes de domínos regstrados sob esse respectvo ccTLD, os
quas contêm sítos das mas varadas nsttuões prvadas, governamentas,
nsttuões de ensno, organzaões do tercero setor, profssonas lberas,
pessoas físcas, etc. isso exge a realzao de estudos sobre unversos espe-
cífcos de nomes de domínos, por exemplo “.com.br”, “.org.br”, “.net.br”,
”.gov.br” e outros grupos menores, com o objetvo de medr suas caracterís-tcas na Web.
Como ponto de partda para um levantamento mas amplo das dmensões e
característcas do .br, optou-se por uma coleta exaustva da Web governamen-
tal braslera, aquela constante nos sítos e págnas sob o domíno .gov.br.
Os prncpas resultados e algumas conclusões desse levantamento so apre-
sentados neste relatóro. Esse prmero estudo será de grande utldade e
subsdará o planejamento de uma coleta mas ampla e detalhada das d-
mensões de toda a Web braslera sob o ccTLD .br.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 45/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
45
As dmensões e as característcas do .gov.br
A coleta de dados sobre os domínos do governo fo realzada em outubro de
2009 e dentfcou um total de 18.796 sítos sob o .gov.br, a partr de URLs
percorrdas. A dentfcao do total de sítos partu de dados fornecdos das
seguntes fontes:
a. Domínos dentfcados como .gov.br (domínos reservados ao Governo Fe-
deral), cuja lsta fo fornecda pela autordade de regstro para nomes de
domíno no Brasl, o Regstro.br, com autorzao do Mnstéro do Planeja-
mento, responsável pelo uso dos domínos sob o .gov.br.
b. Domínos dentfcados como sigla-uf..gov.br, regstrados pelas empresas
estaduas de processamento de dados, vnculadas aos governos estaduas;
c. Resultados de consultas e buscas de nformaões, utlzando ferramentas debusca, com o objetvo de complementar as nformaões anterores.
Essas dferentes fontes foram unfcadas e servram como semente para um
sstema coletor. Objetvou-se com esse levantamento produzr um cadastro
que pudesse contemplar o maor número possível de sítos governamentas,
de tal modo que fosse o mas próxmo de um censo da Web governamental
braslera. Porém, nem todas as empresas de processamento de dados das
undades das federaões e responsáves pelos regstros dos domínos sigla-uf.
gov.br puderam responder em tempo, fato que ntroduzu mas uma dfcul-dade para a realzao de um censo da Web governamental, além daquelas
nerentes a própra Web.
Partcpao das regões na composoda Web governamental
A partr dos resultados da coleta, nvestgou-se a partcpao de cada uma das
cnco regões brasleras e também a do Governo Federal na composo da Web
a partr da análse dos subdomínos correspondentes aos estados, por exemplo o
subdomíno .sp.gov.br fo consderado como que da rego sudeste, e o .gov.br
como do governo federal. Avalaram-se dos aspectos dessa partcpao:
a. O número total de sítos correspondentes a cada uma das cnco regões do
país e do governo federal;
b. A quantdade total de btes por rego e Governo Federal , consderando-se apenas os documentos HTML (sto é, magens, vídeos e outros tpos de
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 46/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o s
6
arquvos no foram contablzados na tabela abaxo. Vde fgura 17 para
uma análse de outros tpos de arquvos).
A Tabela 3.1 apresenta um sumáro do número de sítos e da quantdade
de btes coletados para cada uma das grandes regões brasleras. Embora
a coleta tenha chegado a um total de 18.796 sítos, foram consderados os
que contnham pelo menos um documento HTML nessa análse. Os sítos
satsfazendo essas condões totalzam 11.856.
REGIãO VOlUME
EMGIGABYTEs
NÚMEROTOTAl
dE síTIOs
PARTICIPAÇãO dAREGIãO NO TAMANHO
TOTAl EM BYTEs
PARTICIPAÇãO dAREGIãO NO NÚMERO
TOTAl dE síTIOs .GOV.BR
sUl 26 3.416 18% 29%
sUdEsTE 32 3.358 22% 28%
NORTE 7 816 5% 7%
NORdEsTE 27 1.786 18% 15%
GOV.BR 38 1.668 26% 14%
CENTROOEsTE 17 812 11% 7%
TOTAl 148 11.856 100% 100%
Tabela 3.1 – Quantdade de sítos e tamanho em Ggabytes por rego geográfca
A dstrbuo percentual dos dados apresentados na Tabela 3.1 pode ser
analsada no gráfco apresentado na Fgura 3.1.
Fgura 3.1 – Partcpao das regões e do governo federal na composo da Web governamental
18%
SUL SU DE S TE NO RT E NO RD E S TE GOV.B R CE NTRO O E STE
29%
22%
28%
5%7%
18%
15%
26%
14%
11%
7%
PARTICIPAÇÃO DA REG IÃO NO TAMANHO TOTAL EM BYTES
PARTICIPAÇÃO DA REGIÃO NO NÚMERO TOTAL DE SÍTI OS .GOV.BR
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 47/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
47
Observou-se uma maor partcpao em relao ao tamanho em btes na
Web governamental no agrupamento composto pelos sítos Governo Fede-
ral , 26%. Em número absoluto de sítos, a rego Sul apresentou 33% dos
18,7 ml sítos coletados.
Em relao à partcpao das undades da federao na composo daWeb governamental, o domíno pr.gov.br, pertencente ao Estado do Paraná,
fo o que apresentou a maor partcpao em número absoluto de sítos de
todos os sítos brasleros de governo coletados, cerca de 17%, conforme
mostrado na Fgura 3.2. O Governo Federal representado pelos sítos com
domíno .gov.br vem em segundo lugar, empatado com o Estado de So Pau-
lo (sp.gov.br). Estes dos últmos partcpam, cada um, com 14% dos sítos
sob a Web governamental braslera.
Fgura 3.2 - Dstrbuo percentual do número de sítos por UF, nclundo o Governo Federal (gov)
Em relao ao tamanho do conteúdo em btes dos sítos brasleros de gover-
no, o Governo Federal é o que apresenta o maor índce, com 26% do total
verfcado, segudo pelo Estado de So Paulo, com 12%. Os demas estadosapresentam índce nferor a 10% do total de quantdade em btes.
A relao entre o número de sítos ou eventualmente o número de págnas
e a quantdade em btes pode também ser uma abordagem de análse a
ser consderada no futuro. Observando-se a Fgura 3.2, verfca-se que os
estados, em geral, guardam a mesma partcpao percentual em relao
ao total tanto em número de btes de seus sítos como na quantdade de sí-
tos na Web governamental braslera, ndcando que possuem um tamanho
médo de sítos em btes equvalentes. Poucos estados fogem dessa regra.
De um lado, os domínos do Governo Federal apresentam maor conteúdo
14 E M P
E R C E N T U A I S
GOV SP
PARTICIPAÇÃO DAS UNIDADES FEDERATIVAS NA COMPOSIÇÃO DA WEB BRASILEIRA - % EM QUANTIDADE DE SÍTIOS
PARTICIPAÇÃO DAS UNIDADES FEDERATIVAS NA COMPOSIÇÃO DA WEB BRASILEIRA - % EM QUANTIDADE DE BYTES
PR RS MG SC M T RJ AL BA CE M S SE GO DF PE PA RN PB PI M A ES RO AC TO AM AP RR
14
26
17
12
7
5
7 7
5
2
5 5
1
44
32 2 2 222 2
1 1 1 1 1 1 1 1 1 000
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 48/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o s
8
em btes em relao aos seus sítos. De outro, o Estado de Paraná (PR), que
apresenta maor quantdade de sítos em números absolutos e relatvos à
partcpao no total da Web governamental braslera. investgar as razões
pode mas do que demonstrar exstr quantdade de domínos governamen-
tas na Web sem conteúdos sgnfcatvos, ou anda domínos governamen-
tas com conteúdo excessvo, revelando uma dfculdade no acesso à nfor-
mao relevante e públca.
Outros domas na Web governamental
Das 3.182.202 págnas que puderam ter seu doma dentfcado através de
análse automatzada, 97% esto em português. O software utlzado paradentfcar a lnguagem compara o texto contdo nas págnas com dconá-
ros com palavras-chave dos domas português, nglês, espanhol e francês,
contablzando as palavras que aparecem num determnado documento.
Caso o número de palavras-chave de um dos domas testados ultrapasse
um determnado lmte nferor, e no haja ambgudade (mas de um doma
com palavras-chave sufcentes), ele é consderado dentfcado. Os resulta-
dos para os domas estrangeros esto lustrados na Fgura 3.3.
Fgura 3.3 – Outros domas encontrados na Web governamental
É mportante lembrar anda que em 47% das 6,3 mlhões de págnas em
HTML coletadas o doma no pode ser dentfcado por meo do proce-
dmento utlzado. A amostra é sgnfcatva e pode revelar que essencal-
mente os conteúdos da Web governamental braslera vsam atender ao pú-
blco nterno, tendo pouca quantdade de nformao em outros domas.
Por outro lado, sem uma abordagem semântca no é possível verfcar
se nformaões relevantes em outros domas so oportunas, sejam, por
exemplo, para conteúdo de relaões exterores ou para os fns de tursmo.
identfcar qual nformao pôde e convém estar em outro doma no fo
anda objeto de análse.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 49/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
49
Aderênca aos padrões HTML do W3C
identfcou-se a avalao da aderênca das págnas HTML aos padrões do
W3C através da aplcao de um software valdador projetado pelo própro
consórco. Tal como propugna o W3C e as boas prátcas de desenvolvmento
Web, a aderênca aos padrões Web é ndcador mportante da unversal-
dade de acesso por qualquer dspostvo conectado à Web, bem como por
qualquer ambente operaconal. Quanto mas aderente aos padrões, melhor
a págna será acessada por qualquer usuáro, ndependente do dspostvo
e de seu ambente operaconal. Por outro lado, págnas no aderentes tero
acessos restrtos a alguns dspostvos ou sstemas operaconas, donde pres-
supõe seu caráter de no unversaldade. Consdera-se que, prncpalmente
para conteúdos da Web governamental, a aderênca aos padrões e a unver-saldade do acesso devem ser constantemente consderadas e exgdas.
Para essa análse, verfcou-se a contagem do número de ncorreões de
acordo com o padro encontrado pelo software valdador. Dos 6,3 mlhões
de págnas HTML coletadas, cerca de 91% apresentaram mas de uma n-
correo de aderênca, apenas 5% esto completamente de acordo com o
padro, e 4% no puderam ser avaladas, conforme mostra a Fgura 3.4.
Fgura 3.4 – Aderênca aos padrões HTML do W3C
Aderênca aos padrões de acessbldade ASES
A aderênca a padrões de acessbldade vsa garantr o acesso unversal aos
sítos Web, mesmo para portadores de defcênca. Os crtéros de acessb-
ldade so separados em 3 níves de acessbldade ou conformdade, defn-
dos pelo padro WCAG. O nível de conformdade A é consderado manda-
tóro para que um síto seja consderado acessível. O nível de conformdade
AA consste em prátcas de que deveram ser segudas, ndo além das mas
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 50/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o s
0
báscas, e o nível de conformdade AAA, em prátcas opconas, porém me-
lhoraram anda mas a acessbldade do síto.
O governo braslero crou o e-MAG – Modelo de Acessbldade de Governo
Eletrônco, dentro dos padrões nternaconas: consste em um conjunto de
recomendaões a ser consderado para que o processo de acessbldade dossítos e portas do governo braslero seja conduzdo de forma padronzada
e de fácl mplementao. Crou anda o ASES, software que auxla o de-
senvolvedor Web na construo de sítos acessíves, em conformdade com
o e-MAG.
Fez-se a avalao da aderênca das págnas HTML coletadas aos padrões de
acessbldade através dos mesmos testes utlzados no ASES. O processo de
avalao consste da contagem de conformdades das págnas.
Dos 6,3 mlhões de págnas HTML coletadas, 98% no apresentaram nenhu-ma aderênca aos padrões de acessbldade conforme mostrado na Fgura 3.5.
Fgura 3.5 – Proporo de págnas aderentes aos padrões de acessbldade ASES
Tecnologas utlzadas para servrarquvos na Web governamental
Dentre os resultados obtdos da coletada de dados do .gov.br, pode-se des-
tacar o mapeamento das tecnologas de dsponblzao e armazenagem
de nformaões. A segur, apresenta-se o gráfco relatvo à partcpao das
prncpas tecnologas servdoras de documentos na Web governamental (F-
gura 3.6).
2%
98%
APRESENTAM ALGUM TIPO DE CONFORMIDADE
NENHUM TIPO DE CONFORMIDADE
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 51/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
51
Fgura 3.6 – Tecnologas utlzadas para servr arquvos na Web
As tecnologas baseadas em software de códgo aberto foram encontradas
em mas de 60% das págnas coletadas. Plataformas propretáras ocupam
pouco mas de 30% da fata de sstemas servdores de documentos na Web
governamental.
Tecnologas utlzadas para servrarquvos nas cnco regões brasleras
Conforme lustrado no gráfco a segur, as págnas coletadas sob subdomí-
nos relatvos a undades federatvas da rego Sul apresentam a maor n-cdênca de servdores de Web baseados em sstemas de códgo aberto, e
também o menor percentual de uso de sstemas propretáros, consderando
nclusve as págnas do Governo Federal .
Fgura 3.7 – Tecnologas utlzadas para servr arquvos por rego
48 4851
39
58
30
11
0
50
44
6
1
87
11
20
5 5 50
55
32
95
APACHE
CENTRO OESTE GOV. FEDERAL NORDESTE NORTE SUDESTE SUL
OUTROSMICROSOFT / IIS ZOPE
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 52/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o s
2
As tecnologas utlzadas para servrarquvos nas UFs
Também fo verfcada a utlzao do tpo de plataforma servdora por un-dade da federao. O gráfco da Fgura 3.8 apresenta o uso do tpo de plata-
forma servdora de Web, em relao ao total de sítos daquela UF. O Amapá
e o Paraná so os prmeros colocados em uso relatvo de sstema de códgo
aberto para servr conteúdo na Web. Em relao ao uso de software propre-
táros, verfca-se que o DF é o estado que mas utlza esse tpo de sstema
para servr conteúdo dentre os demas.
Fgura 3.8 – Uso dos prncpas servdores de Web nas UFs brasleras
Verfca-se, anda, que a maora dos sítos do Governo Federal está hospe-
dada em servdores Apache, que é uma tecnologa aberta.
APACHE
AP –
PR –
AC –
SC –
PB –
PI –
SE –
AM –
GO –
RS –
MG –
MA –
MT –
GOV –
PA –
PE –
RJ –
TO –
SP –
CE –
RO –
BA –
MS –
AL –
RR –
RN –
ES –
DF –
MICROSOFT / IIS
0 10 20 30 40 50 60 70 80 90
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 53/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
53
Domínos como sítos estruturados em págnas
Somente os domínos com algum conteúdo verfcável podem ser consde-
rados como sítos estruturados; para tanto, levantou-se quantos domínos
apontavam pelo menos um documento HTML, comumente chamado de pá-
gna HTML, ou seja, um arquvo que pode ser nterpretado por um navega-
dor Web, conhecdo também como browser.
O termo síto, equvalente a Website ou síto eletrônco, refere-se a um con-
junto de págnas HTML referencadas por um mesmo nome (consderado
aqu como o nome de domíno completo) na internet. Por exemplo, http://
www.prefetura.sp.gov.br (consderou-se como URL tudo o que está depos
do http:// e antes da prmera “/”). As URLs http://síto.prefetura.sp.gov.br/
pagna1.html e http://síto.prefetura.sp.gov.br/calendaro/evento.html fazemparte do mesmo síto, para efeto desta pesqusa, enquanto http://www.pre-
fetura.sp.gov.br refere-se a um síto dferente.
Do total ncal de 18.796 sítos, apenas 11.586 apresentaram essas caracte-
rístcas. Efetuou-se também o levantamento do total de arquvos dgtas para
cada grupo.
A coleta de dados realzada dentfcou 7.947.607 arquvos dgtas; destes,
6.331.256 so documentos em formato HTML, crados ou no por sstemas
automatzados de gerao de conteúdo. Os demas 1.616.351 arquvos dgtas
no HTML so arquvos em outros formatos, como: TXT, SWF, EXE, ZiP, RAR.
Anda segundo a coleta, o número médo de documentos HTML por síto é
de 534 documentos. Todos esses números descrevem de forma sucnta algu-
mas característcas dos sítos de governo presentes na Web braslera.
Objetos mas usados nas págnasda Web governamental
O levantamento ndcou que entre todos os 192,2 mlhões de links encontra-
dos nas págnas da Web .gov.br, cerca de 89% correspondem a algum tpo
de arquvo gráfco, 8,3% correspondam a algum tpo de arquvo hpertexto
e 2,5% algum tpo de arquvo de texto como .DOC, .PDF, .XML, .ODT ,con-
forme apresenta a Fgura 3.9.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 54/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o s
4
Fgura 3.9 - Objetos mas freqüentes na Web governamental
Base utilizada: 192.247.032 lnks analisados
Tecnologas utlzadas paradsponblzao de dados e deconteúdo na Web governamental
As tecnologas empregadas na dstrbuo de nformao de manera au-
tomatzada dos sítos governamentas braslero dstrbuem-se bascamente
em dos tpos de tecnologa: PHP e ASP. As tecnologas baseadas em sste-
mas de códgo aberto, como o PHP, predomnaram no conjunto total das
págnas de governo coletadas. 70% das págnas HTML coletadas tnham a
extenso .PHP.
Fgura 3.10 – Tpos de tecnologa utlzada para gerar documentos
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 55/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
55
Dos links para objetos gráfcos dentfcados, cerca de 99% apontavam para
magens em formato .GiF, .JPG, .PNG ou .BMP. Os arquvos em formato
.PDF representam 80% dentre todos os tpos de documentos coletados; já os
arquvos em formato .DOC representam 13%. Esses resultados esto lustra-
dos nos gráfcos das Fguras 3.11 e 3.12.
Fgura 3.11 - Tpos de hpertexto mas utlzadosBase utlzada: 15.957.331 objetos coletados
Fgura 3.12 - Tpos de documentos mas utlza-dos
Base utlzada: 4.821.244 objetos coletados
É evdente, portanto, a opo pelo formato .PDF para publcao de documentos.
Dentre os conteúdos edtáves, o formato DOC é o mas publcado. A publ-
cao de formato edtável pode no ser uma boa prátca, a no ser em casos
de publcao de modelos utlzados pelos usuáros para o envo de outrasnformaões. Evdente também anda a baxa utlzao de arquvos .XML,
formato aproprado para nteroperao de dados.
Sncronzao de tempodos servdores brasleros
A sncronzao dos relógos dos servdores, estaões de trabalho e outros
dspostvos conectados à internet é mportante para o correto funconamen-
to de mutas aplcaões, bem como em stuaões em que se necessta a aná-
lse dos regstros (logs) fetos pelas aplcaões para tratar ncdentes de segu-
rana e eventos correlatos. O NiC.br provê um servo públco e gratuto que
fornece a Hora Legal Braslera va internet, em conjunto com o Observató-
ro Naconal, nsttuo responsável pela sua defno. Oferece anda um
síto Web com nformaões e nstruões sobre como utlzar esse servo: o
http://ntp.br. O CGi.br recomenda formalmente a sncronzao de todos os
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 56/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o s
6
dspostvos lgados à rede em sua resoluo CGi.br/RES/2008/009/P (http://
www.cg.br/regulamentacao/resolucao2008-009.htm).
Para aferr a sncronzao dos servdores que hospedam os sítos .gov.br,
obteve-se o horáro de seus relógos, va protocolo http comparado com
a hora correta. O resultado mostra que apenas pouco mas da metade dosservdores está corretamente sncronzada, e o restante apresenta dferenas
em relao à Hora Legal Braslera entre 1 segundo e até mas de que duas
horas, denotando a necessdade de revso nas confguraões.
Fgura 3.13 – Sncronzao de tempo dos servdores
Geolocalzao dos iPs
Estmou-se a geolocalzao dos servdores com o uso da base de dados
GeoLte, da empresa MaxMnd1, consultada a partr de seus endereos iP.
Servdores Web hospedados em locas dstantes dos usuáros mplcam uma
velocdade menor de acesso, por conta do tempo de tráfego dos pacotes. Ahospedagem dos servdores no exteror, além dsso, colabora para o aumento
dos custos de acesso à internet no Brasl, já que mplca maor utlzao dos
enlaces nternaconas, com custo alto, pelas operadoras de telecomuncaões.
Cerca de 6% dos sítos .gov.br esto hospedados fora do país.
1 “Ths product ncludes GeoLte data created by MaxMnd, avalable from http://maxmnd.com/ ”
52%
16% 15%
5% 6%4% 2%
SINCRONIZADO DE1 SEGUNDOATÉ MINUTO
1 MINUTOATÉ 10
MINUTOS
10 MINUTOSATÉ 30
MINUTOS
30 MINUTOSATÉ 1 HORA
1 HORAATÉ 2 HORAS
MAIS QUEDUAS
HORAS
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 57/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
57
Fgura 3.14 – Geolocalzao dos iPsBase: 11.856 sítos com pelo menos um documento HTML
Tempo médo de respostasdos servdores brasleros
O tempo médo de resposta dos servdores, nesse estudo, consste no tempo
que levaram para responder uma consulta http smples (HEAD), nclundo o
tempo de da e volta dos pacotes de dados, mas o tempo de processamento
do servdor. O teste é nfluencado, portanto, pela localzao do meddorna rede do NiC.br, em So Paulo.
Fgura 3.15 – Dstrbuo do tempo médo de resposta para sítos hospedados no Brasl
De forma smplfcada, o ndcador pode ser consderado uma medda de
desempenho do síto, do ponto de vsta de um usuáro localzado em SoPaulo. Nota-se como os sítos hospedados fora do Brasl (Fgura 3.16) têm
9%
32%
18% 17%
25%
ATÉ 10 MS 11-50 MS 51-100 MS 101-200 MS MAIS QUE 200
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 58/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o s
8
resultados pores do que os hospedados no país. Dos hospedados no país,
aproxmadamente 59% apresentaram tempos até 100ms, o que é um bom
resultado, contudo aponta para a possbldade de melhora na nfraestrutura
dos demas servdores e na própra nfraestrutura da internet braslera.
Fgura 3.16 – Dstrbuo do tempo médo de resposta para os sítos hospedados no exteror.
Respostas dos sítos braslerosde governo a consultas iPV6
O protocolo iP é a base tecnológca que sustenta a internet; é quem torna
possível a utlzao ntelgente da nfraestrutura de telecomuncaões, que
faz da internet uma rede muto mas ubíqua, versátl e acessível, em compa-
rao aos servos convenconas de telecomuncaões. Todas as aplcaões
internet, nclusve a Web, amparam-se, num nível mas básco, nesse proto-
colo. A nformao na internet dvde-se em pacotes que trafegam de forma
ndependente pela rede, e o iP permte que eles encontrem seu camnho,
dentfcando cada dspostvo na internet com um número, o “endereo iP”.
A verso mas usada hoje do protocolo, o iPv4, tem perto de 4 blhões de
endereos possíves, todava cerca de 94% desse total já é utlzado. Com o
iPv4, a internet só consegue manter o atual rtmo de expanso por mas 1 ou
2 anos. Por sso, um novo protocolo, o iPv6, será ntroduzdo na rede; ele
deverá funconar lado a lado com o iPv4 durante um período de transo
e o substturá a longo prazo, possbltando a contnudade da expanso da
internet. Todos devem fazer a mplantao de forma célere, pos quando o
iPv4 esgotar-se, paulatnamente surgro servos e usuáros que consegu-
ro comuncar-se utlzando apenas o iPv6.
1%
48%51%
MAIS QUE 200101-200 MSDE 0 ATÉ 100 MS
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 59/93
D m
õ c
c
í
c
d W e b b
: m
d
d . g
v . b
c a p í t u l o 3
a n
á l i s e
D o s
r e s u l t a D o
s
59
O Governo Federal mostra compreenso sobre a gravdade da stuao ao
estabelecer no documento de referênca da e-PiNG: “Os órgos da Admns-
trao Públca Federal devero se nterconectar utlzando iPv4 e planejar
sua futura mgrao para iPv6. Novas contrataões e atualzaões de redes
devem prever suporte à coexstênca dos protocolos iPv4 e iPv6 e a produtos
que suportem ambos os protocolos.2”
Nenhum síto estava dsponível va protocolo iPv6 no censo da Web para o
.gov.br.
Equipe técnica CETIC.br
Centro de Estudos sobre as Tecnologas da informao e da Comuncao
2 Dsponível em: http://www.governoeletronco.gov.br/anexos/e-png-versao-3.0. Acesso em23 de julho de 2010.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 60/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 61/93
D m õ
t í t d W e b b l : m
t d d . g . b
C a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
61
CAPÍTULO 4
indcadores e
unverso de dados
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 62/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 63/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
63
indcadores eunverso de dados
Esta seo apresenta os ndcadores avalados uncamente para o unverso
de domínos .gov.br, apresentando para cada um deles sua defno, propó-
sto, metodologa utlzada para obteno e apresentao dos resultados. Osndcadores avalados no contexto dessa etapa do projeto foram os seguntes:
A1: Tamanho total da Web braslera: número de sítos e págnas da Web
A2: Tamanho total da Web braslera: tamanho em Ggabytes
B1: Proporo de sítos Web utlzando iPv6
B2: Proporo de sítos Web utlzando domíno alternatvo iPv6 (pv6.do-
míno)
B3: Proporo de sítos Web respondendo a Ping iPv6B4: Proporo de sítos Web que respondem ao comando GET no endereo
iPv6
C1: Dstrbuo do uso de domas na Web braslera: proporo de domas
E1: Proporo de págnas da Web aderentes aos padrões HTML do W3C
F1: Proporo de págnas da Web aderentes aos padrões de acessbldade
Ases
G1: Proporo de tpos de objetos usados nas págnas da Web: percentual
por tpo de objeto
G2: Proporo de tpos de tecnologas usadas nas págnas da Web
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 64/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
4
H1: idade (ultma atualzao) méda das págnas da Web braslera
H2: Proporo de págnas dnâmcas na Web braslera
I1: informao sobre sncronzao de tempo dos servdores da Web bra-
slera
I2: informao sobre tempo de resposta médo dos servdores da Web bra-
slera
Nesse projeto, so varáves vnculadas à grandeza a ser medda (domíno):
• URL (Uniform Resource Locator): URL é um string compacto, defindo
por padrões do W3C que ndca a localzao de um recurso dsponível
na internet. Todos os arquvos dsponíves na Web e documentos gerados
dnamcamente so capturados va uma URL. Os documentos da Web so
dentficados pelo substring http:// no níco da URL.
• Págna da Web (Documento HTML): uma págna da Web é um recurso
escrto na lnguagem HTML. Uma págna pode conter links para outros
tpos de recursos, tas como arquvos pdf, arquvos de magens e recursos
que dsparam a execuo de programas com parâmetros específcos e
que geram págnas dnâmcas.
• Síto Web: é o conjunto de uma ou mas URLs assocadas a um determ-
nado domíno.
Temos os seguntes unversos de dados nesse projeto:
• Unverso de sítos da Web: todos os sítos encontrados na coleta de da-
dos, ndependente de terem ou no uma ou mas págnas HTML váldas.
• Unverso de sítos da Web com págnas HTML váldas: exste pelo menos
uma págna da Web válda, ou seja, obtda com sucesso (códgo http-
status gual a 2XX).
• Unverso de Págnas HTML váldas: unverso de págnas HTML requsta-
das e obtdas com sucesso (códgo http-status gual a 2XX).
Exstem ndcadores relaconados a apenas um unverso; outros, a mas de
um. No caso dos ndcadores geras de tamanho da Web, so geras, sem vín-
culo a um ou outro unverso. Os ndcadores sero apresentados dvddos
de acordo com o unverso ao qual pertencem.
As subseões a segur apresentam a avalao de cada um dos ndcadores
para a coleta de domínos .gov.br.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 65/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
65
A1: Tamanho total da Web braslera- número de sítos e págnas da Web
Defno do ndcadorTotal de sítos coletados sob o domíno .gov.br e de suas respectvas págnas,
nclundo aquelas págnas fora do domíno .gov.br, redreconadas a partr
de um domíno .gov.br.
Propóstoidentficar o número total de sítos e de págnas da Web braslera para os dfe-
rentes unversos de dados, ou seja, consderando o valor quanttatvo de sítose de págnas obtdos e aqueles que responderam de forma válda à requso
HTTP realzada (ou seja, tveram um códgo de retorno gual a 2XX).
MetodologaExecuo de um crawler que percorre as págnas que satsfazem a defno
anteror, a partr de um conjunto ncal de sementes fornecdas manualmente.
Apresentao dos resultadosAs Tabelas 4.1, 4.2 e 4.3 apresentam os resultados obtdos para esse ndca-
dor, utlzando recortes ncrementalmente restrtos. Enquanto a Tabela 4.1
consdera objetos quasquer encontrados pelo coletor durante o processo,
a Tabela 4.2 lmta-se ao conjunto de págnas HTML e os servdores que as
contêm. Em seguda, a Tabela 4.3 restrnge esse conjunto aos sítos dentro
do subdomíno .gov.br.
NÚMERO dE OBjETOs E síTIOs dA Web
NÚMERO dE síTIOs WEBNÚMERO TOTAl
dE OBjETOs dA WEBNÚMERO MédIO
dE OBjETOs POR síTIO
18.796 7.947.607 422,84
Tabela 4.1: indcador A1 - Número de objetos e sítos da Web,consderando todos os objetos encontrados pelo coletor.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 66/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
6
NÚMERO dE PáGINAs HTMl E síTIOs dA WEB
NÚMERO dE síTIOs WEB NÚMERO TOTAldE PáGINAs HTMl dA WEB
NÚMERO MédIOdE PáGINAs HTMl POR síTIO
12.891 6.334.054 491,35
Tabela 4.2: indcador A1 - Número de Págnas HTML e sítos da Web encontrados pelo coletor.
NÚMERO dE PáGINAs HTMl E síTIOs dA WEB - .GOV.BR
NÚMERO dE síTIOs WEB NÚMERO TOTAldE PáGINAs HTMl dA WEB
NÚMERO MédIOdE PáGINAs HTMl POR síTIO
11.856 6.331.256 534,01
Tabela 4.3: indcador A1 - Número de Págnas HTML e sítos da Web encontrados pelo coletor com sufixo .gov.br
sUBdOMíNIO síTIOs sUBdOMíNIO PáGINAs PáGINAs/síTIO
ac.gov.br 39 (0,33%) rr.gov.br 6.366 (0,10%) 163,23
rr.gov.br 51 (0,43%) ap.gov.br 12.323 (0,19%) 241,62
ap.gov.br 58 (0,49%) am.gov.br 28.091 (0,44%) 484,32
ro.gov.br 91 (0,77%) ro.gov.br 41.342 (0,65%) 454,30
ma.gov.br 110 (0,93%) ma.gov.br 48.330 (0,76%) 439,26
to.gov.br 117 (0,99%) ac.gov.br 48.875 (0,77%) 417,73
p.gov.br 121 (1,02%) rn.gov.br 52.277 (0,83%) 432,04
se.gov.br 125 (1,05%) to.gov.br 59.427 (0,94%) 475,41
am.gov.br 132 (1,11%) es.gov.br 64.612 (1,02%) 489,48
al.gov.br 150 (1,27%) p.gov.br 68.905 (1,09%) 459,36
df.gov.br 160 (1,35%) pb.gov.br 95.276 (1,50%) 595,47
rn.gov.br 170 (1,43%) pa.gov.br 110.814 (1,75%) 651,84
mt.gov.br 189 (1,59%) go.gov.br 121.225 (1,91%) 641,40
pb.gov.br 192 (1,62%) ms.gov.br 129.391 (2,04%) 673,91
pe.gov.br 208 (1,75%) df.gov.br 131.323 (2,07%) 631,36
pa.gov.br 218 (1,84%) pe.gov.br 133.296 (2,11%) 611,44
go.gov.br 221 (1,86%) se.gov.br 147.673 (2,33%) 668,20
ms.gov.br 242 (2,04%) ce.gov.br 183.836 (2,90%) 759,65
es.gov.br 290 (2,45%) ba.gov.br 185.756 (2,93%) 640,53
ce.gov.br 353 (2,98%) al.gov.br 204.487 (3,23%) 579,28
ba.gov.br 467 (3,94%) rj.gov.br 215.681 (3,41%) 461,84rj.gov.br 572 (4,82%) mt.gov.br 287.227 (4,54%) 502,14
rs.gov.br 605 (5,10%) sc.gov.br 368.328 (5,82%) 608,80
sc.gov.br 791 (6,67%) mg.gov.br 404.006 (6,38%) 510,75
mg.gov.br 832 (7,02%) pr.gov.br 416.006 (6,57%) 500,00
sp.gov.br 1.664 (14,04%) rs.gov.br 430.720 (6,80%) 258,84
pr.gov.br 2.020 (17,04%) sp.gov.br 828.095 (13.08%) 409,94
gov.br 1.668 (14,07%) gov.br 1.507.568 (23,81%) 903,81
TOTAl 11.856 (100,00%) TOTAl 6.331.256 (100,00%) 534,01
(a) (b)
Tabela 4.4: Dstrbuo de Sítos (a) e Págnas (b) do gov.br por Undade da Federao
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 67/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
67
síTIOs PáGINAs síTIOs PáGINAs
1 (0,01%) >12000 70 (0,60%) 900 - 1000
29 (0,22%) 10000 - 12000 93 (0,80%) 800 - 900
181 (1,40%) 9000 - 10000 123 (1,05%) 700 - 800
61 (0,47%) 8000 - 9000 191 (1,64%) 600 - 700
38 (0,29%) 7000 - 8000 299 (2,56%) 500 - 600
55 (0,43%) 6000 - 7000 187 (1,60%) 400 - 500
51 (0,40%) 5000 - 6000 269 (2,30%) 300 - 400
71 (0,55%) 4000 - 5000 411 (3,52%) 200 - 300
108 (0,84%) 3000 - 4000 855 (7,32%) 100 - 200
176 (1,37%) 2000 - 3000 9.179 (78,61%) <100
443 (3,44%) 1000 - 2000
12.891 (100,00%) TOTAL 11.677 (100,00%) TOTAL
(a) (b)
Tabela 4.5: Dstrbuo de págnas por síto na coleta realzada,para todos os sítos (a) e para sítos com menos de 1000 págnas (b).
A2: Tamanho total da Web braslera- tamanho em Ggabytes
Defno do ndcadorSoma do tamanho das págnas sob o domíno .gov.br., consderando as pre-
mssas adotadas nesse projeto.
PropóstoCalcular o volume ocupado pelos sítos Web e págnas da Web braslera.
MetodologaExecuo de um crawler que percorre as págnas que satsfazem a de-
fno anteror, a partr de um conjunto ncal de sementes fornecdas
manualmente.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 68/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
8
Apresentao dos resultadosAs Tabelas 4.6, 4.7 e 4.8, apresentam os resultados obtdos para esse nd-
cador, utlzando recortes ncrementalmente restrtos. Enquanto a Tabela 4.6
consdera objetos quasquer encontrados pelo coletor durante o processo,
a Tabela 4.7 lmta-se ao conjunto de págnas HTML e os servdores que ascontêm. Em seguda, a Tabela 4.8 restrnge esse conjunto aos sítos dentro
do subdomíno .gov.br.
TAMANHO dA WEB .GOV.BR.
TAMANHO dA WEB
(VOlUME EM GB)TAMANHO MédIO
dOs síTIOs WEB (EM MB)TAMANHO MédIO
dAs PáGINAs dA WEB (EM kB)
169,7 9,43 24,17
Tabela 4.6: indcador A2: Tamanho Total da Web sob o domíno .gov.br.(Tamanho em GigaBtes)
VOlUME EM ByTES dAs PáGINAs COlETAdAs
TAMANHO dA WEB
(VOlUME EM GB)TAMANHO MédIO
dOs síTIOs WEB (EM MB)TAMANHO MédIO
dAs PáGINAs dA WEB (EM kB)
148,37 11,79 24,56
Tabela 4.7: Volume em bytes nas págnas HTML coletadase número de sítos encontrados pelo coletor
VOlUME EM ByTES dAs PáGINAs COlETAdAs - .GOV.BR
TAMANHO dA WEB
(VOlUME EM GB)TAMANHO MédIO
dOs síTIOs WEB (EM MB)TAMANHO MédIO
dAs PáGINAs dA WEB (EM kB)
148,33 12,81 24,57
Tabela 4.8: Volume em bytes nas págnas HTML coletadas e número de sítosonde estas págnas foram encontradas, consderando somente sítos com sufixo .gov.br
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 69/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
69
sUBdOMíNIO VOlUME (GB) PáGINAs VOlUME/PáGINAs(kB)
rr.gov.br 0,10 (0,07%) 6.366 15,73
ap.gov.br 0,18 (0,12%) 12.323 14,68
am.gov.br 0,48 (0,32%) 28.091 17,83
to.gov.br 0,81 (0,54%) 59.427 13,63
ac.gov.br 1,04 (0,70%) 48.875 22,02
ro.gov.br 1,06 (0,71%) 41.342 26,21
es.gov.br 1,09 (0,73%) 64.612 16,78
ma.gov.br 1,24 (0,84%) 48.330 26,21
p.gov.br 1,91 (1,29%) 68.905 28,31
pb.gov.br 2,19 (1,48%) 95.276 23,07
rn.gov.br 2,22 (1,49%) 52.277 44,04
pa.gov.br 2,37 (1,60%) 110.814 22,02
pe.gov.br 2,75 (1,85%) 133.296 20,97
df.gov.br 2,86 (1,93%) 131.323 22,02
go.gov.br 2,89 (1,95%) 121.225 24,12
se.gov.br 2,90 (1,96%) 147.673 19,92
ms.gov.br 3,23 (2,18%) 129.391 25,17
ce.gov.br 5,05 (3,40%) 183.836 28,31ba.gov.br 5,18 (3,49%) 185.756 28,31
al.gov.br 5,24 (3,53%) 204.487 26,21
rj.gov.br 5,50 (3,71%) 215.681 26,21
mt.gov.br 7,79 (5,25%) 287.227 28,31
sc.gov.br 7,85 (5,29%) 368.328 22,02
mg.gov.br 8,22 (5,54%) 404.006 20,97
rs.gov.br 8,73 (5,88%) 430.720 20,97
pr.gov.br 9,88 (6,66%) 416.006 24,11
sp.gov.br 17,62 (11,88%) 829.095 22,02
gov.br 37,96 (25,59%) 1.507.568 26,21
TOTAL 148,33 (100,00%) 6.331.256 24,12
Tabela 4.9: Dstrbuo do volume em Gigabtes no domíno .gov.br. por Undade da Federao
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 70/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
0
sITIOs TAMANHO sITIOs TAMANHO
1 (0,01%) >2.100 M 22 (0,18%) 48 -50 M
1 (0,01%) 1.300 -2.100 M 26 (0,21%) 46 -48 M
2 (0,02%) 1.000 -1300 M 22 (0,18%) 44 -46 M
1 (0,01%) 800 -1.000 M 20 (0,16%) 42 -44 M
2 (0,02%) 750 -800 M 28 (0,23%) 40 -42 M
1 (0,01%) 700 -750 M 31 (0,25%) 38 -40 M
2 (0,02%) 650 -700 M 23 (0,19%) 36 -38 M
1 (0,01%) 600 -650 M 27 (0,22%) 34 -36 M
8 (0,06%) 550 -600 M 35 (0,29%) 32 -34 M
4 (0,03%) 500 -550 M 34 (0,28%) 30 -32 M
11 (0,09%) 450 -500 M 51 (0,42%) 28 -30 M
11 (0,09%) 400 -450 M 44 (0,36%) 26 -28 M
9 (0,07%) 350 -400 M 63 (0,51%) 24 -26 M
22 (0,17%) 300 -350 M 36 (0,29%) 22 -24 M
54 (0,42%) 250 -300 M 69 (0,56%) 20 -22 M
60 (0,47%) 200 -250 M 71 (0,58%) 18 -20 M
99 (0,77%) 150 -200 M 74 (0,60%) 16 -18 M
138 (1,07%) 100 -150 M 105 (0,86%) 14 -16 M227 (1,76%) 50 -100 M 120 (0,98%) 12 -14 M
12.237 (94,93%) <50 M 146 (1,19%) 10 -12 M
195 (1,59%) 8 -10 M
433 (3,54%) 6 -8 M
402 (3,29%) 4 -6 M
732 (5,98%) 2 -4 M
9.428 (77,05%) <2 M
12.891 (100,00%) TOTAL 12.237 (100,00%) TOTAL
(a) (b)
Tabela 4.10: Dstrbuo do volume em bytes por sítona coleta realzada para todos os sítos (a) e para sítos com menos de 50 MBytes (b).
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 71/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
71
C1: Dstrbuo do uso de domas naWeb braslera - Proporo de domas
Defno do ndcadorValor percentual da quantdade de págnas do domíno .gov.br., de acordo
com uma relao pré-definda de domas.
PropóstoObter uma dstrbuo da quantdade relatva de págnas do domíno .gov.
br., de acordo com o seu doma.
MetodologaExecuo de um crawler que percorre as págnas que satsfazem a defno
anteror, a partr de um conjunto ncal de sementes fornecdas manualmen-
te. O crawler utlzado basea-se na frequênca de ocorrênca de palavras em
um dado doma, de acordo com dconáros pré-construídos de um conjun-
to de domas pré-determnado.
Apresentao dos resultadosA Tabela 4.11 apresenta a dstrbuo de quatro domas pré-defindos nas
págnas do domíno .gov.br: Português, inglês, Espanhol, e Francês. Cabe
ressaltar que exste um unverso de págnas HTML para as quas no fo
possível dentficar o doma a partr da técnca utlzada. Esse unverso cor-
responde a 2.912.597 (47,8% do total de págnas).
dIsTRIBUIÇãO dOsIdIOMAs UTIlIzAdOs
PElAs PáGINAsdO dOMíNIO
PERCENTUAl dE PáGINAs dA WEB PARA
CAdA TIPO dE IdIOMA dE UM CONjUNTO PRé-dETERMINAdO
Português 3.088.680 97,05 %
inglês 80.726 2,54 %
Espanhol 10.623 0,33 %
Francês 2.623 0,08 %
Tabela 4.11: Dstrbuo dos idomas das págnas no domíno .gov.br
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 72/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
2
E1: Proporo de págnas da Web aderentes aos padrões HTML do W3C
Defno do ndcadorValor percentual de págnas HTML da Web braslera “.br” que atendem aos
padrões W3C, de acordo com o seu tpo de documento.
PropóstoAvalar a qualdade das págnas HTML da Web braslera “.br” em relao à
conformdade com o padro HTML especficado pelo W3C.
MetodologaFo executado um valdador W3C de documentos que dentfca o tpo de
documento e nforma o número de erros obtdos de acordo com esse tpo. O
valdador de documentos retorna o número total de erros obtdos a partr da
análse de concordânca com as normas do W3C.
Apresentao dos resultados
A partr da valdao das págnas da Web feta com o programa valdadordo W3C, fo realzada a consoldao dos valores retornados pelo valdador,
ndcando o número de ncorreões encontrado na págna.
A Tabela 4.12 apresenta os resultados geras de valdao das págnas Web,
utlzando a ferramenta de valdao da W3C.
VAlOR RETORNAdOPElA FERRAMENTA
VAlOR ABsOlUTO
VAlORPERCENTUAl (%)
NãO FOI POssíVEl VAlIdAR 267.137 4,24
PáGINAs VálIdAs 316.501 5,02
APREsENTAM INCORREÇõEs >0 5.717.315 90,74
Tabela 4.12: Quantdade e percentual de págnasda Web governamental aderentes aos padrões W3C
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 73/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
73
QUANTIdAdE dE INCORREÇõEsPáGINAs dA WEB
VAlOR ABsOlUTO VAlOR PERCENTUAl (%)
≤ 10 1.212.156 21,20
≥ 10 e < 20 738.550 12,92
≥ 20 e < 30 673.568 11,78
≥ 30 e < 40 394.189 6,89
≥ 40 e < 50 332.285 5,81
≥ 50 e < 60 302.258 5,29
≥ 60 e < 70 241.251 4,22
≥ 70 e < 80 245.156 4,23
≥ 80 e < 90 183.045 3,20
≥ 90 e < 100 158.907 2,78
≥ 100 1.235.950 21,6
Tabela 4.13: Aderênca da Web governamental aos padrões W3C –Dstrbuo das ncorreões por faxa
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 74/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
4
UF
VAlIdAÇãO W3C (PáGINAs HTMl dA WEB)
NãOCONFORMIdAdE
CONFORMI-dAdE
%CONFORMIdAdE
Acre - AC 64.227 333 0,51
Alagoas - AL 212.728 4.724 2,17
Amapá - AP 21.055 969 4,39
Amazonas - AM 29.759 68 0,22
Baha - BA 173.239 9.181 5,03
Ceará - CE 158.334 19.346 10,88
Dstrto Federal - DF 119.812 3.553 2,88
Espírto Santo - ES 69.865 9.921 12,43
Goás - GO 118.375 2.097 1,74
Maranho - MA 51.023 277 0,53
Mato Grosso - MT 274.311 12.990 4,52
Mato Grosso do Sul - MS 135.955 1.219 0,88
Mnas Geras - MG 364.647 37.625 9,35
Pará - PA 135.466 2.230 1,61
Paraíba - PB 95.327 1.930 1,98
Paraná - PR 380.268 30.607 7,44
Pernambuco -PE 125.689 8.528 6,35
Pauí -Pi 82.204 588 0,71
Ro de Janero -RJ 198.123 17.442 8,09
Ro Grande do Norte -RN 53.568 668 1,23
Ro Grande do Sul -RS 417.061 6.486 1,53
Rondôna -RO 72.109 10.251 12,44
Rorama -RR 6.538 32 0,48
Santa Catarna -SC 365.692 9.036 2,41
So Paulo -SP 799.181 50.790 5,97
Sergpe -SE 154.299 50 0,03
Tocantns -TO 83.248 1.361 1,6
Total 4.762.103 242.302 4,84
Outros domínos 955.212 74.199 7,2
Tabela 4.14: Aderênca da Web governmanetal aos padrões W3C -Recorte por Undade Federatva
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 75/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
75
F1: Proporo de Págnas da Web aderentesaos padrões de acessbldade ASES
4.5.1 Defno do ndcadorValor percentual de Págnas HTML váldas, compatíves com os padrões de-
termnados de acessbldade, consderando os níves de conformdade A,
AA, AAA.
4.5.2 PropóstoAvalar a qualdade das págnas HTML em relao à conformdade com os
padrões de acessbldade WCAG 1.0 (W3C) e eMAG (Governo Braslero).
4.5.3 MetodologaPara se avalar a acessbldade, realzaram-se:
- a coleta dos dados de págnas, segundo o procedmento padro de coleta
adotado nesse projeto.
- a execuo do valdador ASES de acessbldade, que atrbu um valor de
acessbldade (A, AA, AAA ou no conformdade) para cada págna HTML
coletada.
Para defno das formas de avalao da acessbldade, adotou-se como
documento de referênca o WCAG 1.0 - Web Content Accessibilit Guidelines
1.0, para explctar as conformdades de acessbldade de A, AA e AAA. Para
sso, foram utlzados os níves de prordade e a defno descrta a segur.
O grupo de trabalho atrbuu a cada ponto de verficao um nível de pro-
rdade, com base no respectvo mpacto, em termos de acessbldade. Esses
níves so descrtos a segur:
•Prordade 1: Pontos que os cradores de conteúdo Web devem satsfazer
nteramente. Se no o fizerem, um ou mas grupos de usuáros ficaro
mpossbltados de acessar as nformaões contdas no documento. A sa-
tsfao desse tpo de pontos é um requsto básco para que determnados
grupos possam acessar documentos dsponíves na Web.
•Prordade 2: Pontos que os cradores de conteúdos na Web deveram sats-
fazer. Se no o fizerem, um ou mas grupos de usuáros tero dficuldades
em acessar as nformaões contdas no documento. A satsfao desse tpo
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 76/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
6
de pontos promoverá a remoo de barreras sgnficatvas ao acesso a do-
cumentos dsponíves na Web.
•Prordade 3: Pontos que os cradores de conteúdos na Web podem sats-
fazer. Se no o fizerem, um ou mas grupos podero ter dficuldades para
acessar nformaões contdas nos documentos. A satsfao desse tpo depontos rá melhorar o acesso a documentos armazenados na Web.
Alguns pontos de verficao especficam um nível de prordade que poderá
mudar sob determnadas condões (explctadas). Assm, as conformdades
de acessbldade para cada págna da Web ficaram defindas da segunte
forma:
•Nível de conformdade “A”: foram satsfetos todos os pontos de verficao
de prordade 1;•Nível de conformdade “AA”: foram satsfetos todos os pontos de
verficao de prordades 1 e 2;
•Nível de conformdade “AAA”: foram satsfetos todos os pontos de
verficao de prordades 1, 2 e 3;
•No conformdade: no foram satsfetos nenhum ponto de verficao por
completo; logo, no exste conformdade para a págna da Web analsada.
Cabe ressaltar que a págna Web de nível A no é nem AA e nem AAA, bemcomo AA no é AAA.
Apresentao dos resultadosA Tabela 4.15 apresenta os resultados obtdos para o ndcador de acessb-
ldade, consderando págnas HTML da Web do unverso .gov.br. Os dados
apresentados na tabela so referentes a 6.279.206 págnas HTML. Outras
54.848 págnas (0,86%) no foram classficadas, uma vez que o valdador
no retornou um resultado esperado.
A Tabela 4.17 apresenta os resultados obtdos para o ndcador de aces-
sbldade, consderando págnas HTML, fazendo um recorte por Undade
Federatva (UF), realzado a partr da dentfcao da UF na URL da págna
HTML (http://...uf.gov.br/).
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 77/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
77
CONFORMIdAdE COM Os NíVEIs dE PRIORIdAdE(PáGINAs HTMl dA Web) - RECORTE POR UNIdAdE
PRIORIdAdE 3 PRIORIdAdE 2 PRIORIdAdE 1NãO
CONFORMIdAdE
QUANTITATIVO 39.440 14.662 71.628 6.153.476
PERCENTAGEM 0,63 0,23 1,14 98,00
Tabela 4.15: indcador F1 – Conformdade das págnas Web governamentalcom os níves de prordade (Págnas HTML da Web)
UFNíves de prordade (págnas HTML da Web)
3 2 1 No Conformdade
Acre -AC 6 5 8 65.213 99,97%
Alagoas -AL 0 0 1.773 216.815 99,19%
Amapá -Ap 60 0 2 22.154 99,72%
Amazonas -AM 12 0 23 32.373 99,89%
Baha -BA 9 1 380 167.227 99,77%
Ceará -CE 1.762 0 171 182.977 98,95%
Dstrto Federal -DF 210 0 638 129.955 99,35%
Espírto Santo -ES 157 6 458 86.622 99,29%
Goás -GO 1.053 0 17 120.113 99,12%
Maranho -MA 67 16 427 51.092 99,01%
Mato Grosso -MT 88 0 2 287.222 99,97%
Mato Grosso do Sul -MS 7.093 0 607 130.144 94,41%
Mnas Geras -MG 1.111 300 407 406.274 99,55%
Pará -PA 94 159 6.468 131.378 95,13%
Paraíba -PB 78 2 15 97.531 99,90%
Paraná -PR 5.537 49 4.255 407.748 97,64%
Pernambuco -PE 75 8 123 134.526 99,85%
Pauí -Pi 32 12 17 82.997 99,93%
Ro de Janero -RJ 298 228 893 215.409 99,35%
Ro Grande do Norte -RN 36 12 31 54.442 99,86%
Ro Grande do Sul -RS 4.922 4319 1.913 438.921 97,52%Rondôna -RO 380 824 169 81.014 98,33%
Rorama -RR 1 0 3 6.575 99,94%
Santa Catarna -SC 4.393 23 506 376.020 98,71%
So Paulo -SP 7.489 655 4.370 848.759 98,55%
Sergpe -SE 29 2 66 156.452 99,94%
Tocantns -TO 1.940 104 496 83.847 97,06%
Total 36.932 6.725 24.238 5.013.800 98,66%
Outros domínos 2.508 7.937 47.390 1.139.676 95,17%
Tabela 4.16: Conformdade com os níves de prordade (Págnas HTML da Web) -recorte por Undade Federatva
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 78/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
8
G1: Proporo de tpos de objetos usadosnas págnas da Web - percentual por tpode objeto
Defno do ndcadorValor percentual dos tpos de objetos usados nas págnas da Web braslera “.br”,
de acordo com uma classficao categórca (magens, scripts, vídeos etc.).
PropóstoObter uma dstrbuo dos tpos de objetos usados nas págnas da Web bra-
slera “.br”, de acordo com uma categora pré-definda (magens, scripts,vídeos, etc.).
MetodologaAs págnas foram coletadas usando o Web crawler, consderando tanto a
URL de cada págna coletada quanto as URLs presentes em cada págna co-
letada. Todas as extensões foram convertdas para caxa baxa. A taxonoma
de tpos de documentos fo extraída da e-Png, Padrões de interoperabldade
de Governo Eletrônco, Documento de Referênca Verso 2.0, 11 de Dezem-bro de 2009.
Apresentao dos resultadosOs resultados esto na Tabela 4.17.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 79/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
79GRUPO
QUANTIdAdEPOR GRUPO
% TIPOQUANTIdAdE
POR TIPO%
HIPERTExTO 15.957.331 8.30
htm 7.220.067 45.25
html 8.089.407 50.69
mht 5.128 0.03
rss 61.829 0.39
shtml 318.241 1.99xhtml 1.731 0.01
xml 260.928 1.64
dOCUMENTO 4.821.244 2.51
doc 627.197 13.01
docx 225 0.00
odt 8.516 0.18
pdf 3.864.991 80.17
rtf 24.766 0.51
txt 32.932 0.68
xml 260.928 5.41xsl 1.689 0.04
PlANIlHA 156.623 0.08
ods 331 0.21
xls 156.240 99.76
xlsx 52 0.03
APREsENTAÇãO 28.533 0.01
odp 158 0.55
ppt 28.302 99.19
pptx 73 0.26
BANCO dE dAdOs 6.531 0.00
csv 6.405 98.07
myd 63 0.96my 63 0.96
GRáFICOs 170.538.106 88.71
bmp 118.730 0.07
gf 660.78.840 38.75
gf 66.078.840 38.75
jpeg 51.888 0.03
jpg 28.281.181 16.58
odg 24 0.00
png 9.915.715 5.81
svg 480 0.00
tf 12.408 0.01
áUdIO E VídEO 472.158 0.25
av 7.964 1.69
md 20 0.00
mp3 412.649 87.40
mp4 49.252 10.43
mpg 1.519 0.32
ogg 251 0.05
wav 503 0.11
TOTAl 192.247.032 100.00
Tabela 4.17: Quantdade e percentual de objetos nas págnas HTML, por tpos de documentos
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 80/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
0
G2: Proporo de tpos de tecnologasusadas nas págnas da Web - percentualpor tpo de tecnologa
Defno do ndcadorValor percentual dos tpos de tecnologas usadas nas págnas da Web bras-
lera “.br”.
PropóstoObter uma dstrbuo dos tpos de lnguagens usadas nas págnas da Web
braslera “.br”, de acordo com uma lsta de valores pré-determnados (PHP,ASP, ASPX, JSF, JSP, etc.).
MetodologaA determnao de tecnologas usadas é um desafio, porque uma págna
coletada no possu obrgatoramente nformaões sobre a tecnologa que a
gerou. Uma opo adotada fo se basear nas eventuas extensões de arquvo
presentes na URL.
Para determnar as tecnologas, partu-se de um dconáro de 406 extensões
de arquvos e processamos o arquvo de págnas váldas (OK), verficando
em cada URL lstada naquele arquvo a ocorrênca de uma extenso válda.
Uma extenso válda deve ocorrer antes da prmera “?” da URL e a partr da
ultma “/” que antecede essa “?”´ . O processo verfica ento, por casamento
de padrões, a ocorrênca das extensões na cadea delmtada por “/” e “?”
da URL. Para extensões que tenham o mesmo radcal (p.ex., asp e aspx),
consdera-se a mas longa.
O ponto de partda da metodologa fo apurar quas as possíves extensões,como medda das tecnologas utlzadas. Nesse caso, buscou-se uma lsta de
406 extensões de arquvos, a partr do síto http://www.fle-extensons.org .
Com base nessas extensões, analsou-se a URL de cada págna coletada, de
forma a dentficar quas extensões ocorram na URL.
Feta a dentfcao de extensões, há três casos possíves. O prmero caso:
nenhuma extenso encontrada na URL, o que mpede estmar qual a tecno-
loga utlzada. O segundo caso: há exatamente uma extenso, caso no qual
a tecnologa, se for o caso, é assocada dretamente. O tercero caso: mas
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 81/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
81
de uma extenso assocada à URL e se faz necessáro estmar qual extenso
detectada é a mas pertnente.
Utlzou-se dos crtéros para se detectar a extenso mas pertnente. O pr-
mero crtéro é a poso onde a extenso ocorre na URL, com base na
premssa de que a extenso do prmero arquvo que ocorre dentfica a suatecnologa base. Esse crtéro fo valdado em uma poro sgnficatva dos
casos. O segundo crtéro é, para extensões que ocorram na mesma poso,
escolher a maor, por ser naturalmente mas dscrmnatva. Por exemplo,
consderar que as extensões php e php3 so detectadas a partr da mesma
poso em uma URL, o que se explca pelo fato de php ser parte de php3.
Nesse caso, a extenso seleconada será php3, pos ela é a maor e a mas
dscrmnatva.
O últmo passo da metodologa é seleconar, dentre as extensões dentf-cadas, aquelas que so assocadas à tecnologas. Este processo é feto ma-
nualmente, verficando as extensões que efetvamente ocorreram e as suas
respectvas descrões.
Apresentao dos resultadosOs resultados so apresentados na Tabela 4.18.
TEC QUANTIdAdE % dEsCRIÇãO
ap 868.183 24,34 ASP scrpt, Pageap 94.017 2,64 ASP.NET scrpt, page
cfm 10.003 0,28 Cold Fuson Markup
cgi 6.186 0,17 Common Gateway interface
com 73 0,00 Common Object Module
bc 1 0,00 Database Contaner
6.515 0,18 Dynamc Lnk Lbrary fle
o 38.690 1,08 Oracle Applcaton Server
ee 4 0,00 Executable fle
1 0,00 JavaScrpt fle p 53.260 1,49 JAVA Server page
nf 86 0,00 iBM Notes
php 2.483.013 69,61 PHP scrpt, page
php3 335 0,01 PHP verson 3 scrpt fle
py 1.424 0,04 Python
q 115 0,00 Structured Query Language Data SQL
wp 5.346 0,15 SharePont Servces Soluton
TOTAl 3.567.252 100,00
Tabela 4.18: Quantdade e proporo de tecnologas utlzadas na Web braslera
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 82/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
2
H1: idade (últma atualzao) méda daspágnas da Web braslera
Defno do ndcadorValor médo da dade das págnas da Web braslera “.br”, consderando a
data da últma atualzao da págna da Web.
PropóstoObter a dade méda das págnas da Web, consderando a sua últma data
de atualzao.
MetodologaO software de coleta utlzado procura regstrar a dade das págnas coleta-
das, ndcando a dferena entre a data e hora em que uma URL é coletada
e a data e hora reportadas pelo servdor, por meo da últma atualzao da
págna em questo. Essa nformao (data da ultma atualzao de cada
págna) no é fornecda por todos os servdores, nem para todo tpo de con-
teúdo. Por no se tratar de nformao obrgatóra, mutas vezes ela no está
presente na coleta. Além dsso, erros na confgurao da hora nos servdoresWeb podem levar a erros na nformao de data e hora por eles fornecda.
Nos dados da coleta, págnas para as quas a nformao de data de altera-
o no fo fornecda ficaram sem regstro de dade.
As págnas com nformao de dade foram consderadas em termos de das,
a fim de se smplficar a análse.
Apresentao dos resultados
O resultado é apresentado no quadro a segur.
IdAdE MédIAdAs PáGINAs
IdAdE MédIA dAs PáGINAs dA WEB GOVERNAMENTAl BRAsIlEIRA
656 das
Observação: do total de 6.331.256, pouco menos de 10% (614.770) apresentaram
nformao de dade válda.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 83/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
83
CONjUNTOTOTAl
dE PáGINAsQUANTIdAdE dE
PáGINAs C/ IdAdE%
IdAdE MédIAEM dIAs
ac.gov.br 48.875 458 1 225,82
al.gov.br 204.487 111.374 54 491,84
ap.gov.br 12.323 2.803 23 450,68
am.gov.br 28.091 581 2 562,51
ba.gov.br 185.756 6.321 3 455,69
ce.gov.br 183.836 10.955 6 635,69
df.gov.br 131.323 7.806 6 779,38
es.gov.br 64.612 4.557 7 1.242,94
go.gov.br 121.225 19.341 16 538,9
ma.gov.br 48.330 3.320 7 1.545,25mt.gov.br 287.227 19.946 7 1.150,8
ms.gov.br 129.391 2.765 2 712,44
mg.gov.br 404.006 28.967 7 377,94
pa.gov.br 110.814 4.129 4 868,85
pb.gov.br 95.276 2.715 3 477,63
pr.gov.br 416.006 17.593 4 664,57
pe.gov.br 133.296 4.206 3 1.385,63
p.gov.br 68.905 6.322 9 176,09
rj.gov.br 215.681 16.132 7 399,39
rn.gov.br 52.277 3.598 7 678,95
rs.gov.br 430.720 24.370 6 685,02
ro.gov.br 41.342 7.389 18 270,44
rr.gov.br 6.366 306 5 601,63
sc.gov.br 368.328 18.909 5 767,16
sp.gov.br 828.095 100.790 12 600,65se.gov.br 147.673 1.291 1 1.986,37
to.gov.br 59.427 1.053 2 1.594,59
Total estados 4.823.688 427.997 9 607,55
Outros .gov.br 1.507.568 186.773 12 768,31
Total .gov.br 6.331.256 614.770 10 656,24
Outras págnas 2.798 1.110 40 440,07
TOTAl 6.334.054 615.880 10 655,85
Tabela 4.19: idade das págnas da Web governamental braslera por estado
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 84/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
4
H2: Proporo de págnas dnâmcasna Web braslera
Defno do ndcadorValor percentual de págnas consderadas dnâmcas na Web governamental
braslera (.gov.br). Uma págna dnâmca em geral é a referênca do uso de
lnguagens de programao server-side, tal como PHP, ASP, JSP, ColdFuson
entre outras, no desenvolvmento de um síto ou de aplcaões para ntranet
e extranet. Ela recebe esse nome por ter sdo gerada em tempo de execuo,
produzndo o conteúdo estátco que o usuáro vsualza no momento de sua
solctao, va requso HTTP.
PropóstoTer uma medda percentual da quantdade de conteúdo dnâmco gerado a
partr das págnas da Web governamental braslera (.gov.br).
MetodologaO coletor utlzado tem um conjunto de regras nternas para determnar se
uma págna é dnâmca ou estátca. Essas regras consderam o tpo de ter-mnao utlzada para o arquvo de conteúdo (por exemplo, termnaões
como .jsp ou .php so assocadas a documentos dnâmcos), bem como a
exstênca de parâmetros assocados à URL.
Com base nessa nformao, o coletor armazena, para cada págna con-
sultada com sucesso, a natureza do conteúdo a ela assocado (estátco ou
dnâmco).
Apresentao dos resultadosO resultado é apresentado no quadro a segur.
PERCENTUAldE PáGINAsdINâMICAs
PERCENTUAl dE PáGINAs dINâMICAs dA WEB GOVERNAMENTAl BRAsIlEIRA
74,8 %
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 85/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
85
CONjUNTO(xx.GOV.BR)
TOTAl dE PáGINAsENCONTRAdAs
TOTAl dE PáGINAsdINâMICAs
PORCENTAGEM
.ac.gov.br 48.875 48.297 99
.al.gov.br 204.487 65.766 32
.ap.gov.br 12.323 8.832 72
.am.gov.br 28.091 14.660 52
.ba.gov.br 185.756 164.832 89
.ce.gov.br 183.836 89.914 49
.df.gov.br 131.323 101.298 77
.es.gov.br 64.612 52.169 81
.go.gov.br 121.225 97.212 80
.ma.gov.br 48.330 42.655 88
.mt.gov.br 287.227 243.994 85
.ms.gov.br 129.391 106.624 82
.mg.gov.br 404.006 335.168 83
.pa.gov.br 110.814 79.986 72
.pb.gov.br 95.276 87.897 92
.pr.gov.br 416.006 353.119 85
.pe.gov.br 133.296 113.213 85
.p.gov.br 68.905 65.701 95
.rj.gov.br 215.681 184.889 86
.rn.gov.br 52.277 47.317 91
.rs.gov.br 430.720 370.529 86
.ro.gov.br 41.342 34.350 83
.rr.gov.br 6.366 6.010 94
.sc.gov.br 368.328 315.023 86
.sp.gov.br 828.095 637.510 77
.se.gov.br 147.673 128.428 87
.to.gov.br 59.427 53.480 90
Total estados 4.851.779 3.863.533 80
Outros .gov.br 1.479.477 873.269 59
Total .gov.br 6.331.256 4.736.802 75
Outras págs 2.798 1.499 54
Total 6.334.054 4.738.301 75
Tabela 4.20: Porcentagem de págnas dnâmcas na Web governamental brasileira
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 86/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
6
B1: Proporo de sítos Web utlzando iPv6
Defno do ndcadorValor percentual de sítos Web no unverso de servdores que respondem
pelas págnas da Web braslera “.br”, preparados operaconalmente para
responder segundo o protocolo iPv6.
PropóstoTer uma medda da atual quantdade de servdores Web operaconalmente
prontos para se comuncarem utlzando iPv6.
MetodologaExecuo de consulta específca para o protocolo iPv6 aos servdores Web.
A resposta ndca se o servdor está operaconalmente preparado para res-
ponder a requso iPv6.
Apresentao dos resultados
Somente 4 (quatro) dos 12.891 hosts da prmera coleta filtrada respondemao protocolo iPv6. Os hosts esto lstados na Tabela 7.1. Observa-se que,
segundo a defno do Projeto Censo Web, todos os hosts coletados a partr
de redreconamentos da Web governamental braslera so consderados
como pertencentes a esse subconjunto da Web. Portanto, os hosts lstados
a segur, embora no sejam do subdomíno .gov.br, so consderados, para
efeto desse Projeto, pertencentes à Web governamental braslera.
A Tabela 4.21 apresenta a relao de hosts que responderam à consulta va
protocolo iPv6.
URl
www.google.com
www.lacnc.net
www.tu.nt
www.terra.com.br
Tabela 4.21: Hosts que responderam ao Protocolo iPv6
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 87/93
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 88/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
8
PropóstoTer uma medda da atual quantdade de servdores Web atvos, que respon-
dam a PiNG no domíno iPv6.
MetodologaPrograma de software específco para realzar uma consulta iPv6 aos serv-
dores Web e obter uma resposta que permta saber se o servdor está opera-
conalmente preparado para responder a requsões iPv6.
Apresentao dos resultados
URl
www.tu.nt
Tabela 4.22: Hosts que responderam ao PiNG va protocolo iPv6
identficou-se que apenas um síto da Web governamental braslera respondeu
a um PiNG nos endereos iPv6. A proporo é, ento, 1/12.891 = 0, 008%.
B4: Proporo de sítos Web que respon-dem ao comando GET no endereo iPv6
Defno do ndcadorValor percentual de sítos Web no unverso de servdores que hospedam as
págnas da Web braslera “.br”, que respondem a um comando GET na por-
ta 80 do endereo com protocolo iPv6.
PropóstoTer uma medda da atual quantdade de servdores Web atvos e responden-
do GET na porta 80 do endereo iPv6.
MetodologaPrograma de software específico para realzar uma consulta iPv6 aos serv-
dores Web, a fm de obter uma resposta que permta saber se está operaco-
nalmente preparado para responder a requso iPv6.
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 89/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
89
Apresentao dos resultados
URl
www.google.com
www.lacnc.net
www.tu.nt
Tabela 4.23: Hosts que responderam ao HTTP GET va protocolo iPv6
i1: informao sobre sncronzao detempo dos servdores da Web braslera
Defno do ndcadorValor estmado da dferena de sncronzao de tempo dos servdores da
Web braslera (.gov.br) em relao a hora certa mundal, conhecda como
tempo UTC (Coordinated Universal Time).
Propósto
Estmar o grau de sncronsmo dos servdores da Web governamental bras-lera (.gov.br) em relao a hora certa mundal.
Os computadores podem sncronzar o tempo, utlzando um servdor de
tempo e um protocolo. Normalmente, adota-se o NTP (Network Time Proto-
col ), que converte o tempo para uma lnguagem compreensível ao servdor.
Esse mecansmo é fundamental para garantr o correto regstro das transa-
ões realzadas na Web, bem como as dferentes comuncaões que ocorrem
entre servdores na rede.
MetodologaFo realzada uma requso HTTP ao servdor pelo método HEAD. O ser-
vdor respondeu com a data e a hora no campo Date. Fo meddo o RTT
(round-trip time) da consulta. A hora marcada pelo servdor fo estmada da
segunte forma: tempo dado pelo campo Date somado à metade do RTT.
Observa-se que o RTT é dado em mlssegundos e o campo Date, em se-
gundos. A estmatva de sncronzao fo feta pelo cálculo do módulo da
dferena entre o tempo estmado do servdor e o tempo marcado no relógo
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 90/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
0
da máquna que fez o expermento, sncronzada va NTP. O resultado final
é dado em segundos.
Apresentao dos resultados
Foram obtdos 12836 tempos váldos, dos 12891 servdores consultados. A Ta-bela 4.24 apresenta as prncpas estatístcas referentes aos tempos encontrados.
MIN MEdIANA MédIA MAx CV Q1 Q2 Q3 P90 P97 P99
0 1 150.766 336.045.799 40 0 1 170 3.435 5.750 11.860
Tabela 4.24: Dferena absoluta entre a hora do servdor e o UTC em segundos
UF MEdIANA MédIA MáxIMO CV
AC 150 1.040 10.534 2,17AL 31 4.279 79.706 2,36
AM 4 1.670 57.403 3,93
AP 1194 1.212 3.953 0,61
BA 2 3.415 585.462 9,80
CE 1 1.193 203.281 9,35
DF 2 432 3.903 1,72
ES 0 1.193 236.686 11,76
GO 0 929 29.154 2,8
MA 284 2,36e+06 252.563.955 10,29
MG 1 551 37.261 3,38
MS 3507 2.778 68.881 1,94
MT 1 2.364 191.897 6,52
PA 25 2.537 348.840 9,30
PB 195 1.088 22.034 2,21
PE 3 15.583 2.631.634 11,88
PR 0 122.887 247.348.217 44,82
RN 0 437 8.462 3,39
RO 21 1.962 50.529 2,90
RR 0 867 8.355 2,37
RS 0 1.010 86.762 4,60
SC 10 1,03e+06 246.533.888 14,96
SE 1 676 11.389 2,92
SP 6 152.961 215.427.138 34,94
TO 321 3.134 82.862 3,05
Tabela 4.25: indcador i1 - Estatístcas da sncronzaopor undade da federao: tempo em segundos
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 91/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
91
i2: informao sobre tempo de respostamédo dos servdores da Web braslera
Defno do ndcadorValor do tempo de resposta médo para os servdores da Web, consderando
cada síto Web dentficado na coleta de dados do unverso .gov.br.
PropóstoEste ndcador vsa oferecer uma noo acerca do tempo de resposta médo
dos sítos da Web do unverso .gov.br.
MetodologaPara realzar a coleta da nformao de tempo de resposta de um determ-
nado síto da Web, é feta uma consulta específca ao servdor do síto Web,
onde se regstra o tempo gasto (em undade mlsegundos) para concretzar
a resposta do servdor.
Portanto, trata-se de um método smples, que fornece apenas uma dea
aproxmada do tempo necessáro para acesso ao servdor, contudo permte
ter uma avalao geral acerca desse ndcador de qualdade no tempo deresposta a uma requso.
Apresentao dos resultadosA Tabela 4.26 apresenta os resultados obtdos para o ndcador de tempo de
resposta médo para os sítos da Web do unverso .gov.br.
Os dados apresentados na tabela so referentes a 12.871 sítos que tveram
pelo menos uma págna HTML com resposta válda. Outros 20 sítos (0.15%)
no foram contemplados nessa análse, vsto que a consulta de tempo de
resposta a eles no obteve resultado (o que ocorre devdo ao servdor do
síto no acetar este tpo de consulta ou a algum erro de ndsponbldade).
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 92/93
D m õ
t í t d W e b b l : m
t d d . g . b
c
a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o s
2
TEMPO dE REsPOsTA(MIlIsEGUNdOs)
síTIOs WEB
VAlOR ABsOlUTO PERCENTAGEM
≤ 10 1.101 8,55
> 10 e ≤ 50 4.111 31,94
> 50 e ≤ 100 2.278 17,70
> 100 e ≤ 200 2.143 16,65
> 200 e ≤ 300 1.184 9,20
> 300 e ≤ 400 534 4,15
> 400 e ≤ 500 311 2,42
> 500 e ≤ 600 274 2,13
> 600 e ≤ 700 176 1,37
> 700 e ≤ 800 152 1,18
> 800 e ≤ 900 100 0,78
> 900 e ≤ 1000 77 0,60
> 1000 430 3,34
Tabela 4.26: Tempo de resposta médo dos sítos Web
MédIA MIN MAx MEdIANA dEsVIO PAdRãO CV Q1 Q2 Q3 P90 P97 P99
190,20 1 8313 71 368,78 1,94 27 71 201 475 1049 1595
Tabela 4.27: Tempo de Resposta - Análse Estatístca
D2: Proporo de países que hospedamos sítos Web brasleros
Defno do ndcadorValor percentual da quantdade de sítos da Web braslera de acordo com o
país que é hospedero desse síto.
PropóstoObter uma dstrbuo percentual dos sítos da Web braslera de acordo
com o país que o hospeda
8/3/2019 Dimensões e características da Web brasileira: um estudo do .gov.br
http://slidepdf.com/reader/full/dimensoes-e-caracteristicas-da-web-brasileira-um-estudo-do-govbr 93/93
D m õ
t í t d W e b b l : m
t d d . g . b
c a p í t u l o 4
i n D i c a D
o r e s
e
u n i v e r s o D
e
D a D o
s
93
MetodologaEstmou-se a geolocalzao dos servdores com o uso da base de dados da
GeoLte, da empresa MaxMnd, consultada a partr de seus endereos iP.
Apresentao dos resultadosA tabela 4.28 apresenta os resultados para o ndcador, obtdos a partr de
um unverso de 11.856 sítos com domínos “.gov.br” e com pelo menos um
documento HTML váldo.
lOCAlIzAÇãO BRAsIl ExTERIOR NãO IdENTIFICAdO
PROPORÇãO dE
síTIOs HOsPEdAdOs
93% 6% 1%
Tabela 4.28: Proporo dos servdores hospedados no Brasl e em outros países