Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de...

53
METODOLOGIA PARA A ANÁLISE DA QUALIDADE DE WEB SITES BASEADA EM TÉCNICAS DE APRENDIZADO DE MÁQUINA Heitor de Souza Ganzeli Exame de Qualificação em Mestrado Engenharia Elétrica Área de Concentração: Engenharia de Sistemas Digitais Orientador: Profa. Dra. Graça Bressan

description

Apresentação de qualificação de mestrado com o título "Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina". Mostra algumas características e resultados do projeto TIC Web e uma proposta de utilização de seus dados em algoritmos de aprendizado de máquina para uma melhor classificação de sítios Web.

Transcript of Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de...

Page 1: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

METODOLOGIA PARA A ANÁLISE DA

QUALIDADE DE WEB SITES BASEADA EM

TÉCNICAS DE APRENDIZADO DE MÁQUINA

Heitor de Souza Ganzeli

Exame de Qualificação em Mestrado Engenharia Elétrica

Área de Concentração: Engenharia de Sistemas Digitais

Orientador: Profa. Dra. Graça Bressan

Page 2: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Objetivo

Metodologia para aperfeiçoar o processo de

análise de dados sobre a qualidade de

Web sites, mais especificamente, dos dados

extraídos pelo projeto TIC Web

Page 3: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Projeto TIC Web

• Iniciado em 2009

• Publicação de dados

do domínio .gov.br

em 2010

• Publicação na

WebMedia 2012

Page 4: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Objetivos

• Estudo da Web Brasileira

• Estudo da Web Governamental Brasileira

Page 5: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Diferenciais

• Estudo de diversas camadas da Internet

• Foco no uso de padrões abertos

• Análises periódicas

• Indicadores Qualitativos

• Indicadores Quantitativos

Page 6: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Agenda

• INDICADORES

• Qualitativos

• Quantitativos

• METODOLOGIA

• CRONOGRAMA e CONCLUSÕES

Page 7: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Indicadores

PESQUISAS QUANTITATIVAS

Page 8: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplos encontrados

• Número de sites e páginas

• Quantidade de páginas únicas

• Idade dos documentos

• Tamanho total das páginas

• Tamanho dos arquivos de mídia

• Número de arquivos de mídia

Page 9: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Indicadores

TAMANHO DA WEB

Page 10: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Motivação

• Estudos evolutivos

• Realização de comparações entre

domínios

• Base para a realização de outras análises

Page 11: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

148

185

2010 2011

Volume (GB)

11,8

18,2

2010 2011

Qt sites (mil)

Resultados

6,3 6,9

2010 2011

Qt paginas (milhões)

Page 12: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Outros indicadores

Sites Páginas

número total de páginas tamanho

tamanho total das páginas tamanho total das páginas

quantidade de páginas dinâmicas página dinâmica

quantidade de páginas estáticas Idade

idade da página mais antiga tamanho do conteúdo extraído da página

idade da página mais nova grau de entrada

média das idades das páginas grau de saída

possui arquivo robots.txt válido profundidade

grau de entrada

grau de saída

links internos

profundidade máxima das páginas

grupo em que se encontra na estrutura

macroscópica da Web

Page 13: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Indicadores

PESQUISAS QUALITATIVAS

Page 14: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplos encontrados

• Validação de páginas HTML

• Validação de acessibilidade

• Contabilização do WAI

• Avaliação de segurança

• Análise de metadados

Page 15: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Indicadores

VALIDAÇÃO DE PÁGINAS

Page 16: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Aderência à padrões Web

Validação HTML

• Universalidade de acesso

• Validador W3C

• Medida da quantidade de erros por página

Validação de Acessibilidade – E-MAG

• Acesso Universal

• ASES

• Erros e Avisos de nível 1, 2 e 3

Page 17: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Método

• ConNeCTOR

(Convenient Network Characteristics Testing Organized Routines)

• Open Source

• Principais funcionalidades:

• Verificação de suporte à IPv6

• Validação de páginas

• Sincronização de Tempo

http://sf.net/projects/connector-nic

Page 18: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Resultados

HTML Acessibilidade

0,00%

1,00%

2,00%

3,00%

4,00%

5,00%

6,00%

7,00%

Validação de páginas

2010

2011

Page 19: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Indicadores

SINCRONIZAÇÃO DE RELÓGIOS

Page 20: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Motivação

• Rastreamento de incidentes de segurança

• Sistemas de distribuição de conteúdo

• Gerenciadores de arquivos

• Agendadores de eventos

• Criptografia

• Protocolos de comunicação e aplicações de

tempo real

• Sistemas transacionais e bancos de dados

Page 21: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Métodos

HTTP

95% dos sites

Precisão de segundos

NTP

7% dos sites

Precisão de μ segundos

Page 22: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Resultados

sinc 1 sec -1 min

1 - 10min

10 - 30min

30 min -1 h

1 - 2 h mais de2 h

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

Sincronização de tempo dos servidores

2010

2011

Page 23: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Indicadores

IPV6

Page 24: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Método e Resultados

Possuem endereço IPv6 3

Possuem endereço IPv6 para URL alternativa 2

Respondem à requisições GET 3

Respondem à requisições PING 2

Seu servidor DNS possui endereço IPv6 3

O DNS dos domínios alternativos possuem endereç IPv6 2

Page 25: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Indicadores

TIPO DE SERVIDOR

Page 26: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Motivação

• Verificação de tendências servidores

mais utilizados

• Escolha do foco de:

• Projetos

• Tutoriais

• Busca de falhas de segurança

Page 27: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Resultados

Apache MicrosoftIIS

Zope Nginx Outros

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

2010

2011

Page 28: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Resultados

Endereço IPlocalizado no

Brasil

Endereço IPlocalizado no

exterior

Localização nãoidentificada

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

Localização Geográfica dos Servidores

2010

2011

Page 29: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Resultados

Apache Microsoft IIS Nginx

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

Localização dos servidores por seu tipo

Brasil

Exterior

Page 30: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Metodologia

Page 31: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Aprendizado de máquina

Supervisionado Não

Supervisionado

Page 32: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Ferramentas

• Weka

• Octave

• R

Page 33: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Processo

• Seleção de parâmetros

• Adaptação de parâmetros

• Normalização de Parâmetros

• Priorização

• PCA, particle filtering, linearization

• Clusterização

• K-means, Expectation Maximization

• Visualização

• 2D, 3D

• Análise

Page 34: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplo – Seleção de parâmetros

• Dados referentes a sites

• Tipo de servidor

• Suporte a IPv6

• Consolidações de dados de páginas

• Quantidade de páginas válidas

• Profundidade média das páginas

• Tamanho médio

Page 35: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplo – Adaptação de parâmetros

• Tipo de servidor

• String “Apache, IIS, Zope, ...”

• Suporte a IPv6

• Campo único parâmetros relevantes

Page 36: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplo - Normalização de Parâmetros

• Variáveis com range muito grande podem

enviesar a execução dos algoritmos

• Tamanho total do site

• Diferença de tempo com o UTC

• Normalização da média

• Normalização da variação

𝒙 − 𝑿

𝝈

Page 37: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplo - Priorização

• Agiliza processamento dos algoritmos de

aprendizado de máquina

• Bastante utilizados em casos de milhares

de parâmetros

• No caso foram utilizados 48 parâmetros

para definir cada site

Page 38: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplo – Clusterização

• Escolha do número de clusters

• Escolha dos centroides iniciais

• Escolha randômica

• Avalição da função de custo múltiplos testes

• 3 clusters, comparação da melhor opção

entre 1000 execuções

Page 39: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplo – Visualização – PCA 2 dimensões

Page 40: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplo – Visualização – PCA 3 dimensões

Page 41: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Exemplo - Análise

• Desnormalização dos centroides

encontrados

• Quais diferenças são perceptíveis

• Diferenças estão relacionadas aos

parâmetros que indicam qualidade

Page 42: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Cronograma e Conclusões

Page 43: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Sumarizando

• Extensão do projeto TIC Web

• Foco na análise de dados

• Transição entre estudo de domínios para

estudo de características de sites

Page 44: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Também...

• Aprofundamento no estudo dos

indicadores

• Método computacionalmente inteligente

para a seleção de parâmetros

• Construção de metodologia para a

avaliação da qualidade de um site

Page 45: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Próximos Passos

1. Aprofundamento teórico em técnicas de

aprendizado de máquina

2. Seleção e adaptação dos parâmetros

3. Análise dos algoritmos e resultados,

conseguidos com diferentes técnicas

4. Análise das categorias de sites obtidas

Page 46: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Cronograma

tarefa/semana 1 2 3 4 5 6 7 8 9

10

11

12

13

14

15

16

17

18

19

20

Fase 1

Fase 2

Fase 3

Fase 4

Dissertação

Artigo

Page 47: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Conclusões

• Área de pesquisa abrangente, com riqueza em

trabalhos acadêmicos

• Definição de métodos e ferramentas de estudo de

domínios Web

• Método para a classificação da qualidade de um sites

com base em dados aprendidos

Page 48: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Obrigado !

Perguntas?

Contato:

[email protected]

[email protected]

Slides:

http://www.slideshare.net/heitorganzeli

Page 49: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

• 7498-1:1994 ISO/IEC. Information technology - Open Systems Interconnection - Basic Reference Model: The Basic

Model. . [S.l.]: International Organization for Standardization. Disponível em: <http://www.iso.org/>. , 1994

• BACH, C. F. et al. Diretrizes de acessibilidade: uma abordagem comparativa entre WCAG e E-MAG. Revista Eletrônica

de Sistemas de Informação ISSN 1677-3071, v. 1, n. 1, p. 14, 2009. Disponível em:

<http://revistas.facecla.com.br/index.php/reinfo/article/view/271/233>.

• BAILEY, P.; CRASWELL, N.; HAWKING, D. Engineering a multi-purpose test collection for Web retrieval experiments.

Information Processing & Management, v. 39, n. 6, p. 853-871, nov. 2003. Disponível em:

<http://linkinghub.elsevier.com/retrieve/pii/S0306457302000845>. Acesso em: 16 jan. 2013.

• BAUER, C.; SCHARL, A. Quantitive evaluation of Web site content and structure. Internet Reseach, v. 10, n. 1, p. 31-44,

2000.

• CAFARELLA, M.; CUTTING, D. Building Nutch. Queue, v. 2, n. 2, p. 54, 1 abr. 2004. Disponível em:

<http://dl.acm.org/ft_gateway.cfm?id=988408&type=html>. Acesso em: 7 nov. 2011.

• CALDWELL, B. et al. Understanding WCAG 2.0. Group. [S.l: s.n.]. Disponível em:

<http://www.w3.org/TR/UNDERSTANDING-WCAG20/>. , 2008

• CANALI, D.; COVA, M.; VIGNA, G. Prophiler : A Fast Filter for the Large-Scale Detection of Malicious Web Pages

Categories and Subject Descriptors. 2011, Hyderabad, India: ACM, 2011. p. 197-206. Disponível em:

<http://delivery.acm.org/10.1145/1970000/1963436/p197-

canali.pdf?ip=143.107.252.164&CFID=31764117&CFTOKEN=39507299&__acm__=1310326474_ffaa331fbc24e4c4ef4fd

acb5d2cbd0b>.

• CASTILLO, C. Effective web crawling. ACM SIGIR Forum, v. 39, n. 1, p. 55, 1 jun. 2005. Disponível em:

<http://portal.acm.org/citation.cfm?doid=1067268.1067287>.

• CASTILLO, C. et al. Um novo retrato da Web brasileira. 2005, [S.l: s.n.], 2005. p. 2005-2017. Disponível em:

<http://chato.cl/papers/modesto_05_novo_retrato_web_brasileira.pdf>.

• CASTILLO, C.; STAROSTA, B.; SYDOW, M. Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web.

Studia Informatica, v. 1, n. 8, p. 43-73, 2007. Disponível em: <http://www.chato.cl/papers/css_2007_polish_web.pdf>.

• CHEN, S.; HONG, D.; SHEN, V. Y. An Experimental Study on Validation Problems with Existing HTML Webpages. 2005,

[S.l: s.n.], 2005.

Referências Bibliográficas

Page 50: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

• COVA, M.; KRUEGEL, C.; VIGNA, G. Detection and analysis of drive-by-download attacks and malicious JavaScript code.

Proceedings of the 19th international conference on World wide web - WWW ’10, p. 281, 2010. Disponível em:

<http://portal.acm.org/citation.cfm?doid=1772690.1772720>.

• DARDAILLER, D. W3C and Open Standard. Disponível em: <http://www.w3.org/2005/09/dd-osd.html>. Acesso em: 9 dez.

2011.

• DEERING, S.; HINDEN, R. Internet Protocol, Version 6 (IPv6) Specification. RFC 2460. [S.l.]: IETF. Disponível em:

<http://www.ietf.org/rfc/rfc2460.txt>. , 1998

• EDWARD, T. O.; LAVOIE, B. F.; PATRICK, D. Web Characterization Project. Journal of Library Administration, Artigo

apresenta interessante comparação entre metadados na home page e em outras páginas internas, v. 34, n. 3-4, p. 359-

374, 2001.

• EPPLER, M. J.; MUENZENMAYER, P. Measuring Information Quality in The Web Context: A surve of State-of-the-Art

Instruments and an Application Methodology. 2002, [S.l: s.n.], 2002. p. 187-196.

• FREIRE, A. P.; CASTRO, M. DE; FORTES, R. P. DE M. Accessibility of Brazilian state government websites: a

quantitative analysis between 1996 and 2007. Revista de Administração Pública, v. 43, n. 2, p. 395-414, abr. 2009.

Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-

76122009000200006&lng=en&nrm=iso&tlng=pt>. Acesso em: 7 nov. 2011.

• GANZELI, H. D. S.; MOREIRAS, A. M.; BRESSSAN, G. ICT Web : Analysis of the Brazilian Governmental Web. 2012,

São Paulo - SP, Brazil: ACM New York, NY, USA ©2012, 2012. p. 383-386.

• GROUP, N. W. Hypertext Transfer Protocol -- HTTP/1.1. . [S.l: s.n.]. , 1999

• HENRY, S. L. Introduction to Web Accessibility. Journal of Web Engineering. [S.l: s.n.]. Disponível em:

<http://www.w3.org/WAI/intro/accessibility.php>. , 2006

• HTML Tidy Project. Disponível em: <http://tidy.sourceforge.net/>. Acesso em: 22 jan. 2013.

• HULL, L. Accessibility: it’s not just for disabilities any more. interactions, v. 11, n. 2, p. 36-41, 2004. Disponível em:

<http://doi.acm.org/10.1145/971258.971270>.

• KATERATTANAKUL, P.; SIAU, K. MEASURING INFORMATION QUALITY OF WEB SITES : DEVELOPMENT OF AN

INSTRUMENT. 1999, Charlotte, North Carolina, USA: Association for Information Systems, 1999. p. 279-285. Disponível

em: <http://dl.acm.org/citation.cfm?id=352925.352951>.

Referências Bibliográficas

Page 51: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

• LAWRENCE, S.; GILES, C. L. Accessibility of information on the web. Nature, v. 400, n. 6740, p. 107-9, 8 jul. 1999.

Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/10428673>.

• MENDES, E.; MOSLEY, N.; COUNSELL, S. Comparison of Web size measures for predicting Web design and authoring

effort. 2002, [S.l: s.n.], 2002. p. 86-92.

• MINISTÉRIO DO PLANEJAMENTO. Padrões de Interoperabilidade de Governo Eletrônico. Disponível em:

<http://eping.governoeletronico.gov.br/>. Acesso em: 22 maio 2012.

• MINISTÉRIO DO PLANEJAMENTO; SECRETARIA DE LOGÍSTICA E TECNOLOGIA DA INFORMAÇÃO. Modelo de

Acessibilidade em Governo Eletrônico. Brasília: MP, SLTI, 2011, 2011. p. 69

• MITCHELL, T. M. Machine Learning. McGraw Hill: McGraw-Hill, 1997. p. 432Disponível em:

<http://www.ncbi.nlm.nih.gov/pubmed/21452981>.

• MOHR, G. et al. An Introduction to Heritrix: An Open Source Archival Quality Web Crawler. 2004, [S.l: s.n.], 2004.

Disponível em:

<http://scholar.google.com/scholar?hl=en&btnG=Search&q=intitle:An+Introduction+to+Heritrix:+An+Open+Source+Archiv

al+Quality+Web+Crawler#0>.

• MULLER, A.; SCHWARZ, M. HTML Validation of Context-Free Languages. n. 274, p. 426-440, 2011.

• OFUONYE, E. et al. Prevalence and classification of web page defects. Online Information Review, v. 34, n. 1, p. 160-174,

2010.

• PALMER, J. W. Performance Metrics. Information Systems Research, v. 13, n. 2, p. 151-167, 2002.

• REESE, W. Nginx: the high-performance web server and reverse proxy. Linux Journal, v. 2008, n. 173, p. 2, 1 set. 2008.

Disponível em: <http://dl.acm.org/ft_gateway.cfm?id=1412204&type=html>. Acesso em: 8 nov. 2011.

• ROSE, G. M.; STRAUB, D. W. The Effect of Download Time on Consumer Attitude Toward the e-Service Retailer. e-

Service Journal, v. 1, n. 1, p. 55-76, 2001. Disponível em:

<http://muse.jhu.edu/content/crossref/journals/eservice_journal/v001/1.1rose.html>. Acesso em: 26 jan. 2013.

• RYBACZYK, P. Expert Network Time Protocol. New York, New York, USA: Apress, 2005.

• SAVOIA, A. Web Page Response Time 101. Software Testing and Quality Engineering Magazine, n. August, p. 48–53,

2001.

Referências Bibliográficas

Page 52: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

• SLOAN, D. et al. Accessible accessibility. Proceedings on the 2000 conference on Universal Usability - CUU ’00, p. 96-

101, 2000. Disponível em: <http://portal.acm.org/citation.cfm?doid=355460.355480>.

• TANENBAUM, A. S. Computer networks. [S.l.]: Prentice Hall PTR, 2003. p. 891Disponível em:

<http://books.google.com/books?id=DYQoAQAAMAAJ&pgis=1>. Acesso em: 7 nov. 2011.

• TOLOSA, G. et al. Characterization of the Argentinian Web. Cybermetrics: International Journal of Scientometrics,

Informetrics and Bibliometrics, v. 11, n. 1, 2007. Disponível em:

<http://dialnet.unirioja.es/servlet/articulo?codigo=2390583&info=resumen>. Acesso em: 7 nov. 2011.

• W3C. The W3C Markup Validation Service. Disponível em: <http://validator.w3.org/>. Acesso em: 3 nov. 2011.

• YOO, B.; DONTHU, N. Developing a Scale to Measure the Perceived Quality of An Internet Shopping Site ( SITEQUAL ).

Quarterly Journal of Electronic Commerce, v. 2, n. 1, p. 31-47, 2001.

Referências Bibliográficas

Page 53: Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Intr

od

ução

In

dic

ad

ore

s

Meto

do

log

ia

Co

nclu

es

Links

– http://labs.ceptro.br/topsites

– http://labs.ceptro.br/brsites

– http://asa.nic.br

– http://validator.w3.org/

– http://sourceforge.net/projects/connector-nic/

– http://sourceforge.net/projects/wire-nic/

– http://www.w3.org/WAI/quicktips/

– http://zappiens.br/portal/VisualizarVideo.do?_InstanceIdentifier=0&_E

ntityIdentifier=cgiE9WjKruzQGmPy-

VDyEDDAKPUNxmfYneBOql0VJJOuIg.&idRepositorio=0

– http://www.cgi.br/publicacoes/pesquisas/govbr/

– http://www.cs.waikato.ac.nz/ml/weka/

– http://www.gnu.org/software/octave/

– http://www.r-project.org/