58
METODOLOGIA PARA A ANÁLISE DA QUALIDADE DE WEB SITES BASEADA EM TÉCNICAS DE APRENDIZADO DE MÁQUINA Defesa de Dissertação de Mestrado em Engenharia Elétrica Área de Concentração: Engenharia de Computação Orientadora: Prof. ͣ Dr. ͣ Graça Bressan Autor: Heitor de Souza Ganzeli

Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Embed Size (px)

DESCRIPTION

Defesa dissertação de metrado mestrado apresentada à escola politécnica. Esse trabalho descreve metodologia utilizada para analisar determinado conjunto de sites e, a partir dos resultados, criar índices de para a avaliação da qualidade de sites Web.

Citation preview

Page 1: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

METODOLOGIA PARA A ANÁLISE DA

QUALIDADE DE WEB SITES BASEADA

EM TÉCNICAS DE APRENDIZADO DE

MÁQUINA

Defesa de Dissertação de Mestrado em Engenharia Elétrica

Área de Concentração: Engenharia de Computação

Orientadora: Prof. ͣ Dr. ͣ Graça Bressan

Autor: Heitor de Souza Ganzeli

Page 2: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Agenda

Introdução Metodologia Estudo de

caso Conclusões

Page 3: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Introdução

Objetivo

Motivação

Relevância

Fundamentação Teórica

Page 4: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Objetivo

Desenvolvimento de metodologia baseada em técnicas de

aprendizado computacional para a realização de

análises e aplicação de dados relacionados a características de

qualidade de sites Web

Page 5: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Motivação

Estudo da qualidade de sites Web

Melhor ferramental para entendimento da organização de

domínios

Page 6: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Revisão Bibliográfica

Pesquisas Qualitativas Pesquisas Quantitativas

Page 7: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Metodologia Descrição do processo de análise

de grupos de sites

Page 8: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

O que esperar?

Processo prático e

eficiente para a avaliação

de um determinado domínio

ou grupo de sites segundo sua

qualidade

Page 9: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Processo

Adaptação de

parâmetros

Page 10: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Adaptação de

Parâmetros Discretização

Remoção de

Strings

Agrupamento

Page 11: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Discretização

Remoção de

Strings

Agrupamento

Adaptação de

Parâmetros

𝑿𝒏∗𝒑′𝒂𝒅𝒂𝒑𝒕𝒂𝒅𝒐

= 𝑨 𝑿𝒏∗𝒑𝒐𝒓𝒊𝒈𝒊𝒏𝒂𝒍

Page 12: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Processo

Adaptação de

parâmetros

Seleção manual

de parâmetros

Page 13: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Seleção Manual de

parâmetros

Lista focada de parâmetros

Tamanho

IPv6

Código

Page 14: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Seleção Manual de

parâmetros

Lista focada de parâmetros

Tamanho

IPv6

Código

𝑿𝒏∗𝒑′𝟏

𝒂𝒅𝒂𝒑𝒕𝒂𝒅𝒐, 𝑿𝒏∗𝒑′𝟐

𝒂𝒅𝒂𝒑𝒕𝒂𝒅𝒐, ..., 𝑿𝒏∗𝒑′𝒎

𝒂𝒅𝒂𝒑𝒕𝒂𝒅𝒐

Page 15: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Processo

Adaptação de

parâmetros

Seleção manual

de parâmetros

Normalização

de parâmetros

Page 16: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Normalização de

parâmetros

𝑥𝑖𝑗 =𝑥𝑖𝑗∗ − 𝜇𝑗

𝑠𝑗

Page 17: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Normalização de

parâmetros

𝑥𝑖𝑗 =𝑥𝑖𝑗∗ − 𝜇𝑗

𝑠𝑗

𝑿𝒏∗𝒑′𝒍𝒏𝒐𝒓𝒎𝒂𝒍𝒊𝒛𝒂𝒅𝒐 = 𝑵 𝑿𝒏∗𝒑′𝒍

𝒂𝒅𝒂𝒑𝒕𝒂𝒅𝒐

Page 18: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Processo

Adaptação de

parâmetros

Seleção manual

de parâmetros

Normalização de

parâmetros

Redução

dimensional

Page 19: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Redução Dimensional

Seleção de

parâmetros

Extração de

Parâmetros

mRMR PCA

Page 20: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Redução Dimensional

PCA

𝑺𝑽𝑫(𝜮) = 𝑼 ∗ 𝑺 ∗ 𝑽

Page 21: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Redução Dimensional

PCA

𝑿𝒏∗𝒅𝒍𝒓𝒆𝒅𝒖𝒛𝒊𝒅𝒐 = 𝑿𝒏∗𝒑′𝒍

𝒏𝒐𝒓𝒎𝒂𝒍𝒊𝒛𝒂𝒅𝒐 ∗ 𝑼𝒑′𝒍∗𝒅𝒍

Page 22: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Processo

Adaptação de

parâmetros

Seleção manual

de parâmetros

Normalização de

parâmetros

Redução

dimensional

Agrupamento

ou aglomeração

de elementos

Page 23: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Agrupamento ou

aglomeração de

elementos

• K-means

• Expectation Maximization (EM)

Fonte: http://sherrytowers.com/wp-content/uploads/2013/10/kmeans_3.jpg

Page 24: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Agrupamento ou

aglomeração de

elementos

• K-means

• Expectation Maximization (EM)

𝜽 𝒕 = 𝝁𝒋 𝒕 , 𝜮𝒋 𝒕

Passo E

Passo M

Page 25: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Agrupamento ou

aglomeração de

elementos

• K-means

• Expectation Maximization (EM)

Fonte: http://www.cs.ubc.ca/~emtiyaz/software/demoAutoFA2.jpeg

Page 26: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Agrupamento ou

aglomeração de

elementos

• K-means

• Expectation Maximization (EM)

Fonte: http://www.cs.ubc.ca/~emtiyaz/software/demoAutoFA2.jpeg

[𝑹𝒏∗𝟏𝒊 , 𝑽𝒊] = 𝑨𝒍𝒈𝒊(𝑿𝒏∗𝒅𝒍

𝒓𝒆𝒅𝒖𝒛𝒊𝒅𝒐)

Page 27: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Processo

Adaptação de

parâmetros

Seleção manual

de parâmetros

Normalização de

parâmetros

Redução

dimensional

Agrupamento

ou aglomeração

de elementos

Visualização

Page 28: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Visualização

Como visualizar 40-50 dimensões?

Fonte: http://management-class.co.uk/public_html/courseware/images/kmeans3.jpg

Page 29: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Processo

Adaptação de

parâmetros

Seleção manual

de parâmetros

Normalização de

parâmetros

Redução

dimensional

Agrupamento

ou aglomeração

de elementos

Visualização Análise

Page 30: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Análise

Fonte: http://hadapt.com/assets/Threat-Detection-and-Analysis.jpg

Page 31: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Processo

Adaptação de

parâmetros

Seleção manual

de parâmetros

Normalização de

parâmetros

Redução

dimensional

Agrupamento

ou aglomeração

de elementos

Visualização Análise Generalização

Page 32: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Generalização

Page 33: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Estudo de Caso Aplicação da metodologia para

dados obtido em coleta da Web

Governamental em 2012

Page 34: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Aplicação da metodologia

Adaptação de

parâmetros

Seleção manual

de parâmetros

Normalização de

parâmetros

Redução

dimensional

Agrupamento

ou aglomeração

de elementos

Visualização Análise Generalização

Page 35: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Adaptação de pâmetros

Consolidação

de páginas

Adaptação

de strings

Remoção

Page 36: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Seleção manual de parâmetros

1

2

3

4

Page 37: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Normalização

Adaptação de

parâmetros

Seleção manual

de parâmetros

Normalização

de parâmetros

Redução

dimensional

Agrupamento

ou aglomeração

de elementos

Visualização Análise Generalização

Page 38: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Redução

dimensional

PCA 90% de

relevância

acumulada

Medida de

Relevância

Não estão

diretamente

relacionados

com os

originais

Page 39: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Redução

dimensional

PCA

Page 40: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Redução

dimensional

PCA

Page 41: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Redução

dimensional

PCA

Page 42: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Aglomeração

de elementos

1076

13022

54

Distribuição de sites por grupo

K-means – Lista 1

92% dos

sites

Page 43: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Aglomeração

de elementos N

Grupos

Listas

1 2 3 4

K-

means

3

5

Page 44: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Aglomeração

de elementos N

Grupos

Listas

1 2 3 4

EM

3

5

Só 1 grupo

Page 45: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Visualização – K-means com 3 grupos

Page 46: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Visualização – K-means com 3 grupos

Page 47: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Visualização – EM com 3 grupos

Page 48: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

lista 1

grupo n_pag ipv6_address count_ok

1

2

3

Análise

Seleção de

parâmetros:

mRMR

Page 49: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Grupo Lista

1

1 Sites sem suporte a IPv6 e amplo número

de páginas, em sua maioria válidas

2

Sites e sem suporte à IPv6 com reduzido

número de páginas, em sua maioria

válidas

3 Sites com suporte a IPv6

Análise

BOM

REGULAR

REGULAR

Page 50: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Grupo

Lista

1 2 3 4

Completa Código Infra Organização

1 Regular Ruim Ruim Bom

2 Regular Bom Regular Ruim

3 Bom Regular Bom Bom

Análise

Page 51: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Site Lista

Geral 1 2 3 4

caixa.gov.br Regular Ruim Ruim Bom Ruim

fazenda.gov.br Regular Regular Ruim Bom Regular

pr.gov.br Regular Regular Regular Ruim Ruim

mec.gov.br Regular Regular Regular Bom Bom

mg.gov.br Regular Ruim Regular Bom Regular

Generalização

Page 52: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Conclusões

Sumarização

Contribuições

Trabalhos Futuros

Page 53: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Principais Contribuições

Metodologia baseada em aprendizado de máquina

Classificação de Sites

Extensão do TIC Web

Seleção de algoritmos

Page 54: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Trabalhos Futuros

Testes da metodologia com outros algoritmos

Novos parâmetros

Novas listas de parâmetros

Aplicação para a classificação dos sites

Page 55: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Obrigado !!!

Apresentação disponível em:

http://www.slideshare.net/heitorganzeli

Page 56: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

REFERÊNCIAS BIBLIOGRAFICAS 7498-1:1994 ISO/IEC. (1994). Information technology - Open Systems Interconnection - Basic Reference Model: The Basic Model. International Organization for

Standardization. Retrieved from http://www.iso.org/

Bach, C. F., Ferreira, S. B. L., Silveira, D. S., & Nunes, R. R. (2009). Diretrizes de acessibilidade: uma abordagem comparativa entre WCAG e E-MAG. Revista

Eletrônica de Sistemas de Informação ISSN 1677-3071, 1(1), 14. doi:10.5329

Bailey, P., Craswell, N., & Hawking, D. (2003). Engineering a multi-purpose test collection for Web retrieval experiments. Information Processing & Management, 39(6),

853–871. doi:10.1016/S0306-4573(02)00084-5

Bauer, C., & Scharl, A. (2000). Quantitive evaluation of Web site content and structure. Internet Reseach, 10(1), 31–44. doi:10.1108/10662240010312138

Cafarella, M., & Cutting, D. (2004). Building Nutch. Queue, 2(2), 54. doi:10.1145/988392.988408

Caldwell, B., Cooper, M., Reid, L. G., & Vanderheiden, G. (2008). Understanding WCAG 2.0. Group. Retrieved from http://www.w3.org/TR/UNDERSTANDING-

WCAG20/

Canali, D., Cova, M., & Vigna, G. (2011). Prophiler : A Fast Filter for the Large-Scale Detection of Malicious Web Pages Categories and Subject Descriptors. In

Proceedings of the 20th international conference on World wide web (pp. 197–206). Hyderabad, India: ACM. doi:10.1145/1963405.1963436

Castillo, C. (2005). Effective web crawling. ACM SIGIR Forum, 39(1), 55. doi:10.1145/1067268.1067287

Castillo, C., Baeza-yates, R., Modesto, M., Jr, Á. R. P., & Ziviani, N. (2005). Um novo retrato da Web brasileira. In XXV Congresso da Sociedade Brasileira de

computação (pp. 2005–2017). Retrieved from http://chato.cl/papers/modesto_05_novo_retrato_web_brasileira.pdf

Castillo, C., Starosta, B., & Sydow, M. (2007). Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web. Studia Informatica, 1(8), 43–73. Retrieved

from http://www.chato.cl/papers/css_2007_polish_web.pdf

Chen, S., Hong, D., & Shen, V. Y. (2005). An Experimental Study on Validation Problems with Existing HTML Webpages. In Proc. International Conference on Internet

Computing.

Cova, M., Kruegel, C., & Vigna, G. (2010). Detection and analysis of drive-by-download attacks and malicious JavaScript code. Proceedings of the 19th International

Conference on World Wide Web - WWW ’10, 281. doi:10.1145/1772690.1772720

Dardailler, D. (2007). W3C and Open Standard. Retrieved December 09, 2011, from http://www.w3.org/2005/09/dd-osd.html

Deering, S., & Hinden, R. (1998). Internet Protocol, Version 6 (IPv6) Specification. RFC 2460. IETF. doi:10.1109/MSP.2008.65

Dempster, A., Laird, N., & Rubin, D. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society. …, 39(1), 1–38.

Retrieved from http://www.jstor.org/stable/2984875

Edward, T. O., Lavoie, B. F., & Patrick, D. (2001). Web Characterization Project. Journal of Library Administration, 34(3-4), 359–374. doi:10.1300/J111v34n03_17

Eppler, M. J., & Muenzenmayer, P. (2002). Measuring Information Quality in The Web Context: A surve of State-of-the-Art Instruments and an Application Methodology.

In Proceedings of the Seventh International Conference of Information Quality (pp. 187–196).

Figueiredo, M. A. T., & Jain, A. K. (2002). Unsupervised learning of finite mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3), 1–16.

Retrieved from http://www.ncbi.nlm.nih.gov/pubmed/15460286

Freire, A. P., Castro, M. de, & Fortes, R. P. de M. (2009). Accessibility of Brazilian state government websites: a quantitative analysis between 1996 and 2007. Revista

de Administração Pública, 43(2), 395–414. doi:10.1590/S0034-76122009000200006

Page 57: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Ganzeli, H. D. S., Moreiras, A. M., & Bressan, G. (2012). ICT Web : Analysis of the Brazilian Governmental Web. In WebMedia ’12 Proceedings of the 18th Brazilian

symposium on Multimedia and the web (pp. 383–386). São Paulo - SP, Brazil: ACM New York, NY, USA ©2012. doi:10.1145/2382636.2382715

Group, N. W. (1999). Hypertext Transfer Protocol -- HTTP/1.1. Retrieved from http://www.w3.org/Protocols/rfc2616/rfc2616.html

Hartigan, J. A., & Wong, M. A. (1979). Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics),

28(1), 100–108. Retrieved from http://www.jstor.org/discover/10.2307/2346830?uid=3737664&uid=2134&uid=2&uid=70&uid=4&sid=21102869324181

Henry, S. L. (2006). Introduction to Web Accessibility. Journal of Web Engineering. Retrieved from http://www.w3.org/WAI/intro/accessibility.php

Hull, L. (2004). Accessibility: it’s not just for disabilities any more. Interactions, 11(2), 36–41. doi:10.1145/971258.971270

Jain, A. K., & Dubes, R. C. (1988). Algorithms for Clustering Data. (B. Marttine, Ed.) (p. 320). New Jersey: Prentice Hall.

Jolliffe, I. (2005). Principal component analysis (Second edi.). New York, New York, USA: Springer-Verlag New York, Inc. Retrieved from

http://onlinelibrary.wiley.com/doi/10.1002/0470013192.bsa501/full

Katerattanakul, P., & Siau, K. (1999). MEASURING INFORMATION QUALITY OF WEB SITES : DEVELOPMENT OF AN INSTRUMENT. In Proceedings of the 20th

international conference on Information Systems (pp. 279–285). Charlotte, North Carolina, USA: Association for Information Systems.

doi:10.1145/352925.352951

Kira, K., & Rendell, L. (1992). A Practical Approach to Feature Selection. In Proc. of the 9th Int. Conf. on Machine Learning (pp. 249–256). Aberdeen, Scotland:

Morgan Kaufmann.

Lawrence, S., & Giles, C. L. (1999). Accessibility of information on the web. Nature, 400(6740), 107–9. doi:10.1038/21987

Liu, H., & Setiono, R. (1996). A Probabilistic Approach to Feature Selection: a Filter Solution. In Proc. of the 13th Int. Conf. on Machine Learning (pp. 319–327).

Morgan Kaufmann.

Mardia, K. V., Kent, .J. T., & Bibby, J. M. (1995). Multivariate Analysis (Probability and Mathematical Statistics) (First Edit., p. 521). Academic Press.

Mendes, E., Mosley, N., & Counsell, S. (2002). Comparison of Web size measures for predicting Web design and authoring effort. In IEE Proceedings online (Vol.

149, pp. 86–92). doi:10.1049

Ministério do planejamento. (2012). Padrões de Interoperabilidade de Governo Eletrônico. Ministério do planejamento, orçamento e gestão. Retrieved May 22, 2012,

from http://eping.governoeletronico.gov.br/

Ministério do Planejamento, & Secretaria de Logística e Tecnologia da Informação. (2011). Modelo de Acessibilidade em Governo Eletrônico (p. 69). Brasília: MP,

SLTI, 2011. doi:http://www.governoeletronico.gov.br/biblioteca/arquivos/e-mag-3.0/download

Mitchell, T. M. (1997). Machine Learning. (N. Je. Traub, Joseph F and Grosz, Barbara J and Lampson, Butler W and Nilsson, Ed.) (p. 432). McGraw Hill: McGraw-

Hill. Retrieved from http://www.ncbi.nlm.nih.gov/pubmed/21452981

Mohr, G., Stack, M., Ranitovic, I., Avery, D., & Kimpton, M. (2004). An Introduction to Heritrix: An Open Source Archival Quality Web Crawler. In 4th International

Web Archiving Workshop. Retrieved from

http://scholar.google.com/scholar?hl=en&btnG=Search&q=intitle:An+Introduction+to+Heritrix:+An+Open+Source+Archival+Quality+Web+Crawler#0

Molina, L., Belanche, L., & Nebot, À. (2002). Feature selection algorithms: A survey and experimental evaluation. In IEEE International Conference on Data Mining

(pp. 306 – 313). doi:10.1109/ICDM.2002.1183917

Muller, A., & Schwarz, M. (2011). HTML Validation of Context-Free Languages, (274), 426–440.

Ofuonye, E., Beatty, P., Dick, S., & Miller, J. (2010). Prevalence and classification of web page defects. Online Information Review, 34(1), 160–174.

doi:10.1108/14684521011024182

Palmer, J. W. (2002). Performance Metrics. Information Systems Research, 13(2), 151–167.

Page 58: Metodologia para a análise da qualidade de Web Sites baseada em técnicas de aprendizado de máquina

Intro

du

ção

M

eto

do

log

ia

Estu

do

de ca

so

Co

nclu

sões

Parmanto, B., & Zeng, X. (2005). Metric for Web accessibility evaluation. Journal of the American Society for Information Science and Technology, 56(13), 1394–

1404. doi:10.1002/asi.20233

Peng, H., Long, F., & Ding, C. (2005). Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy. IEEE

Transactions on Pattern Analysis and Machine Intelligence, 27(8), 1226–1238. doi:10.1109/TPAMI.2005.159

Pudil, P., & Hovovicova, J. (1998). Novel methods for subset selection with respect to problem knowledge. IEEE Intelligent Systems and Their Applications, 13(2).

doi:10.1109/5254.671094

Rose, G. M., & Straub, D. W. (2001). The Effect of Download Time on Consumer Attitude Toward the e-Service Retailer. e-Service Journal, 1(1), 55–76.

doi:10.1353/esj.2001.0005

Rybaczyk, P. (2005). Expert Network Time Protocol. New York, New York, USA: Apress.

Savoia, A. (2001). Web Page Response Time 101. Software Testing and Quality Engineering Magazine, (August), 48–53.

Sloan, D., Gregor, P., Rowan, M., & Booth, P. (2000). Accessible accessibility. Proceedings on the 2000 Conference on Universal Usability - CUU ’00, 96–101.

doi:10.1145/355460.355480

Tanenbaum, A. S. (2003). Computer networks (p. 891). Prentice Hall PTR. Retrieved from http://books.google.com/books?id=DYQoAQAAMAAJ&pgis=1

Tolosa, G., Bordignon, F., Baeza Yates, R., & Castillo, C. (2007). Characterization of the Argentinian Web. Cybermetrics: International Journal of Scientometrics,

Informetrics and Bibliometrics, 11(1). Retrieved from http://dialnet.unirioja.es/servlet/articulo?codigo=2390583&info=resumen

Yoo, B., & Donthu, N. (2001). Developing a Scale to Measure the Perceived Quality of An Internet Shopping Site ( SITEQUAL ). Quarterly Journal of Electronic

Commerce, 2(1), 31–47.