90
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE EDUCAÇÃO SÃO JOSÉ CURSO DE CIENCIA DA COMPUTAÇÃO TRABALHO DE CONCLUSÃO DE CURSO ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO WAN DA REDE REALCOLOR Fernando Schutz SÃO JOSÉ, DEZEMBRO DE 2005.

UNIVERSIDADE DO VALE DO ITAJAÍsiaibib01.univali.br/pdf/Fernando-Schutz.pdf · analisadas e associadas aos fundamentos da gerência de desempenho. Para tanto foram estudados tópicos

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE EDUCAÇÃO SÃO JOSÉ

CURSO DE CIENCIA DA COMPUTAÇÃO

TRABALHO DE CONCLUSÃO DE CURSO

ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO WAN DA REDE REALCOLOR

Fernando Schutz

SÃO JOSÉ, DEZEMBRO DE 2005.

1

FERNANDO SCHUTZ

ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO WAN DA REDE REALCOLOR

Trabalho de Conclusão de Curso apresentado à banca examinadora, do Curso de Ciência da Computação na Universidade do Vale do Itajaí, Campus São José, como requisito parcial para obtenção do título de Bacharel em Ciência da Computação.

Orientador: Prof. Rivalino Matias Junior.

São José, dezembro de 2005.

2

FERNANDO SCHUTZ

ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO WAN DA REDE REALCOLOR

Este Trabalho de Conclusão de Curso foi julgado adequado como requisito parcial para a

obtenção do título de Bacharel em Ciência da Computação, tendo sido aprovado pelo Curso

de Ciência da Computação, Centro de Educação São José da Universidade do Vale do Itajaí

(SC).

São José, 16 de Dezembro de 2005.

------------------------------------------ ----------------------------------------------------

Prof. Esp. Alecir Pedro da Cunha Prof. Fernanda de Souza Cunha Responsável pela Coord. do TCC Coordenadora do Curso

Apresentada à Banca Examinadora formada pelos professores:

---------------------------------------------------------------------------

Orientador Prof. Rivalino Matias Júnior

---------------------------------------------------------------------------

Prof. Ricardo Monteiro, membro da banca examinadora

---------------------------------------------------------------------------

Prof. Marcelo Sobral, membro da banca examinadora

3

EQUIPE TÉCNICA

Nome do aluno

Fernando Schutz

Área de Concentração

Redes de Computadores

Coordenador de Estágio

Professor Alecir Pedro da Cunha

Orientador de Conteúdo

Professor Rivalino Matias Júnior

4

DEDICATÓRIA

A Orli Antonio Schutz e Nadir Maria Schutz e

Carla dos Santos Schutz.

5

AGRADECIMENTOS

Aos meus pais (Orli Antônio Schutz e Nadir Maria Schutz) por tudo que consegui em minha

vida.

A minha esposa (Carla dos Santos Schutz) pela compreensão e companheirismo.

A todos os meus familiares, em especial aos meus irmãos por acreditarem em mim.

Ao Professor e orientador (Rivalino Matias Junior) pela experiência passada durante todo esse

percurso.

Ao meu amigo e administrador de rede da Realcolor Fabio pela grande ajuda proporcionada

do inicio à conclusão do trabalho.

A todos aqueles que ajudaram de alguma maneira na execução deste trabalho, muito obrigado.

6

RESUMO

A cada dia, as redes de dados vêem se tornando um recurso caro e importante para todos os

segmentos. Gerenciar esses recursos tornou-se algo essencial e lucrativo para muitas

empresas. O objetivo desse trabalho que era a análise e caracterização do tráfego WAN da

empresa Realcolor surgiu das necessidades dessa empresa. Essas necessidades foram

analisadas e associadas aos fundamentos da gerência de desempenho. Para tanto foram

estudados tópicos de gerência de rede e desempenho, arquitetura de rede de computadores,

ferramentas de análise de dados e estatística. Após os estudos teóricos deu-se inicio a

configuração da ferramenta de captura escolhida (NTOP). Os dados gerados pelo NTOP em

páginas HTML foram compilados para sua utilização em planilhas eletrônicas, onde se

desenvolveu a análise dos dados de tráfego. Um dos resultados mostrados foi à análise

descritiva dos dados, com gráficos de valores de pico, médias, protocolos de utilização e

outros. Utilizou-se a estatística para a análise de correlação e regressão entre os hosts, e

também para a análise dos modelos de previsão de cargas futuras. O modelo encontrado de

maior precisão foi o Linear. Dentro do escopo estudado conclui-se que esse modelo pode ser

usado pelos administradores para previsões de cargas futuras.

7

ABSTRACT

Each and every day, the data net are becoming an expensive and important resource for all the

segments. Managing these resources has become something essential and profitable for a lot

of companies. The objective of this work which is the analisys and characterization of the

WAN traffic of Realcolor company emerged from the company’s needs. These needs were

analysed and associated to the knowledges of performance management. For that, net and

performance management, computer net architecture and statistics and data analysis tools

were studied. After theoretical studies the configuration of the chosen capture tool (NTOP)

started. The data generated for the NTOP in pages HTML had been compiled for its use in

electronic spread sheets, where if it developed the analysis of the traffic data. One of the

results shown was the descriptive analysis of the data, with graphs of peak values, averages,

protocols of use and others. Statistics was used to analyse the correlatoin and regression

between hosts, and also to analyse the the models of future load forecasts. The model which

had the most precision was Liner. Inside of the studied target one concludes that this model

can be used by the administrators for future loads forecasts.

8

SUMÁRIO

LISTA DE FIGURAS.............................................................................................................11

LISTA DE TABELAS............................................................................................................12

LISTA DE GRÁFICOS .........................................................................................................13

1 INTRODUÇÃO .................................................................................................................14

1.1 CONTEXTUALIZAÇÃO ........................................................................................14

1.2 PROBLEMA ............................................................................................................15

1.3 OBJETIVOS.............................................................................................................15

1.3.1 Objetivo geral ...................................................................................................15

1.3.2 Objetivos específicos ........................................................................................15

1.4 ESCOPO E DELIMITAÇÕES ..........................................................................................15

1.5 RESULTADOS ESPERADOS ................................................................................17

1.6 JUSTIFICATIVA...........................................................................................................17

1.7 ASPECTOS METODOLÓGICOS...........................................................................18

1.7.1 Caracterização da pesquisa segundo o objetivo ..............................................18

1.7.2 Caracterização da pesquisa segundo os procedimentos de coleta ..................18

1.7.3 Caracterização da pesquisa segundo as fontes de informação........................19

2 GERÊNCIA DE DESEMPENHO EM REDES DE COMPUTADORES.................20

2.1 INTRODUÇÃO A GERÊNCIA DE REDES ........................................................................20

2.1.1 Padrões de gerenciamento (OSI e TCP/IP) .....................................................21

2.1.2 Protocolos de gerenciamento ...........................................................................23

2.1.3 Áreas funcionais ...............................................................................................26

2.2 GERENCIAMENTO DE DESEMPENHO...........................................................................27

2.2.1 Definições de desempenho da rede ..................................................................28

2.2.2 Monitoramento de desempenho........................................................................29

9

2.2.3 Aplicação do gerenciamento de desempenho...................................................29

3 ANÁLISE DE TRÁFEGO EM REDES DE COMPUTADORES .............................31

3.1 INTRODUÇÃO........................................................................................................31

3.2 FERRAMENTAS.....................................................................................................31

3.2.1 Analisadores de protocolo................................................................................31

3.2.2 Produtos para monitoramento de rede.............................................................32

3.2.3 Ferramentas open source / free software ..........................................................35

4 ESTATÍSTICA ...............................................................................................................41

4.1 INTRODUÇÃO........................................................................................................41

4.2 CORRELAÇÃO E REGRESSÃO............................................................................41

4.2.1 Definição de correlação ...................................................................................41

4.2.2 Coeficiente de correlação linear ......................................................................41

4.2.3 Tipos de correlação..........................................................................................42

4.2.4 Interpretação e cálculo prático do coeficiente de correlação linear...............44

4.2.5 Análise de regressão.........................................................................................46

4.3 SÉRIES TEMPORAIS .............................................................................................48

4.3.1 Definição ..........................................................................................................48

4.3.2 Classificação dos movimentos das séries temporais........................................49

4.3.3 Análise das séries temporais ............................................................................49

4.3.4 Estimação da tendência....................................................................................50

4.3.5 Previsão das séries temporais ..........................................................................51

4.3.6 Métodos simples de previsão de séries temporais............................................51

4.3.7 Índices de medidas de precisão........................................................................57

5 COLETA, ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO ..............................59

5.1 AMBIENTE DE EXECUÇÃO: EMPRESA REALCOLOR................................................59

5.1.1 Negócio.............................................................................................................59

5.1.2 Estrutura da rede..............................................................................................59

5.1.3 Necessidades de gerenciamento .......................................................................60

5.2 CONFIGURAÇÃO PARA COLETA E MONITORAMENTO ..................................................60

5.2.1 Ponto de coleta .................................................................................................60

5.2.2 Ferramentas para captura ...............................................................................61

5.2.3 Bridge ...............................................................................................................62

10

5.3 MONITORAMENTO E COLETA DOS DADOS ..................................................................64

5.4 ANÁLISE DOS DADOS .................................................................................................65

5.4.1 Tráfego total WAN............................................................................................66

5.4.2 Protocolos utilizados ........................................................................................71

5.4.3 Taxas de transferências ....................................................................................73

5.4.4 Análise da correlação e regressão no tráfego .................................................76

5.4.5 Modelo de previsão ..........................................................................................79

6 CONCLUSÃO.................................................................................................................85

7 REFERÊNCIAS .............................................................................................................87

11

LISTA DE FIGURAS

Figura 1: Estrutura da rede Realcolor.......................................................................................16

Figura 2: Estrutura do Modelo OSI. .........................................................................................21

Figura 3: Modelo de referência TCP/IP. ..................................................................................23

Figura 4: Modelo de Gerenciamento. .......................................................................................25

Figura 5: Áreas Funcionais de Gerenciamento.........................................................................27

Figura 6: Ambiente da ferramenta Netview. ............................................................................33

Figura 7: Telas Ethereal............................................................................................................37

Figura 8: Throughput da rede. ..................................................................................................40

Figura 9: Tela do Analisador de Protocolos NTOP..................................................................40

Figura 10: Tendências de séries temporais...............................................................................50

Figura 11: Estrutura da rede Realcolor.....................................................................................60

Figura 12: Estrutura da rede Realcolor.....................................................................................61

Figura 13: Tela NTOP (protocolos TCP/UDP). .......................................................................63

12

LISTA DE TABELAS Tabela 1: Coeficiente de Correlação Linear. ............................................................................45

Tabela 2: Cordenadas X/Y .......................................................................................................45

Tabela 3: Coeficiente de Correlação Linear. ............................................................................45

Tabela 4: Localização das lojas ................................................................................................70

Tabela 5: Correlação linear entre lojas e matriz .......................................................................76

Tabela 6: Correlação linear entre lojas e matriz. ......................................................................77

Tabela 7: Correlação linear entre lojas e matriz. ......................................................................77

Tabela 8: Série de dados capturada. .........................................................................................80

Tabela 9: Cálculo dos modelos de previsões............................................................................80

Tabela 10: Acuracidade (dados originais). ...............................................................................81

Tabela 11: Acuracidade aplicando Log sobre os dados. ..........................................................82

Tabela 12: Acuracidade aplicando LN sobre os dados.............................................................82

Tabela 13: Acuracidade aplicando raiz quadrada sobre os dados. ...........................................83

Tabela 14: Acuracidade aplicando 1/X sobre os dados. ...........................................................83

13

LISTA DE GRÁFICOS Gráfico 1: Correlação Linear Positiva. .....................................................................................42

Gráfico 2: Correlação Linear Positiva Perfeita. .......................................................................43

Gráfico 3: Correlação Negativa................................................................................................43

Gráfico 4: Correlação Perfeita Negativa. .................................................................................44

Gráfico 5: Correlação Nula.......................................................................................................44

Gráfico 6: Reta de Regressão. ..................................................................................................46

Gráfico 7: Reta de Regressão Linear Simples. .........................................................................47

Gráfico 8: Gráfico da Função Potência. ...................................................................................48

Gráfico 9: Tráfego Total diário – 15/09/2005 à 08/11/2005. ...................................................66

Gráfico 10: Tráfego total diário (sem sábados, domingos e feriados)......................................67

Gráfico 11: Tráfego total diário -15/09/2005 à 08/11/2005 (sem os valores extremos). .........68

Gráfico 12: Tráfego total diário (enviados e recebidos)...........................................................69

Gráfico 13: Quantidade de dias de maior tráfego.....................................................................70

Gráfico 14: Tráfego semanal. ...................................................................................................70

Gráfico 15: Protocolos utilizados. ............................................................................................71

Gráfico 16: Protocolos de aplicação.........................................................................................72

Gráfico 17: Protocolos de aplicação.........................................................................................73

Gráfico 18: Valores de pico por lojas. ......................................................................................74

Gráfico 19: Horários de maior pico..........................................................................................75

Gráfico 20: Banda consumida. .................................................................................................76

Gráfico 21: Tráfego loja 20. .....................................................................................................78

Gráfico 22: Previsão (pontos 27, 28, 29, 30 e 31). ...................................................................84

14

1 INTRODUÇÃO

1.1 CONTEXTUALIZAÇÃO

Desde a década de 70, o crescimento da tecnologia vem nos trazendo grandes mudanças. Na

área da computação, essas mudanças se resumem na facilidade que temos hoje em obter

informações e realizar processos. Para que isso tenha ocorrido, foi necessário deixar de lado a

idéia de computadores isolados e passar a pensar em computadores interconectados

(TANENBAUM, 1997, p.2). As vantagens que conseguimos desde a criação das redes de

computadores são muitas e a Internet é um exemplo disso.

Tendo em vista a importância das redes no funcionamento dos sistemas computacionais,

tornou-se extremamente essencial seu gerenciamento. Segundo a ISO (International

Organization For Standardization), “o gerenciamento de redes provê mecanismos para a

monitoração, controle e coordenação de recursos em um ambiente OSI (Open System

Interconnection) e define padrões de protocolos OSI para troca de informações entre estes

recursos” (ISO10040). Esse conceito se divide em 5 áreas distintas, são elas: gerenciamento

de falhas, configuração, contabilização, desempenho e segurança.

O enfoque desse trabalho será a área da “gerência de desempenho”, que tem como objetivo

garantir a qualidade de serviço da rede, com os menores recursos possíveis (CARVALHO,

1993, p.15). Dentro da gerência de desempenho existem aplicações específicas tais como a

análise e caracterização de tráfego. “A caracterização do fluxo de tráfego envolve a

identificação das origens e dos destinos do tráfego de rede e a análise da direção e simetria

dos dados que trafegam entre origens e destinos”. (OPPENHEIMER, 1999, p.79).

Esse trabalho tem por objetivo a caracterização do tráfego de uma rede do tipo WAN (Rede

de longa distância), a qual faz parte da infra-estrutura de comunicação de dados da empresa

Realcolor. O estudo foi realizado a partir dos dados monitorados durante um período de 5

meses. Foram utilizadas ferramentas específicas tanto para a captura de dados de rede quanto

15

para sua análise. Dentre as áreas de conhecimento envolvidas, destacam-se arquitetura de

redes de computadores, protocolos de comunicação e estatística.

1.2 PROBLEMA

Descrever o comportamento do tráfego da rede WAN da empresa Realcolor, através da

análise do desempenho dos enlaces, da utilização dos protocolos e de estudos estatísticos.

1.3 OBJETIVOS

1.3.1 Objetivo geral

Análise e caracterização do tráfego WAN da rede Realcolor.

1.3.2 Objetivos específicos

• Apresentar uma análise descritiva do tráfego diário da rede Realcolor;

• Validar a eficácia do atual sistema de controle de banda (QoS – Qualidade de Serviço) da

rede;

• Selecionar um modelo para previsão de cargas futuras para esta rede.

1.4 ESCOPO E DELIMITAÇÕES

Como mencionado anteriormente, o estudo será realizado na empresa Realcolor, tendo como

objetivo principal à caracterização do tráfego diário da rede WAN daquela empresa. A

estrutura da WAN analisada é composta como segue: aproximadamente 20 lojas, distribuídas

pelo estado de Santa Catarina, conectadas ao CPD (Centro de Processamento de Dados)

localizado no centro da cidade de Florianópolis (local onde será realizado este trabalho). As

ligações entre filiais e CPD são realizadas por uma rede InterLan da BrasilTelecom, baseada

em tecnologias xDSL1 e Frame Relay2 utilizando canais de 64 Kbps com banda mínima de 3

kbps, como mostra a Figura 1.

1 Termo genérico utilizado para representar todas as tecnologias DSL (Digital Subscriber Line).

2 Frame Relay é um protocolo WAN de alta-performance que opera nas camadas física e enlace do modelo de

referência OSI.

16

Figura 1: Estrutura da rede Realcolor.

Fonte: CPD – Realcolor

Antes de chegar aos servidores de aplicação, os dados passam por um roteador (concentrador)

e em seguida por um controlador de banda. Esta rede oferece suporte tanto para o ERP

(Enterprise Resource Planning) sistema de gestão integrada da empresa, baseado em SGBD

MS SQL3, como também para troca de mensagens instantâneas, eMails e acesso WEB dos

diversos pontos da rede.

O estudo será realizado sobre os dados obtidos durante o período de aproximadamente três

meses. Com eles serão realizados estudos descritivos e avaliados modelos matemáticos para

previsão de cargas futuras, a fim de se obter um modelo adequado para representar o

comportamento desta rede. O período da coleta de dados mencionado acima foi estimado em

relação ao tempo total em que se cumprirá o projeto (acredita-se que um período maior de

coleta traria melhores resultados estatísticos). Como um dos principais resultados do estudo,

além da caracterização do tráfego, está a validação da efetividade do controlador de banda.

Esta validação é de grande importância para os administradores desta rede.

3 Sigla do Sistema de Gerenciamento de Banco de Dados Microsoft-SQL

17

A análise do tráfego ocorreu entre as lojas (filias) e o CPD (Centro de processamento de

dados), não fazendo parte do trabalho analisar a rede interna do CPD. Foram usadas

ferramentas open source4 para a captura dos dados. A análise e os estudos terão seus

propósitos únicos e exclusivos para a estrutura de rede da empresa Realcolor.

1.5 RESULTADOS ESPERADOS

• Compreender quantitativamente o comportamento da rede sob estudo;

• Selecionar um modelo de previsão de cargas futuras que possua acuracidade superior a

60%5;

• Validar a eficácia da atual política de controle de banda (QoS) da rede.

1.6 JUSTIFICATIVA

Devido ao grande interesse de se especializar na área de redes, necessariamente em “gerência

de redes”, o autor desse trabalho buscou na elaboração de seu TCC uma oportunidade de

aquisição de conhecimento nesta área. Sabendo da atual necessidade em que a empresa

Realcolor tem em avaliar sua rede WAN, foi oferecida a sugestão de analisar o tráfego de rede

nesta corporação. Após algumas reuniões com o responsável pelo CPD, juntamente com o

orientador deste trabalho, verificou-se a necessidade da empresa em possuir previsões sobre

os dados que trafegam entre filias e CPD.

Além de determinar previsões futuras sobre a rede WAN da empresa Realcolor, esse trabalho

irá oferecer uma compreensão quantitativa sobre seu comportamento, ajudando assim na

prevenção de problemas relacionados ao desempenho da rede. Outro aspecto importante na

elaboração desse trabalho é o conhecimento adquirido. Qualquer empresa que utilize esse tipo

de estudo em sua rede terá informações importantes para sua contínua prevenção e

manutenção dos sistemas. No outro lado o autor também somará experiências em algumas

áreas como: arquitetura de redes de computadores, protocolos de comunicação e estatística.

4 Código aberto, ou seja, tipo de software licenciado por uma licença aprovada pela OSI (Open Source Initiative)

e que seja compatível com as definições da OSD (Open Source Definition).

5 Este valor é uma estimativa referente ao trabalho de Rodrigo Brasil Gonçalves (GONÇALVES, 2005)

18

1.7 ASPECTOS METODOLÓGICOS

Após identificar o objetivo geral de uma pesquisa científica é de suma importância mostrar a

metodologia (caminho) que será utilizada para alcançar esse objetivo.

Para caracterizar uma pesquisa, devemos analisa-la sobre três critérios básicos: os objetivos,

os procedimentos de coleta e as fontes utilizadas na coleta (SANTOS, 2000).

1.7.1 Caracterização da pesquisa segundo o objetivo

O objetivo de uma pesquisa é sempre chegar a ponta, ou seja, dar respostas a uma

necessidade. Essas respostas podem ser caracterizadas como exploratórias, descritivas ou

explicativas (SANTOS, 2000).

Tendo em vista que a caracterização do objetivo desse trabalho é descrever sobre um

determinado fato, fenômeno ou problema, identifica-se essa pesquisa como sendo um estudo

da forma descritiva.

Pesquisa descritiva é um levantamento das características conhecidas, ou seja, descreve fatos

ou fenômenos (SANTOS, 2000).

“É certamente o tipo de estudo mais adequado quando o pesquisador necessita obter melhor

entendimento a respeito do comportamento de vários fatores e elementos que influem sobre

determinados fenômenos”. (OLIVEIRA, 1999, p.115).

1.7.2 Caracterização da pesquisa segundo os procedimentos de coleta

Os procedimentos de coleta são os métodos práticos utilizados para coletar informações, que

serão necessárias para o raciocínio em torno de um fato, fenômeno ou problema. As formas

mais comuns de se coletarem informações são: experimento, levantamento, estudo de caso,

pesquisa bibliográfica e pesquisa documental (SANTOS, 2000).

O procedimento de coleta desse trabalho define-se da seguinte maneira: no inicio da análise

os dados serão quantificados e colocados em uma planilha eletrônica. No decorrer do projeto,

serão aplicados modelos estatísticos aos dados obtidos. O modelo que apresentar menor

margem de erro será utilizado nas previsões de cargas futuras. Diante dessas características,

identifica-se na pesquisa o procedimento de coleta do tipo levantamento.

Levantamento é um procedimento de coleta utilizado especialmente em pesquisas

exploratórias e descritivas. É geralmente desenvolvida em três etapas: seleciona uma amostra

significativa; os dados coletados são então tabulados e analisados quantitativamente com o

19

auxilio de cálculos estatísticos; os resultados conseguidos com essa(s) amostra(s) são, então,

aplicados, com margem de erro estatisticamente previsto, ao universo gerador da amostra

(SANTOS, 2000).

1.7.3 Caracterização da pesquisa segundo as fontes de informação

As fontes de informação são os lugares de onde se extraem os dados de que se precisa. Elas

podem ser três: o campo, o laboratório ou a bibliografia. Campo é o lugar natural onde

acontecem os fatos e fenômenos. Normalmente se faz por observação direta, levantamento ou

estudo de caso (SANTOS, 2000).

Tendo em vista o lugar de onde será retirado o dado para a realização desse trabalho,

caracteriza-se a fonte de informação como sendo uma pesquisa de campo.

O instrumento de coleta de dados desse trabalho é da forma passiva, ou seja, não influencia no

comportamento da ambiente a ser analisado.

20

2 GERÊNCIA DE DESEMPENHO EM REDES DE

COMPUTADORES

2.1 INTRODUÇÃO A GERÊNCIA DE REDES

Com o crescimento das redes e de sua importância dentro das organizações, tornou-se

extremamente necessário seu gerenciamento. Uma rede mal estruturada e administrada pode

ocasionar enormes custos e péssimos resultados dos processos que dela dependem

(CARVALHO, 1993, p.14).

Para diminuir a complexidade do gerenciamento e do projeto de redes, dividiu-se a arquitetura

de em camadas ou níveis. O objetivo de cada camada é oferecer determinados serviços para as

camadas superiores, ocultando detalhes da implementação desses recursos. Entre as camadas

adjacentes existe a interface da camada. Ela é responsável por definir as operações e os

serviços que cada camada inferior tem a oferecer para a sua camada superior. A identificação,

conteúdo e a função de cada camada diferem de uma arquitetura de rede para outra

(TANENBAUM, 1997, p.19).

Os dados transmitidos de um nível específico de uma estação não são enviados diretamente ao

mesmo nível em outra estação. Na verdade, eles descem através dos níveis até chegarem ao

nível 1(nível físico) e só então trafegam até a estação correspondente. Do outro lado vão do

nível 1 ao nível correspondente da estação transmissora. As regras e as conversões entre as

estações envolvidas são chamadas de protocolo (SOARES, 1995, p.121).

Um conjunto de camadas de protocolos é chamado de arquitetura de rede. A especificação de

uma arquitetura deve conter informações suficientes para permitir que um desenvolvedor

implemente ou construa o hardware e software necessário para cada camada de modo que ela

transmita corretamente os dados. Os detalhes da implementação das interfaces entre as

camadas não correspondem à arquitetura. O importante é que a estrutura implementada possa

utilizar os protocolos a ela concebida (TANENBAUM, 1997, p.20).

21

A seguir serão apresentados dois importantes padrões de arquitetura de rede: o modelo de

referência OSI e o modelo TCP/IP.

2.1.1 Padrões de gerenciamento (OSI e TCP/IP)

O modelo de referência OSI foi baseado em uma proposta desenvolvida pela ISO, cuja idéia

era dar o primeiro passo na padronização internacional dos protocolos de rede. Esse modelo

possui alguns princípios aplicados que levaram a sete camadas de atuação. São eles:

Uma camada deve ser criada onde houver necessidade de outro grau de abstração;

Cada camada deve executar uma função bem definida;

A função de cada camada deve ser escolhida tendo em vista a definição de

protocolos padronizados internacionalmente;

Os limites da camada devem ser escolhidos para reduzir o fluxo de informações

transportadas entre as interfaces.

O número de camadas deve ser suficientemente grande para que funções distintas não precisem ser

desnecessariamente colocadas na mesma camada e suficientemente pequeno para que a arquitetura não se torne

difícil de controlar (TANENBAUM, 1997, p.32). A seguir será descrita às setes camada do modelo

OSI, como mostra a Figura 2.

Figura 2: Estrutura do Modelo OSI. Fonte: (TANENBAUM, 1999, p.33).

22

Camada Física – é o canal de comunicação por onde passa os bits puros.

Camada de Enlace de Dados – transforma os bits que chegam na camada física em quadro

de dados. Além disso, atua na detecção de erros e no controle de fluxo.

Camada de Rede – controla a operação da sub-rede. Atua no roteamento dos pacotes entre a

origem e o destino.

Camada de Transporte – sua função é dividir os dados da camada de seção, quando

necessário, em segmentos menores, garantindo que essas unidades cheguem corretamente à

outra extremidade.

Camada de Sessão – atua nas conexões fim a fim, gerenciando o controle de tráfego e a

sincronização das mensagens.

Camada de Apresentação – sua principal função é gerenciar as estruturas abstratas vindas da

camada de aplicação e converter-las na representação padrão da rede e vice versa.

Camada de Aplicação – Contém uma série de protocolos necessários para vários tipos de

aplicação como, por exemplo, transferência de arquivos.(TANENBAUM, 1997, p.33).

O modelo de referência TCP/IP foi definido em 1974 com o objetivo de interligar redes com

tecnologias distintas. Sua arquitetura define quatro camadas e seus respectivos protocolos,

como mostra a Figura 3, sendo essa a primeira diferença em relação ao modelo OSI

(SOARES, 1995, p.146).

Apesar disso, os modelos tem muito em comum:

• os dois baseiam-se no conceito de uma pilha de protocolos independentes;

• suas camadas possuem praticamente as mesmas funções;

• acima da camada de transporte estão os usuários orientados à aplicação.

Suas principais diferenças são:

• o modelo TCP/IP não distingue claramente os três conceitos fundamentais do modelo

OSI (serviços, interfaces, protocolos);

• o TCP/IP não trata as camadas de enlace e físico e geralmente as camadas de apresentação

e sessão são implementadas pelas aplicações;

• o TCP/IP aparenta ser menos estruturado que o modelo OSI, porém mais prático e simples

de se utilizar (TANENBAUM, 1997, p.39).

23

Figura 3: Modelo de referência TCP/IP. Fonte: Adaptado (TANENBAUM, 1999).

2.1.2 Protocolos de gerenciamento

Antes de iniciar esse capítulo, vale salientar sobre a ausência do uso de Protocolos de

Gerenciamento nesse trabalho. Por motivos de tempo e complexidade não será utilizado esse

tipo de gerenciamento, e sim, ferramentas específicas para a captura e análise do tráfego.

Para que se possa gerenciar uma arquitetura de rede, é de suma importância definir-se um

modelo de gerenciamento de redes. Para isso dois modelos se destacam: o modelo de

gerenciamento OSI, que utiliza o CMIP (Common Management Information Protocol) e o

modelo INTERNET, que utiliza o SNMP (Simple Network Management Protocol).

Basicamente, os dois protocolos possuem os mesmos objetivos: transferir informações nos

sistemas de gerenciamento de rede, dando condições ao gerente da rede atuar sobre esses

recursos gerenciados, recuperando informações e identificando problemas (CARVALHO,

1993, p.13).

Os processos do CMIP e do SNMP atuam como agentes ou gerente. Os agentes coletam junto

aos objetos gerenciados as informações relevantes para o gerenciamento. O gerente processa

as informações recolhidas, a fim de detectar problemas no funcionamento da rede. Um objeto

gerenciado representa um recurso, que pode ser um sistema hospedeiro, como um servidor, ou

um equipamento de transmissão, como um modem. A seguir será mostrada alguma

funcionalidade do SNMP e do CMIP:

24

O protocolo SNMP é baseado no paradigma conhecido como “busca-armazenamento” (fetch-store), isto é, todas as operações previstas para este protocolo são derivadas de operações básicas de busca e armazenamento. Estas operações básicas incluem:

Get-request: leitura do valor de uma variável;

Get-next-request: leitura do valor da próxima variável;

Get-response: resposta à operação de leitura (get-request on get-next-request);

Set-request: gravação do valor de uma variável;

Trap: notificação da ocorrência de um evento específico.

No caso da operação de trap, deve-se observar que os eventos que, normalmente, geram notificação são predefinidos e correspondem a erros, falhas ou operações anormais do sistema.

As mensagens deste protocolo não possuem campos fixos e são especificadas na notação ASN.1 (Abstract Syntax Ntotation. 1). Elas consistem em três partes principais: versão de protocolo, identificador da comunidade SNMP e área de dados. Para cada uma das operações mencionadas anteriormente, é definido um tipo específico de mensagem de protocolo, isto é um tipo de PDU (Protocol Data Unit). Desta maneira, têm-se: GetrequestPDU, GetnextrequestPDU, GetResponsePDU, SetResponsePDU e TrapPDU (CARVALHO, 1993, p.319-320).

Um framework de gerenciamento dita as regras de comunicação entre gerente e agente. Essas

regras são constituídas de acordo com a filosofia SNMP que defende o seguinte pensamento:

“deve-se haver o mínimo de impacto sobre os nós gerenciados em um gerenciamento de

rede”.

Como dito anteriormente os sistemas baseados em CMIP atuam também no papel de gerente e

agente na troca de informações sobre recursos gerenciados. As informações ficam

armazenadas na MIB (Management Information Base), e são transportadas por um protocolo

de aplicação CMIP (CARVALHO, 1993).

O CMIP comporta vários tipos de PDUs que são mapeadas em operações equivalentes sobre objetos gerenciados, os quais representam os recursos gerenciados. Estas PDUs são, basicamente, as seguintes:

M-GET: leitura dos atributos de objetos gerenciados.

M-SET: modificação dos atributos de objetos gerenciados;

M-ACTION: execução de uma ação qualquer sobre um objeto gerenciado;

M-CREATE: criação de uma instância de um objeto gerenciado;

M-DELETE: remoção de uma instância de um objeto gerenciado;

25

MEVENT-REPORT: emissão de notificação sobre ocorrência de um evento associado a um objeto gerenciado.

Em contraste com o SNMP, os frameworks que utilizam CMIP tendem ao estilo orientado a objeto em suas aplicações modulares. Nesta metodologia, as operações associadas às estruturas de dados são encapsuladas nas próprias estruturas de dados. Com este modelo, o agente contém um servidor de objetos é executado em uma maquina diferente do resto do código de gerenciamento, então esta efetivamente caracterizada a solução de gerenciamento distribuído de rede. O preço que se paga é adicionar complexidade ao agente (CARVALHO, 1993, p.321-322).

A Figura 4 mostra um exemplo dos processos do gerenciador SNMP. O gerente envia

comandos para o agente com a finalidade de gerenciar uma determinada entidade. Além das

áreas funcionais a Figura 4 também mostra a Base de Informação de Gerenciamento, a MIB .

Nela estão armazenados os objetos gerenciados, seus atributos, as operações executadas e as

notificações fornecidas (SOARES, 1995, p.419).

Figura 4: Modelo de Gerenciamento. Fonte: SNMP (Soares, 1995, p.420).

2.1.2.1 RMON (Remote Monitoring)

Com o objetivo de solucionar deficiências nas MIBs padrão foi criado na década de 90 pela

IETF (Internet Engineering Task Force) a MIB RMON. Devido a falta de capacidade das

MIBs convencionais, de fornecer estatísticas sobre parâmetros da camada física, foi

desenvolvido o RMON para fornecer estatísticas de tráfego Ethernet e diagnósticos de falhas.

O RMON possui agentes que obtêm estatísticas sobre os erros de CRC, colisões Ethernet,

erros de Token Ring, distribuição de tamanhos de pacotes, o número de pacotes de entrada e

saída e a taxa de pacotes de difusão, dentre outras. Dentre os diversos grupos que compõem a

26

RMON, o grupo de alarme permite que um administrador de redes defina entradas para

parâmetros de rede e configure agentes para entregar automaticamente alertas aos sistemas

gerentes (OPPENHEIMER, 1999, p. 252).

2.1.3 Áreas funcionais

O gerenciamento de redes abrange cinco principais áreas, são elas: falhas, configuração,

contabilização, desempenho e segurança.

• Gerenciamento de falhas: é uma área bem desenvolvida, que se apóia nas várias

ferramentas disponíveis. Ela é responsável pela manutenção e monitoração do estado de

cada um dos objetos gerenciados assim como as ações necessárias para seus

restabelecimentos. Ela tende a manter a qualidade do serviço acertada com o usuário.

• Gerenciamento de configuração: é responsável pela manutenção e monitoração da

estrutura física e lógica da rede.

• Gerenciamento de contabilização: preocupa-se com a existência e a quantidades dos

recursos utilizados. Ela é responsável por registrar corretamente esses recursos.

• Gerenciamento de desempenho: tem como objetivo garantir a qualidade de serviço da

rede, com os menores recursos possíveis.

• Gerenciamento de segurança: tem a responsabilidade de monitorar e controlar

mecanismos de segurança. Esses mecanismos podem ser desde um controle de acesso aos

sistemas computacionais até o controle dos dados sigilosos que trafegam na rede

(CARVALHO, 1993, p.14).

O gerenciamento OSI procura resolver todos os problemas relativos as áreas funcionais

relatadas. Para isso ele usa os serviços oferecidos pela camada de aplicação do modelo OSI,

como mostra a Figura 5.

27

Figura 5: Áreas Funcionais de Gerenciamento. Fonte: (CARVALHO, 1993, p.37).

2.2 GERENCIAMENTO DE DESEMPENHO

Segundo a ISO, o gerenciamento de desempenho permite medir o comportamento e a

eficiência da rede. Sua administração inclui alguns processos como: examinar os aplicativos

de rede e o comportamento de protocolos, analisar a acessibilidade, medir o tempo de resposta

e registrar as mudanças de rotas na rede. Essa administração facilita a otimização da rede, o

atendimento a acordos sobre níveis de serviços e o planejamento para expansão. O

monitoramento dos dados envolve a coleta e a exibição de alguns ou de todos os dados da

rede (OPPENHEIMER, 1999, p.244).

O uso de analisadores de protocolos ou ferramentas de SNMP é um processo comum no

gerenciamento de desempenho para coletar as cargas de tráfego entre origens e destinos.

Contudo, como comentado anteriormente, não será usado nenhum protocolo de

gerenciamento como o SNMP e sim uma ferramenta para captura de dados (analisador de

protocolos) que será comentada no Capítulo 3.

28

2.2.1 Definições de desempenho da rede

Em um projeto de rede, a identificação dos critérios que irão definir o desempenho da rede è

de suma importância. Muitos são os projetos que não conseguem quantificar suas metas de

desempenho. Para esse caso geralmente são levados em conta à vazão dos dados e o tempo de

resposta. Por outro lado, existem projetos com requisitos de desempenho bem específicos que

podem ser definidos. Para esses podemos listar algumas definições usuais, são elas:

• Capacidade de transmissão (largura da banda): Capacidade de transporte de dados de

um circuito ou uma rede, normalmente medida em bits por segundo (bps).

• Utilização: A porcentagem da capacidade total disponível em uso.

• Utilização Ótima: A máxima utilização média antes de a rede ser considerada saturada.

• Vazão: A quantidade de dados isentos de erros transferidos com sucesso entre dois nós

por unidade de tempo, normalmente segundos.

• Carga oferecida: A soma de todos os dados que todos os nós de rede estão prontos para

enviar em um determinado momento.

• Precisão: A porção de tráfego útil transmitido corretamente, em relação ao tráfego total.

• Eficiência: Uma medida do esforço necessário para produzir uma certa quantidade de

vazão de dados

• Retardo (latência): Intervalo de tempo entre o momento em que uma estrutura está

pronta para ser transmitida a partir de um nó e no momento da entrega da estrutura em

outro lugar da rede6.

• Variação do retardo: A variação da quantidade de tempo médio de retardo7.

• Tempo de resposta: O intervalo de tempo entre a solicitação de algum serviço de rede e

uma resposta ao pedido.

Os dados monitorados podem ser medidos de extremo a extremo em uma inter-rede, ou em

links e dispositivos individuais. De extremo a extremo pode ser medido a disponibilidade, a

capacidade, a utilização, o retardo, a variação da demora, a vazão, a acessibilidade, o tempo

de resposta, os erros e o tráfego em rajadas. Em links ou em dispositivos como roteadores e

6 Esta variável não pode ser analisada somente com captura de dados.

7 Esta variável não pode ser analisada somente com captura de dados.

29

switches, podem ser medidas a vazão (pacotes por segundo), a utilização da memória e da

CPU, e ainda os erros (OPPENHEIMER, 1999, p.25).

2.2.2 Monitoramento de desempenho

a) Monitoramento na Banda (In band)

Com o monitoramento na banda, os dados de gerenciamento trafegam no mesmo caminho do

tráfego do usuário. Essa forma de monitoramento facilita a arquitetura de administração de

rede, porém, provoca alguns impactos negativos em um gerenciamento de rede. O tráfego do

gerenciamento passará a ser tráfego da rede gerenciada, ficando assim vulnerável aos

problemas da mesma. Além do aumento de tráfego qualquer problema na rede afetará no

gerenciamento (OPPENHEIMER, 1999, p.249).

b) Monitoramento fora da Banda (out of band)

Com o monitoramento fora da banda, os dados de gerenciamento trafegam por caminhos

diferentes aos dos usuários. Essa forma de gerenciamento eleva o custo e a complexidade da

arquitetura de gerencia. Porém, esse circuito separado resolve todos os problemas ocasionados

por um monitoramento na banda. Além disso, a gerencia de rede passa a ter dois caminhos

distintos para o gerenciamento (OPPENHEIMER, 1999, p.249).

2.2.3 Aplicação do gerenciamento de desempenho

A fim de ilustrar a utilização da gerência de desempenho, será apresentado a seguir um

resumo do artigo “Avaliação de Desempenho do Serviço LANE sobre ATM” produzido pela

RNP (Rede Nacional de Ensino e Pesquisa).

Este artigo apresenta uma avaliação de desempenho das redes locais virtuais

definidas na Rede Metropolitana de Alta Velocidade de Florianópolis - RMAV-

FLN. Esta rede interliga quatros instituições conveniadas através de comutadores

ATM. As subredes Ethernet são conectadas ao backbone através de comutadores

com uplink ATM. O roteamento IP (Internet Protocol) e os servidores LANE (Local

Area Network Emulation) são implementados em um roteador multi-protocolo.

Inicialmente é avaliado o tráfego nos comutadores ATM identificando os sistemas

finais com maior utilização. Nestes sistemas finais são avaliados os clientes das

redes virtuais com maior utilização. Depois uma avaliação dos servidores LANE

identificando os níveis de utilização das instâncias. O método aplicado permite

visualizar a utilização dos recursos de rede indicando ajustes quando necessário. Os

30

resultados mostram que desempenho do serviço LANE é normal para as condições

de utilização da rede, sem necessidade de reconfiguração.

a) Conclusão do Artigo

Este artigo apresentou os fundamentos para gerenciamento de desempenho no

ambiente LANE. Uma das contribuições deste trabalho é a seleção de um conjunto

de varáveis das MIBs padrões que podem ser utilizadas com qualquer software

genérico de gerência baseado em SNMP para implementação da gerência de

desempenho. Outra contribuição está na aplicação e avaliação do método proposto

em um ambiente real.

Através da monitoração observou-se que o ambiente estudado encontra-se em estado

normal.

As conexões que interligam os comutadores de núcleo estão com baixa utilização,

bem como a conexão com o roteador. O comportamento do tráfego é um em rajadas,

apresentando um desvio muito grande com relação a média. Para esta avaliação

foram considerados os valores máximos de vazão, sem os picos, na tentativa de

encontrar os pontos de saturação. Monitorando os sistemas finais (roteador,

comutador de borda e estações) foram identificadas as interfaces com maior

utilização, entre elas o roteador mss-rmav com 12%, o sb01-ufsc com 6,2% e o

pc100 (aplicações multimídia) com 60%. As taxas de utilização encontradas não

indicam a necessidade de reconfiguração nas interfaces físicas.

Nos sistemas finais foram identificados os clientes das elans com maior utilização.

Verificou-se que a elan48_ufsc tem maior utilização, seguida da elan49_udesc e

elan51_climerh. O maior tráfego da elan48 se dá ter fato dessa instancia ter um

maior número de sistemas finais.

De modo geral pode-se dizer que os servidores LANE apresentam um desempenho

normal, sem descartes no BUS e sem falhas nas requisições para o LES, atendendo

assim os requisitos básicos das instâncias configuradas. No servidor BUS também

foi observado um tráfego em rajadas, onde a instância elan48_ufsc teve maior

utilização. O servidor LES apresentou desempenho nas respostas das requisições

ARP, repassando somente 30% na instância de maior utilização.

Como perspectivas futuras pretende-se armazenar as variáveis descritas, de modo a

obter dados históricos que permitam fazer uma análise de tendência de

comportamento do tráfego. O perfil desta base permitirá a descoberta de valores

limites de utilização dos recursos sem degradação de seu desempenho (MELO;

SARI; SIQUEIRA, 2000).

31

3 ANÁLISE DE TRÁFEGO EM REDES DE

COMPUTADORES

3.1 INTRODUÇÃO

A análise de tráfego consiste na identificação entre as origens e os destinos do tráfego de rede,

assim como a análise da direção e simetria desse tráfego. Dependendo da aplicação, o fluxo

pode ser bidirecional ou unidirecional e ainda simétrico (as extremidades possuem taxas de

transmissões aproximadamente iguais) ou assimétricos (as extremidades possuem taxas de

transmissões diferentes). Para compreender melhor o fluxo8 da rede e necessário

identificarmos de inicio os usuários, os aplicativos e os locais de armazenamento de dados.

Essa compreensão inicial ajuda a entender melhor a estrutura, o funcionamento da rede, e o

local correto da captura do fluxo de tráfego que deverá ser feito por um analisador de

protocolos ou por um sistema de gerenciamento de rede (OPPENHEIMER, 1999, p.79).

Como mencionado anteriormente, este trabalho usará para a captura dos dados o analisador de

protocolos. Algumas ferramentas para análise serão descritas a seguir.

3.2 FERRAMENTAS

3.2.1 Analisadores de protocolo

Um analisador de protocolo é uma ferramenta que captura tráfego da rede, decodifica os

protocolos nos pacotes capturados e fornece estatísticas para caracterizar a carga, os erros e o

tempo de resposta, dentre outros. Os analisadores são capazes de monitorar os dados em

tempo real sem interferir no tráfego da rede. A captura pode ser feita em toda a rede, ou de

8 Fluxo pode ser definido como um tráfego unidirecional com um conjunto de identificação único de variáveis,

como: endereço IP do host de origem, endereço IP do host de destino, protocolo de transporte, porta de origem

(quando aplicável) e porta de destino (quando aplicável).

32

modo específico de acordo com parâmetros escolhidos, como por exemplo, endereços origem

e destino (OPPENHEIMER, 1997, p.72).

Analisadores de protocolos capturam as conversações entre dois ou mais sistemas, ou

dispositivos. Além de capturar o tráfego, ele também decodifica (interpreta), fornece

estatística e informações sobre as tendências do tráfego capturado (SYMMETRY, 2005).

São usados como ferramentas específicas para a gerência de rede. Sua má utilização pode

ocasionar a perda da segurança da rede. Os analisadores em geral possuem várias

funcionalidades como capturar e decodificar os dados armazena-lo, gerar estatísticas, gráficos

e outros. Antes de utilizá-lo, é essencial um estudo sobre a estrutura da rede a ser analisada,

assim como encontrar o melhor local da captura perante seu objetivo (SYMMETRY, 2005).

Alguns dos vários tipos de software analisadores de protocolos serão mostrados a seguir. Os

mais conhecidos e os mais antigos deles são os Sniffer Network Analizer da Network

Associates. Eles possuem um dos mais sofisticado sistema de decodificação de protocolos. A

variável de desempenho mais utilizada será a Capacidade de Transmissão (largura de banda).

As ferramentas descritas a seguir fornecem esse tipo de variável.

3.2.2 Produtos para monitoramento de rede

a) Netview

O Tivoli NetView da IBM atua no gerenciamento e monitoramento de Switches, roteadores e

dispositivos que suportam o protocolo SNMP. Gerencia também os eventos relacionados aos

serviços de rede e no desempenho da rede. A Figura 6 mostra várias telas da ferramenta

Netview em um determinado monitoramento. Os gráficos mostram a quantidade de pacotes

por um intervalo de tempo.

33

Figura 6: Ambiente da ferramenta Netview. Fonte: ( Service IT Solutions )

b) Cisco Netflow e ReporterAnalyzer

O NetFlow é um padrão proprietário da Cisco que possibilita a criação de regras para a

identificação de fluxos no próprio roteador da rede, exercendo a função de medidor. Os dados

coletados sobre estes fluxos, assim definidos devem ser encaminhados para um servidor, a fim

de que possam ser tratados por um software específico de coleta. Outros softwares como o

ReporterAnalyzer podem ser utilizados com o Netflow.

O ReporterAnalyzer é um analisador passivo da empresa NetQos, usado na borda do servidor

que rastreia e mede interfaces WAN e LAN pela coleta e análise da Informação do Cisco

IOS® NetFlow. Ele também fornece uma visão da sua rede corporativa em tráfego,

permitindo que você tome decisões com históricos completos e dados de performance de rede

em tempo real. Coletando informações do Cisco IOS® NetFlow, o ReporterAnalyzer permite

que você veja quais aplicações estão usando largura de banda, quem está utilizando e quando.

34

c)RootNet

Fabricado pela Amix o RootNet é um analisador de protocolos que coleta os pacotes da rede e

constrói um banco de dados de informações. Com base neste banco de dados é possível

conhecer, com detalhes, o perfil de tráfego da sua rede e prever desvios de comportamento.

Características:

• Coleta Informações da rede de forma passiva;

• Fornece informações históricas (relatórios Gerenciais);

• Análise de tráfego de LAN:

• Protocolos IP;

• Protocolos ethernet;

• Tráfego (totais diários, tráfego temporal);

• Pacotes (totais diários, taxa remporal);

• Identifica anomalias da rede.

• Análise de tráfego de Links:

• Direção UPLOAD e DOWNLOAD;

• Tráfego (totais diários, tráfego temporal);

• Pacotes (totais diários, taxa temporal);

• Qualidade (série temporal diária).

• Visão direcionada dentro de um período selecionado:

• IPs mais ativos;

• Portas mais ativas;

• Conexões mais ativas;

• Protocolos mais freqüentes;

• Quantidade de IPs;

• Número de registros gerados.

35

d) Netscope

O Netscope é um software que quando associado a um determinado site, permite quantificar o

número de acessos, determina qual o “browser” utilizado e até a localização do internauta. A

medição de tráfego pelo sistema site-centric é que permite analisar profundamente um site na

Internet. O Netscope é um estudo complementar ao Netpanel, resultado de uma parceria entre

as empresas Weboscope e a Marktest.

A seguir serão apresentadas algumas de suas vantagens:

• Conhecer melhor o tráfego dos respectivos endereços de Internet;

• Aferir o fluxo de todos os endereços de Internet de uma empresa ou grupo;

• Analisar o comportamento dos internautas no(s) respectivo(s) sites;

• Detectar rapidamente os problemas e melhorar o conteúdo dos sites.

3.2.3 Ferramentas open source / free software

a) Tcpdump

O Tcpdump foi desenvolvido na Universidade da Califórnia por um grupo de pesquisadores.

Ele foi originalmente feito para analisar alguns problemas de performance do protocolo

TCP/IP. No decorrer do tempo varias características foram sendo adicionadas, e hoje é uma

das ferramentas gratuitas mais utilizada na captura de dados. Pode ser instalado em várias

plataformas como Unix e Windows. O Tcpdump é usado ou serviu de apoio para vários

programas subseqüentes. Em particular, seu software de captura “libpcap”, é freqüentemente

usado por meio de outros programas de captura.

Sua principal desvantagem é de não possuir uma ferramenta para analisar os dados. Porém,

podemos capturar os dados com Tcpdump, armazenar a captura em uma máquina local e

analisa-la com outras ferramentas, como por exemplo, o Ethereal, mostrado a seguir.

b) Ethereal

O Ethereal é uma ferramenta de análise de protocolo usada em vários países por profissionais

de rede, desenvolvedores de software e protocolos e na educação.

Sua licença “Open Source” permite a ajuda de várias pessoas da comunidade networking.

Trabalha em plataformas populares como Unix, Linux, e Windows.

36

Algumas de suas características são mostradas a seguir:

• a análise pode ser feita sobre uma rede em funcionamento, ou de um arquivo de captura;

• o Ethereal pode analisar arquivos de várias ferramentas como: tcpdump, Microsoft's

Network Monitor, Novell's LANalyzer, RADCOM's WAN/LAN Analyzer e outros.

• o arquivo de captura pode ser exportado para várias extensões como XML e TXT;

• consegue analisar 683 protocolos diferentes;

• podem ser configurados filtros que capturam os campos dos protocolos. Por exemplo, no

protocolo Ethernet pode ser capturado o nome de um determinado site ou endereço IP.

Na Figura 7 serão mostradas duas telas do Ethereal. A primeira mostra alguns pacotes

capturados, e a segunda o gráfico da quantidade de pacotes/tempo dessa captura.

37

Figura 7: Telas Ethereal. Fonte: (Software Ethereal)

c) NTOP

O NTOP é uma ferramenta de análise e captura de dado, disponível em plataformas UNIX e

Win32 e utiliza a biblioteca libpcap para acessar os dados. Segundo seus autores, foi

desenvolvida com semelhança a ferramenta UNIX Top que tem como função relatar o uso do

processador e seus processos. Pode ser usada por gerentes de redes a operadores de rede.

Pode ser acessada por uma interface WEB, de pouca configuração e diversos relatórios. Para

visualizar a interface depois se sua instalação basta acessar o endereço default

http://127.0.0.1:3000.

É desenvolvido utilizando o conceito de código aberto e possui atualmente quatro funções:

• medição do tráfego;

• monitoramento do tráfego;

• otimização e planejamento da rede;

• detecção de violações da segurança da rede.

38

Medição do tráfego:

Essa função consiste em medir as atividades de tráfego. A rede é observada pelo NTOP que

captura todos os pacotes e gera uma série de estatística para cada host. Por capturar todos os

pacotes, ele consegue distinguir os dados enviados e recebidos, os hosts externos e intrenos e

outras atividades do tráfego.

As informações relatadas pelo NTOP para cada host são:

Dados enviados/recebidos O tráfego total enviado ou recebido pelo host. Classificado de

acordo com o protocolo de rede (IP, IPX, AppleTalk, etc.) ou

protocolos IP (FTP, HTTP, NFS, etc.).

Banda utilizada Valor corrente, médio e de pico.

Multcast por IP Quantidade total de Multcast por cada host (enviados e

recebidos).

Histórico das seções TCP Sessões ativas e estabilizadas pelos host.

Tráfego UDP Quantidade total do tráfego UDP por porta.

Serviços usados (TCP/UDP) Lista os 5 últimos hosts que interagiram com um determinado

host (por protocolo).

Distribuição do tráfego Mostra o tráfego local, o local para o remoto, o remoto para o

local e somente o remoto.

Distribuição do tráfego IP Tráfego TCP versos UDP em um determinado host.

As estatísticas sobre o tráfego total da rede são:

Distribuição do tráfego Mostra o tráfego local, o local para o remoto, o remoto para o

local e somente o remoto.

Distribuição dos pacotes Número de pacotes classificados pelo tamanho,

unicast/multicast e IP vs não-IP.

Largura de banda utilizada Valor corrente, médio e de pico.

Distribuição dos protocolos Distribuição do tráfego em função dos protocolos (origem e

destino).

39

Tráfego local Monitoramento do tráfego de cada host local.

Fluxo da rede Fluxo do tráfego dividido em usuários específicos.

Monitoramento do tráfego:

Essa função serve para verificar se o tráfego está ou não de acordo com as políticas

estabelecidas. A seguir são mostrados alguns problemas de configurações que podem ser

detectadas pelo NTOP:

• Uso duplicado do endereço IP;

• Identificação de host locais em modo “promiscuo”;

• Em análise ao tráfego dos protocolos detecta problemas nas configurações de aplicações

de software;

• Identificação dos hosts que não especificam os proxies;

• Identificação dos hosts que utilizam desnecessariamente os protocolos;

• Identificação dos roteadores da rede local: detecção da má configuração das estações que

trabalham como roteadores;

• Utilização excessiva da largura de banda da rede.

Otimização e planejamento da rede:

O NTOP permite identificar hosts que utilizam desnecessariamente a largura de banda e que

possam influenciar negativamente a rede em geral (uso de protocolos desnecessários e

problemas de roteamento). A intenção nessa funcionalidade é promover o uso mais correto da

banda de dados.

Detecção de violações da segurança da rede:

Como o ataque pode vir da mesma rede, o NTOP verifica os acesso entre usuários e identifica

problemas potencias da segurança como: IP spoofing, placas de rede em modo promiscuo,

Trojan e ataques portscan. As violações encontradas podem ser informadas aos operadores de

rede ou armazena-las em uma base de dados.

Exemplo de utilização:

Na Figura 8 a seguir, é mostrado o exemplo do relatório de Throughput, que informa o valor

de pico, o valor médio e o valor corrente do tráfego de cada host.

40

Figura 8: Throughput da rede. Fonte: (Realcolor, 2005)

A Figura 9 a seguir informa o tráfego total da rede nos últimos 10 minutos.

Figura 9: Tela do Analisador de Protocolos NTOP. Fonte: (Realcolor, 2005)

41

4 ESTATÍSTICA

4.1 INTRODUÇÃO

A utilização de técnicas estatísticas e modelos matemáticos em estudos a cerca da análise e

caracterização de tráfego em redes de computadores é fundamental para se obter os resultados

esperados. Neste sentido, a seguir serão apresentados conceitos básicos à cerca desta área de

conhecimento, os quais serão aplicados no desenvolvimento deste trabalho.

4.2 CORRELAÇÃO E REGRESSÃO

4.2.1 Definição de correlação

O estudo da correlação visa identificar a existência e o grau de relações entre duas ou mais

variáveis. Após identifica essa relação, procura-se descrevê-la sob forma matemática, por

meio de uma função (TOLEDO; OVALLE, 1985, p.412).

A correlação entre variáveis e dita perfeita quando todas satisfazem uma equação. Como

exemplo podemos citar a fórmula da circunferência C = 2 π r, onde todos os raios r estão

correlacionados com as circunferências C. A relação entre duas variáveis é denominada

correlação simples, acima de duas é denominada correlação múltipla (SPIEGEL, 1994,

p.359).

4.2.2 Coeficiente de correlação linear

O instrumento de medida da correlação linear é dado pelo coeficiente de correlação de

Pearson:

42

( )( )

( ) ( )2 2

2 2

=

.

XY

X YXY

nrX Y

X Yn n

⎡ ⎤ ⎡⎢ ⎥ ⎢− −⎢ ⎥ ⎢⎣ ⎦ ⎣

⎤⎥⎥⎦

∑ ∑∑

∑ ∑∑ ∑

(1)

Equação 1: Coeficiente de Correlação de Pearson. Fonte: (TOLEDO; OVALLE, 1985, p.412).

onde n = número de observações.

O campo de variação do coeficiente r situa-se entre 1 1XYr− ≤ ≤ .

4.2.3 Tipos de correlação

4.2.3.1 Correlação linear positiva

A correlação será considerada positiva se valores crescentes de X estiverem associados a

valores crescentes de Y, ou seja, correlação 0 1XYr≤ ≤ :

Gráfico 1: Correlação Linear Positiva. Fonte: (TOLEDO; OVALLE, 1985, p.413).

4.2.3.2 Correlação linear perfeita positiva

A correlação será considerada linear perfeita positiva se valores crescentes de X estiverem

associados a valores crescentes de Y e os pontos (X, Y) estarem perfeitamente alinhados, ou

seja, correlação 1XYr = :

43

Gráfico 2: Correlação Linear Positiva Perfeita. Fonte: (TOLEDO; OVALLE, 1985, p.414).

4.2.3.3 Correlação negativa

A correlação é considerada negativa quando valores crescentes da variável X estiverem

associados a valores decrescentes da variável Y, ou seja, correlação 1 0XYr− < < :

Gráfico 3: Correlação Negativa. Fonte: (TOLEDO; OVALLE, 1985, p.414).

4.2.3.4 Correlação perfeita negativa

A correlação é considerada perfeita negativa quando valores crescentes da variável X

estiverem associados a valores decrescentes da variável Y e os pontos (X, Y) estiverem

perfeitamente alinhados, ou seja, correlação 1XYr = − :

44

Gráfico 4: Correlação Perfeita Negativa. Fonte: (TOLEDO; OVALLE, 1985, p.415).

4.2.3.5 Correlação nula

A correlação é considerada nula quando não houver relação entre as variáveis X e Y, ou seja,

quando as variações de X e Y ocorrerem independentemente. Correlação : 0XYr =

Gráfico 5: Correlação Nula. Fonte: (TOLEDO; OVALLE, 1985, p.415).

4.2.4 Interpretação e cálculo prático do coeficiente de correlação linear

Para o calculo do coeficiente de correlação é conveniente à construção de uma tabela, onde, a

partir dos valores X e Y, são determinadas todas as somas necessárias:

45

Tabela 1: Coeficiente de Correlação Linear. Fonte: (TOLEDO; OVALLE, 1985, p.416).

Exemplo:

Calcular o coeficiente de correlação linear entre as variáveis X e Y, usando os dados da

Tabela 2:

Y 10 8 6 10 12

X 2 4 6 8 10

Tabela 2: Cordenadas X/Y Fonte: (TOLEDO; OVALLE, 1985, p.416).

Tabela 3: Coeficiente de Correlação Linear.

Fonte: (TOLEDO; OVALLE, 1985, p.416).

46

( )( )

( ) ( )2 2

30 46288 125 = 0,416

(40).(20,8)30 46200 . 444

5 5

XYr−

= =⎡ ⎤ ⎡ ⎤

− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

4.2.5 Análise de regressão

4.2.5.1 Definição de regressão

Estimar o valor de uma variável Y a partir de um valor já conhecido de uma variável X é

denominado em estatística uma regressão de Y para X. Isso pode ser alcançado, por exemplo,

a partir de uma curva ou reta de mínimos quadrados onde a soma das distâncias dos desvios

deve ser o mínimo possível. Essa função resultante é denominada curva ou reta de regressão e

é mostrada abaixo como exemplo (SPIEGEL, 1994, p.336).

Gráfico 6: Reta de Regressão. (FONSECA, 1985, p.83).

Os “Di(s)” são os erros ou desvios. A soma deles ao quadrado deve ser o mínimo possível

(FONSECA, 1985, p.83).

4.2.5.2 Variação marginal

Com a equação de regressão, podemos ver o efeito sobre uma das variáveis, quando a outra

sofre uma variação. Ao trabalharmos com duas variáveis relacionadas por uma equação de

regressão, a variação marginal em uma delas é o quanto ela varia quando a outra variável

sofre uma variação de exatamente uma unidade (TRIOLA, 1999, P.246).

47

4.2.5.3 Regressão linear simples

Quando a função f que relaciona as variáveis é do tipo ( )f x Xα β= + temos o modelo de

regressão linear simples. Esse modelo é representado pela função iYi iX U=α β+ + onde Y é

formado por dois componentes: o componente funcional ou regressão ( )f X , que representa a

influência da variável independente X sobre o valor de Y, e o componente aleatório U que

representa os erros de medição da variável Y quando o mesmo possui vários valores para cada

valor de X, como mostra o Gráfico 7 abaixo (FONSECA, 1985, p.81).

Gráfico 7: Reta de Regressão Linear Simples. Fonte: (FONSECA, 1985, p.81).

4.2.5.4 Regressão linear por transformação

Existem várias funções importantes que, mediante simples transformações, se tornam lineares,

e cujos parâmetros podem ser estimados pelas fórmulas anteriores (FONSECA, 1985, p.87).

Um tipo de transformação será mostrado a seguir:

a) Função Potência (curva geométrica) y xβα=

A função linear resultante de uma transformação logarítmica dupla será:

log log logY Xα β= +

ou seja,

Z A Tβ= +

onde: logZ Y= logA α= logT X=

48

A seguir o é mostrado o Gráfico 8 da função potência:

Gráfico 8: Gráfico da Função Potência. Fonte: (FONSECA, 1985, p.87).

4.2.5.5 Regressão Múltipla

Como na regressão Linear, a Regressão Múltipla também procura estimar o valor de uma

variável. O fato é que na regressão Múltipla existem mais de duas variáveis interferindo no

valor final. A resolução é semelhante ao Linear, porem exige que se calcule tantas equações

normas quantas são as constantes desconhecidas (FREUND, SIMON, 2000, p.311). Ex: Para

ajustar a equação devemos resolver as três equações 2, 3 e 4 normais

abaixo:

22110 xbxbby ++=

(2) ( ) ( )∑∑∑ ++= 22110. xbxbbny ;

( ) ( )( )∑ ∑∑∑ ++= 212211101 xxbxbxbyx ; (3)

( ) ( ) ( )∑∑∑∑ ++= 2222110 22 xbxxbxbyx . (4)

4.3 SÉRIES TEMPORAIS

4.3.1 Definição

Uma série temporal é um conjunto de observações tomadas em tempos determinados,

comumente em intervalos iguais. Matematicamente, uma série temporal é definida pelos

49

valores Y1, Y2, ... de uma variável Y (por exemplo temperatura), nos tempos t1, t2,..ti.

Portanto, Y = F(t) (SPIEGEL, 1994, p.424).

A análise das séries temporais tem como objetivo descrever e analisar o comportamento

passado da série, visando à compreensão do comportamento da série e a conseqüente previsão

de movimentos futuros (FONSECA, 1985, p.87).

4.3.2 Classificação dos movimentos das séries temporais

Os movimentos característicos das séries temporais podem ser classificados em quatro tipos

principais denominados componentes de uma série. São eles:

• movimentos ao longo prazo ou seculares: refere-se à direção geral, segundo a qual o

gráfico da série temporal se desenvolve em um longo intervalo de tempo. Muitas vezes

são usados na determinação dessas retas e curvas o método dos mínimos quadrados,

comentados anteriormente.

• movimentos ou variações cíclicas: refere-se a oscilações em longo prazo ou aos desvios

em torno da reta ou da curva de tendência. Esses ciclos podem ser ou não periódicos, isto

é, podem ou não seguir exatamente padrões análogos depois de intervalos de tempos

iguais.

• movimentos ou variações estacionais ou sazonais: refere-se a padrões idênticos que uma

série temporal obedece durante um determinado ciclo de tempo, em geral até o período de

um ano.

• movimentos irregulares ou aleatórios: refere-se aos deslocamentos esporádicos das séries

temporais provocados por eventos casuais (SPIEGEL, 1994, p.426).

4.3.3 Análise das séries temporais

O método para analisar uma série temporal consiste em decompor a série nos quatro

movimentos característicos. A variável dependente Y será função das componentes: T

(tendência secular), S (variações sazonais ou estacionais), C (variações cíclicas) e I (variações

aleatórias ou irregulares) (FONSECA, 1985, p.142).

Os modelos mais utilizados são o aditivo e o multiplicativo.

Y T C S I= + + + (I) ou

Y T C S I= ⋅ ⋅ ⋅ (II)

50

O modelo (I) admite que as forças dos movimentos cíclicos, sazonal e aleatório operam com

efeitos absolutos iguais, independentes da tendência. O modelo (II) admite que essas forças

atuam proporcionalmente ao nível geral da série. A escolha do método ideal dependerá das

situações circunstanciais do fenômeno a ser estudado (FONSECA, 1985, p.143).

A seguir é mostrado na Figura 10, exemplos dos movimentos característicos das séries

temporais em uma única curva:

Figura 10: Tendências de séries temporais.

4.3.4 Estimação da tendência

Qualquer estudo que envolva planejamento em longo prazo necessita da avaliação da

tendência. A estimação da tendência pode ser obtida através de métodos matemáticos, como a

média dos valores observados ou por uma simples visualização de um gráfico. A seguir serão

mostrados alguns métodos de estimação da tendência:

51

• método dos mínimos quadrados: pode ser usado para determinar a equação de uma reta ou

curva de tendência apropriada. • método a sentimento: consiste no ajustamento de uma reta ou curva de tendência ,

mediante a simples inspeção do gráfico.

• métodos das médias móveis: mediante o emprego de médias móveis de ordens

apropriadas, podem ser eliminadas as variações cíclicas, estacionais e irregulares,

conservado dessa forma apenas o movimento de tendência.

• método das semimédias: separam-se os dados em duas partes (de preferência iguais)

obtendo duas médias. Cada média resultará em um ponto no gráfico por onde passará a

reta da tendência.

Esses métodos são de aplicações simples e só poderão ser usados em tendências lineares ou

aproximadamente lineares (SPIEGEL, 1994, p.431).

4.3.5 Previsão das séries temporais

As previsões baseadas em séries temporais partem do pré-suposto que a demanda futura é

uma projeção dos valores passados, sem nenhuma influência de outras variáveis. Apesar de

ser um método simples e usual, algumas observações devem ser tomadas para a elaboração de

um modelo de previsão dessa natureza. Como visto anteriormente, uma curva temporal pode

possuir alguns tipos de movimentações que podem influenciar os dados. Essas

movimentações deverão ser identificadas, corrigidas e até mesmo retiradas do histórico. A

previsão da demanda em séries temporais pode ser subdividida em passos relacionados a um

determinado fator de influência. Existem técnicas que tratam as tendências, as variações

sazonais e as médias (variações aleatórias) (TUBINO, 2000, p.69).

4.3.6 Métodos simples de previsão de séries temporais

4.3.6.1 Média móvel

È um método que tenta minimizar as variações das séries por um processo de sucessivas

médias. A média móvel usa dados de um número de períodos para gerar sua previsão. A cada

novo período de previsão se substitui o dado mais antigo pelo mais recente (TUBINO, 2000,

p.69). A seguir é mostrada a equação 5 da média móvel:

52

1

n

ii

n

DMm

n==∑

(5)

onde: nMm = média móvel de períodos; n

= demanda ocorrido no período i; iD

n = número de períodos;

i = índice do período;

Exemplo:

A seguir será mostrada, em um período de seis meses, a demanda de um determinado produto.

Período Janeiro Fevereiro Marco Abril Maio Junho

Demanda 60 50 45 50 45 70

A média móvel de três períodos para o mês de julho será:

350 45 70 55,00

3Mm + +

= =

4.3.6.2 Alisamento exponencial simples

Semelhante a média móvel, o Alisamento Exponencial Simples também utiliza as

observações da série temporal. A diferença seria os diferentes pesos dados a cada observação

da série, ou seja, a previsão é obtida com base na previsão anterior, acrescida do erro

cometido na previsão anterior, corrigido por um coeficiente de ponderação (TUBINO, 2000,

p.71). Como mostra a equação 6 a seguir:

1 1(t t t tM M D M 1)α− − −= + − (6) onde: tM = previsão para o período t ;

53

1tM − = previsão para o período 1t − ;

α = coeficiente de ponderação;

1tD − = demanda do período 1t − .

O coeficiente de ponderação (α ) fixado pelo analista dentro de uma faixa entre 0 <=α <= 1.

4.3.6.3 Alisamento exponencial linear

Como visto anteriormente, o alisamento exponencial simples prevê as demandas futuras com

o valor das demandas anteriores. Esse método se torna aplicável na previsão das demandas

com pequenas variações. Se uma determinada demanda possuí grandes tendências, o

alisamento exponencial simples não conseguirá reagir com rapidez. Para esses tipos de dados

tendenciosos, é necessário utilizar então o alisamento exponencial linear, cuja previsão é

baseada em dois fatores: a previsão da média exponencial móvel da demanda e uma

estimativa exponencial da tendência (TUBINO, 2000, p.76). A seguir são mostradas as

equações 7, 8 e 9:

1t tP M+ tT= + (7)

Sendo que:

1( )t t t tM P D Pα= + − (8)

(9) 1 2 1 1(( ) )t t t t tT T P P Tα− − −= + − −

onde: = previsão da demanda para o período 1tP + 1t + ;

tP = previsão da demanda para o período t ;

1tP− = previsão da demanda para o período t 1− ;

tM = previsão média exponencial móvel da demanda para o período ; t

54

tT = previsão da tendência para o período t ;

1tT − = previsão da tendência para o período 1t − ;

1α = coeficiente de ponderação da média;

2α = coeficiente de ponderação da tendência;

tD = demanda do período ; t

Igual ao método do alisamento exponencial simples, os coeficientes de ponderação (α ) são

valores estipulados pelo analista entre 0 e 1.

4.3.6.4 Alisamento sazonal e linear de winter

Esse método é similar ao alisamento exponencial linear, porem, não só analisa os dados com

grande tendência mas também os sazonais (estáveis). Em 1960 Winters definiu o modelo de

Alisamento Sazonal e Linear composto por três equações 10, 11 e 12, incluindo a equação

sazonal (HANKE, 2001, p.118), como mostra a seguir:

- Serie de Alisamento Exponencial:

1 11

(1 )( )tt t

l

XS SL

α α tT− −−

= + − + (10)

- Estimativa da Tendência:

- Estimativa Sazonal:

(1 )tt t

t

XlL y y

SL −= + −

- Previsão futura:

( )t m t t t l mF S mT L+ += + +

onde: = nova previsão da demanda para o período t . tS

α = Coeficiente de ponderação (0 <=α <= 1).

1( ) (1 )t t tT S S T 1tβ β− −= − + − (11)

(12)

55

tX = nova demanda no período . t

β = constante do alisamento de tendência (0<= β <=1).

= estimativa de tendência. tT

= constante do alisamento sazonal (0<= <=1). y y

= estimativa sazonal. tL

m = período da previsão.

l = tamanho da sazonalidade.

= previsão no período t m . t mF + +

4.3.6.5 Técnica naive

Um método simples de fácil aplicação e muito utilizado nas previsões dos preços das ações,

onde a melhor previsão de amanhã é o preço de hoje. A técnica Naive admite que a melhor

previsão para um dado período é o seu período anterior (HANKE, 2001, p.96), como mostra a

equação 13 a seguir:

(13) 1t tY Y− =

Outra técnica Naive existente é a Naive Ajustado. Ela utiliza o valor do período corrente e o

valor do período anterior para estabilizar ainda mais os dados (PASSARI, 2005), como mostra

a equação 14 a seguir:

⎟⎟⎠

⎞⎜⎜⎝

⎛ −+=

−+

1

11 1ˆ

t

tttt Y

YYYY (14)

Onde:

Yt - valor do período corrente;

Yt-1 - valor do período anterior.

56

O correto é referenciá-lo como um método não paramétrico para a estimação de tendência,

neste caso, ajustado a um modelo linear.

4.3.6.6 Linear (Sen's slope).

O método Sen é referenciado como um método não paramétrico para a estimação de

tendência, neste caso, ajustado a um modelo linear como mostra a equação 15 abaixo.

(TRIVEDI, 2001).

(15) bQxy +=

b média dos três primeiros valores;

klXX

Qi kl

−−

= ;

},..,1{ Ni = ;

2/)1( −= nnN ;

Exemplo: Considere a série: 34, 45, 51, 49.

Q1 = (45-34)/1= 11

Q2 = (51-34)/2= 8.5

Q3 = (49-34)/3= 5

Q4 = (51-45)/1= 6

Q5 = (49-45)/2= 2

Q6 = (49-51)/1= -2

Ordenar do menor para o maior:

-2, 2, 5, 6, 8.5, 11

Calcular a mediana 5,5.

Calcular a média dos três primeiros: 5.08;

O modelo, portanto é:

f(x)=5.5*x + 5.08.

4.3.6.7 Análise exploratória de dados (EDA)

A análise exploratória dos dados procura explorar melhor a distribuição dos dados que serão

analisados. Ela procura simplificar a descrição dos dados e obter uma visão mais profunda da

sua natureza. (TRIOLA, 1999, p.50). Um exemplo seria a análise feita em um valor distante

57

da média de uma série de dados. Valores alterados podem dar uma idéia errônea ou uma

importante informação da verdadeira natureza da distribuição. Verificar sobre a existência de

um valor alterado, e se seu valor muda a característica de uma série de dados é função da

Análise Exploratória de Dados.

4.3.6.8 Valores extremos (Outliers)

Os valores alterados comentados anteriormente são chamados de Valores Extremos(Outliers)

na Análise Exploratória de Dados. Os Outliers devem ser verificados com rigor nas análises

de um conjunto de dados. Dependendo dos dados analisados, os Outliers representam a única

parte importante da pesquisa ou à menos importante. (TRIOLA, 1999, p.50).

4.3.7 Índices de medidas de precisão

Após calcular qualquer modelo de previsão, é extremamente necessário medir a precisão

desse modelo. Para tanto será apresentado os índices MAD (mean absolut deviation), MSE

(mean squared error), MAPE (mean absolut percentual error) e o MPE (mean percentual

error). (HANKE, 2001, p.75).

Antes de calcular os índices deve-se calcular o erro para cada período de previsão, com a

equação 16 abaixo:

(16) ttt YYe ˆ−=

te = previsão de erro para o período t ;

tY = valor atual no período t ;

tY = valor previsto no período t ;

O MAD informa a média do somatório dos valores absolutos dos erros (módulos):

∑=

−=n

ttt YY

nMAD

1

ˆ1 (17)

O MSE informa a média do somatório dos erros ao quadrado:

( )∑=

−=n

ttt YY

nMSE

1

2ˆ1 (18)

58

O MAPE informa a média em porcentagem do somatório dos valores absolutos dos erros

(módulos):

∑=

−=

n

t t

tt

Y

YY

nMAPE

1

ˆ1 (19)

O MPE informa a média em porcentagem do somatório dos erros:

)(∑=

−=

n

t t

tt

YYY

nMPE

1

ˆ1 (20)

59

5 COLETA, ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO

5.1 AMBIENTE DE EXECUÇÃO: EMPRESA REALCOLOR

5.1.1 Negócio

A Realcolor é uma empresa de produtos e serviços fotográficos com sede em

Florianópolis/SC na Rua Trajano 271 – Centro. Fornece serviços fotográficos como:

revelações, modificações, restaurações entre outros. Possui 11 lojas espalhas pelas cidades de

Lages, Criciúma, Tubarão, Blumenau e Florianópolis.

5.1.2 Estrutura da rede

A estrutura da rede WAN Realcolor é composta de 11 lojas distribuídas pelo estado de Santa

Catarina, conectadas a um CPD localizado no centro da cidade de Florianópolis. As ligações

entre filiais e CPD são realizadas por uma rede InterLan da BrasilTelecom, baseada em

tecnologias xDSL e Frame Relay. Utiliza-se em princípio, canais de 64 Kbps com banda

mínima de 3 kbps para cada loja. Antes de chegar aos servidores de aplicação, os dados

passam por um roteador da BrasilTelecom (concentrador) e em seguida por um controlador de

banda configurado em Sistema Operacional FreeBSD. Após o controlador, existe uma rede

interna composta por quatro servidores de aplicação Windows 2000 Server e um Firewall

com sistema operacional Linux e acesso à internet ADSL. Três servidores de aplicação são

utilizados para suporte do ERP (Enterprise Resource Planning), sistema de gestão integrada

da empresa Microsiga, baseado em SGBD MS SQL. O outro servidor é utilizado para dar

suporte a transferência de imagens do sistema Sigi. Além dos softwares de gestão as lojas

utilizam o CPD para acesso WEB, eMail e troca de mensagens instantâneas (MSN

messenger). A Figura 11 mostra a estrutura da rede mencionada acima.

60

Figura 11: Estrutura da rede Realcolor.

Fonte: CPD – Realcolor

5.1.3 Necessidades de gerenciamento

Mesmo tendo sido montada com recursos tecnológicos de alto custo como linhas de dados

dedicadas e servidores de aplicação, a rede WAN Realcolor nunca foi submetida a uma

análise e caracterização de tráfego. As informações adquiridas nesse trabalho poderão ser de

grande importância para os administradores, visto que tentarão esclarecer dúvidas que

englobam custos, gerenciamento e previsões. Saber o quanto está sendo utilizado de banda e

qual a tendência dessa utilização são informações importantes quando se utilizam recursos

caros e limitados.

5.2 CONFIGURAÇÃO PARA COLETA E MONITORAMENTO

5.2.1 Ponto de coleta

Como um dos objetivos do trabalho é analisar o tráfego WAN, seria necessário um local de

coleta onde passassem todos os dados que trafegam entre as lojas e CPD. Analisando esse

61

requisito verificou-se que o ponto mais estratégico para a coleta de dados estaria entre o

roteador e o controlador de banda. Assim, todos os dados que trafegarem entre as lojas e CPD

irão passar pelo analisar de protocolo, como mostra a Figura 12.

Figura 12: Estrutura da rede Realcolor.

Fonte: CPD – Realcolor

5.2.2 Ferramentas para captura

Após ter encontrado o ponto de coleta de dados, iniciou-se uma fase operacional de

configurações e instalações de ferramentas de apoio. O hardware escolhido para a captura

possui a configuração AMD K6-II 550Mhz, com 512Mbytes de memória RAM. Nele foi

instalado o sistema operacional Linux Fedora Core 4 e o programa NTOP versão 3.0.0.1.

Devido à posição do analisador de protocolos estar entre o roteador e o controlador de banda,

62

tornou-se necessário implementar a funcionalidade de bridging9 na máquina do NTOP. A

seguir serão apresentados os detalhes dessa configuração.

5.2.3 Bridge

Para a configuração da bridge foi necessária a instalação de duas placas de rede na mesma

máquina. Após a instalação das placas foi feita a configuração da bridge com o comando brctl

do Linux, como mosrtra o script abaixo.

brctl addbr probe

brctl addif probe eth0

brctl addif probe eth1

ifconfig probe 192.168.1.244

ifconfig eth0 up

ifconfig eth1 up

ifconfig probe up

A primeira linha identifica a criação de uma interface virtual de nome probe. As duas linhas

seguintes associam a interface virtual as duas interfaces físicas eth0 e eth1. A quarta linha

atribui o endereço IP a interface virtual. As linhas restantes servem para ativar as três

interfaces. Após executar essas linhas de comando, a bridge estava configurada e pronta para

ser usado pelo NTOP na captura dos dados. É importante lembrar que a coleta será feita de

forma passiva não alterando assim o tráfego original do link.

5.2.3.1 Utilização NTOP

Apesar das várias funções já mostradas, a utilização do NTOP nesse trabalho foi limitada,

devido a seu escopo, à função “medição de tráfego”.

A medição de tráfego consiste em medir as atividades relevantes ao tráfego. O NTOP observa

o uso da rede, gerando uma série de estatísticas para cada host.

As informações coletadas pelo NTOP que serviram para a confecção do trabalho foram:

• Os dados enviados e recebido: o tráfego total (volume e pacotes) gerado ou recebido pelo

host. Classificado de acordo com o protocolo de rede (TCP, UDP, ARP, etc.) e aplicação

(FTP, HTTP, Messenger, etc.);

9 Interface que atua como uma ponte entre segmentos de rede LAN, conceituado pelo padrão IEEE 802.1D.

63

• Largura da banda usada: uso real, médio e pico;

• Distribuição de tráfego: tráfego local, local para o tráfego remoto, remoto para o tráfego

local;

• Como estatísticas globais de toda a rede foram levantadas as seguintes:

• Largura de banda utilizada: uso real, médio e pico;

• Tráfego Total: Quantidade do tráfego monitorado em toda a rede.

As funcionalidades mostradas anteriormente podem ser vistas por qualquer interface Web.

Basta acessar no browser o endereço IP da máquina NTOP seguido da porta de utilização, por

default 3000. Como mostra o exemplo abaixo:

http://192.168.1.244:3000

Na Figura 13 é apresentado um exemplo de monitoramento feito pelo NTOP dos protocolos

de aplicação mais utilizados:

Figura 13: Tela NTOP (protocolos TCP/UDP). Fonte: (Realcolor, 2005)

64

5.3 MONITORAMENTO E COLETA DOS DADOS

Para iniciar o monitoramento e captura dos dados, é necessária a execução do NTOP. Para

tanto, deve ser digitado no console do sistema operacional a seguinte linha de comando:

ntop -u ntop -i probe -d -n -w 192.168.1.244:3000 -W 0 -M --disable-schedyield --skip-

version-check --protocols="Microsiga=1024|5024,HTTP=http|www|https|3128,FTP=ftp|ftp-

data, DNS=name|domain,Telnet=telnet|login,NBios-IP=netbios-ns|netbios-dgm|netbios-

ssn,Mail=pop-2|pop-3|pop3|kpop|smtp|imap|imap2,DHCP-BOOTP=67-

68,SNMP=snmp|snmp-

trap,NNTP=nntp,SSH=22,Kazaa=1214,Messenger=1863|5000|5001|5190-5193"

A linha acima foi colocada no arquivo de inicialização (rc.local) do Linux. Portanto, toda vez

que o sistema operacional for iniciado, iniciará também o serviço de captura do NTOP. O

endereço IP indicado é serve de acesso a interface gráfica. O comando também informa quais

protocolos de aplicação serão capturados e suas devidas portas.

Após ter identificado todas as páginas referentes aos objetivos do trabalho, iniciou-se o

processo de armazenamento. As html geradas pelo NTOP foram armazenadas com o comando

Wget, como é mostrado abaixo:

wget -p -E "http://192.168.1.244:3000/trafficStats.html" -nH -nd -P/coleta/`date

+%m_%d_%a`/`date +%H-%M`/SUMMARY_TRAFFIC/

Neste exemplo a página "http://192.168.1.244:3000/trafficStats.html" está sendo

armazenada no diretório “coleta/dia/hora”. Cada página capturada tem sua linha de comando

Wget. Essas linhas foram armazenas em um arquivo ShellScript e executadas no agendador

de tarefas do Linux, hora em hora. A seguir será mostrado uma parte do arquivo

“script_ntop.sh” usado nas gravações das páginas HTML.

65

Os dados coletados foram transferidos para planilhas do Excel. Em cada planilha foram

identificados e retirados os dados irrelevantes. Após as devidas filtragens, as planilhas se

encontram prontas para serem analisadas em função dos dados pretendidos. A seguir serão

apresentadas as análises feitas nestes dados.

5.4 ANÁLISE DOS DADOS

Após as devidas instalações e configurações, iniciou-se em 15 de setembro o primeiro dia de

coleta. Muitos problemas ocorreram durante a captura. Aquecimento e travamento de

hardware, erros no sistema operacional, nome dos arquivos gerados não compatíveis com o

sistema operacional Windows, ausência das pessoas encarregadas em verificar o

funcionamento da máquina de captura, problemas de acesso à empresa na ausência dos

funcionários do setor, informação não muito precisas das configurações de rede da empresa,

do sistema Microsiga e do sistema Sigi.

As primeiras semanas serviram para a análise dos resultados, ou seja, verificou-se a

suficiência dos dados para o alcance dos objetivos. De início foi observado a quase ausência

66

de tráfego no período noturno de 24:00 à 07:00hs. Essa ociosidade é facilmente explicada

devido aos horários de funcionamento das lojas filiais. Estipulou-se então um novo horário de

monitoramento, das 07:00 às 23:00hs. Essa pequena configuração resultou em valores de

médias bem mais precisos e próximos da realidade.

5.4.1 Tráfego total WAN

O Gráfico 9 mostra a quantidade total do tráfego diário da rede WAN no período de 15 de

setembro a 8 e novembro.

050

100150200250300350400450500

15/9/

05

18/9/

05

21/9/

05

24/9/

05

27/9/

05

30/9/

05

3/10/0

5

6/10/0

5

9/10/0

5

12/10

/05

15/10

/05

18/10

/05

21/10

/05

24/10

/05

27/10

/05

30/10

/05

2/11/0

5

5/11/0

5

8/11/0

5

Tráfego Total - WAN

Dias

MBytes

Gráfico 9: Tráfego Total diário – 15/09/2005 à 08/11/2005.

A maior parte dos valores extremos refere-se aos finais de semana e feriados. Para uma

melhor análise da tendência do tráfego foram retirados esses dias. O resultado é apresentado

no Gráfico 10 abaixo.

67

050

100150200250300350400450500

15/9

/05

18/9

/05

21/9

/05

24/9

/05

27/9

/05

30/9

/05

3/10

/05

6/10

/05

9/10

/05

12/1

0/05

15/1

0/05

18/1

0/05

21/1

0/05

24/1

0/05

27/1

0/05

30/1

0/05

2/11

/05

5/11

/05

8/11

/05

Tráfego Total - WAN Retirados os sábados, domingos e feriados.

MBytes

Dias

Gráfico 10: Tráfego total diário (sem sábados, domingos e feriados).

Mesmo com a melhora ainda existem no Gráfico 10 alguns valores extremos. Foi feito então

uma análise em todos os dias de baixo tráfego e verificado o motivo. Foram identificados três

dias em que o NTOP não capturou os dados corretamente, devido a problemas operacionais

de travamento e de erros no sistema operacional. Nos dias 11 e 13 de outubro o NTOP parava

de capturar ao iniciar o sistema operacional. Esse problema resultou em uma nova instalação

de todo o sistema. Após a persistência dos erros no dia 28 de outubro foi substituída a

máquina de captura.

Os valores desses dias foram trocados pela média de todos os outros dias. O resultado está no

Gráfico 11.

68

050

100150200250300350400450500

15/9/

2005

18/9/

2005

21/9/

2005

24/9/

2005

27/9/

2005

30/9/

2005

3/10/2

005

6/10/2

005

9/10/2

005

12/10

/2005

15/10

/2005

18/10

/2005

21/10

/2005

24/10

/2005

27/10

/2005

30/10

/2005

2/11/2

005

5/11/2

005

8/11/2

005

MBytes Tráfego Total - WAN

Dias

Análisado e retirado os valores extremos

Gráfico 11: Tráfego total diário -15/09/2005 à 08/11/2005 (sem os valores extremos).

Após ter resolvido os problemas dos valores extremos ficou mais fácil visualizar a tendência

do tráfego. A linha de tendência colocada no Gráfico 11 mostra um leve aumento de consumo

no tráfego total (enviados e recebidos) da rede WAN. Esse aumento pode ser associado à

inclusão do serviço de transferência de imagem imposto pela empresa no inicio da análise.

A seguir no Gráfico 12 é mostrada a porcentagem de tráfego recebido e enviado pela WAN.

Os dados recebidos são aqueles enviados pelo CPD que tiveram como destino às lojas. Os

dados enviados são aqueles que saíram das lojas com destino aos servidores ou Internet.

69

Tráfego WAN - Enviados/Recebidos

61%

39%Enviados

Recebidos

Gráfico 12: Tráfego total diário (enviados e recebidos).

O resultado do Gráfico 12 mostra que os servidores recebem mais dados do que enviam. A

explicação para isso seria o servidor de imagens que recebe constantemente fotos digitais para

revelação. Para embasar esta suposição será mostrada no tópico seguinte a porcentagem do

tráfego dos protocolos de aplicação, inclusive o que se estima ser do servidor de imagens.

Outra análise importante sobre o tráfego total é o detalhamento desse tráfego. A seguir será

mostrada no Gráfico 13 as lojas que mais transferiram dados pela rede WAN, e no Gráfico 14

a quantidade desse tráfego por dia da semana. As localizações dessas lojas são dadas como

segue:

Loja 3 Tubarão

Loja 5 Criciúma

Loja 8 Felipe Schimidt, centro/Fpolis

Loja 9 Blumenau

Loja 11 Felipe Schimidt, centro/Fpolis

Loja 12 Shopping Beira Mar

Loja 13 Lages

Loja 14 Criciúma

70

Loja 19 Criciúma

Loja 20 Lagoa/Fpolis

Loja 29 Jerônimo Coelho, centro/Fpolis

Tabela 4: Localização das lojas

Quantidade de dias de maior tráfego

3%

17%

54%

8% 8% 10%

loja 3loja 5loja 9loja 12loja 13loja 19

Gráfico 13: Quantidade de dias de maior tráfego.

O Gráfico 13 mostra que a loja 9 teve em 54% dos dias de captura o maior numero de

transferência de dados. Em segundo lugar está a loja 5 com 17% dos dias. A seguir será

apresentado no Gráfico 14 o tráfego semanal, como mencionado anteriormente.

Gráfico 14: Tráfego semanal.

71

Os valores calculados correspondem às médias dos dias da semana.O dia de maior tráfego, no

período analisado, é segunda-feira.

5.4.2 Protocolos utilizados

A seguir será apresentado o tráfego em função dos protocolos utilizados. O Gráfico 15 mostra

os 4 protocolos utilizados do modelo TCP/IP das camadas “Inter-rede” e “Transporte”.

Gráfico 15: Protocolos utilizados.

O Gráfico 15 mostra claramente que o uso do protocolo TCP é extremamente superior aos

demais protocolo. Para uma melhor análise é mostrado no Gráfico 16 os protocolos de

aplicação, referente ao modelo TCP/IP.

72

1%

23%

73%

1%

2%

FTPHTTPDNSNBios-IPMailDHCP-BOOTPNFS/AFSKazaaeDonkeyMessengerOther IP

Protocolos de aplicação(05/10 à 14/10)

Gráfico 16: Protocolos de aplicação.

O Gráfico 16 mostra que a ferramenta de captura não conseguiu identificar 73% dos

protocolos utilizados. Fazendo uma análise de todas as aplicações que necessitam da rede

WAN, identificou-se duas de grande finalidade que talvez possuíssem protocolos

proprietários não entendidos pelo NTOP. Uma delas é o MicroSiga, sistema de gestão

integrada da empresa e a outra o Sigi, sistema de transferência de imagens para revelação.

Em contato com o fabricante do MicroSiga descobriu-se as portas de utilização da aplicação

na rede. O mesmo não aconteceu com o fabricante Sigi, que se recusou a dar informações.

Sabíamos que o protocolo utilizado pelo sistema Sigi é o FTP, porém, não obtivemos sucesso

nas capturas das portas “default” 20 e 21. Foi feito então uma análise específica, com o intuito

de descobrir as portas utilizadas na transferência de imagens. Enviando imagens de uma das

lojas para o servidor de imagens e analisando a conversa entre essas duas máquinas,

descobriu-se que o sistema utiliza o FTP em modo passivo. No FTP passivo, o cliente FTP faz

a primeira conexão com o servidor em modo passivo, fazendo com que o servidor escolha a

numeração da porta dinamicamente entre 1024 a 65535, ou seja, o servidor FTP não transfere

arquivos pela porta 20, como no modo padrão (não-passivo).

Configurou-se então o NTOP para filtrar as portas 1024 e 5024 referentes à aplicação

Microsiga. O resultado pode ser visto no Gráfico 17.

73

1%16%

39%42%

1%1%

FTP

HTTP

DNS

NBios-IP

Mail

DHCP-BOOTP

Messenger

Microsiga

Other IP

Protocolos de aplicação (17/10 à 8/11)

Gráfico 17: Protocolos de aplicação.

Com essa nova configuração diminuiu-se quase pela metade a não identificação (Other Ip)

dos protocolos de aplicação. Como visto o Microsiga possui 39% do tráfego no caso acima.

Estima-se que os 42% não identificados são referentes à transferência de imagens do sistema

Sigi.

5.4.3 Taxas de transferências

Como mencionado anteriormente a Realcolor possui um link de 512Kbps de tecnologia

Frame-Relay. Esse link é dividido em vários canais de 64Kbps, destinados a cada loja filial.

Para verificar o comportamento desses links foi feita uma análise detalhada dos valores de

pico diários de cada loja, mostrados no Gráfico 18.

74

Gráfico 18: Valores de pico por lojas.

75

Os valores de pico mostrados no Gráfico 18 referem-se aos dados enviados e recebidos na

rede WAN. A configuração desses canais foram repassadas pela BrasilTelecom como sendo

simétricos e full-duplex, ou seja, um link de 64Kbps pode enviar e receber ao mesmo tempo

com banda de 64Kbps e ter valores de pico até 128Kbps. Analisando o Gráfico 18 nota-se que

algumas lojas tiveram valores de pico superiores a 200Kbps, mesmo tendo um link de

64Kbps. Em entrevista com técnicos da BrasilTelecom conclui-se que como o link total da

Realcolor é de 512Kbps na Matriz e só depois é dividido em canais de 64Kbps é

perfeitamente possível que o tráfego que sai da Matriz em direção as lojas pode ter, em

primeiro instante, picos maiores que 128Kbps. O problema está no tráfego que sai da matriz,

pois os que entram já chegam com 64Kbps.

Outra forma encontrada de avaliar o tráfego pelos valores de pico é mostrada no Gráfico 19,

onde se verificou o horário de maior pico em toda e rede WAN.

Gráfico 19: Horários de maior pico.

O Gráfico 19 apresenta os horários de maior tráfego de toda a rede WAN, compreendidos

entre 11:00 - 13:00hs e 16:00 – 18:00hs.

Para finalizar a análise sobre taxa de transferências, calculou-se o valor médio de toda rede

WAN e se comparou com a banda total alocada. O resultado mostrado no Gráfico 20 informa

que em média menos de 20% da banda total é utilizada.

76

Gráfico 20: Banda consumida.

5.4.4 Análise da correlação e regressão no tráfego

5.4.4.1 Correlação

Os valores das correlações mostradas a seguir referem-se a 34 dias de coletas, onde todas as

lojas tiveram participação no envio e recebimento dos dados. Para calcular os valores de

correlação foi utilizado o software de estatística Minitab 14.2 V.

A primeira análise de correlação foi realizada usando os valores do tráfego diário enviado, de

cada loja, com os valores do tráfego recebido na matriz (servidores). Os dados referentes aos

servidores são exclusivamente das aplicações Microsiga e Sigi. Já os referentes às lojas

englobam além das duas aplicações os tráfegos de Internet (HTTP, msn e outros). O objetivo

é saber qual o grau de relação que cada loja possui com a matriz (servidores) em função do

envio e recebimento de dados. A seguir é apresentada a correlação de todas as lojas e da

matriz (servidores).

L3 L5 L8 L9 L11 L12 L13 L14 L19 L20 L29 L5 0,465 L8 0,034 0,328 L9 0,325 0,181 -0,016 L11 0,563 0,359 0,055 0,433 L12 0,065 0,217 0,119 0,132 0,249 L13 0,103 0,076 -0,169 0,163 0,474 0,135 L14 0,195 0,022 -0,111 0,451 0,403 0,158 0,471 L19 0,563 0,311 0,057 0,335 0,171 0,142 0,024 0,246 L20 0,304 0,242 -0,041 0,390 0,631 0,065 0,215 0,312 0,263 L29 0,430 0,227 0,149 0,419 0,676 0,251 0,214 0,340 0,032 0,302 Serv 0,706 0,627 0,107 0,634 0,698 0,357 0,477 0,501 0,617 0,444 0,478

Tabela 5: Correlação linear entre lojas e matriz

77

As lojas 3, 5, 9,11 e 19 possuem uma maior relação com os dados recebidos pelos servidores,

ou seja, essas lojas demonstram utilizar a rede, em grande parte, para as aplicações Microsiga

e Sigi, em comparação com as demais. Sabendo que essas lojas são também as que mais

enviam dados, pode-se concluir que as alterações em seus tráfegos afetarão em boa parte os

tráfegos dos servidores. A seguir será mostrada a relação dos valores dos tráfegos diários

recebidos, de cada loja, com os valores dos tráfegos enviados pela matriz (servidores).

L3 L5 L8 L9 L11 L12 L13 L14 L19 L20 L29 L5 0,420 L8 0,392 0,354 L9 0,391 0,250 0,349 L11 0,618 0,463 0,236 0,434 L12 0,453 0,103 0,322 0,349 0,400 L13 0,236 0,385 0,491 0,417 0,492 0,367 L14 0,412 0,381 -0,078 0,271 0,606 0,147 0,268 L19 0,026 0,039 0,114 0,495 0,209 0,377 0,281 0,169 L20 0,353 0,382 -0,044 0,443 0,626 0,275 0,243 0,440 0,292 L29 0,617 0,249 0,255 0,368 0,671 0,288 0,435 0,480 0,029 0,367 Serv 0,651 0,533 0,217 0,460 0,692 0,341 0,444 0,521 0,193 0,470 0,584

Tabela 6: Correlação linear entre lojas e matriz.

As lojas 3 e 11 permaneceram bem correlacionadas com os servidores, fortalecendo a idéia

que essas lojas utilizam a rede, em grande parte, para as aplicações Microsiga e Sigi.

A seguir será mostrada a relação do tráfego total de todas as lojas e servidores.

L3 L5 L8 L9 L11 L12 L13 L14 L19 L20 L29 L5 0,511 L8 0,167 0,430 L9 0,331 0,258 0,133 L11 0,553 0,407 0,186 0,434 L12 0,262 0,342 0,269 0,215 0,402 L13 0,185 0,153 0,015 0,342 0,522 0,252 L14 0,413 0,097 -0,098 0,589 0,585 0,203 0,391 L19 0,499 0,297 0,089 0,374 0,190 0,211 0,063 0,304 L20 0,345 0,257 -0,051 0,400 0,660 0,189 0,286 0,442 0,250 L29 0,498 0,173 0,239 0,413 0,719 0,270 0,360 0,508 -0,005 0,371 Serv 0,723 0,656 0,204 0,674 0,664 0,409 0,560 0,567 0,600 0,435 0,449

Tabela 7: Correlação linear entre lojas e matriz.

Como previsto, as lojas 3, 5, 9, 11 e 19 mostraram ter grande correlação com as variações do

tráfego das aplicações Microsiga e Sigi.

A seguir será mostrada a equação de regressão múltipla, que tem como objetivo estimar o

valor do tráfego dos servidores da matriz em função dos tráfegos de todas as lojas.

78

5.4.4.2 Regressão múltipla

Com os valores totais da correlação foi calculada, também com o Minitab 14.20 V, a equação

de regressão múltipla. Essa equação estima alcançar o valor do tráfego usado pelos servidores

em função dos tráfegos gerados pelas lojas, lembrando sempre que a equação é proveniente

dos valores da série temporal capturada. A seguir é mostrada a equação 21:

Serv = - 3938530 + 0,985 L3 + 1,08 L5 - 1,00 L8 + 0,906 L9 (21) + 1,73 L11 + 0,142 L12 + 1,24 L13 + 0,520 L14 + 0,985 L19 - 3,64 L20 - 0,199 L29

Analisando a equação acima, nota-se que as lojas 8, 20 e 29 são inversamente proporcionais

ao tráfego dos servidores, ou seja, se aumentar o tráfego dessas lojas diminui o tráfego dos

servidores ou vice versa. Antes de explicar essa análise vale a pena lembrar que os tráfegos

referentes aos servidores são exclusivamente das aplicações Microsiga e Sigi, enquanto que

das lojas engloba-se também os tráfegos externos (HTTP, MSN e outros). Analisando a

correlação múltipla do tópico anterior, verificou-se que as lojas 8, 12, 20 e 29 possuem baixa

correlação com os servidores. Essa informação resultou no único entendimento plausível

sobre a inversão dos pesos das lojas 8, 20 e 29. Foi feito então uma análise no tráfego dos

protocolos da loja de maior peso negativo (loja 20). O objetivo era mostrar a quantidade de

tráfego gerado pelas aplicações Microsiga e Sigi em função do tráfego restante (HTTP, MSN

e outros). O Gráfico 21 abaixo mostra o tráfego gerado pela loja 20 em 6 dias de coleta.

Gráfico 21: Tráfego loja 20.

79

Esse resultado confirma a maior utilização de outras aplicações em comparação aos sistemas

Sigi e Microsiga. Como o link total da empresa (512Kbps) é menor que a soma dos canais de

cada loja (64Kbps x 11 lojas), uma loja pode interferir no tráfego das outras. Portanto, o

aumento do tráfego dessa loja pode causar a diminuição do tráfego de uma loja que utiliza

quase toda sua banda para as aplicações Microsiga e Sigi, ocasionando a diminuição no

tráfego dos servidores.

Em decorrência da possibilidade de se ocorrer a interferência do tráfego de uma loja no

tráfego das demais lojas, devido à capacidade do link central ser menor que a soma da banda

alocada de todas as lojas, cria-se um cenário de possível multicolinearidade na análise de

regressão múltipla. Neste caso, recalculou-se a equação de regressão através do método PLS

(Partial Least Squares), utilizando o Minitab, o qual oferece uma maior robustez nos casos de

multicolinearidade (MINITAB, 2005). Além disso, o próprio Minitab tem como opção padrão

a exclusão de variáveis do modelo, no caso destas se comprovarem fortemente

correlacionadas (MINITAB, 2005).

A seguir tem-se a equação 22 de regressão obtida a partir do método PLS.

Serv = -3935766 + 0,243407 L3 + 0,335969 L5 - 0,071196 L8 +

0,285697 L9 + 0,120625 L11 + 0,027370 L12 + 0,299444 L13 + (22) 0,044284 L14 + 0,241090 L19 - 0,096570 L20 - 0,019017 L29

Verificou-se que o modelo gerado a partir do método PLS possui valores menores que os da

equação 21, levando a crer que em uma eventual correlação entre as lojas o impacto no

trafego dos servidores será pequeno. Além disso, nenhumas das variáveis, como

anteriormente, foram removidas, o que reforça a hipótese de baixa correlação entre as

variáveis, tornando, portanto válido o modelo da equação 21.

5.4.5 Modelo de previsão

A série temporal usada para a previsão de cargas futuras, consiste em 26 pontos de dados

(dias) capturados do tráfego total da rede WAN da empresa Realcalor. Os valores estão sendo

mostrados na Tabela 8.

80

Tabela 8: Série de dados capturada.

Foram calculados para os 26 pontos os modelos:

• Naive;

• Naive ajustado;

• Linear;

• Linear (Sen's slope);

• Média móvel (ordem 2 e 3);

• Alisamento exponencial (alfa variando de 0,1 a 0,9);

Uma parte dos cálculos está sendo mostrada na Tabela 9.

Tabela 9: Cálculo dos modelos de previsões.

Para medir a precisão dos modelos com os dados originais foi necessário calcular a

acuracidade de cada modelo. Os índices de erro utilizados foram MAD, MSE, MAPE e MPE.

81

Esses índices têm por finalidade mostrar a média do somatório dos erros do valor calculado

(previsto) com o valor original. O valor da acuracidade é 100 menos o valor do índice, ou

seja, quanto menor o índice maior e melhor a acuracidade. A Tabela 10 mostra o valor das

acuracidades de todos os modelos em função do índice MAPE, escolhido por fornecer valores

absolutos já em porcentagens.

Tabela 10: Acuracidade (dados originais).

A Tabela 10 mostra que o modelo de melhor acuracidede é o Linear. Portanto, ele é o mais

indicado para estimar valores futuros dessa série de dados.

Em busca de melhores resultados de acuracidade, foram feitas algumas transformações nos

dados originais aplicando a Raiz-Quadrada, o Log, o LN e a inversa (1/X) sobre eles. As

Tabelas 11, 12, 13 e 14 mostram os valores das acuracidades em cada transformação.

82

Tabela 11: Acuracidade aplicando Log sobre os dados.

Tabela 12: Acuracidade aplicando LN sobre os dados.

83

Tabela 13: Acuracidade aplicando raiz quadrada sobre os dados.

Tabela 14: Acuracidade aplicando 1/X sobre os dados.

Como visto, com essas transformações a acuracidade melhorou consideravelmente. O modelo

mais preciso continuou sendo o Linear com seus dados originais transformados em Log

(Tabela 11). A equação que representa o modelo Linear nessa série de dados é:

y = 0,0016x + 8,5077

y = valor previsto;

Esse modelo permite estimar valores subseqüentes a série de dados observada. Basta somar a

quantidade de dias (pontos) com o último valor de X na equação. Para avaliar a qualdiade do

84

modelo, foram estimados os 5 dias seguintes após o término da série de dados e verificado seu

erro em relação ao dado original. É bom lembrar que os dados foram transformados em Log,

e para obter o valor real do erro deverá ser feito o anti-log . x10

A seguir é apresentado no Gráfico 22 o teste realizado com o modelo Linear.

Gráfico 22: Previsão (pontos 27, 28, 29, 30 e 31).

Nos pontos 27 a 31 do Gráfico 22 percebe-se visualmente a diferença do valor original

(transf) com o valor previsto. O valor calculado da acuracidade para esse período é de

99,93%. Acima do valor da acuracidade de todos os pontos, que é 99,34%. Em valores

absolutos o erro médio obtido para o período foi de 30,54Mbytes, pouco em relação ao

tráfego total médio do período que foi 364,31Mbytes.

85

6 CONCLUSÃO

Apesar dos vários problemas operacionais que ocorreram, o objetivo do trabalho, que era a

análise e caracterização do tráfego WAN da rede Realcolor, foi concluído e alcançado com

êxito. A empresa Realcolor, que buscou nesse trabalho uma forma de avaliar e entender o

funcionamento e o comportamento de sua rede WAN, possui hoje uma valiosa fonte de

informação para futuras manutenções, mudanças e planejamentos.

No inicio buscou-se entender toda a estrutura da rede. Os objetivos específicos foram

levantados de acordo com esse entendimento e com as necessidades impostas pela empresa.

Após a obtenção dos objetivos foi escolhido o ponto e a ferramenta de coleta que pudesse

suprir as devidas necessidades do trabalho. Pelos estudos já realizados e pelas características

já conhecidas em trabalhos dessa natureza, a ferramenta escolhida foi o NTOP. Essa

ferramenta possui como interface de visualização páginas em HTML. As páginas relevantes

ao trabalho foram escolhidas e armazenadas, a cada hora, pelo agendador de tarefas do Linux,

com o comando wget. Estas páginas foram compiladas para sua utilização em planilhas

eletrônicas, onde se desenvolveu a análise dos dados de tráfego.

Em se tratando da análise descritiva do tráfego, foram apresentadas informações de

importante respaldo. Os protocolos de aplicação utilizados, os horários de maior pico, o

tráfego por dia da semana, os valores de pico alcançados por cada loja e a banda média

consumida pela rede foram algumas das informações geradas e que até então não haviam sido

observadas pela empresa.

A análise feita da correlação entre as lojas e os servidores e a equação da regressão múltipla

informaram sobre a relação e a projeção de valores, levando em consideração a participação

de todas as lojas. Essa análise resultou na confirmação da má utilização da rede, de algumas

lojas, em função do sistema de gestão integrada da empresa. Além disso, proporcionou

também uma equação de regressão capaz de estimar o valor de tráfego gerado pelos

86

servidores em função das lojas. Nessa questão da correlação e regressão vale a pena observar

que os resultados foram obtidos através da correlação e regressão linear. Portanto, se o tráfego

das lojas tiveram fortemente correlacionados entre si, tem-se o problema da

multicolinearidade e, portanto, o modelo obtido fica muito susceptível a grandes desvios em

suas previsões, deixando de ser confiável. Contudo, vale lembrar que o modelo considerado

foi aquele da equação 22, o qual foi criado a partir do método PLS com a ferramenta Minitab,

procedimento este adequado para tratar situações com possível multicolinearidade.

O objetivo de encontrar o modelo de previsão mais adequado e com uma acuracidade superior

a 60% foi alcançado. Dos seis modelos testados o Linear conseguiu a maior acuracidade

99,34%, bem superior à meta pretendida. Todos os outros modelos também conseguiram

valores de acuracidade maiores que 60%. O modelo Linear mostrou ser extremamente preciso

para a série de dados em questão. O erro do valor estimado com o valor original não passou

de 2,5%.

Não foi possível analisar o controlador de banda de forma integral, como proposto em um dos

objetivos específico. Para essa análise ser concluída seria necessária a coleta de valores de

vazão (throughput) por protocolo e IP (loja). Esta é uma sugestão para trabalhos futuros.

O pouco tempo disponível para esse tipo de trabalho foi sem dúvida o maior problema. As

previsões tendem a se tornarem mais precisas com o aumento das amostras. Um outro

trabalho futuro poderia surgir dessa necessidade. A proposta seria um trabalho com um

número maior de coletas e a verificação do erro de previsão em função do número de coletas.

O aprofundamento na análise de tráfego seria também um trabalho futuro bem interessante. O

objetivo seria verificar efeitos específicos dos protocolos como retransmissão, taxa de

abertura de conexão, atrasos de entrega, e outros.

87

7 REFERÊNCIAS

AVALIAÇÃO DE DESEMPENHO DO SERVIÇO LANE. Disponível em: <http://www.rnp.br/newsgen/0007/art3.html>. Acesso em: 23 abril 2005.

CARVALHO, Tereza Cristina Melo de Brito (Org.).Gerenciamento de redes: Uma abordagem de Sistemas Abertos – BRISA. São Paulo: Makron Books, 1993.

FONSECA, Jairo Simon da, Estatística aplicada. 2. ed. São Paulo: Atlas, 1985.

GONÇALVES, Rodrigo Brasil. Análise e caracterização de tráfego da rede local da ALESC. 2005. 117f. Trabalho de Conclusão de Curso (Engenheiro de Computação) - Faculdade de Engenharia de Computação, Universidade do Vale do Itajaí, São José, 2005.

HANKE, John E; REITSCH, Arthur G; WICHERN, Dean W. Business Forecasting. Prentice Hall: New Jersey, 2001.

IBM – TIVOLINI NETVIEW. Disponível em: <http://www.ibm.com/br/>. Acesso em 07 maio 2005.

INTRODUÇÃO – ETHEREAL. Disponível em: <http://www.ethereal.com/introduction.html>. Acesso em 08 maio 2005.

FREUND, John E; SIMON, Gary A. Estatística Aplicada. 9. ed. Porto Alegre: Bookman, 2000.

MINITAB. Disponível em: http://www.minitab.com/support/answers/answer.aspx?ID=721>. Acesso em: 10 Dezembro 2005.

MINITAB. Disponível em:http://www.minitab.com/support/answers/answer.aspx?ID=1121>. Acesso em: 10 Dezembro 2005.

88

MONITORAÇÃO INTEGRADA DE REDES - MIR. Disponível em: <http://www.service.com.br/internet/mir.php>. Acesso em 06 maio 2005.

NETWORK TROUBLESHOOTING TOOLS. Disponível em: <http://www.enterprisenetworkingplanet.com/netsysm/article.php/922351>. Acesso em 08 maio 2005.

NTOP. Disponível em: <http://www.ntop.org>. Acessado em: 09 Maio 2005.

OLIVEIRA, Silvio Luiz de. Tratado de Metodolofia Científica. 2. ed. São Paulo: São Paulo, 1999.

OPPENHEIMER, Priscilla. Projeto de Redes Top Down. 2. ed. Rio de Janeiro: Campus, 1999.

OTIMIZAR – ESTRATÉGIA – INTERNET. Disponível em: <http://www.marktest.pt/produtos_servicos/Netscope/default.asp/>. Acesso em 07 maio 2005.

PASSARI, Antonio Fabrizio Lima. Exploração de Dados Atomizados para Previsão de Vendas no Varejo Utilizando Redes Neurais. São Paulo, 2003 Disponível em http://www.teses.usp.br/teses/disponiveis/12/12139/tde-30082004-105146/publico/Dissertacao_Final.pdf. Acesso em 20 outubro 2005.

SANTOS, Raimundo dos. Metodologia Científica: a construção do comhecimento. 3. ed. Rio de Janeiro: Rio de Janeiro, 2000.

SOARES, Luis Fernando Gomes; LEMOS, Guido; COLCHER, Sérgio. Redes de Computadores: das LANs, MANs e WANs às redes ATM. 6. ed. Rio de Janeiro: Campus, 1995.

SYMMETRY. Disponível em: <http://www.symmetry.com.br/ni_observer_faq.php>. Acesso em: 02 abril 2005.

TANENBAUM, Andrew S. Redes de Computadores. Tradução: Computer Networks. 4. ed. Rio de Janeiro: Campus, 1997.

THE STANDARD FOR FLOW-BASED REPORTING. Disponivel em:

<http://www.netqos.com/solutions/reporter.htm>. Acesso em 06 maio 2005.

TOLEDO, Geraldo Luciano; OVALLE, Ivo Izidoro. Estatística Básica. 2.ed. São Paulo: Atlas, 1995.

89

SPIEGEL, Murray R. Estatística. 3. ed. São Paulo: Pearson, 1994.

TRIOLA, Mario F. Introdução à estatística. Tradutor: Alfredo Alves de Faria. 7. ed. Rio de Janeiro: LTC Livros Técnicos e Científicos Editora, 1999.

TRIVEDI, K. S. Probability and Statistics with Reliability, Queuing, and Computer Science Applications. John Wiley and Sons, New York, 2001.

TUBINO, Dalvio Ferrari. Manual de Planejamento e Controle sa produção. São Paulo: Editora Atlas S.A, 2000.