UNIVERSIDADE DO VALE DO ITAJAÍsiaibib01.univali.br/pdf/Fernando-Schutz.pdf · analisadas e...
Transcript of UNIVERSIDADE DO VALE DO ITAJAÍsiaibib01.univali.br/pdf/Fernando-Schutz.pdf · analisadas e...
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE EDUCAÇÃO SÃO JOSÉ
CURSO DE CIENCIA DA COMPUTAÇÃO
TRABALHO DE CONCLUSÃO DE CURSO
ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO WAN DA REDE REALCOLOR
Fernando Schutz
SÃO JOSÉ, DEZEMBRO DE 2005.
1
FERNANDO SCHUTZ
ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO WAN DA REDE REALCOLOR
Trabalho de Conclusão de Curso apresentado à banca examinadora, do Curso de Ciência da Computação na Universidade do Vale do Itajaí, Campus São José, como requisito parcial para obtenção do título de Bacharel em Ciência da Computação.
Orientador: Prof. Rivalino Matias Junior.
São José, dezembro de 2005.
2
FERNANDO SCHUTZ
ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO WAN DA REDE REALCOLOR
Este Trabalho de Conclusão de Curso foi julgado adequado como requisito parcial para a
obtenção do título de Bacharel em Ciência da Computação, tendo sido aprovado pelo Curso
de Ciência da Computação, Centro de Educação São José da Universidade do Vale do Itajaí
(SC).
São José, 16 de Dezembro de 2005.
------------------------------------------ ----------------------------------------------------
Prof. Esp. Alecir Pedro da Cunha Prof. Fernanda de Souza Cunha Responsável pela Coord. do TCC Coordenadora do Curso
Apresentada à Banca Examinadora formada pelos professores:
---------------------------------------------------------------------------
Orientador Prof. Rivalino Matias Júnior
---------------------------------------------------------------------------
Prof. Ricardo Monteiro, membro da banca examinadora
---------------------------------------------------------------------------
Prof. Marcelo Sobral, membro da banca examinadora
3
EQUIPE TÉCNICA
Nome do aluno
Fernando Schutz
Área de Concentração
Redes de Computadores
Coordenador de Estágio
Professor Alecir Pedro da Cunha
Orientador de Conteúdo
Professor Rivalino Matias Júnior
5
AGRADECIMENTOS
Aos meus pais (Orli Antônio Schutz e Nadir Maria Schutz) por tudo que consegui em minha
vida.
A minha esposa (Carla dos Santos Schutz) pela compreensão e companheirismo.
A todos os meus familiares, em especial aos meus irmãos por acreditarem em mim.
Ao Professor e orientador (Rivalino Matias Junior) pela experiência passada durante todo esse
percurso.
Ao meu amigo e administrador de rede da Realcolor Fabio pela grande ajuda proporcionada
do inicio à conclusão do trabalho.
A todos aqueles que ajudaram de alguma maneira na execução deste trabalho, muito obrigado.
6
RESUMO
A cada dia, as redes de dados vêem se tornando um recurso caro e importante para todos os
segmentos. Gerenciar esses recursos tornou-se algo essencial e lucrativo para muitas
empresas. O objetivo desse trabalho que era a análise e caracterização do tráfego WAN da
empresa Realcolor surgiu das necessidades dessa empresa. Essas necessidades foram
analisadas e associadas aos fundamentos da gerência de desempenho. Para tanto foram
estudados tópicos de gerência de rede e desempenho, arquitetura de rede de computadores,
ferramentas de análise de dados e estatística. Após os estudos teóricos deu-se inicio a
configuração da ferramenta de captura escolhida (NTOP). Os dados gerados pelo NTOP em
páginas HTML foram compilados para sua utilização em planilhas eletrônicas, onde se
desenvolveu a análise dos dados de tráfego. Um dos resultados mostrados foi à análise
descritiva dos dados, com gráficos de valores de pico, médias, protocolos de utilização e
outros. Utilizou-se a estatística para a análise de correlação e regressão entre os hosts, e
também para a análise dos modelos de previsão de cargas futuras. O modelo encontrado de
maior precisão foi o Linear. Dentro do escopo estudado conclui-se que esse modelo pode ser
usado pelos administradores para previsões de cargas futuras.
7
ABSTRACT
Each and every day, the data net are becoming an expensive and important resource for all the
segments. Managing these resources has become something essential and profitable for a lot
of companies. The objective of this work which is the analisys and characterization of the
WAN traffic of Realcolor company emerged from the company’s needs. These needs were
analysed and associated to the knowledges of performance management. For that, net and
performance management, computer net architecture and statistics and data analysis tools
were studied. After theoretical studies the configuration of the chosen capture tool (NTOP)
started. The data generated for the NTOP in pages HTML had been compiled for its use in
electronic spread sheets, where if it developed the analysis of the traffic data. One of the
results shown was the descriptive analysis of the data, with graphs of peak values, averages,
protocols of use and others. Statistics was used to analyse the correlatoin and regression
between hosts, and also to analyse the the models of future load forecasts. The model which
had the most precision was Liner. Inside of the studied target one concludes that this model
can be used by the administrators for future loads forecasts.
8
SUMÁRIO
LISTA DE FIGURAS.............................................................................................................11
LISTA DE TABELAS............................................................................................................12
LISTA DE GRÁFICOS .........................................................................................................13
1 INTRODUÇÃO .................................................................................................................14
1.1 CONTEXTUALIZAÇÃO ........................................................................................14
1.2 PROBLEMA ............................................................................................................15
1.3 OBJETIVOS.............................................................................................................15
1.3.1 Objetivo geral ...................................................................................................15
1.3.2 Objetivos específicos ........................................................................................15
1.4 ESCOPO E DELIMITAÇÕES ..........................................................................................15
1.5 RESULTADOS ESPERADOS ................................................................................17
1.6 JUSTIFICATIVA...........................................................................................................17
1.7 ASPECTOS METODOLÓGICOS...........................................................................18
1.7.1 Caracterização da pesquisa segundo o objetivo ..............................................18
1.7.2 Caracterização da pesquisa segundo os procedimentos de coleta ..................18
1.7.3 Caracterização da pesquisa segundo as fontes de informação........................19
2 GERÊNCIA DE DESEMPENHO EM REDES DE COMPUTADORES.................20
2.1 INTRODUÇÃO A GERÊNCIA DE REDES ........................................................................20
2.1.1 Padrões de gerenciamento (OSI e TCP/IP) .....................................................21
2.1.2 Protocolos de gerenciamento ...........................................................................23
2.1.3 Áreas funcionais ...............................................................................................26
2.2 GERENCIAMENTO DE DESEMPENHO...........................................................................27
2.2.1 Definições de desempenho da rede ..................................................................28
2.2.2 Monitoramento de desempenho........................................................................29
9
2.2.3 Aplicação do gerenciamento de desempenho...................................................29
3 ANÁLISE DE TRÁFEGO EM REDES DE COMPUTADORES .............................31
3.1 INTRODUÇÃO........................................................................................................31
3.2 FERRAMENTAS.....................................................................................................31
3.2.1 Analisadores de protocolo................................................................................31
3.2.2 Produtos para monitoramento de rede.............................................................32
3.2.3 Ferramentas open source / free software ..........................................................35
4 ESTATÍSTICA ...............................................................................................................41
4.1 INTRODUÇÃO........................................................................................................41
4.2 CORRELAÇÃO E REGRESSÃO............................................................................41
4.2.1 Definição de correlação ...................................................................................41
4.2.2 Coeficiente de correlação linear ......................................................................41
4.2.3 Tipos de correlação..........................................................................................42
4.2.4 Interpretação e cálculo prático do coeficiente de correlação linear...............44
4.2.5 Análise de regressão.........................................................................................46
4.3 SÉRIES TEMPORAIS .............................................................................................48
4.3.1 Definição ..........................................................................................................48
4.3.2 Classificação dos movimentos das séries temporais........................................49
4.3.3 Análise das séries temporais ............................................................................49
4.3.4 Estimação da tendência....................................................................................50
4.3.5 Previsão das séries temporais ..........................................................................51
4.3.6 Métodos simples de previsão de séries temporais............................................51
4.3.7 Índices de medidas de precisão........................................................................57
5 COLETA, ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO ..............................59
5.1 AMBIENTE DE EXECUÇÃO: EMPRESA REALCOLOR................................................59
5.1.1 Negócio.............................................................................................................59
5.1.2 Estrutura da rede..............................................................................................59
5.1.3 Necessidades de gerenciamento .......................................................................60
5.2 CONFIGURAÇÃO PARA COLETA E MONITORAMENTO ..................................................60
5.2.1 Ponto de coleta .................................................................................................60
5.2.2 Ferramentas para captura ...............................................................................61
5.2.3 Bridge ...............................................................................................................62
10
5.3 MONITORAMENTO E COLETA DOS DADOS ..................................................................64
5.4 ANÁLISE DOS DADOS .................................................................................................65
5.4.1 Tráfego total WAN............................................................................................66
5.4.2 Protocolos utilizados ........................................................................................71
5.4.3 Taxas de transferências ....................................................................................73
5.4.4 Análise da correlação e regressão no tráfego .................................................76
5.4.5 Modelo de previsão ..........................................................................................79
6 CONCLUSÃO.................................................................................................................85
7 REFERÊNCIAS .............................................................................................................87
11
LISTA DE FIGURAS
Figura 1: Estrutura da rede Realcolor.......................................................................................16
Figura 2: Estrutura do Modelo OSI. .........................................................................................21
Figura 3: Modelo de referência TCP/IP. ..................................................................................23
Figura 4: Modelo de Gerenciamento. .......................................................................................25
Figura 5: Áreas Funcionais de Gerenciamento.........................................................................27
Figura 6: Ambiente da ferramenta Netview. ............................................................................33
Figura 7: Telas Ethereal............................................................................................................37
Figura 8: Throughput da rede. ..................................................................................................40
Figura 9: Tela do Analisador de Protocolos NTOP..................................................................40
Figura 10: Tendências de séries temporais...............................................................................50
Figura 11: Estrutura da rede Realcolor.....................................................................................60
Figura 12: Estrutura da rede Realcolor.....................................................................................61
Figura 13: Tela NTOP (protocolos TCP/UDP). .......................................................................63
12
LISTA DE TABELAS Tabela 1: Coeficiente de Correlação Linear. ............................................................................45
Tabela 2: Cordenadas X/Y .......................................................................................................45
Tabela 3: Coeficiente de Correlação Linear. ............................................................................45
Tabela 4: Localização das lojas ................................................................................................70
Tabela 5: Correlação linear entre lojas e matriz .......................................................................76
Tabela 6: Correlação linear entre lojas e matriz. ......................................................................77
Tabela 7: Correlação linear entre lojas e matriz. ......................................................................77
Tabela 8: Série de dados capturada. .........................................................................................80
Tabela 9: Cálculo dos modelos de previsões............................................................................80
Tabela 10: Acuracidade (dados originais). ...............................................................................81
Tabela 11: Acuracidade aplicando Log sobre os dados. ..........................................................82
Tabela 12: Acuracidade aplicando LN sobre os dados.............................................................82
Tabela 13: Acuracidade aplicando raiz quadrada sobre os dados. ...........................................83
Tabela 14: Acuracidade aplicando 1/X sobre os dados. ...........................................................83
13
LISTA DE GRÁFICOS Gráfico 1: Correlação Linear Positiva. .....................................................................................42
Gráfico 2: Correlação Linear Positiva Perfeita. .......................................................................43
Gráfico 3: Correlação Negativa................................................................................................43
Gráfico 4: Correlação Perfeita Negativa. .................................................................................44
Gráfico 5: Correlação Nula.......................................................................................................44
Gráfico 6: Reta de Regressão. ..................................................................................................46
Gráfico 7: Reta de Regressão Linear Simples. .........................................................................47
Gráfico 8: Gráfico da Função Potência. ...................................................................................48
Gráfico 9: Tráfego Total diário – 15/09/2005 à 08/11/2005. ...................................................66
Gráfico 10: Tráfego total diário (sem sábados, domingos e feriados)......................................67
Gráfico 11: Tráfego total diário -15/09/2005 à 08/11/2005 (sem os valores extremos). .........68
Gráfico 12: Tráfego total diário (enviados e recebidos)...........................................................69
Gráfico 13: Quantidade de dias de maior tráfego.....................................................................70
Gráfico 14: Tráfego semanal. ...................................................................................................70
Gráfico 15: Protocolos utilizados. ............................................................................................71
Gráfico 16: Protocolos de aplicação.........................................................................................72
Gráfico 17: Protocolos de aplicação.........................................................................................73
Gráfico 18: Valores de pico por lojas. ......................................................................................74
Gráfico 19: Horários de maior pico..........................................................................................75
Gráfico 20: Banda consumida. .................................................................................................76
Gráfico 21: Tráfego loja 20. .....................................................................................................78
Gráfico 22: Previsão (pontos 27, 28, 29, 30 e 31). ...................................................................84
14
1 INTRODUÇÃO
1.1 CONTEXTUALIZAÇÃO
Desde a década de 70, o crescimento da tecnologia vem nos trazendo grandes mudanças. Na
área da computação, essas mudanças se resumem na facilidade que temos hoje em obter
informações e realizar processos. Para que isso tenha ocorrido, foi necessário deixar de lado a
idéia de computadores isolados e passar a pensar em computadores interconectados
(TANENBAUM, 1997, p.2). As vantagens que conseguimos desde a criação das redes de
computadores são muitas e a Internet é um exemplo disso.
Tendo em vista a importância das redes no funcionamento dos sistemas computacionais,
tornou-se extremamente essencial seu gerenciamento. Segundo a ISO (International
Organization For Standardization), “o gerenciamento de redes provê mecanismos para a
monitoração, controle e coordenação de recursos em um ambiente OSI (Open System
Interconnection) e define padrões de protocolos OSI para troca de informações entre estes
recursos” (ISO10040). Esse conceito se divide em 5 áreas distintas, são elas: gerenciamento
de falhas, configuração, contabilização, desempenho e segurança.
O enfoque desse trabalho será a área da “gerência de desempenho”, que tem como objetivo
garantir a qualidade de serviço da rede, com os menores recursos possíveis (CARVALHO,
1993, p.15). Dentro da gerência de desempenho existem aplicações específicas tais como a
análise e caracterização de tráfego. “A caracterização do fluxo de tráfego envolve a
identificação das origens e dos destinos do tráfego de rede e a análise da direção e simetria
dos dados que trafegam entre origens e destinos”. (OPPENHEIMER, 1999, p.79).
Esse trabalho tem por objetivo a caracterização do tráfego de uma rede do tipo WAN (Rede
de longa distância), a qual faz parte da infra-estrutura de comunicação de dados da empresa
Realcolor. O estudo foi realizado a partir dos dados monitorados durante um período de 5
meses. Foram utilizadas ferramentas específicas tanto para a captura de dados de rede quanto
15
para sua análise. Dentre as áreas de conhecimento envolvidas, destacam-se arquitetura de
redes de computadores, protocolos de comunicação e estatística.
1.2 PROBLEMA
Descrever o comportamento do tráfego da rede WAN da empresa Realcolor, através da
análise do desempenho dos enlaces, da utilização dos protocolos e de estudos estatísticos.
1.3 OBJETIVOS
1.3.1 Objetivo geral
Análise e caracterização do tráfego WAN da rede Realcolor.
1.3.2 Objetivos específicos
• Apresentar uma análise descritiva do tráfego diário da rede Realcolor;
• Validar a eficácia do atual sistema de controle de banda (QoS – Qualidade de Serviço) da
rede;
• Selecionar um modelo para previsão de cargas futuras para esta rede.
1.4 ESCOPO E DELIMITAÇÕES
Como mencionado anteriormente, o estudo será realizado na empresa Realcolor, tendo como
objetivo principal à caracterização do tráfego diário da rede WAN daquela empresa. A
estrutura da WAN analisada é composta como segue: aproximadamente 20 lojas, distribuídas
pelo estado de Santa Catarina, conectadas ao CPD (Centro de Processamento de Dados)
localizado no centro da cidade de Florianópolis (local onde será realizado este trabalho). As
ligações entre filiais e CPD são realizadas por uma rede InterLan da BrasilTelecom, baseada
em tecnologias xDSL1 e Frame Relay2 utilizando canais de 64 Kbps com banda mínima de 3
kbps, como mostra a Figura 1.
1 Termo genérico utilizado para representar todas as tecnologias DSL (Digital Subscriber Line).
2 Frame Relay é um protocolo WAN de alta-performance que opera nas camadas física e enlace do modelo de
referência OSI.
16
Figura 1: Estrutura da rede Realcolor.
Fonte: CPD – Realcolor
Antes de chegar aos servidores de aplicação, os dados passam por um roteador (concentrador)
e em seguida por um controlador de banda. Esta rede oferece suporte tanto para o ERP
(Enterprise Resource Planning) sistema de gestão integrada da empresa, baseado em SGBD
MS SQL3, como também para troca de mensagens instantâneas, eMails e acesso WEB dos
diversos pontos da rede.
O estudo será realizado sobre os dados obtidos durante o período de aproximadamente três
meses. Com eles serão realizados estudos descritivos e avaliados modelos matemáticos para
previsão de cargas futuras, a fim de se obter um modelo adequado para representar o
comportamento desta rede. O período da coleta de dados mencionado acima foi estimado em
relação ao tempo total em que se cumprirá o projeto (acredita-se que um período maior de
coleta traria melhores resultados estatísticos). Como um dos principais resultados do estudo,
além da caracterização do tráfego, está a validação da efetividade do controlador de banda.
Esta validação é de grande importância para os administradores desta rede.
3 Sigla do Sistema de Gerenciamento de Banco de Dados Microsoft-SQL
17
A análise do tráfego ocorreu entre as lojas (filias) e o CPD (Centro de processamento de
dados), não fazendo parte do trabalho analisar a rede interna do CPD. Foram usadas
ferramentas open source4 para a captura dos dados. A análise e os estudos terão seus
propósitos únicos e exclusivos para a estrutura de rede da empresa Realcolor.
1.5 RESULTADOS ESPERADOS
• Compreender quantitativamente o comportamento da rede sob estudo;
• Selecionar um modelo de previsão de cargas futuras que possua acuracidade superior a
60%5;
• Validar a eficácia da atual política de controle de banda (QoS) da rede.
1.6 JUSTIFICATIVA
Devido ao grande interesse de se especializar na área de redes, necessariamente em “gerência
de redes”, o autor desse trabalho buscou na elaboração de seu TCC uma oportunidade de
aquisição de conhecimento nesta área. Sabendo da atual necessidade em que a empresa
Realcolor tem em avaliar sua rede WAN, foi oferecida a sugestão de analisar o tráfego de rede
nesta corporação. Após algumas reuniões com o responsável pelo CPD, juntamente com o
orientador deste trabalho, verificou-se a necessidade da empresa em possuir previsões sobre
os dados que trafegam entre filias e CPD.
Além de determinar previsões futuras sobre a rede WAN da empresa Realcolor, esse trabalho
irá oferecer uma compreensão quantitativa sobre seu comportamento, ajudando assim na
prevenção de problemas relacionados ao desempenho da rede. Outro aspecto importante na
elaboração desse trabalho é o conhecimento adquirido. Qualquer empresa que utilize esse tipo
de estudo em sua rede terá informações importantes para sua contínua prevenção e
manutenção dos sistemas. No outro lado o autor também somará experiências em algumas
áreas como: arquitetura de redes de computadores, protocolos de comunicação e estatística.
4 Código aberto, ou seja, tipo de software licenciado por uma licença aprovada pela OSI (Open Source Initiative)
e que seja compatível com as definições da OSD (Open Source Definition).
5 Este valor é uma estimativa referente ao trabalho de Rodrigo Brasil Gonçalves (GONÇALVES, 2005)
18
1.7 ASPECTOS METODOLÓGICOS
Após identificar o objetivo geral de uma pesquisa científica é de suma importância mostrar a
metodologia (caminho) que será utilizada para alcançar esse objetivo.
Para caracterizar uma pesquisa, devemos analisa-la sobre três critérios básicos: os objetivos,
os procedimentos de coleta e as fontes utilizadas na coleta (SANTOS, 2000).
1.7.1 Caracterização da pesquisa segundo o objetivo
O objetivo de uma pesquisa é sempre chegar a ponta, ou seja, dar respostas a uma
necessidade. Essas respostas podem ser caracterizadas como exploratórias, descritivas ou
explicativas (SANTOS, 2000).
Tendo em vista que a caracterização do objetivo desse trabalho é descrever sobre um
determinado fato, fenômeno ou problema, identifica-se essa pesquisa como sendo um estudo
da forma descritiva.
Pesquisa descritiva é um levantamento das características conhecidas, ou seja, descreve fatos
ou fenômenos (SANTOS, 2000).
“É certamente o tipo de estudo mais adequado quando o pesquisador necessita obter melhor
entendimento a respeito do comportamento de vários fatores e elementos que influem sobre
determinados fenômenos”. (OLIVEIRA, 1999, p.115).
1.7.2 Caracterização da pesquisa segundo os procedimentos de coleta
Os procedimentos de coleta são os métodos práticos utilizados para coletar informações, que
serão necessárias para o raciocínio em torno de um fato, fenômeno ou problema. As formas
mais comuns de se coletarem informações são: experimento, levantamento, estudo de caso,
pesquisa bibliográfica e pesquisa documental (SANTOS, 2000).
O procedimento de coleta desse trabalho define-se da seguinte maneira: no inicio da análise
os dados serão quantificados e colocados em uma planilha eletrônica. No decorrer do projeto,
serão aplicados modelos estatísticos aos dados obtidos. O modelo que apresentar menor
margem de erro será utilizado nas previsões de cargas futuras. Diante dessas características,
identifica-se na pesquisa o procedimento de coleta do tipo levantamento.
Levantamento é um procedimento de coleta utilizado especialmente em pesquisas
exploratórias e descritivas. É geralmente desenvolvida em três etapas: seleciona uma amostra
significativa; os dados coletados são então tabulados e analisados quantitativamente com o
19
auxilio de cálculos estatísticos; os resultados conseguidos com essa(s) amostra(s) são, então,
aplicados, com margem de erro estatisticamente previsto, ao universo gerador da amostra
(SANTOS, 2000).
1.7.3 Caracterização da pesquisa segundo as fontes de informação
As fontes de informação são os lugares de onde se extraem os dados de que se precisa. Elas
podem ser três: o campo, o laboratório ou a bibliografia. Campo é o lugar natural onde
acontecem os fatos e fenômenos. Normalmente se faz por observação direta, levantamento ou
estudo de caso (SANTOS, 2000).
Tendo em vista o lugar de onde será retirado o dado para a realização desse trabalho,
caracteriza-se a fonte de informação como sendo uma pesquisa de campo.
O instrumento de coleta de dados desse trabalho é da forma passiva, ou seja, não influencia no
comportamento da ambiente a ser analisado.
20
2 GERÊNCIA DE DESEMPENHO EM REDES DE
COMPUTADORES
2.1 INTRODUÇÃO A GERÊNCIA DE REDES
Com o crescimento das redes e de sua importância dentro das organizações, tornou-se
extremamente necessário seu gerenciamento. Uma rede mal estruturada e administrada pode
ocasionar enormes custos e péssimos resultados dos processos que dela dependem
(CARVALHO, 1993, p.14).
Para diminuir a complexidade do gerenciamento e do projeto de redes, dividiu-se a arquitetura
de em camadas ou níveis. O objetivo de cada camada é oferecer determinados serviços para as
camadas superiores, ocultando detalhes da implementação desses recursos. Entre as camadas
adjacentes existe a interface da camada. Ela é responsável por definir as operações e os
serviços que cada camada inferior tem a oferecer para a sua camada superior. A identificação,
conteúdo e a função de cada camada diferem de uma arquitetura de rede para outra
(TANENBAUM, 1997, p.19).
Os dados transmitidos de um nível específico de uma estação não são enviados diretamente ao
mesmo nível em outra estação. Na verdade, eles descem através dos níveis até chegarem ao
nível 1(nível físico) e só então trafegam até a estação correspondente. Do outro lado vão do
nível 1 ao nível correspondente da estação transmissora. As regras e as conversões entre as
estações envolvidas são chamadas de protocolo (SOARES, 1995, p.121).
Um conjunto de camadas de protocolos é chamado de arquitetura de rede. A especificação de
uma arquitetura deve conter informações suficientes para permitir que um desenvolvedor
implemente ou construa o hardware e software necessário para cada camada de modo que ela
transmita corretamente os dados. Os detalhes da implementação das interfaces entre as
camadas não correspondem à arquitetura. O importante é que a estrutura implementada possa
utilizar os protocolos a ela concebida (TANENBAUM, 1997, p.20).
21
A seguir serão apresentados dois importantes padrões de arquitetura de rede: o modelo de
referência OSI e o modelo TCP/IP.
2.1.1 Padrões de gerenciamento (OSI e TCP/IP)
O modelo de referência OSI foi baseado em uma proposta desenvolvida pela ISO, cuja idéia
era dar o primeiro passo na padronização internacional dos protocolos de rede. Esse modelo
possui alguns princípios aplicados que levaram a sete camadas de atuação. São eles:
Uma camada deve ser criada onde houver necessidade de outro grau de abstração;
Cada camada deve executar uma função bem definida;
A função de cada camada deve ser escolhida tendo em vista a definição de
protocolos padronizados internacionalmente;
Os limites da camada devem ser escolhidos para reduzir o fluxo de informações
transportadas entre as interfaces.
O número de camadas deve ser suficientemente grande para que funções distintas não precisem ser
desnecessariamente colocadas na mesma camada e suficientemente pequeno para que a arquitetura não se torne
difícil de controlar (TANENBAUM, 1997, p.32). A seguir será descrita às setes camada do modelo
OSI, como mostra a Figura 2.
Figura 2: Estrutura do Modelo OSI. Fonte: (TANENBAUM, 1999, p.33).
22
Camada Física – é o canal de comunicação por onde passa os bits puros.
Camada de Enlace de Dados – transforma os bits que chegam na camada física em quadro
de dados. Além disso, atua na detecção de erros e no controle de fluxo.
Camada de Rede – controla a operação da sub-rede. Atua no roteamento dos pacotes entre a
origem e o destino.
Camada de Transporte – sua função é dividir os dados da camada de seção, quando
necessário, em segmentos menores, garantindo que essas unidades cheguem corretamente à
outra extremidade.
Camada de Sessão – atua nas conexões fim a fim, gerenciando o controle de tráfego e a
sincronização das mensagens.
Camada de Apresentação – sua principal função é gerenciar as estruturas abstratas vindas da
camada de aplicação e converter-las na representação padrão da rede e vice versa.
Camada de Aplicação – Contém uma série de protocolos necessários para vários tipos de
aplicação como, por exemplo, transferência de arquivos.(TANENBAUM, 1997, p.33).
O modelo de referência TCP/IP foi definido em 1974 com o objetivo de interligar redes com
tecnologias distintas. Sua arquitetura define quatro camadas e seus respectivos protocolos,
como mostra a Figura 3, sendo essa a primeira diferença em relação ao modelo OSI
(SOARES, 1995, p.146).
Apesar disso, os modelos tem muito em comum:
• os dois baseiam-se no conceito de uma pilha de protocolos independentes;
• suas camadas possuem praticamente as mesmas funções;
• acima da camada de transporte estão os usuários orientados à aplicação.
Suas principais diferenças são:
• o modelo TCP/IP não distingue claramente os três conceitos fundamentais do modelo
OSI (serviços, interfaces, protocolos);
• o TCP/IP não trata as camadas de enlace e físico e geralmente as camadas de apresentação
e sessão são implementadas pelas aplicações;
• o TCP/IP aparenta ser menos estruturado que o modelo OSI, porém mais prático e simples
de se utilizar (TANENBAUM, 1997, p.39).
23
Figura 3: Modelo de referência TCP/IP. Fonte: Adaptado (TANENBAUM, 1999).
2.1.2 Protocolos de gerenciamento
Antes de iniciar esse capítulo, vale salientar sobre a ausência do uso de Protocolos de
Gerenciamento nesse trabalho. Por motivos de tempo e complexidade não será utilizado esse
tipo de gerenciamento, e sim, ferramentas específicas para a captura e análise do tráfego.
Para que se possa gerenciar uma arquitetura de rede, é de suma importância definir-se um
modelo de gerenciamento de redes. Para isso dois modelos se destacam: o modelo de
gerenciamento OSI, que utiliza o CMIP (Common Management Information Protocol) e o
modelo INTERNET, que utiliza o SNMP (Simple Network Management Protocol).
Basicamente, os dois protocolos possuem os mesmos objetivos: transferir informações nos
sistemas de gerenciamento de rede, dando condições ao gerente da rede atuar sobre esses
recursos gerenciados, recuperando informações e identificando problemas (CARVALHO,
1993, p.13).
Os processos do CMIP e do SNMP atuam como agentes ou gerente. Os agentes coletam junto
aos objetos gerenciados as informações relevantes para o gerenciamento. O gerente processa
as informações recolhidas, a fim de detectar problemas no funcionamento da rede. Um objeto
gerenciado representa um recurso, que pode ser um sistema hospedeiro, como um servidor, ou
um equipamento de transmissão, como um modem. A seguir será mostrada alguma
funcionalidade do SNMP e do CMIP:
24
O protocolo SNMP é baseado no paradigma conhecido como “busca-armazenamento” (fetch-store), isto é, todas as operações previstas para este protocolo são derivadas de operações básicas de busca e armazenamento. Estas operações básicas incluem:
Get-request: leitura do valor de uma variável;
Get-next-request: leitura do valor da próxima variável;
Get-response: resposta à operação de leitura (get-request on get-next-request);
Set-request: gravação do valor de uma variável;
Trap: notificação da ocorrência de um evento específico.
No caso da operação de trap, deve-se observar que os eventos que, normalmente, geram notificação são predefinidos e correspondem a erros, falhas ou operações anormais do sistema.
As mensagens deste protocolo não possuem campos fixos e são especificadas na notação ASN.1 (Abstract Syntax Ntotation. 1). Elas consistem em três partes principais: versão de protocolo, identificador da comunidade SNMP e área de dados. Para cada uma das operações mencionadas anteriormente, é definido um tipo específico de mensagem de protocolo, isto é um tipo de PDU (Protocol Data Unit). Desta maneira, têm-se: GetrequestPDU, GetnextrequestPDU, GetResponsePDU, SetResponsePDU e TrapPDU (CARVALHO, 1993, p.319-320).
Um framework de gerenciamento dita as regras de comunicação entre gerente e agente. Essas
regras são constituídas de acordo com a filosofia SNMP que defende o seguinte pensamento:
“deve-se haver o mínimo de impacto sobre os nós gerenciados em um gerenciamento de
rede”.
Como dito anteriormente os sistemas baseados em CMIP atuam também no papel de gerente e
agente na troca de informações sobre recursos gerenciados. As informações ficam
armazenadas na MIB (Management Information Base), e são transportadas por um protocolo
de aplicação CMIP (CARVALHO, 1993).
O CMIP comporta vários tipos de PDUs que são mapeadas em operações equivalentes sobre objetos gerenciados, os quais representam os recursos gerenciados. Estas PDUs são, basicamente, as seguintes:
M-GET: leitura dos atributos de objetos gerenciados.
M-SET: modificação dos atributos de objetos gerenciados;
M-ACTION: execução de uma ação qualquer sobre um objeto gerenciado;
M-CREATE: criação de uma instância de um objeto gerenciado;
M-DELETE: remoção de uma instância de um objeto gerenciado;
25
MEVENT-REPORT: emissão de notificação sobre ocorrência de um evento associado a um objeto gerenciado.
Em contraste com o SNMP, os frameworks que utilizam CMIP tendem ao estilo orientado a objeto em suas aplicações modulares. Nesta metodologia, as operações associadas às estruturas de dados são encapsuladas nas próprias estruturas de dados. Com este modelo, o agente contém um servidor de objetos é executado em uma maquina diferente do resto do código de gerenciamento, então esta efetivamente caracterizada a solução de gerenciamento distribuído de rede. O preço que se paga é adicionar complexidade ao agente (CARVALHO, 1993, p.321-322).
A Figura 4 mostra um exemplo dos processos do gerenciador SNMP. O gerente envia
comandos para o agente com a finalidade de gerenciar uma determinada entidade. Além das
áreas funcionais a Figura 4 também mostra a Base de Informação de Gerenciamento, a MIB .
Nela estão armazenados os objetos gerenciados, seus atributos, as operações executadas e as
notificações fornecidas (SOARES, 1995, p.419).
Figura 4: Modelo de Gerenciamento. Fonte: SNMP (Soares, 1995, p.420).
2.1.2.1 RMON (Remote Monitoring)
Com o objetivo de solucionar deficiências nas MIBs padrão foi criado na década de 90 pela
IETF (Internet Engineering Task Force) a MIB RMON. Devido a falta de capacidade das
MIBs convencionais, de fornecer estatísticas sobre parâmetros da camada física, foi
desenvolvido o RMON para fornecer estatísticas de tráfego Ethernet e diagnósticos de falhas.
O RMON possui agentes que obtêm estatísticas sobre os erros de CRC, colisões Ethernet,
erros de Token Ring, distribuição de tamanhos de pacotes, o número de pacotes de entrada e
saída e a taxa de pacotes de difusão, dentre outras. Dentre os diversos grupos que compõem a
26
RMON, o grupo de alarme permite que um administrador de redes defina entradas para
parâmetros de rede e configure agentes para entregar automaticamente alertas aos sistemas
gerentes (OPPENHEIMER, 1999, p. 252).
2.1.3 Áreas funcionais
O gerenciamento de redes abrange cinco principais áreas, são elas: falhas, configuração,
contabilização, desempenho e segurança.
• Gerenciamento de falhas: é uma área bem desenvolvida, que se apóia nas várias
ferramentas disponíveis. Ela é responsável pela manutenção e monitoração do estado de
cada um dos objetos gerenciados assim como as ações necessárias para seus
restabelecimentos. Ela tende a manter a qualidade do serviço acertada com o usuário.
• Gerenciamento de configuração: é responsável pela manutenção e monitoração da
estrutura física e lógica da rede.
• Gerenciamento de contabilização: preocupa-se com a existência e a quantidades dos
recursos utilizados. Ela é responsável por registrar corretamente esses recursos.
• Gerenciamento de desempenho: tem como objetivo garantir a qualidade de serviço da
rede, com os menores recursos possíveis.
• Gerenciamento de segurança: tem a responsabilidade de monitorar e controlar
mecanismos de segurança. Esses mecanismos podem ser desde um controle de acesso aos
sistemas computacionais até o controle dos dados sigilosos que trafegam na rede
(CARVALHO, 1993, p.14).
O gerenciamento OSI procura resolver todos os problemas relativos as áreas funcionais
relatadas. Para isso ele usa os serviços oferecidos pela camada de aplicação do modelo OSI,
como mostra a Figura 5.
27
Figura 5: Áreas Funcionais de Gerenciamento. Fonte: (CARVALHO, 1993, p.37).
2.2 GERENCIAMENTO DE DESEMPENHO
Segundo a ISO, o gerenciamento de desempenho permite medir o comportamento e a
eficiência da rede. Sua administração inclui alguns processos como: examinar os aplicativos
de rede e o comportamento de protocolos, analisar a acessibilidade, medir o tempo de resposta
e registrar as mudanças de rotas na rede. Essa administração facilita a otimização da rede, o
atendimento a acordos sobre níveis de serviços e o planejamento para expansão. O
monitoramento dos dados envolve a coleta e a exibição de alguns ou de todos os dados da
rede (OPPENHEIMER, 1999, p.244).
O uso de analisadores de protocolos ou ferramentas de SNMP é um processo comum no
gerenciamento de desempenho para coletar as cargas de tráfego entre origens e destinos.
Contudo, como comentado anteriormente, não será usado nenhum protocolo de
gerenciamento como o SNMP e sim uma ferramenta para captura de dados (analisador de
protocolos) que será comentada no Capítulo 3.
28
2.2.1 Definições de desempenho da rede
Em um projeto de rede, a identificação dos critérios que irão definir o desempenho da rede è
de suma importância. Muitos são os projetos que não conseguem quantificar suas metas de
desempenho. Para esse caso geralmente são levados em conta à vazão dos dados e o tempo de
resposta. Por outro lado, existem projetos com requisitos de desempenho bem específicos que
podem ser definidos. Para esses podemos listar algumas definições usuais, são elas:
• Capacidade de transmissão (largura da banda): Capacidade de transporte de dados de
um circuito ou uma rede, normalmente medida em bits por segundo (bps).
• Utilização: A porcentagem da capacidade total disponível em uso.
• Utilização Ótima: A máxima utilização média antes de a rede ser considerada saturada.
• Vazão: A quantidade de dados isentos de erros transferidos com sucesso entre dois nós
por unidade de tempo, normalmente segundos.
• Carga oferecida: A soma de todos os dados que todos os nós de rede estão prontos para
enviar em um determinado momento.
• Precisão: A porção de tráfego útil transmitido corretamente, em relação ao tráfego total.
• Eficiência: Uma medida do esforço necessário para produzir uma certa quantidade de
vazão de dados
• Retardo (latência): Intervalo de tempo entre o momento em que uma estrutura está
pronta para ser transmitida a partir de um nó e no momento da entrega da estrutura em
outro lugar da rede6.
• Variação do retardo: A variação da quantidade de tempo médio de retardo7.
• Tempo de resposta: O intervalo de tempo entre a solicitação de algum serviço de rede e
uma resposta ao pedido.
Os dados monitorados podem ser medidos de extremo a extremo em uma inter-rede, ou em
links e dispositivos individuais. De extremo a extremo pode ser medido a disponibilidade, a
capacidade, a utilização, o retardo, a variação da demora, a vazão, a acessibilidade, o tempo
de resposta, os erros e o tráfego em rajadas. Em links ou em dispositivos como roteadores e
6 Esta variável não pode ser analisada somente com captura de dados.
7 Esta variável não pode ser analisada somente com captura de dados.
29
switches, podem ser medidas a vazão (pacotes por segundo), a utilização da memória e da
CPU, e ainda os erros (OPPENHEIMER, 1999, p.25).
2.2.2 Monitoramento de desempenho
a) Monitoramento na Banda (In band)
Com o monitoramento na banda, os dados de gerenciamento trafegam no mesmo caminho do
tráfego do usuário. Essa forma de monitoramento facilita a arquitetura de administração de
rede, porém, provoca alguns impactos negativos em um gerenciamento de rede. O tráfego do
gerenciamento passará a ser tráfego da rede gerenciada, ficando assim vulnerável aos
problemas da mesma. Além do aumento de tráfego qualquer problema na rede afetará no
gerenciamento (OPPENHEIMER, 1999, p.249).
b) Monitoramento fora da Banda (out of band)
Com o monitoramento fora da banda, os dados de gerenciamento trafegam por caminhos
diferentes aos dos usuários. Essa forma de gerenciamento eleva o custo e a complexidade da
arquitetura de gerencia. Porém, esse circuito separado resolve todos os problemas ocasionados
por um monitoramento na banda. Além disso, a gerencia de rede passa a ter dois caminhos
distintos para o gerenciamento (OPPENHEIMER, 1999, p.249).
2.2.3 Aplicação do gerenciamento de desempenho
A fim de ilustrar a utilização da gerência de desempenho, será apresentado a seguir um
resumo do artigo “Avaliação de Desempenho do Serviço LANE sobre ATM” produzido pela
RNP (Rede Nacional de Ensino e Pesquisa).
Este artigo apresenta uma avaliação de desempenho das redes locais virtuais
definidas na Rede Metropolitana de Alta Velocidade de Florianópolis - RMAV-
FLN. Esta rede interliga quatros instituições conveniadas através de comutadores
ATM. As subredes Ethernet são conectadas ao backbone através de comutadores
com uplink ATM. O roteamento IP (Internet Protocol) e os servidores LANE (Local
Area Network Emulation) são implementados em um roteador multi-protocolo.
Inicialmente é avaliado o tráfego nos comutadores ATM identificando os sistemas
finais com maior utilização. Nestes sistemas finais são avaliados os clientes das
redes virtuais com maior utilização. Depois uma avaliação dos servidores LANE
identificando os níveis de utilização das instâncias. O método aplicado permite
visualizar a utilização dos recursos de rede indicando ajustes quando necessário. Os
30
resultados mostram que desempenho do serviço LANE é normal para as condições
de utilização da rede, sem necessidade de reconfiguração.
a) Conclusão do Artigo
Este artigo apresentou os fundamentos para gerenciamento de desempenho no
ambiente LANE. Uma das contribuições deste trabalho é a seleção de um conjunto
de varáveis das MIBs padrões que podem ser utilizadas com qualquer software
genérico de gerência baseado em SNMP para implementação da gerência de
desempenho. Outra contribuição está na aplicação e avaliação do método proposto
em um ambiente real.
Através da monitoração observou-se que o ambiente estudado encontra-se em estado
normal.
As conexões que interligam os comutadores de núcleo estão com baixa utilização,
bem como a conexão com o roteador. O comportamento do tráfego é um em rajadas,
apresentando um desvio muito grande com relação a média. Para esta avaliação
foram considerados os valores máximos de vazão, sem os picos, na tentativa de
encontrar os pontos de saturação. Monitorando os sistemas finais (roteador,
comutador de borda e estações) foram identificadas as interfaces com maior
utilização, entre elas o roteador mss-rmav com 12%, o sb01-ufsc com 6,2% e o
pc100 (aplicações multimídia) com 60%. As taxas de utilização encontradas não
indicam a necessidade de reconfiguração nas interfaces físicas.
Nos sistemas finais foram identificados os clientes das elans com maior utilização.
Verificou-se que a elan48_ufsc tem maior utilização, seguida da elan49_udesc e
elan51_climerh. O maior tráfego da elan48 se dá ter fato dessa instancia ter um
maior número de sistemas finais.
De modo geral pode-se dizer que os servidores LANE apresentam um desempenho
normal, sem descartes no BUS e sem falhas nas requisições para o LES, atendendo
assim os requisitos básicos das instâncias configuradas. No servidor BUS também
foi observado um tráfego em rajadas, onde a instância elan48_ufsc teve maior
utilização. O servidor LES apresentou desempenho nas respostas das requisições
ARP, repassando somente 30% na instância de maior utilização.
Como perspectivas futuras pretende-se armazenar as variáveis descritas, de modo a
obter dados históricos que permitam fazer uma análise de tendência de
comportamento do tráfego. O perfil desta base permitirá a descoberta de valores
limites de utilização dos recursos sem degradação de seu desempenho (MELO;
SARI; SIQUEIRA, 2000).
31
3 ANÁLISE DE TRÁFEGO EM REDES DE
COMPUTADORES
3.1 INTRODUÇÃO
A análise de tráfego consiste na identificação entre as origens e os destinos do tráfego de rede,
assim como a análise da direção e simetria desse tráfego. Dependendo da aplicação, o fluxo
pode ser bidirecional ou unidirecional e ainda simétrico (as extremidades possuem taxas de
transmissões aproximadamente iguais) ou assimétricos (as extremidades possuem taxas de
transmissões diferentes). Para compreender melhor o fluxo8 da rede e necessário
identificarmos de inicio os usuários, os aplicativos e os locais de armazenamento de dados.
Essa compreensão inicial ajuda a entender melhor a estrutura, o funcionamento da rede, e o
local correto da captura do fluxo de tráfego que deverá ser feito por um analisador de
protocolos ou por um sistema de gerenciamento de rede (OPPENHEIMER, 1999, p.79).
Como mencionado anteriormente, este trabalho usará para a captura dos dados o analisador de
protocolos. Algumas ferramentas para análise serão descritas a seguir.
3.2 FERRAMENTAS
3.2.1 Analisadores de protocolo
Um analisador de protocolo é uma ferramenta que captura tráfego da rede, decodifica os
protocolos nos pacotes capturados e fornece estatísticas para caracterizar a carga, os erros e o
tempo de resposta, dentre outros. Os analisadores são capazes de monitorar os dados em
tempo real sem interferir no tráfego da rede. A captura pode ser feita em toda a rede, ou de
8 Fluxo pode ser definido como um tráfego unidirecional com um conjunto de identificação único de variáveis,
como: endereço IP do host de origem, endereço IP do host de destino, protocolo de transporte, porta de origem
(quando aplicável) e porta de destino (quando aplicável).
32
modo específico de acordo com parâmetros escolhidos, como por exemplo, endereços origem
e destino (OPPENHEIMER, 1997, p.72).
Analisadores de protocolos capturam as conversações entre dois ou mais sistemas, ou
dispositivos. Além de capturar o tráfego, ele também decodifica (interpreta), fornece
estatística e informações sobre as tendências do tráfego capturado (SYMMETRY, 2005).
São usados como ferramentas específicas para a gerência de rede. Sua má utilização pode
ocasionar a perda da segurança da rede. Os analisadores em geral possuem várias
funcionalidades como capturar e decodificar os dados armazena-lo, gerar estatísticas, gráficos
e outros. Antes de utilizá-lo, é essencial um estudo sobre a estrutura da rede a ser analisada,
assim como encontrar o melhor local da captura perante seu objetivo (SYMMETRY, 2005).
Alguns dos vários tipos de software analisadores de protocolos serão mostrados a seguir. Os
mais conhecidos e os mais antigos deles são os Sniffer Network Analizer da Network
Associates. Eles possuem um dos mais sofisticado sistema de decodificação de protocolos. A
variável de desempenho mais utilizada será a Capacidade de Transmissão (largura de banda).
As ferramentas descritas a seguir fornecem esse tipo de variável.
3.2.2 Produtos para monitoramento de rede
a) Netview
O Tivoli NetView da IBM atua no gerenciamento e monitoramento de Switches, roteadores e
dispositivos que suportam o protocolo SNMP. Gerencia também os eventos relacionados aos
serviços de rede e no desempenho da rede. A Figura 6 mostra várias telas da ferramenta
Netview em um determinado monitoramento. Os gráficos mostram a quantidade de pacotes
por um intervalo de tempo.
33
Figura 6: Ambiente da ferramenta Netview. Fonte: ( Service IT Solutions )
b) Cisco Netflow e ReporterAnalyzer
O NetFlow é um padrão proprietário da Cisco que possibilita a criação de regras para a
identificação de fluxos no próprio roteador da rede, exercendo a função de medidor. Os dados
coletados sobre estes fluxos, assim definidos devem ser encaminhados para um servidor, a fim
de que possam ser tratados por um software específico de coleta. Outros softwares como o
ReporterAnalyzer podem ser utilizados com o Netflow.
O ReporterAnalyzer é um analisador passivo da empresa NetQos, usado na borda do servidor
que rastreia e mede interfaces WAN e LAN pela coleta e análise da Informação do Cisco
IOS® NetFlow. Ele também fornece uma visão da sua rede corporativa em tráfego,
permitindo que você tome decisões com históricos completos e dados de performance de rede
em tempo real. Coletando informações do Cisco IOS® NetFlow, o ReporterAnalyzer permite
que você veja quais aplicações estão usando largura de banda, quem está utilizando e quando.
34
c)RootNet
Fabricado pela Amix o RootNet é um analisador de protocolos que coleta os pacotes da rede e
constrói um banco de dados de informações. Com base neste banco de dados é possível
conhecer, com detalhes, o perfil de tráfego da sua rede e prever desvios de comportamento.
Características:
• Coleta Informações da rede de forma passiva;
• Fornece informações históricas (relatórios Gerenciais);
• Análise de tráfego de LAN:
• Protocolos IP;
• Protocolos ethernet;
• Tráfego (totais diários, tráfego temporal);
• Pacotes (totais diários, taxa remporal);
• Identifica anomalias da rede.
• Análise de tráfego de Links:
• Direção UPLOAD e DOWNLOAD;
• Tráfego (totais diários, tráfego temporal);
• Pacotes (totais diários, taxa temporal);
• Qualidade (série temporal diária).
• Visão direcionada dentro de um período selecionado:
• IPs mais ativos;
• Portas mais ativas;
• Conexões mais ativas;
• Protocolos mais freqüentes;
• Quantidade de IPs;
• Número de registros gerados.
35
d) Netscope
O Netscope é um software que quando associado a um determinado site, permite quantificar o
número de acessos, determina qual o “browser” utilizado e até a localização do internauta. A
medição de tráfego pelo sistema site-centric é que permite analisar profundamente um site na
Internet. O Netscope é um estudo complementar ao Netpanel, resultado de uma parceria entre
as empresas Weboscope e a Marktest.
A seguir serão apresentadas algumas de suas vantagens:
• Conhecer melhor o tráfego dos respectivos endereços de Internet;
• Aferir o fluxo de todos os endereços de Internet de uma empresa ou grupo;
• Analisar o comportamento dos internautas no(s) respectivo(s) sites;
• Detectar rapidamente os problemas e melhorar o conteúdo dos sites.
3.2.3 Ferramentas open source / free software
a) Tcpdump
O Tcpdump foi desenvolvido na Universidade da Califórnia por um grupo de pesquisadores.
Ele foi originalmente feito para analisar alguns problemas de performance do protocolo
TCP/IP. No decorrer do tempo varias características foram sendo adicionadas, e hoje é uma
das ferramentas gratuitas mais utilizada na captura de dados. Pode ser instalado em várias
plataformas como Unix e Windows. O Tcpdump é usado ou serviu de apoio para vários
programas subseqüentes. Em particular, seu software de captura “libpcap”, é freqüentemente
usado por meio de outros programas de captura.
Sua principal desvantagem é de não possuir uma ferramenta para analisar os dados. Porém,
podemos capturar os dados com Tcpdump, armazenar a captura em uma máquina local e
analisa-la com outras ferramentas, como por exemplo, o Ethereal, mostrado a seguir.
b) Ethereal
O Ethereal é uma ferramenta de análise de protocolo usada em vários países por profissionais
de rede, desenvolvedores de software e protocolos e na educação.
Sua licença “Open Source” permite a ajuda de várias pessoas da comunidade networking.
Trabalha em plataformas populares como Unix, Linux, e Windows.
36
Algumas de suas características são mostradas a seguir:
• a análise pode ser feita sobre uma rede em funcionamento, ou de um arquivo de captura;
• o Ethereal pode analisar arquivos de várias ferramentas como: tcpdump, Microsoft's
Network Monitor, Novell's LANalyzer, RADCOM's WAN/LAN Analyzer e outros.
• o arquivo de captura pode ser exportado para várias extensões como XML e TXT;
• consegue analisar 683 protocolos diferentes;
• podem ser configurados filtros que capturam os campos dos protocolos. Por exemplo, no
protocolo Ethernet pode ser capturado o nome de um determinado site ou endereço IP.
Na Figura 7 serão mostradas duas telas do Ethereal. A primeira mostra alguns pacotes
capturados, e a segunda o gráfico da quantidade de pacotes/tempo dessa captura.
37
Figura 7: Telas Ethereal. Fonte: (Software Ethereal)
c) NTOP
O NTOP é uma ferramenta de análise e captura de dado, disponível em plataformas UNIX e
Win32 e utiliza a biblioteca libpcap para acessar os dados. Segundo seus autores, foi
desenvolvida com semelhança a ferramenta UNIX Top que tem como função relatar o uso do
processador e seus processos. Pode ser usada por gerentes de redes a operadores de rede.
Pode ser acessada por uma interface WEB, de pouca configuração e diversos relatórios. Para
visualizar a interface depois se sua instalação basta acessar o endereço default
http://127.0.0.1:3000.
É desenvolvido utilizando o conceito de código aberto e possui atualmente quatro funções:
• medição do tráfego;
• monitoramento do tráfego;
• otimização e planejamento da rede;
• detecção de violações da segurança da rede.
38
Medição do tráfego:
Essa função consiste em medir as atividades de tráfego. A rede é observada pelo NTOP que
captura todos os pacotes e gera uma série de estatística para cada host. Por capturar todos os
pacotes, ele consegue distinguir os dados enviados e recebidos, os hosts externos e intrenos e
outras atividades do tráfego.
As informações relatadas pelo NTOP para cada host são:
Dados enviados/recebidos O tráfego total enviado ou recebido pelo host. Classificado de
acordo com o protocolo de rede (IP, IPX, AppleTalk, etc.) ou
protocolos IP (FTP, HTTP, NFS, etc.).
Banda utilizada Valor corrente, médio e de pico.
Multcast por IP Quantidade total de Multcast por cada host (enviados e
recebidos).
Histórico das seções TCP Sessões ativas e estabilizadas pelos host.
Tráfego UDP Quantidade total do tráfego UDP por porta.
Serviços usados (TCP/UDP) Lista os 5 últimos hosts que interagiram com um determinado
host (por protocolo).
Distribuição do tráfego Mostra o tráfego local, o local para o remoto, o remoto para o
local e somente o remoto.
Distribuição do tráfego IP Tráfego TCP versos UDP em um determinado host.
As estatísticas sobre o tráfego total da rede são:
Distribuição do tráfego Mostra o tráfego local, o local para o remoto, o remoto para o
local e somente o remoto.
Distribuição dos pacotes Número de pacotes classificados pelo tamanho,
unicast/multicast e IP vs não-IP.
Largura de banda utilizada Valor corrente, médio e de pico.
Distribuição dos protocolos Distribuição do tráfego em função dos protocolos (origem e
destino).
39
Tráfego local Monitoramento do tráfego de cada host local.
Fluxo da rede Fluxo do tráfego dividido em usuários específicos.
Monitoramento do tráfego:
Essa função serve para verificar se o tráfego está ou não de acordo com as políticas
estabelecidas. A seguir são mostrados alguns problemas de configurações que podem ser
detectadas pelo NTOP:
• Uso duplicado do endereço IP;
• Identificação de host locais em modo “promiscuo”;
• Em análise ao tráfego dos protocolos detecta problemas nas configurações de aplicações
de software;
• Identificação dos hosts que não especificam os proxies;
• Identificação dos hosts que utilizam desnecessariamente os protocolos;
• Identificação dos roteadores da rede local: detecção da má configuração das estações que
trabalham como roteadores;
• Utilização excessiva da largura de banda da rede.
Otimização e planejamento da rede:
O NTOP permite identificar hosts que utilizam desnecessariamente a largura de banda e que
possam influenciar negativamente a rede em geral (uso de protocolos desnecessários e
problemas de roteamento). A intenção nessa funcionalidade é promover o uso mais correto da
banda de dados.
Detecção de violações da segurança da rede:
Como o ataque pode vir da mesma rede, o NTOP verifica os acesso entre usuários e identifica
problemas potencias da segurança como: IP spoofing, placas de rede em modo promiscuo,
Trojan e ataques portscan. As violações encontradas podem ser informadas aos operadores de
rede ou armazena-las em uma base de dados.
Exemplo de utilização:
Na Figura 8 a seguir, é mostrado o exemplo do relatório de Throughput, que informa o valor
de pico, o valor médio e o valor corrente do tráfego de cada host.
40
Figura 8: Throughput da rede. Fonte: (Realcolor, 2005)
A Figura 9 a seguir informa o tráfego total da rede nos últimos 10 minutos.
Figura 9: Tela do Analisador de Protocolos NTOP. Fonte: (Realcolor, 2005)
41
4 ESTATÍSTICA
4.1 INTRODUÇÃO
A utilização de técnicas estatísticas e modelos matemáticos em estudos a cerca da análise e
caracterização de tráfego em redes de computadores é fundamental para se obter os resultados
esperados. Neste sentido, a seguir serão apresentados conceitos básicos à cerca desta área de
conhecimento, os quais serão aplicados no desenvolvimento deste trabalho.
4.2 CORRELAÇÃO E REGRESSÃO
4.2.1 Definição de correlação
O estudo da correlação visa identificar a existência e o grau de relações entre duas ou mais
variáveis. Após identifica essa relação, procura-se descrevê-la sob forma matemática, por
meio de uma função (TOLEDO; OVALLE, 1985, p.412).
A correlação entre variáveis e dita perfeita quando todas satisfazem uma equação. Como
exemplo podemos citar a fórmula da circunferência C = 2 π r, onde todos os raios r estão
correlacionados com as circunferências C. A relação entre duas variáveis é denominada
correlação simples, acima de duas é denominada correlação múltipla (SPIEGEL, 1994,
p.359).
4.2.2 Coeficiente de correlação linear
O instrumento de medida da correlação linear é dado pelo coeficiente de correlação de
Pearson:
42
( )( )
( ) ( )2 2
2 2
=
.
XY
X YXY
nrX Y
X Yn n
−
⎡ ⎤ ⎡⎢ ⎥ ⎢− −⎢ ⎥ ⎢⎣ ⎦ ⎣
⎤⎥⎥⎦
∑ ∑∑
∑ ∑∑ ∑
(1)
Equação 1: Coeficiente de Correlação de Pearson. Fonte: (TOLEDO; OVALLE, 1985, p.412).
onde n = número de observações.
O campo de variação do coeficiente r situa-se entre 1 1XYr− ≤ ≤ .
4.2.3 Tipos de correlação
4.2.3.1 Correlação linear positiva
A correlação será considerada positiva se valores crescentes de X estiverem associados a
valores crescentes de Y, ou seja, correlação 0 1XYr≤ ≤ :
Gráfico 1: Correlação Linear Positiva. Fonte: (TOLEDO; OVALLE, 1985, p.413).
4.2.3.2 Correlação linear perfeita positiva
A correlação será considerada linear perfeita positiva se valores crescentes de X estiverem
associados a valores crescentes de Y e os pontos (X, Y) estarem perfeitamente alinhados, ou
seja, correlação 1XYr = :
43
Gráfico 2: Correlação Linear Positiva Perfeita. Fonte: (TOLEDO; OVALLE, 1985, p.414).
4.2.3.3 Correlação negativa
A correlação é considerada negativa quando valores crescentes da variável X estiverem
associados a valores decrescentes da variável Y, ou seja, correlação 1 0XYr− < < :
Gráfico 3: Correlação Negativa. Fonte: (TOLEDO; OVALLE, 1985, p.414).
4.2.3.4 Correlação perfeita negativa
A correlação é considerada perfeita negativa quando valores crescentes da variável X
estiverem associados a valores decrescentes da variável Y e os pontos (X, Y) estiverem
perfeitamente alinhados, ou seja, correlação 1XYr = − :
44
Gráfico 4: Correlação Perfeita Negativa. Fonte: (TOLEDO; OVALLE, 1985, p.415).
4.2.3.5 Correlação nula
A correlação é considerada nula quando não houver relação entre as variáveis X e Y, ou seja,
quando as variações de X e Y ocorrerem independentemente. Correlação : 0XYr =
Gráfico 5: Correlação Nula. Fonte: (TOLEDO; OVALLE, 1985, p.415).
4.2.4 Interpretação e cálculo prático do coeficiente de correlação linear
Para o calculo do coeficiente de correlação é conveniente à construção de uma tabela, onde, a
partir dos valores X e Y, são determinadas todas as somas necessárias:
45
Tabela 1: Coeficiente de Correlação Linear. Fonte: (TOLEDO; OVALLE, 1985, p.416).
Exemplo:
Calcular o coeficiente de correlação linear entre as variáveis X e Y, usando os dados da
Tabela 2:
Y 10 8 6 10 12
X 2 4 6 8 10
Tabela 2: Cordenadas X/Y Fonte: (TOLEDO; OVALLE, 1985, p.416).
Tabela 3: Coeficiente de Correlação Linear.
Fonte: (TOLEDO; OVALLE, 1985, p.416).
46
( )( )
( ) ( )2 2
30 46288 125 = 0,416
(40).(20,8)30 46200 . 444
5 5
XYr−
= =⎡ ⎤ ⎡ ⎤
− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
4.2.5 Análise de regressão
4.2.5.1 Definição de regressão
Estimar o valor de uma variável Y a partir de um valor já conhecido de uma variável X é
denominado em estatística uma regressão de Y para X. Isso pode ser alcançado, por exemplo,
a partir de uma curva ou reta de mínimos quadrados onde a soma das distâncias dos desvios
deve ser o mínimo possível. Essa função resultante é denominada curva ou reta de regressão e
é mostrada abaixo como exemplo (SPIEGEL, 1994, p.336).
Gráfico 6: Reta de Regressão. (FONSECA, 1985, p.83).
Os “Di(s)” são os erros ou desvios. A soma deles ao quadrado deve ser o mínimo possível
(FONSECA, 1985, p.83).
4.2.5.2 Variação marginal
Com a equação de regressão, podemos ver o efeito sobre uma das variáveis, quando a outra
sofre uma variação. Ao trabalharmos com duas variáveis relacionadas por uma equação de
regressão, a variação marginal em uma delas é o quanto ela varia quando a outra variável
sofre uma variação de exatamente uma unidade (TRIOLA, 1999, P.246).
47
4.2.5.3 Regressão linear simples
Quando a função f que relaciona as variáveis é do tipo ( )f x Xα β= + temos o modelo de
regressão linear simples. Esse modelo é representado pela função iYi iX U=α β+ + onde Y é
formado por dois componentes: o componente funcional ou regressão ( )f X , que representa a
influência da variável independente X sobre o valor de Y, e o componente aleatório U que
representa os erros de medição da variável Y quando o mesmo possui vários valores para cada
valor de X, como mostra o Gráfico 7 abaixo (FONSECA, 1985, p.81).
Gráfico 7: Reta de Regressão Linear Simples. Fonte: (FONSECA, 1985, p.81).
4.2.5.4 Regressão linear por transformação
Existem várias funções importantes que, mediante simples transformações, se tornam lineares,
e cujos parâmetros podem ser estimados pelas fórmulas anteriores (FONSECA, 1985, p.87).
Um tipo de transformação será mostrado a seguir:
a) Função Potência (curva geométrica) y xβα=
A função linear resultante de uma transformação logarítmica dupla será:
log log logY Xα β= +
ou seja,
Z A Tβ= +
onde: logZ Y= logA α= logT X=
48
A seguir o é mostrado o Gráfico 8 da função potência:
Gráfico 8: Gráfico da Função Potência. Fonte: (FONSECA, 1985, p.87).
4.2.5.5 Regressão Múltipla
Como na regressão Linear, a Regressão Múltipla também procura estimar o valor de uma
variável. O fato é que na regressão Múltipla existem mais de duas variáveis interferindo no
valor final. A resolução é semelhante ao Linear, porem exige que se calcule tantas equações
normas quantas são as constantes desconhecidas (FREUND, SIMON, 2000, p.311). Ex: Para
ajustar a equação devemos resolver as três equações 2, 3 e 4 normais
abaixo:
22110 xbxbby ++=
(2) ( ) ( )∑∑∑ ++= 22110. xbxbbny ;
( ) ( )( )∑ ∑∑∑ ++= 212211101 xxbxbxbyx ; (3)
( ) ( ) ( )∑∑∑∑ ++= 2222110 22 xbxxbxbyx . (4)
4.3 SÉRIES TEMPORAIS
4.3.1 Definição
Uma série temporal é um conjunto de observações tomadas em tempos determinados,
comumente em intervalos iguais. Matematicamente, uma série temporal é definida pelos
49
valores Y1, Y2, ... de uma variável Y (por exemplo temperatura), nos tempos t1, t2,..ti.
Portanto, Y = F(t) (SPIEGEL, 1994, p.424).
A análise das séries temporais tem como objetivo descrever e analisar o comportamento
passado da série, visando à compreensão do comportamento da série e a conseqüente previsão
de movimentos futuros (FONSECA, 1985, p.87).
4.3.2 Classificação dos movimentos das séries temporais
Os movimentos característicos das séries temporais podem ser classificados em quatro tipos
principais denominados componentes de uma série. São eles:
• movimentos ao longo prazo ou seculares: refere-se à direção geral, segundo a qual o
gráfico da série temporal se desenvolve em um longo intervalo de tempo. Muitas vezes
são usados na determinação dessas retas e curvas o método dos mínimos quadrados,
comentados anteriormente.
• movimentos ou variações cíclicas: refere-se a oscilações em longo prazo ou aos desvios
em torno da reta ou da curva de tendência. Esses ciclos podem ser ou não periódicos, isto
é, podem ou não seguir exatamente padrões análogos depois de intervalos de tempos
iguais.
• movimentos ou variações estacionais ou sazonais: refere-se a padrões idênticos que uma
série temporal obedece durante um determinado ciclo de tempo, em geral até o período de
um ano.
• movimentos irregulares ou aleatórios: refere-se aos deslocamentos esporádicos das séries
temporais provocados por eventos casuais (SPIEGEL, 1994, p.426).
4.3.3 Análise das séries temporais
O método para analisar uma série temporal consiste em decompor a série nos quatro
movimentos característicos. A variável dependente Y será função das componentes: T
(tendência secular), S (variações sazonais ou estacionais), C (variações cíclicas) e I (variações
aleatórias ou irregulares) (FONSECA, 1985, p.142).
Os modelos mais utilizados são o aditivo e o multiplicativo.
Y T C S I= + + + (I) ou
Y T C S I= ⋅ ⋅ ⋅ (II)
50
O modelo (I) admite que as forças dos movimentos cíclicos, sazonal e aleatório operam com
efeitos absolutos iguais, independentes da tendência. O modelo (II) admite que essas forças
atuam proporcionalmente ao nível geral da série. A escolha do método ideal dependerá das
situações circunstanciais do fenômeno a ser estudado (FONSECA, 1985, p.143).
A seguir é mostrado na Figura 10, exemplos dos movimentos característicos das séries
temporais em uma única curva:
Figura 10: Tendências de séries temporais.
4.3.4 Estimação da tendência
Qualquer estudo que envolva planejamento em longo prazo necessita da avaliação da
tendência. A estimação da tendência pode ser obtida através de métodos matemáticos, como a
média dos valores observados ou por uma simples visualização de um gráfico. A seguir serão
mostrados alguns métodos de estimação da tendência:
51
• método dos mínimos quadrados: pode ser usado para determinar a equação de uma reta ou
curva de tendência apropriada. • método a sentimento: consiste no ajustamento de uma reta ou curva de tendência ,
mediante a simples inspeção do gráfico.
• métodos das médias móveis: mediante o emprego de médias móveis de ordens
apropriadas, podem ser eliminadas as variações cíclicas, estacionais e irregulares,
conservado dessa forma apenas o movimento de tendência.
• método das semimédias: separam-se os dados em duas partes (de preferência iguais)
obtendo duas médias. Cada média resultará em um ponto no gráfico por onde passará a
reta da tendência.
Esses métodos são de aplicações simples e só poderão ser usados em tendências lineares ou
aproximadamente lineares (SPIEGEL, 1994, p.431).
4.3.5 Previsão das séries temporais
As previsões baseadas em séries temporais partem do pré-suposto que a demanda futura é
uma projeção dos valores passados, sem nenhuma influência de outras variáveis. Apesar de
ser um método simples e usual, algumas observações devem ser tomadas para a elaboração de
um modelo de previsão dessa natureza. Como visto anteriormente, uma curva temporal pode
possuir alguns tipos de movimentações que podem influenciar os dados. Essas
movimentações deverão ser identificadas, corrigidas e até mesmo retiradas do histórico. A
previsão da demanda em séries temporais pode ser subdividida em passos relacionados a um
determinado fator de influência. Existem técnicas que tratam as tendências, as variações
sazonais e as médias (variações aleatórias) (TUBINO, 2000, p.69).
4.3.6 Métodos simples de previsão de séries temporais
4.3.6.1 Média móvel
È um método que tenta minimizar as variações das séries por um processo de sucessivas
médias. A média móvel usa dados de um número de períodos para gerar sua previsão. A cada
novo período de previsão se substitui o dado mais antigo pelo mais recente (TUBINO, 2000,
p.69). A seguir é mostrada a equação 5 da média móvel:
52
1
n
ii
n
DMm
n==∑
(5)
onde: nMm = média móvel de períodos; n
= demanda ocorrido no período i; iD
n = número de períodos;
i = índice do período;
Exemplo:
A seguir será mostrada, em um período de seis meses, a demanda de um determinado produto.
Período Janeiro Fevereiro Marco Abril Maio Junho
Demanda 60 50 45 50 45 70
A média móvel de três períodos para o mês de julho será:
350 45 70 55,00
3Mm + +
= =
4.3.6.2 Alisamento exponencial simples
Semelhante a média móvel, o Alisamento Exponencial Simples também utiliza as
observações da série temporal. A diferença seria os diferentes pesos dados a cada observação
da série, ou seja, a previsão é obtida com base na previsão anterior, acrescida do erro
cometido na previsão anterior, corrigido por um coeficiente de ponderação (TUBINO, 2000,
p.71). Como mostra a equação 6 a seguir:
1 1(t t t tM M D M 1)α− − −= + − (6) onde: tM = previsão para o período t ;
53
1tM − = previsão para o período 1t − ;
α = coeficiente de ponderação;
1tD − = demanda do período 1t − .
O coeficiente de ponderação (α ) fixado pelo analista dentro de uma faixa entre 0 <=α <= 1.
4.3.6.3 Alisamento exponencial linear
Como visto anteriormente, o alisamento exponencial simples prevê as demandas futuras com
o valor das demandas anteriores. Esse método se torna aplicável na previsão das demandas
com pequenas variações. Se uma determinada demanda possuí grandes tendências, o
alisamento exponencial simples não conseguirá reagir com rapidez. Para esses tipos de dados
tendenciosos, é necessário utilizar então o alisamento exponencial linear, cuja previsão é
baseada em dois fatores: a previsão da média exponencial móvel da demanda e uma
estimativa exponencial da tendência (TUBINO, 2000, p.76). A seguir são mostradas as
equações 7, 8 e 9:
1t tP M+ tT= + (7)
Sendo que:
1( )t t t tM P D Pα= + − (8)
(9) 1 2 1 1(( ) )t t t t tT T P P Tα− − −= + − −
onde: = previsão da demanda para o período 1tP + 1t + ;
tP = previsão da demanda para o período t ;
1tP− = previsão da demanda para o período t 1− ;
tM = previsão média exponencial móvel da demanda para o período ; t
54
tT = previsão da tendência para o período t ;
1tT − = previsão da tendência para o período 1t − ;
1α = coeficiente de ponderação da média;
2α = coeficiente de ponderação da tendência;
tD = demanda do período ; t
Igual ao método do alisamento exponencial simples, os coeficientes de ponderação (α ) são
valores estipulados pelo analista entre 0 e 1.
4.3.6.4 Alisamento sazonal e linear de winter
Esse método é similar ao alisamento exponencial linear, porem, não só analisa os dados com
grande tendência mas também os sazonais (estáveis). Em 1960 Winters definiu o modelo de
Alisamento Sazonal e Linear composto por três equações 10, 11 e 12, incluindo a equação
sazonal (HANKE, 2001, p.118), como mostra a seguir:
- Serie de Alisamento Exponencial:
1 11
(1 )( )tt t
l
XS SL
α α tT− −−
= + − + (10)
- Estimativa da Tendência:
- Estimativa Sazonal:
(1 )tt t
t
XlL y y
SL −= + −
- Previsão futura:
( )t m t t t l mF S mT L+ += + +
onde: = nova previsão da demanda para o período t . tS
α = Coeficiente de ponderação (0 <=α <= 1).
1( ) (1 )t t tT S S T 1tβ β− −= − + − (11)
(12)
55
tX = nova demanda no período . t
β = constante do alisamento de tendência (0<= β <=1).
= estimativa de tendência. tT
= constante do alisamento sazonal (0<= <=1). y y
= estimativa sazonal. tL
m = período da previsão.
l = tamanho da sazonalidade.
= previsão no período t m . t mF + +
4.3.6.5 Técnica naive
Um método simples de fácil aplicação e muito utilizado nas previsões dos preços das ações,
onde a melhor previsão de amanhã é o preço de hoje. A técnica Naive admite que a melhor
previsão para um dado período é o seu período anterior (HANKE, 2001, p.96), como mostra a
equação 13 a seguir:
(13) 1t tY Y− =
Outra técnica Naive existente é a Naive Ajustado. Ela utiliza o valor do período corrente e o
valor do período anterior para estabilizar ainda mais os dados (PASSARI, 2005), como mostra
a equação 14 a seguir:
⎟⎟⎠
⎞⎜⎜⎝
⎛ −+=
−
−+
1
11 1ˆ
t
tttt Y
YYYY (14)
Onde:
Yt - valor do período corrente;
Yt-1 - valor do período anterior.
56
O correto é referenciá-lo como um método não paramétrico para a estimação de tendência,
neste caso, ajustado a um modelo linear.
4.3.6.6 Linear (Sen's slope).
O método Sen é referenciado como um método não paramétrico para a estimação de
tendência, neste caso, ajustado a um modelo linear como mostra a equação 15 abaixo.
(TRIVEDI, 2001).
(15) bQxy +=
b média dos três primeiros valores;
klXX
Qi kl
−−
= ;
},..,1{ Ni = ;
2/)1( −= nnN ;
Exemplo: Considere a série: 34, 45, 51, 49.
Q1 = (45-34)/1= 11
Q2 = (51-34)/2= 8.5
Q3 = (49-34)/3= 5
Q4 = (51-45)/1= 6
Q5 = (49-45)/2= 2
Q6 = (49-51)/1= -2
Ordenar do menor para o maior:
-2, 2, 5, 6, 8.5, 11
Calcular a mediana 5,5.
Calcular a média dos três primeiros: 5.08;
O modelo, portanto é:
f(x)=5.5*x + 5.08.
4.3.6.7 Análise exploratória de dados (EDA)
A análise exploratória dos dados procura explorar melhor a distribuição dos dados que serão
analisados. Ela procura simplificar a descrição dos dados e obter uma visão mais profunda da
sua natureza. (TRIOLA, 1999, p.50). Um exemplo seria a análise feita em um valor distante
57
da média de uma série de dados. Valores alterados podem dar uma idéia errônea ou uma
importante informação da verdadeira natureza da distribuição. Verificar sobre a existência de
um valor alterado, e se seu valor muda a característica de uma série de dados é função da
Análise Exploratória de Dados.
4.3.6.8 Valores extremos (Outliers)
Os valores alterados comentados anteriormente são chamados de Valores Extremos(Outliers)
na Análise Exploratória de Dados. Os Outliers devem ser verificados com rigor nas análises
de um conjunto de dados. Dependendo dos dados analisados, os Outliers representam a única
parte importante da pesquisa ou à menos importante. (TRIOLA, 1999, p.50).
4.3.7 Índices de medidas de precisão
Após calcular qualquer modelo de previsão, é extremamente necessário medir a precisão
desse modelo. Para tanto será apresentado os índices MAD (mean absolut deviation), MSE
(mean squared error), MAPE (mean absolut percentual error) e o MPE (mean percentual
error). (HANKE, 2001, p.75).
Antes de calcular os índices deve-se calcular o erro para cada período de previsão, com a
equação 16 abaixo:
(16) ttt YYe ˆ−=
te = previsão de erro para o período t ;
tY = valor atual no período t ;
tY = valor previsto no período t ;
O MAD informa a média do somatório dos valores absolutos dos erros (módulos):
∑=
−=n
ttt YY
nMAD
1
ˆ1 (17)
O MSE informa a média do somatório dos erros ao quadrado:
( )∑=
−=n
ttt YY
nMSE
1
2ˆ1 (18)
58
O MAPE informa a média em porcentagem do somatório dos valores absolutos dos erros
(módulos):
∑=
−=
n
t t
tt
Y
YY
nMAPE
1
ˆ1 (19)
O MPE informa a média em porcentagem do somatório dos erros:
)(∑=
−=
n
t t
tt
YYY
nMPE
1
ˆ1 (20)
59
5 COLETA, ANÁLISE E CARACTERIZAÇÃO DO TRÁFEGO
5.1 AMBIENTE DE EXECUÇÃO: EMPRESA REALCOLOR
5.1.1 Negócio
A Realcolor é uma empresa de produtos e serviços fotográficos com sede em
Florianópolis/SC na Rua Trajano 271 – Centro. Fornece serviços fotográficos como:
revelações, modificações, restaurações entre outros. Possui 11 lojas espalhas pelas cidades de
Lages, Criciúma, Tubarão, Blumenau e Florianópolis.
5.1.2 Estrutura da rede
A estrutura da rede WAN Realcolor é composta de 11 lojas distribuídas pelo estado de Santa
Catarina, conectadas a um CPD localizado no centro da cidade de Florianópolis. As ligações
entre filiais e CPD são realizadas por uma rede InterLan da BrasilTelecom, baseada em
tecnologias xDSL e Frame Relay. Utiliza-se em princípio, canais de 64 Kbps com banda
mínima de 3 kbps para cada loja. Antes de chegar aos servidores de aplicação, os dados
passam por um roteador da BrasilTelecom (concentrador) e em seguida por um controlador de
banda configurado em Sistema Operacional FreeBSD. Após o controlador, existe uma rede
interna composta por quatro servidores de aplicação Windows 2000 Server e um Firewall
com sistema operacional Linux e acesso à internet ADSL. Três servidores de aplicação são
utilizados para suporte do ERP (Enterprise Resource Planning), sistema de gestão integrada
da empresa Microsiga, baseado em SGBD MS SQL. O outro servidor é utilizado para dar
suporte a transferência de imagens do sistema Sigi. Além dos softwares de gestão as lojas
utilizam o CPD para acesso WEB, eMail e troca de mensagens instantâneas (MSN
messenger). A Figura 11 mostra a estrutura da rede mencionada acima.
60
Figura 11: Estrutura da rede Realcolor.
Fonte: CPD – Realcolor
5.1.3 Necessidades de gerenciamento
Mesmo tendo sido montada com recursos tecnológicos de alto custo como linhas de dados
dedicadas e servidores de aplicação, a rede WAN Realcolor nunca foi submetida a uma
análise e caracterização de tráfego. As informações adquiridas nesse trabalho poderão ser de
grande importância para os administradores, visto que tentarão esclarecer dúvidas que
englobam custos, gerenciamento e previsões. Saber o quanto está sendo utilizado de banda e
qual a tendência dessa utilização são informações importantes quando se utilizam recursos
caros e limitados.
5.2 CONFIGURAÇÃO PARA COLETA E MONITORAMENTO
5.2.1 Ponto de coleta
Como um dos objetivos do trabalho é analisar o tráfego WAN, seria necessário um local de
coleta onde passassem todos os dados que trafegam entre as lojas e CPD. Analisando esse
61
requisito verificou-se que o ponto mais estratégico para a coleta de dados estaria entre o
roteador e o controlador de banda. Assim, todos os dados que trafegarem entre as lojas e CPD
irão passar pelo analisar de protocolo, como mostra a Figura 12.
Figura 12: Estrutura da rede Realcolor.
Fonte: CPD – Realcolor
5.2.2 Ferramentas para captura
Após ter encontrado o ponto de coleta de dados, iniciou-se uma fase operacional de
configurações e instalações de ferramentas de apoio. O hardware escolhido para a captura
possui a configuração AMD K6-II 550Mhz, com 512Mbytes de memória RAM. Nele foi
instalado o sistema operacional Linux Fedora Core 4 e o programa NTOP versão 3.0.0.1.
Devido à posição do analisador de protocolos estar entre o roteador e o controlador de banda,
62
tornou-se necessário implementar a funcionalidade de bridging9 na máquina do NTOP. A
seguir serão apresentados os detalhes dessa configuração.
5.2.3 Bridge
Para a configuração da bridge foi necessária a instalação de duas placas de rede na mesma
máquina. Após a instalação das placas foi feita a configuração da bridge com o comando brctl
do Linux, como mosrtra o script abaixo.
brctl addbr probe
brctl addif probe eth0
brctl addif probe eth1
ifconfig probe 192.168.1.244
ifconfig eth0 up
ifconfig eth1 up
ifconfig probe up
A primeira linha identifica a criação de uma interface virtual de nome probe. As duas linhas
seguintes associam a interface virtual as duas interfaces físicas eth0 e eth1. A quarta linha
atribui o endereço IP a interface virtual. As linhas restantes servem para ativar as três
interfaces. Após executar essas linhas de comando, a bridge estava configurada e pronta para
ser usado pelo NTOP na captura dos dados. É importante lembrar que a coleta será feita de
forma passiva não alterando assim o tráfego original do link.
5.2.3.1 Utilização NTOP
Apesar das várias funções já mostradas, a utilização do NTOP nesse trabalho foi limitada,
devido a seu escopo, à função “medição de tráfego”.
A medição de tráfego consiste em medir as atividades relevantes ao tráfego. O NTOP observa
o uso da rede, gerando uma série de estatísticas para cada host.
As informações coletadas pelo NTOP que serviram para a confecção do trabalho foram:
• Os dados enviados e recebido: o tráfego total (volume e pacotes) gerado ou recebido pelo
host. Classificado de acordo com o protocolo de rede (TCP, UDP, ARP, etc.) e aplicação
(FTP, HTTP, Messenger, etc.);
9 Interface que atua como uma ponte entre segmentos de rede LAN, conceituado pelo padrão IEEE 802.1D.
63
• Largura da banda usada: uso real, médio e pico;
• Distribuição de tráfego: tráfego local, local para o tráfego remoto, remoto para o tráfego
local;
• Como estatísticas globais de toda a rede foram levantadas as seguintes:
• Largura de banda utilizada: uso real, médio e pico;
• Tráfego Total: Quantidade do tráfego monitorado em toda a rede.
As funcionalidades mostradas anteriormente podem ser vistas por qualquer interface Web.
Basta acessar no browser o endereço IP da máquina NTOP seguido da porta de utilização, por
default 3000. Como mostra o exemplo abaixo:
http://192.168.1.244:3000
Na Figura 13 é apresentado um exemplo de monitoramento feito pelo NTOP dos protocolos
de aplicação mais utilizados:
Figura 13: Tela NTOP (protocolos TCP/UDP). Fonte: (Realcolor, 2005)
64
5.3 MONITORAMENTO E COLETA DOS DADOS
Para iniciar o monitoramento e captura dos dados, é necessária a execução do NTOP. Para
tanto, deve ser digitado no console do sistema operacional a seguinte linha de comando:
ntop -u ntop -i probe -d -n -w 192.168.1.244:3000 -W 0 -M --disable-schedyield --skip-
version-check --protocols="Microsiga=1024|5024,HTTP=http|www|https|3128,FTP=ftp|ftp-
data, DNS=name|domain,Telnet=telnet|login,NBios-IP=netbios-ns|netbios-dgm|netbios-
ssn,Mail=pop-2|pop-3|pop3|kpop|smtp|imap|imap2,DHCP-BOOTP=67-
68,SNMP=snmp|snmp-
trap,NNTP=nntp,SSH=22,Kazaa=1214,Messenger=1863|5000|5001|5190-5193"
A linha acima foi colocada no arquivo de inicialização (rc.local) do Linux. Portanto, toda vez
que o sistema operacional for iniciado, iniciará também o serviço de captura do NTOP. O
endereço IP indicado é serve de acesso a interface gráfica. O comando também informa quais
protocolos de aplicação serão capturados e suas devidas portas.
Após ter identificado todas as páginas referentes aos objetivos do trabalho, iniciou-se o
processo de armazenamento. As html geradas pelo NTOP foram armazenadas com o comando
Wget, como é mostrado abaixo:
wget -p -E "http://192.168.1.244:3000/trafficStats.html" -nH -nd -P/coleta/`date
+%m_%d_%a`/`date +%H-%M`/SUMMARY_TRAFFIC/
Neste exemplo a página "http://192.168.1.244:3000/trafficStats.html" está sendo
armazenada no diretório “coleta/dia/hora”. Cada página capturada tem sua linha de comando
Wget. Essas linhas foram armazenas em um arquivo ShellScript e executadas no agendador
de tarefas do Linux, hora em hora. A seguir será mostrado uma parte do arquivo
“script_ntop.sh” usado nas gravações das páginas HTML.
65
Os dados coletados foram transferidos para planilhas do Excel. Em cada planilha foram
identificados e retirados os dados irrelevantes. Após as devidas filtragens, as planilhas se
encontram prontas para serem analisadas em função dos dados pretendidos. A seguir serão
apresentadas as análises feitas nestes dados.
5.4 ANÁLISE DOS DADOS
Após as devidas instalações e configurações, iniciou-se em 15 de setembro o primeiro dia de
coleta. Muitos problemas ocorreram durante a captura. Aquecimento e travamento de
hardware, erros no sistema operacional, nome dos arquivos gerados não compatíveis com o
sistema operacional Windows, ausência das pessoas encarregadas em verificar o
funcionamento da máquina de captura, problemas de acesso à empresa na ausência dos
funcionários do setor, informação não muito precisas das configurações de rede da empresa,
do sistema Microsiga e do sistema Sigi.
As primeiras semanas serviram para a análise dos resultados, ou seja, verificou-se a
suficiência dos dados para o alcance dos objetivos. De início foi observado a quase ausência
66
de tráfego no período noturno de 24:00 à 07:00hs. Essa ociosidade é facilmente explicada
devido aos horários de funcionamento das lojas filiais. Estipulou-se então um novo horário de
monitoramento, das 07:00 às 23:00hs. Essa pequena configuração resultou em valores de
médias bem mais precisos e próximos da realidade.
5.4.1 Tráfego total WAN
O Gráfico 9 mostra a quantidade total do tráfego diário da rede WAN no período de 15 de
setembro a 8 e novembro.
050
100150200250300350400450500
15/9/
05
18/9/
05
21/9/
05
24/9/
05
27/9/
05
30/9/
05
3/10/0
5
6/10/0
5
9/10/0
5
12/10
/05
15/10
/05
18/10
/05
21/10
/05
24/10
/05
27/10
/05
30/10
/05
2/11/0
5
5/11/0
5
8/11/0
5
Tráfego Total - WAN
Dias
MBytes
Gráfico 9: Tráfego Total diário – 15/09/2005 à 08/11/2005.
A maior parte dos valores extremos refere-se aos finais de semana e feriados. Para uma
melhor análise da tendência do tráfego foram retirados esses dias. O resultado é apresentado
no Gráfico 10 abaixo.
67
050
100150200250300350400450500
15/9
/05
18/9
/05
21/9
/05
24/9
/05
27/9
/05
30/9
/05
3/10
/05
6/10
/05
9/10
/05
12/1
0/05
15/1
0/05
18/1
0/05
21/1
0/05
24/1
0/05
27/1
0/05
30/1
0/05
2/11
/05
5/11
/05
8/11
/05
Tráfego Total - WAN Retirados os sábados, domingos e feriados.
MBytes
Dias
Gráfico 10: Tráfego total diário (sem sábados, domingos e feriados).
Mesmo com a melhora ainda existem no Gráfico 10 alguns valores extremos. Foi feito então
uma análise em todos os dias de baixo tráfego e verificado o motivo. Foram identificados três
dias em que o NTOP não capturou os dados corretamente, devido a problemas operacionais
de travamento e de erros no sistema operacional. Nos dias 11 e 13 de outubro o NTOP parava
de capturar ao iniciar o sistema operacional. Esse problema resultou em uma nova instalação
de todo o sistema. Após a persistência dos erros no dia 28 de outubro foi substituída a
máquina de captura.
Os valores desses dias foram trocados pela média de todos os outros dias. O resultado está no
Gráfico 11.
68
050
100150200250300350400450500
15/9/
2005
18/9/
2005
21/9/
2005
24/9/
2005
27/9/
2005
30/9/
2005
3/10/2
005
6/10/2
005
9/10/2
005
12/10
/2005
15/10
/2005
18/10
/2005
21/10
/2005
24/10
/2005
27/10
/2005
30/10
/2005
2/11/2
005
5/11/2
005
8/11/2
005
MBytes Tráfego Total - WAN
Dias
Análisado e retirado os valores extremos
Gráfico 11: Tráfego total diário -15/09/2005 à 08/11/2005 (sem os valores extremos).
Após ter resolvido os problemas dos valores extremos ficou mais fácil visualizar a tendência
do tráfego. A linha de tendência colocada no Gráfico 11 mostra um leve aumento de consumo
no tráfego total (enviados e recebidos) da rede WAN. Esse aumento pode ser associado à
inclusão do serviço de transferência de imagem imposto pela empresa no inicio da análise.
A seguir no Gráfico 12 é mostrada a porcentagem de tráfego recebido e enviado pela WAN.
Os dados recebidos são aqueles enviados pelo CPD que tiveram como destino às lojas. Os
dados enviados são aqueles que saíram das lojas com destino aos servidores ou Internet.
69
Tráfego WAN - Enviados/Recebidos
61%
39%Enviados
Recebidos
Gráfico 12: Tráfego total diário (enviados e recebidos).
O resultado do Gráfico 12 mostra que os servidores recebem mais dados do que enviam. A
explicação para isso seria o servidor de imagens que recebe constantemente fotos digitais para
revelação. Para embasar esta suposição será mostrada no tópico seguinte a porcentagem do
tráfego dos protocolos de aplicação, inclusive o que se estima ser do servidor de imagens.
Outra análise importante sobre o tráfego total é o detalhamento desse tráfego. A seguir será
mostrada no Gráfico 13 as lojas que mais transferiram dados pela rede WAN, e no Gráfico 14
a quantidade desse tráfego por dia da semana. As localizações dessas lojas são dadas como
segue:
Loja 3 Tubarão
Loja 5 Criciúma
Loja 8 Felipe Schimidt, centro/Fpolis
Loja 9 Blumenau
Loja 11 Felipe Schimidt, centro/Fpolis
Loja 12 Shopping Beira Mar
Loja 13 Lages
Loja 14 Criciúma
70
Loja 19 Criciúma
Loja 20 Lagoa/Fpolis
Loja 29 Jerônimo Coelho, centro/Fpolis
Tabela 4: Localização das lojas
Quantidade de dias de maior tráfego
3%
17%
54%
8% 8% 10%
loja 3loja 5loja 9loja 12loja 13loja 19
Gráfico 13: Quantidade de dias de maior tráfego.
O Gráfico 13 mostra que a loja 9 teve em 54% dos dias de captura o maior numero de
transferência de dados. Em segundo lugar está a loja 5 com 17% dos dias. A seguir será
apresentado no Gráfico 14 o tráfego semanal, como mencionado anteriormente.
Gráfico 14: Tráfego semanal.
71
Os valores calculados correspondem às médias dos dias da semana.O dia de maior tráfego, no
período analisado, é segunda-feira.
5.4.2 Protocolos utilizados
A seguir será apresentado o tráfego em função dos protocolos utilizados. O Gráfico 15 mostra
os 4 protocolos utilizados do modelo TCP/IP das camadas “Inter-rede” e “Transporte”.
Gráfico 15: Protocolos utilizados.
O Gráfico 15 mostra claramente que o uso do protocolo TCP é extremamente superior aos
demais protocolo. Para uma melhor análise é mostrado no Gráfico 16 os protocolos de
aplicação, referente ao modelo TCP/IP.
72
1%
23%
73%
1%
2%
FTPHTTPDNSNBios-IPMailDHCP-BOOTPNFS/AFSKazaaeDonkeyMessengerOther IP
Protocolos de aplicação(05/10 à 14/10)
Gráfico 16: Protocolos de aplicação.
O Gráfico 16 mostra que a ferramenta de captura não conseguiu identificar 73% dos
protocolos utilizados. Fazendo uma análise de todas as aplicações que necessitam da rede
WAN, identificou-se duas de grande finalidade que talvez possuíssem protocolos
proprietários não entendidos pelo NTOP. Uma delas é o MicroSiga, sistema de gestão
integrada da empresa e a outra o Sigi, sistema de transferência de imagens para revelação.
Em contato com o fabricante do MicroSiga descobriu-se as portas de utilização da aplicação
na rede. O mesmo não aconteceu com o fabricante Sigi, que se recusou a dar informações.
Sabíamos que o protocolo utilizado pelo sistema Sigi é o FTP, porém, não obtivemos sucesso
nas capturas das portas “default” 20 e 21. Foi feito então uma análise específica, com o intuito
de descobrir as portas utilizadas na transferência de imagens. Enviando imagens de uma das
lojas para o servidor de imagens e analisando a conversa entre essas duas máquinas,
descobriu-se que o sistema utiliza o FTP em modo passivo. No FTP passivo, o cliente FTP faz
a primeira conexão com o servidor em modo passivo, fazendo com que o servidor escolha a
numeração da porta dinamicamente entre 1024 a 65535, ou seja, o servidor FTP não transfere
arquivos pela porta 20, como no modo padrão (não-passivo).
Configurou-se então o NTOP para filtrar as portas 1024 e 5024 referentes à aplicação
Microsiga. O resultado pode ser visto no Gráfico 17.
73
1%16%
39%42%
1%1%
FTP
HTTP
DNS
NBios-IP
DHCP-BOOTP
Messenger
Microsiga
Other IP
Protocolos de aplicação (17/10 à 8/11)
Gráfico 17: Protocolos de aplicação.
Com essa nova configuração diminuiu-se quase pela metade a não identificação (Other Ip)
dos protocolos de aplicação. Como visto o Microsiga possui 39% do tráfego no caso acima.
Estima-se que os 42% não identificados são referentes à transferência de imagens do sistema
Sigi.
5.4.3 Taxas de transferências
Como mencionado anteriormente a Realcolor possui um link de 512Kbps de tecnologia
Frame-Relay. Esse link é dividido em vários canais de 64Kbps, destinados a cada loja filial.
Para verificar o comportamento desses links foi feita uma análise detalhada dos valores de
pico diários de cada loja, mostrados no Gráfico 18.
75
Os valores de pico mostrados no Gráfico 18 referem-se aos dados enviados e recebidos na
rede WAN. A configuração desses canais foram repassadas pela BrasilTelecom como sendo
simétricos e full-duplex, ou seja, um link de 64Kbps pode enviar e receber ao mesmo tempo
com banda de 64Kbps e ter valores de pico até 128Kbps. Analisando o Gráfico 18 nota-se que
algumas lojas tiveram valores de pico superiores a 200Kbps, mesmo tendo um link de
64Kbps. Em entrevista com técnicos da BrasilTelecom conclui-se que como o link total da
Realcolor é de 512Kbps na Matriz e só depois é dividido em canais de 64Kbps é
perfeitamente possível que o tráfego que sai da Matriz em direção as lojas pode ter, em
primeiro instante, picos maiores que 128Kbps. O problema está no tráfego que sai da matriz,
pois os que entram já chegam com 64Kbps.
Outra forma encontrada de avaliar o tráfego pelos valores de pico é mostrada no Gráfico 19,
onde se verificou o horário de maior pico em toda e rede WAN.
Gráfico 19: Horários de maior pico.
O Gráfico 19 apresenta os horários de maior tráfego de toda a rede WAN, compreendidos
entre 11:00 - 13:00hs e 16:00 – 18:00hs.
Para finalizar a análise sobre taxa de transferências, calculou-se o valor médio de toda rede
WAN e se comparou com a banda total alocada. O resultado mostrado no Gráfico 20 informa
que em média menos de 20% da banda total é utilizada.
76
Gráfico 20: Banda consumida.
5.4.4 Análise da correlação e regressão no tráfego
5.4.4.1 Correlação
Os valores das correlações mostradas a seguir referem-se a 34 dias de coletas, onde todas as
lojas tiveram participação no envio e recebimento dos dados. Para calcular os valores de
correlação foi utilizado o software de estatística Minitab 14.2 V.
A primeira análise de correlação foi realizada usando os valores do tráfego diário enviado, de
cada loja, com os valores do tráfego recebido na matriz (servidores). Os dados referentes aos
servidores são exclusivamente das aplicações Microsiga e Sigi. Já os referentes às lojas
englobam além das duas aplicações os tráfegos de Internet (HTTP, msn e outros). O objetivo
é saber qual o grau de relação que cada loja possui com a matriz (servidores) em função do
envio e recebimento de dados. A seguir é apresentada a correlação de todas as lojas e da
matriz (servidores).
L3 L5 L8 L9 L11 L12 L13 L14 L19 L20 L29 L5 0,465 L8 0,034 0,328 L9 0,325 0,181 -0,016 L11 0,563 0,359 0,055 0,433 L12 0,065 0,217 0,119 0,132 0,249 L13 0,103 0,076 -0,169 0,163 0,474 0,135 L14 0,195 0,022 -0,111 0,451 0,403 0,158 0,471 L19 0,563 0,311 0,057 0,335 0,171 0,142 0,024 0,246 L20 0,304 0,242 -0,041 0,390 0,631 0,065 0,215 0,312 0,263 L29 0,430 0,227 0,149 0,419 0,676 0,251 0,214 0,340 0,032 0,302 Serv 0,706 0,627 0,107 0,634 0,698 0,357 0,477 0,501 0,617 0,444 0,478
Tabela 5: Correlação linear entre lojas e matriz
77
As lojas 3, 5, 9,11 e 19 possuem uma maior relação com os dados recebidos pelos servidores,
ou seja, essas lojas demonstram utilizar a rede, em grande parte, para as aplicações Microsiga
e Sigi, em comparação com as demais. Sabendo que essas lojas são também as que mais
enviam dados, pode-se concluir que as alterações em seus tráfegos afetarão em boa parte os
tráfegos dos servidores. A seguir será mostrada a relação dos valores dos tráfegos diários
recebidos, de cada loja, com os valores dos tráfegos enviados pela matriz (servidores).
L3 L5 L8 L9 L11 L12 L13 L14 L19 L20 L29 L5 0,420 L8 0,392 0,354 L9 0,391 0,250 0,349 L11 0,618 0,463 0,236 0,434 L12 0,453 0,103 0,322 0,349 0,400 L13 0,236 0,385 0,491 0,417 0,492 0,367 L14 0,412 0,381 -0,078 0,271 0,606 0,147 0,268 L19 0,026 0,039 0,114 0,495 0,209 0,377 0,281 0,169 L20 0,353 0,382 -0,044 0,443 0,626 0,275 0,243 0,440 0,292 L29 0,617 0,249 0,255 0,368 0,671 0,288 0,435 0,480 0,029 0,367 Serv 0,651 0,533 0,217 0,460 0,692 0,341 0,444 0,521 0,193 0,470 0,584
Tabela 6: Correlação linear entre lojas e matriz.
As lojas 3 e 11 permaneceram bem correlacionadas com os servidores, fortalecendo a idéia
que essas lojas utilizam a rede, em grande parte, para as aplicações Microsiga e Sigi.
A seguir será mostrada a relação do tráfego total de todas as lojas e servidores.
L3 L5 L8 L9 L11 L12 L13 L14 L19 L20 L29 L5 0,511 L8 0,167 0,430 L9 0,331 0,258 0,133 L11 0,553 0,407 0,186 0,434 L12 0,262 0,342 0,269 0,215 0,402 L13 0,185 0,153 0,015 0,342 0,522 0,252 L14 0,413 0,097 -0,098 0,589 0,585 0,203 0,391 L19 0,499 0,297 0,089 0,374 0,190 0,211 0,063 0,304 L20 0,345 0,257 -0,051 0,400 0,660 0,189 0,286 0,442 0,250 L29 0,498 0,173 0,239 0,413 0,719 0,270 0,360 0,508 -0,005 0,371 Serv 0,723 0,656 0,204 0,674 0,664 0,409 0,560 0,567 0,600 0,435 0,449
Tabela 7: Correlação linear entre lojas e matriz.
Como previsto, as lojas 3, 5, 9, 11 e 19 mostraram ter grande correlação com as variações do
tráfego das aplicações Microsiga e Sigi.
A seguir será mostrada a equação de regressão múltipla, que tem como objetivo estimar o
valor do tráfego dos servidores da matriz em função dos tráfegos de todas as lojas.
78
5.4.4.2 Regressão múltipla
Com os valores totais da correlação foi calculada, também com o Minitab 14.20 V, a equação
de regressão múltipla. Essa equação estima alcançar o valor do tráfego usado pelos servidores
em função dos tráfegos gerados pelas lojas, lembrando sempre que a equação é proveniente
dos valores da série temporal capturada. A seguir é mostrada a equação 21:
Serv = - 3938530 + 0,985 L3 + 1,08 L5 - 1,00 L8 + 0,906 L9 (21) + 1,73 L11 + 0,142 L12 + 1,24 L13 + 0,520 L14 + 0,985 L19 - 3,64 L20 - 0,199 L29
Analisando a equação acima, nota-se que as lojas 8, 20 e 29 são inversamente proporcionais
ao tráfego dos servidores, ou seja, se aumentar o tráfego dessas lojas diminui o tráfego dos
servidores ou vice versa. Antes de explicar essa análise vale a pena lembrar que os tráfegos
referentes aos servidores são exclusivamente das aplicações Microsiga e Sigi, enquanto que
das lojas engloba-se também os tráfegos externos (HTTP, MSN e outros). Analisando a
correlação múltipla do tópico anterior, verificou-se que as lojas 8, 12, 20 e 29 possuem baixa
correlação com os servidores. Essa informação resultou no único entendimento plausível
sobre a inversão dos pesos das lojas 8, 20 e 29. Foi feito então uma análise no tráfego dos
protocolos da loja de maior peso negativo (loja 20). O objetivo era mostrar a quantidade de
tráfego gerado pelas aplicações Microsiga e Sigi em função do tráfego restante (HTTP, MSN
e outros). O Gráfico 21 abaixo mostra o tráfego gerado pela loja 20 em 6 dias de coleta.
Gráfico 21: Tráfego loja 20.
79
Esse resultado confirma a maior utilização de outras aplicações em comparação aos sistemas
Sigi e Microsiga. Como o link total da empresa (512Kbps) é menor que a soma dos canais de
cada loja (64Kbps x 11 lojas), uma loja pode interferir no tráfego das outras. Portanto, o
aumento do tráfego dessa loja pode causar a diminuição do tráfego de uma loja que utiliza
quase toda sua banda para as aplicações Microsiga e Sigi, ocasionando a diminuição no
tráfego dos servidores.
Em decorrência da possibilidade de se ocorrer a interferência do tráfego de uma loja no
tráfego das demais lojas, devido à capacidade do link central ser menor que a soma da banda
alocada de todas as lojas, cria-se um cenário de possível multicolinearidade na análise de
regressão múltipla. Neste caso, recalculou-se a equação de regressão através do método PLS
(Partial Least Squares), utilizando o Minitab, o qual oferece uma maior robustez nos casos de
multicolinearidade (MINITAB, 2005). Além disso, o próprio Minitab tem como opção padrão
a exclusão de variáveis do modelo, no caso destas se comprovarem fortemente
correlacionadas (MINITAB, 2005).
A seguir tem-se a equação 22 de regressão obtida a partir do método PLS.
Serv = -3935766 + 0,243407 L3 + 0,335969 L5 - 0,071196 L8 +
0,285697 L9 + 0,120625 L11 + 0,027370 L12 + 0,299444 L13 + (22) 0,044284 L14 + 0,241090 L19 - 0,096570 L20 - 0,019017 L29
Verificou-se que o modelo gerado a partir do método PLS possui valores menores que os da
equação 21, levando a crer que em uma eventual correlação entre as lojas o impacto no
trafego dos servidores será pequeno. Além disso, nenhumas das variáveis, como
anteriormente, foram removidas, o que reforça a hipótese de baixa correlação entre as
variáveis, tornando, portanto válido o modelo da equação 21.
5.4.5 Modelo de previsão
A série temporal usada para a previsão de cargas futuras, consiste em 26 pontos de dados
(dias) capturados do tráfego total da rede WAN da empresa Realcalor. Os valores estão sendo
mostrados na Tabela 8.
80
Tabela 8: Série de dados capturada.
Foram calculados para os 26 pontos os modelos:
• Naive;
• Naive ajustado;
• Linear;
• Linear (Sen's slope);
• Média móvel (ordem 2 e 3);
• Alisamento exponencial (alfa variando de 0,1 a 0,9);
Uma parte dos cálculos está sendo mostrada na Tabela 9.
Tabela 9: Cálculo dos modelos de previsões.
Para medir a precisão dos modelos com os dados originais foi necessário calcular a
acuracidade de cada modelo. Os índices de erro utilizados foram MAD, MSE, MAPE e MPE.
81
Esses índices têm por finalidade mostrar a média do somatório dos erros do valor calculado
(previsto) com o valor original. O valor da acuracidade é 100 menos o valor do índice, ou
seja, quanto menor o índice maior e melhor a acuracidade. A Tabela 10 mostra o valor das
acuracidades de todos os modelos em função do índice MAPE, escolhido por fornecer valores
absolutos já em porcentagens.
Tabela 10: Acuracidade (dados originais).
A Tabela 10 mostra que o modelo de melhor acuracidede é o Linear. Portanto, ele é o mais
indicado para estimar valores futuros dessa série de dados.
Em busca de melhores resultados de acuracidade, foram feitas algumas transformações nos
dados originais aplicando a Raiz-Quadrada, o Log, o LN e a inversa (1/X) sobre eles. As
Tabelas 11, 12, 13 e 14 mostram os valores das acuracidades em cada transformação.
82
Tabela 11: Acuracidade aplicando Log sobre os dados.
Tabela 12: Acuracidade aplicando LN sobre os dados.
83
Tabela 13: Acuracidade aplicando raiz quadrada sobre os dados.
Tabela 14: Acuracidade aplicando 1/X sobre os dados.
Como visto, com essas transformações a acuracidade melhorou consideravelmente. O modelo
mais preciso continuou sendo o Linear com seus dados originais transformados em Log
(Tabela 11). A equação que representa o modelo Linear nessa série de dados é:
y = 0,0016x + 8,5077
y = valor previsto;
Esse modelo permite estimar valores subseqüentes a série de dados observada. Basta somar a
quantidade de dias (pontos) com o último valor de X na equação. Para avaliar a qualdiade do
84
modelo, foram estimados os 5 dias seguintes após o término da série de dados e verificado seu
erro em relação ao dado original. É bom lembrar que os dados foram transformados em Log,
e para obter o valor real do erro deverá ser feito o anti-log . x10
A seguir é apresentado no Gráfico 22 o teste realizado com o modelo Linear.
Gráfico 22: Previsão (pontos 27, 28, 29, 30 e 31).
Nos pontos 27 a 31 do Gráfico 22 percebe-se visualmente a diferença do valor original
(transf) com o valor previsto. O valor calculado da acuracidade para esse período é de
99,93%. Acima do valor da acuracidade de todos os pontos, que é 99,34%. Em valores
absolutos o erro médio obtido para o período foi de 30,54Mbytes, pouco em relação ao
tráfego total médio do período que foi 364,31Mbytes.
85
6 CONCLUSÃO
Apesar dos vários problemas operacionais que ocorreram, o objetivo do trabalho, que era a
análise e caracterização do tráfego WAN da rede Realcolor, foi concluído e alcançado com
êxito. A empresa Realcolor, que buscou nesse trabalho uma forma de avaliar e entender o
funcionamento e o comportamento de sua rede WAN, possui hoje uma valiosa fonte de
informação para futuras manutenções, mudanças e planejamentos.
No inicio buscou-se entender toda a estrutura da rede. Os objetivos específicos foram
levantados de acordo com esse entendimento e com as necessidades impostas pela empresa.
Após a obtenção dos objetivos foi escolhido o ponto e a ferramenta de coleta que pudesse
suprir as devidas necessidades do trabalho. Pelos estudos já realizados e pelas características
já conhecidas em trabalhos dessa natureza, a ferramenta escolhida foi o NTOP. Essa
ferramenta possui como interface de visualização páginas em HTML. As páginas relevantes
ao trabalho foram escolhidas e armazenadas, a cada hora, pelo agendador de tarefas do Linux,
com o comando wget. Estas páginas foram compiladas para sua utilização em planilhas
eletrônicas, onde se desenvolveu a análise dos dados de tráfego.
Em se tratando da análise descritiva do tráfego, foram apresentadas informações de
importante respaldo. Os protocolos de aplicação utilizados, os horários de maior pico, o
tráfego por dia da semana, os valores de pico alcançados por cada loja e a banda média
consumida pela rede foram algumas das informações geradas e que até então não haviam sido
observadas pela empresa.
A análise feita da correlação entre as lojas e os servidores e a equação da regressão múltipla
informaram sobre a relação e a projeção de valores, levando em consideração a participação
de todas as lojas. Essa análise resultou na confirmação da má utilização da rede, de algumas
lojas, em função do sistema de gestão integrada da empresa. Além disso, proporcionou
também uma equação de regressão capaz de estimar o valor de tráfego gerado pelos
86
servidores em função das lojas. Nessa questão da correlação e regressão vale a pena observar
que os resultados foram obtidos através da correlação e regressão linear. Portanto, se o tráfego
das lojas tiveram fortemente correlacionados entre si, tem-se o problema da
multicolinearidade e, portanto, o modelo obtido fica muito susceptível a grandes desvios em
suas previsões, deixando de ser confiável. Contudo, vale lembrar que o modelo considerado
foi aquele da equação 22, o qual foi criado a partir do método PLS com a ferramenta Minitab,
procedimento este adequado para tratar situações com possível multicolinearidade.
O objetivo de encontrar o modelo de previsão mais adequado e com uma acuracidade superior
a 60% foi alcançado. Dos seis modelos testados o Linear conseguiu a maior acuracidade
99,34%, bem superior à meta pretendida. Todos os outros modelos também conseguiram
valores de acuracidade maiores que 60%. O modelo Linear mostrou ser extremamente preciso
para a série de dados em questão. O erro do valor estimado com o valor original não passou
de 2,5%.
Não foi possível analisar o controlador de banda de forma integral, como proposto em um dos
objetivos específico. Para essa análise ser concluída seria necessária a coleta de valores de
vazão (throughput) por protocolo e IP (loja). Esta é uma sugestão para trabalhos futuros.
O pouco tempo disponível para esse tipo de trabalho foi sem dúvida o maior problema. As
previsões tendem a se tornarem mais precisas com o aumento das amostras. Um outro
trabalho futuro poderia surgir dessa necessidade. A proposta seria um trabalho com um
número maior de coletas e a verificação do erro de previsão em função do número de coletas.
O aprofundamento na análise de tráfego seria também um trabalho futuro bem interessante. O
objetivo seria verificar efeitos específicos dos protocolos como retransmissão, taxa de
abertura de conexão, atrasos de entrega, e outros.
87
7 REFERÊNCIAS
AVALIAÇÃO DE DESEMPENHO DO SERVIÇO LANE. Disponível em: <http://www.rnp.br/newsgen/0007/art3.html>. Acesso em: 23 abril 2005.
CARVALHO, Tereza Cristina Melo de Brito (Org.).Gerenciamento de redes: Uma abordagem de Sistemas Abertos – BRISA. São Paulo: Makron Books, 1993.
FONSECA, Jairo Simon da, Estatística aplicada. 2. ed. São Paulo: Atlas, 1985.
GONÇALVES, Rodrigo Brasil. Análise e caracterização de tráfego da rede local da ALESC. 2005. 117f. Trabalho de Conclusão de Curso (Engenheiro de Computação) - Faculdade de Engenharia de Computação, Universidade do Vale do Itajaí, São José, 2005.
HANKE, John E; REITSCH, Arthur G; WICHERN, Dean W. Business Forecasting. Prentice Hall: New Jersey, 2001.
IBM – TIVOLINI NETVIEW. Disponível em: <http://www.ibm.com/br/>. Acesso em 07 maio 2005.
INTRODUÇÃO – ETHEREAL. Disponível em: <http://www.ethereal.com/introduction.html>. Acesso em 08 maio 2005.
FREUND, John E; SIMON, Gary A. Estatística Aplicada. 9. ed. Porto Alegre: Bookman, 2000.
MINITAB. Disponível em: http://www.minitab.com/support/answers/answer.aspx?ID=721>. Acesso em: 10 Dezembro 2005.
MINITAB. Disponível em:http://www.minitab.com/support/answers/answer.aspx?ID=1121>. Acesso em: 10 Dezembro 2005.
88
MONITORAÇÃO INTEGRADA DE REDES - MIR. Disponível em: <http://www.service.com.br/internet/mir.php>. Acesso em 06 maio 2005.
NETWORK TROUBLESHOOTING TOOLS. Disponível em: <http://www.enterprisenetworkingplanet.com/netsysm/article.php/922351>. Acesso em 08 maio 2005.
NTOP. Disponível em: <http://www.ntop.org>. Acessado em: 09 Maio 2005.
OLIVEIRA, Silvio Luiz de. Tratado de Metodolofia Científica. 2. ed. São Paulo: São Paulo, 1999.
OPPENHEIMER, Priscilla. Projeto de Redes Top Down. 2. ed. Rio de Janeiro: Campus, 1999.
OTIMIZAR – ESTRATÉGIA – INTERNET. Disponível em: <http://www.marktest.pt/produtos_servicos/Netscope/default.asp/>. Acesso em 07 maio 2005.
PASSARI, Antonio Fabrizio Lima. Exploração de Dados Atomizados para Previsão de Vendas no Varejo Utilizando Redes Neurais. São Paulo, 2003 Disponível em http://www.teses.usp.br/teses/disponiveis/12/12139/tde-30082004-105146/publico/Dissertacao_Final.pdf. Acesso em 20 outubro 2005.
SANTOS, Raimundo dos. Metodologia Científica: a construção do comhecimento. 3. ed. Rio de Janeiro: Rio de Janeiro, 2000.
SOARES, Luis Fernando Gomes; LEMOS, Guido; COLCHER, Sérgio. Redes de Computadores: das LANs, MANs e WANs às redes ATM. 6. ed. Rio de Janeiro: Campus, 1995.
SYMMETRY. Disponível em: <http://www.symmetry.com.br/ni_observer_faq.php>. Acesso em: 02 abril 2005.
TANENBAUM, Andrew S. Redes de Computadores. Tradução: Computer Networks. 4. ed. Rio de Janeiro: Campus, 1997.
THE STANDARD FOR FLOW-BASED REPORTING. Disponivel em:
<http://www.netqos.com/solutions/reporter.htm>. Acesso em 06 maio 2005.
TOLEDO, Geraldo Luciano; OVALLE, Ivo Izidoro. Estatística Básica. 2.ed. São Paulo: Atlas, 1995.
89
SPIEGEL, Murray R. Estatística. 3. ed. São Paulo: Pearson, 1994.
TRIOLA, Mario F. Introdução à estatística. Tradutor: Alfredo Alves de Faria. 7. ed. Rio de Janeiro: LTC Livros Técnicos e Científicos Editora, 1999.
TRIVEDI, K. S. Probability and Statistics with Reliability, Queuing, and Computer Science Applications. John Wiley and Sons, New York, 2001.
TUBINO, Dalvio Ferrari. Manual de Planejamento e Controle sa produção. São Paulo: Editora Atlas S.A, 2000.