Post on 22-Apr-2015
NOC - Netowork Operation CenterDefinição:
"Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente o nível de serviço em uma rede ou conjunto de redes. Estas atividades asseguram alta disponibilidade de recursos pelo rápido reconhecimento de problemas e degradação de performance, disparando funções de controle quando for necessário
Atuação
Para verificar se o nível de serviço atual corresponde ao desejado, informações são extraidas da rede para obter a funcionalidade e performance em tempo real.
As informações são extraidas continuamente ou sob demanda e armazenadas no banco de dados da gerencia da rede.
Partes destes dados são submetidos à análise e outros dados são utilizados para comparar o status real da rede com aquele desejado (planejado), permitindo verificar se alguma anomalia está ocorrendo.
Atuação
Deve-se preparar uma série de atividades para resolução de problemas, desde uma simples substituição de um dispositivo defeituoso até a execução de ferramentas mais sofisticadas para um diagnóstico mais acurado do problema.
Atuação
O Sistema de acompanhamento de problemas
• A utilização de um "Sistema de Registro de problemas"("Trouble Ticket System") auxilia o NOC no diagnóstico do problema e permite criar um Banco de Dados(BD) de experiências com problemas, viabilizando a utilização de sistemas especialistas na solução dos problemas.
• Os TTS também agilizam o processo de controle da rede porque permitem uma comunicação direta com os responsáveis pelo NOC
"TROUBLE TICKETING SYSTEMS(TTS)"
Funções e características de um TTS
• Fazendo uma analogia com um "quadro hospitalar", o "Registro de Problema" deve prover um histórico completo do problema de forma que qualquer operador possa tomar alguma iniciativa sem que para isso tenha de consultar outro operador;
• Deve permitir um melhor escalonamento de problemas atribuindo prioridades aos mesmos. Os supervisores e operadores poderão tomar decisões acerca da necessidade ou não de mais pessoal pela carga corrente do "Centro de Operações de Rede".
• Seria interessante permitir que a prioridade dos registros mudassem de acordo com a hora do dia ou em resposta a alarmes de tempo
"TROUBLE TICKETING SYSTEMS(TTS)"
• Se o TTS for suficientemente integrado ao sistema de mail então alguns registros podem ser despachados diretamente ao responsável;
• Deve-se atribuir um "timeout" para cada registro de problema. Caso o problema não seja resolvido em tempo, automaticamente é acionado um alarme. A fim de se evitar "postergação indefinida", pode-se adotar um escalonamento baseado no tempo de espera, no tipo de rede e na severidade do problema;
• Caso a empresa opere em mais de um Centro de Operações de Rede, deve-se canalisar os registros ao grupo de engenheiros, operadores ou representantes de clientes responsáveis por aquela rede de onde provem o registro de problema;
"TROUBLE TICKETING SYSTEMS(TTS)"
• Fornece mecanismos para a obtenção de estatisticas tais como "Tempo médio entre falhas" e "Tempo médio de conserto". Uma coleta e análise apropriada de tais estatisticas permite que se tome medidas preventivas a eventuais falhas em dispositivos do sistema;
"TROUBLE TICKETING SYSTEMS(TTS)"
Potenciais Usuários de um TTS• Os potenciais usuários de um TTS dependerão de quão
sofisticado será o sistema de registro de problemas.
• Se este sistema tiver um mecanismo de ajuda orientado por um sistema especialista, boa parte do registro pode ser feita quase que automaticamente, dessa forma qualquer usuário(ou seja, incluindo o usuário final) poderá usufruir do sistema.
• Deve-se ressaltar também que mecanismos de segurança são fundamentais (prover logs e passwords) para um bom e correto funcionamento de um TTS.
• Caso o TTS nao seja tão amigável, este poderá ser utilizado somente pelo pessoal que detenha conhecimento mais aprofundado do sistema(administradores).
• É importante que o TTS esteja disponível ao usuário final porque diminui a burocracia na solução de qualquer problema.
Informações constantes em um TTS
• Hora e data do início do problema;
• Operador que está abrindo o registro;
• Severidade do problema;
• Uma linha descrevendo o problema(para uso em relatórios);
• Máquina envolvida;
• Rede envolvida;
• Endereço da máquina envolvida;
• Endereço da máquina destino;
• Próxima ação;
• Hora e data pra alarme;
• Para quem este registro deveria ser enviado;
• Responsável pelo registro;
Após a resolução do problema
• Hora e Data da resolução
• Duração
• Descrição sumária do que aconteceu
• Componente chave afetado
• Inspecionado por
• Escalado para
• Um "check mark" para eventuais investigações estatísticas
Responsabilidades do NOC
Monitoramento e Coleta de Dados
Projeto dos Displays de status de rede
Determinando o Alcance do Controle
Determinação de Problemas
Testes sob Produção
Roteamento Dinâmico e Alternativo
"Network Recovery"
Distribuição de Informação
Ativando ou Desativando a Rede e/ou seus componentes
Interfaces com outro pessoal do Suporte à Rede
Avaliação das Ferramentas no Controle Operacional da Rede
Monitoramento e Coleta de Dados
• Para assegurar a manutenção do perfil do serviço
• Avaliado por:
– Tempo de Resposta;
–Disponibilidade;
–Exatidão.
Coleta contínua x Coleta sob-demanda.
A fim de atuar ao invés de somente reagir, é necessário realizar medidas continuamente
Monitoramento e Coleta de Dados
A ocorrência da primeira informação sobre alguma falha deve receber a maior atenção por duas razões:
–Uma falha em um componente de rede pode não prejudicar a operação até durante muito tempo após a ocorrência da falha. Quando o impacto for visível, dados sobre a falha podem não estar mais disponíveis;
–A operação não pode ser interrompida para "dumps"ou para esperar para que a falha ocorra novamente.
Monitoramento e Coleta de Dados
• A coleta de dados sob-demanda pode ser útil na investigação de problemas especiais de performance de rede ou para diagnosticar problemas funcionais como parte da atividade de controle operacional
• Entretanto, ela não é adequada para supervisionar a rede nem para propósito de planejamento.
Monitoramento e Coleta de Dados
Em um ambiente de comunicação, as seguintes fontes de informações podem ser utilizadas:
–Características padrões do software de comunicação;
– Ferramentas especiais executadas sob o software de comunicação;
–Monitores de rede;
–Monitores de aplicação;
– Logs de problemas e alertas de várias interfaces.
Monitoramento e Coleta de Dados
Controle Centralizado
• Vantagens:
– Visão global;
– Pessoal do NOC localizado em um só local;
– Reação ótima a todas as redes;
– Arquivos de registro de problemas e experiências mantidos centralizados;
– Operador livre de sistemas remotos;
– Base para automação;
– Determinação mais rápida de problemas;
– Coordenação de mudanças;
– Implementação de padrões;
– Relatórios e estatísticas através de dados correlatos dependentes.
Controle Centralizado
• Desvantagens:–Muitos dados para serem filtrados;
–Overhead no processamento;
–Overhead na transmissão de dados;
–Necessidade de um canal secundário;
Controle Remoto
• Vantagens:
– Somente dados seletivos;
– Reação mais rápida na área local;
• Desvantagens:
– Overhead no "download";
– Educação e contratação de pessoal especializado para os locais remotos;
– Instalação de múltiplas ferramentas;
– Somente otimização local;
– Problemas de sincronização.
Determinação de problemas
• Por problema se compreende um incidente ou evento que causa um mal funcionamento do sistema.
• Os objetivos principais são minimizar os efeitos dos problemas e reduzir o tempo até a restauração do estado normal.
• A determinação de problema compreende quatro passos:
– Detecção do problema;
– Determinação do problema;
– Diagnóstico do problema;
– Resolução do problema.
Determinação de problemas Níveis de complexidade de problemas:
Primeiro nível:
• Aqueles problemas simples que são resolvíveis facilmente através de uma simples consulta à base de dados do "Trouble Ticketing System"com o auxílio de alguma ferramenta não tão sofisticada.
• Aproximadamente 85% dos problemas podem ser resolvidos desta forma
• O diagnóstico destes problemas é simples
• Segundo nível:
• Somente tratáveis por operadores da rede.
• Aproximadamente 10% dos problemas são deste nível. O diagnóstico é considerável.
Determinação de problemas Níveis de complexidade de problemas:
Terceiro nível:
• Tratáveis por especialistas em comunicação (software e hardware). Estes problemas são geralmente de natureza crítica e complexa e podem requerer envolvimento de especialistas da empresa fornecedora do software e/ou hardware envolvidos.
• O diagnóstico requer recursos humanos consideráveis e instrumentação apropriada.
Determinação de problemas Níveis de complexidade de problemas:
• A detecção do problema ocorre:
–Quando os limiares são excedidos, mensagens são geradas e enviadas ao console de rede apropriado alertando o operador acerca do problema, geralmente com uma identificação do tipo e localização do problema;
–Através de mensagens enviadas por clientes;
Determinação de problemas
• A determinação do problema significa poder responder exatamente a seguinte questão:
"O que está errado e onde está o problema na rede? "
• A determinação do problema pode ser facilitada significativamente através da exibição de informações tais como: se o problema é funcional, de serviço, de processamento, "link", etc.
Determinação de problemas
Diagnóstico do Problema:
• Para diagnosticar o problema, utiliza-se informações tais como:
– "arquivos de experiências anteriores"
– “arquivos com recomendações do fornecedor do produto (hardware / software)"
– "arquivos de inventário", etc.
• Para o diagnóstico do problema se recomenda a utilização de um sistema especialista, tendo como base de dados os arquivos citados acima e outros dados fornecidos pelo operador.
Resolução do Problema:
• A parte final da determinação do problema é a delegação da resolução do problema para a manutenção técnica(incluindo serviços dos fornecedores) ou para a análise da performance da rede.
Testes sob Produção
• Visam verificar dinamicamente a operação correta da rede
• Os testes poderiam incluir componentes individuais, tais como "nós" e "links".
• Os testes podem ser executados durante a operação normal mas eles não podem interferir na produção de forma alguma
Tipos de testes
• Intrusivo: Circuito normal e/ou a operação do equipamento são interrompidos
• Não-intrusivo: Testes podem ser realizados sem interromper os serviços de rede.
Usualmente, os testes são executados em canais secundários.
Automação dos testes
• Muitos dos testes que são implementados em "hardware"e "software" são executados automaticamente, sem nenhuma atenção do operador.
• Quando uma situação específica ocorre, o controle é passado para uma rotina de teste.
• O único meio para controlar a execução é através da definição do "software".
Network recovery
• "Network Recovery" se torna muito caro a menos que procedimentos estejam definidos para restauração rápida da rede após o reparo dos componentes danificados. Após serem executados todos os reparos, testes são executados para verificar funcionamento normal.
• Se os testes são satisfatórios, os componentes reparados e/ou "links" podem ser ligados.
• O controle operacional da rede é freqüentemente tentado a ignorar responsabilidades a mais em termos destes fatores:
– Fechamento dos registros de problemas fornecendo comentários sobre as causas do problema;
–Atualização do Arquivo de Experiência;
–Atualização do Arquivo do Fornecedor do produto atingido pelo problema;
Network recovery
–Atualização do Arquivo de controle de inventário através da inserção de informações adicionais sobre o componente em consideração;
Network recovery
– Informar os clientes da rede acerca da restauração da rede.
Network recovery
• É importante em favor do gerenciamento da rede assegurar que os operadores da rede sejam propriamente educados, motivados e não sobrecarregados de tal forma que suas únicas preocupações sejam o sintoma e sua resolução ao invés da causa e sua resolução.
Network recovery
Distribuição de Informação
• Como parte da responsabilidade da determinação do problema, o NOC deve manter o cliente informado sobre condições excepcionais da rede.
• Uma vez que partes da rede estão fora de ordem, o NOC poderia procurar pela alternativa ótima para mensagens de "broadcast".
• Também é necessário comunicar informações sobre alterações planejadas.
• Isto pode ser incorporado em mensagens periódicas
Ativando ou Desativando a Rede e/ou seus componentes
• Quando for necessário fazer alguma manutenção na rede que exija sua desativação temporária, deve-se realizar uma série de atividades que permitam que a desativação, reconfiguração e a ativação ocorram de forma correta.
• Setar dados dinâmicos em estado de inicialização;
• Setar todas as tabelas de "links" em estado de inicialização;
• Comparar tabela com áreas adjacentes;
• Verificar todas a linhas;
• Ativar todas as linhas;
• Verificar todas as estações da área;
• Verificar os componentes de software;
• Ativar partes do software para estado "idle".
Ativação
Desativação
• Desativar todas as linhas "livres" desocupadas;
• Desativar o software de comunicação;
• Esperar pelas linhas ocupadas;
• Desativar os componentes de software.
Reconfiguração:
• Verificar/ativar todas linhas;
• Verificar todas as estações do domínio;
• Reconfigurar as tabelas de "links";
• Ativar os "links" de acordo com as tabelas de "links";
• Setar dados dinâmicos em estado de inicialização;
• Ativar os componentes de software.
Interfaces com outro pessoal do Suporte à Rede
• Devido a falta de tempo e treinamento, o NOC freqüentemente tem de delegar problemas para outros grupos.
• Três grupos estão envolvidos:
–Manutenção técnica
–Análise de performance e "tuning"
–Administração da Rede
Análise de performance e "tuning"
• Localização de gargalos;
• Investigações especiais;
• Geração de software;
• Realização de avaliações estatísticas com propósitos especiais;
• Prover relatórios;
• Preparação de procedimentos operacionais fáceis-de-serem-utilizados;
• Planejar "upgrades" de software e/ou hardware;
Administração da Rede
• Manutenção de arquivos;
• Avaliação dos níveis de serviço;
• Prover novos padrões;
• Avaliação dos "registros de problemas" e prover a forma para a entrada de "registros de problemas";
• Negociação dos níveis de serviço com os clientes;
• Assegurar que o NOC tem as facilidades, treinamento e pessoal capacitado para atingir seus propósitos;
• Relatar aos vendedores sobre as observações dos operadores sobre a falta de simpatia dos clientes.
Avaliação das Ferramentas no Controle Operacional da Rede
• A motivação do pessoal que trabalha do NOC é um importante fator para que este atinja seus objetivos.
• Não é necessário delegar a responsabilidade para a seleção do instrumento correto para o controle operacional, mas o pessoal deveria estar envolvido nas seguintes áreas:
– Definição de crítérios;
– Pesar os critérios;
– Avaliação dos critérios para um número gerenciável de alternativas;
– Realização e avaliação do processo de instalação;
– Ordenação das alternativas em termos de tecnologia.
• Esta política de envolvimento e educação é crítica não somente para avaliação de ferrramentas mas também na introdução de todo novo upgrade de software e/ou hardware da rede.
Avaliação das Ferramentas no Controle Operacional da Rede
Considerações acerca da Implementação
• O primeiro passo consiste em realizar um "checklist" sobre a situação atual.
• A lista seguinte fornece algumas recomendações para a elaboração do "checklist":
– Lista de inventário de componentes:
nodos e "links"(velocidade,protocolos,etc);
– Disponibilidade de informação "on-line" a nível de serviço;
– Metodologia de determinação de problema;
– Disponibilidade de catálogos de "what-if"
(de apoio a tomada de decisões:
do tipo o que fazer se isto ocorrer);