Trabalho tolerância a falhas e recuperação de desastres
-
Upload
anderson-zardo -
Category
Documents
-
view
1.203 -
download
1
Transcript of Trabalho tolerância a falhas e recuperação de desastres
REDES DE COMPUTADORES
ADMINISTRAÇÃO DE REDES DE COMPUTADORES
MAURICIO DE BARROS
ANDERSON ZARDO
POLÍTICA DE TOLERÂNCIA A FALHAS E
PROTEÇÃO/RECUPERAÇÃO DE DESASTRES
CAXIAS DO SUL
JULHO/2011
Esta política tem por seu objetivo primordial a adoção de práticas que visam à manutenção dos serviços essenciais ao funcionamento da infraestrutura de TI, permitindo a mesma dar o suporte essencial ao funcionamento e a continuidade do negócio. Visam, portanto o completo reestabelecimento dos serviços, causando o menor impacto possível aos colaboradores e clientes.
Conceitos:
Falha: Uma falha é evento inesperado que pode potencialmente provocar a perda total ou parcial da funcionalidade de algum sistema/servidor/infraestrutura
Desastre: É provocado por uma falha que não foi tratada a tempo de minimizar as consequências (prejuízos financeiros, morais, etc). Também pode compreender consequências ocasionadas por catástrofes de ordem natural, ataques terroristas, etc
Tolerância a falhas: Remete a capacidade de algum sistema/servidor/infraestrutura responder a um evento de falha de modo que o processo/trabalho não seja comprometido
Recuperação de Desastres: É o processo de restauração de um computador/servidor ou sistemas após o acontecimento de um desastre, a situação ideal é que as técnicas de restauração e as equipes de suporte retornem qualquer situação ao mesmo estado em que estavam no momento anterior ao acontecimento do desastre.
Plano de Contingência: Consiste em uma série de medidas a serem tomadas em caso de alguma situação que pode potencialmente causar dano ou prejuízo vir a acontecer.
Situações:
As situações que trataremos à seguir podem ser classificadas em três grupos: Físicas, Lógicas e Administrativas.
Situação Física: Ativos/Equipamentos
Situação/Evento: Falhas em ativo ou equipamento de rede ou servidores que ocasionem interrupção total ou parcial da função por ele desempenhada.
Possíveis Falhas: Surto na rede elétrica ocasionando queima de modulo de alimentação ou falha provocada por defeito do equipamento.
Tolerância: Se for possível, esse equipamento também deve estar operando em redundância com outro igual ou semelhante devendo entrar em operação imediatamente quando este falhar.
Proteção: Equipamentos que possuem recurso de redundância para fontes de alimentação devem estar preparados para usá-lo, tomando o cuidado para que cada fonte seja conectada a um circuito elétrico distinto. Se possível, deve haver um equipamento igual ou semelhante disponível e pronto para operar, devendo ser posto em operação assim que a falha for constatada. Como medida adicional, esse equipamento deve estar coberto por contrato de manutenção ou garantia para que possa ser reparado ou mesmo substituído rapidamente.
Desastre: Inoperância da rede ou serviços da empresa, ocasionando prejuízos por oportunidades de negociação perdidas, prazos estourados de entrega de documentos, podendo implicar em multas à organização.
Recuperação: Assim que constatado o defeito do equipamento, o mesmo deve ser substituído por um igual ou semelhante que cumpre as mesmas funções já preparado para o tipo de operação que irá exercer. Após isso, deve-se tomar as providências necessárias para o reparo ou substituição em garantia do equipamento que apresentou problemas, devendo esse estar apto para operar em caso de falha de outro equipamento.
Situação Lógica: Política de Senhas
Situação/Evento: Senhas fracas e óbvias podem ser configuradas pelos usuários em seu ambiente de trabalho.
Possíveis Falhas: Não há recurso que exija do usuário a configuração de senhas seguras. Usuários costumam a deixar anotadas suas senhas em locais de fácil acesso à estranhos e/ou terceiros.
Tolerância: No momento de cadastrar uma senha, o usuário será avisado que está a cadastrando uma senha fácil (poucos caracteres e predominantemente letras do alfabeto latino ou numerais, sequencias numéricas que sugerem datas, etc...) orientando o mesmo a procurar aumentar a complexidade desta senha.
Proteção: O Sistema DE FATO impede a utilização de senhas fracas, exigindo que a mesma possua um grau de complexidade adequado (letras + números + algum caractere especial, por exemplo).
Desastre: Acesso indevido a informações e recursos, danos causados por usuários mal intencionados usando o login de outros para motivo escuso (envio de e-mail se passando por outro, etc)
Recuperação: Se ouve perda de informação, essa deve estar coberta por backup acessível apenas aos administradores de sistema, que mediante solicitação, podem reverter os arquivos que o usuário vítima da atitude de má fé pode ter dado falta. Para tal, é necessário que os arquivos estejam no servidor e não na estação do mesmo. Em caso de uso de conta de e-mail que não seja a sua, deve ser investigado os logs de acesso para ver de qual máquina partiu o acesso e, com isso, investigar pelos meios disponíveis (câmeras de vigilância no horário do acesso, se houver, etc...)
Situação Administrativa: Documentação de Suporte
Situação/Evento: A Documentação não está acessível.
Possíveis Falhas: Problemas da mídia de armazenamento, problemas no compartilhamento da unidade.
Tolerância: Há cópia impressa ou mesmo em outro local da documentação.
Proteção: Permissão de acesso ao local original da documentação para que apenas administradores do sistema possam realizar alterações.
Desastre: A Falta da documentação prejudica o andamento da atividade de suporte, e as consequências são diretamente proporcionais à criticidade do serviço ao qual se está dando assistência no momento.
Recuperação: Buscar orientação com outros técnicos que possuam plena experiência no assunto para prestar auxílio para resolver a situação que originou o desastre. Buscar orientação dessas mesmas pessoas para que se possa elaborar novamente a documentação.