Trabalho tolerância a falhas e recuperação de desastres

6
REDES DE COMPUTADORES ADMINISTRAÇÃO DE REDES DE COMPUTADORES MAURICIO DE BARROS ANDERSON ZARDO POLÍTICA DE TOLERÂNCIA A FALHAS E PROTEÇÃO/RECUPERAÇÃO DE DESASTRES

Transcript of Trabalho tolerância a falhas e recuperação de desastres

Page 1: Trabalho tolerância a falhas e recuperação de desastres

REDES DE COMPUTADORES

ADMINISTRAÇÃO DE REDES DE COMPUTADORES

MAURICIO DE BARROS

ANDERSON ZARDO

POLÍTICA DE TOLERÂNCIA A FALHAS E

PROTEÇÃO/RECUPERAÇÃO DE DESASTRES

CAXIAS DO SUL

JULHO/2011

Page 2: Trabalho tolerância a falhas e recuperação de desastres

Esta política tem por seu objetivo primordial a adoção de práticas que visam à manutenção dos serviços essenciais ao funcionamento da infraestrutura de TI, permitindo a mesma dar o suporte essencial ao funcionamento e a continuidade do negócio. Visam, portanto o completo reestabelecimento dos serviços, causando o menor impacto possível aos colaboradores e clientes.

Conceitos:

Falha: Uma falha é evento inesperado que pode potencialmente provocar a perda total ou parcial da funcionalidade de algum sistema/servidor/infraestrutura

Desastre: É provocado por uma falha que não foi tratada a tempo de minimizar as consequências (prejuízos financeiros, morais, etc). Também pode compreender consequências ocasionadas por catástrofes de ordem natural, ataques terroristas, etc

Tolerância a falhas: Remete a capacidade de algum sistema/servidor/infraestrutura responder a um evento de falha de modo que o processo/trabalho não seja comprometido

Recuperação de Desastres: É o processo de restauração de um computador/servidor ou sistemas após o acontecimento de um desastre, a situação ideal é que as técnicas de restauração e as equipes de suporte retornem qualquer situação ao mesmo estado em que estavam no momento anterior ao acontecimento do desastre.

Plano de Contingência: Consiste em uma série de medidas a serem tomadas em caso de alguma situação que pode potencialmente causar dano ou prejuízo vir a acontecer.

Situações:

Page 3: Trabalho tolerância a falhas e recuperação de desastres

As situações que trataremos à seguir podem ser classificadas em três grupos: Físicas, Lógicas e Administrativas.

Situação Física: Ativos/Equipamentos

Situação/Evento: Falhas em ativo ou equipamento de rede ou servidores que ocasionem interrupção total ou parcial da função por ele desempenhada.

Possíveis Falhas: Surto na rede elétrica ocasionando queima de modulo de alimentação ou falha provocada por defeito do equipamento.

Tolerância: Se for possível, esse equipamento também deve estar operando em redundância com outro igual ou semelhante devendo entrar em operação imediatamente quando este falhar.

Proteção: Equipamentos que possuem recurso de redundância para fontes de alimentação devem estar preparados para usá-lo, tomando o cuidado para que cada fonte seja conectada a um circuito elétrico distinto. Se possível, deve haver um equipamento igual ou semelhante disponível e pronto para operar, devendo ser posto em operação assim que a falha for constatada. Como medida adicional, esse equipamento deve estar coberto por contrato de manutenção ou garantia para que possa ser reparado ou mesmo substituído rapidamente.

Desastre: Inoperância da rede ou serviços da empresa, ocasionando prejuízos por oportunidades de negociação perdidas, prazos estourados de entrega de documentos, podendo implicar em multas à organização.

Recuperação: Assim que constatado o defeito do equipamento, o mesmo deve ser substituído por um igual ou semelhante que cumpre as mesmas funções já preparado para o tipo de operação que irá exercer. Após isso, deve-se tomar as providências necessárias para o reparo ou substituição em garantia do equipamento que apresentou problemas, devendo esse estar apto para operar em caso de falha de outro equipamento.

Page 4: Trabalho tolerância a falhas e recuperação de desastres

Situação Lógica: Política de Senhas

Situação/Evento: Senhas fracas e óbvias podem ser configuradas pelos usuários em seu ambiente de trabalho.

Possíveis Falhas: Não há recurso que exija do usuário a configuração de senhas seguras. Usuários costumam a deixar anotadas suas senhas em locais de fácil acesso à estranhos e/ou terceiros.

Tolerância: No momento de cadastrar uma senha, o usuário será avisado que está a cadastrando uma senha fácil (poucos caracteres e predominantemente letras do alfabeto latino ou numerais, sequencias numéricas que sugerem datas, etc...) orientando o mesmo a procurar aumentar a complexidade desta senha.

Proteção: O Sistema DE FATO impede a utilização de senhas fracas, exigindo que a mesma possua um grau de complexidade adequado (letras + números + algum caractere especial, por exemplo).

Desastre: Acesso indevido a informações e recursos, danos causados por usuários mal intencionados usando o login de outros para motivo escuso (envio de e-mail se passando por outro, etc)

Recuperação: Se ouve perda de informação, essa deve estar coberta por backup acessível apenas aos administradores de sistema, que mediante solicitação, podem reverter os arquivos que o usuário vítima da atitude de má fé pode ter dado falta. Para tal, é necessário que os arquivos estejam no servidor e não na estação do mesmo. Em caso de uso de conta de e-mail que não seja a sua, deve ser investigado os logs de acesso para ver de qual máquina partiu o acesso e, com isso, investigar pelos meios disponíveis (câmeras de vigilância no horário do acesso, se houver, etc...)

Situação Administrativa: Documentação de Suporte

Situação/Evento: A Documentação não está acessível.

Possíveis Falhas: Problemas da mídia de armazenamento, problemas no compartilhamento da unidade.

Page 5: Trabalho tolerância a falhas e recuperação de desastres

Tolerância: Há cópia impressa ou mesmo em outro local da documentação.

Proteção: Permissão de acesso ao local original da documentação para que apenas administradores do sistema possam realizar alterações.

Desastre: A Falta da documentação prejudica o andamento da atividade de suporte, e as consequências são diretamente proporcionais à criticidade do serviço ao qual se está dando assistência no momento.

Recuperação: Buscar orientação com outros técnicos que possuam plena experiência no assunto para prestar auxílio para resolver a situação que originou o desastre. Buscar orientação dessas mesmas pessoas para que se possa elaborar novamente a documentação.