Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado...

30
Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado ([email protected]) Why do Internet services Why do Internet services fail, and What can be done fail, and What can be done about it? about it? David Oppenheimer, Archana Ganapathi , and David A. Patterson University of California at Berkeley Julho de 2003

Transcript of Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado...

Page 1: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

Seminário TécnicoConceitos e Projeto de Sistemas Distribuídos e Paralelos

Adriano Machado ([email protected])

Why do Internet services fail, and Why do Internet services fail, and What can be done about it?What can be done about it?

David Oppenheimer, Archana Ganapathi , and David A. Patterson

University of California at Berkeley

Julho de 2003

Page 2: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speedSumárioSumário

• Motivação• Objetivo• O que foi feito• Metodologia• Análise e Resultados• Conclusões• Direções Futuras• Pontos Fortes e Pontos Fracos

Page 3: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MotivaçãoMotivação

• Disponibilidade de Serviços Internet se torna cada dia mais importante;

• Falhas observadas pelos usuários são relativamente freqüentes;

• Melhorar disponibilidade dos serviços requer conhecer suas causas.

Page 4: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speedObjetivoObjetivo

• Estudo das causas de falhas de serviços Internet a partir de dados de 3 provedores de serviços Internet de grande escala;

• Propor técnicas que possam evitar ou reduzir as falhas identificadas e qual o impacto de adoção dessas técnicas.

Page 5: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

O que foi feitoO que foi feito

• Identificação de falhas nos componentes dos serviços Internet;

• Análise do tempo de recuperação da falha (TTR);

• Análise de estudos de caso;• Análise da aplicabilidade de técnicas

para evitar ou minimizar impactos das falhas;

Page 6: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• 1) Obtenção de dados relativos à falhas de três provedores de serviços Internet:

– Portal Internet e serviços on-line (Online);– Provedor de serviço de hospedagem

(Content);– Provedor de serviço do tipo mídia on-line

(Read-Mostly).

Page 7: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Online

Page 8: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Content

Page 9: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Read-Mostly

Page 10: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Comparação dos serviços Internet

Page 11: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• 2) Análise das falhas dos componentes a fim de identificar as falhas de serviços.

ContentContent OnlineOnline

Page 12: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• 3) Análise de cada incidente (falha de serviço)– Causa da falha por localidade– Causa da falha por tipo de falha– Tempo para diagnosticar + reparar

Page 13: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Causa da falha por localidade

Page 14: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Causa da falha por tipo de falha

Page 15: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Tempo para diagnosticar + reparar

Tempo (em horas)Tempo (em horas)Número entre parênteses: amostraNúmero entre parênteses: amostra

Page 16: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Causa de falhas por % de falha de serviços

Page 17: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Causa de falhas por % de tempo para reparar dano

Page 18: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Observações / Conclusões parciais– Erros de operador: maior causa de falha

dos serviços;– Erros de operador: mais significativo

levando-se em conta o tempo do serviço fora do ar;

– Geralmente ocorre por mudanças feitas pelo operador, não reparos;

– Erros na rede: muito significativo (Read-Mostly)

Page 19: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• 4) Técnicas para aliviar falhas observadas:– Propõem;– Analisam eficácia, considerando 40 falhas

de serviço do “Online”.

Page 20: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

MetodologiaMetodologia

• Eficácia da Técnica X custo de adoção

Page 21: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

Análise e ResultadosAnálise e Resultados

• Das técnicas propostas:– Testes on-line aliviaram 26 falhas das 40

analisadas;– Instrumentar e monitorar HW/SW: reduziria

TTR em 25% dos casos analisados;– Aumentar redundância: 22,5% de eficácia;– Problema: “Online” já utiliza 60% dessas

técnicas (resultado não é fiel à realidade).

Page 22: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

ConclusãoConclusão

• Por que erros do operador causam tantas falhas de serviços Internet?– Técnicas existentes para minimizar essas

falhas são pouco voltadas para auxiliar erros do operador.

Page 23: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

ConclusãoConclusão

• Por que operador demora tanto a corrigir falha? – Detecção da falha e seu diagnóstico são

difíceis devido à falta de ferramentas adequadas para o operador e dificuldade em manter serviço 24x7 (muitas vezes o operador somente volta o serviço sem corrigir o problema pela causa).

Page 24: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

ConclusãoConclusão

• Atenção às práticas do operador, oferecer mais recursos a ele;

• Erros poderiam ser minimizados com:– Qualidade dos testes;– Auditoria da configuração do sistema;– Melhores técnicas para detecção e diagnóstico de

falhas;• Utilizar metodologia de desenvolvimento que

utilize métodos formais e técnicas de SPE ().

Page 25: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

Direções FuturasDireções Futuras

• Quantificar o impacto de práticas operacionais que vem sendo adotadas;

• Análise de outros diferentes serviços Internet:– E-commerce;– Intranet / Extranet;– P2P, etc.

Page 26: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

Direções FuturasDireções Futuras

• Criar um repositório de dados relativos à falhas de domínio público:– Taxonomia padrão para classificar falhas;– Métricas padrão para avaliação de impacto

das falhas;– Técnicas para “anonimização” automática;

Page 27: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

Pontos FortesPontos Fortes

• Análise de dados reais;• Boa interpretação dos dados obtidos;• Boa metodologia de desenvolvimento

do trabalho;• Boa análise de trabalhos correlatos;• Boas referências apresentadas.

Page 28: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

Pontos FracosPontos Fracos

• Não levaram em conta as falhas causadas por problemas de segurança;

• Representatividade dos dados:– não levam em conta aspectos

transacionais;• Análise das causas: não leva em conta

questões de desempenho e escalabilidade (será que não ocorreram?)

• Resultado do Read-Mostly não me convenceu!

Page 29: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

Nota FinalNota Final

• Apresentação do artigo: 9• Relevância do assunto: 10• Metodologia adotada: 10• Contribuições dos autores: 9• Análise bibliográfica: 9• Nota Final: 9,4 / 10,0

Page 30: Seminário Técnico Conceitos e Projeto de Sistemas Distribuídos e Paralelos Adriano Machado (adrianoc@dcc.ufmg.br) Why do Internet services fail, and What.

e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory

e-speed

PerguntasPerguntas