Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX
-
Upload
jonhnny-weslley -
Category
Technology
-
view
942 -
download
0
Transcript of Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX
Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos Distribuído
POSIXJonhnny Weslley
Orientador: Francisco BrasileiroLaboratório de Sistemas Distribuídos
Programa de Pós-Graduação em Ciência da Computação
Universidade Federal de Campina Grande
Maio / 2010
Agenda
● Introdução● Estado da Arte● Beehive File System● Heurísticas para alocação de arquivos● Avaliação● Conclusão
Clusters
● Custos associados ● aquisição● manutenção
Image by rogersmith on flickr.com
Computação na nuvem
Image by jillclardy on Flickr.com
Computação na nuvem
Image by jillclardy on Flickr.com
● Transferência dos dados● Confidencialidade e privacidade dos dados
Por que pagar por recursos externos, se é possível realizar o processamento dos
dados, ou pelo menos parte dele, nas estações de trabalho da rede local?
Beehive File System
● Agrega espaço ocioso nas estações de trabalho de uma rede local
● Sistema de arquivos distribuído de uso geral● POSIX compliant
Beehive File System
● Agrega espaço ocioso nas estações de trabalho de uma rede local
● Sistema de arquivos distribuído de uso geral● POSIX compliant● Distribuição dos dados
Objetivos
● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX
● Sistema de arquivos POSIX multi-funcional● Controlar a intrusividade
Image by denial_land on Flickr.com
Status quo
● Sistemas de arquivos em clusters● Google File System● Lustre● Ceph
● Sistemas de arquivos oportunistas● Freeloader● BitDew
Replicação de metadados
● Falhas no servidor de metadados● Transientes● Permanentes
● Integridade do sistema
Heurísticas para alocação de arquivos baseadas em dados históricos sobre a
disponibilidade da máquinas.
Heurísticas para alocação de arquivos
● Replication All● Equalizer● MaxAvail● EqMaxAvail● MeanAvail ● EqMeanAvail
Modelo do sistema
● Sistema de arquivos● A aplicação e os dados de entrada● Disponibilidade● Alocação de arquivos● Métricas de desempenho
● tempo de execução das aplicações● quantidade de armazenamento
Modelo simulado
● Trace SDSC*● Estações de trabalho conectadas por uma LAN● 244 máquinas● Período de 14 dias
● Imagem do sistema de arquivos● 1000 arquivos● Distribuição uniforme entre 500MiB e 2GiB● Fator de impacto de leituras remotas é 4.87.
*Characterizing and evaluating desktop grids: An empirical study.
Modelo simulado
● Workload das aplicações● 300 aplicações Bag-of-Tasks● Cada aplicação possui tarefas seguindo uma
distribuição uniforme entre 3 e 10
Resultados
Image by kevinzhengli on Flickr.com
Conclusão
● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX
● Sistema de arquivos POSIX multi-funcional● Controle da intrusividade● Heurísticas para alocação de arquivos