university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Sistema de Preservacao DigitalCamada de Gerenciamento
GT-DigitalPreservationC3SL - Centro de Computacao Cientıfica e Software Livre
Departamento de InformaticaUniversidade Federal do Parana
Setembro de 2011
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
1 Introducao
2 Modelo
3 Arquitetura
4 Implementacao
5 Conclusao
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Camada de gerenciamento de replicasCamadas dos sistema
1 Introducao
2 Modelo
3 Arquitetura
4 Implementacao
5 Conclusao
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Camada de gerenciamento de replicasCamadas dos sistema
Camada de gerenciamento de replicas
Aloca as replicas dos objetos dentro do sistema de preservacao
Garantir o armazenamento confiavel dos objetos
Implementa a insercao e a recuperacao de objetos no sistema
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Camada de gerenciamento de replicasCamadas dos sistema
Modelo
Metricas de confiabilidade
Probabilidade de nao falha no armazenamento de umrepositorio
Probabilidade de nao falha no armazenamento de ao menosuma replica de um objeto
Escolher um conjunto de repositorios para armazenar a replicade um objeto
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Camada de gerenciamento de replicasCamadas dos sistema
Arquitetura
Insercao de objetos no sistema de preservacao
Recuperacao de objetos
Consulta pelo estado de preservacao de objetos
Auditoria das replicas de um objeto
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Camada de gerenciamento de replicasCamadas dos sistema
Implementacao
Gerenciamento das replicas
Selecao de repositorios
Sistema de indexacao
Scripts Shell e programas na linguagem C
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Camada de gerenciamento de replicasCamadas dos sistema
Armazenamento
Gerenciamento de Réplicas
Interface
Aplicações
Repositório
Figura: Camadas do Sistema de Preservacao Digital
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
1 Introducao
2 Modelo
3 Arquitetura
4 Implementacao
5 Conclusao
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Confiabilidade de um repositorio
Considera que as falhas sao independentes
Complementar a probabilidade de falha no armazenamento deum dado no repositorio
Influenciada pela qualidade de hardware e de administracao dosistema
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Confiabilidade de um objeto
Complementar a probabilidade de falha no armazenamento detodas as replicas de um objeto
E definida pelo usuario
Reflete a importancia da preservacao do objeto
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Quantidade de replicas
A quantidade de replicas nao e fixa
Uma confiabilidade desejada mais alta requer um numeromaior de replicasRepositorios com confiabilidade mais alta reduzem aquantidade de replicas necessarias
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Selecao de repositorios
Figura: Inserir objeto com confiabilidade desejada de 99.99%
1 - ((1 - 0.95) * (1 - 0.9) * (1 - 0.85) * (1 - 0.8) * (1 - 0.75))= 0.9999625
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Intervalo de auditoria
Considerando que a probabilidade de falha no armazenamentodos repositorios segue a distribuicao de Poisson
Seja a confiabilidade do repositorio em 1 ano 80%
Confiabilidade em 6 meses: 89% (0.86/12)
Confiabilidade em 1 mes: 98% (0.81/12)
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Estrategia de selecao de repositorios
Selecionar repositorios que deverao receber replicas
Deve combinar confiabilidade dos repositorios para atingir aconfiabilidade desejada
Deve ajustar o intervalo de auditoria
Estrategia deve balancear a utilizacao de recursos na rede
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Insercao de itens na rede (100 repositorios)
0
5000
10000
15000
20000
25000
30000
35000
16 32 64 100
Itens
inse
ridos
Tamanho do conjunto de candidatos
AFCCFEDFCDFECF
AVCCVEDVCDVECV
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Insercao de itens na rede (1000 repositorios)
0
50000
100000
150000
200000
250000
300000
350000
16 32 64 100
Itens
inse
ridos
Tamanho do conjunto de candidatos
AVEDVCDV
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Metricas de confiabilidadeSelecao de repositoriosEstrategia de selecao de repositorios
Auditoria das replicas
Verificar as replicas de um objeto
Confiabilidade desejada do objeto deve ser mantida
Auditoria garante a preservacao do objeto por tempoindeterminado
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
1 Introducao
2 Modelo
3 Arquitetura
4 Implementacao
5 Conclusao
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Arquitetura
Inserir objeto para preservacao
Recuperar replica de objeto
Consultar replicas de objeto
Auditar replicas de objeto
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Conjunto de candidatos
Conjunto de repositorios que podem possuir uma replica deum objeto
Limitar processos de gerenciamento a um subconjunto da rede
Nao e necessario guardar informacoes sobre a localizacao dasreplicas na rede
Nao e necessario inundar a rede com requisicoes para localizaruma replica
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
DHT
Tabela hash distribuıda
Pares (chave, valor)
Faixas de enderacamento sao associadas a cada nodo
Valor esta armazenado no nodo resposavel pela faixa deenderecamento da chave
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Obter conjunto de candidatos
Utilizando multiplas funcoes hash
Unica funcao hash e sal
Exemplo de funcao hash: SHA1 (160 bits)
Exemplos de sal: Inteiros de 1 a n
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Exemplo de multiplas hash
Chave do objeto: 4faee3cd92839fe0b477b6de44292b0b
Hash1 = SHA1(chave + ”1”) =276a6013cc5475d6ed33b40ed7541fca68ebe2f2
Hash2 = SHA1(chave + ”2”) =2a08fb517b778f0c2ef08a2500c1bc10cb05cf80
Hash3 = SHA1(chave + ”3”) =f865b2de1fa153758f52cbd2ae2ba84c889fda0b
Hashn = SHA1(chave + ”4”) =46d6afa607724cde9db16c5b52210ade7031e977
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Sistema de indexacao
Sistema gerencia espaco de enderecamento
Cada faixa de enderecamento e associada a um repositorio narede de preservacao
Informacoes podem estar centralizadas ou distribuıdas
Sistema deve traduzir um conjunto de hash em um conjuntode repositorios
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Exemplo de traducao de hash
276a6013cc5475d6ed33b40ed7541fca68ebe2f2 =planetlab-2.imperial.ac.uk
2a08fb517b778f0c2ef08a2500c1bc10cb05cf80 =planetlab1.inf.ethz.ch
f865b2de1fa153758f52cbd2ae2ba84c889fda0b =plab1.larc.usp.br
46d6afa607724cde9db16c5b52210ade7031e977 =planetlab-2.fokus.fraunhofer.de
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Insercao de objetos
Recebe um objeto digital que deve ser preservado
Chave do objeto e confiabilidade desejada estao presentes nonome do arquivo
Deve transferir replicas do objeto e garantir a confiabilidadedesejada
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Passos da insercao
1 Obter conjunto de hash para a chave do objeto
2 Traduzir conjunto de hash em um conjunto de repositorios
3 Algoritmo de selecao analisa conjunto de repositorioscandidatos
4 Alguns repositorios candidatos sao eleitos (receberao replicas)e um intervalo de auditoria e definido
5 Repositorios eleitos sao notificados sobre a transferencia dareplica
6 Cada repositorio eleito transfere uma copia do objeto e aarmazena
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Auditoria de replicas
Verificar as replicas de um objeto
O armazenamento de uma das replicas pode falharUm repositorio pode estar fora do ar
Confiabilidade desejada do objeto deve ser mantida
Informacoes relacionadas a datas de auditoria sao gravadas nacamada de armazenamento
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Auditoria de replicas
Todos os repositorios sao responsaveis por executar a auditoria
Auditorias de um mesmo objeto sao agendadas com pequenasdiferencas de tempo
Remover excesso de replicas e um processo perigoso
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Passos da auditoria
1 Camada de armazenamento deve detectar necessidade deauditoria e disparar o processo
2 Obter conjunto de hash para a chave do objeto
3 Traduzir conjunto de hash em um conjunto de repositorios
4 Algoritmo de selecao recalcula a confiabilidade do objeto
5 Novo intervalo de auditoria e definido
6 Se necessario, novas replicas sao criadas
7 Repositorios sao atualizados quanto a nova data de auditoriado objeto
8 Se necessario, novas replicas sao transferidas
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Consulta de replicas
Recuperar informacoes das replicas de um objeto
Localizacao das replicasQuantas replicas existemQuando as replicas foram verificadas (auditoria) pela ultimavez
Parametro necessario: chave do objeto
Saıda: uma lista de repositorios que possuem replica do objeto
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Passos da consulta de replicas
1 Obter conjunto de hash para a chave do objeto
2 Traduzir conjunto de hash em um conjunto de repositorios
3 Consultar cada repositorio candidato sobre a existencia dareplica
4 Retornar lista de repositorios que possuem replica
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Conjunto de candidatosSistema de indexacaoInsercao de objetosAuditoria de replicas de um objetoConsulta de replicasRecuperacao de uma replica
Recuperacao de uma replica
Localizar a replica de um objeto e permitir sua recuperacao
Funciona de forma analoga a consulta de replicas
Retorna um ou uma lista de paths para a replica e respectivosrepositorios
Replicas ficam disponıveis para transferencia
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
1 Introducao
2 Modelo
3 Arquitetura
4 Implementacao
5 Conclusao
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Implementacao
Processos disponıveis para a camada de interface
Insercao, Consulta e RecuperacaoInterface dispara processos atraves de troca de mensagens
Necessidade de auditoria detectada pela base de dados
Gerenciamento utiliza funcoes disponıveis na camada dearmazenamento
Notificar outros repositoriosRecuperar informacoesTransferir replicas
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Indexacao
Sistema de indexacao centralizado
Informacoes de indexacao replicadas na rede
Sistema de indexacao poderia ser totalmente distribuıdo
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
1 Introducao
2 Modelo
3 Arquitetura
4 Implementacao
5 Conclusao
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Camada e responsavel por alocar replicas e garantir aconfiabilidade
Camada implementa algoritmo de selecao de repositorios e umsistema de indexacao
Confiabilidade no arquivamento
Garantida na insercaoMantida nas auditorias
Lauro Camada de Gerenciamento
university-logo
IntroducaoModelo
ArquiteturaImplementacao
Conclusao
Duvidas? Comentarios? Sugestoes?
Lauro Camada de Gerenciamento
Top Related