Árvores B - ufjf.br · função de hash h() 00011, 10011, 11011, 01100, 00110, 00100, 01011,...

Hashing

Estrutura de Dados IIJairo Francisco de Souza

Árvores B

Hashing para arquivos extensíveis

Todos os métodos anteriores previam tamanho fixo para alocação das chaves.

Existem várias técnicas propostas para implementar hashing em arquivos, os quais possuem tamanhos variáveis, com inserções e deleções constantes.

Podem ser divididas em Técnicas que usam diretórios

hashing expansível (Knott, 1971)hashing dinâmico (Larson, 1978)hashing extensível (Fagin et al, 1979)

Técnicas que não usam diretórioshashing virtual (Litwin, 1978)hashing linear (Litwin, 1980)

Hashing extensível Situação: balde (página primária) fica cheio. Porque não reorganizar o ficheiro duplicando o número de

baldes? Ler e escrever todas as páginas é dispendioso! Idéia: usar um diretório de ponteiros para baldes, duplique o

número de baldes através da duplicação do diretório, particionando justamente o balde que transbordou!

Um diretório é muito menor que um ficheiro, de modo que duplicá-lo é muito menos dispendioso. Só uma página de verbetes de dados é particionada.

O truque reside em como a função de hashing é ajustada!

Hashing extensível A função do diretório é conter informações que indiquem a

localização do balde de interesse.Um diretório é um arranjo de 2d endereços de baldes em

que d é profundidade global (profundidade do diretório).

O tamanho de cada balde é fixo O valor inteiro correspondente

aos primeiros d bits de uma

chave são utilizados.Supondo a profundidade do

diretório igual a 2 e a pseudo-chave igual a 101110, procuraremos na posição 10 pelo endereço do balde que contém a informação desejada.

Hashing extensível É possível ter mais de uma entrada no diretório apontando

para o mesmo balde. Cada balde armazena a informação de sua profundidade

A profundidade do balde é chamada de profundidade local.

A profundidade local indica quantos primeiros bits de cada pseudo-chave são comum a todos os elementos do balde.

A profundidade do balde pode ser menor ou igual à profundidade do diretório.

Hashing extensível Quando necessário, um diretório pode ser expandido

Isto ocorre quando “estoura” o espaço de endereços do diretório, ou seja, cada entrada aponta para um balde diferente de forma que não há como referenciar um novo balde.

Neste caso, o diretório dobra de tamanhoOu seja, a profundidade é incrementada em 1.

Inserção:Após obtida a pseudo-chave, pega-se os p primeiros

dígitos mais significativos da chave como índice para acessar uma posição do diretório.Por exemplo, se a pseudo-chave é 10100110 e a

profundidade é 3, acessaremos a posição 101, ou seja, 5 em decimal.

Daí, teremos 3 casos durante a inserção...

Hashing extensível: inserção Melhor caso

Há espaço no baldeA pseudo-chave é simplesmente inseridaExemplo: inserção da pseudo-chave 111010

Hashing extensível: inserção Caso intermediário

Não há espaço no balde encontrado, mas ele pode ser dividido, visto que mais de uma entrada no diretório faz referência ao balde no qual estamos tentando inserir.Equivalentemente, p do balde é menor que p do

diretórioUm novo balde é criado.As pseudo-chaves são redistribuídas entre o novo balde e

o originalA profundidade local dos dois baldes serão iguais à do

balde original incrementado de 1.

Exemplo: inserção de 001100

Hashing extensível: inserção Pior caso

Não há espaço no baldeEntrada no diretório faz referência única e exclusivamente

a um baldeOu seja, profundidade local é igual a profundidade

global.O diretório dobra de tamanho

Ou seja, profundidade global é incrementada de 1As pseudo-chaves são distribuídas entre os baldes do

novo diretório

Exemplo: Inserção de 100010

Hashing extensível: remoção Ao remover uma entrada, temos que fazer duas verificações

Se é possível fundir o balde com um balde amigoSe o tamanho do diretório pode ser reduzido

Encontrando balde amigoPara haver um único balde amigo, a profundidade do

balde tem que ser a mesma do diretório.Dado um índice para o balde, o balde amigo é aquele que

difere apenas no último bit do índiceExemplo: Se um balde tem índice 000 e sua profundidade

é 3 e igual a do diretório, o balde amigo tem índice 001.Quando fundir?

Critério a cargo do programadorPode-se sempre tentar fundir os baldesPode-se definir um número mínimo de informação em

cada balde

Hashing extensível: remoção Reduzindo o diretório

Depois de fundir o balde, talvez o diretório possa ser reduzido

É possível quando cada balde é referenciado por pelo menos duas entradas do diretórioIsto é, todo p local é menor que o p global

Exercício Considere as seguintes pseudo-chaves já geradas por uma

função de hash h()

00011, 10011, 11011, 01100, 00110, 00100, 01011, 11100, 10100

Pede-seMostrar a inserção, em ordem, de cada chave usando

abordagem de hashing extensívelMostrar a remoção das chaves 00100, 01100, 10100

ConsidereDiretório com profundidade 1 e balde com tamanho 2.

DicaNo início somente balde é criado e todas as entradas para

do diretório apontam para esse balde. A profundidade local é inicialmente 0.

Hashing linear O hashing extensível cresce de forma exponencial no

momento que cada balde precisa de mais registros Além disso, é necessário um dicionário para armazenar o

endereço de cada balde

O hashing linear cresce de forma mais lentaÉ criado um balde a cada momento que a tabela cresceNão é necessária uma tabela de enderaçamento

Dessa forma, não é necessário também refazer todos os indíces a cada crescimento

FuncionamentoManipulação de espaços através de diferentes funções de

hash aplicadas nos espaços disponíveis

Hashing linear Essa abordagem usa buckets que são estruturas com espaços

para mais de um registroEquivale a “baldes alocados em uma estrutura sequencial”

Cada bucket possui um tamanho fixo M, ou seja, armazena M chaves. Inicia-se a estrutura com um número fixo de buckets.

Caso o espaço do bucket estoure, é utilizado um bucket de overflow que pode ser implementado como uma lista encadeada

Um ponteiro p determina qual o bucket a ser duplicado

Hashing linear A criação de novo bucket é determinado pelo fator de carga da

estruturaOu seja, vários buckets podem conter mais registros do que

o espaço determinado e fazer uso de buckets de overflowA cada inserção, é verificado o fator de carga. Caso seja

maior do que um limite estipulado, um novo espaço de alocação é determinado.

O fator de carga é dado pela quantidade de registros inseridos divididos pela soma dos espaços possíveis nos buckets: FatorCarga = Total(registros) / M * Total(buckets)

Hashing linear: inserção Sendo N o tamanho da tabela hash (número inicial de

buckets), a inserção é dada pela fórmula h(k) = k mod 2g * N, sendo g iniciado de 0.

Ao inserir uma nova chave, aloca-a no bucket determinado pela fórmula acima

Caso o bucket esteja cheio, a chave é alocada no bucket de overflow.

Quando o fator de carga ultrapassa o máximo valor estabelecido, duplica-se o bucket apontado por p. O novo bucket é alocado no final da tabela e p é incrementado.

Os buckets duplicados são reorganizados e todos os dados dos dois buckets passam a obedecer a fórmula h

1(k)=k mod 2g+1 * N.

Hashing linear: inserção Suponha M=3, N=3 e fator de carga = 80%. Suponha a tabela

abaixo já preenchida com algumas chaves e p (ponteiro split) apontando para o índice 0 da tabela.

Como a tabela ainda não sofreu expansão (N=3 é o valor inicial), todas as chaves foram alocadas com a função

h(k) = k mod 2g * N, ou seja

h(k) = k mod 20 * 3 = k mod 3

Fator de carga da tabela é 75% = 9 chaves / 3 buckets com 3 espaços e 1 overflow em cada bucket.

Pode-se também calcular o fator de carga em relação ao número de espaços em buckets somente, sem o bucket de

overflow.

Hashing linear: inserção Inserindo 10, o fator de carga vai para 83% (10/12)

Torna-se necessário criar um novo bucketO novo bucket é alocado no final da tabela. As chaves dos dois buckets são redistribuídas com a fórmula

h1(k) = k mod 2g+1 * N, ou seja

h1(k) = k mod 21 * 3 = k mod 6

O ponteiro p (split) é incrementado.

Hashing linear: inserção Inserindo 21, 36 e 25.

O fator de carga vai para 87%

Hashing linear: inserção Inserindo 21, 36 e 25.

O novo bucket é alocado no final da tabela. As chaves dos dois buckets são redistribuídas com a fórmula

h1(k) = k mod 21 * 3 = k mod 6

O ponteiro p (split) é incrementado.

Hashing linear: inserção Inserindo 27 e 37.

O fator de carga vai para 83%.As chaves dos dois buckets são redistribuídas com a fórmula

h1(k) = k mod 21 * 3 = k mod 6

O ponteiro p (split) volta para a posição inicial.

Índice de p deve ser sempre menor que N!

Exercício Considere uma tabela com 4 buckets de tamanho 3 e fator de

carga 70%. Insira as seguintes chaves:

4, 8, 5, 9, 6, 7, 11, 13, 17, 15, 3, 18, 16, 36, 37

Assuma o fator de carga como sendo a razão entre os registros inseridos pela soma dos espaços dos buckets (sem contar os espaços dos buckets de overflow)

Árvores B - ufjf.br · função de hash h() 00011, 10011, 11011, 01100, 00110, 00100, 01011,...

Documents

Transcript of Árvores B - ufjf.br · função de hash h() 00011, 10011, 11011, 01100, 00110, 00100, 01011,...

Letra Código Var Mod Descrição PVP 2015 Descono · 00099 chuveiro c/regador manual e lavapes a418,00 € 00100 tunel de duche 1 arco c/ 3 regadores b953,45 € ... 00208 tensor

Jornal USTust.org.br/documents/JornalUST201601.pdf · 2016-01-14 · Jornal UST Fone 55 11 3331 5954 Tim 97737 4820 vivo 99782 3093 Rua São Bento 355-cep 01011-100 São Paulo -SP

A importância da arquivística e da salvaguarda patrimonial ... · Apresentaçao do portal da Rede de Bibliotecas de Vila de Rei 1 01100 - Do Património Documental José Pacheco

AINST/16/00100 — Relatório final da CAE · 2018. 11. 5. · AINST/16/00100 — Relatório final da CAE Avaliação e Qualidade (GEPAQ) e um Gabinete de Estatística (GE). Presentemente,

Manual de N™velInterm”dio - fao.org · Os pedidos de autorização devem ser enviados ao Serviço do Género e Desenvolvimento, FAO, Viale delle Terme di Caracalla, 00100, Roma,

Plan de Comunicación CME 2014-2017 - Maristas · 2018-06-18 · 4 00011001110 01110101 110001011100 01010110011010 01011 00111010001010 011011 01101010 00101 0111 A. Consideraciones

ESTIMATIVAS DAS POPULAÇÕES RESIDENTES ... - … · AM 13 01100 Careiro 32.638 AM 13 01159 Careiro da Várzea 24.704 AM 13 01209 Coari 66.991 AM 13 01308 Codajás 16.291 AM 13 01407

A4 Boletim Fevereiro de 2018 - Grémio Literário · royalnautiqueclub@menara.ma *** Helsinki Bourse Club Helsingin Pörssiklubi 4th floor FIN-00100 Helsinki Finlândia Telefone:

2015-05 Boletim Mensal Sistema Cantareira (MAIO)€¦ · Principais Variáveis de Qualidade da Água- Classe 1 (CONAMA 357/05) JCRE 00100 BOLETIM AUTOMÁTICO DE QUALIDADE DAS ÁGUAS

STWBrasil novoRua São Bento, 365 – 8º andar –Centro – CEP:01011-100- São Paulo Visão Nos tornarmos uma das 10 maiores empresas de T.I. sendo reconhecida pela nossa segurança

Comissão de Honra Ministro da Economia Presidente da ... · 091130 - 1 Oh00 1 Abertura do Secretariado e entrega de pastas 1 01100 = 1 Oh30 1 Sessão de Abertura 1 01130 - 1 1 h30

Imprensa Oficial · 2018-09-13 · 339030 MATERIAL DE CONSUMO 01100 300.000,00 339039 OUTROS SERVIÇOS DE TERCEIROS - PESSOA ... 20.002.06.181. 0001.1002 Aquisição de equipamentos

Ecologia - Instituto de Biociênciaseco.ib.usp.br/labvert/Trabalhos Laura/HR40_3_357-58.pdf.Kpoq JO Inoqe 01 dn pun0Jî 01011 popuosqo 1 'CAOIO £8 'N 099'6 'OOUIAOJd Joc10J00 .(.dd

XI Encontro Nacional de 01010 11100 01011 BIOLOGIA ... · Faculdade de Ciências e Tecnologia Universidade NOVA de Lisboa Campus de Caparica, Portugal Ed. VII, Anﬁteatro 1D Receção