DESEQUILÍBRIO DE LIGAÇÃO E BLOCOS DE HAPLÓTIPOS ... · A Deus, por ter renovado a minha fé e...

148
UNIVERSIDADE DE SÃO PAULO FACULDADE DE MEDICINA DE RIBEIRÃO PRETO DEPARTAMENTO DE GENÉTICA DESEQUILÍBRIO DE LIGAÇÃO E BLOCOS DE HAPLÓTIPOS DETERMINADOS PELA ANÁLISE DE 250K SNPS EM TRÊS REMANESCENTES DE QUILOMBOS EDILENE SANTOS DE ANDRADE Ribeirão Preto 2013

Transcript of DESEQUILÍBRIO DE LIGAÇÃO E BLOCOS DE HAPLÓTIPOS ... · A Deus, por ter renovado a minha fé e...

  • UNIVERSIDADE DE SÃO PAULO

    FACULDADE DE MEDICINA DE RIBEIRÃO PRETO

    DEPARTAMENTO DE GENÉTICA

    DESEQUILÍBRIO DE LIGAÇÃO E BLOCOS DE HAPLÓTIPOS DETERMINADOS PELA ANÁLISE DE 250K SNPS EM TRÊS

    REMANESCENTES DE QUILOMBOS

    EDILENE SANTOS DE ANDRADE

    Ribeirão Preto 2013

  • UNIVERSIDADE DE SÃO PAULO

    FACULDADE DE MEDICINA DE RIBEIRÃO PRETO

    DEPARTAMENTO DE GENÉTICA

    DESEQUILÍBRIO DE LIGAÇÃO E BLOCOS DE HAPLÓTIPOS DETERMINADOS PELA ANÁLISE DE 250K SNPS EM TRÊS

    REMANESCENTES DE QUILOMBOS

    EDILENE SANTOS DE ANDRADE

    Tese apresentada à Faculdade

    de Medicina de Ribeirão Preto da Universidade de São Paulo,

    como requisito parcial para

    obtenção do título de Doutora em Ciências – Área de

    concentração: Genética.

    Orientação: Prof. Dr. Celso

    Teixeira Mendes-Junior.

    Ribeirão Preto

    2013

  • AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE TRABALHO, POR QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO, PARA FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE.

    FICHA CATALOGRÁFICA

    ANDRADE, Edilene Santos

    Desequilíbrio de ligação e blocos de haplótipos determinados pela análise de 250K SNPs em três remanescentes de quilombos / Edilene Santos de Andrade; orientador Celso Teixeira Mendes-Junior. Ribeirão Preto, 2013.

    147p.: 30cm

    Tese (Doutorado – Programa de Pós-Graduação em Genética) - Faculdade de

    Medicina de Ribeirão – Universidade de São Paulo.

    1. Desequilíbrio de ligação. 2. Blocos de haplótipos. 3. SNPs. 4. Remanescentes

    de quilombos. 5. História demográfica.

  • FOLHA DE APROVAÇÃO

    Edilene Santos de Andrade Desequilíbrio de ligação e blocos de haplótipos determinados pela análise de 250K SNPs em três remanescentes de quilombos

    Tese apresentada à Faculdade

    de Medicina de Ribeirão Preto

    da Universidade de São Paulo, como requisito parcial para

    obtenção do título de Doutora

    em Ciências – Área de concentração: Genética.

    Orientação: Prof. Dr. Celso Teixeira Mendes-Junior.

    Aprovada em:

    Banca examinadora

    Prof. Dr. ________________________________________________________

    Instituição: _____________________ Assinatura: _______________________

    Prof. Dr. ________________________________________________________

    Instituição: _____________________ Assinatura: _______________________

    Prof. Dr. ________________________________________________________

    Instituição: _____________________ Assinatura: _______________________

    Prof. Dr. ________________________________________________________

    Instituição: _____________________ Assinatura: _______________________

    Prof. Dr. ________________________________________________________

    Instituição: _____________________ Assinatura: _______________________

  • Dedico este trabalho aos meus pais,

    Macrino e Maria Helena, pelo apoio

    incondicional!

  • AGRADECIMENTOS

    A Deus, por ter renovado a minha fé e as minhas forças diante de todas

    as dificuldades que surgiram durante o desenvolvimento deste trabalho.

    Aos meus pais, Macrino e Maria Helena, às minhas irmãs, Eliane e

    Etiene, e aos demais familiares que sempre me incentivaram e oraram

    por mim.

    Ao Prof. Dr. Celso Teixeira Mendes-Junior pela orientação, pela

    oportunidade de desenvolver projetos na área de Genética Forense

    (minha grande paixão) e, sobretudo, pelo voto de confiança concedido

    quando aceitou me orientar e concordou com a continuidade deste

    trabalho.

    Ao Prof. Dr. Aguinaldo Luiz Simões pela orientação no início deste

    trabalho, pelas muitas discussões que me permitiram adquirir um

    maior conhecimento dos fundamentos teóricos relativos a esta tese e

    por ter concordado com a continuidade deste trabalho, apesar de todas

    as dificuldades que surgiram ao longo do caminho.

    Ao colega bioinformata Diego Martinez Salvanha, pelo desenvolvimento

    dos scripts que me permitiram analisar os dados, sem os quais a

    realização deste trabalho teria sido inviável.

    Ao Prof. Dr. Ricardo Zorzetto Nicoliello Vêncio pela valiosa colaboração

    neste trabalho e por abrir as portas de seu grupo de pesquisa, o que

    despertou o meu interesse pela Bioinformática. Agradeço, sobretudo,

    pelo apoio e incentivo concedidos, não apenas durante o

    desenvolvimento deste trabalho, mas também em relação a projetos

    futuros.

  • Ao Prof. Dr. Henrique Krieger pela simpatia com a qual me recebeu em

    seu Laboratório para a realização da etapa experimental. Ao colega

    Lucas Pereira e, principalmente, ao Leandro Maza Garrido pela

    paciência e boa vontade durante o meu período de treinamento no

    sistema de genotipagem dos SNPs.

    Aos professores membros da banca examinadora, pela disponibilidade

    em avaliar este trabalho e pelas valiosas contribuições.

    Às amigas Ana Lúcia Pimentel e Maria do Carmo T. Canas, pelo

    inestimável auxílio laboratorial prestado, principalmente à Ana Lúcia

    por todo o tempo despendido e por sua persistência quando me auxiliou

    na quase impossível tarefa de extrair DNA de boa qualidade das

    amostras estudadas. Agradeço também as duas pela amizade, pelo

    apoio nos momentos difíceis, pelos muitos momentos de descontração e

    por estarem sempre dispostas a me ajudar, dentro e fora do

    Laboratório.

    À amiga Edna Maria Pereira pelos muitos favores prestados e,

    principalmente, pelos momentos que rimos e choramos juntas, pelo

    ombro amigo e sábios conselhos que me ajudaram a superar os

    momentos de maior dificuldade.

    À amiga e conterrânea Fernanda Carvalho pela paciência em passar

    quatro anos ouvindo as minhas lamentações e por ter sempre me

    incentivado a continuar. Agradeço pela amizade e por todo apoio,

    sobretudo durante a finalização da tese.

    À Juliana Feres pela amizade, vários momentos de descontração e por

    ter sido em alguns momentos minha terapeuta, me ensinando a

    desenvolver paciência e a controlar minhas reações, que contribuiu

    muito para a minha formação geral.

  • A todos os amigos que fazem ou fizeram parte do Departamento de

    Genética: Juliana Massaro, Cláudia Wiezel, Natália, Cláudia Caixeta,

    Nádia, Lídia, Leonardo, Marcelo, Paulo, Rosana, Daniela, Ludmila,

    Marcela e Rômulo. Obrigada pelo sempre animado ambiente de

    trabalho, pela amizade e pelo auxílio que me ofereceram, laboratorial ou

    por meio de proveitosas conversas (acadêmicas e pessoais).

    Às amigas e companheiras de futebol Patrícia e Tássia, por me

    hospedado em São Paulo durante o meu treinamento na genotipagem

    dos SNPs.

    À amiga Adriana Vieira, pela revisão do texto e por todo apoio e

    incentivo, mesmo à distância.

    Às amigas pernambucanas, Glória Raposo e Karina Alves, que sempre

    estiveram dispostas a ouvir meus problemas e me incentivaram a

    continuar.

    Aos funcionários do Departamento de Genética, em especial às

    secretárias Susie e Sílvia, que sempre estiveram dispostas a me ajudar.

    À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior

    (CAPES) pela bolsa concedida para o desenvolvimento desta tese.

    A todas as pessoas que de alguma forma contribuíram para a realização

    deste trabalho, MUITO OBRIGADA!

  • “Pois existe a trajetória, e a trajetória

    não é apenas um modo de ir. A

    trajetória somos nós mesmos”.

    (Clarice Lispector)

  • RESUMO

    ANDRADE, E. S. Desequilíbrio de ligação e blocos de haplótipos

    determinados pela análise de 250K SNPs em três remanescentes de

    quilombos. 2013. 147p. Tese (Doutorado) – Faculdade de Medicina de

    Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto.

    A associação não aleatória entre alelos de diferentes lócus caracteriza o

    que é chamado de desequilíbrio de ligação (DL) entre eles. A extensão do

    DL nas populações humanas pode ser influenciada por muitos fatores,

    tais como taxa de recombinação, características demográficas (idade,

    tamanho e taxa de crescimento) e fatores evolutivos (deriva genética,

    efeito fundador, gargalos populacionais, mutação, seleção e fluxo

    gênico). Portanto, o conhecimento dos padrões do DL fornecem dados

    que auxiliam na descrição dos eventos demográficos e evolutivos

    sofridos pelas populações. O objetivo deste estudo foi descrever os

    padrões de DL de quatro populações brasileiras e correlacioná-los com

    suas respectivas histórias demográficas, uma vez que estas populações

    experimentaram alguns dos eventos evolutivos que geram ou retardam

    o decréscimo do DL, como fundação por poucos indivíduos,

    miscigenação no momento da fundação e posterior isolamento. Foram

    analisadas amostras de três populações remanescentes de quilombos

    do Estado do Piauí, Gaucinha (GAU, n = 14), Mimbó (MIB, n = 15) e

    Sítio Velho (STV, n = 15) e da população urbana de Teresina, Piauí

    (TES, n = 15), além de sete amostras populacionais do projeto HapMap

    (CEU, CHB, JPT, ASW, LWK, MKK, YRI, todas com n = 15). Foram

    genotipados mais de 250 mil SNPs (Single Nucleotide Polymorphisms)

    utilizando-se o GeneChip® Human Mapping 250K Nsp I Array -

    Affymetrix® nas amostras das quatro populações brasileiras. Os dados

    brutos das populações do HapMap para este array foram obtidos na

    página do projeto. Os genótipos para todas as amostras foram

    determinados pelo algoritmo CRLMM após comparação com o algoritmo

    BRLMM, e as análises de DL e determinação dos blocos de haplótipos

  • foram realizadas com o uso do programa Haploview. Considerando-se o

    número de blocos de haplótipos detectados em cada população

    estudada, padrão semelhante foi observado em todos os autossomos.

    Em geral, a população europeia (CEU) e as duas populações asiáticas

    (CHB e JPT) do HapMap apresentaram os maiores números de blocos,

    enquanto que os menores números foram observados nos quilombos

    GAU e MIB e na população TES. As populações africanas LWK, MKK e

    YRI e a população afro-americana ASW apresentaram os valores

    intermediários e a população afro-brasileira STV, apresentou um

    número de blocos apenas inferior a CEU, CHB e JPT. A grande

    contribuição africana nos quilombos GAU e MIB pode explicar o menor

    DL observado nestas comunidades. Por outro lado, o menor DL em TES

    se deve, provavelmente, à sua fundação, que envolveu um maior

    número de indivíduos e foi seguida por um rápido crescimento. A

    possível explicação para o maior DL observado em STV, em relação aos

    demais quilombos, consiste em sua peculiar história demográfica: esta

    comunidade experimentou uma miscigenação no momento de sua

    fundação, que foi seguida por um crescimento lento e pouca

    diferenciação. Assim, foi demonstrado como os eventos demográficos de

    cada população influenciam seus respectivos padrões de DL.

    Palavras-Chave: desequilíbrio de ligação; blocos de haplótipos; SNPs;

    remanescentes de quilombos; história demográfica.

  • ABSTRACT

    ANDRADE, E. S. Linkage disequilibrium and haplotype blocks

    determined by the analysis of 250K SNPs in three quilombo

    remnants communities. 2013. 147p. Tese (Doutorado) – Faculdade de

    Medicina de Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto.

    The non-random association between alleles of different loci

    characterizes what is called linkage disequilibrium (LD) between them.

    The LD extent in human populations can be influenced by many

    factors, such as recombination rate, demographic features (age, size

    and growth rate) and evolutionary events (genetic drift, founder effects,

    population bottlenecks, mutation, selection and gene flow). Therefore,

    knowledge of the LD patterns provides data that assists in describing

    the evolutionary and demographic events experienced by populations.

    The aim of this study was to describe the LD patterns of four Brazilian

    populations and correlate these patterns with their respective

    demographic histories, since these populations have experienced some

    of the evolutionary events that produce or retard the LD decrease, such

    as foundation by few individuals, admixture at the founding moment

    and subsequent isolation. Samples from three quilombo remnants

    populations of the Piauí State, Gaucinha (GAU, n = 14), Mimbó (MIB, n

    = 15) and Sítio Velho (STV, n = 15) and the urban population of

    Teresina, Piauí (TES, n = 15), and seven population samples from the

    HapMap Project (CEU, CHB, JPT, ASW, LWK, MKK, YRI, all with n = 15)

    were analyzed. More than 250 thousand SNPs (Single Nucleotide

    Polymorphisms) were genotyped using the GeneChip ® Human Mapping

    250K Nsp Array I - Affymetrix ® in the samples of the four Brazilian

    populations. Raw data of the HapMap population samples for this array

    were obtained from the HapMap homepage. Genotypes for all samples

    were determined by CRLMM algorithm after comparison with the

    BRLMM algorithm. LD analyzes and determination of haplotype blocks

    were performed using the Haploview software. Considering the number

  • of haplotype blocks detected in each population, a consistent pattern

    was observed for all autosomes. The European population (CEU) and

    the two Asian populations (CHB and JPT) of the HapMap showed the

    highest numbers of blocks, while the lowest numbers were observed in

    the GAU and MIB quilombos and in the TES population. The African

    populations, LWK, MKK and YRI, and the African-American ASW

    exhibited intermediate values and the African-Brazilian population STV,

    presented a number of blocks smaller than that observed for CEU, CHB

    and JPT. The great African contribution in the GAU and MIB quilombos

    may explain the lower LD observed in these communities. On the other

    hand, the lower LD in TES is probably due to its foundation that

    involved a larger number of individuals and was followed by a fast

    growth. A possible explanation for the higher LD observed in STV,

    compared to other quilombos, consists in its particular demographic

    history: this community experienced admixture at the time of its

    foundation, which was followed by slow growth and low differentiation.

    Thus, it was shown how the demographic events of each population

    influence their respective LD patterns.

    Keywords: linkage disequilibrium; haplotype blocks; SNPs; quilombo

    remnants; demographic history.

  • SUMÁRIO

    1. INTRODUÇÃO ...................................................................................................... 16

    1.1 Ligação, Haplótipos e Desequilíbrio de Ligação (DL) ....................................... 16

    1.2 Fatores demográficos e evolutivos que geram e/ou alteram o DL ....................... 17

    1.3 Exemplos de análise populacional a partir do DL .............................................. 19

    2. HIPÓTESE ............................................................................................................. 23

    3. OBJETIVO ............................................................................................................. 24

    3.1 Objetivo Geral ................................................................................................... 24

    3.2 Objetivos Específicos ........................................................................................ 24

    4. METODOLOGIA ................................................................................................... 25

    4.1 Aspectos éticos da pesquisa ............................................................................... 25

    4.2 Amostras populacionais ..................................................................................... 25

    4.3 Extração do DNA .............................................................................................. 28

    4.4 Genotipagem de SNPs com microarranjos de DNA ........................................... 29

    4.4.1 Microarranjos de DNA ................................................................................... 29

    4.4.2 Procedimentos laboratoriais ............................................................................ 31

    4.4.3 Análise dos dados e determinação dos genótipos ............................................ 35

    4.5 Análises de desequilíbrio de ligação e blocos de haplótipos ............................... 40

    5. RESULTADOS ...................................................................................................... 46

    5.1 Comparação entre os algoritmos BRLMM e CRLMM ....................................... 46

    5.2 Influências do tamanho amostral e do número de SNPs analisados na estimativa

    do DL...................................................................................................................... 49

    5.3 Padrões genômicos de blocos de haplótipos e DL .............................................. 53

    5.4 Desequilíbrio de Ligação e Blocos de haplótipos no cromossomo 22 ................. 55

    5.4.1 Análise descritiva ........................................................................................... 55

    5.4.2 Compartilhamento de blocos de haplótipos ..................................................... 60

    5.5 Desequilíbrio de Ligação e Blocos de haplótipos no cromossomo 6 ................... 65

    5.5.1 Análise descritiva ........................................................................................... 65

    5.5.1.2 Região do MHC........................................................................................... 71

    5.5.2 Compartilhamento de blocos de haplótipos ..................................................... 77

    5.6 Análise comparativa dos blocos de haplótipos nos cromossomos 6 e 22 ............ 85

    6. DISCUSSÃO .......................................................................................................... 90

    6.1 Comparação entre os algoritmos BRLMM e CRLMM ....................................... 90

  • 6.2 Influências do tamanho amostral e do número de SNPs analisados na estimativa

    do DL...................................................................................................................... 92

    6.3 Padrões genômicos de blocos de haplótipos e DL .............................................. 94

    6.4 Compartilhamentos de blocos de haplótipos .................................................... 102

    6.5 Análise comparativa dos blocos de haplótipos nos cromossomos 6 e 22 .......... 105

    7. CONCLUSÕES .................................................................................................... 107

    REFERÊNCIAS BIBLIOGRÁFICAS ....................................................................... 109

    MANUSCRITO ........................................................................................................ 116

  • 16

    1. INTRODUÇÃO

    1.1 Ligação, Haplótipos e Desequilíbrio de Ligação (DL)

    A ligação pode ser definida como o fenômeno no qual alelos adjacentes

    situados em um mesmo segmento cromossômico são transmitidos

    juntos (em bloco) na meiose com uma frequência maior do que seria

    esperado pelo acaso. Esse conjunto de alelos ligados é denominado

    haplótipo.

    Considerando-se dois lócus ligados (A e B), cada um com dois alelos

    com frequências pA1, pA2, pB1, pB2, respectivamente, espera-se, em uma

    situação de equilíbrio, que o haplótipo A1B1 ocorra com frequência

    igual ao produto pA1pB1. As frequências esperadas dos outros haplótipos

    seriam estimadas de maneira semelhante (Hartl e Clark 1997).

    O desequilíbrio de ligação (DL) é definido como a diferença entre as

    proporções haplotípicas observadas e aquelas esperadas se os alelos

    segregassem independentemente (Weiss e Clark 2002).

    O coeficiente de desequilíbrio (D) ou desvio é uma medida do grau de

    associação não aleatória entre os alelos de dois lócus. Este coeficiente é

    igual à diferença entre o produto das frequências dos haplótipos em

    acoplamento e o produto das frequências dos haplótipos em repulsão. A

    cada geração, devido aos eventos de recombinação, uma proporção de

    haplótipos em acoplamento se transforma em haplótipos em repulsão e

    vice-versa, reduzindo assim o DL a cada geração. O DL em uma geração

    qualquer pode ser calculado pela fórmula:

    DL = (1 - r)t DL0

    onde DL0 é o DL inicial, t é o número de gerações de cruzamento ao

    acaso (panmixia) e r é a taxa de recombinação. Observe-se que as

    frequências alélicas permanecem constantes, ao longo das gerações. O

    DL decairá, tendendo a zero, se nenhum outro processo além da

  • 17

    recombinação estiver agindo na população. Se a taxa de recombinação

    (r) for pequena, o DL decairá lentamente. Quando r = 0,5 (taxa de

    recombinação máxima, para lócus em cromossomos diferentes) o

    decaimento é rápido, mas o equilíbrio só será atingido após algumas

    gerações. Adicionalmente, quando dois lócus estão distantes entre si, a

    taxa de recombinação entre eles será mais alta em comparação à taxa

    dos lócus muito próximos entre si (Hartl e Clark 1997).

    Consequentemente, é esperado que populações jovens exibam uma

    maior extensão de DL (maior distância observada entre dois lócus em

    desequilíbrio) do que as populações fundadas há mais tempo, uma vez

    que, para lócus separados por longas distâncias, o número de gerações

    necessárias para atingir o equilíbrio (DL desfeito) é muito menor. Assim,

    espera-se um maior número de lócus distantes em desequilíbrio nas

    populações mais jovens.

    1.2 Fatores demográficos e evolutivos que geram e/ou alteram o DL

    Além da taxa de recombinação, a magnitude e o decaimento do DL

    podem ser alterados por diversos eventos como miscigenação, deriva

    genética, efeito fundador, gargalos populacionais, mutação e seleção.

    Outros fatores, tais como idade da população, tamanho e taxa de

    crescimento populacional, migração e endocruzamento também podem

    modificar os padrões de DL.

    Eventos de miscigenação no momento da fundação de uma população

    resultam em um alto e extenso DL (Laan e Pääbo, 1997; Hall et al.,

    2002; Service et al., 2006; Xu et al., 2007). A quantidade e a extensão

    do DL criado pela miscigenação dependem da proporção e do nível de

    diferenças nas frequências alélicas nas duas populações ancestrais, da

    contribuição a partir de cada população parental, além do tempo

    decorrido desde a miscigenação (Pfaff et al., 2001).

    Outro evento demográfico que influencia os padrões de DL é a deriva

    genética, que consiste em um dos mais importantes mecanismos

  • 18

    criadores de DL. Quanto menor o tamanho populacional, mais forte

    será a ação da deriva e, consequentemente, maior será o DL criado

    (Jorde 2000; Jorgensen et al., 2002). Em populações pequenas e

    estáveis, a magnitude esperada do DL entre dois lócus também pode

    variar significativamente em função da taxa de mutação, visto que a

    ocorrência de mutações, embora geralmente tenha baixa frequência,

    pode alterar as frequências alélicas e haplotípicas (Tenesa et al., 2004).

    Conforme uma população se expande, os efeitos da deriva genética e

    das mutações serão menores e, como consequência, a extensão do DL

    entre todos os pares de lócus será diminuída de uma geração para

    outra. Um rápido crescimento limita o DL em decorrência do aumento

    da diversidade genética e do aparecimento de recombinantes. Espera-se

    então encontrar DL alto e extenso em populações isoladas que

    experimentaram um crescimento populacional recente (após um longo

    período de tamanho constante) e que foram fundadas por um pequeno

    número de indivíduos (Slatkin 1994; Kruglyak 1999).

    Outro mecanismo criador de DL é a seleção natural. Sob evolução

    neutra, os novos alelos que surgem em uma população requerem

    muitas gerações para atingirem uma alta frequência. Durante este

    período, o DL ao redor destes novos alelos diminuirá em decorrência

    dos eventos de recombinação. Consequentemente, alelos comuns

    apresentarão DL de curta extensão. Por outro lado, a seleção positiva

    aumenta a frequência do alelo selecionado em relativamente poucas

    gerações, reduzindo os efeitos da recombinação, que de outra forma,

    iria desfazer o haplótipo que contém o alelo selecionado.

    Adicionalmente, os alelos contíguos e, consequentemente, o haplótipo

    correspondente terão suas frequências aumentadas, devido ao efeito

    carona, resultando em um extenso DL ao redor do alelo selecionado

    (Ahmad et al 2003; Walsh et al., 2003; Miretti et al., 2005). Além disto,

    a seleção epistática para combinações de alelos em dois ou mais lócus

    também pode influenciar os padrões de DL através dos haplótipos

    (Ahmad et al 2003). Foi sugerido que na região do Complexo Principal

  • 19

    de Histocompatibilidade (MHC), os altos níveis de DL entre os lócus HLA

    separados por grandes distâncias físicas refletem os efeitos da seleção

    natural e dos eventos demográficos (Meyer et al., 2006).

    A extensão do DL em uma população é determinada, principalmente,

    pelo seu tamanho efetivo (influenciado fortemente pelo número de

    fundadores e a taxa de expansão da população) e o tempo decorrido

    desde a sua fundação. O tamanho efetivo estabelece o número de

    diferentes haplótipos presentes na população, sendo que em populações

    pequenas este número é limitado. O tempo, por sua vez, determina o

    número de oportunidades para que a recombinação entre os

    marcadores desfaça o DL (Service et al., 2006).

    De modo geral, conclui-se que eventos que levam à redução da

    diversidade populacional e da heterozigose mimetizam a diminuição da

    taxa de recombinação, retardando o decaimento do DL ao longo das

    gerações. Assim, os padrões das associações alélicas em uma

    população, em um determinado período, resultam da interação

    complexa entre muitos fatores evolutivos.

    1.3 Exemplos de análise populacional a partir do DL

    Uma vez que os fatores evolutivos citados anteriormente alteram o efeito

    da recombinação, populações submetidas a diferentes eventos histórico-

    demográficos diferem quanto à intensidade, à extensão e à velocidade

    do decréscimo do DL. Assim, analisando-se os padrões de DL em

    diferentes populações, pode-se realizar inferências sobre suas

    respectivas histórias demográficas.

    A partir dos padrões de DL, é possível estimar o tamanho efetivo de

    uma população. Neste contexto, o tamanho efetivo da população

    islandesa foi estimado em cinco mil, a partir da determinação do DL em

    12 regiões genômicas analisadas em 1.753 indivíduos, utilizando-se 179

    microssatélites (Bataillon et al., 2006). O tamanho efetivo populacional

    de populações estudadas no Projeto HapMap (catálogo das variações

  • 20

    genéticas comuns em humanos, acessível em

    http://hapmap.ncbi.nlm.nih. gov/), também foi determinado a partir do

    DL. Para a população de ancestralidade europeia (CEU, localizada em

    Utah, Estados Unidos), a japonesa (JPT) e a chinesa (CHB), o tamanho

    efetivo estimado foi de, aproximadamente, 3.100, enquanto que o

    tamanho estimado da população africana (YRI) foi de 7.500 (Tenesa et

    al., 2007).

    A partir dos mapas de DL gerados para os cromossomos 6, 21 e 22 (com

    dados de 24.940 SNPs - Single Nucleotide Polymorphisms), De La Vega e

    colaboradores (2005) determinaram o tempo efetivo de gargalo para

    quatro populações. O período estimado de duração do gargalo para as

    populações caucasiana (43.325 anos), chinesa (44.300 anos) e japonesa

    (41.039 anos) representam menos da metade do tempo presumido para

    o evento out-of-Africa, sendo consistente com o efeito cumulativo de

    gargalos subsequentes contribuindo para a criação do DL. O período

    estimado para a população afro-americana foi de 61.525 anos,

    refletindo uma história demográfica muito diferente, sendo

    caracterizada pela miscigenação.

    Além da estimativa do tempo efetivo de gargalo, também é possível, a

    partir dos padrões do DL, realizar inferências relacionadas aos

    processos de expansão, a idade das populações e a ocorrência de

    eventos de miscigenação no momento da fundação. Uma análise

    comparativa da extensão do DL entre 15 STRs (Short Tandem Repeats)

    analisados em amostras da população isolada das Ilhas Faroe e das

    populações britânica e dinamarquesa, revelou uma maior extensão do

    DL na população isolada (3,8 Mb), quando comparada às demais (1,4

    Mb na britânica e 1,2 Mb na dinarmaquesa). Esta maior extensão do DL

    na população isolada foi atribuída ao seu antigo e lento crescimento,

    bem como a um maior efeito da deriva genética (Jorgensen et al., 2002).

    A determinação dos padrões do DL entre 2.486 SNPs do cromossomo 22

    (34,2 Mb) de 11 populações isoladas de várias regiões do mundo (200

  • 21

    indivíduos de cada população) e da população CEU (Projeto HapMap),

    permitiu correlacionar o DL aos eventos demográficos ocorridos em

    cada população. O DL foi maior nas populações isoladas quando

    comparadas à população CEU (Service et al., 2006). O perfil do DL de

    771 SNPs do cromossomo 22 na população de Talana (101 indivíduos

    não relacionados), região da Sardenha, também foi comparado ao DL da

    população CEU. Talana apresentou níveis maiores e mais extensos de

    DL do que a população europeia, provavelmente devido a um evento

    fundador antigo, seguido por um período de tamanho populacional

    relativamente constante (Angius et al., 2008).

    A partir de uma análise em todo o genoma, utilizando-se 360 mil SNPs,

    foi estabelecido o DL de oito vilas isoladas da região de Ogliastra,

    Sardenha. O padrão do DL de cada vila foi comparado ao padrão de

    populações oriundas de regiões não isoladas da Sardenha e da

    população CEU. Como esperado, as cinco vilas menores e com maior

    isolamento apresentaram os maiores valores de DL, enquanto que as

    populações não isoladas da Sardenha e a do HapMap apresentaram

    valores de DL mais baixos quando comparadas a todas as oito vilas

    isoladas (Pistis et al., 2009) .

    No Brasil, a extensão do DL entre 11 STRs do cromossomo X (X-STRs)

    foi determinada para a população do Rio Grande do Sul (200 homens) e

    para um pool de amostras de 131 índios de 13 tribos da região

    amazônica. Na primeira população, o DL se estendeu até 45,5 Mb,

    provavelmente como resultado dos eventos de miscigenação ocorridos

    há pouco tempo atrás. O tempo decorrido não foi suficiente para que o

    DL fosse desfeito pela recombinação. A extensão do DL no pool de

    amostras indígenas foi de 142,2 Mb. Contudo, não foi possível

    distinguir se este DL extenso é decorrente de gargalos populacionais ou

    da subdivisão ocorrida durante os processos de formação das tribos

    (Leite et al., 2009). Outro estudo realizado no Brasil descreveu os

    padrões de DL de outras três populações indígenas (132 cromossomos)

    e das populações do Rio Grande do Sul e da Costa Rica (124

  • 22

    cromossomos), a partir de 47 X-STRS. Como esperado, as populações

    ameríndias apresentaram uma menor diversidade genética e uma maior

    proporção de lócus em DL, quando comparadas as duas populações não

    isoladas. Foram detectados dois blocos de haplótipos no cromossomo X,

    ambos presentes apenas nos ameríndios (Amorim et al., 2011).

    Resultados semelhantes foram obtidos pela análise de sete X-STRs em

    populações indígenas oriundas da Colômbia (cinco) e do Canadá (uma).

    Em tal estudo, os ameríndios apresentaram maior DL do que

    populações não isoladas, como as da Eurásia (Wang et al., 2010).

    Uma vez que as populações brasileiras remanescentes de quilombos

    experimentaram alguns dos eventos evolutivos descritos anteriormente,

    que geram ou retardam o decréscimo do DL, como fundação por poucos

    indivíduos, miscigenação no momento da fundação e posterior

    isolamento, buscou-se, por meio da análise de 250K SNPs, descrever os

    padrões de desequilíbrio de ligação nessas populações. A título de

    comparação, os padrões de DL também foram inferidos na população

    urbana de Teresina, capital do Estado do Piauí e em populações que

    experimentaram histórias demográficas diversas, analisadas pelo

    projeto HapMap.

  • 23

    2. HIPÓTESE

    Fundamentado no conhecimento teórico relacionado ao Desequilíbrio de

    Ligação e à história demográfica de populações brasileiras

    remanescentes de quilombos, espera-se que os remanescentes

    apresentem um forte e extenso DL, devido à miscigenação (evento que

    cria DL) experimentada por essas populações no momento de sua

    fundação e ao seu posterior isolamento (o que teria permitido a

    manutenção dos altos níveis de DL criados pela miscigenação).

    A população urbana, por sua vez, tem experimentado eventos de

    miscigenação por mais tempo (desde a sua fundação), além de não ter

    passado por nenhum período de isolamento. O tempo decorrido desde a

    fundação foi, provavelmente, suficiente para desfazer o DL criado entre

    a maioria dos lócus. Assim, espera-se um DL menor e menos extenso

    nesta população.

    Portanto, supõe-se que estes dois segmentos da população brasileira

    apresentem padrões diversos de DL em decorrência da estrutura

    genética que apresentam e de suas diferentes histórias demográficas.

  • 24

    3. OBJETIVO

    3.1 Objetivo Geral

    O presente trabalho visa determinar e comparar os padrões de DL de

    três populações remanescentes de quilombos do Estado do Piauí

    (Gaucinha, Mimbó e Sítio Velho) e da população urbana de Teresina,

    capital do Estado do Piauí, além de sete populações do projeto HapMap

    (CEU, CHB, JPT, ASW, LWK, MKK, YRI), na tentativa de correlacionar

    os achados com a história demográfica dos remanescentes de

    quilombos.

    3.2 Objetivos Específicos

    Genotipar 250 mil SNPs em amostra das quatro populações

    brasileiras;

    Comparar o desempenho dos algoritmos de determinação de

    genótipos BRLMM e CRLMM;

    Avaliar a influência do tamanho amostral na determinação dos

    padrões de desequilíbrio de ligação;

    Avaliar a quantidade de blocos de haplótipos nos diferentes

    cromossomos;

    Avaliar detalhadamente o padrão dos blocos de haplótipos nos

    cromossomo 6 e 22, e na região do MHC.

  • 25

    4. METODOLOGIA

    4.1 Aspectos éticos da pesquisa

    Este estudo foi aprovado pelo Comitê de Ética em Pesquisa do Hospital

    das Clínicas da Faculdade de Medicina de Ribeirão Preto da

    Universidade de São Paulo (Processo HCRP nº 4788/2012).

    As amostras analisadas neste estudo estão armazenadas em freezer a

    -20ºC no Laboratório de Genética Bioquímica do Departamento de

    Genética da Faculdade de Medicina de Ribeirão Preto da Universidade

    de São Paulo.

    4.2 Amostras populacionais

    Foram analisadas 58 amostras provenientes de três comunidades afro-

    derivadas (remanescentes de quilombos), situadas no Estado do Piauí:

    Gaucinha (n = 14), Mimbó (n = 15) e Sítio Velho (n = 15) juntamente

    com uma amostra (n = 14) urbana de Teresina, a capital do Estado

    (Figura 1). As coletas foram realizadas em 1993 por professores da

    Universidade Federal do Piauí, liderados pela professora Dra. Zélia

    Arpini Sampaio, em projeto que incluía atendimento médico e alguns

    exames laboratoriais de assistência às comunidades estudadas.

    Gaucinha (GAU):

    Gaucinha está localizada a 4o 49’ latitude Sul e 42o 10’ longitude Oeste,

    distando 80 km da sede do município de Campo Maior e 180 km de

    Teresina. Na época em que foi realizada a visita à comunidade, esta

    contava com apenas 11 choupanas com localização esparsa, em

    decorrência da emigração dos moradores para a sede de Campo Maior.

    Mimbó (MIB):

    Mimbó localiza-se a 6o 14’ latitude Sul e 42o 50’ longitude Oeste e se

    encontra a 22 km da sede do município de Amarante e a 170 km de

    Teresina. Segundo moradores mais antigos, o povoado originou-se na

  • 26

    época da abolição da escravatura. Grupos de negros abandonaram as

    fazendas e migraram para a região em busca de um local para se

    fixarem e viverem sua liberdade.

    Sítio V elho

    G aucinha

    M im bó

    E ST A D O D O PIAUÍ

    T eresina

    P opulação R ural

    P opu lação Urbana

    Figura 1. Localização geográfica das comunidades afro-derivadas do Estado do Piauí.

    Fonte: Wiezel, 2003.

    Sítio Velho (STV):

    Sítio Velho localiza-se a 5o 20’ latitude Sul e 41o 15’ longitude Oeste,

    estando a 280 km de Teresina. De acordo com membros mais antigos, a

    comunidade surgiu no início do século XX nas margens de um riacho

    onde a caça era abundante, por aglomeração de africanos oriundos de

  • 27

    diferentes pontos de uma região relativamente ampla da fronteira entre

    os Estados do Piauí e Ceará.

    Teresina (TES):

    A população de Teresina, por ser urbana, foi utilizada como população

    de referência para os três remanescentes de quilombos. A amostra é

    constituída de indivíduos nascidos no Estado do Piauí, selecionados

    entre os doadores de sangue do Centro de Hematologia e Hemoterapia

    do Estado do Piauí (HEMOPI).

    Populações analisadas no projeto HapMap:

    Foram selecionadas sete populações estudadas pelo projeto HapMap

    (catálogo das variações genéticas comuns em humanos) para servirem

    também como referência para as comparações dos padrões de

    desequilíbrio de ligação entre as populações, por serem populações bem

    conhecidas e caracterizadas geneticamente. As populações do projeto

    HapMap incluídas neste estudo foram:

    1) CEU: amostras de residentes dos Estados Unidos com

    ancestralidade do norte e oeste da Europa. As amostras foram

    coletadas em 1980 pelo Centro de Estudos do Polimorfismo

    Humano (CEPH). Assim, esta população foi usada como

    referência de uma população europeia;

    2) CHB: amostras de chineses Han da cidade de Pequim;

    3) JPT: amostras de japoneses da cidade de Tóquio;

    4) YRI: amostras do grupo étnico Yoruba em Ibadan, Nigéria;

    5) LWK: amostras do grupo étnico Luhya em Webuye, Quênia;

    6) MKK: amostras do grupo étnico Maasai em Kinyawa, Quênia;

    7) ASW: amostras de residentes da região sudoeste dos Estados

    Unidos que se auto-declararam afro-americanos.

  • 28

    A Tabela 1 apresenta o número de amostras disponíveis para estudo

    nas populações brasileiras e nas populações do projeto HapMap. Foram

    analisadas, a princípio, 15 amostras de cada uma das quatro

    populações brasileiras. Contudo, foram excluídas uma amostra de GAU

    e uma de TES por não produzirem resultados dentro dos padrões de

    qualidade exigidos pelo protocolo de genotipagem dos SNPs.

    Tabela 1. Número de indivíduos das onze populações incluídas no estudo.

    Populações

    GAU MIB STV TES CEU CHB JPT YRI LWK MKK ASW

    Nº de Indivíduos disponíveis 15 15 15 15 165 84 86 167 90 171 83

    Nº de Indivíduos analisados 14 15 15 14 15 15 15 15 15 15 15 GAU: Gaucinha; MIB: Mimbó; STV: Sítio Velho; TES: Teresina; CEU: população europeia; CHB: chineses; JPT: japoneses; YRI: Yoruba; LWK: Luhya; MKK: Maasai; ASW: afro-americanos.

    Foram realizados testes para verificar se as análises de desequilíbrio de

    ligação sofrem influência das diferenças no tamanho amostral entre as

    populações brasileiras e do HapMap. Assim, de acordo com os

    resultados dos testes, optou-se pela padronização do tamanho

    amostral, analisando-se apenas 15 indivíduos de cada população do

    HapMap (Tabela 1).

    Os genótipos gerados com o uso do Human Mapping 250K Nsp Array

    para as populações do HapMap foram obtidos na página do projeto

    (http://hapmap.ncbi.nlm.nih.gov/downloads/genotypes/?N=D). Assim,

    os procedimentos laboratoriais foram realizados utilizando-se apenas as

    amostras provenientes das quatro populações brasileiras (GAU, MIB,

    STV e TES).

    4.3 Extração do DNA

    O DNA genômico dos indivíduos selecionados para o estudo foi extraído

    a partir de amostras de sangue total utilizando-se o kit QIAamp DNA

    Investigator Kit (QIAGEN®, Germantown, MD, USA).

  • 29

    Este kit se baseia nas propriedades de ligação seletiva de colunas

    compostas por membranas de sílica. A partir de 100μL de sangue,

    seguiu-se o protocolo do fabricante. Primeiramente, cada amostra foi

    lisada, sob condições desnaturantes, com 10μL de proteinase K. Foram

    adicionados 50μL de etanol (96-100%) e, após incubação e

    centrifugação, o lisado foi transferido para as colunas de sílica. Este

    procedimento foi seguido por dois ciclos de lavagem com uso de

    reagentes específicos do kit. Foram adicionados, em seguida, 700μL de

    etanol (96-100%). Após dois ciclos de centrifugação, as amostras foram

    incubadas à temperatura ambiente. O DNA foi então eluído em água e

    sua concentração foi ajustada para 50μg/μL, após determinação da

    concentração inicial, utilizando-se o espectrofotômetro NanoDrop®

    (Nano Drop 2000c, Thermo Cientific, Wilmington, DE, USA). O

    espectrofotômetro foi também utilizado para determinar a pureza das

    amostras, com base na relação A260/A280. Ao final, as amostras de

    DNA foram armazenadas a -20ºC até sua utilização.

    4.4 Genotipagem de SNPs com microarranjos de DNA

    4.4.1 Microarranjos de DNA

    Os SNPs foram genotipados utilizando-se um sistema de microarranjos

    de DNA, o GeneChip® Human Mapping 250K Nsp I Array - Affymetrix®.

    Neste sistema, cada array inclui mais de 6,5 milhões de spots, cada um

    consistindo de mais de um milhão de cópias de uma sonda de

    oligonucleotídeos de 25 pb com uma sequência definida.

    Para cada SNP, apenas dois alelos são considerados, uma vez que, para

    a maioria dos SNPs, apenas dois alelos são observados na natureza.

    Cada SNP é interrogado independentemente por seis ou dez quartetos

    de sondas, onde cada quarteto compreende duas sondas de

    complementação perfeita (PM, perfect match) para cada alelo do SNP e

    outras duas sondas de complementação imperfeita (MM, mismatch)

  • 30

    para cada alelo. No total, existem no array 24 ou 40 diferentes

    oligonucleotídeos de 25 pb por SNP (Matsuzaki et al., 2004).

    As diferenças entre estes dois tipos de sondas consistem na mudança

    de uma base na posição 13. Para cada sonda PM representando o alelo

    A, existe uma para o alelo B que difere apenas por uma base, o SNP. Os

    spots também incluem sequências nos sentidos sense ou antisense

    (Matsuzaki et al., 2004). Em resumo, são observados quatro diferentes

    tipos de sondas que variam em função de PM ou MM, alelo A ou B,

    sentido sense ou antisense e a localização do SNP (Figura 2).

    Figura 2. Esquema das sequências das sondas de 25-mer oligonucleotídeos. As sondas são complementares aos sítios de SNPs e as sequências franqueadoras são sintetizadas na superfície do array. O 13º nucleotídeo é a posição interrogada. Nesta posição, a sequência da sonda pode apresentar um perfeito match (PM) ou um mismatch (MM) para um dos alelos do SNP. Esses pares PM e MM fornecem as bases para as medidas do sinal de fluorescência. Os dois pares de sondas correspondentes aos dois alelos são agrupados como quartetos de sondas. Neste quarteto, as sequências das sondas diferem apenas no sítio do SNP interrogado. Para gerar dados redundantes, quatro quartetos adicionais são deslocados a partir do sítio do SNP por um a quatro nucleotídeos, em ambas as direções. Nestes quartetos, o sítio do SNP é deslocado para a posição 17 e a sequência da sonda difere em -4 (PM versus MM) e no sítio do SNP (alelo A versus alelo B). Fonte: Matsuzaki et al., 2004.

  • 31

    Existem ainda 50 SNPs em cada array que servem como controles

    internos. O GeneChip® Genotyping Analysis Software (GTYPE)

    (Affymetrix, Santa Clara, CA, USA) utiliza estes controles para realizar

    uma checagem cruzada dos genótipos a partir da mesma amostra em

    cada array, quando se usa concomitantemente os dois arrays: o 250K

    Nsp I e o 250K Sty I. O objetivo é assegurar que os dois arrays da

    mesma amostra não sejam confundidos com os demais, desde a

    preparação do DNA até a análise dos dados.

    O GeneChip® Human Mapping 250K Nsp Array permite a análise de

    262.244 SNPs humanos em um único experimento. Estes SNPs estão

    uniformemente distribuídos ao longo de todo o genoma, com uma

    distância média de 5,8 Kb entre eles e heterozigose média de 0,30, com

    base nas populações CEU, CHB, JPT e YRI do projeto HapMap. A

    frequência alélica mínima (MAF), ou seja, a frequência do alelo menos

    frequente é, em média, 22%. Anotações para cada SNP são fornecidas

    pelo GTYPE e pelo NetAffx™ Analysis Center (Affymetrix, Santa Clara,

    CA, USA). Estas anotações combinam dados de múltiplas fontes em

    uma única base de dados. As informações para cada SNP incluem a

    identificação do SNP (rs number) na base de dados dbSNP (NCBI), o

    gene mais próximo, a localização física e as frequências alélicas nas

    quatro populações citadas.

    4.4.2 Procedimentos laboratoriais

    Todos os procedimentos laboratoriais para a genotipagem dos SNPs

    foram realizados no Laboratório de Epidemiologia Genética do

    Departamento de Parasitologia do Instituto de Ciências Biomédicas da

    Universidade de São Paulo.

    Os procedimentos seguiram estritamente as recomendações (incluindo

    quantidades e concentrações de reagentes) contidas no manual

    GeneChip® 500K Assay Manual (Affymetrix, Santa Clara, CA, USA).

  • 32

    O primeiro procedimento realizado foi a digestão do DNA genômico de

    cada indivíduo, em regiões específicas, utilizando-se a enzima de

    restrição NspI (New England Biolabs, Ipswich, MA, USA), visando a

    obtenção de fragmentos de DNA de menor complexidade para a

    amplificação e genotipagem de regiões específicas do genoma. Foram

    usados na reação 250ng de DNA de cada amostra. A digestão ocorreu

    por 2 horas a 37ºC, sendo seguida pela inativação térmica da enzima

    (65ºC por 20 minutos).

    O segundo passo do protocolo foi a ligação dos adaptadores NspI

    (Affymetrix GeneChip Mapping 250K Nsp Assay Kit) nas extremidades

    das moléculas de DNA digeridas. Essa etapa foi realizada com o uso da

    enzima T4 DNA ligase (New England Biolabs, Ipswich, MA, USA) a 16ºC

    por 3 horas.

    Após a etapa de inativação térmica da T4 DNA ligase (70ºC por 20

    minutos), o DNA foi diluído quatro vezes com água (Water molecular

    biology reagent Sigma-Aldrich, St. Louis, MO, USA), sendo preparado

    para amplificação pela reação em cadeia da polimerase (PCR). Esta

    reação é otimizada com o objetivo de amplificar fragmentos de 250 a

    1.100 pb. Os oligonucleotídeos iniciadores da reação estão também

    inclusos no Affymetrix GeneChip Mapping 250K Nsp Assay Kit. O DNA é

    amplificado com o uso do kit TITANIUMTM DNA Amplification Kit

    (Clontech, Mountain View, CA, USA). A amplificação de cada amostra é

    realizada em triplicata, visando à obtenção de uma maior quantidade de

    DNA amplificado ao final dessa etapa.

    Após a amplificação do DNA, uma amostra de cada produto amplificado

    foi testada por meio de eletroforese em gel de agarose 2%. Nesta etapa,

    espera-se que os fragmentos de DNA amplificados apresentem um

    comprimento de 250 a 1.100 pb, confirmando o sucesso das reações de

    digestão, ligação e amplificação.

    Os produtos amplificados foram então purificados utilizando-se o DNA

    amplification Clean-Up Kit (Clontech, Mountain View, CA, USA). Após

  • 33

    secagem, cada amostra foi eluída em 45μL de Rb Buffer e, em seguida,

    2μL foram diluídos em 198μL de água. As amostras foram então

    quantificadas no NanoDrop 2000 (Thermo Scientific, Wilmington, DE,

    USA). Posteriormente, cada amostra foi diluída para uma concentração

    final de 2 μg/μl usando-se o tampão RB Buffer incluído no DNA

    Amplification Clean-up Kit (Clontech, Mountain View, CA, USA).

    Cada amostra foi submetida à reação de fragmentação por meio da ação

    da enzima DNase I (0,25U) inclusa no Affymetrix GeneChip Mapping

    250K Nsp Assay Kit. Na fragmentação, foram usados 45μL de cada

    amostra purificada na etapa anterior, com o objetivo de fragmentar 90

    μg do DNA. A reação de fragmentação foi realizada a 37ºC por 35

    minutos. Em seguida, a enzima foi inativada a 95ºC por 15 minutos. A

    eficiência da reação de fragmentação foi verificada por meio de

    eletroforese das amostras fragmentadas em gel de agarose de 4%, sendo

    validadas as amostras em que o DNA apresentasse tamanho inferior a

    180 pb.

    Após a etapa de fragmentação, as amostras foram marcadas com

    biotina (30 mM) (GeneChip® DNA Labeling Reagent) (Affymetrix, Santa

    Clara, CA, USA), por meio da ação da enzima TdT (Terminal

    Deoxynucleotidyl Transferase), que catalisa a transferência de um

    nucleotídeo biotinilado para as extremidades 3’ do DNA. A reação de

    marcação ocorreu a 37ºC por 4 horas.

    O DNA marcado foi então hibridizado com as sondas presentes no

    Genechip® Human mapping 250K Nsp Array durante 16 a 18 horas a

    50ºC. A incubação foi realizada no GeneChip® Hybridization Oven 645

    (Affymetrix Services Lab, Santa Clara, CA, USA).

    Os microarranjos foram lavados com os tampões Wash A (6X SSPE,

    0,01% Tween 20) e Wash B (0,6X SSPE, 0,01% Tween 20) no

    GeneChip® Fluidics Station 450 (Affymetrix, Santa Clara, CA, USA),

    visando a retirada de material em excesso e de sondas hibridizadas

    inespecificamente. A amplificação do sinal da marcação foi realizada por

  • 34

    meio de sucessivos ciclos de incubação com estreptavidina-ficoeritrina

    (1 mg/ml) (SAPE Molecular Probes/Life Technologies, Carlsbad, CA,

    USA) conjugada com o anticorpo anti-estreptavidina biotinilado (0,5

    mg/ml) (Vector Laboratories Inc., Burlingame, CA, USA) no GeneChip

    Fluidics Station 450 (Affymetrix Services Lab, Santa Clara, CA, USA).

    O último passo realizado foi a leitura do chip em um scanner

    (GeneChip® Scanner 3000 7G (Affymetrix Services Lab, Santa Clara, CA,

    USA).

    Fluxograma ilustrativo de todo o processo de análise laboratorial

    voltado para a genotipagem de SNPs pode ser observado nas Figuras 3 e

    4.

    Figura 3. Representação esquemática dos procedimentos laboratoriais para análise de SNPs. O DNA genômico é submetido à digestão pela enzima de restrição NspI. Esta digestão produz fragmentos de tamanhos variados. Um adaptador comum é então ligado às extremidades destes fragmentos e é usado como primer para a reação de amplificação. A PCR ocorre sob condições controladas para que sejam gerados fragmentos de 250 a 1.100 pb, o que reduz a complexidade genômica. O produto da amplificação é fragmentado e marcado, resultando em uma amostra pronta para as etapas de hibridização, lavagens, coloração e scanning. Fonte: Andrade, 2013.

  • 35

    Figura 4. Fluxograma de um experimento com o sistema GeneChip. Após a obtenção do DNA, as reações de amplificação e marcação resultam em uma amostra marcada. Esta amostra é injetada no array e segue-se o processo de hibridização por 16 a 18 horas no forno de hibridização. Os ciclos de lavagem e coloração ocorrem na estação fluídica (quatro arrays simultaneamente). O array é então lido pelo scanner e, em seguida, a intensidade de fluorescência é traduzida em informações de genótipos com uso de diferentes programas. Fonte: Andrade, 2013.

    4.4.3 Análise dos dados e determinação dos genótipos

    Após a leitura dos microarranjos no GeneChip Scanner 3000 7G

    (Affymetrix, Santa Clara, CA, USA), um arquivo de dados brutos (de

    extensão “.dat”) referentes à imagem lida é criado. A imagem dessa

    leitura pode ser observada com o programa de visualização Affymetrix

    Gene Chip Viewer, que permite também a verificação dos controles

    positivos do sistema para confirmar se as condições de hibridação do

    microarranjo foram adequadas.

    O principal objetivo do pré-processamento dos arrays é normalizar as

    intensidades e predizer os genótipos AA, AB ou BB com uma

    determinada medida de confiança. Estas predições são definidas como

    genotype calls. As amostras que não alcançam um valor de confiança

    pré-definido (cutoff) para um determinado SNP, recebem no call para

    este SNP.

  • 36

    O arquivo “.dat” é processado pelo programa Affymetrix GeneChip

    Command Console (AGCC) gerando um arquivo de extensão “.cel” onde

    são armazenadas informações relativas a intensidade do sinal em cada

    pixel dos microarranjos. Estas informações incluem, para cada SNP, a

    intensidade do sinal, o desvio padrão da intensidade, o número de

    pixels utilizados no cálculo da intensidade e uma marcação dos pixels

    que apresentam valores acima do limite estabelecido pelo algoritmo. O

    arquivo “.cel” armazena também informações sobre o experimento

    relacionado ao microarranjo, inclusive sobre a qualidade da leitura dos

    dados, denominada call rate.

    A call rate, representa a porcentagem de SNPs para os quais é possível

    atribuir um genótipo. Esta call rate é gerada para cada array pelo

    GeneChip® Genotyping Analysis Software (GTYPE), que usa um

    algoritmo automatizado de determinação de genótipos baseado em

    modelo dinâmico (DM) (Di et al., 2002), fornecendo um score de

    confiança para cada genótipo individual. Uma call rate maior ou igual a

    93% deve ser usada para determinar se uma amostra pode ou não ser

    utilizada. Contudo, o usuário pode ajustar esse score de acordo com as

    exigências das aplicações posteriores e considerando a qualidade das

    amostras de DNA (Matsuzaki et al., 2004). Assim, os chips com call rate

    abaixo deste valor foram utilizados no presente estudo.

    O algoritmo DM considera quatro diferentes modelos (nulo, AA, AB e

    BB) de intensidade das sondas para cada SNP e a determinação do

    genótipo para cada amostra é realizada com base na probabilidade de

    cada genótipo. Note-se que os genótipos são determinados diretamente

    a partir da intensidade de cada array separadamente. Este processo,

    contudo, gera um maior grau de erros de classificação para os genótipos

    heterozigotos (Carvalho et al., 2007).

    Os arquivos “.cel” são então analisados pelo programa Genotyping

    Console (GTC) da Affymetrix, que utiliza o algoritmo Bayesian Robust

    Linear Model with Mahalanobis distance classifier BRLMM (Affymetrix,

  • 37

    2006) para obter os genótipos dos indivíduos a partir dos dados de

    intensidade dos pixels nos microarranjos. O BRLMM usa os genótipos

    determinados pelo DM como um passo inicial para definir as regiões de

    cada tipo de genótipo. Estas regiões são então recalibradas por meio de

    uma abordagem Bayesiana, usando-se dados de múltiplos arrays de

    diferentes indivíduos para determinação dos genótipos (Rabbee e Speed

    2005; Affymetrix, Inc 2006).

    Este algoritmo enriquece significativamente os resultados do DM: ele

    melhora o desempenho geral (call rate e acurácia) e equaliza o

    desempenho dos genótipos homozigotos e heterozigotos. Os genótipos

    assim determinados, bem como informações tabuladas acerca dos

    indivíduos genotipados, ficam armazenados no programa GTC e podem

    ser exportados para arquivos de texto (“.txt”).

    Uma vez que alguns chips apresentaram call rate inferior a 93%,

    buscou-se utilizar um método de determinação de genótipos que fosse

    capaz de extrair o máximo possível de informações dos dados brutos,

    visando, ao final, um aumento do número de SNPs que pudessem ter

    seus genótipos determinados com alta confiança e acurácia.

    Assim, foram realizados testes com o objetivo de comparar o

    desempenho de dois algoritmos de determinação de genótipos: o já

    citado BRLMM (Affymetrix®) e o CRLMM (Corrected Robust Linear Model

    with Maximum Likelihood Classification) (Carvalho et al., 2007; Lin et

    al., 2008), uma vez que uma determinação precisa e confiável dos

    genótipos é um passo crucial nas estimativas dos haplótipos e nas

    análises do desequilíbrio de ligação, que são objetivos deste estudo.

    O algoritmo CRLMM foi escolhido para comparação porque, a princípio,

    fornece uma determinação mais precisa dos genótipos e oferece uma

    significativa melhoria nas estimativas de acurácia para cada SNP de

    forma robusta (Lin et al., 2008; de Andrade et al., 2011), fazendo com

    que mais amostras e SNPs sejam aproveitados nas análise posteriores.

  • 38

    No CRLMM, para cada array, os efeitos da sequência da sonda e do

    comprimento do fragmento de DNA são estimados e removidos do log da

    intensidade. Em seguida, é usada uma medida de normalização contra

    uma amostra de referência para remover as variações entre os arrays.

    Para cada SNP, para cada um dos dois alelos e para cada uma das fitas

    de DNA é gerada uma medida sumária de todas as sondas PM (perfect

    match) usando-se um modelo linear. São calculadas também, para cada

    fita, a diferença do log entre os alelos A e B. Uma vez que os efeitos da

    sequencia da sonda, do comprimento do fragmento e da intensidade

    total são dependentes do genótipo, um modelo de mistura é usado, que

    assume que cada genótipo desconhecido resulta em uma diferente

    distribuição Gaussiana.

    Utilizando-se os dados do HapMap como treinamento, visto que nestes

    dados os genótipos são conhecidos para a maioria dos SNPs, a média e

    a variância são calculadas para cada SNP para as razões logarítmicas e

    são corrigidas para os efeitos estimados nos passos anteriores. Os

    genótipos das amostras do HapMap são baseados em um consenso a

    partir de diferentes tecnologias de genotipagem e, por isso, podem ser

    considerados como “padrão ouro”, servindo como base na determinação

    dos genótipos das amostras a serem analisadas pelo CRLMM. O modelo

    de mistura dos efeitos é então usado para obter as estimativas

    Bayesianas empíricas. Assim, para uma nova amostra e para cada SNP,

    o genótipo é predito como a maximização da probabilidade calculada,

    uma vez que a média e a variância são conhecidas. As razões de

    probabilidade são então usadas como medidas de incerteza (Carvalho et

    al., 2007).

    Uma implementação do CRLMM está disponível no pacote oligo do

    software Bioconductor (http://www.bioconductor.org/) (Gentleman et

    al., 2004), um projeto de desenvolvimento de software aberto, contido

    no programa de estatística computacional R (http://www.r-

    project.org/). Assim, foram desenvolvidos scripts específicos no

    programa R para que, a partir da base de dados “pd.mapping250k.nsp”,

  • 39

    que inclui os dados brutos das amostras do HapMap, e utilizando o

    pacote oligo, o algoritmo CRLMM determinasse os genótipos para as

    amostras estudadas (as do HapMap e as brasileiras) utilizando os

    arquivos “.cel”, gerados pelo programa Affymetrix Gene Chip Command

    Console (AGCC). Além disso, foi utilizado o arquivo de anotação de SNPs

    do projeto HapMap (Mapping250K_Nsp Annotations, CSV format,

    Release 31 (83 MB, 10/26/10), disponível em

    http://www.affymetrix.com/Auth/analysis/downloads/na31/genotypin

    g/Mapping250K_Nsp.na31.annot.csv.zip. Os genótipos determinados

    dessa forma pelo CRLMM foram então comparados com os genótipos

    gerados pelo BRLMM.

    Fluxograma ilustrativo de todo o processo de análise computacional

    voltado para a determinação dos genótipos pode ser observado na

    Figura 5.

  • 40

    Figura 5. Fluxograma do processo de análise computacional dos dados. Após a leitura dos arrays pelo scanner, um arquivo de dados brutos (“.dat”) é criado. Este arquivo é processado pelo programa AGCC, gerando um arquivo contendo informações sobre a intensidade do sinal de fluorescência (“.cel”). Este arquivo é processado pelo programa GTC, que utiliza o algoritmo BRLMM para determinar os genótipos. O arquivo “.cel” foi também analisado com uso do pacote oligo, do programa Bioconductor, contido no pacote R. Os genótipos foram então determinados pelo algoritmo CRLMM, implementado no pacote oligo, utilizando-se as informações contidas na base de dados pd.mapping.250k.nsp. Fonte: Andrade, 2013.

    4.5 Análises de desequilíbrio de ligação e blocos de haplótipos

    A partir dos genótipos determinados pelo CRLMM com probabilidade ≥

    0,90, foram realizadas as análises de desequilíbrio de ligação e blocos

    de haplótipos, utilizando-se o software Haploview (Barrett et al., 2005;

    http://www.broad.mit.edu/mpg/haploview). Foram realizadas duas

    abordagens, considerando e não considerando os dados de SNPs cujos

    genótipos não puderam ser determinados (no call).

  • 41

    Inicialmente, foi realizada uma seleção para obtenção dos SNPs comuns

    a todas as 11 populações analisadas (as quatro brasileiras e as sete do

    HapMap), para que a comparação dos padrões de desequilíbrio de

    ligação e blocos de haplótipos fosse possível. Esta seleção foi realizada

    com o uso do programa R, utilizando-se scripts específicos. Outros

    scripts foram desenvolvidos para que os dados resultantes da seleção

    fossem formatados de acordo com um dos formatos de entrada do

    programa Haploview, o “HapMap format”.

    Os haplótipos são então inferidos pelo Haploview por meio do algoritmo

    EM, utilizando o método de partição/ligação descrito em Qin e

    colaboradores 2002. Este método infere as fases dos haplótipos e gera

    estimativas de suas respectivas frequências populacionais com base em

    máxima verossimilhança, determinada a partir dos dados de genótipo

    de fase desconhecida.

    Com o uso do Haploview, o Desequilíbrio de Ligação (DL) entre cada par

    de SNPs foi calculado a partir de três medidas: o LOD (log of the

    likelihood odds ratio) score, o coeficiente de desvio padronizado (D’) de

    Lewontin (1964) e a medida r2.

    O LOD score compara a probabilidade de se obter os dados testados se

    os dois lócus estão verdadeiramente ligados e a probabilidade de se

    observar os mesmos dados por chance (acaso). O programa considera

    que LOD > 2 indica um DL significativo.

    O D’ é calculado pelo Haploview da seguinte maneira: consideremos

    como exemplo dois genes (A e B) cada um com dois alelos: gene A com

    os alelos A e a e o gene B com os alelos B e b. Em qualquer geração, um

    cromossomo contendo os gametas AB pode ser submetido a eventos de

    recombinação com probabilidade = r, sendo r a frequência de

    recombinação. Por outro lado, o cromossomo pode não sofrer

    recombinação (probabilidade = 1 - r). Quando não ocorre recombinação,

    a frequência de AB é a mesma observada em gerações anteriores, PAB.

    Entre os cromossomos que sofrem recombinação, a frequência de AB é

  • 42

    simplesmente o produto das frequências dos alelos A e B nas gerações

    prévias: pApB. Assim, o D pode ser definido como a diferença entre PAB

    (não recombinantes) e pApB (recombinantes). O D é calculado da mesma

    forma para os demais gametas Ab, aB, ab e pode também ser definido

    como: D = PABPab - PAbPaB (Hartl e Clark 1997). Uma vez que o valor de D é

    dependente das frequências alélicas, seus valores mínimo e máximo são

    assim definidos: Dmin = maior valor de -pApB e -qaqb; Dmax = maior valor

    de pAqb e qapB. Por esta razão, a magnitude do desequilíbrio de ligação é

    descrita por D’, que é definido como: D’ = D/Dmax (quando D for positivo)

    e D’ = D/Dmin (quando D for negativo) (Hartl e Clark 1997).

    A medida r2, por sua vez, é definida como: r2 = (D’)2/(pAqapBqb). A raiz

    quadrada de r2 representa o coeficiente de correlação no estado alélico

    entre os alelos no mesmo gameta (Hartl e Clark 1997).

    Ambas as medidas, D’ e r2, são usadas para descrever a quantidade de

    desequilíbrio de ligação porque representam diferentes aspectos das

    associações gaméticas. Assim, quando D’ é próximo de zero, r2 também

    se aproxima de zero. Contudo, à medida que D’ aumenta, r2 pode

    apresentar qualquer valor entre zero e (D’)2 (Hartl e Clark 1997).

    Blocos de haplótipos foram gerados e analisados separadamente para

    cada cromossomo em cada população e foram posteriormente

    comparados entre todas as populações estudadas. Para tal análise, foi

    solicitado ao programa excluir os indivíduos que apresentassem mais de

    50% de genótipos não determinados e forçar as análises para computar

    todos os pares de marcadores. Para cada SNP, foram utilizados os

    valores default do Haploview para os seguintes parâmetros: cutoff do

    valor de p do Equilíbrio de Hardy-Weinberg (0,0010), porcentagem

    mínima de genótipos (75%) e frequência alélica mínima (0,0010).

    Os blocos de haplótipos foram definidos separadamente para cada

    população segundo Gabriel e colaboradores (2002). De acordo com o

    critério destes autores, um par de SNPs está em forte DL se D’ > 0,98, o

    que é consistente com ausência de recombinação histórica, com limite

  • 43

    inferior do intervalo de confiança de 95% acima de 0,70. Em

    contrapartida, os pares de SNPs indicam forte evidência de

    recombinação histórica quando o limite superior do intervalo de

    confiança de D’ é menor do que 0,9 (Gabriel et al., 2002).

    Deste modo, um bloco é definido como uma região sobre a qual uma

    proporção muito pequena (< 5%) de comparações entre pares de SNPs

    informativos mostra evidência de recombinação histórica. Dentro dos

    blocos, medidas independentes de DL entre pares de SNPs não

    declinam em função da distância entre os marcadores (Gabriel et al.,

    2002). Este método de definição de blocos ignora SNPs com frequência

    alélica mínima (MAF) menor que 0,05. De modo geral, o método consiste

    em ordenar pelo tamanho a lista de todos os blocos possíveis;

    começando a partir do bloco maior, os demais blocos são adicionados

    enquanto não houver uma sobreposição com um bloco já definido

    (Gabriel et al., 2002).

    O Haploview permite representar o DL por meio de diferentes esquemas

    de cores. No mais tradicional deles (Figura 6), voltado para

    representação dos valores de D’ e LOD score, branco indica LOD < 2 e D’

    < 1; azul indica LOD < 2 e D’ = 1; tons de rosa/vermelho brilhante

    indicam LOD ≥ 2 e D’ < 1; e vermelho indica LOD ≥ 2 e D’ = 1. Em um

    segundo esquema, voltado para a representação dos intervalos de

    confiança de D’, uma forte evidência de DL é representada pela cor

    cinza escuro enquanto que forte evidência de recombinação é

    representada por branco; cinza claro indica uma comparação não

    informativa. No terceiro esquema, branco indica r2 = 0, tons de cinza

    indicam 0 < r2 < 1 e preto indica r2 = 1. O primeiro esquema foi

    selecionado para ilustrar os resultados obtidos no presente trabalho

    (Figura 6).

  • 44

    Figura 6. Esquema de cores utilizado pelo Haploview para representar o Desequilíbrio

    de Ligação em função de D’ e LOD score.

    Um valor de D’ multialélico também é calculado pelo Haploview. Este

    consiste em uma medida de DL entre dois blocos de haplótipos e

    representa o nível de recombinação entre os dois blocos (Figura 7).

    Figura 7. Frequências estimadas dos haplótipos inferidos em cada bloco e D’

    multialélico ilustrando o Desequilíbrio de Ligação entre cada bloco definido pelo

    programa Haploview.

  • 45

    Quanto mais próximo de zero, maior será a quantidade de

    recombinação histórica entre os blocos. O D’ multialélico não é

    computado para os haplótipos raros, pois estes contribuem muito

    pouco para o valor geral.

  • 46

    5. RESULTADOS

    5.1 Comparação entre os algoritmos BRLMM e CRLMM

    Os resultados das comparações entre os algoritmos de determinação de

    genótipos, BRLMM e CRLMM, para todos os 262.244 SNPs contidos no

    GeneChip 250 K Nsp estão representados na Figura 8.

    Figura 8. Resultados das comparações entre os algoritmos BRLMM e CRLMM. NC = no

    call. With NC: abordagem que considera todos os SNPs, inclusive aqueles cujos

    genótipos não foram determinados para todos os indivíduos. Without NC: abordagem

    que considera apenas os SNPs cujos genótipos foram determinados para todos os

    indivíduos.

    O algoritmo CRLMM apresentou um melhor desempenho, sendo capaz

    de determinar os genótipos para praticamente todos os SNPs com

    grande acurácia (0.98), quando os SNPs cujos genótipos não foram

    determinados para todos os indivíduos foram incluídos nas análises.

  • 47

    Assim, este algoritmo foi escolhido para a determinação dos genótipos

    em todas as amostras estudadas, visando a uma menor perda de dados

    e a um maior poder de resolução na análise do DL.

    A partir dos genótipos determinados pelo CRLMM (cut off = 0.90), com e

    sem no call, foram realizadas as análises de desequilíbrio de ligação e

    blocos de haplótipos, utilizando-se o software Haploview. Para tal

    análise, foram selecionados apenas os SNPs (com e sem no call)

    analisados em todas as 11 populações consideradas no presente estudo

    (as quatro brasileiras e as sete do HapMap), para que a comparação dos

    padrões de desequilíbrio de ligação e blocos de haplótipos fosse

    possível.

    São apresentados, como exemplos, os resultados para os cromossomos

    1 e 22 para a população remanescente de quilombo Gaucinha. Para o

    cromossomo 1, foram considerados 12.796 marcadores, sendo incluídos

    os SNPs cujos genótipos não foram determinados para todos os

    indivíduos (isto é, com no call). A partir destes marcadores, foram

    determinados 142 blocos de haplótipos. Quando foram incluídos nas

    análises apenas os SNPs cujos genótipos foram determinados para

    todos os indivíduos (sem no call) o número de marcadores foi reduzido

    para 10.005 e 117 blocos de haplótipos foram gerados pelo Haploview.

    Para o cromossomo 22, os números de blocos de haplótipos foram 14

    (1.572 marcadores) e 12 (1.210 marcadores), seguindo a mesma

    descrição acima, respectivamente.

    A partir destes resultados, observou-se que, ao considerar apenas os

    SNPs sem no call houve uma grande redução no número de SNPs

    incluídos nas análises (2.791 SNPs foram excluídos do cromossomo 1 e

    362 SNPs do cromossomo 22) e, consequentemente, uma diminuição do

    número de blocos de haplótipos gerados. Um número muito reduzido de

    marcadores dificulta as análises de desequilíbrio de ligação e a

    determinação dos blocos de haplótipos. Assim, optou-se por utilizar a

    abordagem que considera inclusive os SNPs cujos genótipos não foram

  • 48

    determinados para todos os indivíduos (com no call), para maximizar o

    número de SNPs analisados.

    A Tabela 2 apresenta o número total de SNPs contidos no GeneChip 250

    K Nsp e o número de SNPs incluídos nas análises, para cada

    cromossomo. O número de SNPs analisados inclui os SNPs comuns a

    todas as populações, mesmo quando os seus respectivos genótipos não

    foram determinados para todos os indivíduos.

    Tabela 2. Número de SNPs contidos no GeneChip 250 K Nsp e comuns a todas as

    populações estudadas.

    Cromossomo Nº de SNPs no chip Nº de SNPs comuns (com no call)

    1 19.855 12.796

    2 22.204 14.603

    3 18.358 12.240

    4 19.053 12.254

    5 17.152 11.423

    6 17.104 11.603

    7 13.932 9.327

    8 14.834 9.701

    9 11.942 7.747

    10 14.263 9.188

    11 13.287 8.677

    12 13.046 8.448

    13 11.072 7.167

    14 8.175 5.348

    15 7.002 4.590

    16 7.010 4.626

    17 4.844 3.178

    18 8.145 5.282

    19 2.691 1.765

    20 5.838 3.840

    21 3.936 2.619

    22 2.499 1.572

    X 5.714 3.540

    Y 5

    ? 283

    Total 262.244 167.994

  • 49

    Após a seleção para SNPs comuns, a redução do número total de SNPs

    (considerando-se todos os cromossomos) variou de 32,16%

    (cromossomo 6) a 38,05% (cromossomo X), com redução média de

    34,69%.

    5.2 Influências do tamanho amostral e do número de SNPs analisados na estimativa do DL

    Ao serem analisados todos os indivíduos disponíveis para cada

    população, conforme apresentado na Tabela 1, padrões bem distintos

    no que se refere ao número de blocos de haplótipos gerados pelo

    Haploview foram observados entre as populações brasileiras e as

    populações do projeto HapMap.

    Para testar se esta variação se deve a grande diferença no número de

    indivíduos analisados, foram escolhidos aleatoriamente 15 indivíduos

    de cada uma das sete populações do HapMap para gerar uma

    amostragem uniforme, permitindo uma comparação de resultados mais

    confiável e informativa.

    Quando o número de indivíduos foi fixado em 15, a diferença no

    número de blocos foi significativamente reduzida, passando a refletir

    apenas as diferenças nos padrões de desequilíbrio de ligação

    resultantes das diferentes histórias demográficas de cada população. Os

    resultados estão apresentados nas Figuras 9 e 10 para os cromossomos

    6 e 22, respectivamente.

  • 50

    Figura 9. Número de blocos de haplótipos gerados pelo Haploview para o cromossomo

    6 incluindo todos os indivíduos disponíveis e apenas 15 indivíduos escolhidos

    aleatoriamente de cada população.

    Figura 10. Número de blocos de haplótipos gerados pelo Haploview para o

    cromossomo 22 incluindo todos os indivíduos disponíveis e apenas 15 indivíduos

    escolhidos aleatoriamente de cada população.

    O número de SNPs utilizados pelo Haploview para gerar os blocos de

    haplótipos para cada cromossomo foram menores do que os números

    apresentados na Tabela 2 (SNPs comuns a todas as populações), uma

    0

    500

    1000

    1500

    2000

    2500

    CEU CHB JPT YRI LWK MKK ASW GAU MIB STV TES

    de

    Blo

    cos

    Populações

    N > 15

    N = 15

    0

    50

    100

    150

    200

    250

    300

    CEU CHB JPT YRI LWK MKK ASW GAU MIB STV TES

    de

    Blo

    cos

    Populações

    N > 15

    N = 15

  • 51

    vez que o Haploview exclui SNPs que falham em determinados testes,

    como o de Equilíbrio de Hardy-Weinberg. Consequentemente, o número

    real de SNPs analisados variou entre as populações. Considerando

    todos os indivíduos disponíveis, o número de SNPs excluídos foi

    extremamente pequeno ou nulo. Por outro lado, quando o número

    amostral foi reduzido para 15, muitos SNPs foram excluídos das

    análises (Figuras 11 e 12). Isto explica o número muito maior de blocos

    gerados para as populações do HapMap quando um número maior de

    indivíduos foi analisado.

    Figura 11. Número real de SNPs (dos 11.603) analisados pelo Haploview para gerar os

    blocos de haplótipos do cromossomo 6, considerando todos os indivíduos disponíveis e

    apenas 15 indivíduos escolhidos aleatoriamente de cada população.

    10400

    10600

    10800

    11000

    11200

    11400

    11600

    11800

    CEU CHB JPT YRI LWK MKK ASW GAU MIB STV TES

    de

    SNP

    S an

    alis

    ado

    s

    Populações

    N > 15

    N = 15

  • 52

    Figura 12. Número real de SNPs (dos 1.572) analisados pelo Haploview para gerar os

    blocos de haplótipos do cromossomo 22, considerando todos os indivíduos disponíveis

    e apenas 15 indivíduos escolhidos aleatoriamente de cada população.

    Contudo, considerando-se apenas os dados dos 15 indivíduos,

    aparentemente não houve correlação entre o número de SNPs

    analisados e o número de blocos de haplótipos gerados, exceto para o

    cromossomo 6, em que a população que apresentou o menor número de

    SNPs incluídos nas análises (MIB) apresentou também o menor número

    de blocos. Assim, as diferenças no número de SNPs incluídos nas

    análises, quando o número de indivíduos foi ajustado para 15, parecem

    não ter afetado a determinação dos blocos de haplótipos.

    Com base nestas observações, a partir deste ponto, serão apresentados

    e discutidos somente os resultados que consideraram apenas 15

    indivíduos para cada população, exceto Gaucinha e Teresina, que

    possuem apenas 14 indivíduos amostrados.

    1300

    1350

    1400

    1450

    1500

    1550

    1600

    CEU CHB JPT YRI LWK MKK ASW GAU MIB STV TES

    de

    SN

    Ps

    anal

    isad

    os

    Populações

    N > 15

    N = 15

  • 53

    5.3 Padrões genômicos de blocos de haplótipos e DL

    A Tabela 3 apresenta o número de blocos de haplótipos gerados para as

    11 populações e 22 autossomos analisados.

    Tabela 3. Número de blocos de haplótipos gerados pelo Haploview para todas as

    populações analisadas.

    Cromossomo POPULAÇÕES

    CEU CHB JPT YRI LWK MKK ASW GAU MIB STV TES

    1 489 457 474 230 201 238 268 142 181 304 187

    2 534 538 552 259 244 279 266 180 228 373 230

    3 477 430 432 235 256 272 276 168 205 355 223

    4 483 464 458 284 265 289 299 184 219 364 215

    5 458 434 437 239 231 251 254 179 175 310 217

    6 446 437 444 259 223 265 268 178 172 324 178

    7 358 329 332 176 156 196 194 126 138 233 134

    8 382 416 386 179 203 198 181 142 155 260 148

    9 267 255 261 130 120 125 127 89 80 162 111

    10 330 318 327 188 182 174 204 127 137 252 141

    11 334 348 350 188 181 192 191 133 155 275 155

    12 325 277 295 170 160 177 159 114 119 215 137

    13 261 280 270 140 141 138 128 100 102 171 117

    14 188 176 202 107 102 99 109 76 81 115 85

    15 134 134 148 60 62 61 63 67 39 94 59

    16 160 134 146 62 62 65 74 44 50 104 55

    17 107 107 97 49 49 52 58 36 41 69 39

    18 201 180 185 89 85 91 95 60 62 125 69

    19 48 52 44 26 21 27 27 20 15 36 17

    20 147 131 146 58 57 61 61 34 49 76 53

    21 110 104 114 52 45 53 56 40 46 77 50

    22 42 44 36 21 16 18 19 14 17 25 13 Total 6281 6045 6136 3201 3062 3321 3377 2253 2466 4319 2633

    GAU: Gaucinha; MIB: Mimbó; STV: Sítio Velho; TES: Teresina; CEU: população europeia; CHB: chineses; JPT: japoneses; YRI: Yoruba; LWK: Luhya; MKK: Maasai; ASW: afro-americanos.

    Para a maior parte dos cromossomos, a população CEU apresentou o

    maior número de blocos de haplótipos, seguida pela população CHB,

    que apresentou o maior número para os cromossomos 8, 13 19 e 22,

    enquanto que JPT (japoneses) apresentou mais blocos para os

  • 54

    cromossomos 11, 14, 15 e 21. No total, estas três populações

    apresentaram quantidades bastante superiores de blocos.

    Por outro lado, a população GAU (Gaucinha) apresentou o menor

    número de blocos para a maioria dos cromossomos, exceto os

    cromossomos 5, 6, 9, 15 e 19, nos quais MIB (Mimbó) apresentou o

    menor número, e cromossomo 22, com a população TES (Teresina)

    apresentando o menor número. Estas três populações, em geral,

    apresentaram um número bem inferior de blocos (Tabela 3).

    As populações africanas LWK, MKK e YRI e a população afro-americana

    ASW apresentaram os valores intermediários de número de blocos. A

    única exceção ao padrão geral foi observada no cromossomo 15, em que

    a população de quilombo GAU apresentou mais blocos que MIB, TES,

    ASW e as três populações africanas (Tabela 3).

    É interessante ressaltar que a população remanescente de quilombo

    STV (Sítio Velho) apresentou, para todos os cromossomos, um número

    de blocos apenas inferior ao das populações CEU, CHB e JPT (Tabela 3).

    Isso se reflete no número total de blocos de haplótipos.

    Devido a grande quantidade de blocos gerados para cada população,

    principalmente para os cromossomos maiores, os resultados serão

    apresentados e discutidos em maior detalhe apenas para os

    cromossomos 6 e 22. O cromossomo 22 foi escolhido por ser o menor e,

    consequentemente, ter números menores de blocos, o que facilita a

    visualização e o entendimento dos resultados. O cromossomo 6, por

    outro lado, foi escolhido por conter o Complexo Principal de

    Histocompatibilidade (MHC), uma região que pode influenciar

    significativamente os padrões de desequilíbrio de ligação ao seu redor

    em decorrência de fortes pressões seletivas (Ahmad et al., 2003; Walsh

    et al., 2003; Meyer et al., 2006).

  • 55

    5.4 Desequilíbrio de Ligação e Blocos de haplótipos no cromossomo 22

    5.4.1 Análise descritiva

    Para o cromossomo 22, a população CHB apresentou o maior número

    de blocos (44), seguida por CEU com 42 e JPT com 36 (Tabela 3). Entre

    as populações africanas, o número de blocos variou de 16 (LWK) a 21

    (YRI), enquanto que a população afro-americana ASW apresentou 19

    blocos. A população com menor número de blocos foi TES (13), seguida

    por GAU com 14. Assim como observado para os demais cromossomos,

    a população de quilombo STV apresentou mais blocos (25) do que as

    demais populações brasileiras, as africanas e a afro-americana.

    A extensão total do desequilíbrio de ligação foi determinada para cada

    população somando-se o comprimento de todos os blocos de haplótipos

    observados em cada uma delas (Figura 13). A maior extensão foi

    observada em JPT (868,00 Kb), seguida por CHB com 858,64 Kb e CEU

    com 819,24 Kb. A população ASW apresentou uma extensão maior

    (533,74 Kb) do que as três africanas (212,74 Kb a 366,24 Kb). A menor

    extensão foi observada em GAU (207,94 Kb), enquanto que em STV a

    extensão foi de 408,20 Kb.

  • 56

    Figura 13. Extensão total do DL para o cromossomo 22, considerando os blocos de

    haplótipos identificados.

    O tamanho médio dos blocos de desequilíbrio de ligação variou de 11,82

    Kb em MKK a 28,09 Kb em ASW. Entre os quilombos, GAU apresentou

    o menor tamanho médio (14,85 Kb), enquanto que MIB apresentou

    blocos de maior tamanho, em média (17,64 Kb), superando STV (16,33

    Kb), embora esta população tenha apresentado na grande maioria das

    vezes um número maior de blocos (Figura 14).

    Figura 14. Tamanho médio dos blocos de desequilíbrio de ligação para o cromossomo

    22.

    0,00

    100,00

    200,00

    300,00