1
UNIVERSIDADE FEDERAL DE GOIÁS
INSTITUTO DE CIÊNCIAS BIOLÓGICAS
PROGRAMA DE PÓS-GRADUAÇÃO EM BIOLOGIA
VARIABILIDADE E HISTÓRIA EVOLUTIVA DO GENE HLA-E
LEANDRO PRADO FELÍCIO
GOIÂNIA-GO
2013
2
LEANDRO PRADO FELÍCIO
VARIABILIDADE E HISTÓRIA EVOLUTIVA DO GENE HLA-E
Dissertação de Mestrado apresentada ao
Programa de Pós-Graduação em Biologia
do Instituto de Ciências Biológicas da
Universidade Federal de Goiás, como
requisito parcial para obtenção do título
de Mestre em Biologia.
Orientador: Prof. Dr. Erick da Cruz Castelli
GOIÂNIA-GO
2013
3
Dados Internacionais de Catalogação na Publicação na (CIP)
Felício, Leandro Prado.
Variabilidade e história evolutiva do gene HLA-E [manuscrito] /
Leandro Prado Felício. - 2013.
77 f. : il.
Orientador: Prof. Dr. Erick da Cruz Castelli
Dissertação (Mestrado) – Universidade Federal de Goiás, Instituto
de Ciências Biológicas, 2013.
Bibliografia.
Inclui lista de figuras, abreviaturas, siglas e tabelas.
4
LEANDRO PRADO FELÍCIO
VARIABILIDADE E HISTÓRIA EVOLUTIVA DO GENE HLA-E
BANCA EXAMINADORA
Aprovado em: 31/01/2013
5
TERMO DE CIÊNCIA E DE AUTORIZAÇÃO PARA DISPONIBILIZAR AS TESES E
DISSERTAÇÕES ELETRÔNICAS (TEDE) NA BIBLIOTECA DIGITAL DA UFG
Na qualidade de titular dos direitos de autor, autorizo a Universidade Federal de Goiás (UFG) a disponibilizar, gratuitamente, por meio da Biblioteca Digital de Teses e Dissertações (BDTD/UFG), sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o documento conforme permissões assinaladas abaixo, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
1. Identificação do material bibliográfico: [x] Dissertação [ ] Tese 2. Identificação da Tese ou Dissertação
Autor (a): Leandro Prado Felício
E-mail: [email protected]
Seu e-mail pode ser disponibilizado na página? [x]Sim [ ] Não
Vínculo empregatício do autor
Agência de fomento: Conselho Nacional de Desenvolvimento Científico e Tecnológico
Sigla: CNPq
País: Brasil UF: CNPJ:
Título: Variabilidade e história evolutiva do gene HLA-E.
Palavras-chave: Complexo Principal de Histocompatibilidade, Antígenos Leucocitários
Humanos, HLA-E, polimorfismos, haplótipos
Título em outra língua: Variability and evolutionary history of HLA-E gene.
Palavras-chave em outra língua: Major Histocompatibility Complex, Human Leukocyte Antigens, HLA-E, polymorphism, haplotypes.
Área de concentração: Biologia Celular e Molecular
Data defesa: (dd/mm/aaaa) 31/01/2013
Programa de Pós-Graduação: Biologia
Orientador (a): Erick da Cruz Castelli
E-mail: [email protected]
3. Informações de acesso ao documento:
Concorda com a liberação total do documento [ x ] SIM [ ] NÃO1 Havendo concordância com a disponibilização eletrônica, torna-se imprescindível o
envio do(s) arquivo(s) em formato digital PDF ou DOC da tese ou dissertação. O sistema da Biblioteca Digital de Teses e Dissertações garante aos autores, que os
arquivos contendo eletronicamente as teses e ou dissertações, antes de sua disponibilização, receberão procedimentos de segurança, criptografia (para não permitir cópia e extração de conteúdo, permitindo apenas impressão fraca) usando o padrão do Acrobat.
________________________________________ Data: ____ / ____ / _____ Assinatura do (a) autor (a)
1 Neste caso o documento será embargado por até um ano a partir da data de defesa. A extensão deste prazo suscita justificativa
junto à coordenação do curso. Os dados do documento não serão disponibilizados durante o período de embargo.
6
os meus pais, José Felício e
Joselita, e à minha
namorada, Karla Georgia,
dedico...
A
7
unca deixe que alguém te diga
que não pode fazer algo. (...) Se
você tem um sonho, tem que
protegê-lo. As pessoas que não
podem fazer por si mesmas, dirão
que você não consegue. Se quer
alguma coisa, vá e lute por ela."
The Pursuit of Happyness
“N
8
gradeço à Deus pela dádiva da vida. Aos meus pais pelo amor
incondicional, pelo afeto e pela educação que recebi: à minha mãe que
por várias vezes se privou do próprio conforto para poder agradar teus filhos, que
sempre estava lá quando mais precisei, com quem sempre contei em todos os
momentos da minha vida; à meu pai, que com seu jeito fechado, por vezes até
sistemático, nunca nos deixou faltar nada, nos ofertando as oportunidades que a
vida não lhe deu, projetando em seus filhos aquilo que gostaria de ter tido.
À minha namorada, Karla, pelo carinho, amor e pela compreensão perante os
vários “hoje eu não posso, tenho que estudar”, “amor, esse final de semana eu tenho
que analisar dados”, “tenho que ir para a universidade” e demais ‘nãos’ que me
privaram do seu convívio em diversos finais de semana.
Ao meu orientador, Prof. Dr. Erick da Cruz Castelli, pela oportunidade de
ingressar na pós-graduação, pelo voto de confiança que me deu ao me ofertar uma
carta de orientação depois de umas duas semanas de convívio, pelo exemplo em
pesquisa e pela paciência durante a sua orientação. Espero ter correspondido às
expectativas em mim depositadas.
À meu irmão e tias por todo o apoio, suporte, energia positiva e por
representarem meu porto seguro.
Aos meus queridos amigos de laboratório: Andréia, Athamy, Iane, Denise,
Karla, Kaisson, Lais, Lya, Mariana, Moisés, Thállita e Thiago pelo convívio, pelo
auxílio na bancada, pelos momentos de descontração e de ‘nerdices’ e por ajudar a
fazer do laboratório uma extensão de minha casa.
À Dra. Luciana Caricati Veiga-Castelli, pelos auxílios metodológicos e por
ceder, gentilmente, parte de seus dados para que meu trabalho pudesse ser feito.
À Profª. Dra. Lee Chen Chen por me ajudar a ingressar na pós-graduação me
apresentando ao Prof. Erick e por me encorajar a não desistir de prestar a prova de
mestrado, se hoje cheguei até aqui, devo muito disso à você, Lee.
Ao Prof. Dr. Paulo César Gedhini, por nos acolher tão bem e nos oferecer um
espaço físico dentro do Laboratório de Farmacologia Bioquímica e Molecular.
Ao pessoal do laboratório de Biotecnologia da EMBRAPA em especial à Dra.
Rosana, à Dra. Gesimária e à Esp. Paula, pelo auxílio com os sequenciamentos.
A
9
Aos meus antigos orientadores, Prof. Dra. Wanderlene Blanco Nunes e Prof.
Dr. Salvador de Carvalho, por me ajudarem a dar os primeiros passos na vida
acadêmica.
Ao Programa de Pós-Graduação em Biologia da Universidade Federal de
Goiás e ao seu corpo docente pelos ensinamentos.
Aos membros da banca por se disporem a oferecer seu tempo para
contribuírem com a minha formação.
Ao CNPq por fornecer o apoio financeiro e a bolsa de mestrado. E a todos
aqueles que de forma direta ou indireta contribuíram para que meu trabalho pudesse
ser concluído.
10
SUMÁRIO
LISTA DE FIGURAS.................................................................................................. 12
LISTA DE TABELAS ................................................................................................. 13
LISTA DE ABREVIATURAS E SIGLAS..................................................................... 14
RESUMO ................................................................................................................... 15
ABSTRACT ............................................................................................................... 16
1. INTRODUÇÃO .................................................................................................... 17
1.1. FUNCIONAMENTO E HISTÓRICO DO COMPLEXO PRINCIPAL DE
HISTOCOMPATIBILIDADE HUMANO .................................................................. 17
1.2. GENE HLA-E................................................................................................ 23
1.3. PROJETO 1000GENOMES CONSORTIUM ................................................ 27
2. OBJETIVOS ........................................................................................................ 28
3. JUSTIFICATIVA .................................................................................................... 29
4. MATERIAL E MÉTODOS ................................................................................... 30
4.1. AMOSTRAS BRASILEIRAS UTILIZADAS ................................................... 30
4.2. DEFINIÇÃO DA REGIÃO 3’NT DO GENE HLA-E ....................................... 30
4.3. REAÇÃO EM CADEIA DA POLIMERASE PARA AMPLIFICAÇÃO DO GENE
HLA-E .................................................................................................................... 31
4.4. PROCESSAMENTO DO PRODUTO AMPLIFICADO .................................. 32
4.5. REAÇÃO DE SEQUENCIAMENTO ............................................................. 33
4.6. ANALISE DAS SEQUÊNCIAS ..................................................................... 36
4.7. ANÁLISE DOS DADOS DO PROJETO 1000GENOMES ............................ 37
4.8. AVALIAÇÃO DO PADRÃO DE DESEQUILÍBRIO DE LIGAÇÃO E
INFERÊNCIA COMPUTACIONAL DE HAPLÓTIPOS ........................................... 38
4.9. CONVERSÃO DE HAPLÓTIPOS EM ALELOS HLA-E ................................ 39
5. RESULTADOS ................................................................................................... 41
11
5.1. FREQUÊNCIAS ALÉLICAS, GENOTÍPICAS E ADERÊNCIA AO
EQUILÍBRIO DE HARDY-WEINBERG .................................................................. 41
5.2. DESEQUILÍBRIO DE LIGAÇÃO ................................................................... 49
5.3. DIVERSIDADE, FREQUÊNCIA E RELAÇÕES ENTRE OS HAPLÓTIPOS . 51
6. DISCUSSÃO ....................................................................................................... 60
7. REFERÊNCIAS .................................................................................................. 72
12
LISTA DE FIGURAS
Figura 1 Estrutura da região do MHC humano, representando os genes
MHC de classe I, II e III. Em destaque o gene HLA-E, alvo do
presente estudo .............................................................................
21
Figura 2 Esquema resumido do funcionamento do MHC de classe I ......... 22
Figura 3 Gel de agarose 1% corado com brometo de etídio e visualizado
com luz UV ....................................................................................
32
Figura 4 Esquema resumido do mapa cromossômico dos genes do
complexo HLA, em destaque o gene HLA-E .................................
35
Figura 5 Área de cobertura de cada iniciador utilizado para o
sequenciamento da região 3’ não-traduzida do gene HLA-E,
considerando-se 450 pb para cada primer ....................................
35
Figura 6 Exemplo de resultado dos sequenciamentos ................................ 37
Figura 7 LD entre os pares de SNPs no gene HLA-E . A imagem foi
gerada pelo programa Haploview usando SNPs com frequência
≥ 1% ..............................................................................................
50
Figura 8 Rede de haplótipos ilustrando as relações entre os 33 haplótipos
(Tabela 8) encontrados em populações mundiais .........................
57
Figura 9 Alinhamento das sequências do gene humano HLA-E com o seu
ortólogo em primatas MHC-E e a sequência padrão do elemento
AluY ...............................................................................................
68
Figura 10 LD entre os pares de SNPs no gene HLA-G. A imagem foi
gerada pelo programa Haploview usando SNPs com frequência
≥ 1% ..............................................................................................
70
13
LISTA DE TABELAS
Tabela 1 Número de alelos identificados para os principais genes HLA
de classe I e II (IMGT - International Immunogenetics Database
3.10, outubro de 2012) ................................................................
19
Tabela 2 Reagentes e concentrações para a reação de PCR para o
gene HLA-E ................................................................................
31
Tabela 3 Reagentes e concentrações utilizadas na reação de
sequenciamento (para uma corrida utilizando um primer
específico) ...................................................................................
34
Tabela 4 Pontos de variação do gene HLA-E e suas frequências em
diferentes populações do projeto 1000Genomes e em uma
amostra brasileira .......................................................................
44
Tabela 5 Índices de diversidade nucleotídica do gene HLA-E para a
região codificadora, 3’ NT e ambas as regiões juntas
considerando as populações do projeto 1000Genomes e as
amostras Brasileiras ...................................................................
46
Tabela 6 Aderência das frequências do genótipos ao Equilíbrio de
Hardy-Weinberg considerando as populações do projeto
1000Genomes e as amostras Brasileiras ...................................
47
Tabela 7 Frequência relativa d os 33 haplótipos encontrados para o
gene HLA-E considerando-se os dados do projeto
1000Genomes e as amostras brasileiras ...................................
53
Tabela 8 Tabela 8: Haplótipos encontrados considerando os pontos de
variação presentes nas sequências genômicas que codificam a
porção externa na molécula HLA-E (éxons 1-4, incluindo os
íntrons) e região 3’ NT do mRNA de HLA-E (incluindo o íntron
7) .................................................................................................
55
14
LISTA DE ABREVIATURAS E SIGLAS
.vcf
%
µL
APC
EDTA
HLA
IMGT
Kb
LTA
Mb
MAF
MHC
miRNA
mL
mRNA
ng
NK
NT
ºC
Pb
PCR
SNP
SP
TCR
TNF
UTR
UV
V
Virtual Business Card (Cartão de Visita Virtual)
Por cento
Microlitro (10-6 litro)
Célula Apresentadora de Antígeno
Acido Etileno Diamino Tetracético
Antígeno Leucocitário Humano
ImMunoGeneTics information system
Kilobase (103 bases)
Linfotoxina alfa
Megabase (106 bases)
Minimum allele frequency (Frequência alélica mínima)
Major Histocompatibility Complex (Complexo Principal de
Histocompatibilidade)
MicroRNA
Mililitro (10-3 Litro)
RNA mensageiro
Nanograma (10-9 grama)
Células Natural Killer
Não traduzida
Graus Celsius
Pares de bases
Reação em Cadeia da Polimerase
Polimorfismo de Base Única
São Paulo
Receptor de Célula T
Fator de Necrose Tumoral
Untranslated region
Ultra Violeta
Volts
15
RESUMO
O loco HLA-E é um gene do Complexo Principal de Histocompatibilidade
Humano (MHC), cujo produto está relacionado com a modulação e supressão da
resposta imunitária por meio da interação com receptores específicos das células
NK e linfócitos T. O gene HLA-E é considerado o loco menos polimórfico dos genes
do complexo HLA, no entanto, esta baixa variabilidade pode ser uma consequência
do pequeno número de estudos realizados sobre esse tema. No presente trabalho, a
variabilidade das regiões codificadoras e 3’ não traduzida do gene HLA-E foi
analisada em amostras brasileiras e os resultados foram comparados com dados
obtidos pelo projeto 1000Genomes. Considerando todas as populações avaliadas,
apenas 28 pontos de variação foram encontrados em uma região de
aproximadamente 2724-pb. Estes pontos de variação estão arranjados em 33
haplótipos diferentes, a maioria deles (98%) codificando uma das duas moléculas
HLA-E frequentemente encontradas, E*01:01 e E*01:03. Ainda, 85% dos haplótipos
encontrados foram representados por apenas três sequências diferentes, cada uma
deles associada a um dos principais alelos da região codificadora do gene HLA-E,
E*01:01:01, E*01:03:01 e E*01:03:02. Todas essas sequências foram encontradas
em todas as populações avaliadas. Este fenômeno, em conjunto com as
comparações envolvendo sequências de primatas, sugere que estes dois grupos de
alelos principais (e moléculas) surgiram antes da especiação e dispersão humana,
além de indicar que o alelo E*01:03:01 pode ser o mais antigo dentre os demais.
Ainda, a baixa diversidade nucleotídica encontrada para a região codificadora e 3'
NT do gene HLA-E em populações de todo o mundo sugere que este gene é, de
fato, bastante conservado, provavelmente devido ao seu papel chave na modulação
das respostas imunes.
Palavras-Chave: Complexo Principal de Histocompatibilidade, Antígenos
Leucocitários Humanos, HLA-E, polimorfismos, haplótipos.
16
ABSTRACT
The HLA-E locus is a Human Major Histocompatibility Complex (MHC) gene
associated with immune-modulation and suppression of the immune response by the
interaction with specific NK and T cell receptors. The HLA-E gene is considered the
most conserved locus in the human HLA; however, this low variability might be a
consequence of the scarce number of studies focusing this subject. In this mastering
thesis we assessed the HLA-E coding and 3’ untranslated region variability in a
group of individuals from Brazil and the results were evaluated together with data
from the 1000Genomes Consortium. Altogether, only 28 variation sites were found in
approximately 2724 bp evaluated. These variation sites were arranged into 33
haplotypes, most of them (98.2%) encoding one of the two HLA-E molecules found
worldwide, i.e., the molecules associated with the allele groups E*01:01 and E*01:03.
Interestingly, 85% of all haplotypes were represented by only three different
sequences, each of them associated with one of the main known HLA-E coding
alleles, E*01:01:01, E*01:03:01 and E*01:03:02, all of them found worldwide. This
phenomenon, together with the comparisons with other primate sequences, reveals
that these two main allele groups (and molecules) arose early before human
speciation, and indicates that E*01:03:01 might be the oldest allele. In addition, the
low nucleotide diversity found for the HLA-E coding and 3’UTR in worldwide
populations suggests that the HLA-E gene is in fact a conserved gene, which might
be a consequence of its key role in the modulation of the immune system.
Key Words: Major Histocompatibility Complex, Human Leukocyte Antigens, HLA-E,
polymorphism, haplotypes.
17
1. INTRODUÇÃO
1.1. FUNCIONAMENTO E HISTÓRICO DO COMPLEXO PRINCIPAL DE
HISTOCOMPATIBILIDADE HUMANO
Os linfócitos T são uma importante linha de defesa contra microrganismos e
formação de células tumorais, bem como a principal via de destruição de células
infectadas por algum agente patogênico. Esta propriedade das células T se deve à
sua capacidade de avaliar a procedência dos fragmentos proteicos que são
apresentados na superfície de cada célula do organismo. Dessa forma, o linfócito T
pode desencadear uma resposta específica quando do reconhecimento de proteínas
estranhas ao organismo, interagindo com outras células do sistema imunitário, tais
como linfócitos B, células dendríticas e macrófagos (Abbas et al., 2010). No entanto,
para que a célula T possa reconhecer um antígeno na superfície celular, este
fragmento proteico deve estar associado a uma glicoproteína transmembrânica que
acomoda este peptídeo e o apresenta na superfície celular (Klein e Sato, 2000a; b)
Em humanos e na maioria dos organismos, estas proteínas
transmembrânicas são codificadas pelos genes do complexo principal de
histocompatibilidade, o MHC (do inglês Major Histocompatibility Complex).
A descoberta do MHC ocorreu durante ensaios com transplantes de tecido
alogênico de camundongos em experimentos realizados por George Snell e
colaboradores na década de 40 (Abbas et al., 2010). Em seus estudos, eles
utilizaram linhagens que foram intercruzadas por 20 gerações a fim de se produzir
indivíduos geneticamente idênticos pertencentes a dois grupos diferentes, com
características genéticas distintas um do outro. Cirurgicamente, o tecido da pele dos
camundongos pertencentes às duas amostras foi transplantado para outros
indivíduos singênicos e alogênicos. Após a recuperação, notava-se que a rejeição
ocorria apenas no segundo grupo, indicando uma possível participação das
proteínas de compatibilidade do MHC no reconhecimento e resposta imunitária por
parte do organismo (Abbas et al., 2010).
Em humanos a identificação do MHC ocorreu por Jean Dausset, Jon van
Rood e Rose Payne em 1958. Os três pesquisadores trabalhavam com identificação
de anticorpos em soro humano de pacientes que receberam múltiplas transfusões. O
18
crédito da descoberta do primeiro antígeno leucocitário humano, ou HLA (do inglês
human leukocyte antigen), e por consequência do MHC humano, foi atribuída ao
francês Jean Dausset, que recebeu um prêmio Nobel em 1980 (Thorsby, 2009).
As moléculas expressas pelo MHC tem função importante na resposta
imunológica, sendo relacionadas à seleção de células T, respostas inflamatórias,
indução de tolerância, produção de anticorpos e imunidade mediadas pelas células
T (Parkin e Cohen, 2001). Alguns estudos sugerem que o polimorfismo do MHC
pode influenciar na escolha do parceiro sexual na espécie humana e em outros
mamíferos (Wedekind et al., 1995; Jacob et al., 2002).
Em nossa espécie, o MHC é composto por aproximadamente 224 genes que
se estendem por cerca de 3,6 megabases (Mb) do cromossomo 6 (6p21.3) (Klein e
Sato, 2000b). Os alelos de muitos desses genes guardam a informação para a
síntese das proteínas que fazem parte do sistema de reconhecimento e
apresentação de antígenos pelos linfócitos T (Setterfield et al., 2001).
Didaticamente, o MHC é subdividido em três regiões distintas, denominadas
classe I, II e III (Figura 1) (Horton et al., 2004), sendo que os genes de classe I e II
codificam proteínas envolvidas com a resposta imunitária e apresentação antigênica
(Klein e Sato, 2000b). As moléculas HLA de classe I são glicoproteínas, formadas
por três domínios extracelulares, α1, α2 e α3, um domínio transmembrana e um
domínio citoplasmático, formando uma cadeia pesada. Esta cadeia se associa a
uma cadeia leve, a β2 microglobulina, que ajuda a estabilizar o complexo, permitindo
seu transito para a superfície celular (Klein e Sato, 2000a). Junto a este complexo
são ligados pequenos fragmentos de proteínas citoplasmáticas que foram
processados pelo proteassomo e encaminhadas ao retículo endoplasmático, onde o
complexo proteico da molécula do MHC com seus epítopos específicos são
montados. Posteriormente o complexo formado é encaminhado para a superfície
celular e apresentado às células de resposta imunológica (Yewdell et al., 2003; Klein
e Sato, 2000a) (Figura 2). Na região de classe I encontram-se os locos clássicos
(Ia): HLA-A, -B e -C, que expressam moléculas presentes na superfície da maioria
das células nucleadas (Klein e Sato, 2000b).
Além dos genes clássicos, a região de classe I exibe a fração Ib,
denominados locos não-clássicos: HLA-G, HLA-E e HLA-F. Apesar da homologia
molecular e estrutural entre os genes de ambas as classes, suas funções, padrões
19
de expressão e níveis de polimorfismos são distintos (Tabela 1). Enquanto que os
genes da classe Ia são expressos em quase todos os tecidos, os genes não-
clássicos apresentam expressão celular restrita. A expressão dos genes de classe II
se restringe aos linfócitos B, células apresentadoras de antígeno (APCs),
monócitos/macrófagos e células dendríticas (Fischer e Mayr, 2001). As moléculas de
classe I e II são sintetizadas no retículo endoplasmático rugoso, onde se associam a
peptídeos antigênicos em seus “sítios de ligação a peptídeos”. Transportadas à
superfície celular, interagem com o complexo receptor de células T (TCR).
Mais de 60 dos 224 genes identificados no MHC humano estão dispostos
entre essas duas regiões e consistem o MHC central ou região de classe III (Figura
1), onde estão codificados alguns elementos do sistema complemento e genes como
TNF (Fator de Necrose Tumoral) e LTA (Linfotoxina Alpha) (Klein e Sato, 2000b;
Undlien et al., 2001; Horton et al., 2004).
Tabela 1. Número de alelos identificados para os principais genes HLA de classe I e
II (IMGT - International Immunogenetics Database 3.10, outubro de 2012).
CLASSE I CLASSE II
Loco Alelos Loco Alelos
Clássicos (Ia) HLA-DRA cadeia α do HLA-DR 7
HLA-A 2132 HLA-DRB cadeia β1 do HLA-DR 1297
HLA-B 2798 HLA-DQA1 cadeia α do HLA-DQ 49
HLA-C 1672 HLA-DQB1 cadeia β do HLA-DQ 179
HLA-DPA1 cadeia α do HLA-DP 36
Não-Clássicos (Ib) HLA-DPB1 cadeia β do HLA-DP 158
HLA-E 11 * HLA-DOA cadeia α do HLA-DO 12
HLA-F 22 HLA-DOB cadeia β do HLA-DO 13
HLA-G 50 ** HLA-DMA cadeia α do HLA-DM 7
HLA-DMB cadeia β do HLA-DM 13
*Um desses alelos, E*01:03:05, foi identificado em trabalho prévio do grupo (Veiga-Castelli et al.,
2012a).
**Quatro desses alelos, G*01:09, G*01:01:11, G*01:01:03:03 e G*01:01:21, foram identificados em
trabalhos prévios do grupo (Castelli et al., 2007a; Castelli et al., 2007b; Castelli et al., 2012).
Devido ao seu grande polimorfismo, o maior dentre o genoma humano
(Apanius et al., 1997; Hughes e Yeager, 1998; Penn et al., 2002), os genes do MHC
humano possuem frequências alélicas distintas em diferentes populações. Muitos
20
estudos apoiam a hipótese de que essa diversidade alélica no MHC de vertebrados
é mantida por meio de seleção balanceadora mediada por microorganismos. A
variação nos sítios de ligação de peptídeos tem sido considerada a principal
responsável pela habilidade dos genes de classe I e II de apresentar antígenos de
diversos patógenos (Apanius et al., 1997; Hughes e Yeager, 1998; Penn et al., 2002;
Bernatchez e Landry, 2003).
21
Figura 1. Estrutura da região do MHC humano, representando os genes MHC de classe I, II e III. Em
destaque o gene HLA-E, alvo do presente estudo. (Shiina et al., 2009)
22
Figura 2. Esquema resumido do funcionamento do MHC de classe I (Yewdell et al., 2003).
No entanto, a capacidade de cada variante do MHC de acomodar peptídeos
específicos tem sido estudada como um dos motivos que explicam a razão pela qual
algumas variantes MHC estão associadas com susceptibilidade a doenças
autoimunes e neoplásicas. Para tumores, por exemplo, postula-se que tipos
parecidos de lesões expressam antígenos tumorais semelhantes e que algumas
variantes MHC não seriam capazes de apresentar peptídeos oriundos de tais
antígenos, pré-dispondo o indivíduo ao desenvolvimento de determinada neoplasia
por falha da imunovigilância tumoral. A grande diversidade genética encontrada no
23
HLA faz com que haja uma diferença na predisposição a enfermidades comparando-
se grupos geneticamente distintos, fato este evolutivamente importante, pois torna
mais difícil a ocorrência de grandes epidemias que poderiam dizimar a espécie (Van
Rood, 1993).
São reconhecidos atualmente mais de 6725 alelos ou haplótipos distintos
para os genes de classe I (IMGT - http://www.ebi.ac.uk/imgt/hla/), Tabela 1. Diversos
estudos demonstraram a seleção a favor da variabilidade nos genes de classe Ia,
que seriam os responsáveis pela manutenção da resposta imunitária adaptativa
como descrito anteriormente (Sabeti et al., 2006). No entanto, a variabilidade dos
genes da região Ia em humanos é tamanha que a possibilidade de existir dois
indivíduos idênticos para todos os polimorfismos de MHC (mesmo que considerando
apenas os funcionais) é muito remota. Nas espécies até hoje estudadas, essa
variabilidade é interessante considerando a resistência a patógenos. Por outro lado,
a necessidade de realização ocasional de enxertos alogênicos (transplantes) em
humanos, torna essa variabilidade prejudicial, pois a compatibilização desses
polimorfismos é necessária para uma boa aceitação do enxerto (Vannas et al., 1976;
Suciu-Foca et al., 1996; Slavcev, 2012)
Em uma molécula HLA de classe I clássica e classe II o polimorfismo está
praticamente confinado aos sítios de ligação de peptídeos. Moléculas codificadas
por diferentes alelos de um mesmo loco HLA apresentam diferentes sítios de ligação
a peptídeos, sendo esses domínios caracterizados pela presença de resíduos
polimórficos. Este polimorfismo é a razão da especificidade de ligação de cada
molécula HLA a determinados peptídeos antigênicos, e a verificação desses
polimorfismos é frequentemente realizada em genotipagem de HLA (Thorsby, 1997).
Por outro lado, a variabilidade dos genes não-clássicos de classe I é reduzida
(Tabela 1). Embora estes genes sejam estruturalmente semelhantes aos genes
clássicos (e provavelmente originaram-se de um mesmo ancestral), a função
principal dos genes não-clássicos não é de apresentação antigênica. Os genes HLA-
G e HLA-E, por exemplo, participam da modulação das respostas imunitárias, em
especial durante a gestação (Arnaiz-Villena et al., 2007; Donadi et al., 2011).
1.2. GENE HLA-E
24
Em contraste com os genes da região Ia do MHC, os genes não clássico (Ib)
apresentam polimorfismo limitado e são predominantemente expressos em tecidos
que exigem imunotolerância, principalmente na barreira placentária (Moscoso et al.,
2006). Em humanos, existem três genes descritos considerados da classe Ib, HLA-
E, -F e -G (Pyo et al., 2006). Estes genes foram descobertos por Geraghty e
colaboradores entre 1987 e 1990 (Geraghty et al., 1987; Koller et al., 1988; Ishitani
et al., 2006).
O gene HLA-E produz uma molécula estruturalmente semelhante aos genes
clássicos, mas cuja função principal não é apresentação antigênica. Ainda,
diferentemente de outras moléculas de classe Ib, como o gene HLA-G, sua
expressão ocorre na maioria dos tecidos em níveis mais baixos do que as moléculas
Ia clássicas. Originalmente conhecida por seu papel na imunidade inata, acredita-se
agora que a molécula HLA-E desempenhe um papel mais amplo, atuando como um
ligante para células T. Além disso, evidências recentes sugerem um papel do HLA-E
na aceitação do enxerto (Sullivan et al., 2008).
A molécula HLA-E interage com os receptores CD96-NKG2A, B e C de
células Natural Killer (NK) (Braud et al., 1997), originando sinais inibitórios (NKG2A)
e suprimindo a atividade da célula NK, ou ativando a resposta citolítica (NKG2C) em
situações como infecções virais (Gao et al., 2000). O gene HLA-E reconhece ainda o
receptor TCR (T Cell Receptor) de células T CD8, inibindo sua citotoxicidade (Garcia
et al., 2002).
Após a descoberta dos genes da classe Ib, muito foco foi dado ao gene HLA-
G, o que resultou em um vasto conhecimento de sua biologia (Ishitani et al., 2003).
No entanto, em relação aos outros genes não-clássicos, as informações disponíveis
ainda são escassas. Acredita-se que parte da ação tolerogênica mediada pelo gene
HLA-E depende da expressão prévia do gene HLA-G, uma vez que a molécula HLA-
E necessita do peptídeo líder oriundo do gene HLA-G para sua estabilização na
superfície celular (Braud et al., 1997; Lee et al., 1998).
O gene HLA-E é o menos polimórfico de todos os genes HLA de classe I,
apresentando um grau de polimorfismo muito mais limitado do que os locos
clássicos de classe I ou que qualquer outro gene não-clássico de classe I (Tabela 1).
Em um estudo com 371 indivíduos de seis diferentes grupos étnicos (Arnaiz-Villena
et al., 2007) apenas 3 alelos HLA-E distintos foram detectados, codificando somente
25
2 moléculas distintas, apoiando a ideia de polimorfismo restrito do HLA-E. Até o
momento, foram reconhecidos em populações humanas apenas onze alelos HLA-E
codificando três diferentes proteínas (http://www.ebi.ac.uk/imgt/hla/), contrastando
com os mais de 2000 alelos para os genes clássicos para um mesmo loco.
Em um estudo recente realizado no Brasil (Veiga-Castelli et al., 2012b), 104
doadores saudáveis de medula óssea e selecionados aleatoriamente foram
avaliados quanto à variabilidade da região codificadora do HLA-E, compreendendo a
região dos éxons 1 a 4 (incluindo íntrons). Neste estudo, foi encontrado um pequeno
número de alelos, gerando apenas três moléculas HLA-E distintas. Embora entre
brasileiros um outro alelo codificando uma nova proteína tenha sido encontrado, a
frequência desta variante não ultrapassou 1%, sendo portanto uma variante rara.
Foram encontradas principalmente duas moléculas HLA-E, denominadas E*01:01 e
E*01:03, com frequências similares em torno de 50% cada (Veiga-Castelli et al.,
2012b). Ambas as moléculas encontrados no Brasil e em outras populações
apresentam uma substituição de uma Arginina, um aminoácido grande, por uma
Glicina, um aminoácido pequeno, na posição 107, o que poderia modificar a
estrutura da molécula. Funcionalmente, estudos demonstraram que a molécula
portando glicina estaria relacionada com níveis maiores de expressão de HLA-E,
maior afinidade por peptídeos e uma maior estabilidade do complexo HLA-
E/peptídeo (O'callaghan et al., 1998; Ulbrecht et al., 1999; Strong et al., 2003; Pietra
et al., 2010). Desta forma, o alelo E*01:03 (HLA-E107gli) tem sido associado com uma
maior estabilidade, maior expressão e potencialmente efeitos inibitórios de células
NK mais potentes (Sullivan et al., 2008; Di Cristofaro et al., 2011).
Considerando as propriedades imunomodulatórias do HLA-E, um certo grau
de invariabilidade na molécula é de fato esperado, o que forneceria um mecanismo
preciso de regulação do sistema imunológico; no entanto, é interessante observar
que evidências de seleção balanceadora também foram encontradas no éxon 3 que
codifica a referida substituição de aminoácidos (Veiga-Castelli et al., 2012b) o que
justificaria a elevada frequência de ambos os alelos em todas as populações já
estudadas. Sendo que o polimorfismo na posição 107 é encontrado mundialmente,
conclui-se que esta variação é uma mutação que deve ter ocorrido antes da
migração da espécie humana à partir da África. Aparentemente, a presença de
ambas as moléculas parece ser benéfica embora os mecanismos ainda não estejam
26
claros. De um lado, a presença de uma molécula mais estável e de maior
capacidade de inibição de células NK, juntamente com outra molécula não tão
eficaz, seria benéfica por adaptar o indivíduo às várias necessidades de HLA-E que
ele pode vir a enfrentar. No entanto, isto é particularmente difícil de inferir no
momento, uma vez que poucos estudos funcionais foram realizados com ambas as
moléculas. Por outro lado, esta alta heterozigose poderia ser um efeito carona
associado com polimorfismos das regiões regulatórias que de fato estariam sofrendo
a ação de seleção balanceadora, assim como observado para o gene HLA-G
(Castelli et al., 2011), porém praticamente nenhum dado está disponível quanto à
estrutura e diversidade das regiões regulatórias para o gene HLA-E. De fato, apenas
a porção proximal da região promotora (aproximadamente 300pb imediatamente
anterior ao início do exon 1) encontra-se nos bancos de dados públicos e mostrou-
se pouco polimórfica, com apenas dois casos consecutivos de uma deleção de base
única (posições -187 e -186) detectadas em apenas um dos onze alelos HLA-E
(E*01:01:01:02) (http://www.ebi.ac.uk/imgt/hla/align.html).
Em relação à região 3’ não-traduzida (3’NT), pouco se sabe sobre a
variabilidade e as forças evolutivas que atuam nesta região. Por meio de um
alinhamento de sequências de mRNA obtidas nos bancos públicos, foi detectado
que a região 3’NT do gene HLA-E possui aproximadamente 1460-pb, i.e., uma
sequência muito maior do que a encontrada em genes não-clássicos mais
conhecidos como o HLA-G (Castelli et al., 2010; Castelli et al., 2011). Um estudo in
silico demonstrou que a maioria dos polimorfismos de HLA-G na região 3’NT
poderiam influenciar a ligação de microRNAs humanos e atuar diretamente no
controle pós-transcricional da expressão desse gene (Castelli et al., 2009).
Considerando-se que (a) ambas as moléculas HLA-G e HLA-E possuem
similaridade funcional (inibição da ação de células T e NK), (b) ambos estão sob um
rígido controle da expressão gênica quanto à quantidade, local e momento em que
as moléculas estão sendo produzidas, (c) polimorfismos na região 3’NT poderiam
influenciar a ligação de microRNAs e a estabilidade do mRNA, (d) não há estudos
que avaliaram a variabilidade dos gene HLA-E, em especial suas sequências
regulatórias, em escala mundial e (e) não há dados acerca da história evolutiva do
gene HLA-E, a caracterização da variabilidade deste gene torna-se necessária para
uma melhor compreensão dos mecanismos que controlam a expressão de HLA-E e
27
sua história evolutiva. A análise da variabilidade e estrutura da região 3’NT do gene
HLA-E em uma população miscigenada como a brasileira, comparando estes
achados com dados mundiais (como aqueles do projeto 1000Genomes), poderá
contribuir para o entendimento da estrutura dessa região e funcionamento deste
gene. Ainda, os estudos dos polimorfismos da região 3’NT deste gene podem servir
de base para estudos futuros de afinidade por microRNAs conhecidos, o que poderá
elucidar em parte os mecanismos de controle da expressão deste gene, além de
direcionar estudos funcionais aplicados na tentativa de modular a expressão deste
potente imunossupressor.
1.3. PROJETO 1000GENOMES CONSORTIUM
O projeto 1000Genomes (The 1000Genomes Project Consortium, 2010;
2012) é um consórcio internacional que, utilizando técnicas de sequenciamento de
nova geração, avaliou o genoma completo de 1.092 indivíduos oriundos de 14
populações diferentes. A comparação dos dados obtidos em diferentes indivíduos e
com sequenciamento do genoma completo de todos estes indivíduos torna-se uma
valiosa fonte para estudos de associação e identificação de genes candidatos para
diferentes doenças (Harrow et al., 2012), resposta individual e metabolização de
fármacos (Allen, 2005) e padrões de diversidade gênica ao longo de diferentes
populações. Neste aspecto, o sequenciamento em larga escala de diferentes
indivíduos pode gerar dados mais completos e complementares aos dois consórcios
iniciais que se propuseram a sequenciar o genoma humano de poucos indivíduos
(International Human Genome Sequencing Consortium, 2001; Venter et al., 2001;
Venter, 2003; International Human Genome Sequencing Consortium, 2004).
Em nenhum dos projetos de sequenciamento completo do genoma humano a
população brasileira foi analisada. Neste aspecto a população brasileira torna-se
uma excelente fonte de estudos, tendo em vista que esta constitui uma das
populações mais heterogêneas do mundo, fruto de mais de cinco séculos de
miscigenação entre as populações de quatro diferentes continentes: 1) Americano:
população nativa de ameríndios; 2) Africano: escravos vindos para o Brasil entre o
século 16 e o ano de 1850; 3) Europeu: principalmente portugueses que colonizaram
o Brasil, seguidos por italianos, espanhóis e alemães (Pimenta et al., 2006); 4)
28
Asiático: japoneses que chegaram ao Brasil principalmente no período pós 2ª Guerra
Mundial. O estudo da variabilidade do gene HLA-E em uma população tão
miscigenada como a brasileira, comparados aos dados obtidos pelo 1000Genomes
Project, pode contribuir para elucidar a importância funcional, as relações evolutivas
e fornecer dados concisos para se esclarecer os mecanismos de regulação do gene
HLA-E.
2. OBJETIVOS
O objetivo geral deste trabalho é avaliar a diversidade genética do gene HLA-
E para as regiões codificadora e 3’ não-traduzida (NT) do gene HLA-E na população
brasileira e correlacionar os resultados obtidos com os dados obtidos no projeto
1000Genomes para as mesmas regiões, o que permitirá atingir os seguintes
objetivos específicos:
• caracterizar a variabilidade do gene HLA-E na população brasileira,
correlacionando com os dados do projeto 1000Genomes;
• identificar novos sítios polimórficos nas regiões avaliadas;
• caracterizar a variabilidade da região codificadora e 3’NT do gene HLA-E em
brasileiros e o perfil de haplótipos desta região;
• avaliar a intensidade do desequilíbrio de ligação (LD) entre as regiões
codificadora e 3’NT;
• definir a relação entre os diferentes haplótipos encontrados mundialmente;
29
3. JUSTIFICATIVA
Como visto anteriormente, a expressão de genes HLA não-clássicos (HLA-G
e HLA-E) está relacionada a mecanismos de imunotolerância, em especial durante a
gestação, escape da imunovigilância em tumores e tolerância à aloenxertos, por
mecanismos inibitórios de CTL e células NK. O gene HLA-E, em especial, é capaz
de ativar ou inibir uma resposta imunitária, dependendo do peptídeo associado a ele
e ao receptor que ele interagir.
Em estudos anteriores, percebeu-se que o gene HLA-E é um gene
conservado no Brasil e que as regiões regulatórias de outros genes não-clássicos,
como o HLA-G, possuem uma alta variabilidade e heterozigosidade, mantida por
seleção balanceadora. Não há estudos que caracterizaram a variabilidade do gene
HLA-E em escala mundial, bem como nenhum estudo definiu a variabilidade de sua
região 3’NT ou correlacionou sua importância com o padrão de expressão de HLA-E.
Considerando-se que ambas as mol culas HLA-G e HLA-E possuem
similaridade funcional (inibição da ação de c lulas T e N ), e o fato de que a região
3’NT do HLA-E é muito mais extensa do que a mesma região em outros genes de
classe I, polimorfismos nesta região poderiam influenciar sobremaneira o perfil de
expressão deste outro imuno-supressor pouco explorado. Dessa forma, a
caracterização da variabilidade de HLA-E torna-se necessária para uma melhor
compreensão dos mecanismos que controlam a expressão deste gene e para a
compreensão de sua história evolutiva.
30
4. MATERIAL E MÉTODOS
4.1. AMOSTRAS BRASILEIRAS UTILIZADAS
Foram utilizadas amostras de potenciais doadores de medula óssea não-
relacionados, selecionado de forma aleatória, oriundos do Hemocentro de Ribeirão
Preto - SP. Estas amostras foram utilizadas em estudos prévios que avaliaram a
variabilidade de outros genes do complexo HLA, incluindo os genes HLA-A, HLA-B,
HLA-C, HLA-DRB1 e HLA-G, realizados pelo grupo (Castelli et al., 2009; Castelli et
al., 2010; Castelli et al., 2011) e em um estudo sobre a variabilidade da região
codificadora do gene HLA-E (Veiga-Castelli et al., 2012b). Este protocolo
experimental foi aprovado pelo comitê de ética em pesquisa da FMRP-USP
(Protocolo 12398/2004), autorizando sua utilização para estudos envolvendo a
variabilidade dos genes HLA-G, HLA-E e HLA-F, estando as amostras disponíveis
para estudo. O grupo estudado constituiu de 104 indivíduos sadios, não-
relacionados, residentes na região de Ribeirão Preto, estado de São Paulo. Os
dados dos polimorfismos da região codificadora foram gentilmente cedidos pela Dra.
Luciana Caricati Veiga-Castelli, que em seu estudo avaliou a variabilidade da região
codificadora (éxons 1-4, incluindo os íntrons) do gene HLA-E neste mesmo conjunto
amostral (Veiga-Castelli et al., 2012b).
4.2. DEFINIÇÃO DA REGIÃO 3’NT DO GENE HLA-E
A região 3’ NT do gene HLA-E foi definida por meio de um alinhamento de
sequências de mRNA obtidas no Genbank (http://www.ncbi.nlm.nih.gov/genbank/) -
Números de acesso AK292391, BC002578, NM_005516 e X56841; e de DNA -
NT_167249 e NT_113891.2. Desta forma, detectou-se que a região 3’ NT do mRNA
de HLA-E possui aproximadamente 1460-pb de extensão. A região genômica
responsável pela transcrição desta 3’ NT possui uma extensão de 1624-pb, pois
ocorre a presença de um íntron que é excisado durante o processo de edição do
mRNA.
31
4.3. REAÇÃO EM CADEIA DA POLIMERASE PARA AMPLIFICAÇÃO DO GENE
HLA-E
A amplificação da região de interesse foi realizada por meio de uma reação
em cadeia da polimerase (PCR – do inglês Polymerase Chain Reaction). Para a
reação de PCR foram utilizados os iniciadores HE01F -
TCCTGGATACTCATGACGCAGACTC (Grimsley et al., 2002) e HE3UTR.R1 -
GGACTCCCTGGGCTTTCTCACCG, especificamente desenhado para este estudo.
O amplicon gerado possui 5046-pb abrangendo parte da região promotora do gene
HLA-E, toda a região codificadora e a região 3’NT.
A PCR foi realizada em um volume final de 50 µL, utilizando-se uma DNA
Polimerase para amplificações longas, denominada Taq Long (Fermentas - Vilnius,
Lituânia). Os reagentes utilizados para a PCR foram misturados em tubo separado
em quantidades específicas conforme a Tabela 2. Em cada tubo para PCR de 0,2
mL, previamente identificado, foi adicionado 49 µL da mistura de reagentes (Tabela
2) e mais 1 µL de amostra de DNA diluído a 100 ng/uL. Em cada reação realizada,
um controle negativo contendo apenas os reagentes (sem DNA) foi adicionado com
o objetivo de confirmar a ausência de contaminação dos componentes da PCR.
Tabela 2: Reagentes e concentrações utilizadas para a amplificação do gene HLA-
E.
Componentes da Reação [ ] Solução de
Uso 1 x (uL)
Concentração
Final
Água - 34,20 -
PCR Buffer – Long 10X 5,00 1,00 X
Sal - MgCl2 25 mM 3,50 1,75 mM
dNTPs 5 mM 2,00 0,20 mM
Iniciador 1F - HE01F 10 pM 2,00 0,40 µM
Iniciador 1R - HE3UTR.R1 10 pM 2,00 0,40 µM
DNA Polimerase – Long 5 U/µL 0,30 1,50 U
Volume total - 49,00 -
Volume de amostra (100 ng/uL) - 1,00 -
32
A ciclagem de temperaturas utilizada foi: (a) 94º C de desnaturação inicial por
3 minutos, (b) 30 ciclos de 94º C de desnaturação por 30 segundo, 60º C de
temperatura de anelamento por 30 segundos, 68º C de temperatura de extensão por
6 minutos e (c) uma extensão final de 10 minutos a 68º C. O produto de PCR foi
armazenado em freezer -20ºC até o momento de sua utilização conforme descrito
adiante.
A amplificação das amostras foi avaliada em gel de agarose a 1% corado
com brometo de etídio. Para cada amostra foi aplicado um volume de 7 µL de
produto de PCR junto com 2 µL de tampão de carregamento 6x Loading Dye™
(Fermentas – Vilnius, Lituânia).
A eletroforese foi realizada em uma cuba de eletroforese com voltagem fixada
em 90 V, durante 1 hora. Os géis foram expostos à luz ultravioleta (UV) e
posteriormente fotografadas em um fotodocumentador. Em cada corrida foi
adicionada uma escada alélica GeneRuler™ (Fermentas – Vilnius, Lituânia) com
tamanho específico para conferência do tamanho aproximado dos produtos de
amplificação gerados pela reação de PCR, bem como foi adicionado o controle
negativo como um parâmetro de ausência de contaminação.
Figura 3. Gel de agarose 1% corado com brometo de etídio e visualizado com luz UV. Corrida 1:
marcador molecular de peso conhecido, variando de 100 pb a 5000 pb. Corridas de 2 a 11: amostras
adequadamente amplificadas. Corrida 12: controle negativo sinalizando ausência de contaminação.
4.4. PROCESSAMENTO DO PRODUTO AMPLIFICADO
33
As amostras amplificadas e checadas no gel de agarose foram purificadas
com o kit comercial Illustra™ GFX™ PCR DNA and gel band purification (GE
HelthCare® - Buckinghamshire, Reino Unido) para eliminação dos resíduos de
dNTPs não incorporados, DNA polimerase e outros constituintes da reação de PCR.
O produto pós purificação foi eluído em água ultrapura autoclavada. Em seguida, as
amostras foram quantificadas com o uso do equipamento Qubit® 2.0 Fluorometer
Quantitation (Invitrogen - Eugene, Estados Unidos). O método faz uso de um
fluoróforo especifico para DNA, ligando-se à dupla fita e emitindo fluorescência, que
é detectada pelo aparelho e convertida em uma quantificação de DNA presente em
cada amostra. Para a quantificação foi utilizado o kit Qubit dsDNA® HS Assay Kit
(Invitrogen - Oregon, Estados Unidos), um kit de alta sensibilidade para
quantificações que variam de 0,2 a 100 ng/uL.
Uma vez quantificadas, as amostras foram normalizadas por meio de uma diluição
em água ultrapura autoclavada para uma concentração de 10 ng/µL e
posteriormente submetida à reação de sequenciamento direto conforme descrito nas
seções seguintes.
4.5. REAÇÃO DE SEQUENCIAMENTO
Os produtos de amplificação foram sequenciados diretamente com o uso do
kit de sequenciamento BigDye® Terminator v.3.1 Cycle Sequencing (Applied
Biosystems - Foster City, Estados Unidos) e os primers indicados (Figuras 4 e 5). Os
reagentes foram misturados em quantidades específicas (Tabela 03) em um único
tubo para garantir a homogeneidade das reações.
Em cada microtubo de 0,2 mL devidamente identificado ou na placa de 96
poços, foram acrescentados 5 µL do produto de PCR purificado e normalizado a 10
ng/µL (totalizando 50 ng de DNA) e 5 µL da mistura de reagentes. O perfil de
ciclagem utilizado foi: 1 ciclo de 96ºC por 1 minuto; 25 ciclos de 96ºC por 10
segundos, 56ºC por 5 segundos e 60ºC por 4 minutos. Para o sequenciamento de
toda a região 3’NT do gene HLA-E foram utilizados 7 diferentes iniciadores
desenhados especificamente para estre trabalho (Figura 5):
HE3UTR.F1 (5’ – TCCCAGCAGTCACAGGTCACAGG – 3’);
34
HE3UTR.F2 (5’ – GAGGGTGGGGCAGAGGGGAC – 3’);
HE3UTR.F3 (5’ – CCCCCTTCCTCACACTGACCTGT – 3’);
HE3UTR.F5 (5’ – AGTGTAAGTGCGGGGCGGGA– 3’);
HE3UTR.R1 (5’ – GGACTCCCTGGGCTTTCTCACCG – 3’)
HE3UTR.R2 (5’ – CAGCCTGGGAAGGTGAGGGGA – 3’);
HE3UTR.R3 (5’ – CATCACTCTAGTGGAGGCTCTCTGT – 3’).
Tabela 3: Reagentes e concentrações utilizadas na reação de sequenciamento
(para uma corrida utilizando um primer específico).
Componentes da Reação 1 x (µL)
Água ultrapura autoclavada 1,25
Tampão BigDye 5X 1,25
Iniciador (3,2 ng/µL) 1,00
BigDye 3.1 1,50
Volume Total 5,00
Volume de produto de PCR normalizado (10 ng/µL) 5,00
35
Figura 4. Esquema resumido do mapa cromossômico dos genes do
complexo HLA, em destaque o gene HLA-E. (Mehra e Kaur, 2003)
Figura 5. Área de cobertura de cada iniciador utilizado para o sequenciamento da região 3’ não-traduzida do gene HLA-E, considerando-se 450
pb para cada primer.
36
A precipitação da reação de sequenciamento foi realizada utilizando-se
protocolo recomendando pela empresa produtora do kit de sequenciamento. Este
protocolo utilizou-se dos reagentes etanol absoluto e ácido etileno diamino
tetracético [EDTA] (125 mM), conforme procedimento descrito a seguir: em cada
poço da placa foi adicionado 2,5 µL da solução de EDTA e 30 µL de etanol absoluto
gelado (freezer -20 por um mínimo de 2 hora). Cobriu-se a placa, selando-a com
papel alumínio e homogeneizou-se. A placa foi então incubada por 15 minutos a
temperatura ambiente. Posteriormente, foi centrifugada por 30 min a 3000 x g.
Passado este tempo, a placa foi vertida e centrifugada por 1 min a 185 x g com
papel absorvente para se retirar o álcool do passo inicial de precipitação. Adicionou-
se então 30 µL de etanol 70% gelado a cada poço, seguido de centrifugação por 15
min a 1650 x g com uma temperatura de 4ºC. Inverteu-se a placa e centrifugou-se
por 1 min a 185 x g com papel absorvente para retirar os componentes da segunda
rodada de precipitação. Por fim, a placa foi secada em um termociclador com
temperatura de 90ºC por 1 minuto.
Após a precipitação, as amostras foram ressuspendidas em 10 µL de
formamida Hi-Di, desnaturadas por 5 minutos a 95ºC e posteriormente aplicadas no
sequenciador ABI3500 Genetic Analyser (Applied Biosystems) para a leitura do
sequenciamento.
4.6. ANALISE DAS SEQUÊNCIAS
A qualidade dos sequenciamentos foi examinada em um primeiro momento
visualizando-se os eletroferogramas no programa Chromas®. Posteriormente, os
arquivos contendo os eletroferogramas de sequenciamento foram alinhados com a
sequência genômica do HLA-E depositada no GenBank (número de acesso
NT_113891.2), para fins de referência. A leitura e interpretação dos
sequenciamentos e alinhamentos foi realizada manualmente por dois observadores,
descartando-se regiões de baixa qualidade (nucleotídeos com valor PHRED
inferiores a 20 foram descartados e posteriormente reavaliados). Cada SNP
detectado (Figura 6) foi anotado individualmente e comparado com as variações já
descritas para a sequência genômica do HLA-E por meio do software CLC
Sequence Viewer (http://www.clcbio.com/products/clc-sequence-viewer/). Cada SNP
37
teve sua posição correta definida a partir da comparação com a sequência
NT_113891.2, considerando a Adenina do primeiro ATG traduzido como base
número +1. As bases analisadas em cada sequenciamento que não apresentaram
variação foram definidas como sendo igual à sequencia padrão de comparação.
Figura 6. Exemplo de resultado dos sequenciamentos. Na seta nota-se a ocorrência de um ponto de
variação presente em uma das amostras analisadas.
4.7. ANÁLISE DOS DADOS DO PROJETO 1000GENOMES
Os dados do projeto 1000Genomes referentes ao gene HLA-E foram obtidos
no site oficial do projeto (www.1000genomes.org) (The 1000Genomes Project
Consortium, 2010; 2012). A região avaliada neste estudo (éxons 1-4, incluindo
íntrons, e da região de 3' NT do gene HLA-E) foi filtrada a partir dos arquivos .vcf
baixados do site oficial do projeto 1000Genomes e concatenados com os dados
obtidos a partir das análises das amostras brasileiras. O arquivo .vcf resultante foi
convertido para o formato GENEPOP e ARLEQUIN usando o programa PGDSpider
2.0.19 (Lischer e Excoffier, 2012). Para as variações encontradas em uma das
análises, mas não na outra, i.e., pontos de variação que ocorreram exclusivamente
nas análises das amostras brasileiras e vice-versa, esses pontos foram
considerados monomórficos no grupo onde eles não variaram e a base considerada
foi aquela presente na sequencia padrão utilizada na análise (NT_113891.2).
38
4.8. AVALIAÇÃO DO PADRÃO DE DESEQUILÍBRIO DE LIGAÇÃO E
INFERÊNCIA COMPUTACIONAL DE HAPLÓTIPOS
Para a análise do possível desequilíbrio de ligação (LD), o arquivo .vcf foi
convertido para o formato de .ped LINKAGE e a inferência do padrão de
desequilíbrio de ligação (LD) na região foi realizada usando o programa Haploview®
4.2 (Barrett et al., 2005). As imagens de LD foram geradas pelo Haploview
utilizando-se os SNPs com o alelo menos frequente com uma frequência alélica
mínima (MAF) de 0,01. As regiões com elevado LD (blocos de segregação) foram
inferidas pelo método do Intervalo de Confiança (Gabriel et al., 2002).
Para a avaliação do LD, as populações foram agrupadas de acordo com a
componente predominante de ancestralidade. Sendo assim, seis grupos foram
considerados: a) população mundial, contendo os dados de todas as populações
avaliadas no projeto 1000genomes mais os dados das amostras brasileiras; b)
brasileiros do estado de São Paulo; c) europeus, onde todas as populações com
ascendência europeia foram agrupadas em conjunto, ou seja, os residentes de Utah
com ancestrais do Norte da Europa e da Europa Ocidental, moradores da Toscana
na Itália, britânicos da Inglaterra e Escócia, finlandeses da Finlândia, e as
populações ibéricas da Espanha; d) asiáticos, incluindo os chineses (População Han
em Pequim e a população Han do sul da China) e a população japonesa (Tóquio), e)
africanos, incluindo a população de Yoruba em Ibadan (Nigéria), habitantes de
Luhya Webuye, (Quênia) e indivíduos com ascendência Africana do sudoeste dos
EUA; e por ultimo f) americanos, incluindo indivíduos com ancestralidade mexicana
que moram em Los Angeles (CA), os porto-riquenhos em Porto Rico e colombianos
de Medellín na Colômbia.
A população brasileira não foi incluída no grupo de americanos, uma vez que
o presente estudo teve como objetivo avaliar o padrão encontrado na análise das
diferentes populações mundiais e comparar com os dados e padrões obtidos para a
população brasileira. E ainda, pelo fato de que as outras populações enquadradas
no grupo dos americanos possuem uma origem hispânica, ao contrário dos
brasileiros que possuem basicamente ancestralidade portuguesa e africana.
Dada a associação positiva entre os alelos dos pontos de variação
encontrados, mas a fase de ligação entre cada uma destas variantes desconhecida,
39
foi realizada uma inferência computacional dos haplótipos definindo-se a provável
constituição de cada um dos cromossomos dos indivíduos analisados.
Para a inferência dos haplótipos, dois métodos computacionais foram
empregados: o software PHASE v2 (Stephens et al., 2001; Stephens e Donnelly,
2003) que implementa um método Bayesiano para reconstrução do haplótipo mais
provável; e algoritmo de máxima verossimilhança implementado no software PL-EM
(Qin et al., 2002), que calcula pela maximização da expectativa cada um dos
haplótipos presentes nas amostras. Foram realizadas 25 corridas independentes
para cada um dos métodos e os resultados foram então comparados entre si. Para
este procedimento foi utilizado um script em Perl denominado HaploRunner
(desenvolvido por E. C. Castelli – disponível em http://bioinfo.icb.ufg.br), versão 1.1b.
Este script executou as 25 corridas independentes de cada algoritmo, comparando
os resultados obtidos em todas as corridas e entre ambos os métodos. Foram
aceitas somente as inferências de haplótipos que atenderam a dois requisitos: a)
tiveram probabilidade de inferência superior a 90%; b) obtiveram o mesmo haplótipo
inferido em todas as corridas para cada um dos programas e entre os dois
programas. Para o método PHASE foram utilizados os seguintes parâmetros:
number of iteractions: 1000; thinning interval: 1; burn-in value: 1000 e valores seed
diferentes para cada corrida, conforme descrito em um trabalho prévio (Castelli et al.,
2011). Para o algoritmo PL-EM foram utilizados os seguintes parâmetros: Top value:
0; Parsize value: 2; Buffer: 1300 e Round value: 200.
As relações entre os haplótipos obtidos foram inferidas construindo-se uma
network, utilizando-se para tanto o algoritmo median joining implementado no
programa Network® 4.6.1.0 (http://www.fluxus-engineering.com/sharenet.htm). Nas
análises, um haplótipo frequente de chipanzé (Pan troglodytes) foi considerado
como nó ancestral. As imagens geradas pelo software foram tratadas e
reconstruídas utilizando-se programas de edição de imagem.
4.9. CONVERSÃO DE HAPLÓTIPOS EM ALELOS HLA-E
A conversão de haplótipos em alelos codificadores do gene HLA-E foi
realizada manualmente baseando-se nas sequências depositadas na base dados do
IMGT/HLA. Os haplótipos foram comparados individualmente com cada um dos 11
40
alelos codificadores para o gene HLA-E descritos nesta plataforma de dados, desta
forma identificando qual o alelo mais próximo da sequência encontrada, baseando-
se nas variações que definem cada alelo.
As sequências de haplótipos que não foram compatíveis com nenhum alelo
codificador já descrito foram agrupadas com o alelo mais semelhante descrito,
adicionando-se a posição do nucleotídeo e o novo nucleotídeo apresentado para
mutações sinônimas. Para os casos de mutações não sinônimas, o número do
códon e a troca de aminoácido ocasionada pelo ponto de variação apresentado
foram fornecidos.
ANÁLISES DE FREQUÊNCIAS
As frequências alélicas e genotípicas de cada loco foram estimadas por
contagem direta. A aderência das frequências genotípicas em relação às proporções
teóricas de Hardy-Weinberg foi avaliada pelo teste exato de Guo e Thompson (Guo
e Thompson, 1992), utilizando-se o software GenePop® 4.0 (Raymond e Rousset,
1995). Este último também foi utilizado para inferir a heterozigosidade esperada e
observada nesta população. A diversidade nucleotídica do gene HLA-E como um
todo e de cada região de estudo (codificadora e 3’NT), tanto para cada população
individualmente e para a população mundial, foi inferida com o uso do software
Arlequin versão 3.5.1 (Excoffier et al., 2003; Excoffier et al., 2005)
41
5. RESULTADOS
5.1. FREQUÊNCIAS ALÉLICAS, GENOTÍPICAS E ADERÊNCIA AO EQUILÍBRIO
DE HARDY-WEINBERG
Após a análise da variabilidade do gene HLA-E das 104 amostras oriundas do
banco de doadores de medula óssea de Ribeirão Preto e dos indivíduos incluídos no
projeto 1000Genomes, considerando-se a sequência genômica que codifica a
porção externa na molécula HLA-E (1100-pb incluindo os éxons 1-4 e íntrons) e a
região 3’ NT (1624-pb, incluindo o íntron 7), conforme descrito anteriormente, foram
encontrados 34 pontos de variação (Tabela 4).
Considerando apenas as amostras brasileiras, seis pontos de variação foram
detectados na região codificadora do HLA-E, nas posições +170, +424, +756,
+1294, +1645 e +1857 (considerando a primeira A do primeiro ATG traduzido como
nucleotídeo +1). Para a região 3' NT, oito pontos de variação foram encontrados,
nas posições +3447, +3468, +3634, +3695, +3777, +3778, +4084 e +4297. Desses,
sete foram encontrados exclusivamente no Brasil (Tabela 4). Curiosamente, dois
novos pontos de variação, +3695 e +4084, foram encontrados na mesma amostra
brasileira, um indivíduo do sexo masculino com 22 anos de idade e classificada
como mulato. Para confirmar estas variações um novo PCR e novas reações de
sequenciamento foram realizados.
Dos pontos de variação presentes na população brasileira, seis podem ser
considerados polimorfismos (frequência do alelo mais frequente inferior a 99%),
sendo três na região de codificação (+424, +756, +1645) e três na região 3' NT
(+3468, +3777 e +4297) . Os três sítios polimórficos com maiores heterozigosidade
foram os polimorfismos de região codificadora +424 e +756, e o polimorfismo da
região 3’NT +3777. O primeiro é uma substituição sinônima no éxon 2, o segundo é
uma mutação de sentido trocado que causa uma troca de um aminoácido na
proteína HLA-E e o terceiro pode, em uma primeira análise, ser considerada como
uma variação neutra por ocorrer na 3' NT.
A variação +756 define dois grupos de alelos, um grupo que codifica a
molécula E*01:03 (que contém uma glicina no domínio α2 da cadeia pesada) e outro
a molécula E*01:01 (que contém uma arginina nesta mesma posição) (Tamouza et
42
al., 2007). Todos os sítios de variação encontrados e as suas frequências em
brasileiros e nas outras populações avaliadas no projeto 1000Genomes são
apresentados na Tabela 4.
Considerando os dados do projeto 1000Genomes, 17 pontos de variação
foram encontradas em uma ou mais populações mundiais (Tabela 4). Destes,
apenas sete também estavam presentes no Brasil. Desta forma, todas estas
variações exclusivas do Brasil ou de alguma população do 1000Genomes foram
consideradas como sítios monomórficos nas demais populações, considerando o
nucleotídeo presente na sequência de referência (NT_113891.2) como o nucleotídeo
presente nestes pontos.
Das vinte variações encontradas exclusivamente nas populações avaliadas
pelo 1000Genomes, onze apresentaram frequências superiores a 1% em pelo
menos uma das populações. Ainda, seis pontos de variação foram considerados
singletons (ocorreram em apenas um indivíduo no estado de heterozigose): +108,
+1691, +3082, +3475, +3500 e +4430. Considerando-se que a cobertura de
sequenciamento do genoma inteiro dos indivíduos analisados pelo projeto
1000Genomes é entre 2 a 6x, boa parte destes singletons podem ser fruto de erros
de sequenciamento e erros de base calling, tornando-se resultados falso positivo.
Por este motivo, optamos por excluir esses pontos de variações para as análises
posteriores.
No total (1000Genomes e Brasil), quinze variações foram encontradas na
região codificadora e treze variações na região 3' NT. O número de pontos de
variação por população variou entre três e quatorze. As populações brasileira e
queniana apresentaram o maior número de variações, seguidos por britânicos,
colombianos e Afrodescendentes americanos. Dez dos vinte e oito pontos de
variação foram encontrados em apenas um grupo populacional (mas com
frequências muito baixas), e o SNP +887, já descrito pelo IMGT/HLA como
associado com o alelo de região codificadora conhecido como E*01:03:03, não foi
encontrado em qualquer uma das populações avaliadas.
A população finlandesa apresentou a maior diversidade nucleotídica
considerando a região codificadora do HLA-E, enquanto que a população
afrodescendente americana apresentou maior diversidade da região 3' NT (Tabela
5). Apesar do maior número de sítios de variação encontrados no Brasil, a
43
população brasileira apresentou a menor diversidade nucleotídica entre todas as
populações. Considerando-se o loco HLA-E todo, a população afrodescendente
americana apresentou a maior diversidade nucleotídica.
As frequências genotípicas aderiram ao esperado pelo Equilíbrio de Hardy-
Weinberg para todos os marcadores (P > 0,05), exceto em dois casos: polimorfismo
+424 na população Han do sul da China e +756 para os quenianos de Luhya
(Tabela 6). Não foram detectados desvios para o Equilíbrio de Hardy-Weinberg nas
amostras Brasileiras.
44
Tabela 4: Pontos de variação do gene HLA-E e suas frequências em diferentes populações do projeto 1000Genomes e em uma amostra
brasileira.
Europa Ásia África Continente Americano
Populações BRA CEU TSI GBR FIN IBS CHB JPT CHS YRI LWK ASW MXL PUR CLM
Pontos de
variaçãoa
SNP IDb Variação
nc 104 85 98 89 93 14 97 89 100 88 97 61 66 55 60
Alelod Frequência alélica
108e N.D. A/G A 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,994 1,000 1,000 1,000 1,000 1,000
170 N.D. G/T G 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
363 rs140107837 C/T C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,974 1,000 1,000 1,000 1,000
424 rs114942539 C/T C 0,735 0,647 0,714 0,702 0,699 0,643 0,732 0,758 0,660 0,750 0,742 0,656 0,689 0,555 0,592
756 rs115492845 A/G A 0,635 0,606 0,592 0,624 0,516 0,500 0,423 0,303 0,360 0,659 0,541 0,467 0,553 0,455 0,508
971 rs145034129 G/A G 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,975 1,000 1,000 1,000
1014 rs114763484 T/A T 1,000 0,976 1,000 0,994 0,973 1,000 1,000 1,000 1,000 1,000 1,000 0,992 1,000 1,000 1,000
1278 rs182627071 C/T C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,982 0,992
1283 rs114425530 G/A G 1,000 1,000 1,000 1,000 1,000 1,000 0,995 1,000 1,000 1,000 1,000 1,000 1,000 0,991 1,000
1294 N.D. G/A G 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
1322 rs116563630 G/A G 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,977 0,974 0,975 1,000 0,982 1,000
1625 rs116099950 G/C G 1,000 0,988 0,980 0,994 1,000 1,000 1,000 0,994 1,000 0,955 0,918 0,926 0,992 1,000 0,992
1627 rs138823292 C/G C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,990 1,000 1,000 1,000 1,000
1644 rs149396632 G/A G 1,000 1,000 0,995 0,994 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
1645 N.D. A/T A 0,985 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
1691e rs188968394 G/A G 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,992
1857 rs115331960 C/T C 0,990 0,988 1,000 0,983 0,860 1,000 0,995 1,000 1,000 1,000 1,000 1,000 0,992 1,000 0,983
3082e N.D. A/C A 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,994 1,000 1,000 1,000 1,000 1,000 1,000 1,000
3166 rs150528487 C/G C 1,000 1,000 0,995 0,994 1,000 1,000 0,979 0,983 1,000 1,000 1,000 1,000 0,992 1,000 1,000
3204 rs139529838 A/G A 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,974 1,000 1,000 1,000 1,000
45
3447 N.D. C/T C 0,990 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
3468 rs114910384 A/C A 0,971 1,000 0,995 0,994 1,000 1,000 0,923 0,983 0,935 0,915 0,912 0,926 0,985 1,000 0,983
3475e rs189682683 A/T A 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,992 1,000 1,000
3500e rs192326720 T/C T 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,992
3528 rs184455686 C/T C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,994 0,974 0,967 1,000 1,000 1,000
3558 rs149714735 C/T C 1,000 0,994 1,000 1,000 1,000 1,000 0,985 0,983 0,990 1,000 1,000 1,000 1,000 1,000 1,000
3634 rs115717075 G/A G 0,995 0,994 0,959 0,989 0,952 1,000 0,974 0,938 0,995 0,926 0,928 0,877 0,985 0,973 0,950
3695 N.D. G/A G 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
3777 rs114114145 A/G A 0,808 0,641 0,755 0,713 0,704 0,643 0,732 0,775 0,645 0,818 0,804 0,779 0,629 0,545 0,608
3778 N.D. A/G A 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
4084 N.D. G/A G 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
4297 rs114314243 G/A G 0,986 0,994 0,959 0,989 0,989 1,000 0,974 0,938 0,995 0,926 0,948 0,877 0,985 0,973 0,950
4415 rs145584770 C/T C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,974 1,000 1,000 1,000 1,000
4430e rs148481597 C/T C 1,000 1,000 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
BRA: Brasileiros em Ribeirão Preto, São Paulo, Brasil; CEU: Residentes de Utah com ancestrais do norte e oeste da Europa; TSI: Residentes da Toscana na Itália; GBR: Britânicos da Inglaterra e Escócia; FIN: Finlandeses da Finlândia; IBS: População Ibérica na Espanha; CHB: População Han em Pequin, China; JPT: Japoneses em Tóquio; CHS: População Han do sul da China; YRI: Yoruba em Ibadan, Nigéria; LWK: Luhya em Webuye, Quênia; ASW: Afrodescendentes americanos no sudoeste dos EUA; MXL: Residentes de Los Angeles, Califórnia com ancestrais mexicanos; PUR: Porto-riquenhos; CLM: Colombianos de Medellín. Em negrito os pontos de variação encontrados nas amostras brasileiras. N.D – Não disponível. a As posições referem-se à Adenina do primeiro ATG traduzido como nucleotídeo +1.
b SNP ID foram retirados da lista do Projeto 1000genomes.
c Número de indivíduos.
d Alelo com maior frequência.
e Estes pontos de variação podem ser considerados singletons encontrados nos dados do 1000Genomes e podem ser pontos de variação falso positivos.
46
Tabela 5: Índices de diversidade nucleotídica do gene HLA-E para a região codificadora, 3’ NT
e ambas as regiões considerando as populações do projeto 1000Genomes e as amostras
Brasileiras.
Populações π região
codificadora
π região 3'
NT
π região codificadora e
3’NT
BRA 0,000485 0,000277 0,000383
CEU 0,000551 0,000306 0,000432
TSI 0,000503 0,000345 0,000424
GBR 0,000510 0,000295 0,000405
FIN 0,000653 0,000324 0,000494
IBS 0,000529 0,000293 0,000414
CHB 0,000478 0,000438 0,000453
JPT 0,000429 0,000428 0,000423
CHS 0,000485 0,000361 0,000422
YRI 0,000513 0,000451 0,000478
LWK 0,000572 0,000400 0,000517
ASW 0,000606 0,000607 0,000598
MXL 0,000519 0,000366 0,000442
PUR 0,000561 0,000376 0,000469
CLM 0,000562 0,000446 0,000502
População mundial 0,000541 0,000392 0,000472
BRA: Brasileiros em Ribeirão Preto, São Paulo, Brasil; CEU: Residentes de Utah com ancestrais do norte e oeste da Europa; TSI: Residentes da Toscana na Itália; GBR: Britânicos da Inglaterra e Escócia; FIN: Finlandeses da Finlândia; IBS: População Ibérica na Espanha; CHB: População Han em Pequin, China; JPT: Japoneses em Tóquio; CHS: População Han do sul da China; YRI: Yoruba em Ibadan, Nigéria; LWK: Luhya em Webuye, Quênia; ASW: Afrodescentes americanos no sudoeste dos EUA; MXL: Residentes de Los Angeles, Califórnia com ancestrais mexicanos; PUR: Porto-riquenhos; CLM: Colombianos de Medellín.
47
Tabela 6: Aderência das frequências dos genótipos ao Equilíbrio de Hardy-Weinberg considerando as populações do projeto 1000Genomes e
as amostras Brasileiras (P ≤ 0.05 indica desvio do esperado pelo equilíbrio).
Europeus Asiáticos Africanos Continente Americano
Populações BRA CEU TSI GBR FIN IBS CHB JPT CHS YRI LWK ASW MXL PUR CLM
Locos P value
108 - - - - - - - - - - - - - - -
170 - - - - - - - - - - - - - - -
363 - - - - - - - - - - 1,000 - - - -
424 0,801 0,636 1,000 1,000 0,464 1,000 0,306 0,381 0,023a 0,397 0,111 0,776 0,395 0,787 0,109
756 0,397 0,070 0,096 0,508 0,834 0,127 0,534 0,454 0,127 0,639 0,041a 0,440 0,630 1,000 0,446
887 - - - - - - - - - - - - - - -
971 - - - - - - - - - - - 1,000 - - -
1014 - 1,000 - - 1,000 - - - - - - - - - -
1278 - - - - - - - - - - - - - 1,000 -
1283 - - - - - - - - - - - - - - -
1294 - - - - - - - - - - - - - - -
1322 - - - - - - - - - 1,000 1,000 1,000 - 1,000 -
1625 - 1,000 1,000 - - - - - - 1,000 1,000 1,000 - - -
1627 - - - - - - - - - - 1,000 - - - -
1644 - - - - - - - - - - - - - - -
1645 1,000 - - - - - - - - - - - - - -
1691 - - - - - - - - - - - - - - -
1857 1,000 1,000 - 1,000 1,000 - - - - - - - - - 1,000
3082 - - - - - - - - - - - - - - -
3166 - - - - - - 1,000 1,000 - - - - - - -
3204 - - - - - - - - - - 1,000 - - - -
3447 1,000 - - - - - - - - - - - - - -
48
3468 1,000 - - - - - 1,000 1,000 1,000 0,481 0,536 1,000 1,000 - 1,000
3475 - - - - - - - - - - - - - - -
3500 - - - - - - - - - - - - - - -
3528 - - - - - - - - - - 1,000 1,000 - - -
3558 - - - - - - 1,000 1,000 1,000 - - - - - -
3634 - - 1,000 1,000 1,000 - 1,000 1,000 - 0,379 1,000 0,581 1,000 1,000 1,000
3695 - - - - - - - - - - - - - - -
3777 0,356 0,229 1,000 0,794 0,078 1,000 0,126 0,361 0,078 1,000 1,000 0,137 1,000 1,000 0,414
3778 - - - - - - - - - - - - - - -
4084 - - - - - - - - - - - - - - -
4297 1,000 - 1,000 1,000 1,000 - 1,000 1,000 - 0,381 1,000 0,579 1,000 1,000 1,000
4415 - - - - - - - - - - 1,000 - - - -
4430 - - - - - - - - - - - - - - -
BRA: Brasileiros em Ribeirão Preto, São Paulo, Brasil; CEU: Residentes de Utah com ancestrais do norte e oeste da Europa; TSI: Residentes da Toscana na Itália; GBR: Britânicos da Inglaterra e Escócia; FIN: Finlandeses da Finlândia; IBS: População Ibérica na Espanha; CHB: População Han em Pequin, China; JPT: Japoneses em Tóquio; CHS: População Han do sul da China; YRI: Yoruba em Ibadan, Nigéria; LWK: Luhya em Webuye, Quênia; ASW: Afrodescentes americanos no sudoeste dos EUA; MXL: Residentes de Los Angeles, Califórnia com ancestrais mexicanos; PUR: Porto-riquenhos; CLM: Colombianos de Medellín. a Desvios do Equilíbrio de Hardy-Weinberg.
- Valores que não puderam ser obtidos pela falta de poder estatístico para o teste exato de Guo e Thompson, já que estas variantes são raras do ponto de vista populacional.
49
5.2. DESEQUILÍBRIO DE LIGAÇÃO
A presença de uma associação significativa entre os pontos de variação do gene
HLA-E nas regiões codificadora e 3' NT foi avaliada pela mensuração do
Desequilíbrio de Ligação (LD) (D') (Lewontin, 1964), utilizando o software Haploview
4.1 (Barrett et al., 2005). A Figura 7 mostra o padrão de LD obtido utilizando-se os
pontos de variação que apresentaram frequência alélica mínima (MAF) de 1%.
A avaliação do LD na população global mundial, bem como em subgrupos
menores como o padrão de LD apresentado pelo Brasil, indicou a presença de
regiões cujos polimorfismos apresentam um forte desequilíbrio de ligação, em
especial os polimorfismos +424 e +756 na região codificadora. Por outro lado, estes
dados também indicaram um possível ponto de recombinação frequente entre as
regiões codificadora e 3’ NT do HLA-E, evidenciado pela quebra no padrão de LD
entre essas duas regiões apesar de sua proximidade (Figura 7). De fato, utilizando o
método de intervalo de confiança implementado no software Haploview, apenas um
bloco foi detectado na região codificadora, englobando os pontos de variação +424 e
+756, para a maioria dos grupos. Os padrões de LD variam entre os grupos
avaliados, especialmente entre as amostras das populações africanas e europeias.
Embora o mesmo padrão de desequilíbrio entre os pontos +424 e +756 tenha sido
observado em todos os grupos, o LD entre as regiões codificadora e 3’NT parece ser
mais intenso nas amostras da população americana e europeia, quando comparado
a brasileiros, asiáticos e populações da África. Estes resultados apontam para um
provável ponto de recombinação entre as regiões codificadoras e 3’NT do loco HLA-
E.
50
Figura 7: LD entre os pares de SNPs no gene HLA-E. A imagem foi gerada pelo programa Haploview usando SNPs com frequência ≥ 1%. Áreas em vermelho escuro indicam forte LD (LOD ≥ 2, D '= 1), tons de rosa indicam LD moderado (LOD ≥ 2, D' ≤ 1), azul indica LD fraco (LOD ≤ 2, D '= 1) e branco indica que não há LD (LD ≤ 2, D '≤ 1). Os blocos de haplótipos foram definidos pelo m todo de intervalos de confiança implementado no software Haploview. Diferentes valores de D' são representados dentro dos quadrados como percentagens. LOD log das probabilidades; D', correlação par a par entre os SNPs. Posições de SNPs foram estimados considerando a adenina no primeiro ATG do gene HLA-E como uma base +1.
51
5.3. DIVERSIDADE, FREQUÊNCIA E RELAÇÕES ENTRE OS HAPLÓTIPOS
Dada a associação positiva entre os pontos de variação da região
codificadora e 3’ NT, mas fase gamética desconhecida, os haplótipos foram inferidos
por dois métodos probabilísticos como descrito anteriormente. A inferência de
haplótipos foi realizada em 1.196 (1092 amostras do projeto 1000Genomes e 104
amostras brasileiras). Destes, 1.168 indivíduos (97,65%) preencheram os critérios
descritos anteriormente em relação à qualidade da inferência do par de haplótipos e,
portanto, foram consideradas para as análises posteriores. O projeto 1000Genomes
permite que os dados sejam baixados já com fase inferida. Entretanto, optou-se por
incluir estes dados na inferência haplotípica pelo método descrito, já que esta
inferência pelo método computacional é sensível a variações do n amostral.
Portanto, para melhorar a qualidade da inferência para as amostras brasileiras, os
dados do 1000Genomes foram incluídos. Vale ressaltar que a compatibilidade entre
o método computacional e a fase biologicamente inferida, e disponível no site do
projeto, foi superior a 99% para os dados do 1000Genomes, demonstrado a
viabilidade da técnica assumida neste estudo.
A análise revelou a presença de 33 haplótipos diferentes utilizando os 28
pontos de variação considerados. As frequências haplotípicas variaram de 0,04% a
47,00%. A probabilidade média de cada par de haplótipos foi 0,9945 para o método
PHASE e 0,9981 para o algoritmo PL-EM. A Tabela 7 apresenta os haplótipos
encontrados considerando todas as populações em conjunto e suas respectivas
diversidades haplotípicas.
Para avaliar a similaridade entre estes haplótipos e concatena-los em grupos
relacionados, uma rede de haplótipos foi construída (Figura 8). Nesta análise, foi
incluída uma sequência de um haplótipo frequente de chipanzé (Pan troglodytes)
para o gene MHC-E, o ortólogo em primatas ao HLA-E humano, como um grupo
externo. Na sequência foi acrescido um ponto de variação adicional (posição +433) a
fim de se evitar uma sobreposição completa entre as sequências dos haplótipos do
grupo externo com as sequências em humanos.
Esta relação entre os haplótipos, com base na rede apresentada, é também
demonstrada na Tabela 8. Além disso, para comparar o padrão de haplótipos HLA-E
em Homo sapiens com os haplótipos de outros primatas, foram incluídos na Tabela
52
8 três sequências do MHC-E de chipanzé (Pan troglodytes)
(ENSPTRG00000017912), Gorila (Gorilla gorilla) (ENSGGOG00000012802) e
macaco-rhesus (Macaca mulata) (ENSMMUG00000019888). Pode-se notar que as
sequências de Pan troglodytes e Gorilla gorilla são muito semelhantes ao haplótipo
H01 humano considerando os pontos de variação estudados, embora diferenças
pontuais podem ocorrer em outros locais que em humanos são considerados como
monomórficos.
53
Tabela 7: Frequência relativa d os 33 haplótipos encontrados para o gene HLA-E considerando-se os dados do projeto 1000Genomes e
as amostras brasileiras.
Europa Ásia Africa America População
Haplótipos BRA CEU TSI GBR FIN IBS CHB JPT CHS YRI LWK ASW MXL PUR CLM mundial
2n 206 168 196 178 184 28 190 174 194 174 178 118 124 106 118 2336
H01
0,083 0,012 0,092 0,051 0,038 0,143 0,289 0,431 0,294 0,023 0,067 0,093 0,097 0,085 0,051 0,1274
H02
0 0 0 0 0 0 0 0 0 0,017 0,017 0 0 0,019 0 0,0034
H03
0 0,012 0,020 0,006 0 0 0 0,006 0 0,040 0,073 0,034 0,008 0 0,008 0,0146
H04
0 0 0 0 0 0 0 0 0 0 0,017 0 0 0 0 0,0013
H05
0,010 0,012 0 0,017 0,136 0 0,005 0 0 0 0 0 0,008 0 0,017 0,0154
H06
0 0 0,005 0,006 0,005 0 0 0 0 0 0 0 0 0 0 0,0013
H07
0,005 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0004
H08
0 0 0 0 0 0 0 0 0 0 0 0,008 0 0 0 0,0004
H09
0,583 0,601 0,587 0,612 0,467 0,500 0,337 0,247 0,294 0,569 0,489 0,407 0,468 0,415 0,466 0,4705
H10
0,024 0 0,005 0,006 0 0 0,058 0,017 0,057 0,081 0,062 0,076 0,016 0 0,017 0,0300
H11
0 0 0 0,006 0 0 0 0 0 0 0 0 0,008 0 0 0,0009
H12
0 0 0 0 0,033 0 0 0 0 0 0 0 0 0 0 0,0026
H13
0,010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0009
H14
0,005 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0004
H15
0,005 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0004
H16
0 0 0 0 0 0 0 0 0 0 0,006 0 0 0 0 0,0004
H17
0,175 0,321 0,245 0,281 0,255 0,357 0,232 0,167 0,335 0,166 0,169 0,220 0,298 0,415 0,347 0,2526
H18
0 0 0 0 0 0 0 0 0 0 0,017 0 0 0 0 0,0013
H19
0 0,006 0 0 0 0 0,016 0,017 0 0 0 0 0 0 0 0,0030
H20
0 0,024 0 0,006 0,027 0 0 0 0 0 0 0,008 0 0 0 0,0047
H21
0 0 0 0 0 0 0 0 0 0 0 0 0 0,009 0,008 0,0009
H22
0,005 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0004
H23
0,058 0 0 0 0,011 0 0 0 0 0,012 0,006 0 0,016 0 0 0,0081
H24
0 0 0 0 0 0 0 0 0 0 0,017 0 0 0 0 0,0013
54
H25
0,010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0009
H26
0,010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0009
H27
0,010 0,006 0 0 0,016 0 0 0,035 0,005 0,012 0,006 0 0,065 0,028 0,034 0,0133
H28
0,005 0,006 0,041 0,011 0,011 0 0,026 0,063 0,005 0,075 0,045 0,119 0,016 0,028 0,051 0,0330
H29
0 0 0 0 0 0 0 0 0 0,006 0,006 0 0 0 0 0,0009
H30
0 0 0 0 0 0 0 0 0 0 0,006 0,034 0 0 0 0,0021
H31
0 0 0 0 0 0 0,021 0 0 0 0 0 0 0 0 0,0017
H32
0,005 0 0 0 0 0 0,016 0 0,010 0 0 0 0 0 0 0,0026
H33
0 0 0,005 0 0 0 0 0,017 0 0 0 0 0 0 0 0,0017
Diversidade haplotípica
0,622 0,537 0,589 0,546 0,698 0,624 0,748 0,726 0,715 0,639 0,720 0,761 0,685 0,652 0,661 0,697
BRA: Brasileiros em Ribeirão Preto, São Paulo, Brasil; CEU: Residentes de Utah com ancestrais do norte e oeste da Europa; TSI: Residentes da Toscana na Itália; GBR: Britânicos da Inglaterra e Escócia; FIN: Finlandeses da Finlândia; IBS: População Ibérica na Espanha; CHB: População Han em Pequin, China; JPT: Japoneses em Tóquio; CHS: População Han do sul da China; YRI: Yoruba em Ibadan, Nigéria; LWK: Luhya em Webuye, Quênia; ASW: Afrodescentes americanos no sudoeste dos EUA; MXL: Residentes de Los Angeles, Califórnia com ancestrais mexicanos; PUR: Porto-riquenhos; CLM: Colombianos de Medellín.
55
Tabela 8: Haplótipos encontrados considerando os pontos de variação presentes nas sequências genômicas que codificam a porção
externa na molécula HLA-E (éxons 1-4, incluindo os íntrons) e região 3’ NT do mRNA de HLA-E (incluindo o íntron 7).
Região Codificadora 3’ Não Traduzida Alelo HLA-E
associadoa Haplótipos
170
363
424
756
971
1014
1278
1283
1294
1322
1625
1627
1644
1645
1857
3166
3204
3447
3468
3528
3558
3634
3695
3777
3778
4084
4297
4415
Linhagem E010301
H01 G C C G G T C G G G G C G A C C A C A C C G G A A G G C 01:03:01
H02 G C C G G T C G G A G C G A C C A C A C C G G A A G G C 01:03:01
H08 G C C G A T C G G A G C G A C C A C A C C G G A A G G C 01:03:01
971A
H03 G C C G G T C G G G C C G A C C A C A C C G G A A G G C 01:03:05
H04 G C C G G T C G G G G C G A C C G C A T C G G A A G G C 01:03:01
H05 G C C G G T C G G G G C G A T C A C A C C G G A A G G C 01:03:01
287P→S
H06 G C C G G T C G G G G C A A C C A C A C C G G A A G G C 01:03:01
216D→N
H07 G C C G G T C G G G G C G A C C A C A C C G G A G G G C 01:03:01
Linhagem E010101
H09 G C C A G T C G G G G C G A C C A C A C C G G A A G G C 01:01:01
H10 G C C A G T C G G G G C G A C C A C C C C G G A A G G C 01:01:01
H16 G T C A G T C G G G G C G A C C A C C C C G G A A G G C 01:01:01
77S→I
H11 G C C A G T C G G G G C G A C G A C A C C G G A A G G C 01:01:01
H12 G C C A G T C G G G G C G A C C A C A C C A G A A G G C 01:01:01
H13 G C C A G T C G G G G C G A C C A T A C C G G A A G G C 01:01:01
H14 G C C A G T C G G G G C G A C C A C A C C G A A A A G C 01:01:01
H15 T C C A G T C G G G G C G A C C A C A C C G G A A G G C 01:01:01
Linhagem E010302a
H17 G C T G G T C G G G G C G A C C A C A C C G G G A G G C 01:03:02:01
56
H18 G C T G G T C G G G G C G A C C A C A C C G G G A G G T 01:03:02:01
H19 G C T G G T C G G G G C G A C C A C A C T G G G A G G C 01:03:02:01
H20 G C T G G A C G G G G C G A C C A C A C C G G G A G G C 01:03:02
H21 G C T G G T T G G G G C G A C C A C A C C G G G A G G C 01:03:02
H22 G C T G G T C G A G G C G A C C A C A C C G G G A G G C 01:03:02
Linhagem E010302b
H23 G C T G G T C G G G G C G A C C A C A C C G G A A G G C 01:03:02:01
H24 G C T G G T C G G G G C G A C C A C A C C A G A A G G C 01:03:02:01
H25 G C T G G T C G G G G C G T C C A C A C C G G A A G G C 01:03:02
216D→V
H26 G C T G G T C G G G G C G A C C A C A C C G G A A G A C 01:03:02:01
Possível permutação entre os haplótipos das diferentes linhagens
H27 G C C A G T C G G G G C G A C C A C A C C G G G A G G C 01:01:01
H28 G C T G G T C G G G G C G A C C A C A C C A G A A G A C 01:03:02:01
H29 G C C G G T C G G A G C G A C C A C A T C G G A A G G C 01:03:01
H30 G C C G G T C G G G C C G A C C A C A T C G G A A G G C 01:03:05
H31 G C C A G T C G G G G C G A C G A C C C C G G A A G G C 01:01:01
H32 G C C G G T C G G G G C G A C C A C A C C G G G A G G C 01:03:01
H33 G C C G G T C G G G G C G A C G A C A C C G G A A G G C 01:03:01
Primatas
P. troglodytes G C C G G T C G G G G C G A C C A C A C C G G A A G - - Similar ao H01 humano
G. gorilla G C C G G T T G G G G C G A C C G C A C C G G A A G G C
M. mulata G C C A G T T G A G G C G A C C G C A C - - - - - - - -
- Região não avaliada
a Haplótipo da região codificadora convertido em um alelo reconhecido pelo IMGT/HLA. Casos em que os haplótipos puderam ser distinguidos por mutações
sinônimas, a posição do nucleotídeo e o novo nucleotídeo são apresentados em sobrescrito. Casos em que os haplótipos puderam ser distinguidos por mutações
não sinônimas, o número do códon e a troca do aminoácido foram fornecidos em sobrescrito.
57
Figura 8: Rede de haplótipos ilustrando as relações entre os 33 haplótipos (Tabela 8) encontrados em populações mundiais. A rede de haplótipos foi calculada utilizando-se o algoritmo median joining pelo software Network 4.6.1.0. O grupo externo representa uma sequência de Pan troglodytes adicionando-se o ponto de variação +433.
58
O haplótipo H09 é o mais frequentemente encontrado em todas as
populações avaliadas (Tabela 7). Este haplótipo está associado a um alelo que
codifica a molécula E*01:01 (que possui uma arginina codificada pelo códon 107,
com uma adenina na posição +756). A população brasileira apresentou o maior
número de haplótipos e alguns exclusivos do Brasil, incluindo os haplótipos H13,
H22, H25, entre outros. O segundo haplótipo mais frequente considerando todos os
grupos é o H17, o qual está associado à sequência de codificação da molécula de
E*01:03 (que possui uma glicina codificada pelo códon 107, com uma guanina na
posição +756 e uma timina na posição +424). A maior diversidade haplotípica foi
detectada para os Afrodescendentes americanos (Tabela 7).
Ao avaliar a sequência de cada haplótipo HLA-E (Tabela 8) e a network
construída (Figura 8), quatro linhagens de haplótipos HLA-E puderam ser definidas
com características semelhantes (mutações comuns e um alelo principal codificador
do gene HLA-E). A primeira linhagem, E010301, é provavelmente a linhagem mais
antiga, já que parece ser compartilhada com outros primatas. Dentro deste grupo há
vários sub-haplótipos, todos partilhando a mesma região codificadora para o alelo
E*01:03:01 (que possui uma glicina codificada pelo códon 107, com uma guanina na
posição +756 e uma citosina na posição +424), com exceção do haplótipo H03. O
alelo codificador presente no haplótipo H03 é o E*01:03:05. Este alelo, pode ter
derivado a partir do alelo E* 01:03:01 por uma única mutação na posição +1625.
A segunda linhagem principal, E010101, é derivada do haplótipo H09. O H09
é, de fato, o haplótipo mais comum na maioria das populações avaliadas. Esta
linhagem provavelmente derivou do haplótipo H01 por uma única mutação (G → A)
na posição +756. A linhagem derivada do H09 compartilha a mesma região
codificadora com poucas mutações e uma proteína única: E*01:01 (que possui uma
arginina codificada pelo códon 107, com uma adenina na posição +756). Vários sub-
haplótipos podem ser encontrados nesta linhagem, todos provavelmente derivados
do haplótipo H01. A partir desta linhagem deriva o haplótipo H10 com uma mutação
na região 3'NT, na posição +3468, e a partir deste último é derivado o H16 com uma
mutação C → T na posição +363.
A linhagem E010302b é derivada do H01 por uma única mutação, uma
transição C → T na posição +424. À partir desta mutação surgiu o haplótipo H23,
uma etapa intermediária entre H01 e H17. A partir de H23, outros três sub-haplótipos
59
foram encontrados, porém o haplótipo mais frequente desta linhagem (H28) parece
resultar de um evento permutação entre dois haplótipos de baixa frequência, os
haplótipos H24 e H26.
A última linhagem, E010302a, é representada principalmente pelo haplótipo
H17. Este haplótipo pode ter se derivado de H23 ou H32 por uma mutação única. O
grupo principalmente caracterizado pela presença de uma mutação C → T na
posição +424 e A → G em +3777. Esta linhagem, derivada do H17, é caracterizada
por partilhar o alelo E*01:03:02 e uma sequência 3' NT muito semelhante.
Além das variantes conhecidas para a região codificadora do gene HLA-E,
alguns haplótipos encontrados definem novos sequências não-oficializadas do gene
HLA-E. Em nossas análises 9 haplótipos com diferentes regiões codificadoras foram
encontrados. Estes haplótipos não são compatíveis como nenhum outro já descrito
na base de dados IMGT/HLA, entre os quais:
(a) quatro são semelhantes aos do alelo E*01:03:01, incluindo os haplótipos
E*01:03:01-1322A (H2), E*01:03:01-971A-1322A (H08), 1:03:01-1857T (H05) e
01:03:01-1644A (H06). Destes, os dois últimos produzem uma molécula HLA-E
diferente devido a uma substituição não sinônima (Tabela 8);
(b) dois são semelhantes ao alelo E*01:01:01, incluindo E*01:01:01-363T
(H16) e E*01:01:01-170T (15), sendo que o primeiro haplótipo está associado a uma
molécula de HLA-E diferente devido a mutações não sinônimas;
(c) três são semelhantes ao E*01:03:02, incluindo E*01:03:02-1278T (H21),
E*01:03:02-1294A (H22), e E*01:03:02-1645T (H25), sendo que o último haplótipo
produz uma molécula de HLA-E diferente (Tabela 8).
60
6. DISCUSSÃO
No presente estudo a variabilidade das regiões codificantes e 3’ NT do gene
HLA-E foi avaliada no Brasil e os resultados foram comparados com dados oriundos
do projeto 1000Genomes. Considerando-se todas as populações avaliadas, 34
pontos de variação foram encontrados na região proposta (éxons 1-4, incluindo
íntrons, e toda a sequência genômica da região 3' NT, incluindo íntron 7), porém
apenas 28 pontos de variação foram considerados nas demais análises já que 6
foram considerados singletons. Foram detectados 33 haplótipos com base nestes
polimorfismos.
A alta variabilidade presente na população brasileira, devido a miscigenação
que ocorreu ao longo de séculos, tornou nossa população uma ótima fonte de
estudos para diversidade genética. De fato, a população brasileira é considerada
como um excelente repositório de variação genética e boa fonte de informação para
caracterização da variabilidade genética de um determinado segmento genômico. A
comparação dos dados sobre variação do gene HLA-E entre diferentes populações,
como as presentes no projeto 1000Genomes, com dados de uma população tão
diversa como a população brasileira, pode ser uma fonte rica de informações sobre
a história evolutiva e as relações entre as linhagens de haplótipos para este gene.
Dentre todos genes do MHC humano, o HLA-E é considerado o menos
variável (Tabela 1). Curiosamente, o HLA-E está localizado entre dois dos genes
mais polimórficos do genoma humano, a saber HLA-A e HLA-C (Shiina et al., 2009),
que juntos apresentam mais de 3800 alelos descritos e catalogados pelo IMGT/HLA
(Database 3.10). No entanto, acreditava-se que esta baixa variabilidade poderia
estar em parte relacionada com os poucos trabalhos realizados avaliando este gene
usando sequenciamento de DNA.
Levando em consideração a presente análise, tornou-se claro que o gene
HLA-E é, de fato, um gene que desvia da alta diversidade característica dos outros
locos HLA clássicos. Mesmo para as 1.168 amostras, que passaram nos critérios
previamente estabelecidos após as inferências haplotípicas e considerando apenas
a região codificadora do gene HLA-E (a região em que a variabilidade é catalogada
pela base de dados IMGT/HLA), apenas 14 haplótipos codificadores foram
encontrados (Tabela 8). Estes 14 haplótipos (ou alelos codificadores) representam
61
um número muito menor do que os milhares de alelos de HLA descritos para os
genes HLA-A, -B ou -C, além de representar a metade dos alelos já descritos pelo
IMGT/HLA para outro gene não clássico de classe I, o HLA-G (Tabela 1).
Comparado aos demais genes clássicos de histocompatibilidade, os genes
não-clássicos apresentam variabilidade limitada (Tabela 01). A grande variabilidade
presente nos genes clássicos HLA-A, -B e –C pode estar relacionada principalmente
a sua função apresentadora de antígenos (Klein e Sato, 2000a; b).
A alta variabilidade presente entre os locos clássicos do MHC é mantida por
meio de seleção balanceadora mediada principalmente pela interação com
microorganismos (Klein e Sato, 2000a; b). Uma maior variabilidade desses genes,
além de uma elevada heterozigose, estaria correlacionada com uma maior
capacidade de apresentação antigênica de uma população. De fato, considerando
as características de codominância e expressão constitutiva dos genes de classe I
clássicos, além de suas variabilidades acentuadas, é muito provável que a maioria
dos indivíduos em uma população humana seja heterozigoto para os três principais
locos de classe I relacionados com apresentação antigênica, HLA-A, -B e –C,
gerando na superfície celular de suas células 6 moléculas de classe I distintas.
Por outro lado, a função distinta dos genes não clássicos de classe I pode
levar a diferentes regimes de pressões seletivas comparadas aos genes clássicos
(Meyer e Thomson, 2001). Este menor grau de polimorfismo no gene HLA-E pode
assegurar a sobrevivência do feto alogênico refletindo em uma seleção contra as
mutações que resultam em proteínas muito imunogênicas ou função deficiente (Ober
et al., 2003). De fato, a baixa taxa de polimorfismos detectada no gene HLA-E foi
observada em todo o mundo (Tabela 7). Este gene parece apresentar
essencialmente apenas duas diferentes moléculas HLA-E, relacionadas com os dois
principais grupos de alelos codificadores do gene HLA-E: E*01:01 e E*01:03.
A baixa variabilidade da região codificadora do gene HLA-E na população
brasileira já havia sido previamente constatada (Veiga-Castelli et al., 2012b). No
estudo citado foram analisados 104 indivíduos sadios doadores de medula óssea da
cidade de Ribeirão Preto – SP e apenas dois alelos de região codificadora foram
predominantes (E*01:01 e E*01:03). Este dados reforçaram a ideia de seleção
reduzindo a variabilidade gênica, eliminando as mutações que tenham ocorrido ao
longo do tempo e suas consequências, como por exemplo, a formação de uma
62
molécula não-funcional. Nas amostras em questão, foram encontradas evidências
de seleção balanceadora atuando sobre a região codificadora do gene, elevando a
heterozigose dos dois alelos mais frequentemente encontrados (E*01:01 e E*01:03)
De fato, cada um desses alelos apresentou frequências próximas a 50% (Veiga-
Castelli et al., 2012b). Curiosamente, mesmo em uma população com alto índice de
miscigenação e que apresenta uma elevada diversidade genética como a população
brasileira, apenas dois alelos foram encontrados com frequências elevadas, além de
um pequeno número de novos alelos raros que estiveram presentes em apenas uma
amostra dentro da população estudada (Veiga-Castelli et al., 2012a).
A baixa variabilidade da região codificadora de um gene não-clássico foi
comprovada em um estudo envolvendo o mesmo conjunto de amostras e outro gene
não-clássico, o HLA-G (Castelli et al., 2007a). No entanto, apesar da baixa
variabilidade da região que codifica a molécula, as regiões regulatórias do gene
HLA-G mostraram-se muito polimórficas. Curiosamente, para a região 3’NT do gene
HLA-E, este fenômeno não se repetiu.
A diversidade nucleotídica encontrada na região 3’ NT do loco HLA-E, em
geral, foi inferior à diversidade nucleotídica encontrada na região codificadora
(Tabela 5), com poucas exceções. Em geral, os índices de diversidade nucleotídica
do gene HLA-E foram bastante baixos em todas as populações. Os índices mais
altos foram encontrados entre os Afrodescendentes americanos, enquanto o menor
valor foi encontrado no Brasil. As amostras brasileiras apresentaram o maior número
de pontos de variação entre todas as populações avaliadas, e alguns pontos de
variação foram exclusivamente encontrados no Brasil (Tabela 4). No entanto,
algumas destas variações ocorreram apenas uma ou duas vezes nas amostras
analisadas, levando a uma baixa frequência destes alelos na população. Tal fato
pode explicar por que se observa uma diversidade nucleotídica tão baixa na
população brasileira. É interessante notar que a maior diversidade nucleotídica foi
observada em afro-americanos (0,000598), e, mesmo neste caso, este valor foi bem
inferior à média do genoma humano, 0,00075 (Sachidanandam et al., 2001).
A região 3' NT do gene HLA-E apresentou-se bastante conservada, seguindo
o mesmo padrão observado para a região codificadora. Para a região 3’ NT, que
abrange 1624 pb, considerando a sequência genômica e o íntron 7, observou-se
apenas 13 pontos de variação em todas as populações analisadas. No Brasil,
63
apenas oito polimorfismos ocorreram nesta mesma região. Considerando apenas a
sequência transcrita da sequência genômica 3’ NT (1460 pb), foram encontrados 11
pontos de variação, uma vez que as posições +3166 e +3204 estão presentes
dentro do íntron 7.
Esta baixa taxa de variação na região 3' NT do gene HLA-E foi um resultado
inesperado quando comparado, por exemplo, a região 3’NT de um outro gene não
clássico de classe I, o HLA-G, gene este estruturalmente e funcionalmente
relacionado ao HLA-E. Este gene demonstrou uma variação muito maior do que a
encontrado para o HLA-E (Castelli et al., 2010). O trabalho foi conduzido por meio da
análise de 155 indivíduos utilizando-se o mesmo conjunto de amostras deste estudo.
Foram encontrados 8 pontos de variação na região 3’NT, todos alcançando
frequência polimórfica (alelos alternativos que alcançaram frequências superiores a
1%), em uma região de apenas 380 pares de base (Castelli et al., 2010).
Na presente análise, considerando apenas a sequência transcrita da região
3’NT, encontramos 11 pontos de variação em cerca de 1460 pb, mas apenas quatro
desses sítios alcançaram frequências polimórficas no Brasil e sete quando
consideradas todas as populações avaliadas pelo consórcio 1000Genomes.
Considerando o Brasil, esta região apresentou uma diversidade nucleotídica de
0,000277, sendo este valor 2,7 X menor que a média humana (Sachidanandam et
al., 2001; Aguilera, 2005) e 39,7 X menor do que a encontrada para a mesma região
no gene HLA-G (Castelli et al., 2011). Considerando todas as populações em
conjunto a diversidade nucleotídica da região 3' NT do gene HLA-E foi 0,000392, um
resultado ainda bem inferior que a média humana e que a diversidade observada
para o loco HLA-G. Em conjunto estes índices demonstram que a região 3’ NT do
gene HLA-E segue o mesmo padrão de conservação apresentada pela região
codificadora, com taxas de diversidade nucleotídica ainda mais baixas do que as
encontradas para a região traduzida.
Alguns estudos demonstraram que as mutações presentes na região
codificadora do gene HLA-E que levam à formação das duas proteínas mais
frequentemente encontradas, E*01:01 e E*01:03, surgiram bem cedo na história dos
primatas, mantendo-se na espécie humana antes das grandes dispersões (Grimsley
e Ober, 1997). Em primatas, a baixa variabilidade da região codificadora do MHC-E,
um ortólogo ao HLA-E humano, também é característica. Neste grupo, é comum que
64
geralmente apenas uma ou duas moléculas sejam predominantemente expressas na
superfície das células (Sullivan et al., 2008). Tal fato demonstra que as pressões
seletivas que levaram ao surgimento destas duas variações mais comuns
acompanham o curso evolutivo da linhagem que originou humanos e os demais
primatas. A presença destas duas variações aumentaram, durante o processo
evolutivo, a plasticidade imunológica dos indivíduos à diferentes condições, tendo
em vista a capacidade imunossupressora do HLA-E e de seu ortólogo em primatas.
Os dois grupos de alelos do HLA-E mais frequentes em populações humanas,
estão relacionados a duas proteínas que diferem entre si pela troca de um
aminoácido na posição 107, trocando-se uma Glicina, um aminoácido pequeno e
hidrofílico, por uma Arginina, um aminoácido muito maior, apolar e hidrofóbico. Tal
mutação pode estar relacionada a uma modificação da estrutura molecular do HLA-
E, causando uma diferença na funcionalidade da proteína. A molécula portando
glicina aumenta a estabilidade do complexo HLA-E/peptídeo (O'callaghan et al.,
1998; Ulbrecht et al., 1999; Strong et al., 2003; Pietra et al., 2010), o que estaria
relacionado a maior expressão de HLA-E e possíveis efeitos inibitórios de células NK
mais potentes (Sullivan et al., 2008; Di Cristofaro et al., 2011). A presença dos dois
alelos em heterozigose pode-se mostrar benéfica já que em uma situação em que
uma maior imunotolerência seja necessária, i.e., durante a gestação ou doenças
autoimunes, ou em outro momento quando há a necessidade de uma resposta
imunológica mais efetiva, i.e., quando da entrada de um patógeno, a presença dos
dois alelos no indivíduo pode aumentar a sua adaptabilidade e por consequência a
sua chance de sobrevivência. Este fato poderia justificar a elevada frequência das
duas únicas moléculas HLA-E encontradas nas populações humanas estudadas,
além das evidências de seleção balanceadora na região do éxon 3 que codifica
estes aminoácidos (Veiga-Castelli et al., 2012a). Da mesma forma, talvez as
pressões seletivas que atuam restringindo a variação da região 3’NT do gene HLA-E
sejam tão antigas que ao longo de milhares de anos de evolução fizeram com que
apenas poucos SNPs possam ser encontrados.
Além dos dois grupos mais frequentemente encontrados, E*01:01 e E*01:03,
algumas novas moléculas de HLA-E poderiam ser produzidas considerando-se os
pontos de variação encontrado para a região codificadora. A maioria das mutações
encontradas nesta região foram substituições sinônimas, levando à formação das
65
mesmas moléculas de HLA-E já conhecidas. Para as mutações que não são
sinônimas, exceto para a posição +756 que está relacionada com as duas moléculas
HLA-E já conhecidas, suas frequências combinadas não ultrapassaram 1,8%.
Quando considerada a região 3’NT, tendo em vista que esta região não é
traduzida e portanto estaria sob influência de pressões seletivas diferentes das
encontradas nas regiões codificadoras, um maior grau de variação era esperado.
Apesar disso, apenas algumas mutações foram detectadas. De fato, esta região se
apresenta, aparentemente, mais conservada do que a região de codificação.
Podemos supor que, considerando a baixa variabilidade da região 3’NT, esta região
é, provavelmente, bastante importante para a regulação correta da expressão do
HLA-E.
Mutações na região 3’NT podem influenciar drasticamente os níveis de
expressão de um gene por meio de mecanismos de controle pós-transcricional.
Entre eles estão a modificação da estabilidade do mRNA e sua estrutura secundária,
bem como modificações no perfil de ligação de microRNAs nesta região.
Determinados polimorfismos da região 3’NT do gene HLA-G, por exemplo, estão
associados a uma menor expressão do gene, seja acarretando mRNAs menos
estáveis (Rousseau et al., 2003; Tan et al., 2007; Veit e Chies, 2009) seja
influenciando a ligação de microRNAs (Castelli et al., 2009).
Esta possível pressão contra variação na região 3’NT do gene HLA-E
apontada neste estudo pode, entre outros motivos, ser decorrente da função
imunomodulatória necessária em certas condições. Desta forma, o controle da
expressão de HLA-E, tanto no que diz respeito à quantidade de molécula produzida,
local e momento da expressão, devam ser bem orquestrados para garantir as
condições de sobrevivência do indivíduo. Sabendo-se que a ligação do RNAm com
microRNAs é um importante mecanismo na modulação da expressão pós-
transcricional e que o principal sítio de atuação destes miRNA é a região 3’NT do
RNAm (Bartel, 2004; Castelli et al., 2009), pode-se teorizar que mudanças na
sequência da região 3’NT do gene HLA-E podem modificar sua afinidade a
microRNAs existentes no citoplasma da célula, causando uma desregulação da
expressão ideal deste imunossupressor.
Uma queda na taxa de produção da proteína HLA-E poderia ser prejudicial ao
organismo. Por exemplo, durante a gestação, reduziria as chances de sobrevivência
66
do feto. Da mesma forma, uma mutação que ocorra na região 3’NT do HLA-E pode
ainda mudar a sua afinidade por um miRNA que atue no fino controle da expressão
gênica, causando um aumento na expressão da proteína HLA-E. Dado o seu papel
imunossupressor, em muitos casos, conforme explicitado anteriormente, tal
alteração pode ser maléfica em muitos contextos, diminuindo a chance de
sobrevivência e sucesso reprodutivo do indivíduo, além de prejudicar a resposta
imunitária em situações como infeções crônicas. Dessa forma, qualquer alteração na
região 3’NT que mudaria a afinidade desta região a importantes miRNAs ou que
modificaria a estrutura secundária e a estabilidade do RNAm, poderia sofrer a ação
da seleção natural culminando na eliminação desta variante.
Os polimorfismos da região 3’NT de qualquer gene podem influenciar a
estrutura secundária e terciária de um mRNA (Chen et al., 2006). Alterações na
sequência da região podem aumentar a afinidade da região 3’NT com outras regiões
do mRNA, causando uma torção espacial na molécula e afetando a sua estrutura
tridimensional. Em um estudo ainda não publicado (Castelli et al., comunicação
pessoal) foram analisados a influência de diferentes pontos de variação da região
3’NT do gene HLA-G e a sua influência na predição da estrutura secundária do
mRNA. Os dados demonstram que a mudança de um única base da região 3’NT
afeta drasticamente a forma do mRNA. Alterações nesta estrutura poderiam
aumentar ou reduzir a disponibilidade deste mRNA ao aparato de tradução no
citoplasma, causando uma alteração do padrão normal de produção da proteína,
além de influenciar a ligação de miRNAs. Assim, a região 3’NT do mRNA do gene
HLA-E, por ser mais extensa do que a do seu homólogo HLA-G, poderia influenciar
sobremaneira a estrutura secundária do mRNA de HLA-E. Modificações na
sequência desta região estariam ligadas a drásticas modificações na estrutura
secundária e estabilidade do mRNA, afetando a quantidade de proteína que seria
produzida. Este fenômeno, juntamente com um possível desequilíbrio na atuação de
importantes microRNAs, poderia explicar o baixo número de polimorfismos
encontrados na região analisada, bem como da baixa diversidade nucleotídica da
região.
Juntas estas duas teorias, alteração na afinidade por miRNAs e mudança na
estrutura secundária do mRNA, poderiam explicar a baixa diversidade nucleotídica
encontrada especialmente na região 3’ NT.
67
O padrão de desequilíbrio de ligação foi avaliado para o gene HLA-E em cada
grupo populacional e todos os grupos reunidos. Pode-se notar na Figura 7 que este
padrão varia entre as populações, mas, em geral, um elevado LD é observado entre
os dois SNPs mais comuns na região codificadora, +424 e +756. É possível
observar que não há um alto desequilíbrio de ligação entre os pontos de variação da
região codificadora e da região 3’ NT. A Figura 7 apresenta o gráfico de LD
utilizando uma frequência alélica mínima (MAF) de 1%. No entanto, o mesmo padrão
é observado quando o MAF é ajustado para 0,1% (dados não mostrados).
Como apresentado anteriormente, existe a possibilidade da presença de um
ponto recombinação frequente dentro do gene HLA-E (recombination hotspot), entre
a região codificadora e a 3'NT. Este fato poderia aumentar a diversidade haplotípica.
No início da região 3' NT de todas as sequências avaliadas para seres humanos e
primatas, foi encontrada uma sequência Alu fixada muito semelhante a um elemento
AluY. Uma vez que esta sequência é compartilhada entre os seres humanos e
macacos, ela pode estar presente na história evolutiva dos primatas durante pelo
menos 30 milhões de anos, tempo de divergência entre os seres humanos e
macacos (Horai, 1995; Kumar e Hedges, 1998). Nos seres humanos, as sequências
Alu são a maior família de elementos nucleares curtos intercalados (SINES) (Rowold
e Herrera, 2000) e espalharam-se por todo o genoma de um processo de
retrotransposição (Ullu e Tschudi, 1984).
A presença de um elemento Alu pode afetar o padrão de recombinação,
especialmente através do aumento da taxa de crossing-over em aproximadamente
6% para os elementos AluY fixados. Este fenômeno ocorre principalmente nos 2 kb
que circundam esses elementos (Witherspoon et al., 2009). A inserção do elemento
AluY no genoma humano está entre as posições +3481 e +3793 (Figura 9). Tal
posição corrobora a inexistência de um bloco de segregação único entre os pontos
de variação em torno desta região (Figura 7). Assim, uma possível maior taxa de
recombinação devido à presença deste elemento pode resultar na inexistência de
blocos de haplótipos abrangendo tanto os pontos de variação da região codificadora
e a região 3' NT, reduzindo o padrão de LD encontrado ao longo do gene.
68
Figura 9: Alinhamento das sequências do gene humano HLA-E com o seu ortólogo em primatas MHC-E e a sequência padrão do elemento AluY. É importante ressaltar que todo elemento Alu apresenta uma cauda poli-A de tamanho variável. A posição relativa da inserção no genoma humano, foi tomada considerando-se os 18 nucleotídeos a frente do final da sequência Alu consenso utilizada no alinhamento.
Este padrão de LD apresentando um baixo desequilíbrio de ligação ao longo
do gene HLA-E mostrou-se um resultado interessante, uma vez o gene não-clássico
mais estudado (HLA-G) apresenta um padrão de LD conciso considerando as
regiões de regulação e de codificação. O gene HLA-G apresenta um bloco único de
segregação entre as regiões promotoras, codificadora e a região 3' NT, o que é
demonstrado na Figura 10, usando os dados do 1000Genomes (Brasil não incluído).
Este padrão de LD para o gene HLA-G foi já detectada num manuscrito anterior que
avaliou a variabilidade HLA-G no Brasil (Castelli et al., 2011). No entanto, é
importante notar que um elemento Alu pode também estar presente à frente do gene
69
HLA-G (cerca de 300 bases depois do fim da região 3' NT), no entanto, não se
observa uma maior taxa de recombinação no padrão de LD mostrado na Figura 10.
As quatro linhagens principais definidas pelas relações haplotípicas são,
provavelmente, muito antigas na história evolutiva humana, uma vez que todas as
populações avaliadas apresentaram haplótipos pertencentes a cada uma destas
linhagens. O haplótipo H01, linhagem E010301, é provavelmente o mais antigo, já
que é o mais semelhante aos outros primatas, apresentando uma região
codificadora relacionada com o alelo E*01:03:01. Estes dados corroboram os
resultados de Grimsley e Ober (Grimsley e Ober, 1997), no qual o alelo ancestral foi
considerado como o que codifica para HLA-E107Gly. O haplótipo H01 originou dois
outros haplótipos com altas frequências, H23 e H17. Todos esses haplótipos e seus
sub-haplótipos codificam para a mesma molécula HLA-E, HLA-E107Gly. A mutação na
posição +756 deu origem a haplótipo H09 e sua linhagem, que codificam para a
molécula HLA-E107Arg. Embora esta linhagem seja a mais recente, a sua frequência é
geralmente a mais alta entre todas as populações avaliadas, mas não está claro por
que esta linhagem apresenta frequências tão elevadas. Uma possível explicação
reside no fato de que esta mutação, provavelmente, ocorreu na África há muito
tempo e que a presença desta nova molécula HLA-E pode estar associada com uma
melhor aptidão dos indivíduos que a possuem. Assim uma alta heterozigose entre os
dois alelos com maior poder de inibição da resposta do sistema imunológico (HLA-
E107Gly) e a com menor poder de inibição (HLA-E107Arg) seria benéfico, aumentando a
frequência desta linhagem mais recente do HLA-E. Além disso, a deriva genética
pode ter tido também um grande impacto sobre a frequência desta linhagem após a
dispersão à partir do continente africano. É importante ressaltar que a sequência
utilizada como grupo externo para a construção da rede de haplótipos é derivado de
um único espécime, e o polimorfismo +756, que separa linhagens E010301 e
E010101, é supostamente muito mais antigo do que a especiação humana (Grimsley
e Ober, 1997).
70
Figura 10: LD entre os pares de SNPs no gene HLA-G. A imagem foi gerada pelo programa Haploview usando SNPs com frequência ≥ 1%. Áreas em vermelho escuro indicam forte LD (LOD ≥ 2, D '= 1), tons de rosa indicam LD moderado (LOD ≥ 2, D' ≤ 1), azul indica LD fraco (LOD ≤ 2, D '= 1) e branco indica que não há LD (LD ≤ 2, D '≤ 1). Os blocos de haplótipos foram definidos pelo m todo de intervalos de confiança implementado no software Haploview. Diferentes valores de D' são representados dentro dos quadrados como percentagens. LOD log das probabilidades; D', correlação par a par entre os SNPs. Posições de SNPs foram estimados considerando a adenina no primeiro ATG do gene HLA-G como uma base +1.
71
A análise da variabilidade das regiões codificadora e 3’ NT do gene HLA-E em
doadores saudáveis de medula óssea do Hemocentro de Ribeirão Preto – SP e a
sua comparação com os dados do projeto 1000Genomes permite-nos concluir que:
(a) O gene HLA-E apresenta um baixo grau de variabilidade em todas as populações
analisadas tanta para a região codificadora quanto para a região 3’ NT; (b) a região
3’ NT parece ser ainda menos variável do que a região codificadora; (c) foram
encontrados 34 pontos de variação (6 singletons) que definem 33 haplótipos
distintos; (d) estes haplótipos parecem se dividir em quatro linhagens principais,
todas elas associadas com os grupos de alelos mais frequentes em populações
mundiais, E*01:01 e E*01:03; (e) a comparação com outros primatas revelou que o
haplótipo H01 (associado com a molécula E*01:03:01) é provavelmente o mais
antigo e que a mutação +756 originou-se provavelmente antes da especiação e
dispersão humana; (f) o baixo grau de variação do gene HLA-E está, provavelmente,
associado à suas propriedades imunomodulatória e (g) a baixa variabilidade da
região 3’ NT pode ser reflexo da sua importância no fino balanço da expressão
desse imunossupressor. Estudos funcionais são necessários para elucidar a
importância desta região no controle da expressão gênica.
72
7. REFERÊNCIAS
ABBAS, A. K. et al. Cellular and molecular immunology. 6th. Philadelphia:
Saunders/Elsevier, 2010. viii, 566 p. AGUILERA, A. Cotranscriptional mRNP assembly: from the DNA to the nuclear pore. Curr Opin Cell Biol, v. 17, n. 3, p. 242-50, 2005.
ALLEN, P. D. Anesthesia and the human genome project: the quest for accurate prediction of drug responses. Anesthesiology, v. 102, n. 3, p. 494-5, 2005. APANIUS, V. et al. The nature of selection on the major histocompatibility complex. Crit Rev Immunol, v. 17, n. 2, p. 179-224, 1997.
ARNAIZ-VILLENA, A. et al. HLA-E polymorphism in Amerindians from Mexico (Mazatecans), Colombia (Wayu) and Chile (Mapuches): evolution of MHC-E gene. Tissue Antigens, v. 69 Suppl 1, p. 132-5, 2007.
BARRETT, J. C. et al. Haploview: analysis and visualization of LD and haplotype maps. Bioinformatics, v. 21, n. 2, p. 263-5, 2005. BARTEL, D. P. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell, v. 116, n. 2, p. 281-97, 2004. BERNATCHEZ, L.; LANDRY, C. MHC studies in nonmodel vertebrates: what have we learned about natural selection in 15 years? J Evol Biol, v. 16, n. 3, p. 363-77, 2003. BRAUD, V. et al. The human major histocompatibility complex class Ib molecule HLA-E binds signal sequence-derived peptides with primary anchor residues at positions 2 and 9. Eur J Immunol, v. 27, n. 5, p. 1164-9, 1997.
CASTELLI, E. C. et al. Identification of two new HLA-G alleles, G*01:01:03:03 and G*01:01:21, in Brazilian individuals. Tissue Antigens, 2012. CASTELLI, E. C. et al. The genetic structure of 3'untranslated region of the HLA-G gene: polymorphisms and haplotypes. Genes Immun, v. 11, n. 2, p. 134-41, 2010.
CASTELLI, E. C. et al. HLA-G alleles and HLA-G 14 bp polymorphisms in a Brazilian population. Tissue Antigens, v. 70, n. 1, p. 62-8, 2007a. CASTELLI, E. C. et al. A comprehensive study of polymorphic sites along the HLA-G gene: implication for gene regulation and evolution. Mol Biol Evol, v. 28, n. 11, p.
3069-86, 2011. CASTELLI, E. C. et al. A novel HLA-G allele, HLA-G*010111, in the Brazilian population. Tissue Antigens, v. 70, n. 4, p. 349-50, 2007b.
73
CASTELLI, E. C. et al. In silico analysis of microRNAS targeting the HLA-G 3' untranslated region alleles and haplotypes. Hum Immunol, v. 70, n. 12, p. 1020-5, 2009. CHEN, J. M. et al. A systematic analysis of disease-associated variants in the 3' regulatory regions of human protein-coding genes II: the importance of mRNA secondary structure in assessing the functionality of 3' UTR variants. Hum Genet, v.
120, n. 3, p. 301-33, 2006. DI CRISTOFARO, J. et al. Linkage disequilibrium between HLA-G*0104 and HLA-E*0103 alleles in Tswa Pygmies. Tissue Antigens, v. 77, n. 3, p. 193-200, 2011.
DONADI, E. A. et al. Implications of the polymorphism of HLA-G on its function, regulation, evolution and disease association. Cell Mol Life Sci, v. 68, n. 3, p. 369-95, 2011. EXCOFFIER, L. et al. Gametic phase estimation over large genomic regions using an adaptive window approach. Hum Genomics, v. 1, n. 1, p. 7-19, 2003. EXCOFFIER, L. et al. Arlequin (version 3.0): an integrated software package for population genetics data analysis. Evol Bioinform Online, v. 1, p. 47-50, 2005.
FISCHER, G. F.; MAYR, W. R. Molecular genetics of the HLA complex. Wien Klin Wochenschr, v. 113, n. 20-21, p. 814-24, 2001. GAO, G. F. et al. Classical and nonclassical class I major histocompatibility complex molecules exhibit subtle conformational differences that affect binding to CD8alphaalpha. J Biol Chem, v. 275, n. 20, p. 15232-8, 2000. GARCIA, P. et al. Human T cell receptor-mediated recognition of HLA-E. Eur J Immunol, v. 32, n. 4, p. 936-44, 2002.
GERAGHTY, D. E. et al. A human major histocompatibility complex class I gene that encodes a protein with a shortened cytoplasmic segment. Proc Natl Acad Sci U S A, v. 84, n. 24, p. 9145-9, 1987.
GRIMSLEY, C. et al. Definitive high resolution typing of HLA-E allelic polymorphisms: Identifying potential errors in existing allele data. Tissue Antigens, v. 60, n. 3, p. 206-12, 2002. GRIMSLEY, C.; OBER, C. Population genetic studies of HLA-E: evidence for selection. Hum Immunol, v. 52, n. 1, p. 33-40, 1997. GUO, S. W.; THOMPSON, E. A. Performing the exact test of Hardy-Weinberg proportion for multiple alleles. Biometrics, v. 48, n. 2, p. 361-72, 1992.
HARROW, J. et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res, v. 22, n. 9, p. 1760-74, 2012.
74
HORAI, S. Evolution and the origins of man: clues from complete sequences of hominoid mitochondrial DNA. Southeast Asian J Trop Med Public Health, v. 26 Suppl 1, p. 146-54, 1995. HORTON, R. et al. Gene map of the extended human MHC. Nat Rev Genet, v. 5, n.
12, p. 889-99, 2004. HUGHES, A. L.; YEAGER, M. Natural selection and the evolutionary history of major histocompatibility complex loci. Front Biosci, v. 3, p. d509-16, 1998.
INTERNATIONAL HUMAN GENOME SEQUENCING CONSORTIUM. Initial sequencing and analysis of the human genome. Nature, v. 409, n. 6822, p. 860-921, 2001. INTERNATIONAL HUMAN GENOME SEQUENCING CONSORTIUM. Finishing the euchromatic sequence of the human genome. Nature, v. 431, n. 7011, p. 931-45, 2004. ISHITANI, A. et al. The involvement of HLA-E and -F in pregnancy. J Reprod Immunol, v. 69, n. 2, p. 101-13, 2006. ISHITANI, A. et al. Protein expression and peptide binding suggest unique and interacting functional roles for HLA-E, F, and G in maternal-placental immune recognition. J Immunol, v. 171, n. 3, p. 1376-84, 2003. JACOB, S. et al. Paternally inherited HLA alleles are associated with women's choice of male odor. Nat Genet, v. 30, n. 2, p. 175-9, 2002.
KLEIN, J.; SATO, A. The HLA system. First of two parts. N Engl J Med, v. 343, n. 10,
p. 702-9, 2000a. KLEIN, J.; SATO, A. The HLA system. Second of two parts. N Engl J Med, v. 343, n. 11, p. 782-6, 2000b. KOLLER, B. H. et al. HLA-E. A novel HLA class I gene expressed in resting T lymphocytes. J Immunol, v. 141, n. 3, p. 897-904, 1988. KUMAR, S.; HEDGES, S. B. A molecular timescale for vertebrate evolution. Nature, v. 392, n. 6679, p. 917-20, 1998. LEE, N. et al. HLA-E is a major ligand for the natural killer inhibitory receptor CD94/NKG2A. Proc Natl Acad Sci U S A, v. 95, n. 9, p. 5199-204, 1998. LEWONTIN, R. C. The Interaction of Selection and Linkage. I. General Considerations; Heterotic Models. Genetics, v. 49, n. 1, p. 49-67, 1964.
LISCHER, H. E.; EXCOFFIER, L. PGDSpider: an automated data conversion tool for connecting population genetics and genomics programs. Bioinformatics, v. 28, n. 2, p. 298-9, 2012.
75
MEHRA, N. K.; KAUR, G. MHC-based vaccination approaches: progress and perspectives. Expert Rev Mol Med, v. 5, n. 7, p. 1-17, 2003.
MEYER, D.; THOMSON, G. How selection shapes variation of the human major histocompatibility complex: a review. Ann Hum Genet, v. 65, n. Pt 1, p. 1-26, 2001. MOSCOSO, J. et al. HLA-G, -E and -F: allelism, function and evolution. Transpl Immunol, v. 17, n. 1, p. 61-4, 2006.
O'CALLAGHAN, C. A. et al. Structural features impose tight peptide binding specificity in the nonclassical MHC molecule HLA-E. Mol Cell, v. 1, n. 4, p. 531-41, 1998. OBER, C. et al. Variation in the HLA-G promoter region influences miscarriage rates. Am J Hum Genet, v. 72, n. 6, p. 1425-35, 2003. PARKIN, J.; COHEN, B. An overview of the immune system. Lancet, v. 357, n. 9270, p. 1777-89, 2001. PENN, D. J. et al. MHC heterozygosity confers a selective advantage against multiple-strain infections. Proc Natl Acad Sci U S A, v. 99, n. 17, p. 11260-4, 2002. PIETRA, G. et al. The emerging role of HLA-E-restricted CD8+ T lymphocytes in the adaptive immune response to pathogens and tumors. J Biomed Biotechnol, v.
2010, p. 907092, 2010. PIMENTA, J. R. et al. Color and genomic ancestry in Brazilians: a study with forensic microsatellites. Hum Hered, v. 62, n. 4, p. 190-5, 2006.
PYO, C. W. et al. HLA-E, HLA-F, and HLA-G polymorphism: genomic sequence defines haplotype structure and variation spanning the nonclassical class I genes. Immunogenetics, v. 58, n. 4, p. 241-51, 2006.
QIN, Z. S. et al. Partition-ligation-expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms. Am J Hum Genet, v. 71, n. 5, p. 1242-7, 2002. RAYMOND, M.; ROUSSET, F. Genepop (Version-1.2) - Population-Genetics Software for Exact Tests and Ecumenicism. Journal of Heredity, v. 86, n. 3, p. 248-249, 1995. ROUSSEAU, P. et al. The 14 bp deletion-insertion polymorphism in the 3' UT region of the HLA-G gene influences HLA-G mRNA stability. Hum Immunol, v. 64, n. 11, p. 1005-10, 2003. ROWOLD, D. J.; HERRERA, R. J. Alu elements and the human genome. Genetica,
v. 108, n. 1, p. 57-72, 2000.
76
SABETI, P. C. et al. Positive natural selection in the human lineage. Science, v.
312, n. 5780, p. 1614-20, 2006. SACHIDANANDAM, R. et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature, v. 409, n. 6822, p.
928-33, 2001. SETTERFIELD, J. et al. Mucous membrane pemphigoid: HLA-DQB1*0301 is associated with all clinical sites of involvement and may be linked to antibasement membrane IgG production. Br J Dermatol, v. 145, n. 3, p. 406-14, 2001. SHIINA, T. et al. The HLA genomic loci map: expression, interaction, diversity and disease. J Hum Genet, v. 54, n. 1, p. 15-39, 2009.
SLAVCEV, A. Prediction of organ transplant rejection by HLA-specific and non-HLA antibodies - brief literature review. Int J Immunogenet, 2012. STEPHENS, J. C. et al. Haplotype variation and linkage disequilibrium in 313 human genes. Science, v. 293, n. 5529, p. 489-93, 2001.
STEPHENS, M.; DONNELLY, P. A comparison of bayesian methods for haplotype reconstruction from population genotype data. Am J Hum Genet, v. 73, n. 5, p. 1162-9, 2003. STRONG, R. K. et al. HLA-E allelic variants. Correlating differential expression, peptide affinities, crystal structures, and thermal stabilities. J Biol Chem, v. 278, n. 7, p. 5082-90, 2003. SUCIU-FOCA, N. et al. Influence of HLA matching on kidney allograft survival. Transplant Proc, v. 28, n. 1, p. 121-2, 1996. SULLIVAN, L. C. et al. The major histocompatibility complex class Ib molecule HLA-E at the interface between innate and adaptive immunity. Tissue Antigens, v. 72, n.
5, p. 415-24, 2008. TAMOUZA, R. et al. HLA-E*0101 allele in homozygous state favors severe bacterial infections in sickle cell anemia. Hum Immunol, v. 68, n. 10, p. 849-53, 2007.
TAN, Z. et al. Allele-specific targeting of microRNAs to HLA-G and risk of asthma. Am J Hum Genet, v. 81, n. 4, p. 829-34, 2007. THE 1000GENOMES PROJECT CONSORTIUM. A map of human genome variation from population-scale sequencing. Nature, v. 467, n. 7319, p. 1061-73, 2010.
THE 1000GENOMES PROJECT CONSORTIUM. An integrated map of genetic variation from 1,092 human genomes. Nature, v. 491, n. 7422, p. 56-65, 2012. THORSBY, E. Invited anniversary review: HLA associated diseases. Hum Immunol, v. 53, n. 1, p. 1-11, 1997.
77
THORSBY, E. A short history of HLA. Tissue Antigens, v. 74, n. 2, p. 101-16, 2009. ULBRECHT, M. et al. Cell surface expression of HLA-E: interaction with human beta2-microglobulin and allelic differences. Eur J Immunol, v. 29, n. 2, p. 537-47,
1999. ULLU, E.; TSCHUDI, C. Alu sequences are processed 7SL RNA genes. Nature, v. 312, n. 5990, p. 171-2, 1984. UNDLIEN, D. E. et al. HLA complex genes in type 1 diabetes and other autoimmune diseases. Which genes are involved? Trends Genet, v. 17, n. 2, p. 93-100, 2001. VAN ROOD, J. J. The impact of the HLA-system in clinical medicine. Schweiz Med Wochenschr, v. 123, n. 3, p. 85-92, 1993.
VANNAS, S. et al. HLA-compatible donor cornea for prevention of allograft reaction. Albrecht Von Graefes Arch Klin Exp Ophthalmol, v. 198, n. 3, p. 217-22, 1976. VEIGA-CASTELLI, L. C. et al. A novel HLA-E allele, E*01:03:05, identified in two Brazilian individuals. Tissue Antigens, v. 80, n. 2, p. 200-1, 2012a.
VEIGA-CASTELLI, L. C. et al. Non-classical HLA-E gene variability in Brazilians: a nearly invariable locus surrounded by the most variable genes in the human genome. Tissue Antigens, v. 79, n. 1, p. 15-24, 2012b.
VEIT, T. D.; CHIES, J. A. Tolerance versus immune response -- microRNAs as important elements in the regulation of the HLA-G gene expression. Transpl Immunol, v. 20, n. 4, p. 229-31, 2009.
VENTER, J. C. A part of the human genome sequence. Science, v. 299, n. 5610, p.
1183-4, 2003. VENTER, J. C. et al. The sequence of the human genome. Science, v. 291, n. 5507, p. 1304-51, 2001. WEDEKIND, C. et al. MHC-dependent mate preferences in humans. Proc Biol Sci,
v. 260, n. 1359, p. 245-9, 1995. WITHERSPOON, D. J. et al. Alu repeats increase local recombination rates. BMC Genomics, v. 10, p. 530, 2009.
YEWDELL, J. W. et al. Making sense of mass destruction: quantitating MHC class I antigen presentation. Nat Rev Immunol, v. 3, n. 12, p. 952-61, 2003.
Top Related