Uso do sequenciamento genômico no
melhoramento de bovinos leiteiros
Flávio SchenkelProfessor e Diretor
7 de Setembro de 2015
XI Simpósio Brasileiro de Melhoramento Animal
Santa Maria, Brasil
Departamento deAnimal & Poultry Science (APS)
Novo nome: Departamento de Animal Biosciences
www.aps.uoguelph.ca
Food
Agriculture
Communities
Environment
LocalizaçãoAPS
Disciplinas básicas do APS
• Fan
• McBride
• Smith
• Bureau
• De Lange
• De Vries
• Cant
• Osborne
• France
• Li
• Bedecarrats
• Squires
• Karrow
• McBride
• Fan
• Merkies
• Widowski
• Mason
• Harlander
• De Vries
• Schenkel
• Karrow
• Robinson
• Baes
• Canovas
• Mallard
• Squires
• 10 Adjuntos
• Mandell
• Squires
• McBride
• Cant
• Bureau
NutriçãoAnimal
FisiologiaAnimal
Incl. Biol. Mol.
Comportamento& Bem-estar
Animal
MelhoramentoGenética & Genômica
Qualidade de ProdutoAnimal
DepartamentoAPS
O departamento mais intensivo em termos de número de estudantes e pesquisa na Universidade de Guelph
• Graduação• 700 BSc Biologia Animal • 98 BSc Agricultura• 98 BBRM Equino
• Pós-graduação• 43 PhD (50% domésticos)• 39 MSc por tese (90% domésticos)• 38 MSc por curso (~100 domésticos)
• Pesquisa• $6-8 milhões anualmente, colaboração próxima com a
indústria
APS
Pesquisa e Ensino
CGIL
Nosso Centro
https://www.facebook.com/CGIL.group
http://cgil.uoguelph.ca
Centro para Melhoramento Genético de
Animais de Produção
CGIL
Docentes/Pesquisadores
IntroduçãoSequenciamento
Sequenciamento
Grande potencial para:
• Desvendar estrutura genética e ação gênica.
• Identificação de variantes/haplótipos recessivos/
deletérios e os animais portadores.
• Selecionar SNPs/haplótipos para predição
genômica.
• Adaptar painéis de genotipagem comerciais.
• Reduzir o viés devido a seleção das SNPs em
painéis comerciais.
IntroduçãoSequenciamento
Sequenciamento
Limitantes:
• Grande investimento financeiro inicial.
• Muito exigência computacional e de
armazenamento.
• Necessidade de ferramentas novas para uso
prático e rotineiro.
Evento Ano
• Sequenciamento completo do genoma bovino (vaca Hereford) 2004
• Painel de 10k SNP da Parallele 2006
- Pesquisa genômica básica; Primeiras predições genômicas 2006/07
• Painel de 50k SNP da Illunina 2007
- Primeira avaliação genômica oficial (HO, JE) 2009
• Painel de 3k SNP da Illumina 2010
- Primeira avaliação genômica oficial com genótipos imputados 2010
• Painel de 777k e 6k SNP da Illumina 2011
- Imputação de genótipos de alta densidade 2011
• Sequenciamento dos primeiros ancetrais chaves de HO 2012
Genômica
Eventos Chaves
Evento Ano
• Sequenciamento > 2012
- 25 animais sequenciados por raça (n=10)
- Pesquisa básica; Primeiros testes de imputação
- Colaboração com o projeto “Genoma de 1000 touros”
- Mais pesquisa e desenvolvimento em imputação e
reconstrução de haplótipos
• Mapeamento usando haplótipos ao nível de sequência 2015
- Primeiros resultados
• Avaliação genômica melhorada pela informação do sequenciamento
> 2015
- Muito por fazer …
Genômica
Eventos Chaves
Animais com fenótiposdiferenciados
Touros chave
Touros elite
Sequenciamento
25/raça
Genotipagem de alta
densidade
480/raça
Genotipagem de baixa
densidade
560/raça
Seleção Genômica via imputação
genômica ampla
Projetos de SequenciamentoSequenciamento
Colaboração com o projeto “Genoma de 1000 touros”
Processamento
Dados brutos de sequência
WestGrid
HPCNCBI SRA
1000 Bull
Genomes
Project
Imputação
Dados brutos
Arquivos BAM
Arquivos VCF
contendo genótipos
dos animals do
projeto além de
centenas de outros
Arquivos VCF
Sequenciamento
Pesquisa
Mapeamento, predição
genômica, etc.
Resultados – Rodada 5
Rodada 5 – Taurus
• 39.7 milhões de variantesfiltradas
– ~ 34 raças
– 38.1 milhões SNPs
– 1.7 milhões indels
Rodada 5 – Taurus + Indicus
• 67.3 milhões de variantesfiltradas
‒ ~ 55 raças
‒ 64.8 milhões SNPs
‒ 2.5 milhões indels
Sequenciamento
Projeto 1000 Bull Genomes
(Fonte: Hayes et al. 2015. Slides)
Sequenciamento
Projeto 1000 Bull Genome
Resultados – Rodada 5
(Fonte: Hayes et al. 2015. Slides)
Armazenamento
Sequenciamento
Resultados
Cada amostra sequenciada exige:
- 60 GB de dados (30 GB arquivo FASTQ and 30 GB arquivo
BAM) para armazenamento de dados brutos e fragmentos
mapeados.
- 0,5 GB Para arquivos adicionais, tais como relatórios de
CQ e arquivo de genótipos (arquivos VCF)
Total para 100 animais: ~ 6 TB
Tempo de processamento
Sequenciamento
Resultados
Cada amostra com cobertura de 10x exige ~ 300 horas de
núcleo de processamento (core) para alinhamento dos
fragmentos.
Descoberta de variantes e genotipagem exige ~3.000 horas
de núcleo de processamento.
Total para 100 animais: ~ 33.000 horas de núcleo de
processamento.
Sequenciamento
Computação
Evolução dos servidores no APS
Antes da genômica (2008)
- 1 servidor principal ( 64 Gb ram, Intel(R) Xeon(R)
CPU @ 2.93GHz , 16 núcleos de processamento)
- 24 Tb de armazenamento
Atual (2015)
- 5 servidores principais (96-256 Gb ram, Intel(R)
Xeon(R) CPUs @ 2.80-3.47 GHz, 24-32 núcleos de
processamento)
- 2 phi co-processadores com 240 núcleos de
processamento cada um.
- 236 Tb de armazenamento
Cobertura Alta x Baixa
Sequenciamento
Resultados
Depende do objetivo da pesquisa/uso, mas:
Cobertura alta permite:
- Obter genótipos acurados para os animais sequenciados
- População referência para imputação
- Permite validação da imputação
Entretanto é ainda muito cara: ~ $ 2,500-3000/animal (10x)
Poucos animais sequenciados
Variantes raras não são amostradas
NCBI Sample ID Reads Fold Coverage HD Panel
Concordance
SAMN01758080 2,841,382,492 36.31 99.09%
SAMN01758046 2,528,112,108 31.03 98.72%
SAMN01758070 756,626,530 9.48 95.98%
SAMN01758055 702,001,174 9.24 95.90%
SAMN01758053 674,237,812 8.39 94.31%
SAMN01758064 576,441,084 8.13 94.30%
SAMN01758054 628,636,350 8.04 94.29%
SAMN01758048 618,550,964 7.91 94.45%
SAMN01758049 612,347,522 7.60 93.08%
SAMN01758050 580,876,782 7.53 94.05%
SAMN01758091 536,980,248 7.38 93.96%
SAMN01758090 509,582,292 7.04 93.67%
SAMN01758101 533,606,072 7.02 93.04%
SAMN01758093 505,796,680 6.90 93.70%
SAMN01758103 510,247,444 6.86 93.33%
SAMN01758095 507,536,290 6.72 92.42%
SAMN01758092 488,411,580 6.68 93.00%
SAMN01758096 503,725,634 6.65 92.61%
SAMN01758083 494,417,658 6.54 91.80%
SAMN01758102 477,614,052 6.39 92.54%
SAMN01758058 506,217,984 6.33 91.23%
SAMN01758089 471,917,448 6.31 92.35%
SAMN01758057 487,158,392 6.08 90.87%
SAMN01758086 460,583,410 5.96 92.02%
SAMN01758094 429,695,948 5.80 91.79%
SAMN01758059 448,783,690 5.72 90.97%
SAMN01758081 429,560,564 5.66 90.96%
SAMN01758087 441,228,360 5.63 91.52%
SAMN01758069 445,437,312 5.53 91.11%
SAMN01758052 412,856,350 5.27 89.23%
SAMN01758062 403,662,558 5.08 89.95%
SAMN01758063 389,097,066 4.84 90.13%
SAMN01832036 442,797,050 4.72 82.88%
Sequenciamento
Cobertura
Cobertura
Alta x Baixa
Cobertura Alta x Baixa
Sequenciamento
Resultados
Cobertura baixa:
- Genótipos dos animais sequenciados não são acurados
- Não permite validação da imputação
Entretanto é barato: ~ $ 250-300/animal (<1x)
Muitos animais sequenciados
- Imputação acurada
- Amostragem de variantes raras
Acurácia da imputação
Sequenciamento
Resultados
Raça REF IMP VAL Tempo Concordância R2 alélico
Alberta Composto 1133 379 13 15:48:31 94.91 92.30
Angus 1125 469 21 17:19:35 95.67 93.37
BeefBooster 1121 478 25 15:33:17 94.15 91.44
Charolês 1121 474 25 15:24:19 89.98 85.09
Gelbvieh 1120 417 26 15:48:47 93.69 90.48
Guelph Composto 1116 504 30 14:48:39 94.78 92.21
Hereford 1121 476 25 14:56:53 91.48 86.27
Holandês 1119 446 27 15:09:17 96.07 94.31
Limousin 1116 461 30 15:46:38 91.32 87.09
Simental 1125 417 21 16:20:06 91.25 87.11
De alta densidade (Affymetrix 777k) para sequência
Todas as estatísticas baseadas em SNPs with MAF>0 dentro de cada raça.
População de referência:
n= ~1120
Multiracial, alta cobertura (~ 8x)
Variantes raras provavelmente ausentes
Sequenciamento
Resultados
Tamanho da amostra
Acurácia da imputação – Usando sequenciamento de
baixa cobertura
Sequenciamento
Resultados
Sequenciamento
Resultados
(Fonte: VanRaden et al. 2015 BMC Genetics 16:82)
População de referência:
Baixa cobertura (~ 1-2x)
n= grande
Variantes raras estão mais provavelmente
presentes
Sequenciamento
Resultados
Sequenciamento
Haplótipos
Com dados de sequência, haplótipos estão
tornando-se ainda mais relevantes:
- Mutações recentes (haplótipos longos) versus antigas
(haplótipos curtos)
- Identificação de variantes recessivas/deletérias
- Parentesco genômico baseado em haplótipos
- Predições genômicas utilizando haplótipos
- Mapeamento fino/análise de associação utilizando
haplótipos
Sequenciamento
Reconstrução de Haplótipos
FImpute Findhap Beagle Impute2
(160 states)
Shapeit
(100 states)
Shapeit
(200 states)
Base + Anc 99.44 97.46 99.49 99.46 98.12 98.90
Base + Touros + Anc 99.86 97.43 99.67 99.46 98.02 98.85
Base + Touros + Vacas + Anc 99.97 97.42 99.83 99.42 97.64 98.63
Base + Anc + Ped 99.44 97.46 99.49 - 98.13 99.50
Base + Touros + Anc + Ped 99.67 99.31 99.71 - 98.94 99.74
Base + Tpuros + Vacas + Anc + Ped 99.99 99.72 99.90 - 99.11 99.80
Base= Animais referência básicos (n=9266); Anc= ancestrais com ≥ 40 filhos (n=404); Touros= touros
pais do animais Base (n=453); Vacas= vacas mães dos animais Base (n=3377); Ped= animais do pedigree
Comparação da acurácia
(Fonte: Younes Miar, manuscrito em preparação)
Sequenciamento
Reconstrução de Haplótipos
FImpute Findhap Beagle Impute2
(160 states)
Shapeit
(100 states)
Shapeit
(200 states)
Base + Anc 0:1:57 0:0:21 1:26:00 21:55:14 10:40:37 32:25:56
Base + Touros + Anc 0:1:58 0:0:29 1:58:00 23:15:23 11:25:50 44:23:21
Base + Touros + Vacas + Anc 0:2:09 0:0:32 4:39:00 36:38:03 18:38:26 46:58:17
Base + Anc + Ped 0:2:35 0:0:22 1:30:00 - 20:04:10 49:59:20
Base + Touros + Anc + Ped 0:2:24 0:0:27 1:40:00 - 21:13:14 48:29:52
Base + Tpuros + Vacas + Anc + Ped 0:3:09 0:0:31 4:17:00 - 44:55:11 83:10:50
Base= Animais referênciabásicos (n=9266); Anc= ancestrais com ≥ 40 filhos (n=404); Touros= touros
pais do animais Base (n=453); Vacas= vacas mães dos animais Base (n=3377); Ped= animais do pedigree
Eficiência de computação(BTA 13 somente)
(Fonte: Younes Miar, manuscrito em preparação)
1400
1600
1800
2000
2200
2400
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
LP
I m
éd
io
Ano de nascimento
Ganho genético realizado de 0.15 DP (2009) a 0.33 DP (2014) por ano
Genômica
Impacto da Seleção Genômica
Gado Holandês no Canada (Fonte: CDN)
Oportunidades e Dificuldades
• Com genômica, mais oportunidade para identificar famíliaspreviamente ignoradas para gerar futuros touros
– Um gama maior de touros oferecidos ao produtoresleiteiros
• Entretanto, maior progresso genético associado com:
– Intervalo de gerações menor
– Taxa de endogamia por ano mais alta
– Sem tempo para a seleção contra-balançar os efeitosnegativos da endogamia
Genômica
Seleção Genômica
Netos de avós ainda não provados
Consequências
(Adaptado de Buch et al. 2012. J. Anim. Breed. Gen. 129: 138–151)
Esquema de seleçãoEndogamia por
geração(%)
Intervalo de gerações
(anos)
Endogamiapor ano
(%)
Mudançagenética por
geração
Convencional 1.15 4.74 0.24 22.38
Genômico: Turbo 0.74 2.38 0.31 45.11
Genômica
Seleção Genômica
atagatcgatcg
ctgtagcttagg
agggcgcgcagt
cgatctagatcc
cggtagatcagt
agagatcgatcg
atggcgcgaacgctatcgctcagg
ctgtagcgatcg
cgatctagatcc
agagatcgatcg
atgtcgctcacg
ctgtagcgatcg
atgtcgctcacg
ctgtctagatcg
atggatcgatcg
Pedigree Genômico
Pressão de seleção maior em partes do genoma (haplótipos)
Co-seleção de haplótipos
Impacto da Seleção Genômica
Pai do Touro
Mãe do Touro
Pai da Vaca
Mãe da Vaca
Touro
Vaca
Animal 1
Animal 2
Genômica
Calcular endogamia por segmentos cromossômicos aoinvés de por locus individuais (Pryce et al. 2012).
(Fonte: Pryce et al. 2012. JDS 95 :377–388)
Impacto da Seleção Genômica
Co-seleção de haplótipos
Genômica
Endogamia genômica (pedigree x verdadeira)
Genomic Research
0
0,05
0,1
0,15
0,2
0,25
1 1 2 3 3 4 5 6 7 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 25 26 28 29
End
ogam
ia
Genoma
IBD_T F ave IBD_Q
h2= 0.30
(Fonte: Stachowicz (2010) Ph.D. thesis, U of Guelph)
IBD_T= IBD verdadeira, F= endogamia-pedigree, AVE IBD_Q= IBD média nos QTLs
Impacto da Seleção GenômicaGenômica
Target Genetic Pedigree Genomic
Inbreeding Change Inbreeding Inbreeding
Controlando endogamia baseada no pedigree
0.010 3.3 0.010 0.030
Controlando endogamia baseada no genoma
0.010 2.4 0.007 0.010
Sob seleção genômica controlar endogamiausando relações de pedigree ou genômicas temeficácias diferentes no controle da endogamia
genômica
(Adaptado de Sonesson et al. 2010. 9th WCGALP)
Seleção Genômica
Endogamia Mudança Endogamia Endogamia
alvo genética pedigree genômica
Genômica
Sequenciamento
Detecção de variantes
Esquemas de teste de progênie estão em desuso
+ Intervalo de gerações curto+ Taxa de endogamia mais alta
Touros jóvens usados mais intesivamente semprogênie avaliada
Detecção e teste para variantes recessivas/
deletérias tornou-se fundamental
Sequenciamento
Mapeamento
Produção de leite, BTA 14, usando 50k, 777k ou sequência e
genótipos ou haplótipos
Estudo de associação genômica ampla usandogenótipos do sequenciamento
Sequenciamento
Arquitetura genética
Genes maiores + Poligenes Poligenes
Resposta imunológica
Mediada por Anti-corpo Mediada pela célula
(Fonte: Thompson-Crispi et al. BMC Genomics 2014, 15 :559)
Sequenciamento
Predições Genômicas
= Matriz the parentesco genômico
= vetor de efeitos das SNPs = vetor de efeitos genômicos
é é
Sequenciamento
Predições Genômicas
A acurácia dos valores genômicos preditos podem resultar completamente
do parentesco genético capturado pelos marcadores e, portanto, pode variar
através das gerações devido ao desequilíbrio de ligação capturado dentro
das famílias.
Sequenciamento
GBS
Baixo custo, muito promissora
- Aleatória
Animais com um conjunto de genótipos para diferentes
SNPs
Imputação
- Em areas pré-determinadas
Animais com um conjunto mais similar de genótipos das
SNPs
Genotipagem por Sequenciamento
Sequenciamento
GBS
Na Nova Zelândia:
AgResearch esta desenvolvendo uma plataforma para
genotipagem por sequenciamento capaz de genotipar
16 mil animais por dia para > 60 mil marcadores.
Custo sem Bioinformática: ~ $15-20/animal
Imputação será necessária
para conectar painéis e plataformas diferentes
próximo passo
Genotipagem por Sequenciamento
Sequenciamento
Ferramentas Novas
SNPPLD + Gebv + Sleuth + edição
de dados
Fimpute será incluído
Avaliação da qualidade dos genótipos
Análise de pedigree, incluindo teste de parentesco
Análise de disequilibrio de ligação
Cálculo do parentesco baseado no pedigree e na
informação genômica
Estimação de valores genéticos genômicos por Gblup
e Rblup
Sequenciamento
Ferramentas Novas
SNP1101 permite:
Aproximação da acurácia dos valores genômicos
preditos
Análise de componentes principais rápida
Análise de associação genômica ampla
Estimação de componentes de variância (REML)
Sequenciamento
Ferramentas Novas
SNP1101 permite:
O uso de informação do sequenciamentopermitirá:
• Obtenção de valores genéticos estimadosoptimizados pela:
- Incorporação de informação funcional na prediçõesgenômicas
- Uso de informação de haplótipos
• Estimação de efeitos de variantes raras
- Maior número de animais sequenciados
Sequenciamento
Considerações Finais
O uso de informação do sequenciamentopermitirá:
• Identificar e manejar variantes/haplótiposrecessivos/deletérios
• Utilizar informação da endogamia genômicanas decisões seletivas
• Desvendar a arquitetura genética das diferentes características
Sequenciamento
Considerações Finais
O uso de informação do sequenciamentoexige:
• Grande capacidade computatiocal e de armazenamento instaladas
• Habilidade em genômica quantitativa e bio-informática Novas ferramentas
• Recursos financeiros
Sequenciamento
Considerações Finais
Colaboração entre grupos nacionais e
internacionais é uma condição necessária
Sequenciamento
Agradecimentos
- Organizadores do Simpósio
- Aos colegas e colaboradores e agências financiadorasdos projetos
Sequenciamento
Muito Obrigado
Perguntas ?
Top Related