FlávioSchenkelsbmaonline.org.br/sbma2015/palestras/flavio_schenkel.pdf · Colaboração com o...

Post on 21-Jan-2019

216 views 0 download

Transcript of FlávioSchenkelsbmaonline.org.br/sbma2015/palestras/flavio_schenkel.pdf · Colaboração com o...

Uso do sequenciamento genômico no

melhoramento de bovinos leiteiros

Flávio SchenkelProfessor e Diretor

7 de Setembro de 2015

XI Simpósio Brasileiro de Melhoramento Animal

Santa Maria, Brasil

Departamento deAnimal & Poultry Science (APS)

Novo nome: Departamento de Animal Biosciences

www.aps.uoguelph.ca

Food

Agriculture

Communities

Environment

LocalizaçãoAPS

Disciplinas básicas do APS

• Fan

• McBride

• Smith

• Bureau

• De Lange

• De Vries

• Cant

• Osborne

• France

• Li

• Bedecarrats

• Squires

• Karrow

• McBride

• Fan

• Merkies

• Widowski

• Mason

• Harlander

• De Vries

• Schenkel

• Karrow

• Robinson

• Baes

• Canovas

• Mallard

• Squires

• 10 Adjuntos

• Mandell

• Squires

• McBride

• Cant

• Bureau

NutriçãoAnimal

FisiologiaAnimal

Incl. Biol. Mol.

Comportamento& Bem-estar

Animal

MelhoramentoGenética & Genômica

Qualidade de ProdutoAnimal

DepartamentoAPS

O departamento mais intensivo em termos de número de estudantes e pesquisa na Universidade de Guelph

• Graduação• 700 BSc Biologia Animal • 98 BSc Agricultura• 98 BBRM Equino

• Pós-graduação• 43 PhD (50% domésticos)• 39 MSc por tese (90% domésticos)• 38 MSc por curso (~100 domésticos)

• Pesquisa• $6-8 milhões anualmente, colaboração próxima com a

indústria

APS

Pesquisa e Ensino

CGIL

Nosso Centro

https://www.facebook.com/CGIL.group

http://cgil.uoguelph.ca

Centro para Melhoramento Genético de

Animais de Produção

CGIL

Docentes/Pesquisadores

IntroduçãoSequenciamento

Sequenciamento

Grande potencial para:

• Desvendar estrutura genética e ação gênica.

• Identificação de variantes/haplótipos recessivos/

deletérios e os animais portadores.

• Selecionar SNPs/haplótipos para predição

genômica.

• Adaptar painéis de genotipagem comerciais.

• Reduzir o viés devido a seleção das SNPs em

painéis comerciais.

IntroduçãoSequenciamento

Sequenciamento

Limitantes:

• Grande investimento financeiro inicial.

• Muito exigência computacional e de

armazenamento.

• Necessidade de ferramentas novas para uso

prático e rotineiro.

Evento Ano

• Sequenciamento completo do genoma bovino (vaca Hereford) 2004

• Painel de 10k SNP da Parallele 2006

- Pesquisa genômica básica; Primeiras predições genômicas 2006/07

• Painel de 50k SNP da Illunina 2007

- Primeira avaliação genômica oficial (HO, JE) 2009

• Painel de 3k SNP da Illumina 2010

- Primeira avaliação genômica oficial com genótipos imputados 2010

• Painel de 777k e 6k SNP da Illumina 2011

- Imputação de genótipos de alta densidade 2011

• Sequenciamento dos primeiros ancetrais chaves de HO 2012

Genômica

Eventos Chaves

Evento Ano

• Sequenciamento > 2012

- 25 animais sequenciados por raça (n=10)

- Pesquisa básica; Primeiros testes de imputação

- Colaboração com o projeto “Genoma de 1000 touros”

- Mais pesquisa e desenvolvimento em imputação e

reconstrução de haplótipos

• Mapeamento usando haplótipos ao nível de sequência 2015

- Primeiros resultados

• Avaliação genômica melhorada pela informação do sequenciamento

> 2015

- Muito por fazer …

Genômica

Eventos Chaves

Animais com fenótiposdiferenciados

Touros chave

Touros elite

Sequenciamento

25/raça

Genotipagem de alta

densidade

480/raça

Genotipagem de baixa

densidade

560/raça

Seleção Genômica via imputação

genômica ampla

Projetos de SequenciamentoSequenciamento

Colaboração com o projeto “Genoma de 1000 touros”

Processamento

Dados brutos de sequência

WestGrid

HPCNCBI SRA

1000 Bull

Genomes

Project

Imputação

Dados brutos

Arquivos BAM

Arquivos VCF

contendo genótipos

dos animals do

projeto além de

centenas de outros

Arquivos VCF

Sequenciamento

Pesquisa

Mapeamento, predição

genômica, etc.

Resultados – Rodada 5

Rodada 5 – Taurus

• 39.7 milhões de variantesfiltradas

– ~ 34 raças

– 38.1 milhões SNPs

– 1.7 milhões indels

Rodada 5 – Taurus + Indicus

• 67.3 milhões de variantesfiltradas

‒ ~ 55 raças

‒ 64.8 milhões SNPs

‒ 2.5 milhões indels

Sequenciamento

Projeto 1000 Bull Genomes

(Fonte: Hayes et al. 2015. Slides)

Sequenciamento

Projeto 1000 Bull Genome

Resultados – Rodada 5

(Fonte: Hayes et al. 2015. Slides)

Armazenamento

Sequenciamento

Resultados

Cada amostra sequenciada exige:

- 60 GB de dados (30 GB arquivo FASTQ and 30 GB arquivo

BAM) para armazenamento de dados brutos e fragmentos

mapeados.

- 0,5 GB Para arquivos adicionais, tais como relatórios de

CQ e arquivo de genótipos (arquivos VCF)

Total para 100 animais: ~ 6 TB

Tempo de processamento

Sequenciamento

Resultados

Cada amostra com cobertura de 10x exige ~ 300 horas de

núcleo de processamento (core) para alinhamento dos

fragmentos.

Descoberta de variantes e genotipagem exige ~3.000 horas

de núcleo de processamento.

Total para 100 animais: ~ 33.000 horas de núcleo de

processamento.

Sequenciamento

Computação

Evolução dos servidores no APS

Antes da genômica (2008)

- 1 servidor principal ( 64 Gb ram, Intel(R) Xeon(R)

CPU @ 2.93GHz , 16 núcleos de processamento)

- 24 Tb de armazenamento

Atual (2015)

- 5 servidores principais (96-256 Gb ram, Intel(R)

Xeon(R) CPUs @ 2.80-3.47 GHz, 24-32 núcleos de

processamento)

- 2 phi co-processadores com 240 núcleos de

processamento cada um.

- 236 Tb de armazenamento

Cobertura Alta x Baixa

Sequenciamento

Resultados

Depende do objetivo da pesquisa/uso, mas:

Cobertura alta permite:

- Obter genótipos acurados para os animais sequenciados

- População referência para imputação

- Permite validação da imputação

Entretanto é ainda muito cara: ~ $ 2,500-3000/animal (10x)

Poucos animais sequenciados

Variantes raras não são amostradas

NCBI Sample ID Reads Fold Coverage HD Panel

Concordance

SAMN01758080 2,841,382,492 36.31 99.09%

SAMN01758046 2,528,112,108 31.03 98.72%

SAMN01758070 756,626,530 9.48 95.98%

SAMN01758055 702,001,174 9.24 95.90%

SAMN01758053 674,237,812 8.39 94.31%

SAMN01758064 576,441,084 8.13 94.30%

SAMN01758054 628,636,350 8.04 94.29%

SAMN01758048 618,550,964 7.91 94.45%

SAMN01758049 612,347,522 7.60 93.08%

SAMN01758050 580,876,782 7.53 94.05%

SAMN01758091 536,980,248 7.38 93.96%

SAMN01758090 509,582,292 7.04 93.67%

SAMN01758101 533,606,072 7.02 93.04%

SAMN01758093 505,796,680 6.90 93.70%

SAMN01758103 510,247,444 6.86 93.33%

SAMN01758095 507,536,290 6.72 92.42%

SAMN01758092 488,411,580 6.68 93.00%

SAMN01758096 503,725,634 6.65 92.61%

SAMN01758083 494,417,658 6.54 91.80%

SAMN01758102 477,614,052 6.39 92.54%

SAMN01758058 506,217,984 6.33 91.23%

SAMN01758089 471,917,448 6.31 92.35%

SAMN01758057 487,158,392 6.08 90.87%

SAMN01758086 460,583,410 5.96 92.02%

SAMN01758094 429,695,948 5.80 91.79%

SAMN01758059 448,783,690 5.72 90.97%

SAMN01758081 429,560,564 5.66 90.96%

SAMN01758087 441,228,360 5.63 91.52%

SAMN01758069 445,437,312 5.53 91.11%

SAMN01758052 412,856,350 5.27 89.23%

SAMN01758062 403,662,558 5.08 89.95%

SAMN01758063 389,097,066 4.84 90.13%

SAMN01832036 442,797,050 4.72 82.88%

Sequenciamento

Cobertura

Cobertura

Alta x Baixa

Cobertura Alta x Baixa

Sequenciamento

Resultados

Cobertura baixa:

- Genótipos dos animais sequenciados não são acurados

- Não permite validação da imputação

Entretanto é barato: ~ $ 250-300/animal (<1x)

Muitos animais sequenciados

- Imputação acurada

- Amostragem de variantes raras

Acurácia da imputação

Sequenciamento

Resultados

Raça REF IMP VAL Tempo Concordância R2 alélico

Alberta Composto 1133 379 13 15:48:31 94.91 92.30

Angus 1125 469 21 17:19:35 95.67 93.37

BeefBooster 1121 478 25 15:33:17 94.15 91.44

Charolês 1121 474 25 15:24:19 89.98 85.09

Gelbvieh 1120 417 26 15:48:47 93.69 90.48

Guelph Composto 1116 504 30 14:48:39 94.78 92.21

Hereford 1121 476 25 14:56:53 91.48 86.27

Holandês 1119 446 27 15:09:17 96.07 94.31

Limousin 1116 461 30 15:46:38 91.32 87.09

Simental 1125 417 21 16:20:06 91.25 87.11

De alta densidade (Affymetrix 777k) para sequência

Todas as estatísticas baseadas em SNPs with MAF>0 dentro de cada raça.

População de referência:

n= ~1120

Multiracial, alta cobertura (~ 8x)

Variantes raras provavelmente ausentes

Sequenciamento

Resultados

Tamanho da amostra

Acurácia da imputação – Usando sequenciamento de

baixa cobertura

Sequenciamento

Resultados

Sequenciamento

Resultados

(Fonte: VanRaden et al. 2015 BMC Genetics 16:82)

População de referência:

Baixa cobertura (~ 1-2x)

n= grande

Variantes raras estão mais provavelmente

presentes

Sequenciamento

Resultados

Sequenciamento

Haplótipos

Com dados de sequência, haplótipos estão

tornando-se ainda mais relevantes:

- Mutações recentes (haplótipos longos) versus antigas

(haplótipos curtos)

- Identificação de variantes recessivas/deletérias

- Parentesco genômico baseado em haplótipos

- Predições genômicas utilizando haplótipos

- Mapeamento fino/análise de associação utilizando

haplótipos

Sequenciamento

Reconstrução de Haplótipos

FImpute Findhap Beagle Impute2

(160 states)

Shapeit

(100 states)

Shapeit

(200 states)

Base + Anc 99.44 97.46 99.49 99.46 98.12 98.90

Base + Touros + Anc 99.86 97.43 99.67 99.46 98.02 98.85

Base + Touros + Vacas + Anc 99.97 97.42 99.83 99.42 97.64 98.63

Base + Anc + Ped 99.44 97.46 99.49 - 98.13 99.50

Base + Touros + Anc + Ped 99.67 99.31 99.71 - 98.94 99.74

Base + Tpuros + Vacas + Anc + Ped 99.99 99.72 99.90 - 99.11 99.80

Base= Animais referência básicos (n=9266); Anc= ancestrais com ≥ 40 filhos (n=404); Touros= touros

pais do animais Base (n=453); Vacas= vacas mães dos animais Base (n=3377); Ped= animais do pedigree

Comparação da acurácia

(Fonte: Younes Miar, manuscrito em preparação)

Sequenciamento

Reconstrução de Haplótipos

FImpute Findhap Beagle Impute2

(160 states)

Shapeit

(100 states)

Shapeit

(200 states)

Base + Anc 0:1:57 0:0:21 1:26:00 21:55:14 10:40:37 32:25:56

Base + Touros + Anc 0:1:58 0:0:29 1:58:00 23:15:23 11:25:50 44:23:21

Base + Touros + Vacas + Anc 0:2:09 0:0:32 4:39:00 36:38:03 18:38:26 46:58:17

Base + Anc + Ped 0:2:35 0:0:22 1:30:00 - 20:04:10 49:59:20

Base + Touros + Anc + Ped 0:2:24 0:0:27 1:40:00 - 21:13:14 48:29:52

Base + Tpuros + Vacas + Anc + Ped 0:3:09 0:0:31 4:17:00 - 44:55:11 83:10:50

Base= Animais referênciabásicos (n=9266); Anc= ancestrais com ≥ 40 filhos (n=404); Touros= touros

pais do animais Base (n=453); Vacas= vacas mães dos animais Base (n=3377); Ped= animais do pedigree

Eficiência de computação(BTA 13 somente)

(Fonte: Younes Miar, manuscrito em preparação)

1400

1600

1800

2000

2200

2400

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

LP

I m

éd

io

Ano de nascimento

Ganho genético realizado de 0.15 DP (2009) a 0.33 DP (2014) por ano

Genômica

Impacto da Seleção Genômica

Gado Holandês no Canada (Fonte: CDN)

Oportunidades e Dificuldades

• Com genômica, mais oportunidade para identificar famíliaspreviamente ignoradas para gerar futuros touros

– Um gama maior de touros oferecidos ao produtoresleiteiros

• Entretanto, maior progresso genético associado com:

– Intervalo de gerações menor

– Taxa de endogamia por ano mais alta

– Sem tempo para a seleção contra-balançar os efeitosnegativos da endogamia

Genômica

Seleção Genômica

Netos de avós ainda não provados

Consequências

(Adaptado de Buch et al. 2012. J. Anim. Breed. Gen. 129: 138–151)

Esquema de seleçãoEndogamia por

geração(%)

Intervalo de gerações

(anos)

Endogamiapor ano

(%)

Mudançagenética por

geração

Convencional 1.15 4.74 0.24 22.38

Genômico: Turbo 0.74 2.38 0.31 45.11

Genômica

Seleção Genômica

atagatcgatcg

ctgtagcttagg

agggcgcgcagt

cgatctagatcc

cggtagatcagt

agagatcgatcg

atggcgcgaacgctatcgctcagg

ctgtagcgatcg

cgatctagatcc

agagatcgatcg

atgtcgctcacg

ctgtagcgatcg

atgtcgctcacg

ctgtctagatcg

atggatcgatcg

Pedigree Genômico

Pressão de seleção maior em partes do genoma (haplótipos)

Co-seleção de haplótipos

Impacto da Seleção Genômica

Pai do Touro

Mãe do Touro

Pai da Vaca

Mãe da Vaca

Touro

Vaca

Animal 1

Animal 2

Genômica

Calcular endogamia por segmentos cromossômicos aoinvés de por locus individuais (Pryce et al. 2012).

(Fonte: Pryce et al. 2012. JDS 95 :377–388)

Impacto da Seleção Genômica

Co-seleção de haplótipos

Genômica

Endogamia genômica (pedigree x verdadeira)

Genomic Research

0

0,05

0,1

0,15

0,2

0,25

1 1 2 3 3 4 5 6 7 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 25 26 28 29

End

ogam

ia

Genoma

IBD_T F ave IBD_Q

h2= 0.30

(Fonte: Stachowicz (2010) Ph.D. thesis, U of Guelph)

IBD_T= IBD verdadeira, F= endogamia-pedigree, AVE IBD_Q= IBD média nos QTLs

Impacto da Seleção GenômicaGenômica

Target Genetic Pedigree Genomic

Inbreeding Change Inbreeding Inbreeding

Controlando endogamia baseada no pedigree

0.010 3.3 0.010 0.030

Controlando endogamia baseada no genoma

0.010 2.4 0.007 0.010

Sob seleção genômica controlar endogamiausando relações de pedigree ou genômicas temeficácias diferentes no controle da endogamia

genômica

(Adaptado de Sonesson et al. 2010. 9th WCGALP)

Seleção Genômica

Endogamia Mudança Endogamia Endogamia

alvo genética pedigree genômica

Genômica

Sequenciamento

Detecção de variantes

Esquemas de teste de progênie estão em desuso

+ Intervalo de gerações curto+ Taxa de endogamia mais alta

Touros jóvens usados mais intesivamente semprogênie avaliada

Detecção e teste para variantes recessivas/

deletérias tornou-se fundamental

Sequenciamento

Mapeamento

Produção de leite, BTA 14, usando 50k, 777k ou sequência e

genótipos ou haplótipos

Estudo de associação genômica ampla usandogenótipos do sequenciamento

Sequenciamento

Arquitetura genética

Genes maiores + Poligenes Poligenes

Resposta imunológica

Mediada por Anti-corpo Mediada pela célula

(Fonte: Thompson-Crispi et al. BMC Genomics 2014, 15 :559)

Sequenciamento

Predições Genômicas

= Matriz the parentesco genômico

= vetor de efeitos das SNPs = vetor de efeitos genômicos

é é

Sequenciamento

Predições Genômicas

A acurácia dos valores genômicos preditos podem resultar completamente

do parentesco genético capturado pelos marcadores e, portanto, pode variar

através das gerações devido ao desequilíbrio de ligação capturado dentro

das famílias.

Sequenciamento

GBS

Baixo custo, muito promissora

- Aleatória

Animais com um conjunto de genótipos para diferentes

SNPs

Imputação

- Em areas pré-determinadas

Animais com um conjunto mais similar de genótipos das

SNPs

Genotipagem por Sequenciamento

Sequenciamento

GBS

Na Nova Zelândia:

AgResearch esta desenvolvendo uma plataforma para

genotipagem por sequenciamento capaz de genotipar

16 mil animais por dia para > 60 mil marcadores.

Custo sem Bioinformática: ~ $15-20/animal

Imputação será necessária

para conectar painéis e plataformas diferentes

próximo passo

Genotipagem por Sequenciamento

Sequenciamento

Ferramentas Novas

SNPPLD + Gebv + Sleuth + edição

de dados

Fimpute será incluído

Avaliação da qualidade dos genótipos

Análise de pedigree, incluindo teste de parentesco

Análise de disequilibrio de ligação

Cálculo do parentesco baseado no pedigree e na

informação genômica

Estimação de valores genéticos genômicos por Gblup

e Rblup

Sequenciamento

Ferramentas Novas

SNP1101 permite:

Aproximação da acurácia dos valores genômicos

preditos

Análise de componentes principais rápida

Análise de associação genômica ampla

Estimação de componentes de variância (REML)

Sequenciamento

Ferramentas Novas

SNP1101 permite:

O uso de informação do sequenciamentopermitirá:

• Obtenção de valores genéticos estimadosoptimizados pela:

- Incorporação de informação funcional na prediçõesgenômicas

- Uso de informação de haplótipos

• Estimação de efeitos de variantes raras

- Maior número de animais sequenciados

Sequenciamento

Considerações Finais

O uso de informação do sequenciamentopermitirá:

• Identificar e manejar variantes/haplótiposrecessivos/deletérios

• Utilizar informação da endogamia genômicanas decisões seletivas

• Desvendar a arquitetura genética das diferentes características

Sequenciamento

Considerações Finais

O uso de informação do sequenciamentoexige:

• Grande capacidade computatiocal e de armazenamento instaladas

• Habilidade em genômica quantitativa e bio-informática Novas ferramentas

• Recursos financeiros

Sequenciamento

Considerações Finais

Colaboração entre grupos nacionais e

internacionais é uma condição necessária

Sequenciamento

Agradecimentos

- Organizadores do Simpósio

- Aos colegas e colaboradores e agências financiadorasdos projetos

Sequenciamento

Muito Obrigado

Perguntas ?