Conteúdo Classesgenotípicas...

10
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências LGN5830 - Biometria de Marcadores Genéticos Tópico 8: Mapeamento de QTLs II Análise dos Marcadores Individualmente (cont.) Mapeamento por Intervalo Antonio Augusto Franco Garcia http://about.me/augusto.garcia [email protected] Departamento de Genética ESALQ/USP 2017 Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências Conteúdo 1 Análise dos Marcadores Individualmente Revisão Verossimilhança Significado Genético da Análise 2 Mapeamento por Intervalo Introdução Modelo (IM) Estimativas de Máxima Verossimilhança 3 Referências Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências Revisão Dados Fenotípicos e Genotípicos Azul: Aa; amarelo: AA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 5 9 14 20 26 32 38 44 50 56 62 68 74 80 86 92 98 Marcadores Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências Revisão Classes genotípicas Mouse data, M1 30 40 50 60 70 80 Genotype BW M1 AA AB 0 1 30 40 50 60 70 80 M1 Genótipo Fenótipo

Transcript of Conteúdo Classesgenotípicas...

Page 1: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

LGN5830 - Biometria de Marcadores GenéticosTópico 8: Mapeamento de QTLs II

Análise dos Marcadores Individualmente (cont.)Mapeamento por Intervalo

Antonio Augusto Franco Garciahttp://about.me/augusto.garcia

[email protected]

Departamento de GenéticaESALQ/USP

2017

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Conteúdo

1 Análise dos Marcadores IndividualmenteRevisãoVerossimilhançaSignificado Genético da Análise

2 Mapeamento por IntervaloIntroduçãoModelo (IM)Estimativas de Máxima Verossimilhança

3 Referências

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Revisão

Dados Fenotípicos e GenotípicosAzul: Aa; amarelo: AA

1 2 3 4 5 6 7 8 9 10 11 12 13 14

15

914

2026

3238

4450

5662

6874

8086

9298

Marcadores

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Revisão

Classes genotípicas

Mouse data, M1

30

40

50

60

70

80

Genotype

BW

M1

●●

● ●

●●

AA AB

●●

●●

●●

●●

●●

●●

●●

●●

● ●

0 1

3040

5060

7080

M1

Genótipo

Fen

ótip

o

Page 2: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Revisão

Regressão Linear Simples

Modelo Linear, Retrocruzamento

yj = µ+ βxj + εj

j = 1, 2, . . . , n

yj = valor fenotípico do indivíduo j

µ = intercepto

xj =

{1 se o indivíduo j tem genótipoMi/Mi

0 se o indivíduo j tem genótipoMi/mi

β = coeficiente de regressão linear (efeitos genéticos)

εj ∼ N(0, σ2)

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Revisão

Regressão Linear Simples

Teste de Hipóteses: H0 : β = 0 vsH1 : β = 0

Note que β = tan(α) = µ1−µ0

1 = µ1 − µ0

Logo, testarH0 : β = 0 equivale ao teste deH0 : µ1 = µ0 vsH1 : µ1 = µ0

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Revisão

Quadrados Mínimos

Equações Normais

X⊤Xθ = X⊤y

θ0 = (X⊤X)−1(X⊤y)

y = Xθ + e (Modelo de Gauss-Markov)

Aproximação de quadrados mínimos

y = Xθ0

e = y− y

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Revisão

Análise de Variância

Somas de Quadrados

SQtot = y⊤y

SQres = e⊤e

SQpar = θo⊤X⊤y

Graus de liberdade: n, n− r[X] e r[X], respectivamente

Page 3: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

Verossimilhança e LOD Score

H0

SobH0 (ausência de QTL): yj ∼ N(µ, σ2)

Peso

Den

sida

de

30 40 50 60 70 80

0.00

0.01

0.02

0.03

0.04

ResíduosD

ensi

dade

−20 −10 0 10 20

0.00

0.01

0.02

0.03

0.04

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

Verossimilhança e LOD Score

H0

SobH0 (ausência de QTL): yj ∼ N(µ, σ2)

Verossimilhançaϕ(): densidade da distribuição normal:

L0(µ, σ2) =

∏j

ϕ(yj ;µ, σ2)

MLEs:µ = yσ2 = RSS0/n

sendo RSS0 =∑

i(yj − y)2

log10 L0 = −n2 log10 RSS0 (substituindo os MLEs em L0)

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

Verossimilhança e LOD Score

H1

yj |gj ∼ N(µgj , σ2) (mistura de normais!)

Mouse - M1

Genótipo Mm

Peso

Fre

qüên

cia

30 40 50 60 70 80

05

1015

Genótipo MM

Peso

Fre

qüên

cia

30 40 50 60 70 80

04

8

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

Verossimilhança e LOD Score

H1

yj |gj ∼ N(µgj , σ2)

L1(µMM , µMm, σ2) =∏

j ϕ(yj ;µgj , σ2)

µgj : médias fenotípicas de cada classe

σ2 = RSS1/n, sendo RSS1 =∑

j(yj − µgj )2

Usando os MLEs em L1, log10 L1 = −n2 log10 RSS1

LOD ScoreDiferença entre os logaritmos:

LOD =n

2log10

(RSS0RSS1

)

Page 4: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

Resultados

Mouse data

0 10 20 30 40 50

0

1

2

3

4

5

6

Análise de cada marcador − LOD Score

Map position (cM)

LOD

Sco

re

0 10 20 30 40 50

10

15

20

25

30

Análise de cada marcador − teste F

Mapa

Est

atís

tica

F

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

Relações entre F e LOD

Sendo df o número de graus de liberdade (1 para RC, 2 para F2):

LOD =n

2log10

[F

(df

n− df − 1

)+ 1

]Proporção da variância fenotípica explicada pelo QTL (herdabilidade,h2):

R2 =RSS0 − RSS1

RSS0= 1− 10−

2nLOD

Note que ocorre redução na SQ do resíduo!

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

Resultados (Mouse)

Marcador Efeito p-valor R2M1 6.87 0.00029 0.1224M2 8.71 0.00000 0.1980M3 9.00 9.14494e− 07 0.2132M4 9.35 3.31917e− 07 0.2283M5 8.80 1.69523e− 06 0.2038M6 9.38 2.43176e− 07 0.2329M7 8.78 1.57553e− 06 0.2050M8 9.15 3.87365e− 07 0.2261M9 8.87 9.66365e− 07 0.2124M10 8.98 6.64918e− 07 0.2180M11 8.90 8.53814e− 07 0.2142M12 7.61 3.48110e− 05 0.1567M13 7.54 4.49148e− 05 0.1527M14 5.65 0.00262 0.0861

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

População F2

Maize Datagy

[1,] 6.25 2 1 0 0 0 0 0 1 1 1 0 0[2,] 3.00 1 1 1 1 1 2 2 2 2 0 0 1[3,] 3.00 1 2 2 2 2 1 1 1 1 2 2 2[4,] 4.00 1 0 0 0 0 0 0 0 0 1 2 2[5,] 3.00 0 0 1 1 1 1 1 1 1 1 1 1

...[167,] 4.00 2 2 1 1 1 0 0 0 0 1 1 1[168,] 3.50 1 0 0 0 0 1 1 1 1 1 1 2[169,] 5.50 0 1 1 1 1 0 1 1 1 1 1 1[170,] 3.00 1 0 0 1 1 1 1 1 1 1 1 1[171,] 5.75 2 2 1 1 0 1 1 1 1 0 0 0

Page 5: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Verossimilhança

Regressão Linear Múltipla

Modelo para F2

yj = µ+ β1x1j + β2x2j + εj

yj = valor fenotípico do indivíduo j

µ = intercepto

x1j =

1 se o indivíduo j tem genótipoMiMi

0 se o indivíduo j tem genótipoMimi

−1 se o indivíduo j tem genótipo mimi

x2j =

−1/2 se o indivíduo j tem genótipoMiMi

+1 se o indivíduo j tem genótipoMimi

−1/2 se o indivíduo j tem genótipo mimi

β1, β2 = coef. reg. linear (ef. aditivo e de dominância, respect.)

εj ∼ N(0, σ2)

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Significado Genético da Análise

Retrocruzamento

Probab. condicionais

P (QQ|MM) = 1− rMQ

P (QQ|Mm) = rMQ

P (Qq|MM) = rMQ

P (Qq|Mm) = 1− rMQ

QQ Qq Efeito Médio

MM Prob. cond. 1 − rMQ rMQ (1 − rMQ)(µ + a) + rMQ(µ + d)Efeito µ + a µ + d

Mm Prob. cond. rMQ 1 − rMQ rMQ(µ + a) + (1 − rMQ)(µ + d)Efeito µ + a µ + d

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Significado Genético da Análise

Retrocruzamento

Esperança

E(µMM − µMm) = [(1− rMQ)(µ+ a) + rMQ(µ+ d)]−[rMQ(µ+ a) + (1− rMQ)(µ+ d)]

= (1− 2rMQ)(a− d)

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Significado Genético da Análise

Retrocruzamento

E(µMM − µMm) = (1− 2rMQ)(a− d)

Considerações

Teste: parâmetro composto enviesado

Parâmetro: função do efeito do QTL e da fração de recombinação

SeH0 não for rejeitado, não dá para saber a razão

Se rMQ = 1/2: QTL não ligado

Note que o viés diminui o poder do teste

Se a = d, não há detecção

Pode haver mais de um QTL ligado

O número de QTLs mapeados é estimativa conservativa do númeroreal de QTLs que influenciam o caráter

Page 6: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Significado Genético da Análise

Propriedades (Single Marker)Vantagens

Fácil implementação e entendimento

Não requer softwares específicos

Não precisa que o mapa tenha sido estimado

Pode ser aplicada para marcadores não ligados

Base para métodos como GWAS e GWS

Limitações

Não é possível saber se há mais de um QTL ligado ao marcador

Não há estimativa da posição do QTL

Considera um único QTL, logo, não permite estudos de epistasia

O efeito do QTL é subestimado

Em função do viés, o poder dos testes é reduzido

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Introdução

Referência

Lander, E. S.; Botstein, D. 1989.Mapping Mendelian factors underlying quantitative traits using RFLPlinkage maps.Genetics 121: 185-199.

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Introdução

Introdução

Método que permite percorrer o genoma sistematicamente embusca de QTLs

Estatisticamente: extensão da análise de cada marcador, permitindoanálise em intervalos

Usa informação dos marcadores flanqueadores dos intervalos(modernamente: informação multiponto)

Abordagem inovadora que permitiu posteriormente odesenvolvimento de vários métodos de análise (CIM, MIM, etc)

Idéia central: considerar o genótipo dos QTLs como dados perdidos,ou variáveis latentes (modelo de misturas)

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Introdução

Idéias Iniciais

Mouse Data

1 3 5 7 9 11 14 17 20 23 26 29 32 35 38 41 44 47 50

15

913

1823

2833

3843

4853

5863

6873

7883

8893

9810

3

Distância (cM)

Page 7: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Introdução

Idéias Iniciais

Mouse Data

15

914

2026

3238

4450

5662

6874

8086

9298

●● ●

● ●

01

23

45

6

LOD Score

01

23

45

6

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Introdução

Mistura de Distribuições

Mouse - M1

30 40 50 60 70 80

0.00

0.02

0.04

Genótipo Mm

Peso

Den

sida

de

30 40 50 60 70 80

0.00

0.04

Genótipo MM

Peso

Den

sida

de

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Introdução

Mistura de Distribuições

Mouse - M1

30 40 50 60 70 80

0.00

0.02

0.04

Mistura: MM e Mm

Den

sida

de

Peso

Fre

qüên

cia

30 40 50 60 70 80

015

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Modelo (IM)

Modelo de Misturas

Modelo para Retrocruzamentos

yj = µ+ β∗x∗j + εj

j = 1, 2, . . . , n

yj = valor fenotípico do indivíduo j

µ = intercepto

x∗j =

{1 se o genótipo do QTL do indivíduo j é QQ0 se o genótipo do QTL do indivíduo j é Qq

β∗ = efeito do possível QTL

εj ∼ N(0, σ2)

Page 8: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Modelo (IM)

Verossimilhança

Função densidade de probabilidades da dist. normal (reduzida):

ϕ(z) =1√2Π

e−z2

2

Assumindo distribuição normal dentro de cada classe (para cadagenótipo do QTL):

L(µ, β∗, σ2, θ) =n∏

j=1

[p1jϕ

(yj − µ− β∗

σ

)+ p0jϕ

(yj − µ

σ

)]

Note a diferença com o modelo para “single marker analysis”:

L1(µMM , µMm, σ2) =∏j

ϕ(yj ;µgj , σ2)

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Modelo (IM)

Mistura de Distribuições

Note que o modelo considera o genótipo do QTL, não dosmarcadores

Estatisticamente, este é ummodelo de misturas, já que x∗j não éobservável

Genótipo dos QTLs: variável latente

As marcas que flanqueiam o intervalo podem ser usadas para calcularas probabilidades dos genótipos dos QTLs numa dada posição θ

pkj = P (x∗j = k|Mi,Mi+1, θ), k = 0, 1

O viés presente nas análises de cada marcador não está presente, jáque há separação entre efeito e posição dos QTLs

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Modelo (IM)

Marcadores Flanqueadores

RC

xP1

RC1

1-r 2

r2

r2

1-r 2

r2

r2

1-r 2

1-r 2

P2m q mm q m

xP1

1

1

2

2

M Q MM Q M

2

2

1

1

F1 1

1

2

2

M Q Mm q m

1 2m M1 2M M 1M m 2m m12

1 2M M1 2M M

1 2M M1 2M m

1 2M M1 2m M

1 2M M1 2m m

1 2M Q M 1 2m q m

Notação:

iM i+1M Q

1r 2r

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Modelo (IM)

Probabilidades Condicionais

RC, assumindo r1r2 → 0

θ = r1r

pk

Marcador QQ Qq

MiMiMi+1Mi+1(1− r1)(1− r2)

1− r ≈ 1 r1r21− r ≈ 0

MiMiMi+1mi+1(1− r1)r2

r ≈ 1− θr1(1− r2)

r ≈ θ

MimiMi+1Mi+1r1(1− r2)

r ≈ θ(1− r1)r2

r ≈ 1− θ

MimiMi+1mi+1r1r21− r ≈ 0

(1− r1)(1− r2)1− r ≈ 1

Page 9: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Modelo (IM)

Exemplo - RC

rMiMi+1 = 0.04

θ =r1r

= 0.000.04

= 0.00

Marcador P (QQ|Mi,Mi+1, θ = 0.00) P (Qq|Mi,Mi+1, θ = 0.00)

MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 1.00 θ = 0.00MimiMi+1Mi+1 θ = 0.00 1 − θ = 1.00MimiMi+1mi+1 0.00 1.00

θ =r1r

= 0.010.04

= 0.25

Marcador P (QQ|Mi,Mi+1, θ = 0.25) P (Qq|Mi,Mi+1, θ = 0.25)

MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 0.75 θ = 0.25MimiMi+1Mi+1 θ = 0.25 1 − θ = 0.75MimiMi+1mi+1 0.00 1.00

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Modelo (IM)

Exemplo - RC

rMiMi+1 = 0.04

θ =r1r

= 0.020.04

= 0.50

Marcador P (QQ|Mi,Mi+1, θ = 0.50) P (Qq|Mi,Mi+1, θ = 0.50)

MiMiMi+1Mi+1 1 0MiMiMi+1mi+1 1 − θ = 0.50 θ = 0.50MimiMi+1Mi+1 θ = 0.50 1 − θ = 0.50MimiMi+1mi+1 0 1

θ =r1r

= 0.030.04

= 0.75

Marcador P (QQ|Mi,Mi+1, θ = 0.75) P (Qq|Mi,Mi+1, θ = 0.75)

MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 0.25 θ = 0.75MimiMi+1Mi+1 θ = 0.75 1 − θ = 0.25MimiMi+1mi+1 0.00 1.00

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Estimativas de Máxima Verossimilhança

Algoritmo EM

L(µ, β∗, σ

2, θ) =

n∏j=1

[p1jϕ

(yj − µ − β∗

σ

)+ p0jϕ

(yj − µ

σ

)]

Passo E:

π1j =

p1jϕ

(yj−µ[s]−β∗[s]

σ[s]

)

p1jϕ

(yj−µ[s]−β∗[s]

σ[s]

)+ p0jϕ

(yj−µ[s]

σ[s]

)π0j = 1 − π1j

Passo M:

µ[s+1]

=

∑nj=1(yj − π1j β∗[s]

)

n

β∗[s+1]=

∑nj=1 π1j(yj − µ[s+1])∑n

j=1 π1j

σ2[s+1]=

∑nj=1

[π1j(yj − µ[s+1] − β∗[s+1]

)2 + (1 − π1j)(yj − µ[s+1])2]

n

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Estimativas de Máxima Verossimilhança

Teste da Razão de Verossimilhança

Estimadores: semelhantes aos quad. mín. (πkj : pesos)Os parâmetros são estimados em cada posição (θ)

H0 : β∗ = 0

L0(µ, σ2) =∏

j ϕ(yj ;µ, σ2)

µ = y; σ2 = RSS0/n

log10 L0 = −n2log10 RSS0

H1 : β∗ = 0

L(µ, β∗, σ2) =∏nj=1

[p1jϕ

(yj−µ−β∗

σ

)+ p0jϕ

(yj−µ

σ

)]L1(µ, β∗, σ2); log10 L1

LOD = log10 L1 − log10 L0

LRT = −2 logL0

L1

Mapeamento por Intervalo

É possível testar se há evidência estatística para a presença de umsuposto QTL (em cada posição do genoma)

Page 10: Conteúdo Classesgenotípicas ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula8_imprimir.pdf · Análise de cada marcador - LOD Score Map position (cM) LOD Score l l l l l l

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Estimativas de Máxima Verossimilhança

Interval Mapping

Mouse Data

●● ●

● ●

LOD

01

23

45

6

0 10 20 30 40 50

0

1

2

3

4

5

6

IM (LODs)

Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências

Principais Referências

K.W. Broman, S. SenA Guide to QTL Mapping with R/qtl, 1 ed.New York, Springer, 2009.

M. Lynch, B. WalshGenetics and Analysis of Quantitative Traits, 1 ed.Sinauer Associates, Inc., 1998.

Lander, E. S.; Botstein, D. 1989.Mapping Mendelian factors underlying quantitative traits using RFLPlinkage maps.Genetics 121: 185-199.