Conteúdo Classesgenotípicas...
Transcript of Conteúdo Classesgenotípicas...
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
LGN5830 - Biometria de Marcadores GenéticosTópico 8: Mapeamento de QTLs II
Análise dos Marcadores Individualmente (cont.)Mapeamento por Intervalo
Antonio Augusto Franco Garciahttp://about.me/augusto.garcia
Departamento de GenéticaESALQ/USP
2017
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Conteúdo
1 Análise dos Marcadores IndividualmenteRevisãoVerossimilhançaSignificado Genético da Análise
2 Mapeamento por IntervaloIntroduçãoModelo (IM)Estimativas de Máxima Verossimilhança
3 Referências
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Revisão
Dados Fenotípicos e GenotípicosAzul: Aa; amarelo: AA
1 2 3 4 5 6 7 8 9 10 11 12 13 14
15
914
2026
3238
4450
5662
6874
8086
9298
Marcadores
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Revisão
Classes genotípicas
Mouse data, M1
30
40
50
60
70
80
Genotype
BW
M1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
AA AB
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
0 1
3040
5060
7080
M1
Genótipo
Fen
ótip
o
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Revisão
Regressão Linear Simples
Modelo Linear, Retrocruzamento
yj = µ+ βxj + εj
j = 1, 2, . . . , n
yj = valor fenotípico do indivíduo j
µ = intercepto
xj =
{1 se o indivíduo j tem genótipoMi/Mi
0 se o indivíduo j tem genótipoMi/mi
β = coeficiente de regressão linear (efeitos genéticos)
εj ∼ N(0, σ2)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Revisão
Regressão Linear Simples
Teste de Hipóteses: H0 : β = 0 vsH1 : β = 0
Note que β = tan(α) = µ1−µ0
1 = µ1 − µ0
Logo, testarH0 : β = 0 equivale ao teste deH0 : µ1 = µ0 vsH1 : µ1 = µ0
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Revisão
Quadrados Mínimos
Equações Normais
X⊤Xθ = X⊤y
θ0 = (X⊤X)−1(X⊤y)
y = Xθ + e (Modelo de Gauss-Markov)
Aproximação de quadrados mínimos
y = Xθ0
e = y− y
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Revisão
Análise de Variância
Somas de Quadrados
SQtot = y⊤y
SQres = e⊤e
SQpar = θo⊤X⊤y
Graus de liberdade: n, n− r[X] e r[X], respectivamente
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
Verossimilhança e LOD Score
H0
SobH0 (ausência de QTL): yj ∼ N(µ, σ2)
Peso
Den
sida
de
30 40 50 60 70 80
0.00
0.01
0.02
0.03
0.04
ResíduosD
ensi
dade
−20 −10 0 10 20
0.00
0.01
0.02
0.03
0.04
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
Verossimilhança e LOD Score
H0
SobH0 (ausência de QTL): yj ∼ N(µ, σ2)
Verossimilhançaϕ(): densidade da distribuição normal:
L0(µ, σ2) =
∏j
ϕ(yj ;µ, σ2)
MLEs:µ = yσ2 = RSS0/n
sendo RSS0 =∑
i(yj − y)2
log10 L0 = −n2 log10 RSS0 (substituindo os MLEs em L0)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
Verossimilhança e LOD Score
H1
yj |gj ∼ N(µgj , σ2) (mistura de normais!)
Mouse - M1
Genótipo Mm
Peso
Fre
qüên
cia
30 40 50 60 70 80
05
1015
Genótipo MM
Peso
Fre
qüên
cia
30 40 50 60 70 80
04
8
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
Verossimilhança e LOD Score
H1
yj |gj ∼ N(µgj , σ2)
L1(µMM , µMm, σ2) =∏
j ϕ(yj ;µgj , σ2)
µgj : médias fenotípicas de cada classe
σ2 = RSS1/n, sendo RSS1 =∑
j(yj − µgj )2
Usando os MLEs em L1, log10 L1 = −n2 log10 RSS1
LOD ScoreDiferença entre os logaritmos:
LOD =n
2log10
(RSS0RSS1
)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
Resultados
Mouse data
0 10 20 30 40 50
0
1
2
3
4
5
6
Análise de cada marcador − LOD Score
Map position (cM)
LOD
Sco
re
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 10 20 30 40 50
10
15
20
25
30
Análise de cada marcador − teste F
Mapa
Est
atís
tica
F
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
Relações entre F e LOD
Sendo df o número de graus de liberdade (1 para RC, 2 para F2):
LOD =n
2log10
[F
(df
n− df − 1
)+ 1
]Proporção da variância fenotípica explicada pelo QTL (herdabilidade,h2):
R2 =RSS0 − RSS1
RSS0= 1− 10−
2nLOD
Note que ocorre redução na SQ do resíduo!
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
Resultados (Mouse)
Marcador Efeito p-valor R2M1 6.87 0.00029 0.1224M2 8.71 0.00000 0.1980M3 9.00 9.14494e− 07 0.2132M4 9.35 3.31917e− 07 0.2283M5 8.80 1.69523e− 06 0.2038M6 9.38 2.43176e− 07 0.2329M7 8.78 1.57553e− 06 0.2050M8 9.15 3.87365e− 07 0.2261M9 8.87 9.66365e− 07 0.2124M10 8.98 6.64918e− 07 0.2180M11 8.90 8.53814e− 07 0.2142M12 7.61 3.48110e− 05 0.1567M13 7.54 4.49148e− 05 0.1527M14 5.65 0.00262 0.0861
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
População F2
Maize Datagy
[1,] 6.25 2 1 0 0 0 0 0 1 1 1 0 0[2,] 3.00 1 1 1 1 1 2 2 2 2 0 0 1[3,] 3.00 1 2 2 2 2 1 1 1 1 2 2 2[4,] 4.00 1 0 0 0 0 0 0 0 0 1 2 2[5,] 3.00 0 0 1 1 1 1 1 1 1 1 1 1
...[167,] 4.00 2 2 1 1 1 0 0 0 0 1 1 1[168,] 3.50 1 0 0 0 0 1 1 1 1 1 1 2[169,] 5.50 0 1 1 1 1 0 1 1 1 1 1 1[170,] 3.00 1 0 0 1 1 1 1 1 1 1 1 1[171,] 5.75 2 2 1 1 0 1 1 1 1 0 0 0
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Verossimilhança
Regressão Linear Múltipla
Modelo para F2
yj = µ+ β1x1j + β2x2j + εj
yj = valor fenotípico do indivíduo j
µ = intercepto
x1j =
1 se o indivíduo j tem genótipoMiMi
0 se o indivíduo j tem genótipoMimi
−1 se o indivíduo j tem genótipo mimi
x2j =
−1/2 se o indivíduo j tem genótipoMiMi
+1 se o indivíduo j tem genótipoMimi
−1/2 se o indivíduo j tem genótipo mimi
β1, β2 = coef. reg. linear (ef. aditivo e de dominância, respect.)
εj ∼ N(0, σ2)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Significado Genético da Análise
Retrocruzamento
Probab. condicionais
P (QQ|MM) = 1− rMQ
P (QQ|Mm) = rMQ
P (Qq|MM) = rMQ
P (Qq|Mm) = 1− rMQ
QQ Qq Efeito Médio
MM Prob. cond. 1 − rMQ rMQ (1 − rMQ)(µ + a) + rMQ(µ + d)Efeito µ + a µ + d
Mm Prob. cond. rMQ 1 − rMQ rMQ(µ + a) + (1 − rMQ)(µ + d)Efeito µ + a µ + d
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Significado Genético da Análise
Retrocruzamento
Esperança
E(µMM − µMm) = [(1− rMQ)(µ+ a) + rMQ(µ+ d)]−[rMQ(µ+ a) + (1− rMQ)(µ+ d)]
= (1− 2rMQ)(a− d)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Significado Genético da Análise
Retrocruzamento
E(µMM − µMm) = (1− 2rMQ)(a− d)
Considerações
Teste: parâmetro composto enviesado
Parâmetro: função do efeito do QTL e da fração de recombinação
SeH0 não for rejeitado, não dá para saber a razão
Se rMQ = 1/2: QTL não ligado
Note que o viés diminui o poder do teste
Se a = d, não há detecção
Pode haver mais de um QTL ligado
O número de QTLs mapeados é estimativa conservativa do númeroreal de QTLs que influenciam o caráter
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Significado Genético da Análise
Propriedades (Single Marker)Vantagens
Fácil implementação e entendimento
Não requer softwares específicos
Não precisa que o mapa tenha sido estimado
Pode ser aplicada para marcadores não ligados
Base para métodos como GWAS e GWS
Limitações
Não é possível saber se há mais de um QTL ligado ao marcador
Não há estimativa da posição do QTL
Considera um único QTL, logo, não permite estudos de epistasia
O efeito do QTL é subestimado
Em função do viés, o poder dos testes é reduzido
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Introdução
Referência
Lander, E. S.; Botstein, D. 1989.Mapping Mendelian factors underlying quantitative traits using RFLPlinkage maps.Genetics 121: 185-199.
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Introdução
Introdução
Método que permite percorrer o genoma sistematicamente embusca de QTLs
Estatisticamente: extensão da análise de cada marcador, permitindoanálise em intervalos
Usa informação dos marcadores flanqueadores dos intervalos(modernamente: informação multiponto)
Abordagem inovadora que permitiu posteriormente odesenvolvimento de vários métodos de análise (CIM, MIM, etc)
Idéia central: considerar o genótipo dos QTLs como dados perdidos,ou variáveis latentes (modelo de misturas)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Introdução
Idéias Iniciais
Mouse Data
1 3 5 7 9 11 14 17 20 23 26 29 32 35 38 41 44 47 50
15
913
1823
2833
3843
4853
5863
6873
7883
8893
9810
3
Distância (cM)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Introdução
Idéias Iniciais
Mouse Data
15
914
2026
3238
4450
5662
6874
8086
9298
●
●
●
●
●
●
●
●
●● ●
● ●
●
01
23
45
6
LOD Score
01
23
45
6
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Introdução
Mistura de Distribuições
Mouse - M1
30 40 50 60 70 80
0.00
0.02
0.04
Genótipo Mm
Peso
Den
sida
de
30 40 50 60 70 80
0.00
0.04
Genótipo MM
Peso
Den
sida
de
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Introdução
Mistura de Distribuições
Mouse - M1
30 40 50 60 70 80
0.00
0.02
0.04
Mistura: MM e Mm
Den
sida
de
Peso
Fre
qüên
cia
30 40 50 60 70 80
015
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Modelo (IM)
Modelo de Misturas
Modelo para Retrocruzamentos
yj = µ+ β∗x∗j + εj
j = 1, 2, . . . , n
yj = valor fenotípico do indivíduo j
µ = intercepto
x∗j =
{1 se o genótipo do QTL do indivíduo j é QQ0 se o genótipo do QTL do indivíduo j é Qq
β∗ = efeito do possível QTL
εj ∼ N(0, σ2)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Modelo (IM)
Verossimilhança
Função densidade de probabilidades da dist. normal (reduzida):
ϕ(z) =1√2Π
e−z2
2
Assumindo distribuição normal dentro de cada classe (para cadagenótipo do QTL):
L(µ, β∗, σ2, θ) =n∏
j=1
[p1jϕ
(yj − µ− β∗
σ
)+ p0jϕ
(yj − µ
σ
)]
Note a diferença com o modelo para “single marker analysis”:
L1(µMM , µMm, σ2) =∏j
ϕ(yj ;µgj , σ2)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Modelo (IM)
Mistura de Distribuições
Note que o modelo considera o genótipo do QTL, não dosmarcadores
Estatisticamente, este é ummodelo de misturas, já que x∗j não éobservável
Genótipo dos QTLs: variável latente
As marcas que flanqueiam o intervalo podem ser usadas para calcularas probabilidades dos genótipos dos QTLs numa dada posição θ
pkj = P (x∗j = k|Mi,Mi+1, θ), k = 0, 1
O viés presente nas análises de cada marcador não está presente, jáque há separação entre efeito e posição dos QTLs
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Modelo (IM)
Marcadores Flanqueadores
RC
xP1
RC1
1-r 2
r2
r2
1-r 2
r2
r2
1-r 2
1-r 2
P2m q mm q m
xP1
1
1
2
2
M Q MM Q M
2
2
1
1
F1 1
1
2
2
M Q Mm q m
1 2m M1 2M M 1M m 2m m12
1 2M M1 2M M
1 2M M1 2M m
1 2M M1 2m M
1 2M M1 2m m
1 2M Q M 1 2m q m
Notação:
iM i+1M Q
1r 2r
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Modelo (IM)
Probabilidades Condicionais
RC, assumindo r1r2 → 0
θ = r1r
pk
Marcador QQ Qq
MiMiMi+1Mi+1(1− r1)(1− r2)
1− r ≈ 1 r1r21− r ≈ 0
MiMiMi+1mi+1(1− r1)r2
r ≈ 1− θr1(1− r2)
r ≈ θ
MimiMi+1Mi+1r1(1− r2)
r ≈ θ(1− r1)r2
r ≈ 1− θ
MimiMi+1mi+1r1r21− r ≈ 0
(1− r1)(1− r2)1− r ≈ 1
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Modelo (IM)
Exemplo - RC
rMiMi+1 = 0.04
θ =r1r
= 0.000.04
= 0.00
Marcador P (QQ|Mi,Mi+1, θ = 0.00) P (Qq|Mi,Mi+1, θ = 0.00)
MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 1.00 θ = 0.00MimiMi+1Mi+1 θ = 0.00 1 − θ = 1.00MimiMi+1mi+1 0.00 1.00
θ =r1r
= 0.010.04
= 0.25
Marcador P (QQ|Mi,Mi+1, θ = 0.25) P (Qq|Mi,Mi+1, θ = 0.25)
MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 0.75 θ = 0.25MimiMi+1Mi+1 θ = 0.25 1 − θ = 0.75MimiMi+1mi+1 0.00 1.00
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Modelo (IM)
Exemplo - RC
rMiMi+1 = 0.04
θ =r1r
= 0.020.04
= 0.50
Marcador P (QQ|Mi,Mi+1, θ = 0.50) P (Qq|Mi,Mi+1, θ = 0.50)
MiMiMi+1Mi+1 1 0MiMiMi+1mi+1 1 − θ = 0.50 θ = 0.50MimiMi+1Mi+1 θ = 0.50 1 − θ = 0.50MimiMi+1mi+1 0 1
θ =r1r
= 0.030.04
= 0.75
Marcador P (QQ|Mi,Mi+1, θ = 0.75) P (Qq|Mi,Mi+1, θ = 0.75)
MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 0.25 θ = 0.75MimiMi+1Mi+1 θ = 0.75 1 − θ = 0.25MimiMi+1mi+1 0.00 1.00
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Estimativas de Máxima Verossimilhança
Algoritmo EM
L(µ, β∗, σ
2, θ) =
n∏j=1
[p1jϕ
(yj − µ − β∗
σ
)+ p0jϕ
(yj − µ
σ
)]
Passo E:
π1j =
p1jϕ
(yj−µ[s]−β∗[s]
σ[s]
)
p1jϕ
(yj−µ[s]−β∗[s]
σ[s]
)+ p0jϕ
(yj−µ[s]
σ[s]
)π0j = 1 − π1j
Passo M:
µ[s+1]
=
∑nj=1(yj − π1j β∗[s]
)
n
β∗[s+1]=
∑nj=1 π1j(yj − µ[s+1])∑n
j=1 π1j
σ2[s+1]=
∑nj=1
[π1j(yj − µ[s+1] − β∗[s+1]
)2 + (1 − π1j)(yj − µ[s+1])2]
n
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Estimativas de Máxima Verossimilhança
Teste da Razão de Verossimilhança
Estimadores: semelhantes aos quad. mín. (πkj : pesos)Os parâmetros são estimados em cada posição (θ)
H0 : β∗ = 0
L0(µ, σ2) =∏
j ϕ(yj ;µ, σ2)
µ = y; σ2 = RSS0/n
log10 L0 = −n2log10 RSS0
H1 : β∗ = 0
L(µ, β∗, σ2) =∏nj=1
[p1jϕ
(yj−µ−β∗
σ
)+ p0jϕ
(yj−µ
σ
)]L1(µ, β∗, σ2); log10 L1
LOD = log10 L1 − log10 L0
LRT = −2 logL0
L1
Mapeamento por Intervalo
É possível testar se há evidência estatística para a presença de umsuposto QTL (em cada posição do genoma)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Estimativas de Máxima Verossimilhança
Interval Mapping
Mouse Data
●
●
●
●
●
●
●
●
●● ●
● ●
●
LOD
01
23
45
6
0 10 20 30 40 50
0
1
2
3
4
5
6
IM (LODs)
Análise dos Marcadores Individualmente Mapeamento por Intervalo Referências
Principais Referências
K.W. Broman, S. SenA Guide to QTL Mapping with R/qtl, 1 ed.New York, Springer, 2009.
M. Lynch, B. WalshGenetics and Analysis of Quantitative Traits, 1 ed.Sinauer Associates, Inc., 1998.
Lander, E. S.; Botstein, D. 1989.Mapping Mendelian factors underlying quantitative traits using RFLPlinkage maps.Genetics 121: 185-199.