Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em...

38
Máxima Verossimilhan ça ou Maximum Likelihood

Transcript of Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em...

Page 1: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Máxima Verossimilhança

ou Maximum Likelihood

Page 2: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Máxima Verossimilhança

Criada por R. A. Fisher em 1912Introduzida na filogenia por

Edwards & Cavalli-Sforza em 1964

Apesar de ser de importância central na estatística, é usualmente omitida nos cursos de biologia...

Page 3: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Descrição da MVVerossimilhança é a probabilidade dos

DADOS sob um determinado modelo.Por que não chamar simplesmente de

probabilidade?Na verdade é uma probabilidade, só que

estamos falando da probabilidade dos dados (que já foram coletados) e não da ocorrência de um evento (que ainda não ocorreu)

Page 4: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Moedas...No lançamento de uma moeda

você obteve uma cara. Este é o dadodado.

Se você achar que a moeda é uma moeda comum (modelo), o dadodado tem probabilidade de ½½.

Porém se você achar que a moeda tem duas caras (modelo), o dadodado tem probabilidade de 11.

Page 5: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Evolução Molecular

Dados = alinhamentoModelo = árvore + mecanismos

de modificações moleculares Normalmente chamamos os

mecanismos de modelomodelo e a árvore de árvoreárvore.

Page 6: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Modelos Moleculares (ou de DNA)

Um modelo tem duas partes:Composição

Proporção dos quatro nucleotídeos – Pode-se assumir proporções iguais ou pode-se deixar que os dados decidam

ProcessoEm que taxa um nucleotídeo muda

para o outro? (Jukes-Cantor? Kimura 2 P???...GTR???)

Page 7: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

A verossimilhança de uma sequência sequência composta por uma uma base base - AA

Não precisamos da parte do modelo envolvida no processoprocesso;Modelos de composição:

1) Todas as bases são A . L=12) Todas as bases são C. L=03) A ocorre numa frequência de 33%. L=0.33

Likelihood (L)=verossimilhança)

Page 8: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Composição: ¼ para cada base L = 1/4 x 1/4 = 1/16 = 0,0625

Composição: 40% A e 10% CL = 0.4 x 0.1 = 0.04

A verossimilhança de uma sequência de duas bases - AC

Page 9: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Regra GeralA soma das verossimilhanças

(assim como acontece com as probabilidades) deve ser igual a 1Se há 16 possibilidades de di-

nucleotídeos deferentes, e você quer calcular a verossimilhança de todos eles, a soma deve ser 1

Page 10: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

O Processo...Esta parte do modelo é

necessária quando duas ou mais sequências estão conectadas por uma árvore.

Pode ser descrito porSentençasEquaçõesMatrizes de números

Page 11: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

0.1 0.4 0.2 0.3

P =

(Processo)

0.976 0.01 0.0070.007

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

π =(Conteúdo)

MV de duas sequências com quatro bases cada

Page 12: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

P =

(Processo)

0.976 0.01 0.0070.007 =1

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

A C G T

A

C

T

G

DE

Para:

Observação Importante...

Page 13: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

0.1 0.4 0.2 0.3

P =

(Processo)

0.976 0.01 0.0070.007

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

π =(Conteúdo)

MV de duas sequências com quatro bases cada

Page 14: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Dados Seja o alinhamento:

C C A TC C G T

A verossimilhança de sair da primeira para a segunda sequência é:L = πC PCC πC PCC πA PAG πT PTT=

=0.4 x 0.983 x 0.4 x 0.983 x 0.1 x 0.007 x 0.3 x 0.979=0.0000300

Page 15: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Diferentes tamanhos de ramos

O modelo anterior não leva em conta a possibilidade de diferentes tamanhos de ramos...Ramo curto – pequena

probabilidade de modificações, grande probabilidade de permanência no mesmo estado

Ramo longo – grande probabilidade de modificações

Page 16: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Digamos então que a matriz P corresponda a uma certa Certa Distância Evolutiva (cde)

Já sabemos que a verossimilhança do exemplo anterior com 1 cde foi de L = 0.0000300, qual será a verossimilhança com 2 ou 3 cdes?

Diferentes tamanhos de ramos

Page 17: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Diferentes tamanhos de ramos

0.953 0.020.013 0.015

0.005 0.966 0.010.02

0.007 0.020.959 0.015

0.005 0.026 0.010.959

0.93 0.0290.019 0.022

0.007 0.9490.015 0.029

0.01 0.0290.939 0.022

0.007 0.0380.015 0.94

0.976 0.010.007 0.007

0.002 0.9830.005 0.01

0.003 0.010.979 0.007

0.002 0.0130.005 0.979

P =

P2= P3=

1 cde

L= 0.0000300

2 cdes

L = 0.0000559

3 cdes

L = 0.0000782

Page 18: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Diferentes tamanhos de ramos

Page 19: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Se P for elevado a potências muito altas (tamanhos de ramos muito longos, π acaba aparecendo...)0.1 0.4 0.2

0.30.1 0.4 0.2

0.30.1 0.4 0.2

0.30.1 0.4 0.2

0.3

P10 =6

Diferentes tamanhos de ramos

Page 20: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Matrizes de TaxasO problema de P é que os tamanhos

de ramos são obtidos em cdes, unidades arbitrárias muito pouco convenientes...

O ideal é que a matriz revele tamanhos de ramos em termos de substituições por sítio

Mais importante que isso é extrair a matriz de taxas separadas de π.

Page 21: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Matrizes de TaxasCom um pouco de álgebra,

obtém-se a matriz de taxas independente do conteúdocom isso não é necessária a

inclusão da probabilidade de não-modificação:

Page 22: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

No PAUP...Use o comando Lset para expressar

a matriz de taxas da seguinte maneira:gt = 1.0 (default que não entra na

matriz)a c, ag, at, cg, ct (em

valores referentes a um. Neste caso, com a matriz anterior temos:

Lset rmat=(1.0, 1.3333, 1.0, 1.0, 1.3333)

Page 23: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Como escolher o melhor modelo para MV?

Programa ModelTestTrata-se de um script do PAUP, que

toma como base o alinhamento e uma árvore feita rapidamente com NJ.

Tendo a árvore e o alinhamento, 54 modelos diferentes são avaliados.

A cada modelo é atribuído um valor de Verossimilhança (L) (na verdade –logL)

Page 24: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

JC+I

JC+G

JC+I+G

JC

Tajima – Nei ou Felsenstein 81

Page 25: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Jukes-Cantor (d) - JCCorreção que leva em conta a

possibilidade de substituições de bases

A T C G A - α α α T α - α α C α α - α G α α α -

Page 26: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Tajima-Nei (F81) Leva em conta apenas as diferentes

frequências das bases: A T C G

A - αgT αgC α1gG

T αgA - αgC α1gG

C αgA αgT - α1gG

G αgA αgT αgC -

gA, gT, gC, gG = frequência de bases

Page 27: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Parâmetro a ser ajustado = α

Distâncias Gamma

α=0,2

α=1α=2

α=5

α=10

Page 28: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Kimura 2P

Tamura-Nei

Page 29: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Kimura 2 parâmetros – K80

Correção que leva em conta probabilidades diferentes de transições e transversões

A T C G A - β β α T β - α β C β α - β G α β β -

Page 30: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Tamura-Nei (TrN) Leva em conta as diferenças em transições

e transversões (α e β), além da frequência diferencial de bases (g).

A T C G A - βgT βgC αα11ggGG

T βgA - αα22ggCC βgG

C βgA αα22ggTT - βgG

G αα11ggAA βgT βgC -

gA, gT, gC, gG = frequência de bases

Page 31: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

GTR

Page 32: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

General Time Reversible (GTR)

Leva em conta diferentes frequências de bases e de substituições

A T C G A - agT bgC c1gG

T agA - dgC e1gG

C bgA dgT - f1gG

G cgA egT fgC -

gA, gT, gC, gG = frequência de bases

Page 33: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Resultados do ModelTestLikelihood Ratio Test

hLRTs = 2(lnL1 – lnL0)dist. como qui-quadrado, com grausde liberdade igual à diferença do número de parâmetros

Page 34: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Resultados do ModelTestLikelihood Ratio Test

1

1 JC: nst=1 base=equal rates=equalPinv=0 F81: nst=1 base=est rates=equalPinv=0

1 parâmetro

4 parâmetros

2

2F81: nst=1 base=est tratio=est rates=equal Pinv=0 1 parâmetro

hLRTs = 2(lnL1 – lnL0)dist. como qui-quadrado, com grausde liberdade igual à diferença do número de parâmetros

Page 35: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Resultados do ModelTest Akaike Information Criterion

AIC = -2LnL + 2K

Page 36: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

O que fazer com tantos números?

Colar a linha Lset do resultado do teste de AIC:

Page 37: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Comandos do PAUPSet criterion=LikelihoodLset (colado do modeltest)Hsearch ?

Hsearch swap=TBR start=NJ Bootstrap ?

Search=heuristic/swap=NNI start=NJ

Page 38: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

BIC (Bayesian Information Criterion)

BIC = -2LnL + K ln (n)

Encontra modelos mais simples que o AIC, pois dá uma penalidade ainda maior para modelos com excesso de parâmetros – dá para calcular no MEGA 5.0