Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em...

Post on 17-Apr-2015

114 views 2 download

Transcript of Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em...

Máxima Verossimilhança

ou Maximum Likelihood

Máxima Verossimilhança

Criada por R. A. Fisher em 1912Introduzida na filogenia por

Edwards & Cavalli-Sforza em 1964

Apesar de ser de importância central na estatística, é usualmente omitida nos cursos de biologia...

Descrição da MVVerossimilhança é a probabilidade dos

DADOS sob um determinado modelo.Por que não chamar simplesmente de

probabilidade?Na verdade é uma probabilidade, só que

estamos falando da probabilidade dos dados (que já foram coletados) e não da ocorrência de um evento (que ainda não ocorreu)

Moedas...No lançamento de uma moeda

você obteve uma cara. Este é o dadodado.

Se você achar que a moeda é uma moeda comum (modelo), o dadodado tem probabilidade de ½½.

Porém se você achar que a moeda tem duas caras (modelo), o dadodado tem probabilidade de 11.

Evolução Molecular

Dados = alinhamentoModelo = árvore + mecanismos

de modificações moleculares Normalmente chamamos os

mecanismos de modelomodelo e a árvore de árvoreárvore.

Modelos Moleculares (ou de DNA)

Um modelo tem duas partes:Composição

Proporção dos quatro nucleotídeos – Pode-se assumir proporções iguais ou pode-se deixar que os dados decidam

ProcessoEm que taxa um nucleotídeo muda

para o outro? (Jukes-Cantor? Kimura 2 P???...GTR???)

A verossimilhança de uma sequência sequência composta por uma uma base base - AA

Não precisamos da parte do modelo envolvida no processoprocesso;Modelos de composição:

1) Todas as bases são A . L=12) Todas as bases são C. L=03) A ocorre numa frequência de 33%. L=0.33

Likelihood (L)=verossimilhança)

Composição: ¼ para cada base L = 1/4 x 1/4 = 1/16 = 0,0625

Composição: 40% A e 10% CL = 0.4 x 0.1 = 0.04

A verossimilhança de uma sequência de duas bases - AC

Regra GeralA soma das verossimilhanças

(assim como acontece com as probabilidades) deve ser igual a 1Se há 16 possibilidades de di-

nucleotídeos deferentes, e você quer calcular a verossimilhança de todos eles, a soma deve ser 1

O Processo...Esta parte do modelo é

necessária quando duas ou mais sequências estão conectadas por uma árvore.

Pode ser descrito porSentençasEquaçõesMatrizes de números

0.1 0.4 0.2 0.3

P =

(Processo)

0.976 0.01 0.0070.007

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

π =(Conteúdo)

MV de duas sequências com quatro bases cada

P =

(Processo)

0.976 0.01 0.0070.007 =1

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

A C G T

A

C

T

G

DE

Para:

Observação Importante...

0.1 0.4 0.2 0.3

P =

(Processo)

0.976 0.01 0.0070.007

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

π =(Conteúdo)

MV de duas sequências com quatro bases cada

Dados Seja o alinhamento:

C C A TC C G T

A verossimilhança de sair da primeira para a segunda sequência é:L = πC PCC πC PCC πA PAG πT PTT=

=0.4 x 0.983 x 0.4 x 0.983 x 0.1 x 0.007 x 0.3 x 0.979=0.0000300

Diferentes tamanhos de ramos

O modelo anterior não leva em conta a possibilidade de diferentes tamanhos de ramos...Ramo curto – pequena

probabilidade de modificações, grande probabilidade de permanência no mesmo estado

Ramo longo – grande probabilidade de modificações

Digamos então que a matriz P corresponda a uma certa Certa Distância Evolutiva (cde)

Já sabemos que a verossimilhança do exemplo anterior com 1 cde foi de L = 0.0000300, qual será a verossimilhança com 2 ou 3 cdes?

Diferentes tamanhos de ramos

Diferentes tamanhos de ramos

0.953 0.020.013 0.015

0.005 0.966 0.010.02

0.007 0.020.959 0.015

0.005 0.026 0.010.959

0.93 0.0290.019 0.022

0.007 0.9490.015 0.029

0.01 0.0290.939 0.022

0.007 0.0380.015 0.94

0.976 0.010.007 0.007

0.002 0.9830.005 0.01

0.003 0.010.979 0.007

0.002 0.0130.005 0.979

P =

P2= P3=

1 cde

L= 0.0000300

2 cdes

L = 0.0000559

3 cdes

L = 0.0000782

Diferentes tamanhos de ramos

Se P for elevado a potências muito altas (tamanhos de ramos muito longos, π acaba aparecendo...)0.1 0.4 0.2

0.30.1 0.4 0.2

0.30.1 0.4 0.2

0.30.1 0.4 0.2

0.3

P10 =6

Diferentes tamanhos de ramos

Matrizes de TaxasO problema de P é que os tamanhos

de ramos são obtidos em cdes, unidades arbitrárias muito pouco convenientes...

O ideal é que a matriz revele tamanhos de ramos em termos de substituições por sítio

Mais importante que isso é extrair a matriz de taxas separadas de π.

Matrizes de TaxasCom um pouco de álgebra,

obtém-se a matriz de taxas independente do conteúdocom isso não é necessária a

inclusão da probabilidade de não-modificação:

No PAUP...Use o comando Lset para expressar

a matriz de taxas da seguinte maneira:gt = 1.0 (default que não entra na

matriz)a c, ag, at, cg, ct (em

valores referentes a um. Neste caso, com a matriz anterior temos:

Lset rmat=(1.0, 1.3333, 1.0, 1.0, 1.3333)

Como escolher o melhor modelo para MV?

Programa ModelTestTrata-se de um script do PAUP, que

toma como base o alinhamento e uma árvore feita rapidamente com NJ.

Tendo a árvore e o alinhamento, 54 modelos diferentes são avaliados.

A cada modelo é atribuído um valor de Verossimilhança (L) (na verdade –logL)

JC+I

JC+G

JC+I+G

JC

Tajima – Nei ou Felsenstein 81

Jukes-Cantor (d) - JCCorreção que leva em conta a

possibilidade de substituições de bases

A T C G A - α α α T α - α α C α α - α G α α α -

Tajima-Nei (F81) Leva em conta apenas as diferentes

frequências das bases: A T C G

A - αgT αgC α1gG

T αgA - αgC α1gG

C αgA αgT - α1gG

G αgA αgT αgC -

gA, gT, gC, gG = frequência de bases

Parâmetro a ser ajustado = α

Distâncias Gamma

α=0,2

α=1α=2

α=5

α=10

Kimura 2P

Tamura-Nei

Kimura 2 parâmetros – K80

Correção que leva em conta probabilidades diferentes de transições e transversões

A T C G A - β β α T β - α β C β α - β G α β β -

Tamura-Nei (TrN) Leva em conta as diferenças em transições

e transversões (α e β), além da frequência diferencial de bases (g).

A T C G A - βgT βgC αα11ggGG

T βgA - αα22ggCC βgG

C βgA αα22ggTT - βgG

G αα11ggAA βgT βgC -

gA, gT, gC, gG = frequência de bases

GTR

General Time Reversible (GTR)

Leva em conta diferentes frequências de bases e de substituições

A T C G A - agT bgC c1gG

T agA - dgC e1gG

C bgA dgT - f1gG

G cgA egT fgC -

gA, gT, gC, gG = frequência de bases

Resultados do ModelTestLikelihood Ratio Test

hLRTs = 2(lnL1 – lnL0)dist. como qui-quadrado, com grausde liberdade igual à diferença do número de parâmetros

Resultados do ModelTestLikelihood Ratio Test

1

1 JC: nst=1 base=equal rates=equalPinv=0 F81: nst=1 base=est rates=equalPinv=0

1 parâmetro

4 parâmetros

2

2F81: nst=1 base=est tratio=est rates=equal Pinv=0 1 parâmetro

hLRTs = 2(lnL1 – lnL0)dist. como qui-quadrado, com grausde liberdade igual à diferença do número de parâmetros

Resultados do ModelTest Akaike Information Criterion

AIC = -2LnL + 2K

O que fazer com tantos números?

Colar a linha Lset do resultado do teste de AIC:

Comandos do PAUPSet criterion=LikelihoodLset (colado do modeltest)Hsearch ?

Hsearch swap=TBR start=NJ Bootstrap ?

Search=heuristic/swap=NNI start=NJ

BIC (Bayesian Information Criterion)

BIC = -2LnL + K ln (n)

Encontra modelos mais simples que o AIC, pois dá uma penalidade ainda maior para modelos com excesso de parâmetros – dá para calcular no MEGA 5.0