Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY...

24
Seleção de modelos e miscelânea Almir R. Pepato

Transcript of Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY...

Page 1: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Seleção de modelos e miscelânea

Almir R. Pepato

Page 2: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Modelos de substitição da família GTR

A

C T

G

GTR

HKY

A

C T

Ga

a

b

b b

b

A

C T

G

A

C T

G

A

C T

G

Jukes-Cantor

Felsenstein K2P

Page 3: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Duas estratégiasVerossimilhança:

Nesse caso, deve-se levar em conta parâmetros que não são de interesse imediato. Uma forma de contornar o problema é estimar os valores desses parâmetros que maximizam L.

Bayesiana:

Obtêm-se a probabilidade marginal dos dados dado apenas o modelo, integrando-se as árvores, comprimentos de ramo e parâmetros dos modelos de substituição:

Na verdade a forma é um cubo n-dimensional.

32.048.020.0

38.014.019.005.0

33.006.022.005.0

29.012.007.010.0

3

2

1

321

Probabilidades conjuntas

Probabilidades marginais

árvores

Com

prim

ento

s do

s ra

mos

Page 4: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

hLRTs: “Hierarquical likelihood ratio tests”

Hipótese alternativa: Máxima verossimilhança do modelo mais complexo

Hipótese nula: Máxima verossimilhança do modelo mais simples

Se os modelos são aninhados, pode ser interpretado como um teste de X2, com os graus de liberdade dado pela diferença no número de parâmetros entre os dois modelos.

Quantos parâmetros livres tem um modelo?

Parâmetros relacionados às taxas de substituição: r(AC), r(AG), r(AT), r(CG), e r(CT), com r(GT) = 1:5 parâmetros livres.Frequência dos nucleotídeos: π A, π C, π G, com π T = 1 – (π A + π C + π G): 3 parâmetros livres.

Page 5: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

hLRTs: Desvantagens

1- Nas aplicações práticas os modelos devem ser aninhados.2-Pode ser influenciado pela ordem em que as comparações são feitas3-Tende a escolher modelos mais parametrizados.

Page 6: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

AIC: “Akaike Information Criteria”Mede quanta “informação” se perde em utilizar um modelo ao aproximar o fenômeno real. O modelo com o menor AIC possível é preferido.

K é o número de parâmetros livres do modelo e ramos na árvore (T-3)

Page 7: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Fatores Bayesianos

2ln(B10) B10 Evidência contra M0

0 a 2 1 a 3Não é digno de nada mais que ser mencionado

2 a 6 3 a 20 Positivo

6 a 10 20 a 150 Forte

> 10 150 Muito forte

Pode ser estimado a partir da média harmônica da lnL na fase estacionária da cadeia de Markov (o MrBayes dá esse valor automaticamente).Não necessita que os modelos sejam aninhados.

Page 8: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

BIC: “Bayesian Information Criterion” e DT: “Performance-based selection)

BIC: Os fatores Bayesianos podem ser difíceis de estimar. Uma maneira aproximada é utilizar o BIC

DT: Seleciona os modelos baseado na sua capacidade de estimar corretamente os comprimentos de ramo.

Page 9: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Levando em conta a incerteza dos modelos na incerteza das inferências

A vantagem de métodos como AIC, BIC e DT é que podemos ranquear os modelos, ao invés de compará-los dois a dois, como fazemos com os fatores Bayesianos e hLRTs. Assim podemos estimar o quanto podemos confiar na nossa escolha:

Menor valor de AIC para os modelos examinados

Podemos utilizar esses valores para calcular o “peso relativo” dos modelos e inclusive combinar eles em um intervalo de confiança. Podemos usar essa abordagem para tirar uma “média” ponderada dos parâmetros dos modelos .

Page 10: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

E se der errado???

Árvore obtida por Naylor & Brown, 1998 a partir de todos os genes codificantes de proteínas dos genomas mitocondrias das espécies estudadas.

Page 11: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Pré-Processamento1- Faça o BLAST das sequências suspeitas subdivididas em fragmentos menores.

2- Verifique se não houve erros de edição durante o alinhamento.

Page 12: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Pré-processamento3- Você têm certeza de que os genes são todos ortólogos? 4- Uma árvore bifurcante é um modelo adequado para os dados?

Page 13: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Artefatos por atração de ramos longos

Como detectar:1- O clado produzido pelo artefato de atração de ramos longos não é recuperado com o emprego de métodos estatísticos.2- A topologia muda ao retirar-se o grupo externo.

Como resolver:

1- Amostrar mais espécies.2- Amostrar genes que evoluíram de maneira distinta.3-Excluir ramos longos.

Page 14: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Artefatos causados por desvio na composição de nucleotídeos

Page 15: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Artefatos causados por desvio na composição de nucleotídeos

Como detectar:1- Testes de X2 para a hipótese de homogeneidade (TREE-PUZZLE, PAUP*).2-hLRT para um modelo que preveja não estacionalidade da frequência de nucleotídeos.

Como resolver:

1- Recodificar os nucleotídeos com Y e R (pirimidinas e purinas)2-Utilizar o método de distâncias LogDet 3-Utilizar um modelo que não tenha por premissa a estacionalidade na frequência de nucleotídeos.

Page 16: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Os dados são informativos?

Page 17: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Os dados são informativos?

Page 18: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Os dados são informativos?“Likelihood-mapping Analysis”

Sinal em forma de árvore: 1,2,3

Sinal em forma de rede (parcialmente resolvido): 4,5,6.

Sinal em estrela: 7

Page 19: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Os dados são informativos?

No estudo citado, a maior parte dos pontos está próximo ao centro dos triângulos, mostrando que os dados são incapazes de resolver o problema.

Page 20: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Os dados são informativos?

Page 21: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Escolha do grupo externo

“Sugerimos uma abordagem que empregue um critério múltiplo para a seleção do grupo externo com base: (1) taxa de substituição lenta, (2) composição nucleotídoca (conteúdo de G + C) similar ao do grupo interno, (3) uma nova estimativa de viés na composição das cadeias , (4) a habilidade do grupo externo de evitar um “efeito por derivação aleatória” e (5) proximidade evolutiva em relação ao grupo interno.

Page 22: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Escolha do grupo externoO trabalho lidou com dois fenômenos:1- Existe uma deficiência nos artrópodes em reparar inserções errôneas de A’s durante a duplicação.

2-Um viés devido ao fato que a deaminação (que converte A em G e C em T) tem mais oportunidade de ocorrer na cadeia retardatária e que essa cadeia pode mudar devido à mutações na região reguladora. Fenômeno parecido ocorre com humanos, temos 40% de pares GC, mas apenas 5% de G na cadeia codificante.

Page 23: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Lacunas na matriz de caracteres

Phalangiotarbida

Trigonotarbida

Ricinulei

Um possível critério: a presença de apomorfias que ligam o táxon com muitos dados faltantes a um dos táxos mais completos.

Page 24: Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Partições de dados são incongruentes

Para obter a significância: (1) Criam-se partições do mesmo tamanho das originais, mas através do sorteio das várias matrizes simultaneamente, (2) Calcula-se a soma das árvores mais parcimoniosas de cada uma dessas réplicas, produzindo uma distribuição, (3) Calcula-se a probabilidade de que a soma dos comprimentos originais caia dentro dessa distribuição: uma baixa probabilidade implica em incongruência.