Genómica

32
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

description

Genómica. Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013. Sumário. 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências - PowerPoint PPT Presentation

Transcript of Genómica

Page 1: Genómica

Genómica

Licenciatura em Ciências BiomédicasDepartamento de Ciências da Saúde, UCP

Fevereiro 2013

Page 2: Genómica

Genómica 12-13 MJC 2

Sumário4. Anotação de genomas

Anotação e Montagem4.1 Anotação dos genomas eucariotas

Fase computacionalIdentificação de repetições, Alinhamento de outras sequênciasPrevisão de genes ab initio e baseada em evidência

Fase de anotaçãoAnotação automática

Visualização dos resultados da anotaçãoOutputGMOD

Controlo de qualidade de resultadosComo monitorizar os resultados da anotação; Jamborees de anotaçãoPublicação dos dadosSubmissãoActualização

8-04-2013

Page 3: Genómica

Genómica 12-13 MJC 3

Anotação de genomas

• Estrutural– Identificar os genes e as suas fronteiras e

composição em: intrões/exões; operões• Funcional– Ligação das estruturas (sequências) a ontologias

genéticas

8-04-2013

Page 4: Genómica

Genómica 12-13 MJC 4

Realidade atual

• Sequenciação Fácil e barata• Montagem e anotação ainda não

acompanharam:– As sequências tornaram-se menores;– Muitos dos genomas atualmente sequenciados

são de espécies “exóticas”– Começa a haver muitos dados:• Quantidade• Qualidade (RNA-seq)

8-04-2013

PROJETOS DE NATUREZA DIFERENTE

Page 5: Genómica

Genómica 12-13 MJC 5

Da montagem à Anotação

• Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada.– N50– Tamanho das gaps no scafold– Número de gaps por scafold– Cobertura do genoma. Devem escolher-se high quality

drafts (<=> 90% do genoma completo)– Cobertura em termos de genes. Quantos genes são

identificados em relação à quantidade estimada.– Cobertura de genes >> cobertura do genoma. Porquê?

8-04-2013

Page 6: Genómica

Genómica 12-13 MJC 6

Que N50?• Deve ser próximo

do tamanho médio do gene para essa espécie.

• Porquê?– Assim em média

metade dos genes estão contidos num único scafold.

8-04-2013

DECLIVE?

UTRsSplicing Alternativo

Page 7: Genómica

Genómica 12-13 MJC 7

As informações anteriores permitem

• Sabendo o tamanho esperado do genoma estimar o tamanho médio dos genes DECLIVE N50 desejável.

• Ferramentas como as do Core Eukaryotic Genes Mapping Approach (CEGMA) são úteis.– Ferramenta que usa 458 proteínas altamente conservadas

entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold.

– Os dados podem ser usadas como modelos para a determinação de exões/intrões.

8-04-2013

Page 8: Genómica

Genómica 12-13 MJC 8

Se

• A montagem estiver muito incompleta• N50 for demasiado pequeno….

– A melhor aposta é fazer mais sequenciação.

8-04-2013

Page 9: Genómica

Genómica 12-13 MJC 9

FASE DE COMPUTAÇÃO

8-04-2013

Page 10: Genómica

Genómica 12-13 MJC 10

Identificação de zonas repetitivas

• Baixa complexidade– Trinucleótidos

• Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements.

• Consituem cerca de 47% do genoma humano• Nem sempre estão completos e as extremidades

não estão bem definidas.• As repetições nem sempre são conservadas.

8-04-2013

Page 11: Genómica

Genómica 12-13 MJC 11

Identificação de zonas repetitivas

• Começa por criar-se uma biblioteca de repetições para cada anotação:– Baseada em homologias– De novo (nestas ferramentas geralmente são incluidas

outras repetições como proteínas com várias cópias no genoma como histonas e tubulinas).

• Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias.

• Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê?

8-04-2013

Page 12: Genómica

Genómica 12-13 MJC 12

ALINHAMENTO

8-04-2013

Page 13: Genómica

13

Alinhamento das evidências já conhecidas

• ESTs• RNA-seq• Proteínas• Do mesmo ou de organimos parecidos.• O alinhamento é avaliado por % identidade ou % de semelhança.• Depois faz-se o agrupamento:

– Seleção dos alinhamentos repetidos– Identificação de alinhamentos muito expressos por exemplo (estes são suportados

por várias ESTs)

• A informação das RNA-seq é essencial mas computacionalmente ainda não está muito explorada. Os dados gerados são muitos e complexos e nem sempre é fácil integrá-los no algoritmo.

Genómica 12-13 MJC8-04-2013

Page 14: Genómica

14

Previsão de genes ab initio

8-04-2013 Genómica 12-13 MJC

• Usam modelos matemáticos e não evidência extra.• Podem ser uteis quando não há evidências experimetais sobre o genoma• Mas são menos poderosos.:

– Referem apenas as CDs e não UTRs ou sequências de splicing alternativo.– Precisam de dados específicos para o organismo como frequências dos codões,

tamanho dos exões/intrões e % GC.– Precisam de ser treinados com dados o mais perto possível da espécie em análise.– Existem dados para os genomas clássicos mas faltam para espécies mais

“exóticas”.– Aqui os dados do GEGMA podem ajudar.

• Poedm atingir os 100% de precisão mas normalmente andam pelos 60-70% no que se refere à previsão de exões/intrões.

Page 15: Genómica

Genómica 12-13 MJC 15

PREVISÕES BASEADAS EM EVIDÊNCIA

8-04-2013

Page 16: Genómica

Genómica 12-13 MJC 16

Baseada noutro tipo de dados

• Usa EST e RNA-seq e até dados de proteómica.• Cada vez mais as soluções usadas passam

pelos dois tipos de aproximações.

8-04-2013

Page 17: Genómica

Genómica 12-13 MJC 17

FASE DA ANOTAÇÃO

8-04-2013

Page 18: Genómica

Genómica 12-13 MJC 18

Anotação

• Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases:– Fase da computação

• São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado.

• São geradas previsões ab initio ou baseadas em evidências. – Fase da anotação

• Feita por pipelines • Anotam o início e fim de cada gene, exões/intrões e UTRs

8-04-2013

Page 19: Genómica

Genómica 12-13 MJC 19

Fase da anotação

8-04-2013

PrevisãoCDCs

Anotação

Page 20: Genómica

Genómica 12-13 MJC 20

Manual vs automática

• Era feito à mão• Hoje é feito automáticamente dado o volume de dados

existentes.• Os anotadores automáticos:

– Usam a informação fornecida para encontrar genes.– Alinham essas previsões para obter o melhor consenso.– Alguns usam um método de aprendizagem não

supervisionada (não há dados modelo)– Outros usam métodos de aprendizagem supervisionada

(estimam os erros cometidos com bases em conjuntos de dados conhecidos).

8-04-2013

Page 21: Genómica

Genómica 12-13 MJC 21

VISUALIZAÇÃO DA ANOTAÇÃO

8-04-2013

Page 22: Genómica

Genómica 12-13 MJC 22

Os resultados da anotação devem ter:• Estrutura intrão/exão• Codões de inicio e de termino• UTRs• Splicing alternativo• Apresentar os alinhamentos que suportam as previsões • Há 4 formatos mais usados: GeneBank; GFF3, GTF e

EMBL. Estes formatos premitem:– Que os resultados sejam usados por outras ferramentas– Uso de vocabulários controlados em termos de ontologias– Permitem análises genómicas comparativas

8-04-2013

Page 23: Genómica

Genómica 12-13 MJC 23

Genetic Model Organism Database (GMOD)• Ferramentas de descrição e análise, descrição,

visualização e redestribuição de anotações de genomas.

8-04-2013

Page 24: Genómica

Genómica 12-13 MJC 24

CONTROLO DE QUALIDADE

8-04-2013

Page 25: Genómica

Genómica 12-13 MJC 25

Identificação de anotações incorretas

• Essencial pois:– Propagam os erros pois as anotações existentes

são muitas vezes usadas como modelos para as anotações futuras.

8-04-2013

Page 26: Genómica

Genómica 12-13 MJC 26

Como fazer o controlo de qualidade?

8-04-2013

SN= SensitivitySP=SpecificityAC=Accuracy

SN= TP/(TP+FN)SP= TP/(TP+FP)AC=(SN+SP)/2TP= True positivesFN=False negativesTN=True Negatives

AED= Annotation Edit DistanceAED= 1-AC

Page 27: Genómica

Genómica 12-13 MJC 27

PUBLICAÇÃO DOS DADOS

8-04-2013

Page 28: Genómica

Genómica 12-13 MJC 28

Bases de dados de Genomas

Bases de dados globais GeneBank Ensembl

Bases de dados específicasBeeBaseGramenePlant GDBPhytozomeVectorBase

8-04-2013

Page 29: Genómica

Genómica 12-13 MJC 29

Depois da publicação….

Deve ser feita periodicamente a atualização

8-04-2013

Page 30: Genómica

Genómica 12-13 MJC 30

CONCLUSÕES

8-04-2013

Page 31: Genómica

Genómica 12-13 MJC 31

Em suma

• Sequenciação mais barata Mais dados para tratar• Alteração dos paradigmas do número e estrutura dos

genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs.

• O controlo de qualidade é tb um obstáculo• Não basta produzir os genomas é necessário anotá-

los e atualizar a sua anotação periodicamente.

8-04-2013

Page 32: Genómica

Genómica 12-13 MJC 32

Bibliografia

• Artigo: “ A beginner’s guide to eukariotic genome annotation”. Na pasta do molar.

8-04-2013