Genómica
description
Transcript of Genómica
Genómica
Licenciatura em Ciências BiomédicasDepartamento de Ciências da Saúde, UCP
Fevereiro 2013
Genómica 12-13 MJC 2
Sumário4. Anotação de genomas
Anotação e Montagem4.1 Anotação dos genomas eucariotas
Fase computacionalIdentificação de repetições, Alinhamento de outras sequênciasPrevisão de genes ab initio e baseada em evidência
Fase de anotaçãoAnotação automática
Visualização dos resultados da anotaçãoOutputGMOD
Controlo de qualidade de resultadosComo monitorizar os resultados da anotação; Jamborees de anotaçãoPublicação dos dadosSubmissãoActualização
8-04-2013
Genómica 12-13 MJC 3
Anotação de genomas
• Estrutural– Identificar os genes e as suas fronteiras e
composição em: intrões/exões; operões• Funcional– Ligação das estruturas (sequências) a ontologias
genéticas
8-04-2013
Genómica 12-13 MJC 4
Realidade atual
• Sequenciação Fácil e barata• Montagem e anotação ainda não
acompanharam:– As sequências tornaram-se menores;– Muitos dos genomas atualmente sequenciados
são de espécies “exóticas”– Começa a haver muitos dados:• Quantidade• Qualidade (RNA-seq)
8-04-2013
PROJETOS DE NATUREZA DIFERENTE
Genómica 12-13 MJC 5
Da montagem à Anotação
• Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada.– N50– Tamanho das gaps no scafold– Número de gaps por scafold– Cobertura do genoma. Devem escolher-se high quality
drafts (<=> 90% do genoma completo)– Cobertura em termos de genes. Quantos genes são
identificados em relação à quantidade estimada.– Cobertura de genes >> cobertura do genoma. Porquê?
8-04-2013
Genómica 12-13 MJC 6
Que N50?• Deve ser próximo
do tamanho médio do gene para essa espécie.
• Porquê?– Assim em média
metade dos genes estão contidos num único scafold.
8-04-2013
DECLIVE?
UTRsSplicing Alternativo
Genómica 12-13 MJC 7
As informações anteriores permitem
• Sabendo o tamanho esperado do genoma estimar o tamanho médio dos genes DECLIVE N50 desejável.
• Ferramentas como as do Core Eukaryotic Genes Mapping Approach (CEGMA) são úteis.– Ferramenta que usa 458 proteínas altamente conservadas
entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold.
– Os dados podem ser usadas como modelos para a determinação de exões/intrões.
8-04-2013
Genómica 12-13 MJC 8
Se
• A montagem estiver muito incompleta• N50 for demasiado pequeno….
– A melhor aposta é fazer mais sequenciação.
8-04-2013
Genómica 12-13 MJC 9
FASE DE COMPUTAÇÃO
8-04-2013
Genómica 12-13 MJC 10
Identificação de zonas repetitivas
• Baixa complexidade– Trinucleótidos
• Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements.
• Consituem cerca de 47% do genoma humano• Nem sempre estão completos e as extremidades
não estão bem definidas.• As repetições nem sempre são conservadas.
8-04-2013
Genómica 12-13 MJC 11
Identificação de zonas repetitivas
• Começa por criar-se uma biblioteca de repetições para cada anotação:– Baseada em homologias– De novo (nestas ferramentas geralmente são incluidas
outras repetições como proteínas com várias cópias no genoma como histonas e tubulinas).
• Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias.
• Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê?
8-04-2013
Genómica 12-13 MJC 12
ALINHAMENTO
8-04-2013
13
Alinhamento das evidências já conhecidas
• ESTs• RNA-seq• Proteínas• Do mesmo ou de organimos parecidos.• O alinhamento é avaliado por % identidade ou % de semelhança.• Depois faz-se o agrupamento:
– Seleção dos alinhamentos repetidos– Identificação de alinhamentos muito expressos por exemplo (estes são suportados
por várias ESTs)
• A informação das RNA-seq é essencial mas computacionalmente ainda não está muito explorada. Os dados gerados são muitos e complexos e nem sempre é fácil integrá-los no algoritmo.
Genómica 12-13 MJC8-04-2013
14
Previsão de genes ab initio
8-04-2013 Genómica 12-13 MJC
• Usam modelos matemáticos e não evidência extra.• Podem ser uteis quando não há evidências experimetais sobre o genoma• Mas são menos poderosos.:
– Referem apenas as CDs e não UTRs ou sequências de splicing alternativo.– Precisam de dados específicos para o organismo como frequências dos codões,
tamanho dos exões/intrões e % GC.– Precisam de ser treinados com dados o mais perto possível da espécie em análise.– Existem dados para os genomas clássicos mas faltam para espécies mais
“exóticas”.– Aqui os dados do GEGMA podem ajudar.
• Poedm atingir os 100% de precisão mas normalmente andam pelos 60-70% no que se refere à previsão de exões/intrões.
Genómica 12-13 MJC 15
PREVISÕES BASEADAS EM EVIDÊNCIA
8-04-2013
Genómica 12-13 MJC 16
Baseada noutro tipo de dados
• Usa EST e RNA-seq e até dados de proteómica.• Cada vez mais as soluções usadas passam
pelos dois tipos de aproximações.
8-04-2013
Genómica 12-13 MJC 17
FASE DA ANOTAÇÃO
8-04-2013
Genómica 12-13 MJC 18
Anotação
• Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases:– Fase da computação
• São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado.
• São geradas previsões ab initio ou baseadas em evidências. – Fase da anotação
• Feita por pipelines • Anotam o início e fim de cada gene, exões/intrões e UTRs
8-04-2013
Genómica 12-13 MJC 19
Fase da anotação
8-04-2013
PrevisãoCDCs
Anotação
Genómica 12-13 MJC 20
Manual vs automática
• Era feito à mão• Hoje é feito automáticamente dado o volume de dados
existentes.• Os anotadores automáticos:
– Usam a informação fornecida para encontrar genes.– Alinham essas previsões para obter o melhor consenso.– Alguns usam um método de aprendizagem não
supervisionada (não há dados modelo)– Outros usam métodos de aprendizagem supervisionada
(estimam os erros cometidos com bases em conjuntos de dados conhecidos).
8-04-2013
Genómica 12-13 MJC 21
VISUALIZAÇÃO DA ANOTAÇÃO
8-04-2013
Genómica 12-13 MJC 22
Os resultados da anotação devem ter:• Estrutura intrão/exão• Codões de inicio e de termino• UTRs• Splicing alternativo• Apresentar os alinhamentos que suportam as previsões • Há 4 formatos mais usados: GeneBank; GFF3, GTF e
EMBL. Estes formatos premitem:– Que os resultados sejam usados por outras ferramentas– Uso de vocabulários controlados em termos de ontologias– Permitem análises genómicas comparativas
8-04-2013
Genómica 12-13 MJC 23
Genetic Model Organism Database (GMOD)• Ferramentas de descrição e análise, descrição,
visualização e redestribuição de anotações de genomas.
8-04-2013
Genómica 12-13 MJC 24
CONTROLO DE QUALIDADE
8-04-2013
Genómica 12-13 MJC 25
Identificação de anotações incorretas
• Essencial pois:– Propagam os erros pois as anotações existentes
são muitas vezes usadas como modelos para as anotações futuras.
8-04-2013
Genómica 12-13 MJC 26
Como fazer o controlo de qualidade?
8-04-2013
SN= SensitivitySP=SpecificityAC=Accuracy
SN= TP/(TP+FN)SP= TP/(TP+FP)AC=(SN+SP)/2TP= True positivesFN=False negativesTN=True Negatives
AED= Annotation Edit DistanceAED= 1-AC
Genómica 12-13 MJC 27
PUBLICAÇÃO DOS DADOS
8-04-2013
Genómica 12-13 MJC 28
Bases de dados de Genomas
Bases de dados globais GeneBank Ensembl
Bases de dados específicasBeeBaseGramenePlant GDBPhytozomeVectorBase
8-04-2013
Genómica 12-13 MJC 29
Depois da publicação….
Deve ser feita periodicamente a atualização
8-04-2013
Genómica 12-13 MJC 30
CONCLUSÕES
8-04-2013
Genómica 12-13 MJC 31
Em suma
• Sequenciação mais barata Mais dados para tratar• Alteração dos paradigmas do número e estrutura dos
genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs.
• O controlo de qualidade é tb um obstáculo• Não basta produzir os genomas é necessário anotá-
los e atualizar a sua anotação periodicamente.
8-04-2013
Genómica 12-13 MJC 32
Bibliografia
• Artigo: “ A beginner’s guide to eukariotic genome annotation”. Na pasta do molar.
8-04-2013