RNAomics Marcelo Macedo Brigido. conteúdo Histórico de descobertas RNA como central no controle da...

Post on 07-Apr-2016

222 views 2 download

Transcript of RNAomics Marcelo Macedo Brigido. conteúdo Histórico de descobertas RNA como central no controle da...

RNAomics

Marcelo Macedo Brigido

conteúdo

• Histórico de descobertas• RNA como central no controle da expressão

gênica• RNA codificador não codificador• Estrutura do RNA• Métodos preditivos• Predição de genes de ncRNA

Histórico• 57’ Severo Ochoa e Artur Kornberg

– Síntese enzimática do RNA (RNA polimerase e Polinucleotídeo fosforilase)

• 65’ Holley, Khorana, Niremberg– tRNA e o código genético

• 67’ Carl Woese – RNA e o mundo primitivo• 70’ David Baltimore - Retrovirus e retrotranscritase

• 77’ Philip Sharp – Splicing de pré-RNA• 80’ Thomas Cech – Ribozimas e o RNA catalítico• 90’ RNA interferente em petúnias• 90’ MicroRNA e o silenciamento de genes

Introns

snRNA e os introns modernos

RNA Catalítico

DOI:10.1039/B415137M (Feature Article) Chem. Commun., 2005, 0, 2069-2079

miRNA

RNA structure(s)

RNA structure(s)

O RNA se dobra de forma complexa

5s rRNA (PDB ID: 1UN6)

RNA folding = Processo hierarquico e estocástico dirigido pelo pareamento de subconjunto de bases

G/C

U/A

U/G

Canonical base-pairs

Bancos de dados de RNAName Data type Scope Description File formats #Entries URL

PDB All-atoms General RCSB Protein Data Bank – Global repository for 3D molecular models PDB ~1,900 models http://www.pdb.org

NDBAll-atoms, Secondary structures

General Nucleic Acids Database – Nucleic acids models and structural annotations. PDB, RNAML ~2,000 models http://bit.ly/rna-ndb

RFAMAlignments,Secondary structures3

GeneralRNA FAMilies – Multiple alignments of RNA as

functional families. Features consensus secondary structures, either predicted and/or manually curated.

STOCKHOLM, FASTA

~1,973 Alignments/ structures, 2,756,313 sequences

http://bit.ly/rfam-db

STRAND Secondary structures General The RNA secondary STRucture and statistical ANalysis

Database – Curated aggregation of several databases

CT, BPSEQ, RNAML, FASTA,

Vienna

4,666 structures http://bit.ly/sstrand

PseudoBase Secondary structures

Pseudoknotted RNAs

PseudoBase – Secondary structure of known pseudonotted RNAs.

Extended Vienna RNA 359 structures http://bit.ly/pkbase

CRW

Sequence alignments,

Secondary structures

Ribosomal RNAs, Introns

Comparative RNA Web Site – Manually curated alignments and statistics of ribosomal RNAs.

FASTA, ALN, BPSEQ

1,109 structures,

91,877 sequences

http://bit.ly/crw-rna

RNA: formatos de arquivos

RNA: formatos de arquivos

Formato de arquivo de estrutura secundária de RNA

RNA: formatos de arquivos

Representação de estruturas secundárias

http://varna.lri.fr

Ribonucleotideos se ligam através de interações em suas bordas

Interações não canônicas

Interações não canônicas são fracas mas se agrupam em clusters que são estruturalmente conservados e funcionalmente essencial

Non canonical interactions

Ribonucleotideos se ligam através de interações em suas bordas

Interações não canônicas são fracas mas se agrupam em clusters que são estruturalmente conservados e funcionalmente essencial

Interações não canônicas

SUGAR

W-CH

SUGAR

W-C H SUGAR

W-C

H

SUGAR

W-C H

Non Canonical G/C pair (Sugar/WC trans)

Canonical G/C pair (WC/WC cis)

Leontis/Westhof,NAR 2002

Nomenclatura Leontis/Westhof :Uma gramática para motivos

terciários

Dobramento de mínima energia livre (Minimal Free-Energy - MFE)

…CAGUAGCCGAUCGCAGCUAGCGUA…

RNAFold

• Cada modelo estrutural esta está associado a um nível de energia (ΔG)• Encontra-se a estrutura de menor energia livre (MFE)

– O pacote de RNA Vienna RNA tem implementado um algorítimo com complexidade O(n3) para encontrar o MFE

Predição de Estrutura de RNA: MFE folding

• Quantifica a quantidade de energia associada a cada par de base

• A contribuição de diferentes loops são computadas• Os valores são obtidos de tabelas empíricas• As energias são aditivas e são computadas para

cada estrutura• A de menor energia é escolhida

Problemas com o MFE• Não existe uma única estrutura para um dado RNA• Dependendo da temperatura, o que existe é uma

distribuição de estruturas• O MFE responde corresponde apenas a uma estrutura, que

pode não corresponder a aquela biologicamente funcional• A solução é uma assembleia de estruturas cada uma como

uma energia de dobramento• A probabilidade de cada estrutura é calculada a partir de

uma função de partição

Exemplo para o computo da energia de empilhamento

(Stacking)

Função de Partição para o folding de RNA

• Baseada na função de partição de Boltzman• Descreve uma assembleia de estruturas de RNA em função da

temperatura

MEF e sub-ótimas

MFOLD funciona selecionando diversas estruturas

Uma assembléia de estruturasCada uma com seu DG0

Pseudoknots• Pseudoknots são modelos topológicos complexos.

Pseudoknots são ignorados na função de partição:– Não possuem um modelo energético claro– Um desafio computacional

RFAM: RNA functional familieshttp://rfam.sanger.ac.uk/

Clan

Family

Seed alignment

Full alignment

*

3D model(s)

Consensus secondary structure

*

1

1

Modelos de Covariância• Modelos ocultos de Markov (HMM) permite um alinhamento fexível a uma

estrutura de RNA – Probabilidades de emissão e transição

• Modelos de de arvores binárias baseadas em um número finito de de estados – Match states – sequência conforme o modelo:

• MATP – Estado no qual as bases estão pareadas no modelo e na sequência • MATL & MATR – Estados com um bulge na esquerda ou na direita na sequências e

no modelo– Deleção – Estado no qual existe uma deleção na sequência quando

comparado ao modelo– Inserção – Estado em que ocorreu uma inserção na sequência relativa ao

modelo• Cada transição esta associada a uma probabilidade

– Bifurcação – não está associada a uma probabilidade, refere-se a um caminho possível

Algorítmo de Alinhamento a um Modelo de Covâviancia

• Calculo o escore de probabilidade de alinhar um RNA a um CM

• Depende de matrizes tridimensionais – O(n³)– Alinha a sequência a um CM– Para cada subsequencia calcula

todos os estados possíveis

Images – Eddy et al.

Infernal usa CM e é utilizado para criar os RFAM

tRNAscan-SE utiliza modelos de covariância