Curso de Verão em Bioinformatica 2011 - IME-USP · •Os padrões de expressão gênica podem...
Transcript of Curso de Verão em Bioinformatica 2011 - IME-USP · •Os padrões de expressão gênica podem...
1
Análise de transcriptomas
Eduardo M. Reis
Departamento de Bioquimica
IQ - USP
Fevereiro 2011
Curso de Verão em Bioinformatica 2011IME - USP
O que é o transcriptoma ?
• O transcriptoma corresponde a fração do código genético (DNA) que é
transcrita pela RNA polimerase em moléculas de RNA.
• Depende do estágio do desenvolvimento, estado fisiológico e tipo de
tecido.
Transcriptoma= Coleção de RNAs (transcritos) presentes em uma célula/tecido emum dado momento.
Principais Tipos de RNA codificados no Genoma
• RNAs mensageiros (mRNA): contém a informação
genética que codifica a sequência de aminoácidos
das proteínas
• RNAs transportadores (tRNA): identifica e
transporta os aminoácidos até o ribossomo.
Responsáveis pela leitura do código genético.
• RNAs ribosomais (rRNA): constituinte dos
ribossomos. Síntese protéica.
• Pequenos RNAs nucleares envolvidos no
processamento de outros RNAs (snRNAs,
snoRNAs)
• Pequenos RNAs regulatórios: micro RNAs,
piRNAs, pasRNAs
• Longos RNAs regulatórios (RNAs não-
codificadores)
Bolha de transcrição
Fita molde
(antisenso)
RNA polimerase
Direção da transcrição
Fita codificadora (senso)
Desenovelamento
Re-enovelamento
Transcrição do DNA
Etapas envolvidas na expressão de genes em eucariotos
Transcrição
Processamento
Transporte
Tradução
Citoplasma
Núcleo
Promotores de genes bacterianos
Região -10Região -35 Posição +1
Genes codificantespara RNA ribosomalpossuem elementos UP
Região -40 a -60
A transcrição do RNA se inicia em regiões específicasdo genoma: Regiões Promotoras
Estrutura de um gene eucariótico
Citoplasma Núcleo
DNA genômico
Pre-mRNA
mRNA
Transcrição
Processamento
• adição de cap 5’• adição de cauda poliA 3• remoção de introns (RNA splicing)
Promotor do gene codificador da strictosidina sintase, enzima da via de síntese de alcaloides em plantas.
Abundância de RNAs em eucariotos é regulada por
fatores de transcrição, proteínas que se ligam ao DNA e
a RNA polimerase e ativam ou reprimem a transcrição
DNA
mRNA
Proteina
Transcrição
Tradução
Papéis estruturais e metabólicos
substrato produto
Genômica(Genoma)
Transcriptômica(Transcriptoma)
Proteômica(Proteoma)
Metabolômica (Metaboloma)
morfologiafisiologia
comportamentoecologia
Genótipo
Fenótipo
O mundo “omics”
Análise de Transcriptomas em larga-escala
• identificação de todos os RNAs expressos em um dado
organismo ou tecido.
• compararação do perfil de expressão gênica em diferentes
condições ambientais, estados patológicos, fisiológicos ou de
desenvolvimento.
• caracterização de polimorfismos associados aos genes transcritos:
formas alternativas de splicing e SNPs.
•Identificação de genes e vias moleculares envolvidas em processos biológicos :“guilt by association”: genes com perfil de expressão semelhante podem estar funcionalmente relacionados ou sob o mesmo mecanismo e controle.
•Fornecer pistas sobre as funções de genes ainda não caracterizados a partir do estudo do padrão espacial (localização sub-celular) e temporal de expressão.
•Identificar marcadores para diagnóstico molecular de doenças
•Os padrões de expressão gênica podem indicar eventos de regulação em cis- e em trans- , permitindo assim a inferência acerca de diferenças genéticas entre indivíduos.
•Podem ainda indicar alterações no proteoma e/ou metaboloma.
Que informações podem ser obtidas através daanálise de transcriptomas ?
Experimentais: permitem a quantificação do nível de expressão gênica• Differential display (RT-PCR)• Sequenciamento de ESTs• SAGE (Serial Analysis of Gene Expression)• Massive Paralel Signature Sequencing (MPSS) • Microarrays de DNA• RNA-seq
Métodos para estudo de transcriptomas
In silico: requerem conhecimento da sequencia genômica• predição de genes ab initio • busca por domínios protéicos conhecidos• busca por homologia com outros organismos
• Síntese fotoquímica in situ.•Milhões de cópias identicas mesmo oligonucleotídeo estão arranjadas em “features”. • Human Genome U133 Set: 45,000 “probe sets” representando 39,000 transcritos de 33,000 genes humanos.• cada “probe set “ é composto por 11–16 pares de 25-mer oligonucleotideos selecionados a partir da sequência de cada transcrito.• “Perfect-match” e “”Mismatch” probes
GeneChip (oligoarray)
“Wafer”
1,27cm
feature
16
Sequenciamento por hibridização (Affymetrix)Oligoarrays de alta-densidade
Chee M. Assessing genetic information with high-density oligonucleotide arrays. Science 1996
Johnson et al, Trends in Genetics, 21:93-102, 2005
Análise de transcrição em larga-escalautilizando “tiling” arrays genômicos
Mattick and Makunin Hum.Mol.Genet. 15:R17-R29, 2006
genoma
Transcrição documentadanas 2 fitas do genoma
Regiões transcritas dogenoma (60-70%) incluindointrons
2% do genoma ocupado porregiões codificadores deproteínas
Maior parte do genoma humano é transcritoem RNAS não-codificadores
25
Projeto ENCODE Encyclopedia of DNA Elements
Different and redundant approaches to delineate the transcriptional and epigenetic landscapes of ~1% the human genome:
44 genomic regions encompassing 30 Mb of the human genome studied in great detail:
→ 15Mb in 14 regions for which there is already substantial biological knowledge.
→ 15Mb in 30 regions randomly picked
NATURE, 447:799-816 14 June 2007
Transcrição não-codificadora ubíqua ao longo do genoma (93% do genoma) Rede interconectada de loci gênicos
Trancrição de RNAs não-codificadores se correlaciona com a complexidade biológica
from Hüttenhofer et al., 2005 TIGS 21:289-297 Birney et al., 2007 Nature 447: 799–816.
27
microRNAs como reguladoresda expressão gênica
• Micro RNA primário (pri-miRNA)transcrito no núcleo
• Clivagem pela enzima Drosha (RNAse tipo III)
• Micro RNA precursor (pre-miRNA, ~70 nt) exportado para o citoplasma
• Clivagem específica pela enzima Dicer(RNAse tipo III) produz microRNAs maduros (21-22 nt)
• microRNAs promovem o silenciamento específico de mRNAs-alvo através do complexo RISC (“RNA Induced Silencing Complex”)
RNA não-codificador HOTAIR regula cromatina através do recrutamento de enzimas modificadoras de histonas
Rinn et al., Cell 2007, 129:1311-1323
RNAs não-codificadores longos intrônicos e antisenso
~ 1 . 1 K b
R A S S F 1 ( C h r 3 p 2 1 . 3 1 )
5 0 , 3 3 1 , 6 0 85 0 , 3 3 0 , 5 5 3 5 '
3 ' 5 '
3 '
~ 0 . 8 K b
A P 1 G B P 1 ( C h r 1 7 q 1 2 )
3 6 , 1 0 7 , 8 0 63 6 , 1 0 7 , 0 0 6 5 '
3 ' 5 '
3 '
C
G
E
~ 0 . 6 K b
P P H L N 1 ( C h r 1 2 q 1 2 )
4 1 , 1 0 6 , 8 5 44 1 , 1 0 6 , 2 6 8
5 '
3 ' 5 '
3 '
A
T L E 3 ( C h r 1 5 q 2 3 )
3 6 , 0 7 5 , 0 9 63 6 , 0 7 4 , 7 9 6 5 '
3 '
3 '
5 '
4 1 , 0 0 6 , 2 3 4
3 6 , 0 7 4 , 5 5 8 3 6 , 1 6 4 , 9 9 6
4 1 , 1 2 7 , 3 9 4
5 0 , 3 2 6 , 2 2 8 5 0 , 3 3 7 , 3 7 9
3 6 , 0 5 8 , 2 3 6 3 6 , 1 0 4 , 9 7 6
e x o n 1 3e x o n 1 4
e x o n 1 0e x o n 9
9 . 57 . 54 . 4
2 . 4
1 . 3
0 . 2 4
k bD
F
B
5 . 0
1 . 9
k b
5 . 0
1 . 9
k b5 . 5 3
Spl
een
Thy
mus
Pro
stat
e
Test
is
PC
3
DU
145
LnC
ap
PC
3
DU
145
LnC
ap
0 . 6 6
RASSF1
PPHLN1
RASSF1
PPHLN1
Reis et al. Oncogene 23: 6684-6692, 2004
GAS6
Reis et al., Oncogene 2005, 23: 6684-6692; Louro et al. BMC Biology 5:4, 2007
Ao menos 74% dos loci gênicos codificadores de proteína (11,679 RefSeqs) possuem regiões intrônicas
transcricionalmente ativas que originam ncRNAs totalmente (TIN) ou parcialmente (PIN) intrônicos
Nakaya et al., Genome Biology 2007, 8:R43
Tipo de sonda Nº de sondasTIN (senso/antisenso) 7,715 x 2 = 15,430PIN (senso/antisense) 5,289 x 2 = 10,578Exon codificador 14,403
34
Grau de Gleason (GS)
Diagrama esquemático do sistemade classificação de Gleason
Gleason Risco de for recorrência do tumor2 - 6 Baixo7 Intermediário8 - 10 Alto
Identificação de ncRNAs intrônicos associados a agressividade do câncer de próstata
Gleason Grade
# of samples
G 5 1
G 6 5
G7 16
G9 1
G10 4
Total 27
G 5 1
G 6 5
G7 16
G9 1
G10 4
Total 27
Grau deGleason
# deamostras
G 5G 5 11
G 6G 6 55
G7G7 1616
G9G9 11
G10G10 44
TotalTotal 2727
35
Classifica o n o-supervisionada:çã ãClusteriza o hier rquica de 27 amostrasçã á
de c ncer de pr stata a partir dos dados de 3.355 genesâ ó
36Moreira et al., manuscrito em preparação
Preditores de evolução clínica identificados a partir de perfis globais de expressão gênica
Classifica o supervisionada:çã
37
65 transcritos (21 exonicos, 44 intronicos) correlacionados com a recorrência do câncer de próstata
SNR p-value<0.0128 sample28 amostras do conjunto de treinamento
Moreira et al., manuscrito em preparação
38
Transcritos intr nicos ô mais abundantes s o originados emãregi es intr nicas de genes relacionados com õ ô regula o da transcri oçã çã
123 genesEm pelo menos 1 tecido
categoria GO 'Regulation of transcription, DNA-dependent' (GO:006355)está significativamente enriquecida (p < 0.002) entre os 40% antisenso TINsmais abundantes nos 3 tecidos estudados
Nakaya et al., Genome Biology 2007, 8:R43
Identificação de vias metabólicas/regulatórias enriquecidas em assinaturas de expressão gênica
39
Assinatura de expressão gênica preditora de metástase no câncer de mama
• 113 transcritos77 ex nicosô8 interg nicosê28 intr nicosô
• 18 amostras de adenocarcinoma ductal invasivo
• Seguimento m nimo de 4 anosí
Sem metástase
Com metástase
Durães et al., manuscrito em preparação
Marcadores moleculares doadenocarcinoma de pâncreas
M�dia_ trimada_Teste-t(p<0.01)_z-score-TvsPC+N_L�minas_2007
T N / PC *
Ana Carolina TahiraBianca DazzaniMichele Farias
Colaboradores:
Dr. Marcel MachadoDra. Márcia KubruslyFMUSP – Dep. Cirurgia
41
Qual a função de RNAs não codificadores intrônicos ?Como são regulados ?
AAAAAA
Regu
laçã
o ??
?
ncRNAantisenso
42
Cell 116: 499-509, 2004
PNAS 100: 12247-12252, 2003
[...] Strikingly, a significant proportion of binding was seen in intronic regions, demonstrating that transcription factor binding is not restricted to promoter regions. [...]
Evidências de fatores ativadores da transcrição emregiões não-codificadoras do genoma humano
A expressão de RNAs intrônicos não-codificadores é regulada por fatores semelhantes aos que regulam genes
codificadores? Identificação de transcritos intrônicos não-codificadores com
expressão regulada por andrógeno
RNAs diferencialmente expressos na linhagem tumoral de próstata LNCaP tratada com andrógeno em relação a controles não-tratados
•Significance Analysis of Microarrays (SAM)•Fold-change ≥1.5X•False Discovery Rate ≤ 5%
6h 9h 12h 18h 24h 48h
6h 9h 12h 18h 24h 48h
134 mRNAs codificadores 28 ncRNAs intrônicos
Louro et al. BMC Biology 5:4, 2007
Louro et al. BMC Biology 5:4, 2007
Identificação de ncRNAs intrônicos antisenso com expressão regulada por andrógeno
46
RNAS intrônicos : mecanismo envolvido no ajuste fino da regulação da expressão gênica:Hipótese 1: estabilização/desestabilização da cromatina transcripcionalmente ativa e/ou do pre-mRNA
Transcrição
CH3
CH3CH3
CH3
Ilhas CpG
pre-mRNA
RNA intrônico antisenso
TF
A
TFBS
+
TFBS
Pol IITF
Pol II
Reis et al. (2005) OMICS 9: 2-12
47Louro et al.,manuscrito em preparação
RNAs intrônicas antisenso cuja abundância está inversamente relacionada com a abundância do gene
codificante para proteína
Louro et al. BMC Biology 5:4, 2007
48
RNAS intrônicos : mecanismo envolvido no ajuste fino da regulação da expressão gênica
Hipótese 2: Modulação da abundância de formas alternativas de splicing
Reis et al. (2005) OMICS 9: 2-12
spliced-out introns
variante de splicing 1
Proteínaisoforma 1
Pré-mRNA
RNA antisenso intrônico
SC
Proteínaisoforma 2
Splicing SplicingAlternativo
Tradução Tradução
B
variante de splicing 2
spliced-out introns
SC
SC
SC
+
mRNA processado
mRNA processado
Complexo do Spliceosoma
spliced-out introns
variante de splicing 1
Proteínaisoforma 1
Pré-mRNA
RNA antisenso intrônico
SC
Proteínaisoforma 2
Splicing SplicingAlternativo
Tradução Tradução
B
variante de splicing 2
spliced-out introns
SC
SC
SC
+
mRNA processado
mRNA processado
Complexo do Spliceosoma
SAF: a natural intronic antisense message modulates the sub-cellular localization of the
Fas protein
Yan et al., Hum. Mol. Genet. 14:1465–1474, 2005
50Louro et al. BMC Biology 5:4, 2007
Abundância de RNAs intrônicos antisenso regulados por andrógeno está correlacionada ao
padrão de splicing do gene codificador para proteína correspondente
Etapas envolvidas na expressão de genes em eucariotos
Transcrição
Processamento
Transporte
Tradução
Citoplasma
Núcleo
Spector DL 2001, Journal of Cell Science 114: 2891-2893
Estruturas nucleares em células de mamíferos
Paraspeckle e a retenção nuclear de RNAs hipereditados A-I
from Chen & Carmichael, 2009 Molecular Cell 35, 467–478
Diferenciação celular
CTN-RNA, um RNA não codificador expresso no locus do gene codificador para otransportador de aminoácidos catiônicos mCAT2, é retido no núcleo e seLocaliza em paraspeckles.
Kannanganattu et al., 2005 Cell 123: 249-263