Curso de Verão em Bioinformatica 2011 - IME-USP · •Os padrões de expressão gênica podem...

57
1 Análise de transcriptomas Eduardo M. Reis Departamento de Bioquimica IQ - USP Fevereiro 2011 Curso de Verão em Bioinformatica 2011 IME - USP

Transcript of Curso de Verão em Bioinformatica 2011 - IME-USP · •Os padrões de expressão gênica podem...

1

Análise de transcriptomas

Eduardo M. Reis

Departamento de Bioquimica

IQ - USP

Fevereiro 2011

Curso de Verão em Bioinformatica 2011IME - USP

O que é o transcriptoma ?

• O transcriptoma corresponde a fração do código genético (DNA) que é

transcrita pela RNA polimerase em moléculas de RNA.

• Depende do estágio do desenvolvimento, estado fisiológico e tipo de

tecido.

Transcriptoma= Coleção de RNAs (transcritos) presentes em uma célula/tecido emum dado momento.

Principais Tipos de RNA codificados no Genoma

• RNAs mensageiros (mRNA): contém a informação

genética que codifica a sequência de aminoácidos

das proteínas

• RNAs transportadores (tRNA): identifica e

transporta os aminoácidos até o ribossomo.

Responsáveis pela leitura do código genético.

• RNAs ribosomais (rRNA): constituinte dos

ribossomos. Síntese protéica.

• Pequenos RNAs nucleares envolvidos no

processamento de outros RNAs (snRNAs,

snoRNAs)

• Pequenos RNAs regulatórios: micro RNAs,

piRNAs, pasRNAs

• Longos RNAs regulatórios (RNAs não-

codificadores)

Bolha de transcrição

Fita molde

(antisenso)

RNA polimerase

Direção da transcrição

Fita codificadora (senso)

Desenovelamento

Re-enovelamento

Transcrição do DNA

Trancrição e tradução são acopladas em procariotos

Etapas envolvidas na expressão de genes em eucariotos

Transcrição

Processamento

Transporte

Tradução

Citoplasma

Núcleo

Promotores de genes bacterianos

Região -10Região -35 Posição +1

Genes codificantespara RNA ribosomalpossuem elementos UP

Região -40 a -60

A transcrição do RNA se inicia em regiões específicasdo genoma: Regiões Promotoras

Estrutura de um gene eucariótico

Citoplasma Núcleo

DNA genômico

Pre-mRNA

mRNA

Transcrição

Processamento

• adição de cap 5’• adição de cauda poliA 3• remoção de introns (RNA splicing)

Promotor do gene codificador da strictosidina sintase, enzima da via de síntese de alcaloides em plantas.

Abundância de RNAs em eucariotos é regulada por

fatores de transcrição, proteínas que se ligam ao DNA e

a RNA polimerase e ativam ou reprimem a transcrição

DNA

mRNA

Proteina

Transcrição

Tradução

Papéis estruturais e metabólicos

substrato produto

Genômica(Genoma)

Transcriptômica(Transcriptoma)

Proteômica(Proteoma)

Metabolômica (Metaboloma)

morfologiafisiologia

comportamentoecologia

Genótipo

Fenótipo

O mundo “omics”

Análise de Transcriptomas em larga-escala

• identificação de todos os RNAs expressos em um dado

organismo ou tecido.

• compararação do perfil de expressão gênica em diferentes

condições ambientais, estados patológicos, fisiológicos ou de

desenvolvimento.

• caracterização de polimorfismos associados aos genes transcritos:

formas alternativas de splicing e SNPs.

•Identificação de genes e vias moleculares envolvidas em processos biológicos :“guilt by association”: genes com perfil de expressão semelhante podem estar funcionalmente relacionados ou sob o mesmo mecanismo e controle.

•Fornecer pistas sobre as funções de genes ainda não caracterizados a partir do estudo do padrão espacial (localização sub-celular) e temporal de expressão.

•Identificar marcadores para diagnóstico molecular de doenças

•Os padrões de expressão gênica podem indicar eventos de regulação em cis- e em trans- , permitindo assim a inferência acerca de diferenças genéticas entre indivíduos.

•Podem ainda indicar alterações no proteoma e/ou metaboloma.

Que informações podem ser obtidas através daanálise de transcriptomas ?

Experimentais: permitem a quantificação do nível de expressão gênica• Differential display (RT-PCR)• Sequenciamento de ESTs• SAGE (Serial Analysis of Gene Expression)• Massive Paralel Signature Sequencing (MPSS) • Microarrays de DNA• RNA-seq

Métodos para estudo de transcriptomas

In silico: requerem conhecimento da sequencia genômica• predição de genes ab initio • busca por domínios protéicos conhecidos• busca por homologia com outros organismos

• Síntese fotoquímica in situ.•Milhões de cópias identicas mesmo oligonucleotídeo estão arranjadas em “features”. • Human Genome U133 Set: 45,000 “probe sets” representando 39,000 transcritos de 33,000 genes humanos.• cada “probe set “ é composto por 11–16 pares de 25-mer oligonucleotideos selecionados a partir da sequência de cada transcrito.• “Perfect-match” e “”Mismatch” probes

GeneChip (oligoarray)

“Wafer”

1,27cm

feature

15

Affymetrix - Síntese de oligoarrays in situ através de fotolitografia

16

Sequenciamento por hibridização (Affymetrix)Oligoarrays de alta-densidade

Chee M. Assessing genetic information with high-density oligonucleotide arrays. Science 1996

17

Agilent 60-mer Ink-jet oligoarrays244 k elementos

18

Agilent 44k element oligoarray

SurePrint Technology“Zoom in”

Detecção de splicing alternativo utilizando microarrays

19

Pan et al., Mol. Cell 16:929-941, 2004

20

Como s o utilizados os microarranjos de DNA?ã

Dupla-h liceéde DNA

Experimentos com microarranjos de DNA

Johnson et al, Trends in Genetics, 21:93-102, 2005

Análise de transcrição em larga-escalautilizando “tiling” arrays genômicos

Mattick and Makunin Hum.Mol.Genet. 15:R17-R29, 2006

genoma

Transcrição documentadanas 2 fitas do genoma

Regiões transcritas dogenoma (60-70%) incluindointrons

2% do genoma ocupado porregiões codificadores deproteínas

Maior parte do genoma humano é transcritoem RNAS não-codificadores

25

Projeto ENCODE Encyclopedia of DNA Elements

Different and redundant approaches to delineate the transcriptional and epigenetic landscapes of ~1% the human genome:

44 genomic regions encompassing 30 Mb of the human genome studied in great detail:

→ 15Mb in 14 regions for which there is already substantial biological knowledge.

→ 15Mb in 30 regions randomly picked

NATURE, 447:799-816 14 June 2007

Transcrição não-codificadora ubíqua ao longo do genoma (93% do genoma) Rede interconectada de loci gênicos

Trancrição de RNAs não-codificadores se correlaciona com a complexidade biológica

from Hüttenhofer et al., 2005 TIGS 21:289-297 Birney et al., 2007 Nature 447: 799–816.

27

microRNAs como reguladoresda expressão gênica

• Micro RNA primário (pri-miRNA)transcrito no núcleo

• Clivagem pela enzima Drosha (RNAse tipo III)

• Micro RNA precursor (pre-miRNA, ~70 nt) exportado para o citoplasma

• Clivagem específica pela enzima Dicer(RNAse tipo III) produz microRNAs maduros (21-22 nt)

• microRNAs promovem o silenciamento específico de mRNAs-alvo através do complexo RISC (“RNA Induced Silencing Complex”)

Funções de RNAs não=codificadores longos

Wilusz J E et al. Genes Dev. 2009;23:1494-1504

RNA não-codificador HOTAIR regula cromatina através do recrutamento de enzimas modificadoras de histonas

Rinn et al., Cell 2007, 129:1311-1323

RNAs não-codificadores longos intrônicos e antisenso

~ 1 . 1 K b

R A S S F 1 ( C h r 3 p 2 1 . 3 1 )

5 0 , 3 3 1 , 6 0 85 0 , 3 3 0 , 5 5 3 5 '

3 ' 5 '

3 '

~ 0 . 8 K b

A P 1 G B P 1 ( C h r 1 7 q 1 2 )

3 6 , 1 0 7 , 8 0 63 6 , 1 0 7 , 0 0 6 5 '

3 ' 5 '

3 '

C

G

E

~ 0 . 6 K b

P P H L N 1 ( C h r 1 2 q 1 2 )

4 1 , 1 0 6 , 8 5 44 1 , 1 0 6 , 2 6 8

5 '

3 ' 5 '

3 '

A

T L E 3 ( C h r 1 5 q 2 3 )

3 6 , 0 7 5 , 0 9 63 6 , 0 7 4 , 7 9 6 5 '

3 '

3 '

5 '

4 1 , 0 0 6 , 2 3 4

3 6 , 0 7 4 , 5 5 8 3 6 , 1 6 4 , 9 9 6

4 1 , 1 2 7 , 3 9 4

5 0 , 3 2 6 , 2 2 8 5 0 , 3 3 7 , 3 7 9

3 6 , 0 5 8 , 2 3 6 3 6 , 1 0 4 , 9 7 6

e x o n 1 3e x o n 1 4

e x o n 1 0e x o n 9

9 . 57 . 54 . 4

2 . 4

1 . 3

0 . 2 4

k bD

F

B

5 . 0

1 . 9

k b

5 . 0

1 . 9

k b5 . 5 3

Spl

een

Thy

mus

Pro

stat

e

Test

is

PC

3

DU

145

LnC

ap

PC

3

DU

145

LnC

ap

0 . 6 6

RASSF1

PPHLN1

RASSF1

PPHLN1

Reis et al. Oncogene 23: 6684-6692, 2004

GAS6

Reis et al., Oncogene 2005, 23: 6684-6692; Louro et al. BMC Biology 5:4, 2007

Ao menos 74% dos loci gênicos codificadores de proteína (11,679 RefSeqs) possuem regiões intrônicas

transcricionalmente ativas que originam ncRNAs totalmente (TIN) ou parcialmente (PIN) intrônicos

Nakaya et al., Genome Biology 2007, 8:R43

Tipo de sonda Nº de sondasTIN (senso/antisenso) 7,715 x 2 = 15,430PIN (senso/antisense) 5,289 x 2 = 10,578Exon codificador 14,403

34

Grau de Gleason (GS)

Diagrama esquemático do sistemade classificação de Gleason

Gleason Risco de for recorrência do tumor2 - 6 Baixo7 Intermediário8 - 10 Alto

Identificação de ncRNAs intrônicos associados a agressividade do câncer de próstata

Gleason Grade

# of samples

G 5 1

G 6 5

G7 16

G9 1

G10 4

Total 27

G 5 1

G 6 5

G7 16

G9 1

G10 4

Total 27

Grau deGleason

# deamostras

G 5G 5 11

G 6G 6 55

G7G7 1616

G9G9 11

G10G10 44

TotalTotal 2727

35

Classifica o n o-supervisionada:çã ãClusteriza o hier rquica de 27 amostrasçã á

de c ncer de pr stata a partir dos dados de 3.355 genesâ ó

36Moreira et al., manuscrito em preparação

Preditores de evolução clínica identificados a partir de perfis globais de expressão gênica

Classifica o supervisionada:çã

37

65 transcritos (21 exonicos, 44 intronicos) correlacionados com a recorrência do câncer de próstata

SNR p-value<0.0128 sample28 amostras do conjunto de treinamento

Moreira et al., manuscrito em preparação

38

Transcritos intr nicos ô mais abundantes s o originados emãregi es intr nicas de genes relacionados com õ ô regula o da transcri oçã çã

123 genesEm pelo menos 1 tecido

categoria GO 'Regulation of transcription, DNA-dependent' (GO:006355)está significativamente enriquecida (p < 0.002) entre os 40% antisenso TINsmais abundantes nos 3 tecidos estudados

Nakaya et al., Genome Biology 2007, 8:R43

Identificação de vias metabólicas/regulatórias enriquecidas em assinaturas de expressão gênica

39

Assinatura de expressão gênica preditora de metástase no câncer de mama

• 113 transcritos77 ex nicosô8 interg nicosê28 intr nicosô

• 18 amostras de adenocarcinoma ductal invasivo

• Seguimento m nimo de 4 anosí

Sem metástase

Com metástase

Durães et al., manuscrito em preparação

Marcadores moleculares doadenocarcinoma de pâncreas

M�dia_ trimada_Teste-t(p<0.01)_z-score-TvsPC+N_L�minas_2007

T N / PC *

Ana Carolina TahiraBianca DazzaniMichele Farias

Colaboradores:

Dr. Marcel MachadoDra. Márcia KubruslyFMUSP – Dep. Cirurgia

41

Qual a função de RNAs não codificadores intrônicos ?Como são regulados ?

AAAAAA

Regu

laçã

o ??

?

ncRNAantisenso

42

Cell 116: 499-509, 2004

PNAS 100: 12247-12252, 2003

[...] Strikingly, a significant proportion of binding was seen in intronic regions, demonstrating that transcription factor binding is not restricted to promoter regions. [...]

Evidências de fatores ativadores da transcrição emregiões não-codificadoras do genoma humano

A expressão de RNAs intrônicos não-codificadores é regulada por fatores semelhantes aos que regulam genes

codificadores? Identificação de transcritos intrônicos não-codificadores com

expressão regulada por andrógeno

RNAs diferencialmente expressos na linhagem tumoral de próstata LNCaP tratada com andrógeno em relação a controles não-tratados

•Significance Analysis of Microarrays (SAM)•Fold-change ≥1.5X•False Discovery Rate ≤ 5%

6h 9h 12h 18h 24h 48h

6h 9h 12h 18h 24h 48h

134 mRNAs codificadores 28 ncRNAs intrônicos

Louro et al. BMC Biology 5:4, 2007

Louro et al. BMC Biology 5:4, 2007

Identificação de ncRNAs intrônicos antisenso com expressão regulada por andrógeno

45Louro et al. BMC Biology 5:4, 2007

46

RNAS intrônicos : mecanismo envolvido no ajuste fino da regulação da expressão gênica:Hipótese 1: estabilização/desestabilização da cromatina transcripcionalmente ativa e/ou do pre-mRNA

Transcrição

CH3

CH3CH3

CH3

Ilhas CpG

pre-mRNA

RNA intrônico antisenso

TF

A

TFBS

+

TFBS

Pol IITF

Pol II

Reis et al. (2005) OMICS 9: 2-12

47Louro et al.,manuscrito em preparação

RNAs intrônicas antisenso cuja abundância está inversamente relacionada com a abundância do gene

codificante para proteína

Louro et al. BMC Biology 5:4, 2007

48

RNAS intrônicos : mecanismo envolvido no ajuste fino da regulação da expressão gênica

Hipótese 2: Modulação da abundância de formas alternativas de splicing

Reis et al. (2005) OMICS 9: 2-12

spliced-out introns

variante de splicing 1

Proteínaisoforma 1

Pré-mRNA

RNA antisenso intrônico

SC

Proteínaisoforma 2

Splicing SplicingAlternativo

Tradução Tradução

B

variante de splicing 2

spliced-out introns

SC

SC

SC

+

mRNA processado

mRNA processado

Complexo do Spliceosoma

spliced-out introns

variante de splicing 1

Proteínaisoforma 1

Pré-mRNA

RNA antisenso intrônico

SC

Proteínaisoforma 2

Splicing SplicingAlternativo

Tradução Tradução

B

variante de splicing 2

spliced-out introns

SC

SC

SC

+

mRNA processado

mRNA processado

Complexo do Spliceosoma

SAF: a natural intronic antisense message modulates the sub-cellular localization of the

Fas protein

Yan et al., Hum. Mol. Genet. 14:1465–1474, 2005

50Louro et al. BMC Biology 5:4, 2007

Abundância de RNAs intrônicos antisenso regulados por andrógeno está correlacionada ao

padrão de splicing do gene codificador para proteína correspondente

Etapas envolvidas na expressão de genes em eucariotos

Transcrição

Processamento

Transporte

Tradução

Citoplasma

Núcleo

Spector DL 2001, Journal of Cell Science 114: 2891-2893

Estruturas nucleares em células de mamíferos

Paraspeckle e a retenção nuclear de RNAs hipereditados A-I

from Chen & Carmichael, 2009 Molecular Cell 35, 467–478

Diferenciação celular

CTN-RNA, um RNA não codificador expresso no locus do gene codificador para otransportador de aminoácidos catiônicos mCAT2, é retido no núcleo e seLocaliza em paraspeckles.

Kannanganattu et al., 2005 Cell 123: 249-263

55Kannanganattu et al., 2005 Cell 123: 249-263

Conjuntos de mRNAs e ncRNAs intrônicos encontram-se enriquecidos na fração nuclear

57

[email protected]

Departamento deBioquímica