Prof. João Carlos SetubalSequenciamento de DNA, genomas e bioinformática QBQ 102 – Aula 5...

Post on 24-Jul-2020

7 views 0 download

Transcript of Prof. João Carlos SetubalSequenciamento de DNA, genomas e bioinformática QBQ 102 – Aula 5...

Sequenciamento de DNA, genomas e bioinformática

QBQ 102 – Aula 5 (biomol)

Prof. João Carlos Setubal

5ʹ 3ʹ

Replicação de DNA

A replicação pára

Reação da DNA Polimerase com dNTPs síntese de DNA

Desoxirribonucleotídeo

Purina ou Pirimidina

FosfatoDesoxir-ribose

2´, 3´didesoxirribonucleotídeo trifosfato (ddNTP)

Reação da DNA Polimerase com dNTPs + ddNTPs interrupção da síntese de DNA

Método de Sanger: terminação controlada da síntese de DNA com didesoxirribonucleotídeos

DNA a ser sequenciado

Novas cadeias de DNA serão separadas por eletroforese em gel de poliacrilamida com resolução para separar fragmentos de DNA

com 1 nucleotídeo de diferença

ddATP

primer radioativo

Desnaturação da dupla fitaAnelamento do “primer radioativo”

Terminação da síntese: adição dos ddNTPs

Método de Sanger

Adição da enzima e dNTPs

Eletroforese em gel de poliacrilamida desnaturante

Autorradiografia

Sequ

ênci

a co

mpl

emen

tar

ao D

NA

mol

de

Eletroforese em gel de poliacrilamida: separação de fragmentos de DNA diferindo por 1 nucleotídeo no tamanho

Autorradiograma de um gel de sequenciamento de DNA

CCAGAAGATTTCA

GGATGCGCT

Automação do Sequenciamento pelo Método de Sanger

ddNTPsfluorescentes(4 fluoróforosdistintos)

separação de fragmentos de DNA diferindo por 1 nucleotídeo no tamanho

Inte

nsi

dad

e d

e fl

uo

resc

ênci

a

Tamanho em nucleotídeos (bases)

Imagem da detecção por fluorescência no sequenciamento automatizado: cada amostra em um capilar

Cromatograma do sequenciamento automatizado pelo método de Sanger

Tamanho médio das sequências geradas 700 – 1000 pb

Novas Tecnologias de Sequenciamento

Ion Torrent Por síntese com DNA polimerase/ Ion Proton detecção de protons liberados na

síntese

35-400

Aplicações do sequenciamento de DNA

Obter a sequência completa de fragmentos de DNA (clonados em plasmídeos, produtos de PCR)

Obter a sequência completa de cromossomos/genomas

Obter a sequência de transcritos (RNA)/transcritoma

Como os genomas são sequenciados

Nature 15 Feb 2001 409(6822)

DNA genômico

Biblioteca de clones (BAC)

Ordenamento dos clones da biblioteca

Seleção dos clones de BAC para sequenciamento

Sequenciamento dos clones (sequenciamento shotgun)

Montagem (in silico)

Geração de sub-bibliotecas dos clones de BAC em plasmídeos

Fragmentação e clonagem

Fragmentação e clonagem

Fragmentar aleatoriamente e clonar os fragmentos em vetores do tipo BAC:

biblioteca de BACDNA genômico

Sequenciar extremidades dos clones de BAC e

ordenar Seleção dos clones de BAC para sequenciamento completo

Montagem das sequências obtidas (in silico)

Geração de sub-bibliotecas shotgun e sequenciamento de ambas as fitas de DNA de cada clone

BAC: cromossomo artificial de leveduras

Como os genomas são sequenciados utilizando as metodologias de última geração?

A etapa laboriosa de clonagem e seleção de clones

recombinantes dos fragmentos do DNA genômico foi eliminada

Como os genomas são sequenciados atualmente

Nature 15 Feb 2001 409(6822)

DNA genômico ou bibliotecas de BAC

Montagem (in silico)

Fragmentação

Amplificação dos fragmentos

Sequenciamento

Montagem de DNA

Montagem de DNA

Passo básico: determinar sobreposiçãoentre fragmentos por comparação de sequencias

Supõe grande redundância no sequenciamento e cortes aleatórios

Quebra-cabeças linear

Montagem de DNA

buraco

contig

CTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCC

TCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACC

GGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCTTCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGA

TCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGT

GCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTC

GAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGT

ACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGAC

GTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCA

AGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACG

GCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGC

TACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTG

AGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGC

Anotação

• Achar genes que codificam proteína• Achar genes de RNA• Inferir função das proteínas

Bioinformática

• Algoritmos e programas para processar sequencias de DNA e outras entidades da biologia molecular (RNAs, proteínas, etc)

• Montagem de DNA é um exemplo• Vejamos outro exemplo

6/20/2013 J. C. Setubal 30

DNA tem quadros de leitura

+1: GTGGTGGCCTTCGAAGGGT+2:   TGGTGGCCTTCGAAGGGT+3:     GGTGGCCTTCGAAGGGT

6/20/2013 J. C. Setubal 31

DNA tem duas fitas (+ e –)

GTGGTGGCCTTCGAAGGGTCACCACCGGAAGCTTCCCA

+

5′ 3′

3′ 5′

6/20/2013 J. C. Setubal 32

6 quadros no total

GTGGTGGCCTTCGAAGGGTTGGTGGCCTTCGAAGGGT

GGTGGCCTTCGAAGGGTCACCACCGGAAGCTTCCCACACCACCGGAAGCTTCCCCACCACCGGAAGCTTCC

6/20/2013 J. C. Setubal 33

6/20/2013 J. C. Setubal 34

Quadro aberto de leitura (ORF)

• Um trecho do genoma em que– O número de nucleotídeos é múltiplo de 3– O último codon é de parada– Não existe nenhum outro codon de parada presente

6/20/2013 J. C. Setubal 35

Método (rudimentar) para achar genes em procariotos

Ache todas as ORFs com pelo menos 900 bp

6/20/2013 J. C. Setubal 36

...AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCC

GTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGG

TCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGAC

GGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGA

CGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGT

GGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGAC

CAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGA

CTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCC

TCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACC

GGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCT

TCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGA

TCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGT

GCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTC

GAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGT

ACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGAC

GTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCA

CAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAG

AGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACG

GCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGC

TACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTG

AGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGC

CGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCT

CTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG

AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG ...

DNA de bactéria

6/20/2013 J. C. Setubal 37

...AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCC

GTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGG

TCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGAC

GGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGA

CGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGT

GGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGAC

CAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGA

CTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCC

TCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACC

GGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCT

TCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGA

TCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGT

GCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTC

GAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGT

ACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGAC

GTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCA

CAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAG

AGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACG

GCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGC

TACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTG

AGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGC

CGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCT

CTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG

AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG ...

Um gene (CDS)

6/20/2013 J. C. Setubal 38

Método (um pouco melhor) para achar genes em procariotos

1. Ache todas ORFs2. Traduza cada uma usando o código genético3. Compare cada uma com seqüências de 

genes conhecidos– Se achar algum hit estatisticamente significativo, 

guarde; senão jogue fora

4. Resolva sobreposições

Comparação de sequencias

• Similaridade “suficiente”• O que é similaridade?• O que é “suficiente”?• Google das sequencias: BLAST• Basic Local Alignment Search Tool• Altschul et al., 1990, 1997

1995 - Haemophilus influenzae1º. Genoma bacteriano sequenciado1.830.137 pb

Sequenciamento e comparação de sequências genômicas de indivíduos

Identificação de SNP (polimorfismo de único nucleotídeo) em genomas. Grupos de SNPs marcadores são compilados em um haplótipo e podem ser utilizados para identificação de indivíduos pelo sequenciamento de regiões definidas de seus genomas.

Sequências de genes e genomas podem ser depositadas em bancos de dados públicos

MR Stratton et al. Nature 458, 719-724 (2009) doi:10.1038/nature07943

Evolução da tecnologia de sequenciamento de DNA

Sumário

1. DNA: composição e estrutura2. RNA: composição e estrutura3. O código genético4. Transcrição: DNA → mRNA5. Tradução: mRNA → proteína6. Replicação: DNA → 2 DNA7. Expressão gênica8. Sequenciamento de DNA9. Bioinformática10. Laboratórios