Explorando bancos de dados genômicos e introdução à ... · Tipos de BLAST . 27/07/2011 24 VALOR...

Post on 06-Oct-2018

217 views 0 download

Transcript of Explorando bancos de dados genômicos e introdução à ... · Tipos de BLAST . 27/07/2011 24 VALOR...

27/07/2011

1

Explorando bancos de dados genômicos e introdução à

bioinformática

22/07/2011

Guilherme Targino Valente Marcos Tadeu Geraldo

Bioinformática

• É a aplicação de estatística e ciência da computação no campo

da Biologia Molecular

• O termo foi cunhado por Paulien Hogeweg e Ben Hesper em

1978 no estudo de processos de informática em sistemas

bióticos

Paulien Hogeweg

27/07/2011

2

Objetivo da Bioinformática

Aumentar o entendimento dos processos

biológicos

Bioinformática atualmente

• Criação e avanços em:

• banco de dados

• algoritmos

• técnicas computacionais

• estatísticas

• Finalidade: solucionar problemas teóricos e

práticos oriundos da manipulação e análise de

dados biológicos

27/07/2011

3

BIOINFORMÁTICA

Sequências

Genomas

Evolução

Regulação e expressão

gênica

Modelagem biológica

Estrutura molecular

27/07/2011

4

Importância da Análise de Sequências

• Comparação de sequências para analisar suas semelhanças e diferenças

• Análise da estrutura de genes: matrizes de leitura, distribuição de introns e exons e elementos regulatórios

• Busca por pontos de mutação, a fim utilizá-los como marcadores genéticos

• Informações sobre evolução e diversidade genética entre organismos

• Análise da funcionalidade de genes

Como recuperar sequências

dentro de um banco de dados

27/07/2011

5

FASTA

Programa de alinhamento e análise de

sequências criado por W.R. Pearson e D.J.

Lipman em 1988

Formato da sequência:

> nome_da_sequência

ARCGTCRGCKINTANDRGCKINTANDCKINTAN

DARCGTCRGCKINTANDRGCKINTAND

Linha de definição

Sequência

27/07/2011

6

27/07/2011

7

27/07/2011

8

27/07/2011

9

27/07/2011

10

27/07/2011

11

Como obter sequências

experimentalmente?

Gene ou sequência de interesse

Restrição Enzimática

Reação em cadeia da polimerase (PCR)

http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi

27/07/2011

12

27/07/2011

13

27/07/2011

14

Conseguimos as sequências...

...E AGORA?

Próximo passo,

27/07/2011

15

Alinhamento de sequências

• O que é? = um alinhamento de sequências é uma forma de organizar sequências primárias de DNA, RNA ou proteínas

• Por que alinhar? = identificar regiões similares que possam ser consequência de relações funcionais, estruturais ou evolucionárias entre elas

Homologia x Similaridade

Valor Qualitativo

Valor Quantitativo

Homólogo Não-homólogo

Valor de inferência

27/07/2011

16

2 sequências de um

alinhamento

Compartilham ancestral comum

Discordâncias entre as

sequências (mismatches)

Mutações pontuais

Espaços (gaps)

Inserções ou deleções

(indels)

SE,

Alinhamento: Global x Local

27/07/2011

17

Alinhamento: Par a par (pairwise alignment)

Múltiplo (multiple alignment)

27/07/2011

18

Algoritmos de alinhamento

ClustalW

MUSCLE

T-COFFEE

COBALT

MAFFT

PRRN

E muitos outros...

27/07/2011

19

CLUSTALW (http://www.ebi.ac.uk/Tools/msa/clustalw2/)

MUSCLE (http://www.ebi.ac.uk/Tools/msa/muscle/)

27/07/2011

20

COBALT (http://www.ncbi.nlm.nih.gov/tools/cobalt/)

27/07/2011

21

27/07/2011

22

27/07/2011

23

BLAST Basic Local Alignment Search Tool

O que é? = é um algoritmo para acessar um banco de dados e buscar sequências de aminoácidos ou nucleotídeos que sejam similares a uma sequência-alvo específica

Qual o objetivo do BLAST? = comparar informações de sequências biológicas primárias

www.ncbi.nlm.nih.gov/BLAST/

Tipos de BLAST Query (sequência-

alvo)

Hits (sequências

retornadas)

blastn Nucleotídeos Nucleotídeos

blastp Aminoácidos Aminoácidos

blastx Nucleotídeos (Seis

matrizes de leitura) Aminoácidos

tblastn Nucleotídeos (Seis

matrizes de leitura)

Nucleotídeos (Seis

matrizes de leitura)

tblastx Aminoácidos Nucleotídeos (Seis

matrizes de leitura)

Tipos de BLAST

27/07/2011

24

VALOR DE

CONFIANÇA

chance do

acaso

Valor de E Confiança

AGTTTAGAGATTCCGCCTGGCGCTGGAAGAGATCAGG Query

27/07/2011

25

AGTTTAGAGATTCCGCCTGGCGCTGGAAGAGATCAGG

CCGCCTGG

Query

Hit 1

AGTTTAGAGATTCCGCCTGGCGCTGGAAGAGATCAGG

CCGCCTGG

GAGATTCCACCTGGCCATGGAAGAGA

Query

Hit 2

Hit 1

27/07/2011

26

27/07/2011

27

27/07/2011

28

27/07/2011

29

27/07/2011

30

OUTRAS

FERRAMENTAS PARA

ANALISAR

SEQUÊNCIAS

ORF Finder

http://www.ncbi.nlm.nih.gov/gorf/gorf.html

ORF = Open Reading Frame

27/07/2011

31

ATGCCATGCGATGTTTGAGCATCTA...

ATG CCA TGC GAT GTT TGA

A TGC CAT GCG ATG TTT GAG CAT...

AT GCC ATG CGA TGT TTG AGC ATC...

RF 1

RF 2

RF 3

ATGCCATGCGATGTTTGAGCATCTA...

ATG CCA TGC GAT GTT TGA

A TGC CAT GCG ATG TTT GAG CAT...

AT GCC ATG CGA TGT TTG AGC ATC...

RF 1

RF 2

RF 3

27/07/2011

32

ATGCCATGCGATGTTTGAGCATCTA...

ATG CCA TGC GAT GTT TGA

A TGC CAT GCG ATG TTT GAG CAT...

AT GCC ATG CGA TGT TTG AGC ATC...

RF 1

RF 2

RF 3

ATGCCATGCGATGTTTGAGCATCTA...

ATG CCA TGC GAT GTT TGA

A TGC CAT GCG ATG TTT GAG CAT...

AT GCC ATG CGA TGT TTG AGC ATC...

RF 1

RF 2

RF 3

27/07/2011

33

27/07/2011

34

27/07/2011

35

27/07/2011

36

27/07/2011

37

Transeq

• Traduz em aminoácidos uma sequência de nucleotídeos

• http://www.ebi.ac.uk/Tools/emboss/transeq/

27/07/2011

38

Busca por Motifs

• Motif (ou domínio): é um padrão de sequência de nucleotídeo ou aminoácido, normalmente associada a alguma significância biológica

GENE MOTIF

SEQUÊNCIA DE NUCLEOTÍDEOS OU AMINOÁCIDOS

27/07/2011

39

pFam

• Banco de dados de famílias de proteínas

• Busca e alinhamento de motifs característicos de cada família

• http://pfam.sanger.ac.uk/

27/07/2011

40

27/07/2011

41

(http://hits.isb-sib.ch/cgi-bin/PFSCAN)

27/07/2011

42

(http://www.genome.jp/tools/motif/)

27/07/2011

43

27/07/2011

44

Bibliografia em Bioinformática

Bibliografia em Bioinformática

27/07/2011

45

Bibliografia em Bioinformática

Bibliografia em Bioinformática

27/07/2011

46

For Dummies Collection