Métodos de alinhamento de sequências biológicas
Transcript of Métodos de alinhamento de sequências biológicas
![Page 1: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/1.jpg)
Métodos de alinhamento de sequências biológicas
Marcelo Falsarella Carazzolle
![Page 2: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/2.jpg)
Resumo
- Introdução
- Alinhamentos ótimos
- Global
- Local (Smith-Waterman)
- Semi global- Semi global
- Matrizes de alinhamento (BLOSUM)
- Alinhamentos heurísticos
- BLAST
-PHI-BLAST, PSI-BLAST, MEGABLAST e BLAST2SEQS
![Page 3: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/3.jpg)
Introdução
- Uma forma rápida de agregar alguma informação sobre uma
?
sequência desconhecida é compará-la com um banco de dados desequências com funções conhecidas
- Esta comparação é feita através de alinhamentos par a par entreas sequências. Isto é, se o banco de dados possuir 1000 sequênciasconhecidas serão realizados 1000 alinhamentos
![Page 4: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/4.jpg)
- Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)
Fonte: http://www3.ebi.ac.uk/Services/DBStats/
- Atualmente uma busca nesses bancos faz 100,000,000 dealinhamentos
![Page 5: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/5.jpg)
- Existem vários programas de alinhamentos com diferentes metodologias, sendo que o mais utilizado é o BLAST
![Page 6: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/6.jpg)
Relevância biológica
- Essencialmente esses alinhamentos devem tentar indicar umahomologia entre as sequências (ou pelos menos terem umasimilaridadeestatisticamente significante)
- Similaridade x Homologia
- identidade = número que indica a quantidade de nucleotídeos alinhadosalinhados
- similaridade = é uma medida que considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos
- homologia = similaridade entre sequências que dividem a mesma ancestralidade. Possui um significado evolutivo
![Page 7: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/7.jpg)
![Page 8: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/8.jpg)
10
1
0.1
0.01
0.001
0.0001
0.00001 = 1 x 10-5 = 1e-5
E-value x probabilidade
valu
e
Pro
babi
lidad
e do
alin
ham
ento
oco
rrer
por
aca
so
0.00001 = 1 x 10-5 = 1e-5
1e-10
1e-50
1e-100
1e-180
0
E-v
alue
Pro
babi
lidad
e do
alin
ham
ento
oco
rrer
por
aca
soQuanto maior o banco de dados, maior o e-value
![Page 9: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/9.jpg)
Outras aplicações de alinhamentos
- Reconstrução da sequência consensu a partir de sobreposiçõesde fragmentos de sequências (montagens de sequências deDNA)
- Alinhamento entre sequências de ESTs e DNA genômico
- ComparaçãoentreproteínaseDNA- ComparaçãoentreproteínaseDNA
- Construção de mapas físicos
- Comparação entre genomas
- ...
![Page 10: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/10.jpg)
Alinhamentos
- A comparação entre sequências de DNA de organismosdiferentes é baseada no conceito de que estes organismosoriginaram-se de um ancestral comum.
- No contexto de evolução as sequências de DNA sofremmutações. Estas modificações locais entre os nucleotídeos podemser :
- Inserções : inserção de uma base ou várias bases nasequência
- Deleções : deleção de uma base ou mais bases na sequência
- Substituições : substituição de uma base por outra
- Portanto um programa de alinhamento de sequências biológicastem que considerar essas mutações
![Page 11: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/11.jpg)
Exemplo :
Match = 1 Mismatch = -1
Gap = -2
- Gaps representam as inserções e deleções entre as sequências
- O melhor alinhamento entre duas sequências é aquele que maximiza o score :
- Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
= 24 – 4 – 10 = 10
![Page 12: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/12.jpg)
Modelos para alinhamentos
- Alinhamento global
- útil quando as duas sequências tem tamanhos próximos
- Exemplo de programa : CLUSTAL
- Alinhamento local
- útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos e também para sequências com apenas alguns trechos conservados
- Exemplo de programa : BLAST E FASTA
- Alinhamento semi-global (ou pontas livres)
- útil para encontrar sobreposições de fragmentos de sequenciamento
- Exemplo de programa : PHRAP E CAP3
![Page 13: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/13.jpg)
Programação dinâmica- Motivação : gerar e testar oscore de todos os possíveis alinhamentosé exponencial no tamanho das seqüências (nn ), onde n é o tamanhodas sequências :
- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo,o alinhamento de duas sequências de 1000 bp levaria trilhões de anos.
- Abordagemalternativa: programaçãodinâmica. Com programação- Abordagemalternativa: programaçãodinâmica. Com programaçãodinâmica o tempo de processamento e memória ficam quadráticos(n2):
- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo, oalinhamento de 2 sequências de 1000 pb leva 100 segundos- Mas ainda não está bom, pois alinhamento de sequências de 10Mpb (genoma de Saccharomyces) levaria 377 anos
![Page 14: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/14.jpg)
Alinhamento global
- Alinhamento de GACATTG com GATCAATG
1a linha e 1a coluna da matriz são fáceis de computar:- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4 G GAA -4T -6C -8A -10A -12T -14G -16
G-
GA- -
Lembre-se, penalidade de 1 gap = -2 e de dois gaps = -4
http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
![Page 15: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/15.jpg)
- G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4T -6C -8A -10A -10A -12T -14G -16
[i,j]=p(i,j)
- Para um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for um match e p(i,j) = -1 se for um mismatch.
![Page 16: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/16.jpg)
- G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4T -6C -8A [i -1,j-1]C A -10A -12T -14G -16
[i,j][i-1,j]
[i,j-1][i -1,j-1]
= max([i-1,j] - 2,[i-1,j-1] + p(i,j),[i,j-1] - 2)
- O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1] (diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
![Page 17: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/17.jpg)
0
-2
-4
1
-1
-1
0
-4 -6
-3
-2
A
A
A
CG
-2
- Construindo o alinhamento
-4
-6 -3
-8
-1
-2
0
-4
-2
-1
-1
A
A
C -5
No alinhamento global o alinhamento deve ser construído a partir do extremo da matriz
![Page 18: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/18.jpg)
- G A C A T T G - 0 0 0 0 0 0 0 0 G 0A 0T 0C 0
Alinhamento local (Smith-Waterman)http://bioweb.pasteur.fr/seqanal/interfaces/water.html
C 0A 0 A 0T 0G 0
[i,j][i-1,j]
[i,j-1][i-1,j-1]
= max([i-1,j] - 2,[i-1,j-1] + p(i,j),[i,j-1] – 2,0 zero)
- No alinhamento local a primeira linha e coluna são inicializadas com zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
![Page 19: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/19.jpg)
No alinhamento local o alinhamento deve ser construído partir do maior score da matriz e para quando encontrar um score=0
![Page 20: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/20.jpg)
Alinhamento semi-global
- Não penaliza espaços nas extremidades do alinhamento.
- Exemplo CAGCA –CTTGGATTCTCGC| | | | | |
- - - CAGCGTGG - - - - - - - -- No global teríamos,- No global teríamos,
CAGCA – CTTGGATTCTCGCCAGC - - - - - - G- T - - - - - -
- Qual dos dois alinhamentos é mais interessante ?
![Page 21: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/21.jpg)
- No alinhamento semi-global a primeira linha e coluna são inicializadas com zeros. O resto é igual ao alinhamento global
![Page 22: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/22.jpg)
- A abordagem de programação dinâmica é importante pois garante o melhoralinhamento entre duas seguências, mas ainda temos um problema :
- Lembram-se disso : se o alinhamento de 2 sequências de 100 pbleva 1segundo, o alinhamento de sequências de 10 Mpb (genoma deSaccharomyces) leva 377 anos
- A abordagem alternativa é conhecida como o método de k-tuplas, no qualnão é garantido encontrar o alinhamento ótimo (heurística)mas ésignificantementemaisrápido. Comessemétodoosconceitosdealinhamentosignificantementemaisrápido. Comessemétodoosconceitosdealinhamentodiscutidos acima foram modificados dando origem aos programas dealinhamento local :
- BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25(1990), 3389
- FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este método identifica uma série de palavras curtas em uma dassequências (word size) e depois realiza uma busca exata por essas palavras nassequências a serem comparadas, filtrando assim os possíveis candidatos.
![Page 23: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/23.jpg)
Alinhando proteínas
- Alinhamento proteína-proteína
- Alinhamento nucleotídeo-proteína
- Alinhamento proteína-nucleotídeo
- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
![Page 24: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/24.jpg)
Matrizes de substituição- BLOSUM (BLOcks of amino acid SUbstitution Matrix )
- I e V => Hidrofóbicos
- D e W => D (carga negativa) e W (aromático)
- C => pontes de sulfeto (estrutural)
![Page 25: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/25.jpg)
- A matriz foi construída a partir de alinhamentosmúltiplos globais de 504 grupos de proteínas
- BLOSUM 62 : grupos com similaridade >62%
- BLOSUM 80 : grupos com similaridade >80%
- BLOSUM 45 : grupos com similaridade >45%
Query Length Substitution Matrix
<35 PAM-30
35-50 PAM-70
50-85 BLOSUM-80
>85 BLOSUM-62 PNAS 89 (1992), 10915-19919
![Page 26: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/26.jpg)
BLAST
• Basic Local Alignment Search Tool• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403-
410)• Implementações: NCBI BLAST e WU-BLAST• Acesso via web / local (linux)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Alinhamento – sobreposição de trechos semelhante de duas
seqüências (seqs). BLAST traz pontuação e mostra alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento. • Homologia – genes com ancestral comum
![Page 27: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/27.jpg)
• BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad
![Page 28: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/28.jpg)
Query BD Compara Programant nt nt blastn
nt (trad) aa aa blastxaa aa aa blastpaa nt (trad) aa tblastnaa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Query = formato da seq de entrada.BD = formato das seqs do BD.nt (trad) = seq em nt traduzida pelo programa.Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).Programa = um dos cinco principais tipos de blast.
![Page 29: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/29.jpg)
BLAST interface
![Page 30: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/30.jpg)
BLASTp
http://www.ncbi.nlm.nih.gov/blast/
![Page 31: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/31.jpg)
Limita a região da sequência que será usada na consulta
Pode ser usado um arquivo com várias sequências gravadas no formato fasta
Pode ser colocado várias sequências ao mesmo tempo ou vários GI’s (genbank identifier)
![Page 32: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/32.jpg)
Banco de dados de proteínas do NCBI
Filtro por organismo, use o banco detaxonomia do NCBI para ver a formacorreta de escrever o organismo
Filtros mais elaborados usando as opçõesavançadas de busca do NCBI :
protease NOT hiv1[organism]=> retornaráapenas resultados com proteases que não sejamdo organismo HIV 1
Banco de dados de proteínas curadas pelo EBI
Banco de dados de proteínas com aestrutura tridimensional conhecida
![Page 33: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/33.jpg)
Número máximo de sequências alinhadas
E-value de corteNúmero de bases que serão utilizados para formar as k-tuplas
Altera as penalidades de criação e extensão de gaps no alinhamento
Mascara regiões de repetição
![Page 34: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/34.jpg)
![Page 35: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/35.jpg)
![Page 36: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/36.jpg)
Link
Corte 1e-5
![Page 37: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/37.jpg)
1
subject
query
71
1 64
134
![Page 38: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/38.jpg)
BLASTx – diferenças importantes
Diferentes códigos genéticos para diferentes organismos
![Page 39: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/39.jpg)
A mudança noframe de leituragera a quebra doalinhamentoformando doisHSP´s (highscoring pair)
1
subject
query
10
91
243
6011
95
1
631
![Page 40: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/40.jpg)
• Pode ser instalado localmente
• Bancos de dados próprios e atualizações
• Facilidades– Velocidade de buscas
– Maleabilidade
BLAST local
– Maleabilidade
– Automatização
– Dados locais
– Independe de internet
![Page 41: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/41.jpg)
PHI-BLAST- É um blastp com a opção de passar uma outra sequência curta ou um padrão servindo como um vínculo para a consulta
Ex :
[CG](5)TG{A}N(1,5)C
N - Qualquer nucleotídeo
N(3) - Uma sequência de três nucleotídeos
N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos
[AC] - pode ser um A ou um C
{AG} - não pode ser nem A e nem G
![Page 42: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/42.jpg)
PSI-BLAST- É um blastp interativo no qual a matriz (BLOSUM), após a primeira interação, é refeita com base nos alinhamentos entre as proteínas resultantes da consulta :
- uma posicão conservada no alinhamento recebe um score alto e uma posição não conservada um score baixo
- É útil para encontrar membros distantes de famílias de proteínas
![Page 43: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/43.jpg)
BL2SEQS- Faz um alinhamento de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn)
- http://www.ncbi.nlm.nih.gov/BLAST/bl2seq/wblast2.cgi
![Page 44: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/44.jpg)
Spliced alignments
http://mobyle.pasteur.fr/cgi-bin/MobylePortal/portal.py?form=est2genome
![Page 45: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/45.jpg)
Alinhamento de genomas
http://asap.ahabs.wisc.edu/mauve/
![Page 46: Métodos de alinhamento de sequências biológicas](https://reader033.fdocumentos.tips/reader033/viewer/2022042510/586e771d1a28ab4a368baabf/html5/thumbnails/46.jpg)
FIMFIM