Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 -...
-
Upload
duongxuyen -
Category
Documents
-
view
213 -
download
0
Transcript of Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 -...
![Page 1: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/1.jpg)
Prof. Dr. Alessandro VaraniUNESP - FCAV
Comparação entresequências biológicas” Extraíndo e analisando os sinais
contidos em biopolímeros “( Alinhamentos )
![Page 2: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/2.jpg)
→ Abordagens práticas para comparação de sequências;
Como comparar ?
→ Inferências biológicas e evolutivas geradas a partir da comparação de sequências.
Como analisar e interpretar os resultados ?
Objetivos
![Page 3: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/3.jpg)
Parte 1Introdução e Conceitos
![Page 4: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/4.jpg)
"Em sequências biomoleculares, uma alta similaridade de sequência frequentemente implica em grande similaridade funcional e estrutural."
"Em sequências biomoleculares, alta similaridade de sequência também implica, muito
frequentemente, em relação evolutiva."
”O primeiro fato na análise de sequências biológicas. Dan Gusfield (1997) ”
![Page 5: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/5.jpg)
Tábuas da Saúde(Tacuinum sanitatis)
Prólogo (1): Conceitos BásicosDilema da causalidade “ovo ou a galinha?”
Estrutura de uma biomoléculaGenômica estrutural
→ Pode ser fisicamente definida:(a) Amostra pura da proteína;
(b) Um local apropriado para crescer os cristais;(c) Uma linha de luz sincroton.
Sítio catalítico da transposase Bacteriófago Mu
![Page 6: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/6.jpg)
Função de uma biomoléculaGenômica Funcional (Bioquímica)
→ Não é somente uma característica física, mas a descrição de um determinado processo biológico;
→ Só pode ser determinada dentro de um contexto biológico; → A função também envolve interações com outras moléculas que também
precisam ser identificadas e com função desvendada;
Prólogo (2): Conceitos Básicos
![Page 7: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/7.jpg)
Função de uma biomoléculaGenômica Funcional (Bioquímica)
→ Normalmente, para se definir a função biológica de uma biomolécula, é preciso verificar as interações de muitos componentes num extrato celular, na célula inteira, nos organismos vivos, ou dentro de um ecossistema no qual o organismo seja uma parte.
→ Logo que a função de uma proteína é realizada, sua estrutura pode mudar.
Protein Structural Change upon Ligand Binding Correlates with Enzymatic Reaction MechanismKoike et al., 2008
Prólogo (3): Conceitos Básicos
![Page 8: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/8.jpg)
Estrutura e Função de uma Biomolécula
→ Apesar de serem geralmente observáveis, não é uma correlação trivial a ser feita !
Prólogo (4): Conceitos Básicos
→ Durante um projeto que envolva a análise e comparação de sequencias biomoleculares, levar em consideração todas as nuances possíveis entre a relação “estrutura e função” é de fundamental importância. Não basta apenas “apelar” para o
resultado que o computador fornece.
![Page 9: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/9.jpg)
Com base na similaridade de sequencias:
Similaridade de estrutura
Similaridade de função
Ancestralidade comum
Hoffmann et al., PNAS (2010)
Prólogo (5): Conceitos Básicos
![Page 10: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/10.jpg)
Prólogo (6):
→ A inferência de estrutura e função é inseparável da inferência evolutiva;
Conclusões
→ Quando sequências provenientes de duas biomoléculas são comparadas, nosso caminho a partir da similaridade de sequência até chegar à conclusão sobre similaridade funcional e estrutural nunca é direta;
→ Inversamente, sempre inferimos primeiramente a ancestralidade comum entre sequências e, só a partir daí é que se pode partir para a inferência de estrutura e função. Essa lógica não é óbvia quando a similaridade é muito alta, mas se duas sequências são mais distantemente e relacionadas uma à outra, essa cadeia de raciocínio precisa tornar-se explícita.
![Page 11: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/11.jpg)
→ Medimos a similaridade entre sequências e imediatamente usamos estatísticas para comparar a similaridade observada com o que seria esperado ao acaso;
Prólogo (7): Conclusões
→ Se a similaridade é muito alta para ocorrer ao acaso, isso é frequentemente considerado suficiente para a realização de predições sobre a função protéica e estrutural. A única razão pela qual este raciocínio funciona é porque a única forma de uma similaridade de sequência não-aleatória ocorrer é através da descendência a partir de um ancestral comum das duas sequências. (O que é chamado de inferência por homologia) ;
→ Portanto, a inferência das relações evolutivas, torna-se um pré-requisito para a proposição de outras relações, como a estrutura e a função.
![Page 12: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/12.jpg)
→ Proteínas com funções similares não precisam ter sequências similares, e proteínas com estruturas similares também podem apresentar sequências diferentes;
Prólogo (8): Em contrapartida …
→ Biomoléculas apresentando funções similares podem ter perdido a similaridade de sequência mas, de outra forma, elas podem não ter nunca compartilhado similaridades mas terem convergido para a mesma função a partir de sequências completamente divergentes evolutivamente. Este princípio se aplica a estruturas também: a similaridade de estruturas na ausência de similaridade de sequência pode representar tanto a extrema divergência de sequencias que foram inicialmente similares quanto a convergência de sequências que não eram similares inicialmente;
→ A distinção entre divergência e convergência em nível molecular é um dos problemas mais importantes.
![Page 13: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/13.jpg)
A B C
Gene Pti1: Codifica uma serina/treonina
kinase
Somente “A” foi estudada
Praticamente idênticas
Parecida (bastante próxima)
Como inferir a ancestralidade comum, estrutura e função ?
→ Nem todos os resíduos de aminoácidos precisam ser conservados entre “A” e “B” para determinar o ancestralidade comum. Por exemplo, podemos não considerar os sítios conservados exclusivamente entre “A” e “B” porque não precisamos destes resíduos para reconhecer a similaridade entre “A” e a sequência mais distante “C”, tanto quanto a similaridade entre “B” e “C”.
![Page 14: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/14.jpg)
A B C
Gene Pti1: Codifica uma serina/treonina
kinase
Somente “A” foi estudada
Praticamente idênticas
Parecida (bastante próxima)
→ De outra forma, quando fazemos a seguinte inferência: "as sequências proximamente relacionadas “A” e “B” são mais prováveis de apresentarem a mesma função, mas a sequência mais distante “C” pode apresentar uma função diferente" nós, na verdade, estamos usando a informação sobre os sítios conservados apenas entre “A” e “B”, mas não entre cada uma delas de “C”. Assim, as informações evolutivas, estruturais e funcionais estão entremeadas nas sequências de forma sutil.
Como inferir a ancestralidade comum, estrutura e função ?
![Page 15: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/15.jpg)
Como inferir a ancestralidade comum, estrutura e função ?
LUCA Serina / treonina kinase
“Os biopolímeros contêm informação sobre sua evolução, estrutura e função; e esses três tipos de sinal podem interagir
em diferentes formas, algumas vezes aumentando e outras vezes interferindo umas com as outras.”
![Page 16: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/16.jpg)
"Nothing in Biology Makes Sense Except in the Light of Evolution (1973)"
Theodosius Dobzhansky (1900 - 1975)
" Quase nada no campo da biologia computacional (bioinformática) faz sentido, exceto à luz da comparação de sequencias biomoleculares "
![Page 17: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/17.jpg)
Definição de Conceitos
Kristensen D M et al. Brief Bioinform 2011;12:379-391
→ Homologia: Mesmo ancestral comum;
→ Analogia: Mesma função origem diferente;
→ Ortologia: Especiação;
→ Parálogos: Duplicação;
→ Xenólogos: Transferência Lateral
![Page 18: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/18.jpg)
Introdução: A Semântica O Alfabeto→Aminoácidos e nucleotídeos
Nucleotídeos
![Page 19: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/19.jpg)
http://www.russelllab.org/aas/aas.html
Introdução: A Semântica O Alfabeto→Aminoácidos
![Page 20: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/20.jpg)
Introdução:A sintaxe: regras para a leitura da Inf. Biológica Código Genético→
![Page 21: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/21.jpg)
ATGACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGTAA5' 3'
ATGACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGTAATGACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGTAA GACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGTAA
AATACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGGT AATACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGG
AATACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGGTA
+3+2+1
-1-2-3
Introdução: A sintaxe, regras para a leitura da inf. Biológica Quadros de Leitura→
![Page 22: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/22.jpg)
Parte 2Alinhamentos de Sequências
![Page 23: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/23.jpg)
Análise Comparativa: Alinhamentos
Objetivo
→ Encontrar sinais biológicos a respeito da evolução, estrutura e função através do estudo da similaridade entre as sequências (Ex. Alinhamento par-a-par );
→ Estudo de similaridades (identificação de domínios) entre sequências que já sabemos que são relacionadas, e que conhecemos, pelo menos em parte, de seus sinais biológicos (Ex. Alinhamento Múltiplo ).
Não é apenas a construção de um alinhamento...
![Page 24: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/24.jpg)
Análise Comparativa: Alinhamentos
Demanda
→ Este é atualmente um dos problemas mais importante de toda a
bioinformática (biologia computacional), dado o número e
diversidade de seqüências existentes e dada a frequência com que
ele precisa ser resolvido diariamente pelo mundo a fora.
![Page 25: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/25.jpg)
Alinhamentos
Análise por comparação entre sequências biomoleculares
→ Uso de algoritmos que permitem comparar uma sequência ‘objeto’ com um banco de dados de sequências biomoleculares;
→ A comparação é feita alinhando-se a sequência ‘objeto’ a sequências ‘alvo’ de um banco de dados;
→ A cada comparação é dado um valor, que é a medida de similaridade entre um par de sequências;
→ A discriminação entre pares reais e artificiais é feita através de uma estimativa da probabilidade que o pareamento tenha ocorrido ao acaso.
Algoritmos Conjunto finito de instruções, bem definidas e não ambíguas, sendo →executadas em um período de tempo finito e com a quantidade de esforço finito.
![Page 26: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/26.jpg)
Algoritmo : Princípio
http://pt.wikipedia.org/wiki/Algoritmo
![Page 27: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/27.jpg)
Algoritmo : Princípio
![Page 28: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/28.jpg)
Alinhamentos
Análise por comparação entre sequências biomoleculares
Em termos simples: Fazer um “encaixe”
![Page 29: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/29.jpg)
Alinhamentos
Conceito de escore (score ou pontuação)
→ Forma de quantificar os alinhamentos;
Caso Simples de Pontuação:
+1 para quando ocorrer o pareamento entre polímeros idênticos,
-1 quando não há pareamento,
-2 para quando houver um gap (abertura de uma lacuna para favorecer o pareamento em outra região)
![Page 30: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/30.jpg)
Alinhamentos
Conceito de escore (score ou pontuação)
Matriz bidimensional de substituição
Logo voltamos a falar...
![Page 31: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/31.jpg)
Alinhamentos
Conceito de escore (score ou pontuação)
Novo score
![Page 32: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/32.jpg)
Alinhamentos: Conceitos e Desafios → Alinhamento pode ser entre “pares” de sequências ou “múltiplos” ;
→ Métodos de alinhamento de sequencias: GLOBAL ou LOCAL :
Global“Needleman-Wunsch”
1970
Local“Smith-Waterman”
1981
→ Estatísticas para alinhamentos LOCAIS são bem definidas, enquanto para alinhamentos GLOBAIS ainda não são (Altschul, 2006);
→ É importante definir se a similaridade é GLOBAL ou LOCAL.
![Page 33: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/33.jpg)
Alinhamentos: Conceitos e Desafios
Exemplos: global vs local
![Page 34: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/34.jpg)
Alinhamentos: Conceitos e Desafios
Alinhamento entre pares de sequências
→ Este método resolve o problema de otimização do algoritmo, porém não resolve o “X” biológico da questão;
→ Sensitividade tem que ser definida pela similaridade e distância entre as sequências que serão comparadas. <<Matriz de Pontuação>>
Programação Dinâmica
Busca por soluções de problemas por meio de uma sequências de sub problemas semelhantes
Menor número de operações para determinar a similaridade
![Page 35: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/35.jpg)
Alinhamentos: Conceitos e Desafios
Programação Dinâmica (PD)
→ A abordagem convencional testa todos os possíveis alinhamentos e é exponencial ao tamanho da sequências ( n );
Se duas sequências a serem comparadas que tem 100bp a comparação leva 1 segundo, duas sequências de 1.000bp levariam = ?
PD procura por todas as soluções possíveis e encontra a solução ótima, e o tempo de processamento fica quadrático ( n );
n
2
→ Também pode ser muito lento e custoso em termos computacionais, dependendo do tamanho das sequências:
Se duas sequências de 100bp levam 1 segundo, duas de 1.000bp levaria 100 segundos, porém:
Por exemplo, a comparação entre o genoma de dois fungo com 20 Mb, levaria aproximadamente 750 anos.
![Page 36: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/36.jpg)
Alinhamentos: Conceitos e Desafios
Problema do Caixeiro-Viajante
NP-Completo: Complexidade Exponencial
![Page 37: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/37.jpg)
Alinhamentos: Conceitos e Desafios
Exemplo 1 - GLOBAL
Alinhando as palavras"PELICAN" and "COELACANTH."
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Iniciando a matrizde alinhamento!
![Page 38: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/38.jpg)
Alinhamentos: Conceitos e Desafios
Iniciando o alinhamento:Direção -> Flanco superior esquerdo ao flanco inferior direitoMovimentos na vertical ou horizontal indicaram lacunas (gaps)
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
As setas indicam aorigem/direção do
alinhamento.
![Page 39: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/39.jpg)
Alinhamentos: Conceitos e Desafios
Alinhando “P” com “C” e calculando o score+1 para semelhanças / -1 para diferenças
Cálculo do score: -1
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
+1 Match-1 Mismatch
Ordem:Azul escuro, verdevermelho
Maior valorIndica para
onde a seta vai apontar
![Page 40: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/40.jpg)
Alinhamentos: Conceitos e Desafios
Continuando o processoScore = -2 (Verde + Azul Escuro) + o valor anterior
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
![Page 41: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/41.jpg)
Alinhamentos: Conceitos e Desafios
Seguindo o mesmo método completa-se a matriz
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
![Page 42: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/42.jpg)
Alinhamentos: Conceitos e Desafios
O melhor alinhamento é escolhido através do método de rastreamento
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
Começa aqui
COELACANTH || ||| -PELICAN--
![Page 43: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/43.jpg)
Alinhamentos: Conceitos e Desafios
→ No alinhamento GLOBAL o alinhamento é construído a partir do extremo da matriz, enquanto no alinhamento LOCAL a primeira linha e coluna são inicializadas com zero e o alinhamento é construído a partir do maior score da matriz e para quando encontra zero.
CAGCA– CTTGGATTCTCGC
- - - CAGCGTGG - - - - - - - -
CAGCA – CTTGGATTCTCGC
CAGC - - - - - - G- T - - - - - -
Semi-global Global
→ Também há uma terceira modalidade de alinhamento chamada de “Alinhamento Semi-Global”, cujo princípio não penaliza as extremidades do alinhamento. (Ex. Montagem de Genomas, em programas como por exemplo phrap e CAP3)
![Page 44: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/44.jpg)
Alinhamentos: Conceitos e Desafios
→ Mesmo utilizando-se boas metodologias de pontuação, o algoritmo de alinhamento irá alinhar qualquer coisas, contendo ou não um sinal biológico. O algoritmo nunca irá dizer se a “melhor pontuação” é boa o suficiente para indicar o sinal biológico que está sendo procurado;
→ Para escolher sinais biologicamente importantes é necessário uma abordagem estatística para avaliar os alinhamentos e compará-los com um padrão (O programa BLAST por exemplo);
→ Porém mesmo assim, muitos resultados de alinhamentos permanecem em uma região chamada de “twilight zone” ou na bordas da significância estatística. (ou seja, a homologia não é garantida!) – exemplos mais pra frente!
![Page 45: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/45.jpg)
Alinhamentos: Conceitos e Desafios
Desafio
A B C
-> Se o alinhamento entre “A” e “B” apresenta uma pontuação alta e se o alinhamento entre “B” e “C” também apresentar uma pontuação boa, isso não informará absolutamente nada a respeito da pontuação entre “A” e “C”.
-> Porém em muitas buscas por comparação em banco de dados, muitos resultados indistinguíveis (twilight zone) não são mostrados (“A” e “C” ) a menos que o investigador já conheça a respeito da similaridade entre “A” e “B”.
![Page 46: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/46.jpg)
Alinhamentos: Conceitos e Desafios
A questão da introdução de gaps (lacunas)
-> Durante o alinhamento, gaps são introduzidos deliberadamente de acordo com a regras de pontuação;
-> Processos biológicos de replicação, recombinação, e reparo, podem ocasionalmente levar a inserção ou deleção de nucleotídeos;
-> OK! Justificamos a função de introdução de gaps nos alinhamentos;
-> Porém quando introduzidos no alinhamento indicam sinais biológicos;
-> As garantias da qualidade da introdução de gaps depende também dos métodos de pontuação do alinhamento.
PAWHEAE---------HEAGAWGHEE
---PAW-HEAEHEAGAWGHEE-
![Page 47: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/47.jpg)
Alinhamentos: Conceitos e Desafios
A questão da introdução de gaps (lacunas)
“Métodos de pontuação de gaps foram selecionados por tentativa e erro nos últimos anos.... e a maioria dos programas de alinhamento possuem um mesmo valor padrão de pontuação. Se os usuários precisarem utilizar pontuações diferentes, não haverá garantias que os resultados serão apropriados ...”
Uma pontuação alta para abertura de um gap e uma pontuação menor para extensão de um gap tem provado ser a melhor escolha ... “
(Altschul, 2006) Tutorial on-line do BLAST
PAWHEAE---------HEAGAWGHEE
---PAW-HEAEHEAGAWGHEE-
![Page 48: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/48.jpg)
Alinhamentos: Conceitos e Desafios
Matrizes de pontuação
-> Associar a informação que temos a respeito da similaridade e distância dos sinais biológicos dos biopolímeros que estão sendo comparados para ser utilizado como forma de pontuar o alinhamento;
-> Contém valores proporcionais a probabilidade de um aminoácido “x” ser substituído por um aminoácido “y”;
-> 4x4 = 16 combinações possíveis para nucleotídeos
-> 20x20 = 400 Combinações possíveis para aminoácidos
![Page 49: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/49.jpg)
Alinhamentos: Conceitos e Desafios
Matrizes de pontuaçãoInicialmente discutido no trabalho seminal de Zuckerkandl e Pauling em 1965 -
“Molecules as Documents of Evolutionary History” ;
-> Problema: Precisam ser valores numéricos, porém como quantificar ?
Ácido Aspártico e Glutâmico (D e E) apresentam grupos carboxila na cadeia lateral e são facilmente permutáveis
Lisina e Arginina (K e R) apresentam um grupo amino na cadeia lateral e podem ser permutáveis
![Page 50: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/50.jpg)
Alinhamentos: Conceitos e Desafios
Matrizes de pontuação
Ácido AspárticoD
Ácido GlutâmicoE
LisinaK
ArgininaR
Uma mudança entre D para K altera a polaridade e tamanho da cadeia lateral deve receber uma pontuação bem diferente do que em relação uma alteração entre
D para E.
Mas a pontuação deve ser MUITO ou POUCA diferente,
como quantificar ?
Deve ser negativa ?
E a pontuação entre as trocas entre D->E e K->R ?
Como comparar D->K e E->R ? A pontuação deve ser
simétrica ???
![Page 51: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/51.jpg)
Alinhamentos: Matrizes de pontuação
http://www.russelllab.org/aas/aas.html
![Page 52: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/52.jpg)
Alinhamentos: Matrizes de pontuação
-> A solução surgiu a partir da era de sequenciamento de DNA e proteínas, entre 1960 e 1970
Margaret Oakley Dayhoff
Dayhoff e colaboradors redefiniram o problema em busca da melhor pontuação:
-> Ao invés de se perguntarem sobre o custo de cada tipo de substituição, eles se perguntaram sobre qual a
frequência que cada par de aminoácido é alinhado em famílias de proteinas relacionadas.
Foi a primeira a introduzir o termo “Score de Alinhamento"
![Page 53: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/53.jpg)
Alinhamentos: Matrizes de pontuação
A questão: Como inventar uma matriz de pontuação boa o suficiente ?
É aqui que entra em cena as matrizes BLOSUM e PAM
PAM -> “Point Accepted Mutation”, ou “Percentage Accepted Mutation”
PAM 250
(Dayhoff et al., 1965; Dayhoff e Eck, 1968)
![Page 54: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/54.jpg)
Alinhamentos: Matrizes de pontuação
PAM
-> São baseadas em alinhamentos globais de proteínas com parentesco próximo;
-> PAM 1 é a matriz calculada a partir da comparação entre sequências com menos de 1% de divergência (probabilidade de 1 aminoácido ser substituído a cada 100 aminoácidos) ;
-> Outras matrizes PAM são extrapoladas a partir da matriz PAM1
-> Como pode ter 250% (PAM250) de mudanças ? -> Saturação
![Page 55: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/55.jpg)
Alinhamentos: Matrizes de pontuação
BLOSUM
-> Desenvolvida por Stephen e Jorja Henikoff de Centro de Pesquisa para o Câncer em Seattle e Howard Hughes Medical Institute a partir de um estudo de alinhamento de proteínas relacionadas (1992 e 1993);
-> Desenvolvida mais de 20 anos depois da matriz PAM (muito mais famílias proteicas estavam disponíveis);
-> BLOSUM = BLOCK SUBSTITUTION MATRIX
-> Os valores são baseados nas observações das frequências de substituição, em bloco de alinhamentos locais de proteínas relacionadas (Focado em fragmentos “BLOCOS” do alinhamento escolhidos a “dedo”) .
![Page 56: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/56.jpg)
Alinhamentos: Matrizes de pontuação
BLOSUM
-BLOSUM62 = Calculada a partir de comparações entre sequências, com divergência mínima de 62%
![Page 57: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/57.jpg)
Alinhamentos: Matrizes de pontuação
BLOSUM
-> Inicialmente cada BLOCO foi gerado a partir do banco de dados BLOCKS que foi baseado em padrões do PROSITE (Bairoch, 1992);
-> A principal razão do PROSITE ser utilizado na construção dos BLOCOS estava relacionada ao fato que cada padrão do PROSITE foi manualmente curado e verificado e usualmente apresentavam uma função molecular conhecida.
![Page 58: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/58.jpg)
Alinhamentos: Matrizes de pontuação
Vantagens e desvatagens
BLOSUM
-> São baseadas em observações reais;
-> Detectam melhor sequências com relações biológicas (detectam melhor domínios conservados entre proteínas);
-> Não é possível gerar um modelo evolutivo.
![Page 59: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/59.jpg)
Alinhamentos: Matrizes de pontuação
Vantagens e desvatagens
PAM
-> É possível montar um modelo evolutivo e assim gerar novas matrizes a partir da primeira;
-> Preferencialmente usadas para determinar questões evolutivas (Rastrear proteínas ancestrais) ;
-> São baseadas na frequência de substituição encontrada em proteínas de parentesco muito próximo. Portanto são melhores
para detectar relações próximas entre proteínas.
![Page 60: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/60.jpg)
Alinhamentos: Matrizes de pontuação
Vantagens e desvantagens
→ Sensitividade tem que ser definida pela similaridade e distância entre as sequências que serão comparadas. <<Matriz de Pontuação>>
No dia-a-dia a matriz BLOSUM62 tem demonstrado ótimos resultadosÉ a matriz padrão para o programa BLAST
Para comparar seqs mais divergentes (30-40% similar)
Para comparar seqs mais parecidas (80-
90% similar)
![Page 61: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/61.jpg)
Alinhamentos: Conceitos e Desafios
Similaridade ou Homologia ?
-> O grau de similaridade pode ser estimado, por exemplo duas proteína podem ser 75% idênticas;
-> Homologia é uma afirmação sobre a história evolucionária de um caractere;
Duas sequências são 75% homólogas
“mais homólogo”
Duas sequências são 75% idênticas ou similares
60% da proteína é homóloga a 34% de outra proteína
![Page 62: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/62.jpg)
Alinhamentos
Alinhamento Múltiplos
-> Processo utilizado para a elucidação de temas biologicamente significantes
(estudo de domínios e motivos protéicos por exemplo) .
-> O alinhamento múltiplo é uma generalização “natural” do caso de par de
sequências. O objetivo é transformar, por meio de gaps, todas as sequências
em outras de mesmo comprimento.
![Page 63: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/63.jpg)
Alinhamentos
Alinhamento Múltiplos
-> O alinhamento pode ser visto na forma de uma tabela onde cada
linha está associada a uma sequência.
-> É uma técnica utilizada em sequências de proteínas.
![Page 64: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/64.jpg)
Alinhamentos
Alinhamento Múltiplos
Motivações:
-> Detecção de regiões conservadas em grande número de sequências;
-> Definição de famílias protéicas;
-> Detecção de resíduos conservados (sítios de fosforilação, glicosilação, ligação com metal, com substrato, com íon, localização celular);
-> Predição estrutural;
-> Passo para reconstrução filogenética;
![Page 65: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/65.jpg)
Alinhamentos
Alinhamento Múltiplos: Conceitos
-> Motivo: sítios catalíticos, resíduos estruturais importantes;
-> Domínio: relacionados a uma função da proteína, pressupõem homologia;
-> Família: grupo de proteínas relacionadas evolutivamente;
-> Padrão: sintaxe (expressão regular) descrevendo combinações possíveis de resíduos;
-> Profile: descreve variabilidade dentro de uma família protéica;
![Page 66: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/66.jpg)
Alinhamentos Múltiplos
Como são construídos os alinhamentos múltiplos?
PD: analisa todos alinhamentos possíveis (100n segundos para n seqüências);
Progressive pairwise alignment: analisa todos pares de sequências, constrói uma matriz e uma árvore NJ, seleciona um par inicial e vai adicionando as outras seqs (segundo a árvore). Ex: Clustal, T-Coffee
Iterative alignment: começa com um alinhamento feito, e passos consecutivos de iterações são feitos até que o alinhamento não possa mais ser melhorado. Ex: Muscle
Anchor-based: partem de subseqüências comuns, e regiões não alinhadas são tratadas posteriormente. Ex: MAFFT
Probabilistic methods: pré-computam probabilidades de substituição baseando-se em alinhamentos conhecidos, e procuram aquele com o maior número esperado de predições corretas. Ex: ProbCons
![Page 67: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/67.jpg)
Alinhamento Múltiplos
Visualização pode parecer fácil
![Page 68: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/68.jpg)
Alinhamento Múltiplos
Ou um “pouco” mais complicado...
![Page 69: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/69.jpg)
Alinhamento Múltiplos
Problemas....Proteínas com muitos domínios, e com rearranjos, não são possíveis de alinhar.
Difícil alinhar as proteínas em toda sua extensão.
Não funciona abaixo de ~30% de similaridade (twilight zone): isso pode ser corrigido se houver informação de estrutura
Como fazer um bom alinhamento?Seleção correta de sequências (>30% similaridade)
>80 sítios
Identificação de resíduos importantes (por mutantes ou estrutura 3D)
Baseado em estrutura secundária
![Page 70: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/70.jpg)
Alinhamentos: Para terminar ...
-> Alinhamento GLOBAL e LOCAL exemplos práticos de uso:
http://www.ebi.ac.uk/Tools/psa/
-> LOCAL: WATER, MATCHER, LALIGN-> GLOBAL: NEEDLE, STRETCHER
Ambos utilizam Programação Dinâmica, para garantir o melhor resultado
Porém o custo computacional é alto, e devido a necessidade atual (NGS) e das últimas décadas, de se realizar comparações, essa abordagem se torna inviável.
Desta forma foi criada uma abordagem alternativa para comparação de sequências (alinhamento)
-> Nesta abordagem alternativa não é garantido encontrar o melhor alinhamento, porém é significativamente mais rápida em termos computacionais, e em termos
práticos também é muito eficiente.
HEURÍSTICA
![Page 71: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/71.jpg)
Parte 3BLAST
![Page 72: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/72.jpg)
BLAST
Basic Local Alignment Search Tool
Segundo o Google Acadêmico
Artigo de 1990 -> 40.332 citaçõesArtigo de 1997 -> 41.055 citações
![Page 73: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/73.jpg)
BLAST
-> É um conjunto de algoritmos que busca um alinhamento local ótimo da seqüência objeto
com seqüência alvo de um banco de dados;
->O algoritmo BLAST é extremamente simples e se baseia no conceito de “par de
segmentos”;
-> Dada duas seqüêcias, um par de segmentos é definido como um par de sub sequêcias
de mesmo comprimento que forma um alinhamento sem gap;
-> Este algoritmo determina todos os pares de segmentos entre as sequêcias do banco de
dados e a sequência em exame que apresentam um score acima de um valor limiar pré-
fixado pelo usuário;
-> Os pares de segmentos (do inglês HSP, High Scoring Pairs) são apresentados como
resultado do programa, assim como os valores estatísticos associados;
-> A grande inovação do BLAST foi relacionada a capacidade de calcular uma
significância estatística para cada resultado de alinhamento;
![Page 74: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/74.jpg)
BLAST
Number of Hits to DB: 3816
Number of Sequences: 63
Number of extensions: 123
Number of successful extensions: 1
Number of sequences better than 1.0e-01: 0
Number of HSP's better than 0.1 without gapping: 0
Number of HSP's successfully gapped in prelim test: 0
Number of HSP's that attempted gapping in prelim test: 1
Number of HSP's gapped (non-prelim): 0
length of query: 152
length of database: 12,629
effective HSP length: 45
High Scoring PairsSummary
Geralmente apresentado no final da visualização da busca
![Page 75: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/75.jpg)
BLAST
Método-> Utiliza um subconjunto de sequencias, da sequencia objeto, denominadas palavras
ou “W” (word), para criar as sementes do alinhamento;
-> Busca fragmentos indênticos a “W”, com um valor mínimo de “T” (threshold),
utlizando a matriz de substituição;
-> Se “T” é alcançado, “W” é extendido em ambas as direções, tentando gerar um
alinhamento com um valor “S” (score) inicial.
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
![Page 76: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/76.jpg)
BLAST
Método-> Quando maior o valor para “W” haverá menores
possibilidades para matches ;
-> Uma vez alinhada a semente, o programa extende o
alinhamento em ambas as direções e este é o processo
que mais consome tempo;
-> Estas variáveis podem ser administradas pelo usário.
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
![Page 77: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/77.jpg)
BLAST
Método: Exemplo
![Page 78: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/78.jpg)
BLAST
![Page 79: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/79.jpg)
BLAST
![Page 80: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/80.jpg)
BLAST
Significância estatística
E-Value (expect value) : Calculado para cada alinhamento, proporciona uma estimativa do número de falsos positivos esperados em uma busca
-> Altos valores de E sugerem grande chance do alinhamento ocorrer de forma randômica
De uma maneira geral, quando mais próximo a “0” melhor.
E< 10 -100 -> Provavelmente homólogos ou identicos
E<10 -3 -> Podem ser relacionados
E>1 Provavelmente não há relação
0,5 < E < 1 -> Twilight Zone
![Page 81: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/81.jpg)
BLAST
Analisando os Resultados
![Page 82: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/82.jpg)
BLAST
Analisando os Resultados
![Page 83: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/83.jpg)
BLAST
Analisando os Resultados
![Page 84: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/84.jpg)
BLAST
Analisando os Resultados
![Page 85: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/85.jpg)
BLAST
Tipos de comparações
Query BD Compara Programant nt nt blastn
nt (trad) aa aa blastxaa aa aa blastpaa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
![Page 86: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/86.jpg)
BLAST
PHI-BLAST e PSI-BLAST
-> PHI-BLAST : É um BLASTP refinado: Opção de indicar uma sequencia curta ou padrão para ser utilizado como referência
para a construção do alinhamento
-> PSI-BLAST: É também um BLASTP refinado, só que aqui o blastp é interativo. É reconstruída uma matriz com base nos alinhamentos resultantes da primeira consulta . É útil para
encontrar membros distantes de famílias protéicas.
-> Blast2Seq: Compara duas sequencias <<alinhamento par-a-par>>
![Page 87: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/87.jpg)
Epílogo: Busca em banco de dados e alinhamentos
Informações evolutivas, estruturais e funcionais
![Page 88: Comparação entre sequências biológicasgenomics.fcav.unesp.br/Aulas2016/Aula7.pdf · Exemplo 1 - GLOBAL As setas indicam a origem/direção do alinhamento. Alinhamentos: Conceitos](https://reader031.fdocumentos.tips/reader031/viewer/2022020414/5bda27db09d3f2d0098c23aa/html5/thumbnails/88.jpg)
Dúvidas, perguntas ?