CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, …w3.ualg.pt/~jvarela/bioinformatica/T04.pdf ·...

47
CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E ENGENHARIA BIOLÓGICA Bioinformática João Varela [email protected] Aula T4

Transcript of CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, …w3.ualg.pt/~jvarela/bioinformatica/T04.pdf ·...

C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A , C I Ê N C I A S B I O M É D I C A S E

E N G E N H A R I A B I O L Ó G I C A

Bioinformática

João Varela [email protected]

Aula T4

Esquema de anotação Annothaton

1.  Determinar a localização das ORFs presentes na sequência desconhecida (quadro de leitura; coordenadas do codão START e codão STOP)

2.  Determinar qual delas tem maior probabilidade de ser a traduzida e ter função biológica

Esquema de anotação Annothaton

1.  ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)

2.  Existem proteínas homólogas? (BLASTp, BLASTx) 3.  Existem domínios funcionais? Onde? (InterProScan) 4.  Qual o tamanho / massa molecular da proteína codificada

pela ORF em aa / kDa? 5.  A que organismo ou táxon pertencerá a sequência

metagenómica? (BLAST Taxonomy Report) 6.  Relações filogenéticas (MSA; Prof. Rita Castilho) 7.  Conclusões e Análise de Resultados (PONTO PRINCIPAL DA

AVALIAÇÃO)

ORFs com função biológica: Critérios

�  Tamanho: As ORFs maiores tendem ser aquela que tem função biológica; a probabilidade de ORFs com tamanho > 150 aa de ser uma ORF sem função [falso positivo] é muito reduzida; ORFs com tamanho < 60 aa têm pouca probabilidade de terem função

�  Homólogas a ORFs com função conhecida: Alinhamentos com sequências com função conhecida -> BLAST e InterProScan

BLAST

Subrotinas do BLAST

Sub-Tipo" “Query” " Base de dados"BLASTn (deve ser usada para comparar sequências de DNA com bases de dados de DNA)"

DNA" DNA"

BLASTp (deve ser usada para comparar sequências polipeptídicas com bases de dados de proteína)"

Proteína" Proteína"

BLASTx"(deve ser usada quando a BLASTn ou BLASTp não consegue encontrar sequências homólogas na base de dados) "

DNA -> proteína" Proteína"

TBLASTn (deve ser usada quando a BLASTp não consegue encontrar sequências homólogas na base de dados) "

Proteína" DNA -> Proteína"

TBLASTx(deve ser usada quando a BLASTx não consegue encontrar sequências homólogas na base de dados) "

DNA -> proteína" DNA -> Proteína"

Subrotina a usar para determinar proteínas homólogas a ORFs

�  Usar o BLASTp utilizando a sequência proteica obtida através da tradução virtual da ORF contra a base de dados SWISSPROT e NR

5’-AAG ATG GAA GGA TAA ACC-3’

ORF (sequência nucleotídica)

Tradução virtual in silico

M – E – G *

> Proteína x MEG*

ORF traduzida virtualmente (ORF Finder)

Ficheiro Bioinformático

(FASTA) BLASTp

Análise de resultados do BLASTp

Análise de resultados do BLASTp

�  Listagem de sequências homólogas (scores elevados e valores E << 10-2) è há sequências homólogas e com função conhecida è ORF provavelmente codifica uma proteína com a mesma ou uma função biológica semelhante às codificadas pelas sequências homólogas

�  Listagem de sequências homólogas (scores elevados e valores E << 10-2) è há sequências homólogas e com função desconhecida è ORF provavelmente codifica uma proteína com a mesma ou uma função biológica semelhante às das sequências homólogas, mas essa função não é ainda conhecida

�  Listagem com scores baixos e valores E > 10-2 -> não há sequências homólogas credíveis è ORF não implica que não tenha função biológica; apenas que não se conhecem sequências homólogas neste momento; para ORFs > 200 aa è ORFan

ORFan

�  ORF que codifica uma proteína com um tamanho > 200 aa sem proteínas homólogas conhecidas

Anotação “coding” vs. “noncoding”

1. Sequência tem ORFs? è Não è noncoding ê Sim 2. A maior ORF > 60 aa? è Não è noncoding ê Sim 3. A maior ORF tem função conhecida? è Sim è coding ê Não 4. A maior ORF > 200 aa ? è Simè coding ê Não 5. ORFan com outras ORFs mais pequenas? è Não è noncoding ê Sim

6. Repetir passos 1-5 com ORFs mais pequenas se houver sobreposição entre a ORFan e a ORF mais pequena

BLASTp vs. BLASTx

�  Usar o BLASTp contra a base de dados ENV_NR se o BLASTp não encontrar proteínas homólogas à proteína codificada pela ORF em estudo

�  Usar o BLASTx nos passos 3 e 4 se o BLASTp não encontrar proteínas homólogas à proteína codificada pela ORF em estudo

BLASTx

�  Traduz uma sequência de DNA nos 6 quadros de leitura e compara cada um deles com base de dados de proteína

�  Ideal quando há erros de sequenciação que mascaram ORFs

5’-ACT AGG AAC ATC CAT AAC ATG AAA TAA-3’! T R N I H N M K *! L G T S I T * N!

! * E H P * H E I!!5’-ACT ATG GAA CAT CCA TAA CAT GAA ATA A-3’! T M E H P * H E I!

Tem um erro (falta um T)

Anotação “coding” vs. “noncoding”

1. Sequência tem ORFs com BLASTx? è Não è noncoding ê Sim 2. A homologia > 60 aa? è Não è noncoding ê Sim 3. A homologia tem função conhecida? è Sim è coding, * ê Não noncoding * - Anotar que há uma possível ORF que está truncada devido a erros de sequenciação ou que se está na presença de um pseudogene

Pseudogene

�  Sequências com homologia com genes que codificam proteínas (com função conhecida), mas que devido a mutações perderam a capacidade de codificar uma proteína

5’-ACT AGG AAC ATC CAT AAC ATG AAA TAA-3’! T R N I H N M K *! L G T S I T * N!

! * E H P * H E I!!5’-ACT ATG GAA CAT CCA TAA CAT GAA ATA A-3’! T M E H P * H E I!

BLAST

Colocar a listagem dos resultados do BLAST em Raw Results na secção BLAST do Annothaton

Para obter os resultados do BLAST em formato de texto clicar em Format Options e escolher a opção Alignment as Plain Text

Esquema de anotação Annothaton

1.  ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)

2.  Existem proteínas homólogas? (BLASTp, BLASTx) 3.  Existem domínios funcionais? Onde? (InterProScan) 4.  Qual o tamanho / massa molecular da proteína codificada

pela ORF em aa / kDa? 5.  A que organismo ou táxon pertencerá a sequência

metagenómica? (BLAST Taxonomy Report) 6.  Relações filogenéticas (MSA; Prof. Rita Castilho) 7.  Conclusões e Análise de Resultados (PONTO PRINCIPAL DA

AVALIAÇÃO)

Proteínas são formadas por módulos funcionais

Urocinase (activador do plasminogéneo)

Plasminogéneo (hidrolisa fibrilhas de cóagulo)

ligação a proteínas

ligação a proteínas e fosfolípidos

actividade proteolítica

ligação a aniões (ex. RNA)

Assinaturas / Motivos / “Fingerprints”

Prot1 -ARTYRKAF-!Prot2 -ARTRQKAF-!Prot3 -ARTTFKAF-!Prot4 -ARYQLKAF-!!Motivo -ARTXXKAF-!!Prot5 -ASFQLAST-!

Família X Contém um motivo ARTXXKAF

Proteína que não pertence à Família X

São apenas consensos de sequências Não é necessário que tenham uma função biológica definida

Domínios podem conter 1 ou mais assinaturas

�  Domínios – unidades biológicas com fronteiras bem definidas

• Domínios Estruturais • Domínios Funcionais • Conjuntos de subdomínios bem definidos

Plasminogéneo (hidrolisa fibrilhas de cóagulo)

ligação a proteínas

ligação a proteínas e fosfolípidos

actividade proteolítica

InterProScan

�  Ferramenta que pesquisa domínios com função conhecida por comparação com várias bases de dados (ProDom, Pfam, PROSITE, HAMAP, PRINTS, PANTHER, PIRSF, SMART, TIGRFams, Gene3D, SUPERFAMILY)

http://www.ebi.ac.uk/interpro/tutorial.html

MALSSSKFGWYRDAQQALFT

GWYRK

Função X

SKLYT

Função Y

ALTTSAKXXXXT

Função Z

Base de dados de “assinaturas” ou

“motivos”

Bases de dados associadas à InterPro

�  Pfam – BD de domínios (divergentes) �  PROSITE – BD de locais (sites) funcionais �  PRINTS – BD de “fingerprints” ou motivos

organizados hierarquicamente (superfamílias, famílias e subfamílias)

�  HAMAP – perfis criados manualmente �  TIGRFAMs – utilizam HMMs (hidden Markov

models) de proteínas com funções equivalentes

Definição de Família na BD InterPro

�  Para uma proteína pertencer a uma dada família tem de conter todas as assinaturas típicas dessa família

�  As assinaturas têm de cobrir > 80% da proteína �  > 90% das proteínas da família não podem possuir

outros domínios que estejam ausentes nos restantes membros da família

Tipos de entradas na BD InterPro

�  Famílias �  Domínios �  Regiões (quando não respeitam nem a definição de

família, nem a definição de domínio) �  Repetições / sítios (sítios de ligação [de ligandos],

sítios activos [enzimas], modificações pós-traducionais [PTMs])

Organização hierárquica da InterPro

�  Superfamílias / Famílias / Subfamílias �  Relação PAI/ FILHO �  Superfamílias são PAIS de Famílias �  Subfamílias são FILHAS de Famílias �  Um FILHO é um subconjunto do seu PAI definido

por um conjunto de motivos (excepto os motivos que definem o seu PAI)

�  Tem que haver uma sobreposição de motivos conservados em >50% entre PAI e FILHO e o FILHO tem de conter > 75% dos motivos do seu PAI

Exemplos

�  Família X – Domínio Y + Sítio de Ligação M �  Família Y – Domínio Y + Repetição H �  Família Z – Domínio Y + Sítio Activo G �  Superfamília Y – Todas as proteínas que tenham o

domínio Y

Como usar o InterProScan

InterProScan: Visual Output

InterProScan: Summary Table

InterProScan: Tool Output

Critérios de anotação de domínios proteicos

�  Os domínios a anotar não podem estar sobrepostos �  Caso haja vários domínios não sobrepostos, anotar o

domínio mais informativo (escolher o domínio que descreve uma enzima [ex. Succinato desidrogenase] em vez de uma família de enzimas [ex. Oxidoreductase])

�  Anotar o domínio com o valor E mais significativo �  Anotar apenas domínios que já estejam integrados

na base de dados INTERPRO (nº de acesso com o formato IPRnnnnnn). Só anotar domínios não integrados caso não haja domínios integrados.

Esquema de anotação Annothaton

1.  ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)

2.  Existem proteínas homólogas? (BLASTp, BLASTx) 3.  Existem domínios funcionais? Onde? (InterProScan) 4.  Qual o tamanho / massa molecular da proteína codificada

pela ORF em aa / kDa? 5.  A que organismo ou táxon pertencerá a sequência

metagenómica? (BLAST Taxonomy Report) 6.  Relações filogenéticas (MSA; Prof. Rita Castilho) 7.  Conclusões e Análise de Resultados (PONTO PRINCIPAL DA

AVALIAÇÃO)

Massa Molecular (Molecular Weight)

�  1 Da = 1 unidade de massa atómica = 1/12 massa de um átomo de C ≈ massa de um átomo de H

�  1 mole de H tem uma massa de 1 g �  Logo: 1 Da => 1 g mol-1 �  A massa molecular de uma macromolécula depende do

nº de unidades que a forma �  Mw Proteína = somatório da Mw dos resíduos de aa �  Mw DNA = somatório da Mw dos resíduos de nucleótidos �  Annothaton: anotar Mw - apenas se a ORF estiver

completa!

A ORF está completa quando:

�  Identificámos o seu codão STOP (a 3’) �  Identificámos o seu codão START (a 5’) �  O alinhamento múltiplo (MSA) com sequências

homólogas não revela a falta de qualquer sequência

Determinação do codão START por MSA

GOS_12345! !MSAHNTMALAGHAHHHAIKLYVVFA!BD_P0001 ! !MSAHYTMALVGHAHKHAIKLYVIFA!BP_P0002 ! !MSAHYTMALVGHAHHHAIKLYVVFA!

Exemplo 1 Conclusão

A ORF está completa na sua extremidade 5’

GOS_12345! ! MALAGHAHHHAIKLYVVFA!BD_P0001 ! !MSAHYTMALVGHAHKHAIKLYVIFA!BP_P0002 ! !MSAHYTMALVGHAHHHAIKLYVVFA!

Exemplo 2 Conclusão

A ORF está incompleta na sua extremidade 5’

GOS_12345! !MSAHNTMALAGHAHHHAIKLYVVFA!BD_P0001 ! ! MALVGHAHKHAIKLYVIFA!BP_P0002 ! ! MALVGHAHHHAIKLYVVFA!

Exemplo 3 Conclusão

A ORF começa no 2º codão START

Alinhamentos de sequências múltiplas (MSA) Para que servem?

� Pesquisa de sequências adicionais � Montagem de sequências genómicas � Montagem de ESTs � Pontos de partida para análises filogenéticas

Alinhamentos de sequências múltiplas (MSA) Pesquisa de sequências adicionais

5’-ACTGATTAGCAACTAAGGACATAAAACTGCTTAGCCAT-3’!5’-ACTGATTACCATACATTGACTTAACTGACTAATCTTAT-3’!5’-ACTGATTAGCATCCAAGGACATAAAACTGCTATGTTAT-3’! ACTGATTASCAWMYAWKGACWTAAMWSWSYWWWSYYAT!Consenso

primer, sonda (sequência comum usada para detectar

famílias de genes [homólogos] por hibridação)

Alinhamentos de sequências múltiplas (MSA) Montagem de sequências genómicas

5’-AGCTATTACAGGAACTTGCACATGGGCTTAGCTAGCAAATTTAGC-3’ seq123_67! seq123_24 5’-CTTGCACATGGGCTTAGCTAGCAAATTTAGCTAGCT-3’! seq123_89 5’-CAAATTTAGCTAGCTTGCCATTA-3’!

seq123_67 + seq123_24 + seq123_89 = contig

ESTs (Expressed Sequence Tags)

Expressed Sequence Tags (fragmentos de sequências de cDNA

de RNAs transcritos de um dado tecido ou células)

RNA1 RNA2 RNA3 RNA4... RNAn

cDNA1 cDNA2 cDNA3 cDNA4... cDNAn

Célula

Extracção de RNA,

Síntese de cDNA

Sequenciação

EST1-1

EST1-2 cDNA1 5’

5’

Alinhamentos de sequências múltiplas (MSA) Montagem de ESTs para a dedução de sequências completas de RNA transcrito numa célula / tecido

http://cseweb.ucsd.edu/groups/bioinformatics/ESTs/index.html

Detecção de splicing alternativo

Esquema de anotação Annothaton

1.  ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)

2.  Existem proteínas homólogas? (BLASTp, BLASTx) 3.  Existem domínios funcionais? Onde? (InterProScan) 4.  Qual o tamanho / massa molecular da proteína codificada

pela ORF em aa / kDa? 5.  A que organismo ou táxon pertencerá a sequência

metagenómica? (BLAST Taxonomy Report) 6.  Relações filogenéticas (MSA; Prof. Rita Castilho) 7.  Conclusões e Análise de Resultados (PONTO PRINCIPAL DA

AVALIAÇÃO)

BLAST Taxonomy Reports

Lineage Report

A importância do Organism Report

Valor E Score

Critérios de decisão de taxonomia da fonte biológica de sequências metagenómicas

�  Escolher o táxon que tenha valores E e scores com diferenças significativas com os restantes taxa

�  Caso haja apenas taxa com valores E e scores muito próximos (não significativos) essa sequência não é diagnosticante para esse táxon; por isso escolher um táxon mais abrangente

Esquema de anotação Annothaton

1.  ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)

2.  Existem proteínas homólogas? (BLASTp, BLASTx) 3.  Existem domínios funcionais? Onde? (InterProScan) 4.  Qual o tamanho / massa molecular da proteína codificada

pela ORF em aa / kDa? 5.  A que organismo ou táxon pertencerá a sequência

metagenómica? (BLAST Taxonomy Report) 6.  Relações filogenéticas (MSA; Prof. Rita Castilho) 7.  Conclusões e Análise de Resultados (PONTO PRINCIPAL DA

AVALIAÇÃO)