Bancos de dados
Bancos de dados aplicados ao estudo de proteínas
1. Introdução
• Histórico – acúmulo de informação biológicas
Histórico:Ciências convergentes
Charles Robert Darwin (1809 —1882)
Herman Hollerith (1860-1929)
1953
1946
O ENIAC (Electrical Numerical Integrator and Computer)
James D Watson and Francis Crick
ENIAC30 toneladas160 m25.000 cálculos/segundo200 k memória
Histórico: Aquisição e armazenamento dos dados
Insulina
1° proteína a ser cristalizada (Abel, 1926),
1° proteína a ser sequenciada (Sanger et al, 1955 ),
1° proteína a ser sintetizada por técnicas químicas ( Du et al;Zahn;Katsoyanis; 1964),
Década de 60
Histórico: Aquisição dos dados
Degradação de Edman (Químico sueco Pehr Edman)
Histórico: Armazenamento dos dados
“Atlas of Protein Sequences”
1965 Margaret Dayhoff's
Primeira bionformata
Surgimento da eletroforese 2D
• Surge a 2D-PAGE
• Trabalhos de MacGillivray et al.( 1974);
• O´Farrel (1975) ; Klose (1975)
O´Farrel
Década de 1970
Aquisição dos dados: As Ômicas
• TRANSCRIPTÔMICA:-Differential Display (DD) - Serial Analysis of Gene
Expression (SAGE)- DNA Microarray
• PROTEÔMICA:-Eletroforese bidimensional
(2D)-MudPit
-Espectrometria de massa
Outras ômicas: Metabolômica, farmacogenômica, regulômica, peptidômica, degradômica…….
• Genômica
Era “Pós-Genômica”
• GENOMA – DNA – 3,4 bilhões de nt
• TRANSCRIPTOMA – mRNA – 30 mil genes
• PROTEOMA – Proteínas – 0,3-1,2 milhão proteínas
Homo sapiens Modificações pós-traducionais?
Interações entre proteínas?
Eletroforese 2D e Bioinformática
Proteoma Comparativo ou Diferencial
Sobreposição permite identificar diferenças nos padrões de bandas
Cromatografia líquida multidimensional-MudPit
Descrita pela primeira vez por WASHBURN et al. (2001),
Identificação e Sequenciamento de proteínas
E agora o que fazer?
EST
Vias metabólicas Análise in silico
SN
Ps
GENÔMICA e PROTEÔMICA
BIOTECNOLOGIA
Microarranjos
Sequenciamento genômico Eletroforese 2DEspectrometria de massa
Genes e proteínas alvos
Bancos de dados
Tipos de bancos de daods biológicos
Bancos de dados PrimáriosDados obtidos diretamente de seqüenciamentoDados submetidos por pesquisadoresConteúdo controlado pela pessoa que o submeteExemplos: GenBank, EMBL, DDJB, SNP, GEO
Bancos de dados Derivados (ou Secundários)Construído a partir da base de dados primáriaPadrões resultantes da análise dos primáriosConteúdo controlado por curadores (NCBI)Exemplos: Refseq, RefSNP, UniGene, NCBI Protein, Structure,Conserved Domain, SwissProt, Pfam
Tipos de bancos de dados• Bancos de dados Primários de
proteínas
“Atlas of Protein Sequences”
• Bancos de dados SecundáriosTrEMBL
+
• Seqüências depositadas têm várias anotações biológicas, como:– a função da proteína, – informações de
homologia,– seqüências relacionadas
("features").
• Promove a anotação funcional de proteínas.
• PIR-NRL3D– PIR - Sequence-Structure Database
• Este banco de dados é produzido pelo PIR a partir de seqüências extraídas do PDB (Protein Data Bank).
• Os títulos e as fontes biológicas das seqüências seguem o padrão de nomenclatura adotado pelo PIR.
• Referências bibliográficas, MEDLINE, estrutura secundária, sítios ativos, detalhes de métodos experimentais, estão disponíveis entre outras facilidades.
• PIR-NRL3D:http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html
SWISS-PROT e TrEMBL
• SWISS-PROT foi criado em 1986 pelo Departamento de Bioquímica Médica da Universidade de Genebra e EMBL.
• Atualmente é mantido pelo Swiss Institute of Bioinformatics (SIB) e EBI/EMBL.
• Este banco mantém um alto nível de anotações, como a descrição e a função da proteína, estrutura dos seus domínios, modificações pós-tradução, além de ter uma estrutura que facilita o acesso computacional a diferentes campos de informações.
TrEMBL
SWISS-PROT e TrEMBL
• TrEMBL é um suplemento do SWISS-PROT que contém todas as traduções das entradas de seqüências codificantes de nucleotídeos do EMBL.
• As entradas do TrEMBL são menos extensivamente anotadas do que aquelas do SWISS-PROT, mas são movidas para o SWISS-PROT assim que uma anotação confiável seja disponível.
• Link SWISS-PROT e TrEMBL: http://us.expasy.org/sprot/
TrEMBL
Bancos de dados de proteínas
Crescimento do UniProt
TrEMBL
Busca de informações
Informações estruturais
• Modelos conceituais de estruturas de proteínas– Tipos de estruturas e modelos conceituais– Proteínas globulares– Estrutura secundária– Estrutura terciária– Estrutura quaternária– Proteínas integrais de membrana– Domínios– Evolução– Estrutura e função
Informações estruturais
• Tipos de estruturas e modelos conceituais:
– Proteínas globulares são solúveis em solventes predominantemente aquosos tal como o citosol e fluídos extra-celulares
– Proteínas integrais de membranas existem dentro de ambientes dominados por lipídeos das membranas biológicas.
– Modelos conceituais de estruturas de proteínas são importantes para o entendimento da bioinformática de proteínas.
Bancos de dados Estruturais
– PDB: recurso primário para dados estruturais de proteínas.
– Contém dados derivados de estudos de cristalografia de raio-X e NMR.
Banco de estrutura de proteínas
Ferramentas
• PDBSum– O PDBSum é um do principais recursos para
obtenção de informações estruturais, mantido pela University College London.
– Trata-se de um compêndio acessível pela Internet que contém resumos e análises de todas as estruturas no PDB.
– Cada resumo fornece a descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes, dentre muitas outras. Estas informações são vitais não somente para a visualização das estruturas mas também para o desenho, como um único recurso, das informações 1D, 2D e 3D.
Ferramentas• SCOP
– O SCOP (Structural Classification of Proteins) é um banco de dados mantido pelo Laboratory of Molecular Biology e pelo Centre for Protein Engineering (MRC) e tem por objetivo descrever as relações estruturais e evolutivas entre proteínas de estrutura conhecida.
– Na medida em que as ferramentas automáticas de comparação de estruturas hoje existentes não podem identificar, de forma confiável, tais relações, o SCOP foi concebido e construído de modo a utilizar um combinação de processos de inspeções manuais métodos automáticos.
Predição de estruturas• SOSUI
– Tokyo University of Agriculture and Technology (Department of Biotechnology).
– O SOSUI analisa seqüências de proteínas, com a finalidade de predizer estruturas secundárias em proteínas de membrana.
– Baseia-se nas propriedades físico-químicas dos aminoácidos, como hidrofobicidade e balanceamento de cargas.
– Esta ferramenta deve ser utilizada para os seguintes tipos de predição: discriminação entre proteínas de membrana e as solúveis, predição da existência e determinação da região de hélices transmembrânicas.
Famílias de proteínas
PROSITE• O banco de dados PROSITE contem seqüências
modelo associadas com membros de famílias de proteínas, funções específicas de proteínas e modificações pós-traducionais.
• Uma notação especial envolvendo colchetes (e.g. [LIVM]), chaves (e.g. {FD}) e x(n) é usada para expressar resíduos alternativos em cada posição do modelo.
• O banco de dados é curado manualmente e os falso positivos ou falso negativos conhecidos são registrados.
• Alguns dos padrões, particularmente modelos de modificações pós-traducionais curtas, não possuem especificidade e ocorrem muitas vezes na mesma seqüência.
Famílias de domínios proteínas
• Muitas proteínas são construídas a partir domínios em uma arquitetura modular.
• O estudo de famílias de proteínas é melhor englobado como um estudo de famílias de domínios de proteínas.
• O Prodom é um banco de dados de seqüências de domínios de proteínas criado automaticamente a partir de bancos de dados de seqüências de proteínas.
Ferramentas
• Recursos– Pfam e SMART podem ser usados para
análise de famílias de domínios de proteínas.– Um recurso integrado, o Interpro, une os
bancos de dados PROSITE, PRINTS, Pfam, Prodom, e SMART.
Ferramentas
• ExPASy– O ExPASy (Expert Protein Analysis System) é
mantido pelo Swiss Institute of Bioinformatics e disponibiliza uma enorme quantidade de recursos de bioinformática.
• Link para o ExPASy: http://www.expasy.org/
Ferramentas• InterPro
– Mantido pelo European Bioinformatics Institute.
– O InterPro é um banco de dados de assinaturas, capacitado para identificar relacionamentos distantes entre novas seqüências, conseguindo, assim, inferir funções protéicas.
– Como uma base integrada de documentação de famílias de proteínas, domínios e regiões funcionais, o InterPro integra os esforços do PROSITE, do PRINTS, do Pfam e do ProDom.
– Cada entrada do InterPro inclui uma descrição funcional, uma anotação e referências da literatura, além de links para os bancos de dados importantes.
Interprot
Exercícios
• Usando o SMART:• Usar sequência EF558621;• Usar sequência editada da BVL;• Faça uma busca por domínios e famílias.• Anote os resultados informando os dados de
cada domínio obtído;• Informe o que significa o SMART e quais
ferramentas estão disponíveis (por exemplo: Modo Normal e Modo Genômico)
Top Related