Modelagem por homologia de estruturas proteicas do veneno de Apis mellifera
-
Upload
mariana-laureano -
Category
Documents
-
view
56 -
download
39
Transcript of Modelagem por homologia de estruturas proteicas do veneno de Apis mellifera
Universidade de São Paulo
Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto
Faculdade de Medicina de Ribeirão Preto
Informática Biomédica
Modelagem por Homologia de Estruturas Protéicas do
Veneno de Apis mellifera
Mariana Laureano de Souza
Ribeirão Preto
2008
Universidade de São Paulo
Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto
Faculdade de Medicina de Ribeirão Preto
Departamento de Genética
Informática Biomédica
Modelagem por Homologia de Estruturas Protéicas do Veneno de
Apis mellifera
Mariana Laureano de Souza
Orientadora: Profa. Dra. Silvana Giuliatti
Co-Orientador: Msc. Daniel Macedo de Melo Jorge
Monografia apresentada à Faculdade de Filosofia,
Ciências e Letras de Ribeirão Preto e à Faculdade de
Medicina de Ribeirão Preto, para obtenção do título de
Bacharel em Informática Biomédica.
Ribeirão Preto
2008
AGRADECIMENTOS
Agradeço as pessoas que mais amo nesse mundo: meus pais, grandes responsáveis por eu estar aqui hoje, e meus irmãos. Obrigada por terem tido paciência nas minhas horas instáveis, me dado carinho nas horas que precisava e “puxões” de orelha nas horas necessárias. Agradeço minha avó e madrinha, que sempre estará presente, por tudo que ela me ensinou. À minha família por todo o apoio e incentivo. Ao Vitor, por sempre estar ao meu lado. Agradeço aos amigos com quem pude contar nas horas boas e ruins. Ao pessoal do GBi, pelos momentos que convivemos juntos, pelas risadas e ensinamentos. À minha orientadora Profa. Silvana e meu co-orientador Daniel. Obrigada pela orientação e amizade. Enfim, agradeço a Deus por ter colocado no meu caminho essas pessoas tão especiais, com quem aprendi e ainda aprendo muito sobre a vida. Obrigada por tudo.
RESUMO
As abelhas existem no planeta há mais de 50 milhões de anos. Apesar de terem evoluído
dentro das famílias de insetos, como as formigas, cupins e as vespas, aparentemente não
modificaram suas atividades e funções em prol da manutenção e preservação do planeta. Seu
ferrão conduz o veneno que é a sua única arma de defesa contra seus inimigos e que, em
grandes quantidades, é fatal ao homem. O veneno da abelha é composto por várias
substâncias químicas como peptídeos, enzimas, aminas biogênicas e outras moléculas, que
apresentam atividades farmacológicas e alérgicas. A Apis mellifera, popularmente conhecida
como abelha africanizada ou abelha do mel, é a mais agressiva, enxameia várias vezes ao ano
e utiliza uma grande variedade de locais para nidificar. Esse comportamento aumenta o
contato direto entre o inseto e a população, aumentando o número de acidentes. Reações
alérgicas às picadas de abelhas são comuns e, mesmo que raramente, podem levar à morte. A
possibilidade de usar essas substâncias, compostas de proteínas, contidas no veneno das
abelhas é de grande importância para a saúde pública e indústrias de fármacos. As proteínas
são compostos orgânicos, formados pela ligação de aminoácidos, que possuem funções
específicas dentro do organismo, estando ligadas a determinadas atividades, como é o caso
das enzimas, hormônios e anticorpos. Uma seqüência de aminoácidos ao se enovelar resulta
em estruturas tridimensionais. A estrutura terciária está intimamente relacionada à função das
moléculas e, portanto, sua determinação é parte fundamental no estudo das proteínas. Essas
estruturas podem ser obtidas por métodos experimentais como cristalografia de raios-X e
espectroscopia de ressonância magnética nuclear (RMN), mas esses métodos despendem
muito tempo e recursos financeiros, além de que muitas estruturas são difíceis ou até mesmo
impossíveis de serem determinadas por esses métodos. Surge assim a proposta da modelagem
molecular comparativa ou por homologia. O presente projeto propõe estudar as estruturas
terciárias das proteínas de veneno de Apis mellifera através de modelagem por homologia e o
desenvolvimento de uma base de dados e interface web para a integração entre dos dados
obtidos e disponibilização dos resultados ao usuário.
Palavras-chave: Apis mellifera. Veneno. Modelagem de Proteínas.
LISTA DE FIGURAS
Figura 1 - Modelagem Molecular por Satisfação de Restrições Espaciais. (1) Alinhamento entre as seqüência-alvo e a molde (que possui estrutura); (2) Extração de restrições espaciais; (3) Satisfação das restrições espaciais. ............................................................16
Figura 2 - Estrutura protéica e seus três ângulos principais, omega (ω), phi (φ) e psi (ψ). Como o ângulo ω é fixo os ângulos φ e ψ são os responsáveis por toda a variação conformacional da cadeia principal, pois tornam a cadeia polipeptídica flexível............17
Figura 3 - Gráfico de Ramachandran gerado pelo Procheck. As regiões representadas em vermelho, são as mais favoráveis, as representadas em amarelo, são as favoráveis, as representadas em bege, são as menos favoráveis e as regiões brancas, são as desfavoráveis. ...................................................................................................................18
Figura 4 - Esquema geral do método teórico da modelagem por homologia, baseado em MARTÝ-RENOM et al., 2000. ........................................................................................20
Figura 5 - Arquitetura do sistema. O usuário faz uma requisição ao servidor, o servidor web recebe essa requisição e interagindo com scripts php gera resultados que retornarão ao usuário através de um navegador web..............................................................................22
Figura 6 - Alinhamento global entre seqüência-alvo (gi 229389) e seqüências-molde. ..........26
Figura 7 - Alinhamento global entre seqüência-alvo (gi 229230) e seqüências-molde. ..........26
Figura 8 - Alinhamento global entre seqüência-alvo (gi 126956) e seqüências-molde. ..........26
Figura 9 - Alinhamento global entre seqüência-alvo (gi 69552) e seqüências-molde. ............27
Figura 10 - Alinhamento global entre seqüência-alvo (gi 126955) e seqüências-molde. ........27
Figura 11 - Gráfico de Ramachandran da seqüência de gi 229389, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas. .........29
Figura 12 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média. .......................................................................30
Figura 13 - Modelo para seqüência de gi 229389. Em amarelo, está a localização do resíduo com baixa qualidade de contato........................................................................................31
Figura 14 - Representação do perfil 3D do modelo de gi 229389. São desconsiderados os 11 resíduos das extremidades. ...............................................................................................32
Figura 15 - Gráfico de Ramachandran da seqüência de gi 229230, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas. .........33
Figura 16 – Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média. .......................................................................34
Figura 17 - Modelo para seqüência de gi 229230. Em amarelo, estão localizados os resíduos com baixa qualidade de contato........................................................................................35
Figura 18 - Representação do perfil 3D do modelo de gi 229230. São desconsiderados os 11 resíduos das extremidades. ...............................................................................................35
Figura 19 - Gráfico de Ramachandran da seqüência de gi 126956, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas. .........36
Figura 20 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média. .......................................................................37
Figura 21 - Modelo para seqüência de gi 126956. Em amarelo, está localizado o resíduo com baixa qualidade de contato. ..............................................................................................38
Figura 22 - Representação do perfil 3D do modelo de gi 126956 desconsiderados os 11 resíduos das extremidades. ...............................................................................................38
Figura 23 - Gráfico de Ramachandran da seqüência de gi 126955, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas. .........39
Figura 24 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média. .......................................................................40
Figura 25 - Modelo para seqüência de gi 126955. Em amarelo, está localizado o resíduo com baixa qualidade de contato. ..............................................................................................41
Figura 26 - Representação do perfil 3D do modelo de gi 126955 desconsiderados os 11 resíduos das extremidades. ...............................................................................................41
Figura 27 - Gráfico de Ramachandran da seqüência de gi 69552, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas. .........42
Figura 28 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média. .......................................................................43
Figura 29 - Modelo para seqüência de gi 69552. Em amarelo, estão representados os resíduos com baixa qualidade de contato........................................................................................44
Figura 30 - Representação do perfil 3D do modelo de gi 69552 desconsiderados os 11 resíduos das extremidades. ...............................................................................................44
Figura 31 - Diagrama entidade-relacionamento do sistema. ....................................................45
Figura 32 - Tela inicial do sistema BDModel. Em A) menu vertical contendo links para busca de informações, ajuda na utilização do sistema, contato, fale conosco (através de mensagens) e links relacionados com o projeto; B) menu Horizontal contendo links para busca de informações e fale conosco; C) caixa para pesquisa na rede (internet); D) links para as entidades relacionadas com o projeto...................................................................49
Figura 33 – Tela inicial de pesquisa. O usuário deve optar por seqüência primária ou estrutura 3D. ....................................................................................................................................50
Figura 34 – Pesquisa de seqüências primárias. Os campos são os atributos referentes a uma seqüência primária. Esses campos inicialmente estão desabilitados, e quando habilitados podem realizar buscas específicas. ...................................................................................51
Figura 35 - Pesquisa de estruturas 3D. Os campos são os atributos referentes a uma estrutura 3D. Esses campos inicialmente estão desabilitados, e quando habilitados podem realizar buscas específicas. ............................................................................................................51
Figura 36 – Tela Seqüência. Quando o usuário deseja exibir todas as informações referentes a seqüências primárias, ele apenas deve escolher o tipo da proteína que está buscando. ...52
Figura 37 – Exibição das informações de seqüências de melitinas. Quando uma proteína possuir estrutura 3D, haverá um link, que quando acessado disponibilizará as informações sobre a estrutura. ..........................................................................................53
Figura 38 – Informações sobre estrutura 3D. Além dessas informações o usuário pode realizar o download da estrutura, em formato fasta, e também interagir com a estrutura através de um plugin do JMol............................................................................................................54
Figura 39 – Representação da estrutura de código PDB 1bh1, utilizando um plugin do JMol. O usuário pode interagir com a estrutura de diversas maneiras, dependendo da informação que busca. ......................................................................................................54
LISTA DE TABELAS
Tabela 1 - Algumas ferramentas de bioinformática e servidores da Internet com seus respectivos endereços web úteis na modelagem por homologia (acessados em maio 2008). *S: Servidor; P: Programa (software). ....................................................................8
Tabela 2 - Levantamento de seqüências no GenBank e de estruturas depositadas no PDB. ...11
Tabela 3 - Relação entre Proteínas-alvo e Proteínas-molde. ....................................................25
Tabela 4 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 229389 e o índice total do modelo.................................................31
Tabela 5 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 229230 e o índice total do modelo.................................................34
Tabela 6 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 126956 e o índice total do modelo.................................................37
Tabela 7 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 126955 e o índice total do modelo.................................................40
Tabela 8 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 69552 e o índice total do modelo...................................................43
Tabela 9 - Descrição das tabelas apresentadas no Diagrama Entidade-Relacionamento do sistema em desenvolvimento ............................................................................................46
Tabela 10 - Descrição dos atributos das entidades do Diagrama Entidade - Relacionamento do sistema em desenvolvimento ............................................................................................47
LISTA DE ABREVIATURAS E SIGLAS
3D Tridimensional
BDModel Banco de Dados de Modelos de Proteínas de veneno de Apis mellifera
BLAST Basic Local Alignment Search Tool
NCBI National Center for Biotechnology Information
PDB Banco de dados de proteínas
RMN Ressonância Magnética Nuclear
Rx Raios x
SGBD Sistema Gerenciador de Banco de Dados
SNC Sistema Nervoso Central
SNP Sistema Nervoso Periférico
SUMÁRIO
1 INTRODUÇÃO..................................................................................................................1 1.1 O GÊNERO APIS E AS ABELHAS AFRICANIZADAS ........................................1 1.2 COMPOSIÇÃO DO VENENO E MECANISMOS FISIOPATOLÓGICOS............2 1.3 APITOXINA E SUAS APLICAÇÕES ......................................................................3 1.4 PROTEÍNAS HOMOLÓGAS....................................................................................3 1.5 MODELAGEM DE PROTEÍNAS.............................................................................3
2.2.1 Modelagem por Homologia................................................................................4 1.6 JUSTIFICATIVA.......................................................................................................5 1.7 OBJETIVO .................................................................................................................5 1.8 ORGANIZAÇÃO DA MONOGRAFIA....................................................................6
2 MATERIAIS E MÉTODOS...............................................................................................7 2.1 FERRAMENTAS DE BIOINFORMÁTICA.............................................................7
2.1.1 Banco de Dados Públicos para Bioinformática ..................................................8 2.1.2 Fonte de Proteínas Moldes ...............................................................................11 2.1.3 Alinhamento das Seqüências ............................................................................12 2.1.4 Construção dos Modelos ..................................................................................14 2.1.5 Validação dos Modelos ....................................................................................16 2.1.6 Visualização dos Modelos ................................................................................19
2.2 MODELAGEM DAS PROTEÍNAS POR HOMOLOGIA......................................19 2.3 ARQUITETURA DO SISTEMA.............................................................................21 2.4 IMPLEMENTAÇÃO ...............................................................................................22
2.4.1 Plataforma.........................................................................................................22 2.4.2 Linguagem de Programação .............................................................................23 2.4.3 Confecção do Banco de Dados.........................................................................24
3 RESULTADOS E DISCUSSÕES....................................................................................25 3.1 MODELAGEM DAS PROTEÍNAS ........................................................................25
3.1.1 Busca de seqüências homólogas.......................................................................25 3.1.2 Alinhamento entre seqüências-alvo e molde ....................................................26 3.1.3 Construção dos modelos...................................................................................27 3.1.4 Validação dos modelos.....................................................................................28
3.2 ESTRUTURA DO BANCO DE DADOS................................................................45 3.2.1 DER ..................................................................................................................45 3.2.2 Dicionário de dados ..........................................................................................45
3.3 DESENVOLVIMENTO DO SISTEMA BDMODEL.............................................47 3.3.1 Interfaces do Sistema........................................................................................48
4 CONCLUSÕES................................................................................................................56 REFERÊNCIAS BIBLIOGRÁFICAS .....................................................................................58
1 INTRODUÇÃO
1.1 O GÊNERO APIS E AS ABELHAS AFRICANIZADAS
As abelhas são descendentes das vespas e, à cerca de 135 milhões de anos,
algumas espécies deixaram de se alimentar de pequenos insetos e passaram a coletar néctar e
pólen das flores para a produção do mel. Há relatos que constatam a relação entre os homens
e as abelhas pela prática da apicultura desde a pré-história (SCHIRMER, 1986).
Entre as espécies produtoras de mel, as do gênero Apis são as mais conhecidas. O
gênero Apis apresenta nove espécies1: Apis mellifera, Apis florea, Apis dorsata, Apis cerana,
Apis korchevniskov, Apis andreniformis, Apis laboriosa, Apis nuluensis e Apis nigrocincta..
Dentre elas, a Apis mellifera sempre despertou interesse devido a sua grande importância
econômica (D´AVILA et al., 2005) e, sobretudo, pelas novas possibilidades de usos de seus
produtos na área médica (MAIA, 2002; COSTA NETO & PACHECO, 2005).
Por volta de 1950, a subespécie africana Apis mellifera scutellata foi trazida para o
Brasil pelo Prof. Dr. Warwick Estevam Kerr, um renomado cientista que, posteriormente,
veio a fundar o Departamento de Genética da Faculdade de Medicina de Ribeirão Preto2, no
intuito de aumentar a produção nacional de mel, pois essas abelhas apresentavam uma alta
produtividade e uma alta capacidade de adaptação. Mas, também apresentavam aspectos
negativos, como a grande capacidade de enxamear e o comportamento agressivo.
Por esses motivos, as colméias do apiário experimental contendo as abelhas
africanas, localizado no município de Rio Claro – SP, eram protegidas por uma tela, para
evitar a “fuga” das rainhas e, conseqüente, dispersão da colméia. Por um acidente, essas telas
foram removidas e as abelhas se dispersaram por todo Brasil, onde, ao cruzarem com abelhas
nativas e européias que aqui se encontravam, deram origem as, popularmente, conhecidas
abelhas africanizadas (GONÇALVES, 1974).
A Apis mellifera, popularmente conhecida como abelha africanizada ou abelha de
mel, manteve as características das africanas como a agressividade, a ocorrência de enxames
várias vezes ao ano e a utilização de uma grande variedade de locais para nidificar. Esse
comportamento aumenta o contato direto entre o inseto e a população, aumentando o número
de acidentes.
1 http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=7459 2 http://rge.fmrp.usp.br/historico.php
2
1.2 COMPOSIÇÃO DO VENENO E MECANISMOS
FISIOPATOLÓGICOS
Os acidentes causados por picadas de abelhas apresentam manifestações clínicas
distintas, dependendo da sensibilidade do indivíduo ao veneno e do número de picadas. O
acidente mais freqüente é aquele no qual um indivíduo não sensibilizado ao veneno é
acometido por poucas picadas. A composição dos venenos e a conseqüente ação após a picada
das abelhas melíferas vêm sendo estudado desde a década de 50 (HABERMANN, 1972).
O veneno da abelha é composto por uma mistura complexa de substâncias
químicas como peptídeos, enzimas e aminas biogênicas, que apresentam atividades
farmacológicas e alérgicas. Os fatores alergênicos são enzimas como fosfolipases,
hialuronidases, lipases e fosfotases, proteínas antigênicas que, uma vez inoculadas durante a
ferroada, iniciam respostas imunes responsáveis pela hipersensibilidade de alguns indivíduos
e pelo início da reação alérgica. São agentes bloqueadores neuromusculares e possuem
poderosa ação hemolítica, além de propriedades antiarrítmicas.
A Fosfolipase A2, uma das mais ativas fosfolipases conhecidas, provoca ruptura
dos fosfolipídios da membrana celular com contração do músculo liso, hipertensão e aumento
da permeabilidade vascular.
A Hialuronidase, mesmo não sendo muito tóxica, potencia a difusão e os efeitos
nocivos dos outros componentes do veneno das abelhas, sendo conhecida como “fator
propagador” (FRANÇA & MEDEIROS, 2003).
A Melitina é o componente predominante no veneno apresentando,
aproximadamente, 50 % da matéria seca. (OWEN & PFAFF, 1995). É a toxina mais ativa no
veneno das abelhas causando hemólise. Em ação com a Fosfolipase A2, compromete a
integridade da membrana celular e da membrana mitocondrial, comprometendo, assim a
fosforilação oxidativa e a cadeia respiratória, ocasionando dano tecidual.
A Apamina está presente em apenas 2% da matéria seca, tendo a menor
neurotoxina conhecida. Age nos sistemas nervoso central (SNC) e periférico (SNP),
bloqueando a transmissão de impulsos inibitórios.
O Peptídeo Degranulador de Mastócitos é responsável pela intoxicação
histamínica observada nas fases iniciais do acidente e liberação de mediadores químicos.
As pequenas moléculas de peptídeos como a Secapina e a Tertiapina parecem não
apresentar toxidade em mamíferos. Um provável papel desses peptídeos é repelir outros
animais, como artrópodes e insetos.
3
1.3 APITOXINA E SUAS APLICAÇÕES
Reações alérgicas às picadas de abelhas são comuns e, mesmo que raramente,
podem levar à morte. Entretanto, pequenas doses do veneno da abelha podem ser utilizadas
como terapia. Ao longo da segunda metade do século XX, estudos científicos comprovaram
as propriedades terapêuticas da apitoxina, entre eles no tratamento da artrite (CHANG &
BLIVEN,1979).
Suas propriedades anti-artríticas são historicamente reconhecidas. Sabe-se que
Hipócrates (460 a.C.) empregava ferroadas de abelha em seus procedimentos terapêuticos.
Carlos Magno, no século VIII, foi tratado com ferroadas de abelha para combater inflamações
nas juntas (BROADMAN,1962).
No Brasil, o uso da apitoxina como terapia ainda é bem limitado, pois há poucos
estudos que resultem na purificação do veneno, de modo que a parte alergênica, não atue no
organismo.
1.4 PROTEÍNAS HOMOLÓGAS
O mecanismo evolutivo da duplicação de genes, associado às mutações leva a
divergências moleculares e, conseqüentemente, à formação de famílias de proteínas
estruturalmente relacionadas, que derivam de um ancestral comum sendo chamadas de
homólogas, que apresentam algumas diferenças nas suas seqüências de aminoácidos, mas
possuem alto grau de similaridade estrutural (HOLTJE et al., 2003). Assim, quando se
conhece a estrutura de pelo menos um representante de uma família, é geralmente possível
modelar, por homologia, os demais membros.
A conservação da estrutura tridimensional é crucial para a manutenção e
desempenho de funções específicas da proteína. Assim, por exemplo, se ocorrer uma
mudança randômica de 70% dos aminoácidos que constituem uma proteína, isso acarretaria
em uma grande mudança conformacional e possível perda da função (BENNER et al., 1997).
1.5 MODELAGEM DE PROTEÍNAS
Projetos de genomas estão seqüenciando uma grande quantidade de seqüências de
aminoácidos, mas para que se possa entender o papel biológico desempenhado por essas
proteínas é necessário que se conheça sua estrutura, pois sabe-se que ela está intimamente
relacionada com sua função. Embora bases de dados de estruturas de proteínas como o
4
Protein Data Bank3 (PBD) estejam crescendo exponencialmente nos últimos anos, ainda não
há dados estruturais para a maioria das proteínas eleitas como atrativos alvos terapêuticos
(BERMAN et al., 2000).
Os métodos experimentais, como Cristalografia de Raios-X e espectroscopia de
Ressonância Magnética Nuclear (RMN), estão a cada dia determinando novas estruturas
protéicas, mas nem sempre é possível devido a limitações técnicas, além de que muitas
estruturas são difíceis ou até mesmo impossíveis de serem determinadas por esses métodos.
Estudos demonstram que, aproximadamente, apenas uma em cada vinte proteínas, produz
cristais adequados para a resolução da estrutura 3D (MAGGIO & RAMNARAYAN, 2001).
Isso torna a utilização da modelagem molecular computacional um grande atrativo.
A Bioinformática apresenta métodos para que essas estruturas protéicas possam
ser preditas. Os métodos mais aplicados podem ser divididos em dois (RÖSSLE, 2004):
- Métodos Físicos, que baseiam-se nas interações entre os átomos e incluem
métodos de modelagem molecular, como dinâmica molecular e minimização de energia. São
chamados técnicas de primeiros princípios ou Ab-initio.
- Métodos Empíricos dependem de estruturas de proteínas que possuem suas
estruturas determinadas por métodos experimentais e que estão armazenadas em um banco de
dados, por exemplo, PDB (WESTBROOK et al., 2002). São as técnicas de modelagem
comparativa.
2.2.1 Modelagem por Homologia
O método mais bem sucedido de predição de estruturas é a modelagem por
homologia, também conhecida como modelagem comparativa (DEANE & BLUNDELL,
2003).
Na modelagem por homologia, estruturas de proteínas determinadas
experimentalmente são utilizadas como moldes para se predizer a conformação de outra
proteína que apresenta similaridade na sua seqüência de aminoácidos. A qualidade da nova
estrutura gerada dependerá do grau de similaridade seqüencial entre a proteína com estrutura
já determinada (proteína-molde) e a proteína a qual se deseja modelar (proteína-alvo). Essa
abordagem pode ser utilizada na predição funcional, identificação e validação de alvos
terapêuticos, bem como na identificação e otimização de protótipos (HILLISCH et al., 2004).
3 http://www.rcsb.org/pdb/home/home.do
5
1.6 JUSTIFICATIVA
O número de resolução de estruturas protéicas não acompanha o número de
seqüenciamento de genomas. Nem todas as seqüências protéicas, depositadas em bancos de
dados como o GenBank4, possuem estrutura terciária conhecida. Muitas delas são atrativos
terapêuticos, e sabe-se que a estrutura terciária de uma proteína e sua interação com outras
moléculas estão diretamente relacionadas à sua funcionalidade (SÁNCHEZ & ŠALI, 1999).
A obtenção de estruturas protéicas geradas em laboratórios, usando métodos
práticos, é demorada e despende de muitos recursos financeiros. Contudo, o método teórico
de modelagem por homologia através de modelos computacionais permitiu de maneira
eficiente e mais econômica a descoberta de estruturas terciárias de proteínas.
Um grande interesse em estudar estruturas do veneno das abelhas, vem se
tornando cada vez mais comum. Como já comprovado em estudos (WESSELIUS et al.,
2005), a apitoxina (veneno de abelha) é utilizada na terapia de diversas doenças, obtendo
ótimos resultados.
Sendo o veneno da abelha de grande importância, conhecer as estruturas terciárias
dos componentes protéicos do veneno, possibilitaria novos estudos para potencialização
desses efeitos terapêuticos e também possibilitaria novas aplicações visando fármacos para
pessoas alérgicas a esses componentes.
1.7 OBJETIVO
Este projeto de conclusão de curso teve como objetivo estudar as estruturas
terciárias das proteínas de veneno de Apis mellifera através de modelagem por homologia. O
projeto também previu o desenvolvimento de uma base de dados que armazena as seqüências
primárias das proteínas escolhidas, contidas nos venenos das abelhas, as estruturas 3D já
determinadas dessas proteínas, e aquelas estruturas de proteínas que foram modeladas durante
o desenvolvimento do projeto. Foi desenvolvida uma interface Web para a integração entre
dos dados obtidos e disponibilização dos resultados para acesso público, para que possam ser
realizadas diversos tipos de buscas no sistema.
4 http://www.ncbi.nlm.nih.gov/
6
1.8 ORGANIZAÇÃO DA MONOGRAFIA
Esta monografia está organizada da seguinte forma: no capítulo 1, há uma breve
introdução dos principais tópicos abordados no projeto, objetivo e justificativa. No capítulo 2,
são expostos os materiais e a metodologia utilizados durante o desenvolvimento do projeto, e
descrição das ferramentas utilizadas. No capítulo 3, são apresentados os resultados e
discussões. No capítulo 4, encontram-se as conclusões. Por fim, são listadas as bibliografias
utilizadas.
7
2 MATERIAIS E MÉTODOS
2.1 FERRAMENTAS DE BIOINFORMÁTICA
Com o avanço da tecnologia, a bioinformática, essa recente ciência, tem se
mostrado cada vez mais eficiente na resolução de problemas, antes complicados de serem
resolvidos por métodos experimentais. E com essa crescente demanda por resultados rápidos
e menores custos, o desenvolvimento de softwares para essa área, torna-se cada vez mais
comum. Muitas dessas ferramentas são livres, podendo ser utilizadas por qualquer
pesquisador sem que isso gere custos para ele.
Para cada uma das etapas no processo de modelagem por homologia existe um
grande número de métodos, programas e servidores. Todos que foram utilizados durante o
projeto são livres, e disponíveis na rede mundial de computadores (Internet).
Na tabela 1, encontram-se as ferramentas de bioinformática que foram utilizadas
durante o projeto. Elas estão divididas em programas que realizam determinadas tarefas,
como por exemplo, o Modeller5 responsável por gerar estruturas 3D, e servidores que
disponibilizam informações, fornecendo dados e serviços para a Internet, compartilhando seus
recursos, como por exemplo, o BLAST6. Essas ferramentas serão discutidas a seguir.
5 http://salilab.org/modeller/ 6 www.ncbi.nlm.nih.gov/BLAST/
8
Tabela 1 - Algumas ferramentas de bioinformática e servidores da Internet com seus respectivos endereços web úteis na modelagem por homologia (acessados em maio 2008). *S: Servidor; P: Programa (software).
NOME TIPO*
ENDEREÇO NA Internet
Bancos de dados
GenBank S www.ncbi.nlm.nih.gov/GenBank
PDB S www.rcsb.org/pdb/
Fontes de proteínas molde S
BLAST S www.ncbi.nlm.nih.gov/BLAST/
PDB S www.rcsb.org/pdb/
HHpred S http://toolkit.tuebingen.mpg.de/hhpred
Alinhamento de seqüências
BLASTP S www.ncbi.nlm.nih.gov/BLAST/
CLUSTALW S www.ebi.ac.uk/clustalw/
Construção dos modelos
MODELLER P http://salilab.org/modeller/modeller.html
MODWEB S http://salilab.org/modweb
SWISS-MODEL S www.expasy.org/swissmod/SWISS-MODEL.html
Validação de modelos
PROCHECK P www.biochem.ucl.ac.uk/~roman/procheck/procheck.html
WHATIF S http://swift.cmbi.ru.nl/servers/html/oldqua.html
VERIFY3D S http://nihserver.mbi.ucla.edu/Verify_3D/
Visualização de modelos
DS Visualizer P http://accelrys.com/downloads/freeware/
PyMol P http://pymol.sourceforge.net/
Chimera P http://www.cgl.ucsf.edu/chimera/
SwissPdbViewer P Ca.expasy.org/spdbv/
2.1.1 Banco de Dados Públicos para Bioinformática
Devido ao crescente número de projetos de seqüenciamentos surgiram repositórios
mais robustos para abrigar a explosão no número de seqüências obtidas pelos pesquisadores.
9
Principalmente as bases públicas, têm apresentado crescimentos exponenciais em seus
tamanhos nos últimos anos.
Um exemplo dessa robustez é o International Nucleotide Sequence Database
Collaboration (INSDC), um projeto colaborativo que compartilha informações de seqüências.
É formado pelas bases GenBank (USA), European Molecular Biology Laboratory - EMBL
(Laboratório Europeu de Biologia Molecular) e DNA Database of Japan – DDBJ (Banco de
Dados de DNA, do Japão).
Esses bancos trocam informações entre si diariamente, de modo que todos os três
possuem informações atualizadas de todas as seqüências de DNA e aminoácidos depositadas
em todo o mundo. Apesar disso, cada centro apresenta seus dados de forma particular, apesar
de bastante semelhante. Atualmente a maioria das revistas exige que as seqüências
identificadas pelos laboratórios sejam submetidas a um destes bancos antes mesmo da
publicação do artigo (PIEMOLINI, 2004).
2.1.1.1 GenBank
O mais conhecido banco de seqüências primárias é o GenBank. Construído e
administrado pelo National Center for Biotechnology Information – NCBI7 (Centro Nacional
de Informações sobre Biotecnologia, dos Estados Unidos). Inicialmente, seu objetivo era de
abrigar seqüências submetidas diretamente pelos autores de publicações científicas. No
entanto, houve uma grande oferta de seqüências, não só de autores como de centros de
pesquisa, que passaram a depositar regularmente seus dados.
2.1.1.2 PDB
O banco de dados de estruturas protéicas Protein Data Bank – PDB foi
estabelecido no Brookhaven National Laboratories – BNL, em 1971, como um repositório
para estruturas de cristais de biologia macromolecular (WESTBROOK et al., 2000).
Apesar de a primeira estrutura protéica ter sido determinada décadas antes da
primeira seqüência de DNA, o banco de dados de estrutura protéica cresceu mais lentamente
nesse ínterim do que o banco de dados de seqüências (GIBAS & JAMBECK, 2001).
No PDB é possível encontrar todas as estruturas terciárias de proteínas, que já
foram resolvidas. Hoje, estão armazenadas, não apenas estruturas preditas por cristalografia
de Rx, mas também estruturas preditas por RMN.
7 http://www.ncbi.nlm.nih.gov/
10
2.1.1.3 Seqüências Primárias e Estruturas Terciárias encontradas
Após um levantamento bibliográfico, foram escolhidas as principais toxinas
encontradas no veneno das abelhas. Entre essas toxinas encontram-se peptídeos, enzimas e
aminas biogênicas. Como pode-se observar na Tabela 2, nove diferentes tipos do componente
do veneno foram escolhidos para serem estudados, são eles: Melitina, Fosfolipase A2,
Apamina, Secapina, Hialuronidase, Peptídeo Degranulador de Mastócito, Fosfatase Ácida,
Veneno de Protease e Tertiapina.
Partindo da escolha dessas toxinas, foi feito um levantamento das seqüências
primárias dessas proteínas depositadas no GenBank. Essas seqüências foram obtidas após a
utilização de filtros especiais. Na página principal do NCBI, no campo “Search” (busca) foi
escolhida a opção “Taxonomy” (taxonomia). Foram então pesquisadas informações sobre o
gênero Apis. Várias informações foram retornadas pelo sistema, mas o link escolhido foi
“Protein” (Proteína). Na data do acesso (06/03/2008) foram retornadas 10.699 seqüências de
proteínas depositadas, esse número atualmente é de 10.758.
Assim, após o retorno desse primeiro filtro (taxonomia), a busca foi refinada
utilizando um conector lógico “and” a cada toxina selecionada – o tipo de proteína
pesquisado, como observado da primeira coluna da Tabela 1, está em inglês, pois o GenBank
é um banco internacional - o que limitou o número de seqüências que foram obtidas. Na
segunda coluna da Tabela 2 podemos observar que o número de seqüências encontradas
diminuiu significativamente, passando para 95 seqüências no total. O maior número de
seqüências foi retornado na busca por “Acid phosphatase” (Fosfatase Ácida), 21 seqüências
primárias.
As seqüências encontradas que já apresentam estrutura terciária conhecida foram
selecionadas também no PDB, para também, servirem de moldes para as futuras proteínas-
alvo. Verifica-se na terceira coluna da Tabela 2 que o número de estruturas conhecidas é
muito pequeno comparado com o número de seqüências primárias que foram selecionados.
De 95 seqüências primárias selecionadas apenas 9 possuem estrutura conhecida e armazenada
no PDB. Dessas 8 estruturas, a toxina “Hyaluronidase” apresentou 4 estruturas terciárias já
obtidas.
11
Tabela 2 - Levantamento de seqüências no GenBank e de estruturas depositadas no PDB.
2.1.2 Fonte de Proteínas Moldes
Como já citado na Figura 1, e será detalhado a seguir, o primeiro passo para se
modelar uma estrutura protéica por homologia é identificar proteínas que possuam estruturas
tridimensionais resolvidas, que possam atuar como moldes para a proteína-alvo. Essa primeira
etapa funciona como uma triagem, pois, a identificação de seqüências-molde, obedece a
critérios, como o grau mínimo de similaridade entre os fragmentos das seqüências. O grau
mínimo de similaridade entre proteína-alvo e molde, escolhido para a modelagem durante o
projeto, foi o valor mínimo de 70% de similaridade.
Para a busca dos moldes, alinhamentos locais foram realizados, através do BLAST
e também do PDB.
2.1.2.1 BLAST
O Basic Local Alignment Search Tool – BLAST, foi uma das ferramentas
utilizadas para a busca de estruturas molde. Na escolha da seqüência mais similar com a
seqüência alvo, o BLAST utiliza valores de pontuação (score) e parâmetros. Para o cálculo de
“score”, o BLAST alinha a seqüência alvo com as seqüências depositadas nos bancos de
dados e calcula valores obtidos através do somatório das identidades, similaridades, e pelo
somatório dos valores dos “gaps”. Quanto maior for este valor, maior similaridade existe
Toxina Pesquisada Seqüências Encontradas Estrutura no PDB
1 – Melittin 19 3(1BH1, 2MLTA, 2MLTB)
2 - Phospholipase A2 20 1 (1POC)
3 – Apamin 9 ----
4 – Secapin 5 ----
5 – Hyaluronidase 9 4 (1FCQ, 1FCU, 1FCV, 2J88)
6 - Mast cell degranulating 6 ----
7 - Acid phosphatase 21 ----
8 - Protease venom 3 ----
9 – Tertiapin 3 1 (1TER)
TOTAL 95 9
12
entre as seqüências. O BLAST será detalhado a seguir, quando será discutido o alinhamento
local entre as seqüências.
2.1.2.2 PDB
O PDB foi o banco de dados de estruturas de proteínas que foi utilizado durante o
projeto. Através dele também é possível realizar buscas por possíveis modelos, utilizando a
seqüência primária da proteína molde, no formato “fasta”. Na página inicial do PDB, ao lado
do menu “Home” encontra-se a opção “Search”. Quando clicado, abre-se um menu de
pesquisa, “Search Database”. Nesse menu escolhe-se a opção “Sequence”. Através dessa
busca por seqüências moldes, se obtém um alinhamento entre a seqüência alvo e as
seqüências que possuem estruturas depositadas no PDB. Esse alinhamento pode ser realizado,
utilizando o algoritmo do BLAST ou o algoritmo FASTA .
2.1.2.3 HHpred
O HHpred8 é um servidor que realiza buscas por proteínas homólogas com
estruturas preditas através de algoritmos baseados em alinhamentos HMM-HMM.
Alinhamentos que utilizam Hidden Markov Model – HMM (Modelos ocultos de Markov)
conseguem tratar de forma probabilística a variação estrutural de uma seqüência. O HHpred
aceita, tanto uma única seqüência para consulta, como também múltiplas seqüências como
entrada. Dentro de apenas alguns minutos ele retorna os resultados da pesquisa em um
formato fácil de ser interpretado e com dados semelhantes ao do algoritmo PSI-BLAST.
Através dos dados de saída do HHpred e do seu servidor é possível, no mesmo momento,
construir um modelo para a estrutura alvo, utilizando o Modeller on line.9
2.1.3 Alinhamento das Seqüências
O alinhamento é um processo importante na busca por modelos de qualidade,
gerados por homologia. Pois, no alinhamento de seqüências, identifica-se à equivalência dos
resíduos existentes entre as seqüências alvo e molde, tendo por objetivo medir a similaridade
entre elas.
O alinhamento pode ser local ou global. No alinhamento local, apenas algumas
regiões de duas seqüências de nucleotídeos ou aminoácidos, são alinhadas. Alinham-se
8 http://toolkit.tuebingen.mpg.de/hhpred 9 http://toolkit.tuebingen.mpg.de/modeller
13
somente as regiões mais conservadas, independente da localização relativa de cada região em
sua seqüência. É geralmente usado na procura por seqüências homólogas em banco de dados.
No alinhamento global, o alinhamento de duas ou mais seqüências, de
nucleotídeos ou aminoácidos, é realizado sobre o comprimento da seqüência por inteiro.
Assim, as seqüências envolvidas devem ser alinhadas de um extremo ao outro. Esse
alinhamento é, freqüentemente, utilizado para determinar regiões mais conservadas de
seqüências homólogas, que apresentam alto grau de similaridade em todo seu comprimento
(MUNIZ, 2003).
O alinhamento pode ser gerado através de mais de duas seqüências. Esse tipo de
alinhamento é conhecido como alinhamento múltiplo, que é considerado mais confiável que o
alinhamento simples, pois um grande grupo de proteínas será alinhado e as regiões
semelhantes se destacarão (PROSDOCIMI et al., 2003).
Para o alinhamento das seqüências primárias das proteínas foram utilizados o
BLASTP10 e o CLUSTALW11 que são algoritmos de código-fonte aberto (softwares livres). O
alinhamento entre as seqüências, também pode ser obtido através do Modeller. Que através do
comando ALIGN2D, realiza um alinhamento baseado no algoritmo de programação
dinâmica, proposto por Needleman e Wunsch para alinhamento global de seqüências
(NEEDLEMAN & WUNSCH, 1970).
2.1.3.1 BLAST
O BLAST é um método heurístico que realiza um alinhamento local entre a
seqüência alvo e um banco de dados. Ele é composto por vários algoritmos, que diferem entre
si, de acordo com o tipo de seqüência de entrada (nucleotídeo ou aminoácido) e com o tipo de
resultado esperado (ALTSCHUL et al., 1990). Pode ser usado para inferir as relações
funcionais e evolucionárias entre as seqüências, assim como para ajudar a identificar
membros de uma mesma família de genes.
Alguns dos principais algoritmos encontrados no BLAST são:
BLASTP: compara seqüências de aminoácidos com o banco de dados de proteínas.
Este programa identifica também possíveis domínios conservados nas proteínas analisadas.
BLASTN: compara uma seqüência de DNA como entrada com um banco de dados
de DNA.
10http://www.ncbi.nlm.nih.gov/blast/producttable.shtml#blastp 11 http://align.genome.jp/
14
BLASTX: compara uma seqüência de nucleotídeos, com um banco de dados de
proteínas.
O algoritmo utilizado no projeto, BLASTP, compara as seqüências da proteína
alvo (que se deseja modelar) com seqüências de possíveis moldes, depositadas no PDB, e
calcula a significância estatística dos erros de alinhamento. Ele busca por regiões com maior
densidade de resíduos idênticos ou similares. Para a escolha dos moldes, apenas as proteínas
que apresentaram uma similaridade maior que 70% com a seqüência alvo foram escolhidas.
As seqüências primárias dessas proteínas foram salvas no formato “fasta”, formato de arquivo
utilizado como parâmetro de entrada para o CLUSTALW, para que fosse realizado o
alinhamento global.
2.1.3.2 CLUSTAL
O CLUSTAL trata-se de um programa de alinhamento múltiplo de seqüências que,
identifica resíduos ou regiões conservadas, ou equivalentes em estruturas, para relacionar por
ordem funcional ou estrutural a similaridade entre elas (HIGGINS et al., 1994).
Há três versões do CLUSTAL:
CLUSTAL: Ele atribui pesos iguais a todas as seqüências.
CLUSTALW: Ele atribui pesos diferentes às seqüências fornecendo ao usuário
uma grande quantidade de parâmetros e de saídas diferentes. Possui interface gráfica onde os
alinhamentos podem ser visualizados de forma agradável e alterados.
CLUSTALX: Ele proporciona uma interface gráfica para o CLUSTALW.
A versão utilizada durante o projeto foi o CLUSTALW. Ele realiza um
alinhamento entre as seqüências alvo e molde, em toda a sua extensão, buscando coincidir o
maior número de resíduos idênticos ou similares entre elas. Para esse alinhamento, foram
utilizadas as seqüências das proteínas, no formato “fasta”, que foram encontradas durante o
alinhamento local, utilizando o BLAST. No CLUSTALW é possível selecionar o arquivo de
saída. O formato do arquivo de saída escolhido foi o formato “pir”, que será utilizado como
parâmetro de entrada para o Modeller, durante a construção do modelo.
2.1.4 Construção dos Modelos
A modelagem por homologia é um método teórico confiável para a obtenção de
estruturas de proteínas (SÁNCHEZ et al., 2000). Esse método consiste basicamente de quatro
15
etapas: identificação e seleção de proteínas-molde, alinhamento das seqüências, construção
das coordenadas, e validação do modelo. Essas etapas serão detalhadas a seguir.
2.1.4.1 Modeller
O Modeller (ŠALI e BLUNDELL, 1993) é o software mais utilizado atualmente
para a modelagem estrutural de proteínas por homologia. Ele utiliza estruturas-molde, para
construir modelos tridimensionais da seqüência-alvo, através de um alinhamento. Apesar do
Modeller incorporar ferramentas de alinhamento de seqüências e até mesmo de busca pelo
banco de dados, o ponto inicial para o Modeller é um alinhamento seqüencial múltiplo entre a
seqüência alvo e as seqüências protéicas do modelo (GIBAS e JAMBECK, 2001).A partir do
alinhamento entre alvo e estrutura-molde, é gerado um conjunto de restrições que são
aplicadas à seqüência a ser modelada. O cálculo destas restrições é baseado em análises
estatísticas entre estruturas de proteínas homologas. Estas restrições limitam, por exemplo, a
distância entre dois resíduos no modelo, sendo esta restrição baseada na distância entre dois
resíduos equivalentes na estrutura molde. Restrições também são aplicadas nas ligações
angulares (entre três átomos) e nos ângulos diedrais (entre quatro átomos). Além destas
restrições, um campo de força controla as propriedades estereoquímicas entre os átomos,
aplicando restrições químicas (RÖSSLE, 2004). Todas as restrições químicas e espaciais
aplicadas ao modelo são combinadas em uma função, chamada função objetivo, que é
otimizada durante o processo de construção do modelo (FISER & SALI, 2003). Um resumo
da metodologia utilizada pelo Modeller pode ser visualizado na figura 2 (ŠALI e
BLUNDELL, 1993).
16
Figura 1 - Modelagem Molecular por Satisfação de Restrições Espaciais. (1) Alinhamento entre as seqüência-alvo e a molde (que possui estrutura); (2) Extração de restrições espaciais; (3) Satisfação das restrições espaciais.
2.1.4.2 Swiss-Model
O SWISS-MODEL 12é um servidor, automatizado na Web, de modelagem por
homologia, baseado no Instituto Suíço de Bioinformática. O SWISS-MODEL permite que
você submeta uma seqüência e receba de volta, automaticamente, uma estrutura (GIBAS e
JAMBECK, 2001). Ele utiliza métodos de construção de modelos, utilizando corpos rígidos.
O modelo é construído por partes, utilizando as regiões estruturalmente conservadas das
proteínas homologas. A cadeia principal destas regiões pode ser obtida através de bancos de
dados de estruturas protéicas, e as cadeias laterais podem ser encontradas em bibliotecas de
rotâmeros (GUEX & PEITSCH, 1997).
2.1.5 Validação dos Modelos
Após a construção do modelo, é necessário identificar possíveis erros relacionados
à escolha das estruturas de referência, e ao alinhamento entre seqüência-alvo e molde. Caso o
modelo seja caracterizado de má qualidade, todo o processo de modelagem deve ser revisto,
no intuito de se melhorar o alinhamento inicial ou utilizar outros métodos.
São avaliadas as qualidades dos modelos, principalmente se houver diferentes
orientações referentes aos resíduos do sítio ligante nos modelos gerados (SCHAFFERHANS
12 http://swissmodel.expasy.org/SWISS-MODEL.html
17
& KLEBE, 2001). Um grande número de propriedades de diferentes graus de organização
estrutural, como: exatidão estereoquímica, qualidade do empacotamento e confiabilidade do
enovelamento, são verificadas durante a etapa de validação (SILVA & SILVA, 2007).
Os softwares que foram utilizados para a validação dos modelos gerados, foram:
Prochek (LASKOWSKI et al., 1993), Whatif (VRIEND & SANDER, 1993) e o Verify3D
(LUTHY et al., 1992). Eles são apresentados a seguir.
2.1.5.1 Procheck
O Prochek avalia diversos parâmetros estereoquímicos, de importância
fundamental, como os comprimentos de ligação, os ângulos planos, a planaridade dos anéis de
cadeias laterais, os ângulos torcionais da cadeia principal, gerando o gráfico de
Ramachandran (RAMACHANDRAN & SASISEKHARAN, 1968), que é muito útil, pois,
define os resíduos que se encontram nas regiões energeticamente mais favoráveis e
desfavoráveis, além de orientar a avaliação da qualidade para modelos teóricos e
experimentais de proteínas.
A estrutura protéica possui três ângulos principais, ω, φ e ψ. Como o ângulo ω é
fixo os ângulos φ e ψ são os responsáveis por toda a variação conformacional da cadeia
principal, pois tornam a cadeia polipeptídica flexível. Observa-se na Figura 3, a estrutura
protéica e seus ângulos principais.
Figura 2 - Estrutura protéica e seus três ângulos principais, omega (ωωωω), phi (φ) e psi (ψ). Como o ângulo ωωωω é fixo os ângulos φ e ψ são os responsáveis por toda a variação conformacional da cadeia principal, pois tornam a cadeia polipeptídica flexível.
O gráfico de Ramachandram é uma representação gráfica de ângulos φ versus
ângulos ψ. Para que se garanta uma maior precisão dos modelos gerados, no mínimo 90% dos
18
ângulos φ e ψ da cadeia principal devem estar na região mais favorável do gráfico de
Ramachandran (ANDERSON, 2003).
Na Figura 4, observa-se um gráfico de Ramachandran. Os pontos quadrados
representam os resíduos de aminoácidos da proteína modelada, as glicinas são representadas
por triângulos. As áreas em vermelho compreendem as regiões mais favoráveis para resíduos
se encontrarem, em amarelo as regiões favoráveis, em bege as regiões pouco favoráveis e em
branco, as regiões desfavoráveis. A região branca é desfavorável para todos os aminoácidos,
com exceção da glicina.
Figura 3 - Gráfico de Ramachandran gerado pelo Procheck. As regiões representadas em vermelho, são as mais favoráveis, as representadas em amarelo, são as favoráveis, as representadas em bege, são as menos favoráveis e as regiões brancas, são as desfavoráveis.
2.1.5.2 Whatif
O Whatif (VRIEND, 1990), avalia a qualidade dos contatos atômicos envolvendo
os átomos de cada resíduo. Foi utilizado o módulo Coarse Packing Quality Control 13, do
software Whatif, o qual compara a distribuição das posições de átomos em torno de cada
resíduo. Um escore menor do que -5,0 para um resíduo significa contatos atômicos ruins ou
13 http://swift.cmbi.ru.nl/servers/html/index.html
19
incomuns, mas não implica, necessariamente, em uma estrutura incorreta. Existe a
necessidade, entretanto, de examinar o resíduo (VRIEND & SANDER, 1993).
2.1.5.3 Verify 3D
O modelo protéico pode ser avaliado também quanto à qualidade dos ambientes
químicos, determinando o nível de confiabilidade do enovelamento protéico do modelo
virtual. O Verify 3D pode realizar essa tarefa, determinando os ambientes químicos de cada
resíduo do modelo e atribuindo “scores” com referência a uma matriz construída a partir de
uma análise estatística envolvendo estruturas de proteínas armazenadas no PDB. Essa
ferramenta de validação está disponível para utilização on-line no endereço do Laboratory for
Structural Genomics and Proteomics, University of Califórnia14.
Várias outras metodologias capazes de estimar a qualidade da estrutura terciária
dos modelos de proteínas têm sido testadas, como cálculos de energia livre de solvatação ou
métodos estatísticos (SAUDER et al., 2000).
2.1.6 Visualização dos Modelos
Para realizar a visualização tridimensional dos modelos gerados a partir da
modelagem, utilizaram-se os softwares que permitem essa visualização, como o DS
Visualizer 15, o PyMol16, e o Chimera17, este último, também foi utilizado sobrepor as
estruturas obtidas, com suas estruturas-molde, para uma melhor visualização.
2.2 MODELAGEM DAS PROTEÍNAS POR HOMOLOGIA
A modelagem das proteínas pelo método de homologia segue etapas, como pode
se observar na Figura 4. O início da modelagem por homologia está na identificação de
estruturas 3D de proteínas, que possam atuar como base estrutural para a modelagem da
proteína-alvo. Nessa primeira etapa, foram realizadas buscas no PDB, através do algoritmo
BLASTP. Alguns dos aspectos levados em consideração, durante a escolha dos alvos, foram o
conhecimento estrutural, a similaridade seqüencial e a correlação evolutiva entre as proteínas
(DEANE & BLUNDELL, 2003).
14 http://nihserver.mbi.ucla.edu/Verify_3D/ 15 http://doc.accelrys.com/doc/life/dstudio/dsv20/ 16 http://pymol.sourceforge.net/ 17 http://www.cgl.ucsf.edu/chimera/
20
Um valor aceitável, na modelagem por homologia, de similaridade é acima de
30% de identidade seqüencial entre proteína-molde e proteína-alvo (SALI, 1998;
D’ALFONSO et al., 2001; VITKUP et al., 2001). Entretanto, as proteínas escolhidas como
molde, apresentaram similaridade maior que 75%.
Figura 4 - Esquema geral do método teórico da modelagem por homologia, baseado em MARTÝ-RENOM et al., 2000.
Após, o alinhamento local realizado pelo BLASTP, as proteínas selecionadas
como molde, tiveram suas seqüências alinhadas em toda sua extensão (alinhamento global),
pelo CLUSTALW.
O objetivo desse alinhamento é reconhecer regiões estruturalmente conservadas e
regiões variáveis, observando-se os resíduos estruturalmente equivalentes na seqüência
primária.
Após obtido o alinhamento das seqüências, o arquivo de saída gerado pelo
CLUSTALW está no formato “pir”. Esse arquivo contendo o alinhamento das seqüências, é
utilizado como entrada para o Modeller, que através das restrições espaciais, determina as
coordenadas cartesianas da proteína, gerando um modelo3D.
Assim que termina a execução do Modeller, a estrutura modelada já está pronta para a
validação. O arquivo de saída do Modeller, um arquivo “pdb”, é utilizado como entrada para
os softwares de validação. Quando necessário, ocorre uma otimização do modelo, através de
21
um script de otimização, escrito na linguagem Python18, encontrado no próprio Modeller, na
versão Modeller 9 v319, que foi a versão utilizada para geração dos modelos durante o projeto.
Para que a estrutura seja visualizada é necessária a utilização de softwares que
interpretam os arquivos gerados “pdb”, como por exemplo, o Chimera, o Pymol e o DS
Visualizer.
2.3 ARQUITETURA DO SISTEMA
A arquitetura de software é uma estrutura que serve para o melhor entendimento
de componentes de um sistema e seus inter-relacionamentos (SILVA FILHO, 2002).
No sistema em desenvolvido, a arquitetura utilizada pode ser observada na Figura
6. Essa arquitetura propõe que, o usuário, através de um navegador – também conhecido
como Web browser, como por exemplo, o Internet Explorer ou o Mozilla Firefox20, acessa o
sistema através de requisições HTTP para o servidor. O servidor Apache21 interage com
scripts desenvolvidos na linguagem de programação PHP22, uma linguagem de programação
muito utilizada na web e em banco de dados. Esses scripts contem comandos para acessar o
banco de dados MySQL23, acessando os dados contidos neste banco.
O modelo proposto é baseado na arquitetura cliente-servidor, no qual o servidor é
um servidor web, representando o gerenciador de dados, e os usuários serão representados
através de clientes que utilizarão navegadores para acessar as informações.
18 http://www.python.org/ 19 http://salilab.org/modeller/9v3/release.html 20 http://br.mozdev.org/ 21 http://www.apache.org/ 22 http://www.php.net 23 http://www.mysql.org
22
Figura 5 - Arquitetura do sistema. O usuário faz uma requisição ao servidor, o servidor web recebe essa requisição e interagindo com scripts php gera resultados que retornarão ao usuário através de um navegador web.
2.4 IMPLEMENTAÇÃO
Durante a etapa de implementação, o projeto do software é implementado como
um conjunto de unidades de uma linguagem de programação. Esta etapa baseia-se totalmente
no uso de ferramentas e ambientes de apoio à programação, como por exemplo, compiladores,
depuradores de código e editores sintáticos (PRESSMAN, 1991).
2.4.1 Plataforma
A plataforma utilizada no desenvolvimento é um servidor, Hp ProLiant ML150
Pentium Xeon 3.0 com 2GB de memória e 4 Hard Disk de 70GB. Compõe ainda a plataforma
o Servidor Web Apache 2.0, instalado no sistema GNU/Linux Fedora 6.0 onde serão
disponibilizados os resultados. A escolha do Apache se deve ao fato dele ser o mais bem
sucedido servidor web livre.
23
2.4.2 Linguagem de Programação
O desenvolvimento do sistema abrange dois módulos: desenvolvimento do banco
de dados e análise de dados. A integração destes módulos será feita através das linguagens de
programação Hypertext Preprocessor - PHP e a linguagem de marcação Hypertext Markup
Language - HTML.
2.4.2.1 PHP
O PHP é um módulo de pré-processamento de hipertexto para o servidor web, que
permite ler e interpretar códigos PHP incorporados em páginas da web. Apesar de ser uma
linguagem de fácil aprendizagem e de utilização para pequenos scripts dinâmicos simples, o
PHP é uma poderosa linguagem orientada a objetos. É um código aberto que permite fácil
conexão ao banco de dados. Um programa ou script PHP é um aplicativo que reside em um
servidor Web. Desta maneira é possível interagir com bancos de dados e aplicações existentes
no servidor, com a vantagem de não expor o código fonte para o cliente.
Quando um script PHP é chamado por um usuário remoto, o aplicativo é
executado no servidor que, em seguida, encaminha ao usuário (cliente) a resposta em formato
HTML, linguagem de marcação de hipertexto. O HTML é uma linguagem de marcação
utilizada para produzir páginas web que facilita a navegação. Para o desenvolvimento do
banco de dados será utilizado o sistema gerenciador de banco de dados, MySQL, que será
discutido a seguir .
2.4.2.2 JAVASCRIPT
O JavaScript é uma linguagem de programação interpretada e gratuita, que pode
ser embutida em páginas HTML. Ela oferece formas de controle e interatividade na página,
como validação de campos e chamadas a eventos. Por sem uma linguagem client-side, ou
seja, interpretada e executada no próprio navegador, não necessita realizar requisições ao
servidor.
Para sua utilização a máquina que acessa a página deve possuir um interpretador
de JavaScript e este necessita estar ativo ou habilitado.
2.4.2.3 HTML
O HTML (acrônimo para a expressão inglesa HyperText Markup Language) é uma
linguagem pública de marcação utilizada para produção de página na Web, que utiliza os
24
conceitos do HyperTexto e da Hipermídia para apresentar, num mesmo ambiente: dados,
imagens, vídeos, sons e gráficos. Uma das principais propriedades do documento HTML é a
possibilidade de fazer hiperligações, links que fazem referência a outros conteúdos presentes
na mesma ou em diferentes páginas Web.
2.4.2.4 CSS
Cascading Style Sheet (CSS), que em português foi traduzido para Folha de Estilo
em Cascata, é um mecanismo simples para marcar e estruturar o conteúdo do documento
HTML, ou seja, a alteração da apresentação não é feita por elementos HTML. A tarefa de
estilização fica a cargo das CSS, arquivos independentes dos arquivos HTML, nos quais são
declaradas propriedades e valores de estilização para os elementos do HTML (como
alinhamento, espaçamento, cores, fontes, margens, backgrounds, etc). Facilitam o
desenvolvimento de páginas Web, pois padronizam o estilo e tornam o código mais limpo.
2.4.3 Confecção do Banco de Dados
Para a confecção do banco de dados foi utilizada a ferramenta DBDesigner 4.0.5.6 24,
que se trata de um sistema livre de design que integra modelagem, criação e manutenção de
banco de dados, entre outras funcionalidades. Possui portabilidade, podendo ser executado em
diferentes plataformas. No DBDesigner, o modelo de dados foi estruturado de forma simples
e prática sendo, posteriormente, exportado para um banco de dados do MySQL.
MySQL é o Sistema Gerenciador de Banco de Dados (SGBD) que será utilizado para
dar suporte ao software desenvolvido. Ele é um SGBD relacional que oferece integração com
diversas aplicações através de um subconjunto da popular linguagem de consulta SQL. Possui
grande portabilidade, praticamente suporta qualquer plataforma atual, oferece um excelente
desempenho e estabilidade. Além de exigir poucos recursos de hardware ele é um software
livre.
24 http://www.fabforce.net/dbdesigner4/
25
3 RESULTADOS E DISCUSSÕES
3.1 MODELAGEM DAS PROTEÍNAS
A motivação para a escolha das proteínas e suas respectivas seqüências primárias
se deu à importância das proteínas, contidas no veneno das abelhas, para estudos
farmacológicos. Para a modelagem molecular, inicialmente, foram escolhidas 5 seqüências da
proteína melitina, por se tratar do principal composto do veneno. Na primeira e segunda
coluna da tabela 3 pode se observar os códigos de acesso ao Genbank e as seqüências em
formato fasta das proteínas escolhidas para serem modeladas.
3.1.1 Busca de seqüências homólogas
A busca por seqüências homólogas foi realizada através do software BLAST. As
seqüências encontradas que apresentaram similaridade superior a 70% foram escolhidas como
potenciais moldes. Na terceira coluna da tabela 3, pode se observar, quais foram as proteínas
selecionadas para servirem de molde. Na quarta coluna, encontra-se a similaridade entre
seqüência-alvo e molde, e na quinta coluna, encontra-se o valor, em Angstroms, da resolução
das estruturas selecionadas para molde.
Tabela 3 - Relação entre Proteínas-alvo e Proteínas-molde.
Proteína-Alvo Possíveis Proteínas-Molde
gi Fasta Código PDB Similaridade Resolução
[Å]
Organismo
229389 GIGAVLKVLTTGLPALISWISRKKRQQ 2mlt(A,B)
1bh1(A)
92%
92%
2.00
RMN
Apis Mellifera
229230 GIGAVLKVLTTGLPALISWIKRKRQQ 2mlt(A,B)
1bh1(A)
100%
100%
2.00
RMN
Apis Mellifera
126956 GIGAILKVLATGLPTLISWIKNKRKQ 2mlt(A,B)
1bh1(A)
88%
88%
2.00
RMN
Apis flórea
126955 GIGAILKVLSTGLPALISWIKRKRQE 2mlt(A,B)
1bh1(A)
100%
100%
2.00
RMN
Apis dorsata
69552 GIGAVLKVLTTGLPALISWISRKKRQQ 2mlt(A,B)
1bh1(A)
92%
92%
2.00
RMN
Apis mellifera
Para todas as proteínas alvo, foram encontrados três possíveis moldes. A estrutura
2MLT, cadeia A e cadeia B, e a estrutura 1BH1, cadeia A. As três possíveis estruturas moldes
26
tiveram suas informações coletadas no Genbank e no PDB, juntamente com o arquivo
contendo suas coordenadas. As informações sobre as estruturas e suas seqüências primárias
foram armazenadas no banco de dados do sistema.
3.1.2 Alinhamento entre seqüências-alvo e molde
Com o conhecimento das possíveis estruturas-molde, foi realizado o alinhamento
global entre as seqüências primárias, das proteínas-molde e das proteínas-alvo. Para gerar os
alinhamentos foi utilizado o CLUSTALW, e o formato de saída do alinhamento foi o formato
pir, arquivo que será utilizado para a construção dos modelos pelo Modeller. Para uma melhor
visualização dos alinhamentos, foi utilizado o software BioEdit25.
As figuras abaixo apresentam o alinhamento de cada seqüência de proteína-alvo com as
respectivas seqüências das estruturas-molde. Na Figura 7 se tem o alinhamento da seqüência,
com gi 229389, e seus moldes. Observa-se que a seqüência-alvo possui 27 aminoácidos,
enquanto que as seqüências-molde possuem 26 aminoácidos. O melhor alinhamento realizado
pode ser observado abaixo, onde 25 dos 27 aminoácidos da seqüência-alvo foram alinhados.
Figura 6 - Alinhamento global entre seqüência-alvo (gi 229389) e seqüências-molde.
Na Figura 8, observa-se o alinhamento entre a seqüência-alvo, de gi 229230, com
suas possíveis estruturas-molde. Nota-se que, 100% dos resíduos são idênticos.
Figura 7 - Alinhamento global entre seqüência-alvo (gi 229230) e seqüências-molde.
Na Figura 9, observa-se o alinhamento entre a seqüência-alvo, de gi 126956, com
suas possíveis estruturas-molde. Nota-se que, 21 dos 26 resíduos das seqüências são idênticos
Figura 8 - Alinhamento global entre seqüência-alvo (gi 126956) e seqüências-molde.
25 http://www.mbio.ncsu.edu/BioEdit/page2.html
27
Na Figura 10, observa-se o alinhamento entre a seqüência-alvo, de gi 69552, com
suas possíveis estruturas-molde. Nota-se que, 25 dos 27 resíduos da seqüência-alvo são
idênticos aos das seqüências-molde.
Figura 9 - Alinhamento global entre seqüência-alvo (gi 69552) e seqüências-molde.
Na Figura 11, observa-se o alinhamento entre a seqüência-alvo, de gi 126955, com
suas possíveis estruturas-molde. Nota-se que, 23 dos 26 resíduos das seqüências são idênticos.
Figura 10 - Alinhamento global entre seqüência-alvo (gi 126955) e seqüências-molde.
3.1.3 Construção dos modelos
Com os resultados obtidos do alinhamento das seqüências, o Modeller, programa
escolhido para as modelagens, através de seus comandos gerou os modelos de estruturas 3D.
A principal característica do Modeller é a obtenção empírica das restrições espaciais,
expressas por funções densidade de probabilidade (PDF’s) que, utilizam informações das
estruturas-molde. As restrições espaciais e os termos de energia são combinados em uma
função objetivo, que através de métodos de otimização por gradiente conjugado, visaram
minimização das violações das restrições espaciais (SÁNCHEZ; SALI, 1997).
Foram executados vários scripts na busca por um modelo com qualidade. Esses
scripts estão armazenados na biblioteca do Modeller. Através do script “model-multi.py”, a
estrutura foi obtida utilizando múltiplos moldes. As três estruturas conhecidas, 1BH1,
2MLT_A, 2MLT_B, foram alinhadas e utilizadas ao mesmo tempo como moldes, mas os
resultados obtidos, não foram satisfatórios, pois, os modelos gerados não obtiveram uma
qualidade mínima.
Optou-se então por escolher um único modelo para cada seqüência-alvo. Para a
determinação do melhor molde, as três estruturas, 2mlt(cadeia A e B) e 1bh1(cadeia A), foram
utilizadas gerando para cada seqüência-alvo, 10 modelos. Esses modelos foram comparados
entre si, e os que possuíam menor valor para a função objetivo foram otimizados e analisados
28
nos programas de validação. São apresentados a seguir, os melhores modelos para cada
seqüência-alvo, juntamente com os resultados da validação desses modelos. Apesar de todas
as restrições impostas pelo Modeller, alguns modelos podem apresentar maus contatos entre
seus átomos e enovelamentos incorretos (SALI ; BLUNDELL, 1993).
3.1.4 Validação dos modelos
Todos os modelos gerados pelo Modeller durante o projeto foram analisados por
três softwares de validação, responsáveis cada qual a avaliar uma propriedade diferente.
- Procheck: Avalia a qualidade estereoquímica dos modelos;
- Whatif : Avalia a qualidade dos modelos finais por análise dos contatos atômicos
dos resíduos;
- Verify 3D: Avalia os ambientes químicos dos resíduos.
3.1.4.1 Seqüência-alvo: gi 229389
Os resultados do Procheck exibem uma grande quantidade de informações
referentes aos parâmetros estereoquímicos dos modelos protéicos. São gerados vários
gráficos, que permitem uma avaliação completa da qualidade estereoquímica dos modelos em
comparação à estruturas resolvidas experimentalmente no mesmo nível de resolução. Será
apresentado o gráfico de Ramachandran e os gráficos de avaliação das propriedades da cadeia
principal.
Para ser considerado um bom modelo, o resultado do gráfico de Ramachandran
deve apresentar, na região mais favorável (A, B, L), mais de 90% dos resíduos,
desconsiderando os resíduos de glicina (não possuem cadeia lateral), prolina (o Cα está ligado
à cadeia lateral) e os resíduos das extremidades (C-terminal e N-terminal) que apresentam
padrões estereoquímicos diferentes dos outros resíduos (LASKOWSKI, et al., 1993).
Inicialmente, foram construídos 30 modelos da estrutura de gi 229389, 10 modelos
para cada molde encontrado. Com isso, os melhores modelos foram gerados utilizando a
estrutura 2mlt cadeia B, como molde. Esses modelos foram otimizados, através de um script
para a minimização do valor da função objetivo. No total 40 modelos foram gerados para a
estrutura de gi 229389. Desses, apenas os modelos que apresentaram menor valor para a
função objetivo foram selecionados e avaliados.
Em relação ao Procheck, o modelo gerado apresentou 100% de seus resíduos na
região mais favorável (em vermelho), como pode se observar na Figura 11. As propriedades
29
estereoquímicas da cadeia principal, que são verificadas pelo Procheck são cinco: (a)
Avaliação do gráfico de Ramachandran, (b) Planaridade de ligação peptídica, (c) Maus
contatos atômicos, (d) Distorção do carbono α, (e) Energia das ligações de hidrogênio, (f)
Qualidade estereoquímica total. Na Figura 12, são apresentados os resultados referentes a
essas propriedades, e observa-se que estes resultados estão dentro da média ou em melhores
condições que parâmetros de estruturas protéicas encontradas no PDB, com nível de
resolução estrutural semelhante, onde se ressalta a qualidade estereoquímica total do modelo,
representada pelo fator-G, que se apresenta acima da média.
Figura 11 - Gráfico de Ramachandran da seqüência de gi 229389, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas.
30
Figura 12 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média.
Para se verificar a qualidade dos contatos atômicos, o módulo Coarse Packing
Quality Control do software Whatif (VRIEND; SANDER, 1993) foi utilizado. Esse módulo
analisa os contatos atômicos do molde obtido utilizando estruturas resolvidas, depositadas no
PDB, como referência. Ele calcula o chamado índice da qualidade de contato. Normalmente, a
escala do índice da qualidade de contato para cada resíduo abrange valores entre -5 e 5. Um
valor menor que -5 pode significar algum tipo de erro, como: empacotamento improvável ou
coordenadas atômicas incorretas (VRIEND; SANDER, 1993).
Um modelo é classificado como (SILVA, 2007):
- ótimo, se apresentar valor médio que -0,5;
- bom, se apresentar valor médio entre -0,5 e -1,5;
- pobre, se apresentar valor médio menor que -2,0;
- ruim, se apresentar valor médio menor que -3,0.
Pode-se analisar na Tabela 4, os índices da qualidade de contato calculados para
cada um dos resíduos do modelo de gi 229389, e também o índice total do modelo. Pelo
índice total (-0,451), conclui-se que o modelo apresenta uma boa qualidade segundo a
classificação anterior.
31
Tabela 4 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 229389 e o índice total do modelo.
1 GLY ( 1) : -0.532
2 ILE ( 2) : 0.881
3 GLY ( 3) : 1.911
4 ALA ( 4) : 1.399
5 VAL ( 5) : 1.605
6 LEU ( 6) : 1.855
7 LYS ( 7) : 2.009
8 VAL ( 8) : -0.381
9 LEU ( 9) : -0.854
10 THR ( 10) : -3.680
11 THR ( 11) : -2.794
12 GLY ( 12) : -3.298
13 LEU ( 13) : 1.045
14 PRO ( 14) : 0.722
15 ALA ( 15) : 1.496
16 LEU ( 16) : 1.273
17 ILE ( 17) : 2.125
18 SER ( 18) : 2.290
19 TRP ( 19) : 0.258
20 ILE ( 20) : 0.580
21 SER ( 21) : 0.488
22 ARG ( 22) : -0.970
23 LYS ( 23) : -0.524
24 LYS ( 24) : -1.378
25 ARG ( 25) : -3.593
26 GLN ( 26) : -5.642
27 GLN ( 27) : -4.830
Índice do modelo: -0.451
Nem sempre um valor abaixo de cinco significa que o resíduo esteja incorreto. O
resíduo 27 do modelo gerado, apresentou um valor abaixo de -5,0, que pode ser observado na
Figura 13. Mas resíduos pequenos realizam menos contatos que resíduos grandes, assim seus
índices tendem a serem menores, mesmo quando empacotados corretamente. Da mesma
forma, resíduos encontrados na superfície das proteínas, realizam menos contatos, quando
comparados com resíduos encontrados no interior das proteínas, por esse motivo, também
apresentam índices menores (SILVA, 2007).
Figura 13 - Modelo para seqüência de gi 229389. Em amarelo, está a localização do resíduo com baixa qualidade de contato.
Para avaliar a compatibilidade da estrutura do modelo com sua seqüência primária,
o software Verify 3D foi utilizado. Como a posição de cada resíduo no modelo 3D é
caracterizada pelo seu ambiente químico, o software determina os ambientes químicos de
cada resíduo do modelo e atribui “scores” com referência a uma matriz construída a partir de
uma análise estatística envolvendo estruturas de proteínas armazenadas no PDB.
32
Na Figura 14, está a avaliação do modelo de gi 229389, onde os 11 primeiros
resíduos de cada extremidade são desconsiderados. Mesmo apresentando um resíduo com
valor negativo, este foi o melhor modelo gerado para a seqüência-alvo de gi 229389, pois esse
modelo passou pro um protocolo de minimização de energia.
Figura 14 - Representação do perfil 3D do modelo de gi 229389. São desconsiderados os 11 resíduos das extremidades.
3.1.4.2 Seqüência-alvo: gi 229230
O gráfico de Ramachandran revelou que 100% dos resíduos deste modelo se
encontram na região mais favorável, garantindo assim, à qualidade dos ângulos torcionais da
cadeia principal. Pode-se verificar na Figura 15 e Figura 16 que, pelos resultados do
Procheck, este modelo para a seqüência-alvo de gi 229230, é considerado válido.
33
Figura 15 - Gráfico de Ramachandran da seqüência de gi 229230, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas.
As propriedades estereoquímicas da cadeia principal do modelo construído para
esta seqüência, em comparação com estruturas do PDB, são mostradas na Figura 16. Os
resultados para essas propriedades mostram que a qualidade total do modelo está acima da
média.
34
Figura 16 – Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média.
Na Tabela 5, observa-se a análise dos índices da qualidade de contato para o
modelo da seqüência de gi 229230. Como classificado anteriormente, um bom nível de
qualidade para contatos atômicos seria um valor maior que -1,0. Para o modelo analisado, o
índice total é -0,279, que está acima do valor médio para uma boa qualidade (-0,5). Os
resíduos que apresentam índices abaixo de -5,0 estão destacados de amarelo, na Figura 17.
Tabela 5 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 229230 e o índice total do modelo.
1 GLY ( 1) : 0.007
2 ILE ( 2) : 1.260
3 GLY ( 3) : 1.738
4 ALA ( 4) : 1.084
5 VAL ( 5) : 1.301
6 LEU ( 6) : 1.808
7 LYS ( 7) : 1.230
8 VAL ( 8) : -1.069
9 LEU ( 9) : -1.016
10 THR ( 10) : -3.951
11 THR ( 11) : -2.685
12 GLY ( 12) : -2.404
13 LEU ( 13) : 1.107
14 PRO ( 14) : -0.499
15 ALA ( 15) : 0.336
16 LEU ( 16) : 2.011
17 ILE ( 17) : 1.654
18 SER ( 18) : 1.296
19 TRP ( 19) : 0.609
20 ILE ( 20) : 1.551
21 LYS ( 21) : 2.242
22 ARG ( 22) : 0.726
23 LYS ( 23) : -0.425
24 ARG ( 24) : -2.951
25 GLN ( 25) : -5.668
26 GLN ( 26) : -5.238
Índice do modelo: -0.279
35
Figura 17 - Modelo para seqüência de gi 229230. Em amarelo, estão localizados os resíduos com baixa qualidade de contato.
Na Figura 18, está a avaliação do modelo de gi 229230, segundo o Verify 3D .Os
11 primeiros resíduos de cada extremidade são desconsiderados, por isso, se encontram no
mesmo patamar. Mesmo sendo utilizado um protocolo de minimização energia para este
modelo, o resultado apresentado, sugere valores negativos de escore, uma informação que não
possibilita classificar este como um bom modelo.
Figura 18 - Representação do perfil 3D do modelo de gi 229230. São desconsiderados os 11 resíduos das extremidades.
3.1.4.3 Seqüência-alvo: gi 126956
O gráfico de Ramachandran revelou que 100% dos resíduos deste modelo se
encontram na região mais favorável, garantindo assim, à qualidade dos ângulos torcionais da
cadeia principal. Pode-se verificar na Figura 19 e Figura 20 que, pelos resultados do
Procheck, este modelo para a seqüência-alvo de gi 126956, é considerado válido.
Na Tabela 6, observa-se a análise dos índices da qualidade de contato para o
modelo da seqüência de gi 126956. Como classificado anteriormente, um bom nível de
36
qualidade para contatos atômicos seria um valor maior que -1,0. Para o modelo analisado, o
índice total é -0.036, que está acima do valor médio para uma boa qualidade (-0,5).
O modelo gerado pode ser observado na Figura 21, onde se encontra destacado em
amarelo, um resíduo que possui um valor menor que -5,0 para o índice da qualidade de
contato.
Figura 19 - Gráfico de Ramachandran da seqüência de gi 126956, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas.
37
Figura 20 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média.
Tabela 6 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 126956 e o índice total do modelo.
1 GLY ( 1) : 0.436
2 ILE ( 2) : 0.927
3 GLY ( 3) : 2.013
4 ALA ( 4) : 1.541
5 ILE ( 5) : 1.832
6 LEU ( 6) : 1.720
7 LYS ( 7) : 2.243
8 VAL ( 8) : -0.752
9 LEU ( 9) : -0.646
10 ALA ( 10) : -3.251
11 THR ( 11) : -2.796
12 GLY ( 12) : -3.205
13 LEU ( 13) : 1.688
14 PRO ( 14) : 0.394
15 THR ( 15) : 0.396
16 LEU ( 16) : 1.049
17 ILE ( 17) : 1.779
18 SER ( 18) : 1.428
19 TRP ( 19) : 1.867
20 ILE ( 20) : 1.616
21 LYS ( 21) : 2.238
22 ASN ( 22) : -0.345
23 LYS ( 23) : -0.712
24 ARG ( 24) : -2.975
25 LYS ( 25) : -4.252
26 GLN ( 26) : -5.642
Índice do modelo: - 0.036
38
Figura 21 - Modelo para seqüência de gi 126956. Em amarelo, está localizado o resíduo com baixa qualidade de contato.
Na Figura 22 está a avaliação do modelo de gi 126956, segundo o Verify 3D. Os
11 primeiros resíduos de cada extremidade são desconsiderados, por isso, se encontram no
mesmo patamar. Mesmo sendo utilizado um protocolo de minimização energia para este
modelo, o resultado apresentado pelo Verify 3D, sugere valores negativos de “score”, uma
informação que não possibilita classificar este como um bom modelo, segundo este validador,
contrariando os resultados do Procheck e Whatif.
Figura 22 - Representação do perfil 3D do modelo de gi 126956 desconsiderados os 11 resíduos das extremidades.
3.1.4.4 Seqüência-alvo: gi 126955
O gráfico de Ramachandran revelou que 100% dos resíduos deste modelo se
encontram na região mais favorável, garantindo assim, à qualidade dos ângulos torcionais da
cadeia principal. Pode-se verificar na Figura 23 e Figura 24 que, pelos resultados do
Procheck, este modelo para a seqüência-alvo de gi 126955, é considerado válido.
39
Na Tabela 7, observa-se a análise dos índices da qualidade de contato para o
modelo da seqüência de gi 126955. Como classificado anteriormente, um bom nível de
qualidade para contatos atômicos seria um valor maior que -1,0. Para o modelo analisado, o
índice total é -0.023, que está acima do valor médio para uma boa qualidade (-0,5).
O modelo gerado pode ser observado na Figura 25, onde se encontra destacado em
amarelo, um resíduo que possui um valor menor que -5,0 para o índice da qualidade de
contato.
Figura 23 - Gráfico de Ramachandran da seqüência de gi 126955, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas.
40
Figura 24 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média.
Tabela 7 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 126955 e o índice total do modelo.
1 GLY ( 1) : 0.309
2 ILE ( 2) : 1.004
3 GLY ( 3) : 1.696
4 ALA ( 4) : 1.459
5 ILE ( 5) : 0.328
6 LEU ( 6) : 1.178
7 LYS ( 7) : 1.800
8 VAL ( 8) : -0.439
9 LEU ( 9) : -1.648
10 SER ( 10) : -4.295
11 THR ( 11) : -0.365
12 GLY ( 12) : -2.197
13 LEU ( 13) : 1.339
14 PRO ( 14) : -0.077
15 ALA ( 15) : 0.868
16 LEU ( 16) : 1.579
17 ILE ( 17) : 1.903
18 SER ( 18) : 1.087
19 TRP ( 19) : 1.476
20 ILE ( 20) : 1.125
21 LYS ( 21) : 2.659
22 ARG ( 22) : 1.229
23 LYS ( 23) : -0.293
24 ARG ( 24) : -3.025
25 GLN ( 25) : -5.611
26 GLU ( 26) : -3.604
Índice do modelo: -0.023
41
Figura 25 - Modelo para seqüência de gi 126955. Em amarelo, está localizado o resíduo com baixa qualidade de contato.
Na Figura 26 está a avaliação do modelo de gi 126955, segundo o Verify 3D. Os
11 primeiros resíduos de cada extremidade são desconsiderados, por isso, se encontram no
mesmo patamar. Mesmo sendo utilizado um protocolo de minimização energia para este
modelo, o resultado apresentado pelo Verify 3D, sugere valores negativos de “score”, uma
informação que não possibilita classificar este como um bom modelo, segundo este validador,
contrariando os resultados do Procheck e Whatif.
Figura 26 - Representação do perfil 3D do modelo de gi 126955 desconsiderados os 11 resíduos das extremidades.
3.1.4.5 Seqüência-alvo: gi 69552
O gráfico de Ramachandran revelou que 100% dos resíduos deste modelo se
encontram na região mais favorável, garantindo assim, à qualidade dos ângulos torcionais da
cadeia principal.
Pode-se verificar na Figura 27 e Figura 28 que, pelos resultados do Procheck, este
modelo para a seqüência-alvo de gi 69552, é considerado válido.
42
Figura 27 - Gráfico de Ramachandran da seqüência de gi 69552, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas.
43
Figura 28 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média.
Na Tabela 8, observa-se a análise dos índices da qualidade de contato para o
modelo da seqüência de gi 69552.
Tabela 8 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 69552 e o índice total do modelo.
1 GLY ( 1) : -0.581
2 ILE ( 2) : 1.275
3 GLY ( 3) : 2.007
4 ALA ( 4) : 1.271
5 VAL ( 5) : 1.744
6 LEU ( 6) : 1.894
7 LYS ( 7) : 2.408
8 VAL ( 8) : -0.537
9 LEU ( 9) : -1.265
10 THR ( 10) : -3.716
11 THR ( 11) : -2.754
12 GLY ( 12) : -3.208
13 LEU ( 13) : 1.288
14 PRO ( 14) : 0.779
15 ALA ( 15) : 1.392
16 LEU ( 16) : 1.054
17 ILE ( 17) : 1.275
18 SER ( 18) : 1.688
19 TRP ( 19) : 0.962
20 ILE ( 20) : 1.826
21 SER ( 21) : 0.990
22 ARG ( 22) : 0.722
23 LYS ( 23) : 0.126
24 LYS ( 24) : -1.873
25 ARG ( 25) : -5.747
26 GLN ( 26) : -5.177
27 GLN ( 27) : -7.800
Índice do modelo: -0.500
44
Como classificado anteriormente, um bom nível de qualidade para contatos
atômicos seria um valor maior que -1,0. Para o modelo analisado, o índice total é -0.500,
coincidindo com o valor médio para uma boa qualidade.
O modelo gerado pode ser observado na Figura 29, onde se encontra destacado em
amarelo, resíduos que apresentam valores menores que -5,0 para o índice da qualidade de
contato.
Figura 29 - Modelo para seqüência de gi 69552. Em amarelo, estão representados os resíduos com baixa qualidade de contato.
Na Figura 30, está a avaliação do modelo de gi 69552, onde os 11 primeiros
resíduos de cada extremidade são desconsiderados. Mesmo apresentando um resíduo com
valor negativo, este foi o melhor modelo gerado para a seqüência-alvo de gi 69552, pois esse
modelo passou pro um protocolo de minimização de energia, e segundo resultado do
Procheck e Verify 3D, é classificado como um bom modelo.
Figura 30 - Representação do perfil 3D do modelo de gi 69552 desconsiderados os 11 resíduos das extremidades.
45
Após analisar todos os modelos obtidos e otimizados, e validá-los, conclui-se que
o melhor molde utilizado foi a estrutura 2mlt cadeia B. Mas, é necessário, aplicar técnicas,
como por exemplo de dinâmica molecular, para melhorar os moldes gerados, obtendo
melhores resultados para a validação através do Verify 3D.
3.2 ESTRUTURA DO BANCO DE DADOS
3.2.1 DER
O Diagrama Entidade-Relacionamento (DER) é um modelo em rede que descreve
de forma abstrata os dados armazenados de um sistema (TEOREY et al., 2007). De acordo
com o diagrama entidade-relacionamento do Banco de Dados de Proteínas de Apis mellifera -
BDModel, que se encontra na Figura 31, pode-se observar o relacionamento entre as tabelas
criadas. Esses relacionamentos podem gerar as mais diversas consultas, utilizando suporte à
linguagem de consulta SQL. As informações são retornadas, utilizando PHP e HTML,
podendo visualizar diversos resultados
Figura 31 - Diagrama entidade-relacionamento do sistema.
3.2.2 Dicionário de dados
O Dicionário de Dados é a descrição das características e atributos dos objetos
do modelo apresentado no Diagrama Entidade-Relacionamento. Na primeira coluna da Tabela
9 pode-se encontrar as entidades contidas no BDModel.
46
O banco de dados do sistema é formado por três tabelas. São elas: Seqüência,
Estrutura_PDB, Estrutura_Modelada. Elas são descritas na segunda coluna da Tabela 9.
Tabela 9 - Descrição das tabelas apresentadas no Diagrama Entidade-Relacionamento do sistema em desenvolvimento
Entidade Descrição
Seqüência Armazena as seqüências primárias das proteínas buscadas no GenBank.
Estrutura_PDB Armazena as estruturas terciárias das proteínas encontradas no PBD.
Estrutura_Modelada Armazena as estruturas terciárias modeladas durante o desenvolvimento do
sistema.
Para que se possa apresentar uma variedade de resultados, será necessário fazer
vários tipos de consultas relacionais no banco de dados, para isso serão utilizados scripts em
PHP, como dito anteriormente. A variedade de resultados está relacionada com os atributos
contidos em cada tabela do BDModel. Como por exemplo, na tabela Seqüência, temos os
seguintes atributos:
- idsequencia: identificador da seqüência primária das proteínas no DBMoldel;
- gi: identificador da seqüência no GenBank;
- ref: cabeçalho da seqüência, quando ela está em formato fasta;
- fasta: seqüência primária da proteína no formato fasta, menos o cabeçalho;
- definicao: definição que a seqüência primária da proteína possui no GenBank;
- autor: pessoa que publicou a seqüência primária da proteína no GenBank.
- tipo: classificação da proteína segundo as toxinas selecionadas, como por exemplo,
Melitina, Fosfolipase A2, Apamina, Secapina, Hyaluronidase, Peptídeo Degranulador de
Mastócitos, Fosfatase Ácida, Veneno Protease e Tertiapina (ver Tabela 2);
- nro_amino: número de aminoácidos que formam a seqüência primária da proteína;
- organismo: classificação taxonômica do organismo;
- referencia: campo onde é armazenado, o título da primeira publicação sobre a
seqüência, juntamente com o periódico que foi publicado.
Segue na Tabela 10, as tabelas (entidades) contidas no BDModel, com seus
respectivos atributos e suas descrições.
47
Tabela 10 - Descrição dos atributos das entidades do Diagrama Entidade - Relacionamento do sistema em desenvolvimento
Entidade Atributo
Seqüência
- idsequencia: identificador da seqüência primária das proteínas no DBMoldel;
- gi: identificador da seqüência no GenBank;
- ref: cabeçalho da seqüência, quando ela está em formato fasta;
- fasta: seqüência primária da proteína no formato fasta, menos o cabeçalho;
- definicao: definição que a seqüência primária da proteína possui no GenBank;
- autor: pessoa que publicou a seqüência primária da proteína no GenBank.
- tipo: classificação da proteína segundo as toxinas selecionadas;
- nro_amino: número de aminoácidos que formam a seqüência primária da proteína;
- organismo: classificação taxonômica do organismo;
- referencia: campo onde é armazenado, o título da primeira publicação sobre a
seqüência, juntamente com o periódico que foi publicado.
Estrutura_PDB - isEstruturaPDB: identificador da estrutura 3D no BDModel;
- codigoPDB: identificador da estrutura no banco de dados PDB;
- arquivoPDB: campo texto que armazena o caminho onde se encontra o arquivo
“pdb” da estrutura 3D;
- autor: responsável pela publicação da estrutura
- titulo: título da estrutura 3D no PDB
- metodo_obtencao: método experimental pelo qual a estrutura 3D foi determinada;
- classificacao: classificação da proteína segundo o PDB;
-dt_deposito: data de depósito da estrutura 3D no PDB
Estrutura_Modelada - idEstruturaModelada: identificador da estrutura modelada no BDModel;
- arquivoPDB: campo texto que armazena o caminho para o arquivo “pdb” da
estrutura modelada;
- dt_modelagem: data que foi realizada a modelagem da estrutura;
- autor: nome do responsável por modelar a estrutura 3D;
- similaridade: valor de similaridade a partir do alinhamento das seqüências alvo e
molde;
3.3 DESENVOLVIMENTO DO SISTEMA BDMODEL O sistema, denominado BDModel, foi desenvolvido com a finalidade de
disponibilizar os resultados que foram recolhidos, analisados e desenvolvidos durante o
projeto. O sistema pode ser acessado através do endereço http://gbi.fmrp.usp.br/bdmodel.
48
3.3.1 Interfaces do Sistema
A interface com o usuário representa a principal interação ser humano-
computador, e se torna extremamente importante à medida que a dependência de tarefas
informatizadas aumenta. O projeto de interface de usuário provê os mecanismos de interação
e layout para auxiliarem a relação homem-máquina. Representa também a associação de
fatores humanos, tais como, modelo de usuário, percepção e imagem do sistema com
tecnologias de interface.
A interface gráfica do sistema foi desenvolvida, com a preocupação, de mantê-las
amigáveis e intuitivas para facilitar as interações com os usuários, e também compatíveis aos
navegadores mais utilizados atualmente, como Mozilla Firefox26 e Internet Explorer27.
Inicialmente, foram criados diversos protótipos de interface que, ao longo do
projeto, sofreram algumas modificações, para que a interação entre usuário e sistema, fosse a
mais intuitiva possível. A seguir são apresentadas as principais interfaces do BDModel.
3.3.1.1 Home: Página Inicial
A interface home é a tela inicial do sistema, e pode ser visualizada na Figura 32.
Nela há uma breve introdução do projeto que foi desenvolvido com as modelagens. Apresenta
layout definido em blocos constituindo o topo, menu horizontal, colunas e base.
No topo são apresentados o logotipo e o nome do sistema. O menu horizontal é
exibido abaixo do topo da interface, contendo links direcionados para a própria página (link
Home), para busca de informações contidas no sistema (link Seqüências), e para sugestões e
informações de contato do laboratório e responsáveis pela manutenção do sistema (link Fale
Conosco).
Há três colunas na tela inicial, sendo que a primeira contém um menu vertical e
imagens ilustrativas dinâmicas, a segunda exibe o conteúdo acessado e a terceira exibe uma
caixa para pesquisa na rede e links para as instituições vinculadas ao projeto.
No menu vertical estão listados os links Home, Pesquisa, Seqüências, Ajuda,
Contato, Fale Conosco, Links, que redirecionam para páginas de conteúdo informativo,
buscas no banco de dados e links para páginas de temática relacionada ao sistema. Os créditos
do desenvolvedor do sistema estão na base da página.
26 http:// www.mozillafirefox.com/ 27 http://www.microsoft.com/
49
Figura 32 - Tela inicial do sistema BDModel. Em A) menu vertical contendo links para busca de informações, ajuda na utilização do sistema, contato, fale conosco (através de mensagens) e links relacionados com o projeto; B) menu Horizontal contendo links para busca de informações e fale conosco; C) caixa para pesquisa na rede (internet); D) links para as entidades relacionadas com o projeto.
3.3.1.2 Pesquisa : Uma página de busca
As informações armazenadas no banco de dados do sistema podem ser resgatadas
de duas maneiras. Através de uma pesquisa por atributos (Figura 33) ou por exibição de todas
as informações, de todas as seqüências primárias depositadas (Figura 36). Através do link
Pesquisa, que está fixado no menu vertical, abre-se uma tela, onde se inicia a pesquisa. A
qualquer momento, uma nova pesquisa pode ser iniciada. Nessa tela de Pesquisa (Figura 33),
o usuário deve informar o tipo de informação que busca, optando por buscas de seqüências
primárias e estruturas 3D.
50
Figura 33 – Tela inicial de pesquisa. O usuário deve optar por seqüência primária ou estrutura 3D.
Se a opção escolhida for seqüência primária, uma tela com os atributos referentes a
seqüências primárias são mostrados. Esses campos de pesquisa, inicialmente, estão
desabilitados. O usuário pode escolher pesquisar apenas por um atributo, ou fazer uma busca
utilizando vários atributos. Como mostra a Figura 34, é possível buscar uma seqüência
primária habilitando apenas 2 campos, tipo da proteína e número de aminoácidos. Essa busca
irá varrer o banco de dados do sistema, e exibir todas as seqüências primárias de melitinas que
possuem em sua cadeia 27 aminoácidos.
De forma análoga, o mesmo acontece para busca por estruturas 3D. Na Figura 35,
ocorre uma busca específica por estrutura 3D. Através do código PDB da estrutura é possível
realizar a pesquisa no sistema.
51
Figura 34 – Pesquisa de seqüências primárias. Os campos são os atributos referentes a uma seqüência primária. Esses campos inicialmente estão desabilitados, e quando habilitados podem realizar buscas específicas.
Figura 35 - Pesquisa de estruturas 3D. Os campos são os atributos referentes a uma estrutura 3D. Esses campos inicialmente estão desabilitados, e quando habilitados podem realizar buscas específicas.
52
Quando o usuário deseja verificar todas as informações, de todas as seqüências
depositadas, ele pode realizar uma busca geral através da tela Seqüência. Quando essa busca
é realizada, todas as informações, referentes ao tipo da proteína escolhida, são retornados
numa tela. Na Figura 36, está representada a tela Seqüência, apresentando todos os diferentes
tipos de proteínas armazenados no sistema.
Figura 36 – Tela Seqüência. Quando o usuário deseja exibir todas as informações referentes a seqüências primárias, ele apenas deve escolher o tipo da proteína que está buscando.
No caso, se for escolhida o tipo Melitina, uma tela contendo todas as informações
de todas as seqüências primárias de melitina são retornadas. Representado pela Figura 37,
encontra-se uma parte da exibição do tipo melitina.
Quando uma proteína possui estrutura terciária (experimentalmente resolvida ou
modelada durante o projeto) estará indicado no resultado, um link para as informações da
estrutura 3D dessa proteína. Na Figura 37, pode-se observar que a primeira seqüência
retornada possui estrutura 3D. Quando usuário acessar este link, outra tela de exibição se
abrirá para apresentar os dados referentes àquela estrutura, como representado na Figura 38.
53
Figura 37 – Exibição das informações de seqüências de melitinas. Quando uma proteína possuir estrutura 3D, haverá um link, que quando acessado disponibilizará as informações sobre a estrutura.
A primeira seqüência demonstrada na Figura 37 possui estrutura conhecida. É
possível, se o usuário desejar, visualizar essas informações.
Na Figura 38, observa-se as informações referentes à estrutura 1bh1. Além dessas
informações e da representação gráfica da estrutura, o sistema permite, que seja realizado o
download da estrutura no formato PDB. Também é possível, ao usuário, interagir com a
estrutura através do plugin do JMol28 implementado no sistema, que permite essa interação. O
JMol, permite a visualização gráfica da proteína, e diversas interações estão disponíveis ao
usuário. Essas opções estão representadas na Figura 39.
28 http://jmol.sourceforge.net/
54
Figura 38 – Informações sobre estrutura 3D. Além dessas informações o usuário pode realizar o download da estrutura, em formato fasta, e também interagir com a estrutura através de um plugin do JMol.
Figura 39 – Representação da estrutura de código PDB 1bh1, utilizando um plugin do JMol. O usuário pode interagir com a estrutura de diversas maneiras, dependendo da informação que busca.
55
O sistema possui também, um link de Ajuda, onde são encontradas as perguntas
mais freqüentemente respondidas (FAQ’s), um pequeno manual do sistema, e algumas
informações sobre a realização das modelagens.
Uma tela de Contato onde constam os e-mails dos responsáveis pelo sistema e
também uma tela onde o usuário pode interagir através de mensagens, na tela Fale Conosco.
E por fim, nos Links, encontram-se os principais endereços na rede, de
laboratórios, softwares e afins, relacionados com o projeto.
56
4 CONCLUSÕES
Mesmo com o grande número de depósitos, de novas resoluções de estruturas
protéicas, que estão ocorrendo atualmente, o número total de estruturas conhecidas é bem
inferior ao número de seqüenciamentos que foram realizados e armazenados em bancos de
dados. Para tentar equilibrar esses números, a modelagem molecular computacional vem
sendo utilizada, e por apresentar os melhores resultados, a modelagem comparativa, também
conhecida por modelagem por homologia, vem sendo aplicada cada vez mais, na predição de
estruturas protéicas de possíveis fármacos.
Embora este método teórico seja limitado devido à dependência por estruturas
resolvidas, a modelagem por homologia foi aplicada neste trabalho e apresentou dados
satisfatórios e a validação dos modelos apresentou bons resultados. Os modelos obtidos no
projeto e apresentados aqui podem ser aplicados em estudos de mecanismos catalíticos e
também no desenho racional de fármacos baseados em estruturas.
Bancos de dados biológicos são de extrema importância para o armazenamento e
gerenciamento das mais diversas informações provindas das pesquisas atuais. Seja com
genomas, proteomas, resolução de estruturas, eles são o ponto central para que as informações
sejam propagadas. Todas as informações coletadas durante o projeto, juntamente com os
melhores modelos gerados estão armazenados no sistema BDModel. Este sistema, que
também é apresentado aqui, foi um dos objetivos do projeto.
O sistema BDModel centraliza informações de estruturas protéicas que compõem
o veneno das Apis mellifera, armazenando seqüências primárias, estruturas 3D e modelos 3D
gerados durante o projeto. Encontram-se armazenados no banco de dados do sistema, 95
seqüências primárias contendo suas informações principais, relacionadas com 9 estruturas 3D
com suas principais informações. Também faz parte do banco de dados os 5 melhores
modelos gerados para as seqüências-alvo, com algumas informações, como por exemplo, os
arquivos de validação.
Disponível na Internet através do endereço eletrônico
(http://gbi.fmrp.usp.br/bdmodel), qualquer usuário que desejar pode interagir com o sistema
sem restrições.
Novas estruturas 3D, e até mesmo, novas seqüências primárias poderão ser
inseridas pelo administrador do sistema, para atualização e enriquecimento do banco de dados
estruturado.
57
Como prosseguimento deste trabalho, melhorias, como a possibilidade de incluir
módulos automatizados para geração de modelos 3D, ou então, viabilizar o sistema para
interação com os usuários através de depósitos de modelos gerados por eles, podem ser
realizadas, e mecanismos de administração podem ser aperfeiçoados. Outras técnicas de
otimização dos modelos gerados, também podem ser empregadas, buscando modelos
melhores.
A participação de pesquisadores das áreas biológicas proporcionou confiabilidade
nos dados armazenados, tornando o sistema BDModel mais familiar e claro àqueles usuários
que realmente irão interagir com o sistema.
Assim, as modelagens realizadas e o sistema BDModel, cumpre os requisitos e os
objetivos previamente propostos do projeto, os modelos obtidos foram validados e o sistema
mostra-se eficiente em suas principais funcionalidades, como busca e exibição das
informações de estruturas e seqüências de proteínas contidas no veneno de abelhas.
58
REFERÊNCIAS BIBLIOGRÁFICAS
ALTSCHUL, S. F.; GISH, W.; MILLER, W.; MEYERS, E. W.; LIPMAN, D.J. Basic
local alignment search tool. Journal of Molecular Biology. v. 215, p. 403-410, 1990.
ANDERSON, A.C. The Process of Structure-Based Drug Design. Chemistry &
Biology. 10, 787-797, 2003.
BENNER, S. A.; CANNAROZZI, G.; GERLOFF, D.; TURCOTTE, M.;
CHEVANAYAGAM, G. Chemical Reviews. p. 2725-2844, 1997.
BERMAN, H. M.; WESTBROOK, J.; FENG, G.; GILLILAND, G.; BHAT, T.N.;
WEISSIG, H.; SHINDYALOV, I. N.; BOURNE, P. E. The Protein Data Bank. Nucleic Acids
Res. V. 28, p. 235-242, 2000.
BROADMAN, J. Bee Venom - The Natural Curative for Arthritis and Rheumatism.
New York: Putnam and Sons. p.224, 1962.
CHANG,Y.H. & BLIVEN,M.L. Anti-arthritic effect of bee venom, Agents Actions,
9: 205-11. 1979.
COSTA NETO, E. M.; PACHECO, J. M. Utilização medicinal de insetos no povoado
de Pedra Branca, Santa Terezinha, Bahia, Brasil. Biotemas. v.18, p. 113 - 133, 2005.
D’ALFONSO, G.; TRAMONTANO, A.; LAHM, A. Structural conservation in single-
domain proteins: implications for homology modeling. Journal of Structural Biology. v.
134, p. 246-256, 2001.
D´AVILA, M.; MARCHINI L. C., Polinização realizada por abelhas em culturas de
importância econômica no Brasil. Boletim da Indústria animal. Nova Odessa, v.62, n.1,
p.79-90, 2005.
DEANE, C. M.; BLUNDELL, T. L. Protein comparative modelling and drug
discovery. In WERMUTH, C. G. The Practice of Medicinal Chemistry. London, Elsevier
Academic Press, 2003.
59
FRANÇA, F.O.S.; MEDEIROS, C. R. Acidentes por Abelhas e Vespas. In: Cardoso J.
L. C., França F. O. S., Málaque C. M. S., Jr. Haddad V., Wen F. H..Animais Peçonhentos no
Brasil. 1ª Edição. Sarvier, c. 26, p. 244-245, 2003.
FISER, A.; SALI, A. MODELLER: generation and refinement of homology-based
protein structure models. In Methods in Enzymology, C.W. Carter and R.M. Sweet, eds.
Academic Press, San Diego, 374, p. 463-493, 2003.
GIBAS, C.; JAMBECK, P. Desenvolvendo Bioinformática: ferramentas de
software para aplicações em biologia. Tradução Milarepa Ltda.- Rio de Janeiro: Campus,
2001.
GONÇALVES, L.S. Expansão da apicultura brasileira e suas perspectivas em
relação ao mercado apícola internacional. Anais do XV Congresso Brasileiro de Apicultura
- Natal-RN, 2004.
GUEX, N.; PEITSCH, M.C. Swiss-model and swiss-pdb viewer: Na environment for
comparative protein modeling. Electrophoresis, 18, p.2714, 1997.
HABERMANN, E. Bee and wasp venoms. Science. 1, p.314, 1972.
HIGGINS, D.; THOMPSON, J.; GIBSON, T.; THOMPSON, J.D.; HIGGINS, D.G.;
GIBSON, T.J. CLUSTAL W: improving the sensitivity of progressivemultiple sequence
alignment through sequence weighting,position-specific gap penalties and weight matrix
choice. Nucleic Acids Research. 22 p. 4673-4680, 1994.
HILLISCH, A.; PINEDA, L. F.; HILGENFELD, R. Utility of homology models in the
drug discovery process. Drug Discovery Today. v. 09, p. 659-669, 2004.
HÖLTJE, H. D.; SIPPL, W.; ROGNAN, D.; FOLKERS, G. Introduction to
comparative protein modeling. In Molecular Modeling: Basic Principles and Applications.
Weinheim: Wiley-VCH, 2003.
HOOFT, R. W. W.; VRIEND, G.; SANDER, C.; ABOLA, E. E.; Nature. 381, p. 272,
1996
60
LASKOWSKI, R. A.; MACARTHUR, M. W.; MOSS D. S.; THORNTON, J. M..
PROCHECK: a program to check the stereochemical quality of protein structures. Journal of
Applied Crystallography. 26, p.283-291, 1993.
LUTHY, R., BOWIE, J.U.; EISENBERG, D. Assessment of protein models with
three-dimentional profiles. Nature. 356: 83-85, 1992.
MAIA, A. B. O potencial terapêutico da apitoxina. Mensagem Doce. 66: 15-22. 2002.
MARTÝ-RENOM, M.A.; STUART, A.C.; FISER, A.; SÁNCHEZ, R.; MELO, F.;
ŠALI, A. Comparative protein structure modeling of genes and genomes. Annu. Rev.
Biophys. Biomol. Struct., 29, 291–325, 2000.
MUNIZ, J. R. C. Aplicação da bioinformática nos estudos dos genes e enzimas
envolvidos na síntese da gomafastidiana produzida pela Xylela fastidiosa. 124p.
Dissertação (Mestrado) - Instituto de Física de São Carlos, Universidade de São Paulo, São
Carlos, 2003.
NEEDLEMAN, S.B. & WUNSCH, C.D. A General Method Applicable to the Search
for Similarites in the Amino Acid Sequence of Two Proteins. Journal of Molecular Biology.
48:443-453., 1970.
OWEN, M. D.; PFAFF, L. A. Melittin synthesis in the venom system of the honey bee
(Apis mellifera L.). Toxicon. 33, 1181-8, 1995.
PIEMOLINI, L. T., 2004, Modelagem Estrutural da PHA Sintase de
Chromobacterium violaceum para Estudos de Mutação Sítio-Dirigida, Departamento de
Engenharia Química e Engenharia de Alimentos, Universidade Federal de Santa Catarina,
Florianópolis, Brasil.
PONTIUS, J.; RICHELLE, J.; WODAK, S. J. Journal of Molecular Biology. v. 264,
p 121, 1996.
PRESSMAN, R. S. Software Engineering: A Practitioner's Approach. Thirth
Edition, McGraw-Hill, 1991.
61
RAMACHANDRAN, G. N.; SASISEKHARAN, V.; Advances in Protein
Chemistry. v. 23, p. 283, 1968.
RÖSSLE, S. C. S., Desenvolvimento de um Sistema Computacional para a
Modelagem Comparativa em Genômica Estrutural: Análise de Seqüências do Genoma da
Gluconacetobacter diazotrophicus. D.Sc., Instituto de Biofísica Carlos Chagas Filho,
Universidade Federal do Rio de Janeiro, Rio de Janeiro, Brasil, 2004.
SALI, A. 100,000 protein structures for the biologist. Nature Structural &
Molecular Biology. v. 05, p. 1029-1032, 1998.
SALI, A.; BLUNDELL, T. L. Comparative protein modeling by satisfaction of spatial
restraints. Journal of Molecular Biology. v. 234, p. 779-815, 1993.
SÁNCHEZ, R.; SALI, A. Evaluation of comparative protein structure modeling by
modeler-3. PROTEINS: Structure, Function and Genetics, 29: 50-58, 1997.
SAUDER, J. M.; ARTHUR, J. W.; DUNBRACK, R. L. Proteins. 40, 6, 2000.
SCHAFFERHANS, A.; KLEBE, G. Docking ligands onto binding site representations
derived from proteins. Journal of Molecular Biology. v. 307, p. 407-427, 2001.
SCHIRMER, L.R. Abelhas ecológicas. São Paulo. Nobel, p. 218, 1986.
SCHWEDE, T.; KOPP, J.; GUEX, N.; PEITSCH, M. C. SWISS-MODEL: an
automated protein homology-modeling server. Nucleic Acids Research. v. 31, p. 3381-3385,
2003.
SILVA FILHO, A. Arquitetura de Software, Editora Campus, 2002.
SILVA, V. B.; Estudos de modelagem molecular e relação estrutura atividade da
oncoproteína hnRNP K e ligantes. Faculdade de Ciências Farmacêuticas de Ribeirão Preto,
Universidade de São Paulo, Brasil, 2007.
SILVA, V. B.; SILVA, C. H. T. P. Modelagem molecular de proteínas-alvo por
homologia estrutural. Revista Eletrônica de Farmácia, v. 04, p. 15-26, 2007.
62
TEOREY, T.; LIGHTSTONE, S.; NADEAU, T. Projeto e modelagem de bancos de
dados. Rio de Janeiro. Elsevier, 2007.
VITKUP, D.; MELAMUD, E.; MOULT, J.; SANDER, C. Completeness in structural
genomics. Nature Structural & Molecular Biology. v. 08, p. 559-566, 2001.
VRIEND, G. WHAT IF: A molecular modeling and drug design program. Journal
Molecular Graphics. p. 52-56, 1990.
VRIEND, G.; SANDER, C. Quality control of protein models: directional atomic
contact analysis. Journal of Applied Crystallography, v. 26, p. 47-60, 1993.
WESSELIUS, T.; HEERSEMA, D. J.; MOSTERT, J. P.; HEERINGS, M.;
ADMIRAAL-BEHLOUL, F.; TALEBIAN, A.; VAN BUCHEM, M. A.; DE KEYSER, J. A
randomized crossover study of bee sting therapy for multiple sclerosis
Neurology, 65: 1764 – 1768, 2005.