Modelagem por homologia de estruturas proteicas do veneno de Apis mellifera

Universidade de São Paulo

Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto

Faculdade de Medicina de Ribeirão Preto

Informática Biomédica

Modelagem por Homologia de Estruturas Protéicas do

Veneno de Apis mellifera

Mariana Laureano de Souza

Ribeirão Preto

2008

Universidade de São Paulo

Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto

Faculdade de Medicina de Ribeirão Preto

Departamento de Genética

Informática Biomédica

Modelagem por Homologia de Estruturas Protéicas do Veneno de

Apis mellifera

Mariana Laureano de Souza

Orientadora: Profa. Dra. Silvana Giuliatti

Co-Orientador: Msc. Daniel Macedo de Melo Jorge

Monografia apresentada à Faculdade de Filosofia,

Ciências e Letras de Ribeirão Preto e à Faculdade de

Medicina de Ribeirão Preto, para obtenção do título de

Bacharel em Informática Biomédica.

Ribeirão Preto

2008

AGRADECIMENTOS

Agradeço as pessoas que mais amo nesse mundo: meus pais, grandes responsáveis por eu estar aqui hoje, e meus irmãos. Obrigada por terem tido paciência nas minhas horas instáveis, me dado carinho nas horas que precisava e “puxões” de orelha nas horas necessárias. Agradeço minha avó e madrinha, que sempre estará presente, por tudo que ela me ensinou. À minha família por todo o apoio e incentivo. Ao Vitor, por sempre estar ao meu lado. Agradeço aos amigos com quem pude contar nas horas boas e ruins. Ao pessoal do GBi, pelos momentos que convivemos juntos, pelas risadas e ensinamentos. À minha orientadora Profa. Silvana e meu co-orientador Daniel. Obrigada pela orientação e amizade. Enfim, agradeço a Deus por ter colocado no meu caminho essas pessoas tão especiais, com quem aprendi e ainda aprendo muito sobre a vida. Obrigada por tudo.

RESUMO

As abelhas existem no planeta há mais de 50 milhões de anos. Apesar de terem evoluído

dentro das famílias de insetos, como as formigas, cupins e as vespas, aparentemente não

modificaram suas atividades e funções em prol da manutenção e preservação do planeta. Seu

ferrão conduz o veneno que é a sua única arma de defesa contra seus inimigos e que, em

grandes quantidades, é fatal ao homem. O veneno da abelha é composto por várias

substâncias químicas como peptídeos, enzimas, aminas biogênicas e outras moléculas, que

apresentam atividades farmacológicas e alérgicas. A Apis mellifera, popularmente conhecida

como abelha africanizada ou abelha do mel, é a mais agressiva, enxameia várias vezes ao ano

e utiliza uma grande variedade de locais para nidificar. Esse comportamento aumenta o

contato direto entre o inseto e a população, aumentando o número de acidentes. Reações

alérgicas às picadas de abelhas são comuns e, mesmo que raramente, podem levar à morte. A

possibilidade de usar essas substâncias, compostas de proteínas, contidas no veneno das

abelhas é de grande importância para a saúde pública e indústrias de fármacos. As proteínas

são compostos orgânicos, formados pela ligação de aminoácidos, que possuem funções

específicas dentro do organismo, estando ligadas a determinadas atividades, como é o caso

das enzimas, hormônios e anticorpos. Uma seqüência de aminoácidos ao se enovelar resulta

em estruturas tridimensionais. A estrutura terciária está intimamente relacionada à função das

moléculas e, portanto, sua determinação é parte fundamental no estudo das proteínas. Essas

estruturas podem ser obtidas por métodos experimentais como cristalografia de raios-X e

espectroscopia de ressonância magnética nuclear (RMN), mas esses métodos despendem

muito tempo e recursos financeiros, além de que muitas estruturas são difíceis ou até mesmo

impossíveis de serem determinadas por esses métodos. Surge assim a proposta da modelagem

molecular comparativa ou por homologia. O presente projeto propõe estudar as estruturas

terciárias das proteínas de veneno de Apis mellifera através de modelagem por homologia e o

desenvolvimento de uma base de dados e interface web para a integração entre dos dados

obtidos e disponibilização dos resultados ao usuário.

Palavras-chave: Apis mellifera. Veneno. Modelagem de Proteínas.

LISTA DE FIGURAS

Figura 1 - Modelagem Molecular por Satisfação de Restrições Espaciais. (1) Alinhamento entre as seqüência-alvo e a molde (que possui estrutura); (2) Extração de restrições espaciais; (3) Satisfação das restrições espaciais. ............................................................16

Figura 2 - Estrutura protéica e seus três ângulos principais, omega (ω), phi (φ) e psi (ψ). Como o ângulo ω é fixo os ângulos φ e ψ são os responsáveis por toda a variação conformacional da cadeia principal, pois tornam a cadeia polipeptídica flexível............17

Figura 3 - Gráfico de Ramachandran gerado pelo Procheck. As regiões representadas em vermelho, são as mais favoráveis, as representadas em amarelo, são as favoráveis, as representadas em bege, são as menos favoráveis e as regiões brancas, são as desfavoráveis. ...................................................................................................................18

Figura 4 - Esquema geral do método teórico da modelagem por homologia, baseado em MARTÝ-RENOM et al., 2000. ........................................................................................20

Figura 5 - Arquitetura do sistema. O usuário faz uma requisição ao servidor, o servidor web recebe essa requisição e interagindo com scripts php gera resultados que retornarão ao usuário através de um navegador web..............................................................................22

Figura 6 - Alinhamento global entre seqüência-alvo (gi 229389) e seqüências-molde. ..........26



Figura 9 - Alinhamento global entre seqüência-alvo (gi 69552) e seqüências-molde. ............27

Figura 10 - Alinhamento global entre seqüência-alvo (gi 126955) e seqüências-molde. ........27

Figura 11 - Gráfico de Ramachandran da seqüência de gi 229389, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas. .........29

Figura 12 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média. .......................................................................30

Figura 13 - Modelo para seqüência de gi 229389. Em amarelo, está a localização do resíduo com baixa qualidade de contato........................................................................................31

Figura 14 - Representação do perfil 3D do modelo de gi 229389. São desconsiderados os 11 resíduos das extremidades. ...............................................................................................32


Figura 16 – Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média. .......................................................................34

Figura 17 - Modelo para seqüência de gi 229230. Em amarelo, estão localizados os resíduos com baixa qualidade de contato........................................................................................35

Figura 18 - Representação do perfil 3D do modelo de gi 229230. São desconsiderados os 11 resíduos das extremidades. ...............................................................................................35



Figura 21 - Modelo para seqüência de gi 126956. Em amarelo, está localizado o resíduo com baixa qualidade de contato. ..............................................................................................38

Figura 22 - Representação do perfil 3D do modelo de gi 126956 desconsiderados os 11 resíduos das extremidades. ...............................................................................................38



Figura 25 - Modelo para seqüência de gi 126955. Em amarelo, está localizado o resíduo com baixa qualidade de contato. ..............................................................................................41




Figura 29 - Modelo para seqüência de gi 69552. Em amarelo, estão representados os resíduos com baixa qualidade de contato........................................................................................44


Figura 31 - Diagrama entidade-relacionamento do sistema. ....................................................45

Figura 32 - Tela inicial do sistema BDModel. Em A) menu vertical contendo links para busca de informações, ajuda na utilização do sistema, contato, fale conosco (através de mensagens) e links relacionados com o projeto; B) menu Horizontal contendo links para busca de informações e fale conosco; C) caixa para pesquisa na rede (internet); D) links para as entidades relacionadas com o projeto...................................................................49

Figura 33 – Tela inicial de pesquisa. O usuário deve optar por seqüência primária ou estrutura 3D. ....................................................................................................................................50

Figura 34 – Pesquisa de seqüências primárias. Os campos são os atributos referentes a uma seqüência primária. Esses campos inicialmente estão desabilitados, e quando habilitados podem realizar buscas específicas. ...................................................................................51

Figura 35 - Pesquisa de estruturas 3D. Os campos são os atributos referentes a uma estrutura 3D. Esses campos inicialmente estão desabilitados, e quando habilitados podem realizar buscas específicas. ............................................................................................................51

Figura 36 – Tela Seqüência. Quando o usuário deseja exibir todas as informações referentes a seqüências primárias, ele apenas deve escolher o tipo da proteína que está buscando. ...52

Figura 37 – Exibição das informações de seqüências de melitinas. Quando uma proteína possuir estrutura 3D, haverá um link, que quando acessado disponibilizará as informações sobre a estrutura. ..........................................................................................53

Figura 38 – Informações sobre estrutura 3D. Além dessas informações o usuário pode realizar o download da estrutura, em formato fasta, e também interagir com a estrutura através de um plugin do JMol............................................................................................................54

Figura 39 – Representação da estrutura de código PDB 1bh1, utilizando um plugin do JMol. O usuário pode interagir com a estrutura de diversas maneiras, dependendo da informação que busca. ......................................................................................................54

LISTA DE TABELAS

Tabela 1 - Algumas ferramentas de bioinformática e servidores da Internet com seus respectivos endereços web úteis na modelagem por homologia (acessados em maio 2008). *S: Servidor; P: Programa (software). ....................................................................8

Tabela 2 - Levantamento de seqüências no GenBank e de estruturas depositadas no PDB. ...11

Tabela 3 - Relação entre Proteínas-alvo e Proteínas-molde. ....................................................25

Tabela 4 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 229389 e o índice total do modelo.................................................31




Tabela 8 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 69552 e o índice total do modelo...................................................43

Tabela 9 - Descrição das tabelas apresentadas no Diagrama Entidade-Relacionamento do sistema em desenvolvimento ............................................................................................46

Tabela 10 - Descrição dos atributos das entidades do Diagrama Entidade - Relacionamento do sistema em desenvolvimento ............................................................................................47

LISTA DE ABREVIATURAS E SIGLAS

3D Tridimensional

BDModel Banco de Dados de Modelos de Proteínas de veneno de Apis mellifera

BLAST Basic Local Alignment Search Tool

NCBI National Center for Biotechnology Information

PDB Banco de dados de proteínas

RMN Ressonância Magnética Nuclear

Rx Raios x

SGBD Sistema Gerenciador de Banco de Dados

SNC Sistema Nervoso Central

SNP Sistema Nervoso Periférico

SUMÁRIO

1 INTRODUÇÃO..................................................................................................................1 1.1 O GÊNERO APIS E AS ABELHAS AFRICANIZADAS ........................................1 1.2 COMPOSIÇÃO DO VENENO E MECANISMOS FISIOPATOLÓGICOS............2 1.3 APITOXINA E SUAS APLICAÇÕES ......................................................................3 1.4 PROTEÍNAS HOMOLÓGAS....................................................................................3 1.5 MODELAGEM DE PROTEÍNAS.............................................................................3

2.2.1 Modelagem por Homologia................................................................................4 1.6 JUSTIFICATIVA.......................................................................................................5 1.7 OBJETIVO .................................................................................................................5 1.8 ORGANIZAÇÃO DA MONOGRAFIA....................................................................6

2 MATERIAIS E MÉTODOS...............................................................................................7 2.1 FERRAMENTAS DE BIOINFORMÁTICA.............................................................7

2.1.1 Banco de Dados Públicos para Bioinformática ..................................................8 2.1.2 Fonte de Proteínas Moldes ...............................................................................11 2.1.3 Alinhamento das Seqüências ............................................................................12 2.1.4 Construção dos Modelos ..................................................................................14 2.1.5 Validação dos Modelos ....................................................................................16 2.1.6 Visualização dos Modelos ................................................................................19

2.2 MODELAGEM DAS PROTEÍNAS POR HOMOLOGIA......................................19 2.3 ARQUITETURA DO SISTEMA.............................................................................21 2.4 IMPLEMENTAÇÃO ...............................................................................................22

2.4.1 Plataforma.........................................................................................................22 2.4.2 Linguagem de Programação .............................................................................23 2.4.3 Confecção do Banco de Dados.........................................................................24

3 RESULTADOS E DISCUSSÕES....................................................................................25 3.1 MODELAGEM DAS PROTEÍNAS ........................................................................25

3.1.1 Busca de seqüências homólogas.......................................................................25 3.1.2 Alinhamento entre seqüências-alvo e molde ....................................................26 3.1.3 Construção dos modelos...................................................................................27 3.1.4 Validação dos modelos.....................................................................................28

3.2 ESTRUTURA DO BANCO DE DADOS................................................................45 3.2.1 DER ..................................................................................................................45 3.2.2 Dicionário de dados ..........................................................................................45

3.3 DESENVOLVIMENTO DO SISTEMA BDMODEL.............................................47 3.3.1 Interfaces do Sistema........................................................................................48

4 CONCLUSÕES................................................................................................................56 REFERÊNCIAS BIBLIOGRÁFICAS .....................................................................................58

1 INTRODUÇÃO

1.1 O GÊNERO APIS E AS ABELHAS AFRICANIZADAS

As abelhas são descendentes das vespas e, à cerca de 135 milhões de anos,

algumas espécies deixaram de se alimentar de pequenos insetos e passaram a coletar néctar e

pólen das flores para a produção do mel. Há relatos que constatam a relação entre os homens

e as abelhas pela prática da apicultura desde a pré-história (SCHIRMER, 1986).

Entre as espécies produtoras de mel, as do gênero Apis são as mais conhecidas. O

gênero Apis apresenta nove espécies1: Apis mellifera, Apis florea, Apis dorsata, Apis cerana,

Apis korchevniskov, Apis andreniformis, Apis laboriosa, Apis nuluensis e Apis nigrocincta..

Dentre elas, a Apis mellifera sempre despertou interesse devido a sua grande importância

econômica (D´AVILA et al., 2005) e, sobretudo, pelas novas possibilidades de usos de seus

produtos na área médica (MAIA, 2002; COSTA NETO & PACHECO, 2005).

Por volta de 1950, a subespécie africana Apis mellifera scutellata foi trazida para o

Brasil pelo Prof. Dr. Warwick Estevam Kerr, um renomado cientista que, posteriormente,

veio a fundar o Departamento de Genética da Faculdade de Medicina de Ribeirão Preto2, no

intuito de aumentar a produção nacional de mel, pois essas abelhas apresentavam uma alta

produtividade e uma alta capacidade de adaptação. Mas, também apresentavam aspectos

negativos, como a grande capacidade de enxamear e o comportamento agressivo.

Por esses motivos, as colméias do apiário experimental contendo as abelhas

africanas, localizado no município de Rio Claro – SP, eram protegidas por uma tela, para

evitar a “fuga” das rainhas e, conseqüente, dispersão da colméia. Por um acidente, essas telas

foram removidas e as abelhas se dispersaram por todo Brasil, onde, ao cruzarem com abelhas

nativas e européias que aqui se encontravam, deram origem as, popularmente, conhecidas

abelhas africanizadas (GONÇALVES, 1974).

A Apis mellifera, popularmente conhecida como abelha africanizada ou abelha de

mel, manteve as características das africanas como a agressividade, a ocorrência de enxames

várias vezes ao ano e a utilização de uma grande variedade de locais para nidificar. Esse

comportamento aumenta o contato direto entre o inseto e a população, aumentando o número

de acidentes.

1 http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=7459 2 http://rge.fmrp.usp.br/historico.php

2

1.2 COMPOSIÇÃO DO VENENO E MECANISMOS

FISIOPATOLÓGICOS

Os acidentes causados por picadas de abelhas apresentam manifestações clínicas

distintas, dependendo da sensibilidade do indivíduo ao veneno e do número de picadas. O

acidente mais freqüente é aquele no qual um indivíduo não sensibilizado ao veneno é

acometido por poucas picadas. A composição dos venenos e a conseqüente ação após a picada

das abelhas melíferas vêm sendo estudado desde a década de 50 (HABERMANN, 1972).

O veneno da abelha é composto por uma mistura complexa de substâncias

químicas como peptídeos, enzimas e aminas biogênicas, que apresentam atividades

farmacológicas e alérgicas. Os fatores alergênicos são enzimas como fosfolipases,

hialuronidases, lipases e fosfotases, proteínas antigênicas que, uma vez inoculadas durante a

ferroada, iniciam respostas imunes responsáveis pela hipersensibilidade de alguns indivíduos

e pelo início da reação alérgica. São agentes bloqueadores neuromusculares e possuem

poderosa ação hemolítica, além de propriedades antiarrítmicas.

A Fosfolipase A2, uma das mais ativas fosfolipases conhecidas, provoca ruptura

dos fosfolipídios da membrana celular com contração do músculo liso, hipertensão e aumento

da permeabilidade vascular.

A Hialuronidase, mesmo não sendo muito tóxica, potencia a difusão e os efeitos

nocivos dos outros componentes do veneno das abelhas, sendo conhecida como “fator

propagador” (FRANÇA & MEDEIROS, 2003).

A Melitina é o componente predominante no veneno apresentando,

aproximadamente, 50 % da matéria seca. (OWEN & PFAFF, 1995). É a toxina mais ativa no

veneno das abelhas causando hemólise. Em ação com a Fosfolipase A2, compromete a

integridade da membrana celular e da membrana mitocondrial, comprometendo, assim a

fosforilação oxidativa e a cadeia respiratória, ocasionando dano tecidual.

A Apamina está presente em apenas 2% da matéria seca, tendo a menor

neurotoxina conhecida. Age nos sistemas nervoso central (SNC) e periférico (SNP),

bloqueando a transmissão de impulsos inibitórios.

O Peptídeo Degranulador de Mastócitos é responsável pela intoxicação

histamínica observada nas fases iniciais do acidente e liberação de mediadores químicos.

As pequenas moléculas de peptídeos como a Secapina e a Tertiapina parecem não

apresentar toxidade em mamíferos. Um provável papel desses peptídeos é repelir outros

animais, como artrópodes e insetos.

3

1.3 APITOXINA E SUAS APLICAÇÕES

Reações alérgicas às picadas de abelhas são comuns e, mesmo que raramente,

podem levar à morte. Entretanto, pequenas doses do veneno da abelha podem ser utilizadas

como terapia. Ao longo da segunda metade do século XX, estudos científicos comprovaram

as propriedades terapêuticas da apitoxina, entre eles no tratamento da artrite (CHANG &

BLIVEN,1979).

Suas propriedades anti-artríticas são historicamente reconhecidas. Sabe-se que

Hipócrates (460 a.C.) empregava ferroadas de abelha em seus procedimentos terapêuticos.

Carlos Magno, no século VIII, foi tratado com ferroadas de abelha para combater inflamações

nas juntas (BROADMAN,1962).

No Brasil, o uso da apitoxina como terapia ainda é bem limitado, pois há poucos

estudos que resultem na purificação do veneno, de modo que a parte alergênica, não atue no

organismo.

1.4 PROTEÍNAS HOMOLÓGAS

O mecanismo evolutivo da duplicação de genes, associado às mutações leva a

divergências moleculares e, conseqüentemente, à formação de famílias de proteínas

estruturalmente relacionadas, que derivam de um ancestral comum sendo chamadas de

homólogas, que apresentam algumas diferenças nas suas seqüências de aminoácidos, mas

possuem alto grau de similaridade estrutural (HOLTJE et al., 2003). Assim, quando se

conhece a estrutura de pelo menos um representante de uma família, é geralmente possível

modelar, por homologia, os demais membros.

A conservação da estrutura tridimensional é crucial para a manutenção e

desempenho de funções específicas da proteína. Assim, por exemplo, se ocorrer uma

mudança randômica de 70% dos aminoácidos que constituem uma proteína, isso acarretaria

em uma grande mudança conformacional e possível perda da função (BENNER et al., 1997).

1.5 MODELAGEM DE PROTEÍNAS

Projetos de genomas estão seqüenciando uma grande quantidade de seqüências de

aminoácidos, mas para que se possa entender o papel biológico desempenhado por essas

proteínas é necessário que se conheça sua estrutura, pois sabe-se que ela está intimamente

relacionada com sua função. Embora bases de dados de estruturas de proteínas como o

4

Protein Data Bank3 (PBD) estejam crescendo exponencialmente nos últimos anos, ainda não

há dados estruturais para a maioria das proteínas eleitas como atrativos alvos terapêuticos

(BERMAN et al., 2000).

Os métodos experimentais, como Cristalografia de Raios-X e espectroscopia de

Ressonância Magnética Nuclear (RMN), estão a cada dia determinando novas estruturas

protéicas, mas nem sempre é possível devido a limitações técnicas, além de que muitas

estruturas são difíceis ou até mesmo impossíveis de serem determinadas por esses métodos.

Estudos demonstram que, aproximadamente, apenas uma em cada vinte proteínas, produz

cristais adequados para a resolução da estrutura 3D (MAGGIO & RAMNARAYAN, 2001).

Isso torna a utilização da modelagem molecular computacional um grande atrativo.

A Bioinformática apresenta métodos para que essas estruturas protéicas possam

ser preditas. Os métodos mais aplicados podem ser divididos em dois (RÖSSLE, 2004):

- Métodos Físicos, que baseiam-se nas interações entre os átomos e incluem

métodos de modelagem molecular, como dinâmica molecular e minimização de energia. São

chamados técnicas de primeiros princípios ou Ab-initio.

- Métodos Empíricos dependem de estruturas de proteínas que possuem suas

estruturas determinadas por métodos experimentais e que estão armazenadas em um banco de

dados, por exemplo, PDB (WESTBROOK et al., 2002). São as técnicas de modelagem

comparativa.

2.2.1 Modelagem por Homologia

O método mais bem sucedido de predição de estruturas é a modelagem por

homologia, também conhecida como modelagem comparativa (DEANE & BLUNDELL,

2003).

Na modelagem por homologia, estruturas de proteínas determinadas

experimentalmente são utilizadas como moldes para se predizer a conformação de outra

proteína que apresenta similaridade na sua seqüência de aminoácidos. A qualidade da nova

estrutura gerada dependerá do grau de similaridade seqüencial entre a proteína com estrutura

já determinada (proteína-molde) e a proteína a qual se deseja modelar (proteína-alvo). Essa

abordagem pode ser utilizada na predição funcional, identificação e validação de alvos

terapêuticos, bem como na identificação e otimização de protótipos (HILLISCH et al., 2004).

3 http://www.rcsb.org/pdb/home/home.do

5

1.6 JUSTIFICATIVA

O número de resolução de estruturas protéicas não acompanha o número de

seqüenciamento de genomas. Nem todas as seqüências protéicas, depositadas em bancos de

dados como o GenBank4, possuem estrutura terciária conhecida. Muitas delas são atrativos

terapêuticos, e sabe-se que a estrutura terciária de uma proteína e sua interação com outras

moléculas estão diretamente relacionadas à sua funcionalidade (SÁNCHEZ & ŠALI, 1999).

A obtenção de estruturas protéicas geradas em laboratórios, usando métodos

práticos, é demorada e despende de muitos recursos financeiros. Contudo, o método teórico

de modelagem por homologia através de modelos computacionais permitiu de maneira

eficiente e mais econômica a descoberta de estruturas terciárias de proteínas.

Um grande interesse em estudar estruturas do veneno das abelhas, vem se

tornando cada vez mais comum. Como já comprovado em estudos (WESSELIUS et al.,

2005), a apitoxina (veneno de abelha) é utilizada na terapia de diversas doenças, obtendo

ótimos resultados.

Sendo o veneno da abelha de grande importância, conhecer as estruturas terciárias

dos componentes protéicos do veneno, possibilitaria novos estudos para potencialização

desses efeitos terapêuticos e também possibilitaria novas aplicações visando fármacos para

pessoas alérgicas a esses componentes.

1.7 OBJETIVO

Este projeto de conclusão de curso teve como objetivo estudar as estruturas

terciárias das proteínas de veneno de Apis mellifera através de modelagem por homologia. O

projeto também previu o desenvolvimento de uma base de dados que armazena as seqüências

primárias das proteínas escolhidas, contidas nos venenos das abelhas, as estruturas 3D já

determinadas dessas proteínas, e aquelas estruturas de proteínas que foram modeladas durante

o desenvolvimento do projeto. Foi desenvolvida uma interface Web para a integração entre

dos dados obtidos e disponibilização dos resultados para acesso público, para que possam ser

realizadas diversos tipos de buscas no sistema.

4 http://www.ncbi.nlm.nih.gov/

6

1.8 ORGANIZAÇÃO DA MONOGRAFIA

Esta monografia está organizada da seguinte forma: no capítulo 1, há uma breve

introdução dos principais tópicos abordados no projeto, objetivo e justificativa. No capítulo 2,

são expostos os materiais e a metodologia utilizados durante o desenvolvimento do projeto, e

descrição das ferramentas utilizadas. No capítulo 3, são apresentados os resultados e

discussões. No capítulo 4, encontram-se as conclusões. Por fim, são listadas as bibliografias

utilizadas.

7

2 MATERIAIS E MÉTODOS

2.1 FERRAMENTAS DE BIOINFORMÁTICA

Com o avanço da tecnologia, a bioinformática, essa recente ciência, tem se

mostrado cada vez mais eficiente na resolução de problemas, antes complicados de serem

resolvidos por métodos experimentais. E com essa crescente demanda por resultados rápidos

e menores custos, o desenvolvimento de softwares para essa área, torna-se cada vez mais

comum. Muitas dessas ferramentas são livres, podendo ser utilizadas por qualquer

pesquisador sem que isso gere custos para ele.

Para cada uma das etapas no processo de modelagem por homologia existe um

grande número de métodos, programas e servidores. Todos que foram utilizados durante o

projeto são livres, e disponíveis na rede mundial de computadores (Internet).

Na tabela 1, encontram-se as ferramentas de bioinformática que foram utilizadas

durante o projeto. Elas estão divididas em programas que realizam determinadas tarefas,

como por exemplo, o Modeller5 responsável por gerar estruturas 3D, e servidores que

disponibilizam informações, fornecendo dados e serviços para a Internet, compartilhando seus

recursos, como por exemplo, o BLAST6. Essas ferramentas serão discutidas a seguir.

5 http://salilab.org/modeller/ 6 www.ncbi.nlm.nih.gov/BLAST/

8

Tabela 1 - Algumas ferramentas de bioinformática e servidores da Internet com seus respectivos endereços web úteis na modelagem por homologia (acessados em maio 2008). *S: Servidor; P: Programa (software).

NOME TIPO*

ENDEREÇO NA Internet

Bancos de dados

GenBank S www.ncbi.nlm.nih.gov/GenBank

PDB S www.rcsb.org/pdb/

Fontes de proteínas molde S

BLAST S www.ncbi.nlm.nih.gov/BLAST/

PDB S www.rcsb.org/pdb/

HHpred S http://toolkit.tuebingen.mpg.de/hhpred

Alinhamento de seqüências

BLASTP S www.ncbi.nlm.nih.gov/BLAST/

CLUSTALW S www.ebi.ac.uk/clustalw/

Construção dos modelos

MODELLER P http://salilab.org/modeller/modeller.html

MODWEB S http://salilab.org/modweb

SWISS-MODEL S www.expasy.org/swissmod/SWISS-MODEL.html

Validação de modelos

PROCHECK P www.biochem.ucl.ac.uk/~roman/procheck/procheck.html

WHATIF S http://swift.cmbi.ru.nl/servers/html/oldqua.html

VERIFY3D S http://nihserver.mbi.ucla.edu/Verify_3D/

Visualização de modelos

DS Visualizer P http://accelrys.com/downloads/freeware/

PyMol P http://pymol.sourceforge.net/

Chimera P http://www.cgl.ucsf.edu/chimera/

SwissPdbViewer P Ca.expasy.org/spdbv/

2.1.1 Banco de Dados Públicos para Bioinformática

Devido ao crescente número de projetos de seqüenciamentos surgiram repositórios

mais robustos para abrigar a explosão no número de seqüências obtidas pelos pesquisadores.

9

Principalmente as bases públicas, têm apresentado crescimentos exponenciais em seus

tamanhos nos últimos anos.

Um exemplo dessa robustez é o International Nucleotide Sequence Database

Collaboration (INSDC), um projeto colaborativo que compartilha informações de seqüências.

É formado pelas bases GenBank (USA), European Molecular Biology Laboratory - EMBL

(Laboratório Europeu de Biologia Molecular) e DNA Database of Japan – DDBJ (Banco de

Dados de DNA, do Japão).

Esses bancos trocam informações entre si diariamente, de modo que todos os três

possuem informações atualizadas de todas as seqüências de DNA e aminoácidos depositadas

em todo o mundo. Apesar disso, cada centro apresenta seus dados de forma particular, apesar

de bastante semelhante. Atualmente a maioria das revistas exige que as seqüências

identificadas pelos laboratórios sejam submetidas a um destes bancos antes mesmo da

publicação do artigo (PIEMOLINI, 2004).

2.1.1.1 GenBank

O mais conhecido banco de seqüências primárias é o GenBank. Construído e

administrado pelo National Center for Biotechnology Information – NCBI7 (Centro Nacional

de Informações sobre Biotecnologia, dos Estados Unidos). Inicialmente, seu objetivo era de

abrigar seqüências submetidas diretamente pelos autores de publicações científicas. No

entanto, houve uma grande oferta de seqüências, não só de autores como de centros de

pesquisa, que passaram a depositar regularmente seus dados.

2.1.1.2 PDB

O banco de dados de estruturas protéicas Protein Data Bank – PDB foi

estabelecido no Brookhaven National Laboratories – BNL, em 1971, como um repositório

para estruturas de cristais de biologia macromolecular (WESTBROOK et al., 2000).

Apesar de a primeira estrutura protéica ter sido determinada décadas antes da

primeira seqüência de DNA, o banco de dados de estrutura protéica cresceu mais lentamente

nesse ínterim do que o banco de dados de seqüências (GIBAS & JAMBECK, 2001).

No PDB é possível encontrar todas as estruturas terciárias de proteínas, que já

foram resolvidas. Hoje, estão armazenadas, não apenas estruturas preditas por cristalografia

de Rx, mas também estruturas preditas por RMN.

7 http://www.ncbi.nlm.nih.gov/

10

2.1.1.3 Seqüências Primárias e Estruturas Terciárias encontradas

Após um levantamento bibliográfico, foram escolhidas as principais toxinas

encontradas no veneno das abelhas. Entre essas toxinas encontram-se peptídeos, enzimas e

aminas biogênicas. Como pode-se observar na Tabela 2, nove diferentes tipos do componente

do veneno foram escolhidos para serem estudados, são eles: Melitina, Fosfolipase A2,

Apamina, Secapina, Hialuronidase, Peptídeo Degranulador de Mastócito, Fosfatase Ácida,

Veneno de Protease e Tertiapina.

Partindo da escolha dessas toxinas, foi feito um levantamento das seqüências

primárias dessas proteínas depositadas no GenBank. Essas seqüências foram obtidas após a

utilização de filtros especiais. Na página principal do NCBI, no campo “Search” (busca) foi

escolhida a opção “Taxonomy” (taxonomia). Foram então pesquisadas informações sobre o

gênero Apis. Várias informações foram retornadas pelo sistema, mas o link escolhido foi

“Protein” (Proteína). Na data do acesso (06/03/2008) foram retornadas 10.699 seqüências de

proteínas depositadas, esse número atualmente é de 10.758.

Assim, após o retorno desse primeiro filtro (taxonomia), a busca foi refinada

utilizando um conector lógico “and” a cada toxina selecionada – o tipo de proteína

pesquisado, como observado da primeira coluna da Tabela 1, está em inglês, pois o GenBank

é um banco internacional - o que limitou o número de seqüências que foram obtidas. Na

segunda coluna da Tabela 2 podemos observar que o número de seqüências encontradas

diminuiu significativamente, passando para 95 seqüências no total. O maior número de

seqüências foi retornado na busca por “Acid phosphatase” (Fosfatase Ácida), 21 seqüências

primárias.

As seqüências encontradas que já apresentam estrutura terciária conhecida foram

selecionadas também no PDB, para também, servirem de moldes para as futuras proteínas-

alvo. Verifica-se na terceira coluna da Tabela 2 que o número de estruturas conhecidas é

muito pequeno comparado com o número de seqüências primárias que foram selecionados.

De 95 seqüências primárias selecionadas apenas 9 possuem estrutura conhecida e armazenada

no PDB. Dessas 8 estruturas, a toxina “Hyaluronidase” apresentou 4 estruturas terciárias já

obtidas.

11

Tabela 2 - Levantamento de seqüências no GenBank e de estruturas depositadas no PDB.

2.1.2 Fonte de Proteínas Moldes

Como já citado na Figura 1, e será detalhado a seguir, o primeiro passo para se

modelar uma estrutura protéica por homologia é identificar proteínas que possuam estruturas

tridimensionais resolvidas, que possam atuar como moldes para a proteína-alvo. Essa primeira

etapa funciona como uma triagem, pois, a identificação de seqüências-molde, obedece a

critérios, como o grau mínimo de similaridade entre os fragmentos das seqüências. O grau

mínimo de similaridade entre proteína-alvo e molde, escolhido para a modelagem durante o

projeto, foi o valor mínimo de 70% de similaridade.

Para a busca dos moldes, alinhamentos locais foram realizados, através do BLAST

e também do PDB.

2.1.2.1 BLAST

O Basic Local Alignment Search Tool – BLAST, foi uma das ferramentas

utilizadas para a busca de estruturas molde. Na escolha da seqüência mais similar com a

seqüência alvo, o BLAST utiliza valores de pontuação (score) e parâmetros. Para o cálculo de

“score”, o BLAST alinha a seqüência alvo com as seqüências depositadas nos bancos de

dados e calcula valores obtidos através do somatório das identidades, similaridades, e pelo

somatório dos valores dos “gaps”. Quanto maior for este valor, maior similaridade existe

Toxina Pesquisada Seqüências Encontradas Estrutura no PDB

1 – Melittin 19 3(1BH1, 2MLTA, 2MLTB)

2 - Phospholipase A2 20 1 (1POC)

3 – Apamin 9 ----

4 – Secapin 5 ----

5 – Hyaluronidase 9 4 (1FCQ, 1FCU, 1FCV, 2J88)

6 - Mast cell degranulating 6 ----

7 - Acid phosphatase 21 ----

8 - Protease venom 3 ----

9 – Tertiapin 3 1 (1TER)

TOTAL 95 9

12

entre as seqüências. O BLAST será detalhado a seguir, quando será discutido o alinhamento

local entre as seqüências.

2.1.2.2 PDB

O PDB foi o banco de dados de estruturas de proteínas que foi utilizado durante o

projeto. Através dele também é possível realizar buscas por possíveis modelos, utilizando a

seqüência primária da proteína molde, no formato “fasta”. Na página inicial do PDB, ao lado

do menu “Home” encontra-se a opção “Search”. Quando clicado, abre-se um menu de

pesquisa, “Search Database”. Nesse menu escolhe-se a opção “Sequence”. Através dessa

busca por seqüências moldes, se obtém um alinhamento entre a seqüência alvo e as

seqüências que possuem estruturas depositadas no PDB. Esse alinhamento pode ser realizado,

utilizando o algoritmo do BLAST ou o algoritmo FASTA .

2.1.2.3 HHpred

O HHpred8 é um servidor que realiza buscas por proteínas homólogas com

estruturas preditas através de algoritmos baseados em alinhamentos HMM-HMM.

Alinhamentos que utilizam Hidden Markov Model – HMM (Modelos ocultos de Markov)

conseguem tratar de forma probabilística a variação estrutural de uma seqüência. O HHpred

aceita, tanto uma única seqüência para consulta, como também múltiplas seqüências como

entrada. Dentro de apenas alguns minutos ele retorna os resultados da pesquisa em um

formato fácil de ser interpretado e com dados semelhantes ao do algoritmo PSI-BLAST.

Através dos dados de saída do HHpred e do seu servidor é possível, no mesmo momento,

construir um modelo para a estrutura alvo, utilizando o Modeller on line.9

2.1.3 Alinhamento das Seqüências

O alinhamento é um processo importante na busca por modelos de qualidade,

gerados por homologia. Pois, no alinhamento de seqüências, identifica-se à equivalência dos

resíduos existentes entre as seqüências alvo e molde, tendo por objetivo medir a similaridade

entre elas.

O alinhamento pode ser local ou global. No alinhamento local, apenas algumas

regiões de duas seqüências de nucleotídeos ou aminoácidos, são alinhadas. Alinham-se

8 http://toolkit.tuebingen.mpg.de/hhpred 9 http://toolkit.tuebingen.mpg.de/modeller

13

somente as regiões mais conservadas, independente da localização relativa de cada região em

sua seqüência. É geralmente usado na procura por seqüências homólogas em banco de dados.

No alinhamento global, o alinhamento de duas ou mais seqüências, de

nucleotídeos ou aminoácidos, é realizado sobre o comprimento da seqüência por inteiro.

Assim, as seqüências envolvidas devem ser alinhadas de um extremo ao outro. Esse

alinhamento é, freqüentemente, utilizado para determinar regiões mais conservadas de

seqüências homólogas, que apresentam alto grau de similaridade em todo seu comprimento

(MUNIZ, 2003).

O alinhamento pode ser gerado através de mais de duas seqüências. Esse tipo de

alinhamento é conhecido como alinhamento múltiplo, que é considerado mais confiável que o

alinhamento simples, pois um grande grupo de proteínas será alinhado e as regiões

semelhantes se destacarão (PROSDOCIMI et al., 2003).

Para o alinhamento das seqüências primárias das proteínas foram utilizados o

BLASTP10 e o CLUSTALW11 que são algoritmos de código-fonte aberto (softwares livres). O

alinhamento entre as seqüências, também pode ser obtido através do Modeller. Que através do

comando ALIGN2D, realiza um alinhamento baseado no algoritmo de programação

dinâmica, proposto por Needleman e Wunsch para alinhamento global de seqüências

(NEEDLEMAN & WUNSCH, 1970).

2.1.3.1 BLAST

O BLAST é um método heurístico que realiza um alinhamento local entre a

seqüência alvo e um banco de dados. Ele é composto por vários algoritmos, que diferem entre

si, de acordo com o tipo de seqüência de entrada (nucleotídeo ou aminoácido) e com o tipo de

resultado esperado (ALTSCHUL et al., 1990). Pode ser usado para inferir as relações

funcionais e evolucionárias entre as seqüências, assim como para ajudar a identificar

membros de uma mesma família de genes.

Alguns dos principais algoritmos encontrados no BLAST são:

BLASTP: compara seqüências de aminoácidos com o banco de dados de proteínas.

Este programa identifica também possíveis domínios conservados nas proteínas analisadas.

BLASTN: compara uma seqüência de DNA como entrada com um banco de dados

de DNA.

10http://www.ncbi.nlm.nih.gov/blast/producttable.shtml#blastp 11 http://align.genome.jp/

14

BLASTX: compara uma seqüência de nucleotídeos, com um banco de dados de

proteínas.

O algoritmo utilizado no projeto, BLASTP, compara as seqüências da proteína

alvo (que se deseja modelar) com seqüências de possíveis moldes, depositadas no PDB, e

calcula a significância estatística dos erros de alinhamento. Ele busca por regiões com maior

densidade de resíduos idênticos ou similares. Para a escolha dos moldes, apenas as proteínas

que apresentaram uma similaridade maior que 70% com a seqüência alvo foram escolhidas.

As seqüências primárias dessas proteínas foram salvas no formato “fasta”, formato de arquivo

utilizado como parâmetro de entrada para o CLUSTALW, para que fosse realizado o

alinhamento global.

2.1.3.2 CLUSTAL

O CLUSTAL trata-se de um programa de alinhamento múltiplo de seqüências que,

identifica resíduos ou regiões conservadas, ou equivalentes em estruturas, para relacionar por

ordem funcional ou estrutural a similaridade entre elas (HIGGINS et al., 1994).

Há três versões do CLUSTAL:

CLUSTAL: Ele atribui pesos iguais a todas as seqüências.

CLUSTALW: Ele atribui pesos diferentes às seqüências fornecendo ao usuário

uma grande quantidade de parâmetros e de saídas diferentes. Possui interface gráfica onde os

alinhamentos podem ser visualizados de forma agradável e alterados.

CLUSTALX: Ele proporciona uma interface gráfica para o CLUSTALW.

A versão utilizada durante o projeto foi o CLUSTALW. Ele realiza um

alinhamento entre as seqüências alvo e molde, em toda a sua extensão, buscando coincidir o

maior número de resíduos idênticos ou similares entre elas. Para esse alinhamento, foram

utilizadas as seqüências das proteínas, no formato “fasta”, que foram encontradas durante o

alinhamento local, utilizando o BLAST. No CLUSTALW é possível selecionar o arquivo de

saída. O formato do arquivo de saída escolhido foi o formato “pir”, que será utilizado como

parâmetro de entrada para o Modeller, durante a construção do modelo.

2.1.4 Construção dos Modelos

A modelagem por homologia é um método teórico confiável para a obtenção de

estruturas de proteínas (SÁNCHEZ et al., 2000). Esse método consiste basicamente de quatro

15

etapas: identificação e seleção de proteínas-molde, alinhamento das seqüências, construção

das coordenadas, e validação do modelo. Essas etapas serão detalhadas a seguir.

2.1.4.1 Modeller

O Modeller (ŠALI e BLUNDELL, 1993) é o software mais utilizado atualmente

para a modelagem estrutural de proteínas por homologia. Ele utiliza estruturas-molde, para

construir modelos tridimensionais da seqüência-alvo, através de um alinhamento. Apesar do

Modeller incorporar ferramentas de alinhamento de seqüências e até mesmo de busca pelo

banco de dados, o ponto inicial para o Modeller é um alinhamento seqüencial múltiplo entre a

seqüência alvo e as seqüências protéicas do modelo (GIBAS e JAMBECK, 2001).A partir do

alinhamento entre alvo e estrutura-molde, é gerado um conjunto de restrições que são

aplicadas à seqüência a ser modelada. O cálculo destas restrições é baseado em análises

estatísticas entre estruturas de proteínas homologas. Estas restrições limitam, por exemplo, a

distância entre dois resíduos no modelo, sendo esta restrição baseada na distância entre dois

resíduos equivalentes na estrutura molde. Restrições também são aplicadas nas ligações

angulares (entre três átomos) e nos ângulos diedrais (entre quatro átomos). Além destas

restrições, um campo de força controla as propriedades estereoquímicas entre os átomos,

aplicando restrições químicas (RÖSSLE, 2004). Todas as restrições químicas e espaciais

aplicadas ao modelo são combinadas em uma função, chamada função objetivo, que é

otimizada durante o processo de construção do modelo (FISER & SALI, 2003). Um resumo

da metodologia utilizada pelo Modeller pode ser visualizado na figura 2 (ŠALI e

BLUNDELL, 1993).

16

Figura 1 - Modelagem Molecular por Satisfação de Restrições Espaciais. (1) Alinhamento entre as seqüência-alvo e a molde (que possui estrutura); (2) Extração de restrições espaciais; (3) Satisfação das restrições espaciais.

2.1.4.2 Swiss-Model

O SWISS-MODEL 12é um servidor, automatizado na Web, de modelagem por

homologia, baseado no Instituto Suíço de Bioinformática. O SWISS-MODEL permite que

você submeta uma seqüência e receba de volta, automaticamente, uma estrutura (GIBAS e

JAMBECK, 2001). Ele utiliza métodos de construção de modelos, utilizando corpos rígidos.

O modelo é construído por partes, utilizando as regiões estruturalmente conservadas das

proteínas homologas. A cadeia principal destas regiões pode ser obtida através de bancos de

dados de estruturas protéicas, e as cadeias laterais podem ser encontradas em bibliotecas de

rotâmeros (GUEX & PEITSCH, 1997).

2.1.5 Validação dos Modelos

Após a construção do modelo, é necessário identificar possíveis erros relacionados

à escolha das estruturas de referência, e ao alinhamento entre seqüência-alvo e molde. Caso o

modelo seja caracterizado de má qualidade, todo o processo de modelagem deve ser revisto,

no intuito de se melhorar o alinhamento inicial ou utilizar outros métodos.

São avaliadas as qualidades dos modelos, principalmente se houver diferentes

orientações referentes aos resíduos do sítio ligante nos modelos gerados (SCHAFFERHANS

12 http://swissmodel.expasy.org/SWISS-MODEL.html

17

& KLEBE, 2001). Um grande número de propriedades de diferentes graus de organização

estrutural, como: exatidão estereoquímica, qualidade do empacotamento e confiabilidade do

enovelamento, são verificadas durante a etapa de validação (SILVA & SILVA, 2007).

Os softwares que foram utilizados para a validação dos modelos gerados, foram:

Prochek (LASKOWSKI et al., 1993), Whatif (VRIEND & SANDER, 1993) e o Verify3D

(LUTHY et al., 1992). Eles são apresentados a seguir.

2.1.5.1 Procheck

O Prochek avalia diversos parâmetros estereoquímicos, de importância

fundamental, como os comprimentos de ligação, os ângulos planos, a planaridade dos anéis de

cadeias laterais, os ângulos torcionais da cadeia principal, gerando o gráfico de

Ramachandran (RAMACHANDRAN & SASISEKHARAN, 1968), que é muito útil, pois,

define os resíduos que se encontram nas regiões energeticamente mais favoráveis e

desfavoráveis, além de orientar a avaliação da qualidade para modelos teóricos e

experimentais de proteínas.

A estrutura protéica possui três ângulos principais, ω, φ e ψ. Como o ângulo ω é

fixo os ângulos φ e ψ são os responsáveis por toda a variação conformacional da cadeia

principal, pois tornam a cadeia polipeptídica flexível. Observa-se na Figura 3, a estrutura

protéica e seus ângulos principais.

Figura 2 - Estrutura protéica e seus três ângulos principais, omega (ωωωω), phi (φ) e psi (ψ). Como o ângulo ωωωω é fixo os ângulos φ e ψ são os responsáveis por toda a variação conformacional da cadeia principal, pois tornam a cadeia polipeptídica flexível.

O gráfico de Ramachandram é uma representação gráfica de ângulos φ versus

ângulos ψ. Para que se garanta uma maior precisão dos modelos gerados, no mínimo 90% dos

18

ângulos φ e ψ da cadeia principal devem estar na região mais favorável do gráfico de

Ramachandran (ANDERSON, 2003).

Na Figura 4, observa-se um gráfico de Ramachandran. Os pontos quadrados

representam os resíduos de aminoácidos da proteína modelada, as glicinas são representadas

por triângulos. As áreas em vermelho compreendem as regiões mais favoráveis para resíduos

se encontrarem, em amarelo as regiões favoráveis, em bege as regiões pouco favoráveis e em

branco, as regiões desfavoráveis. A região branca é desfavorável para todos os aminoácidos,

com exceção da glicina.

Figura 3 - Gráfico de Ramachandran gerado pelo Procheck. As regiões representadas em vermelho, são as mais favoráveis, as representadas em amarelo, são as favoráveis, as representadas em bege, são as menos favoráveis e as regiões brancas, são as desfavoráveis.

2.1.5.2 Whatif

O Whatif (VRIEND, 1990), avalia a qualidade dos contatos atômicos envolvendo

os átomos de cada resíduo. Foi utilizado o módulo Coarse Packing Quality Control 13, do

software Whatif, o qual compara a distribuição das posições de átomos em torno de cada

resíduo. Um escore menor do que -5,0 para um resíduo significa contatos atômicos ruins ou

13 http://swift.cmbi.ru.nl/servers/html/index.html

19

incomuns, mas não implica, necessariamente, em uma estrutura incorreta. Existe a

necessidade, entretanto, de examinar o resíduo (VRIEND & SANDER, 1993).

2.1.5.3 Verify 3D

O modelo protéico pode ser avaliado também quanto à qualidade dos ambientes

químicos, determinando o nível de confiabilidade do enovelamento protéico do modelo

virtual. O Verify 3D pode realizar essa tarefa, determinando os ambientes químicos de cada

resíduo do modelo e atribuindo “scores” com referência a uma matriz construída a partir de

uma análise estatística envolvendo estruturas de proteínas armazenadas no PDB. Essa

ferramenta de validação está disponível para utilização on-line no endereço do Laboratory for

Structural Genomics and Proteomics, University of Califórnia14.

Várias outras metodologias capazes de estimar a qualidade da estrutura terciária

dos modelos de proteínas têm sido testadas, como cálculos de energia livre de solvatação ou

métodos estatísticos (SAUDER et al., 2000).

2.1.6 Visualização dos Modelos

Para realizar a visualização tridimensional dos modelos gerados a partir da

modelagem, utilizaram-se os softwares que permitem essa visualização, como o DS

Visualizer 15, o PyMol16, e o Chimera17, este último, também foi utilizado sobrepor as

estruturas obtidas, com suas estruturas-molde, para uma melhor visualização.

2.2 MODELAGEM DAS PROTEÍNAS POR HOMOLOGIA

A modelagem das proteínas pelo método de homologia segue etapas, como pode

se observar na Figura 4. O início da modelagem por homologia está na identificação de

estruturas 3D de proteínas, que possam atuar como base estrutural para a modelagem da

proteína-alvo. Nessa primeira etapa, foram realizadas buscas no PDB, através do algoritmo

BLASTP. Alguns dos aspectos levados em consideração, durante a escolha dos alvos, foram o

conhecimento estrutural, a similaridade seqüencial e a correlação evolutiva entre as proteínas

(DEANE & BLUNDELL, 2003).

14 http://nihserver.mbi.ucla.edu/Verify_3D/ 15 http://doc.accelrys.com/doc/life/dstudio/dsv20/ 16 http://pymol.sourceforge.net/ 17 http://www.cgl.ucsf.edu/chimera/

20

Um valor aceitável, na modelagem por homologia, de similaridade é acima de

30% de identidade seqüencial entre proteína-molde e proteína-alvo (SALI, 1998;

D’ALFONSO et al., 2001; VITKUP et al., 2001). Entretanto, as proteínas escolhidas como

molde, apresentaram similaridade maior que 75%.

Figura 4 - Esquema geral do método teórico da modelagem por homologia, baseado em MARTÝ-RENOM et al., 2000.

Após, o alinhamento local realizado pelo BLASTP, as proteínas selecionadas

como molde, tiveram suas seqüências alinhadas em toda sua extensão (alinhamento global),

pelo CLUSTALW.

O objetivo desse alinhamento é reconhecer regiões estruturalmente conservadas e

regiões variáveis, observando-se os resíduos estruturalmente equivalentes na seqüência

primária.

Após obtido o alinhamento das seqüências, o arquivo de saída gerado pelo

CLUSTALW está no formato “pir”. Esse arquivo contendo o alinhamento das seqüências, é

utilizado como entrada para o Modeller, que através das restrições espaciais, determina as

coordenadas cartesianas da proteína, gerando um modelo3D.

Assim que termina a execução do Modeller, a estrutura modelada já está pronta para a

validação. O arquivo de saída do Modeller, um arquivo “pdb”, é utilizado como entrada para

os softwares de validação. Quando necessário, ocorre uma otimização do modelo, através de

21

um script de otimização, escrito na linguagem Python18, encontrado no próprio Modeller, na

versão Modeller 9 v319, que foi a versão utilizada para geração dos modelos durante o projeto.

Para que a estrutura seja visualizada é necessária a utilização de softwares que

interpretam os arquivos gerados “pdb”, como por exemplo, o Chimera, o Pymol e o DS

Visualizer.

2.3 ARQUITETURA DO SISTEMA

A arquitetura de software é uma estrutura que serve para o melhor entendimento

de componentes de um sistema e seus inter-relacionamentos (SILVA FILHO, 2002).

No sistema em desenvolvido, a arquitetura utilizada pode ser observada na Figura

6. Essa arquitetura propõe que, o usuário, através de um navegador – também conhecido

como Web browser, como por exemplo, o Internet Explorer ou o Mozilla Firefox20, acessa o

sistema através de requisições HTTP para o servidor. O servidor Apache21 interage com

scripts desenvolvidos na linguagem de programação PHP22, uma linguagem de programação

muito utilizada na web e em banco de dados. Esses scripts contem comandos para acessar o

banco de dados MySQL23, acessando os dados contidos neste banco.

O modelo proposto é baseado na arquitetura cliente-servidor, no qual o servidor é

um servidor web, representando o gerenciador de dados, e os usuários serão representados

através de clientes que utilizarão navegadores para acessar as informações.

18 http://www.python.org/ 19 http://salilab.org/modeller/9v3/release.html 20 http://br.mozdev.org/ 21 http://www.apache.org/ 22 http://www.php.net 23 http://www.mysql.org

22

Figura 5 - Arquitetura do sistema. O usuário faz uma requisição ao servidor, o servidor web recebe essa requisição e interagindo com scripts php gera resultados que retornarão ao usuário através de um navegador web.

2.4 IMPLEMENTAÇÃO

Durante a etapa de implementação, o projeto do software é implementado como

um conjunto de unidades de uma linguagem de programação. Esta etapa baseia-se totalmente

no uso de ferramentas e ambientes de apoio à programação, como por exemplo, compiladores,

depuradores de código e editores sintáticos (PRESSMAN, 1991).

2.4.1 Plataforma

A plataforma utilizada no desenvolvimento é um servidor, Hp ProLiant ML150

Pentium Xeon 3.0 com 2GB de memória e 4 Hard Disk de 70GB. Compõe ainda a plataforma

o Servidor Web Apache 2.0, instalado no sistema GNU/Linux Fedora 6.0 onde serão

disponibilizados os resultados. A escolha do Apache se deve ao fato dele ser o mais bem

sucedido servidor web livre.

23

2.4.2 Linguagem de Programação

O desenvolvimento do sistema abrange dois módulos: desenvolvimento do banco

de dados e análise de dados. A integração destes módulos será feita através das linguagens de

programação Hypertext Preprocessor - PHP e a linguagem de marcação Hypertext Markup

Language - HTML.

2.4.2.1 PHP

O PHP é um módulo de pré-processamento de hipertexto para o servidor web, que

permite ler e interpretar códigos PHP incorporados em páginas da web. Apesar de ser uma

linguagem de fácil aprendizagem e de utilização para pequenos scripts dinâmicos simples, o

PHP é uma poderosa linguagem orientada a objetos. É um código aberto que permite fácil

conexão ao banco de dados. Um programa ou script PHP é um aplicativo que reside em um

servidor Web. Desta maneira é possível interagir com bancos de dados e aplicações existentes

no servidor, com a vantagem de não expor o código fonte para o cliente.

Quando um script PHP é chamado por um usuário remoto, o aplicativo é

executado no servidor que, em seguida, encaminha ao usuário (cliente) a resposta em formato

HTML, linguagem de marcação de hipertexto. O HTML é uma linguagem de marcação

utilizada para produzir páginas web que facilita a navegação. Para o desenvolvimento do

banco de dados será utilizado o sistema gerenciador de banco de dados, MySQL, que será

discutido a seguir .

2.4.2.2 JAVASCRIPT

O JavaScript é uma linguagem de programação interpretada e gratuita, que pode

ser embutida em páginas HTML. Ela oferece formas de controle e interatividade na página,

como validação de campos e chamadas a eventos. Por sem uma linguagem client-side, ou

seja, interpretada e executada no próprio navegador, não necessita realizar requisições ao

servidor.

Para sua utilização a máquina que acessa a página deve possuir um interpretador

de JavaScript e este necessita estar ativo ou habilitado.

2.4.2.3 HTML

O HTML (acrônimo para a expressão inglesa HyperText Markup Language) é uma

linguagem pública de marcação utilizada para produção de página na Web, que utiliza os

24

conceitos do HyperTexto e da Hipermídia para apresentar, num mesmo ambiente: dados,

imagens, vídeos, sons e gráficos. Uma das principais propriedades do documento HTML é a

possibilidade de fazer hiperligações, links que fazem referência a outros conteúdos presentes

na mesma ou em diferentes páginas Web.

2.4.2.4 CSS

Cascading Style Sheet (CSS), que em português foi traduzido para Folha de Estilo

em Cascata, é um mecanismo simples para marcar e estruturar o conteúdo do documento

HTML, ou seja, a alteração da apresentação não é feita por elementos HTML. A tarefa de

estilização fica a cargo das CSS, arquivos independentes dos arquivos HTML, nos quais são

declaradas propriedades e valores de estilização para os elementos do HTML (como

alinhamento, espaçamento, cores, fontes, margens, backgrounds, etc). Facilitam o

desenvolvimento de páginas Web, pois padronizam o estilo e tornam o código mais limpo.

2.4.3 Confecção do Banco de Dados

Para a confecção do banco de dados foi utilizada a ferramenta DBDesigner 4.0.5.6 24,

que se trata de um sistema livre de design que integra modelagem, criação e manutenção de

banco de dados, entre outras funcionalidades. Possui portabilidade, podendo ser executado em

diferentes plataformas. No DBDesigner, o modelo de dados foi estruturado de forma simples

e prática sendo, posteriormente, exportado para um banco de dados do MySQL.

MySQL é o Sistema Gerenciador de Banco de Dados (SGBD) que será utilizado para

dar suporte ao software desenvolvido. Ele é um SGBD relacional que oferece integração com

diversas aplicações através de um subconjunto da popular linguagem de consulta SQL. Possui

grande portabilidade, praticamente suporta qualquer plataforma atual, oferece um excelente

desempenho e estabilidade. Além de exigir poucos recursos de hardware ele é um software

livre.

24 http://www.fabforce.net/dbdesigner4/

25

3 RESULTADOS E DISCUSSÕES

3.1 MODELAGEM DAS PROTEÍNAS

A motivação para a escolha das proteínas e suas respectivas seqüências primárias

se deu à importância das proteínas, contidas no veneno das abelhas, para estudos

farmacológicos. Para a modelagem molecular, inicialmente, foram escolhidas 5 seqüências da

proteína melitina, por se tratar do principal composto do veneno. Na primeira e segunda

coluna da tabela 3 pode se observar os códigos de acesso ao Genbank e as seqüências em

formato fasta das proteínas escolhidas para serem modeladas.

3.1.1 Busca de seqüências homólogas

A busca por seqüências homólogas foi realizada através do software BLAST. As

seqüências encontradas que apresentaram similaridade superior a 70% foram escolhidas como

potenciais moldes. Na terceira coluna da tabela 3, pode se observar, quais foram as proteínas

selecionadas para servirem de molde. Na quarta coluna, encontra-se a similaridade entre

seqüência-alvo e molde, e na quinta coluna, encontra-se o valor, em Angstroms, da resolução

das estruturas selecionadas para molde.

Tabela 3 - Relação entre Proteínas-alvo e Proteínas-molde.

Proteína-Alvo Possíveis Proteínas-Molde

gi Fasta Código PDB Similaridade Resolução

[Å]

Organismo

229389 GIGAVLKVLTTGLPALISWISRKKRQQ 2mlt(A,B)

1bh1(A)

92%

92%

2.00

RMN

Apis Mellifera

229230 GIGAVLKVLTTGLPALISWIKRKRQQ 2mlt(A,B)

1bh1(A)

100%

100%

2.00

RMN

Apis Mellifera

126956 GIGAILKVLATGLPTLISWIKNKRKQ 2mlt(A,B)

1bh1(A)

88%

88%

2.00

RMN

Apis flórea

126955 GIGAILKVLSTGLPALISWIKRKRQE 2mlt(A,B)

1bh1(A)

100%

100%

2.00

RMN

Apis dorsata

69552 GIGAVLKVLTTGLPALISWISRKKRQQ 2mlt(A,B)

1bh1(A)

92%

92%

2.00

RMN

Apis mellifera

Para todas as proteínas alvo, foram encontrados três possíveis moldes. A estrutura

2MLT, cadeia A e cadeia B, e a estrutura 1BH1, cadeia A. As três possíveis estruturas moldes

26

tiveram suas informações coletadas no Genbank e no PDB, juntamente com o arquivo

contendo suas coordenadas. As informações sobre as estruturas e suas seqüências primárias

foram armazenadas no banco de dados do sistema.

3.1.2 Alinhamento entre seqüências-alvo e molde

Com o conhecimento das possíveis estruturas-molde, foi realizado o alinhamento

global entre as seqüências primárias, das proteínas-molde e das proteínas-alvo. Para gerar os

alinhamentos foi utilizado o CLUSTALW, e o formato de saída do alinhamento foi o formato

pir, arquivo que será utilizado para a construção dos modelos pelo Modeller. Para uma melhor

visualização dos alinhamentos, foi utilizado o software BioEdit25.

As figuras abaixo apresentam o alinhamento de cada seqüência de proteína-alvo com as

respectivas seqüências das estruturas-molde. Na Figura 7 se tem o alinhamento da seqüência,

com gi 229389, e seus moldes. Observa-se que a seqüência-alvo possui 27 aminoácidos,

enquanto que as seqüências-molde possuem 26 aminoácidos. O melhor alinhamento realizado

pode ser observado abaixo, onde 25 dos 27 aminoácidos da seqüência-alvo foram alinhados.

Figura 6 - Alinhamento global entre seqüência-alvo (gi 229389) e seqüências-molde.

Na Figura 8, observa-se o alinhamento entre a seqüência-alvo, de gi 229230, com

suas possíveis estruturas-molde. Nota-se que, 100% dos resíduos são idênticos.



suas possíveis estruturas-molde. Nota-se que, 21 dos 26 resíduos das seqüências são idênticos


25 http://www.mbio.ncsu.edu/BioEdit/page2.html

27


suas possíveis estruturas-molde. Nota-se que, 25 dos 27 resíduos da seqüência-alvo são

idênticos aos das seqüências-molde.



suas possíveis estruturas-molde. Nota-se que, 23 dos 26 resíduos das seqüências são idênticos.


3.1.3 Construção dos modelos

Com os resultados obtidos do alinhamento das seqüências, o Modeller, programa

escolhido para as modelagens, através de seus comandos gerou os modelos de estruturas 3D.

A principal característica do Modeller é a obtenção empírica das restrições espaciais,

expressas por funções densidade de probabilidade (PDF’s) que, utilizam informações das

estruturas-molde. As restrições espaciais e os termos de energia são combinados em uma

função objetivo, que através de métodos de otimização por gradiente conjugado, visaram

minimização das violações das restrições espaciais (SÁNCHEZ; SALI, 1997).

Foram executados vários scripts na busca por um modelo com qualidade. Esses

scripts estão armazenados na biblioteca do Modeller. Através do script “model-multi.py”, a

estrutura foi obtida utilizando múltiplos moldes. As três estruturas conhecidas, 1BH1,

2MLT_A, 2MLT_B, foram alinhadas e utilizadas ao mesmo tempo como moldes, mas os

resultados obtidos, não foram satisfatórios, pois, os modelos gerados não obtiveram uma

qualidade mínima.

Optou-se então por escolher um único modelo para cada seqüência-alvo. Para a

determinação do melhor molde, as três estruturas, 2mlt(cadeia A e B) e 1bh1(cadeia A), foram

utilizadas gerando para cada seqüência-alvo, 10 modelos. Esses modelos foram comparados

entre si, e os que possuíam menor valor para a função objetivo foram otimizados e analisados

28

nos programas de validação. São apresentados a seguir, os melhores modelos para cada

seqüência-alvo, juntamente com os resultados da validação desses modelos. Apesar de todas

as restrições impostas pelo Modeller, alguns modelos podem apresentar maus contatos entre

seus átomos e enovelamentos incorretos (SALI ; BLUNDELL, 1993).

3.1.4 Validação dos modelos

Todos os modelos gerados pelo Modeller durante o projeto foram analisados por

três softwares de validação, responsáveis cada qual a avaliar uma propriedade diferente.

- Procheck: Avalia a qualidade estereoquímica dos modelos;

- Whatif : Avalia a qualidade dos modelos finais por análise dos contatos atômicos

dos resíduos;

- Verify 3D: Avalia os ambientes químicos dos resíduos.

3.1.4.1 Seqüência-alvo: gi 229389

Os resultados do Procheck exibem uma grande quantidade de informações

referentes aos parâmetros estereoquímicos dos modelos protéicos. São gerados vários

gráficos, que permitem uma avaliação completa da qualidade estereoquímica dos modelos em

comparação à estruturas resolvidas experimentalmente no mesmo nível de resolução. Será

apresentado o gráfico de Ramachandran e os gráficos de avaliação das propriedades da cadeia

principal.

Para ser considerado um bom modelo, o resultado do gráfico de Ramachandran

deve apresentar, na região mais favorável (A, B, L), mais de 90% dos resíduos,

desconsiderando os resíduos de glicina (não possuem cadeia lateral), prolina (o Cα está ligado

à cadeia lateral) e os resíduos das extremidades (C-terminal e N-terminal) que apresentam

padrões estereoquímicos diferentes dos outros resíduos (LASKOWSKI, et al., 1993).

Inicialmente, foram construídos 30 modelos da estrutura de gi 229389, 10 modelos

para cada molde encontrado. Com isso, os melhores modelos foram gerados utilizando a

estrutura 2mlt cadeia B, como molde. Esses modelos foram otimizados, através de um script

para a minimização do valor da função objetivo. No total 40 modelos foram gerados para a

estrutura de gi 229389. Desses, apenas os modelos que apresentaram menor valor para a

função objetivo foram selecionados e avaliados.

Em relação ao Procheck, o modelo gerado apresentou 100% de seus resíduos na

região mais favorável (em vermelho), como pode se observar na Figura 11. As propriedades

29

estereoquímicas da cadeia principal, que são verificadas pelo Procheck são cinco: (a)

Avaliação do gráfico de Ramachandran, (b) Planaridade de ligação peptídica, (c) Maus

contatos atômicos, (d) Distorção do carbono α, (e) Energia das ligações de hidrogênio, (f)

Qualidade estereoquímica total. Na Figura 12, são apresentados os resultados referentes a

essas propriedades, e observa-se que estes resultados estão dentro da média ou em melhores

condições que parâmetros de estruturas protéicas encontradas no PDB, com nível de

resolução estrutural semelhante, onde se ressalta a qualidade estereoquímica total do modelo,

representada pelo fator-G, que se apresenta acima da média.

Figura 11 - Gráfico de Ramachandran da seqüência de gi 229389, gerado pelo software Procheck, onde são correlacionados os ângulos torcionais da cadeia principal, Phi e Psi, para cada resíduo. As regiões de classificação estão divididas por cores distintas.

30

Figura 12 - Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média.

Para se verificar a qualidade dos contatos atômicos, o módulo Coarse Packing

Quality Control do software Whatif (VRIEND; SANDER, 1993) foi utilizado. Esse módulo

analisa os contatos atômicos do molde obtido utilizando estruturas resolvidas, depositadas no

PDB, como referência. Ele calcula o chamado índice da qualidade de contato. Normalmente, a

escala do índice da qualidade de contato para cada resíduo abrange valores entre -5 e 5. Um

valor menor que -5 pode significar algum tipo de erro, como: empacotamento improvável ou

coordenadas atômicas incorretas (VRIEND; SANDER, 1993).

Um modelo é classificado como (SILVA, 2007):

- ótimo, se apresentar valor médio que -0,5;

- bom, se apresentar valor médio entre -0,5 e -1,5;

- pobre, se apresentar valor médio menor que -2,0;

- ruim, se apresentar valor médio menor que -3,0.

Pode-se analisar na Tabela 4, os índices da qualidade de contato calculados para

cada um dos resíduos do modelo de gi 229389, e também o índice total do modelo. Pelo

índice total (-0,451), conclui-se que o modelo apresenta uma boa qualidade segundo a

classificação anterior.

31

Tabela 4 - Valores dos índices da qualidade de contato para os resíduos do modelo estrutural gerado para o alvo gi 229389 e o índice total do modelo.

1 GLY ( 1) : -0.532

2 ILE ( 2) : 0.881

3 GLY ( 3) : 1.911

4 ALA ( 4) : 1.399

5 VAL ( 5) : 1.605

6 LEU ( 6) : 1.855

7 LYS ( 7) : 2.009

8 VAL ( 8) : -0.381

9 LEU ( 9) : -0.854

10 THR ( 10) : -3.680

11 THR ( 11) : -2.794

12 GLY ( 12) : -3.298

13 LEU ( 13) : 1.045

14 PRO ( 14) : 0.722

15 ALA ( 15) : 1.496

16 LEU ( 16) : 1.273

17 ILE ( 17) : 2.125

18 SER ( 18) : 2.290

19 TRP ( 19) : 0.258

20 ILE ( 20) : 0.580

21 SER ( 21) : 0.488

22 ARG ( 22) : -0.970

23 LYS ( 23) : -0.524

24 LYS ( 24) : -1.378

25 ARG ( 25) : -3.593

26 GLN ( 26) : -5.642

27 GLN ( 27) : -4.830

Índice do modelo: -0.451

Nem sempre um valor abaixo de cinco significa que o resíduo esteja incorreto. O

resíduo 27 do modelo gerado, apresentou um valor abaixo de -5,0, que pode ser observado na

Figura 13. Mas resíduos pequenos realizam menos contatos que resíduos grandes, assim seus

índices tendem a serem menores, mesmo quando empacotados corretamente. Da mesma

forma, resíduos encontrados na superfície das proteínas, realizam menos contatos, quando

comparados com resíduos encontrados no interior das proteínas, por esse motivo, também

apresentam índices menores (SILVA, 2007).

Figura 13 - Modelo para seqüência de gi 229389. Em amarelo, está a localização do resíduo com baixa qualidade de contato.

Para avaliar a compatibilidade da estrutura do modelo com sua seqüência primária,

o software Verify 3D foi utilizado. Como a posição de cada resíduo no modelo 3D é

caracterizada pelo seu ambiente químico, o software determina os ambientes químicos de

cada resíduo do modelo e atribui “scores” com referência a uma matriz construída a partir de

uma análise estatística envolvendo estruturas de proteínas armazenadas no PDB.

32

Na Figura 14, está a avaliação do modelo de gi 229389, onde os 11 primeiros

resíduos de cada extremidade são desconsiderados. Mesmo apresentando um resíduo com

valor negativo, este foi o melhor modelo gerado para a seqüência-alvo de gi 229389, pois esse

modelo passou pro um protocolo de minimização de energia.

Figura 14 - Representação do perfil 3D do modelo de gi 229389. São desconsiderados os 11 resíduos das extremidades.


O gráfico de Ramachandran revelou que 100% dos resíduos deste modelo se

encontram na região mais favorável, garantindo assim, à qualidade dos ângulos torcionais da

cadeia principal. Pode-se verificar na Figura 15 e Figura 16 que, pelos resultados do

Procheck, este modelo para a seqüência-alvo de gi 229230, é considerado válido.

33


As propriedades estereoquímicas da cadeia principal do modelo construído para

esta seqüência, em comparação com estruturas do PDB, são mostradas na Figura 16. Os

resultados para essas propriedades mostram que a qualidade total do modelo está acima da

média.

34

Figura 16 – Representação dos gráficos de cinco propriedades estruturais da cadeia principal. Os valores do modelo gerado são marcados por quadrados. As bandas escuras em cada gráfico representam os resultados das estruturas resolvidas conhecidas, e a linha central representa uma média dos valores em função da resolução. As linhas das extremidades representam o desvio em relação à média.

Na Tabela 5, observa-se a análise dos índices da qualidade de contato para o

modelo da seqüência de gi 229230. Como classificado anteriormente, um bom nível de

qualidade para contatos atômicos seria um valor maior que -1,0. Para o modelo analisado, o

índice total é -0,279, que está acima do valor médio para uma boa qualidade (-0,5). Os

resíduos que apresentam índices abaixo de -5,0 estão destacados de amarelo, na Figura 17.


1 GLY ( 1) : 0.007

2 ILE ( 2) : 1.260

3 GLY ( 3) : 1.738

4 ALA ( 4) : 1.084

5 VAL ( 5) : 1.301

6 LEU ( 6) : 1.808

7 LYS ( 7) : 1.230

8 VAL ( 8) : -1.069

9 LEU ( 9) : -1.016

10 THR ( 10) : -3.951

11 THR ( 11) : -2.685

12 GLY ( 12) : -2.404

13 LEU ( 13) : 1.107

14 PRO ( 14) : -0.499

15 ALA ( 15) : 0.336

16 LEU ( 16) : 2.011

17 ILE ( 17) : 1.654

18 SER ( 18) : 1.296

19 TRP ( 19) : 0.609

20 ILE ( 20) : 1.551

21 LYS ( 21) : 2.242

22 ARG ( 22) : 0.726

23 LYS ( 23) : -0.425

24 ARG ( 24) : -2.951

25 GLN ( 25) : -5.668

26 GLN ( 26) : -5.238


35

Figura 17 - Modelo para seqüência de gi 229230. Em amarelo, estão localizados os resíduos com baixa qualidade de contato.

Na Figura 18, está a avaliação do modelo de gi 229230, segundo o Verify 3D .Os

11 primeiros resíduos de cada extremidade são desconsiderados, por isso, se encontram no

mesmo patamar. Mesmo sendo utilizado um protocolo de minimização energia para este

modelo, o resultado apresentado, sugere valores negativos de escore, uma informação que não

possibilita classificar este como um bom modelo.

Figura 18 - Representação do perfil 3D do modelo de gi 229230. São desconsiderados os 11 resíduos das extremidades.








36


índice total é -0.036, que está acima do valor médio para uma boa qualidade (-0,5).

O modelo gerado pode ser observado na Figura 21, onde se encontra destacado em

amarelo, um resíduo que possui um valor menor que -5,0 para o índice da qualidade de

contato.


37



1 GLY ( 1) : 0.436

2 ILE ( 2) : 0.927

3 GLY ( 3) : 2.013

4 ALA ( 4) : 1.541

5 ILE ( 5) : 1.832

6 LEU ( 6) : 1.720

7 LYS ( 7) : 2.243

8 VAL ( 8) : -0.752

9 LEU ( 9) : -0.646

10 ALA ( 10) : -3.251

11 THR ( 11) : -2.796

12 GLY ( 12) : -3.205

13 LEU ( 13) : 1.688

14 PRO ( 14) : 0.394

15 THR ( 15) : 0.396

16 LEU ( 16) : 1.049

17 ILE ( 17) : 1.779

18 SER ( 18) : 1.428

19 TRP ( 19) : 1.867

20 ILE ( 20) : 1.616

21 LYS ( 21) : 2.238

22 ASN ( 22) : -0.345

23 LYS ( 23) : -0.712

24 ARG ( 24) : -2.975

25 LYS ( 25) : -4.252

26 GLN ( 26) : -5.642

Índice do modelo: - 0.036

38

Figura 21 - Modelo para seqüência de gi 126956. Em amarelo, está localizado o resíduo com baixa qualidade de contato.

Na Figura 22 está a avaliação do modelo de gi 126956, segundo o Verify 3D. Os



modelo, o resultado apresentado pelo Verify 3D, sugere valores negativos de “score”, uma

informação que não possibilita classificar este como um bom modelo, segundo este validador,

contrariando os resultados do Procheck e Whatif.

Figura 22 - Representação do perfil 3D do modelo de gi 126956 desconsiderados os 11 resíduos das extremidades.






39




índice total é -0.023, que está acima do valor médio para uma boa qualidade (-0,5).


amarelo, um resíduo que possui um valor menor que -5,0 para o índice da qualidade de

contato.


40



1 GLY ( 1) : 0.309

2 ILE ( 2) : 1.004

3 GLY ( 3) : 1.696

4 ALA ( 4) : 1.459

5 ILE ( 5) : 0.328

6 LEU ( 6) : 1.178

7 LYS ( 7) : 1.800

8 VAL ( 8) : -0.439

9 LEU ( 9) : -1.648

10 SER ( 10) : -4.295

11 THR ( 11) : -0.365

12 GLY ( 12) : -2.197

13 LEU ( 13) : 1.339

14 PRO ( 14) : -0.077

15 ALA ( 15) : 0.868

16 LEU ( 16) : 1.579

17 ILE ( 17) : 1.903

18 SER ( 18) : 1.087

19 TRP ( 19) : 1.476

20 ILE ( 20) : 1.125

21 LYS ( 21) : 2.659

22 ARG ( 22) : 1.229

23 LYS ( 23) : -0.293

24 ARG ( 24) : -3.025

25 GLN ( 25) : -5.611

26 GLU ( 26) : -3.604


41

Figura 25 - Modelo para seqüência de gi 126955. Em amarelo, está localizado o resíduo com baixa qualidade de contato.

Na Figura 26 está a avaliação do modelo de gi 126955, segundo o Verify 3D. Os



modelo, o resultado apresentado pelo Verify 3D, sugere valores negativos de “score”, uma

informação que não possibilita classificar este como um bom modelo, segundo este validador,

contrariando os resultados do Procheck e Whatif.





cadeia principal.

Pode-se verificar na Figura 27 e Figura 28 que, pelos resultados do Procheck, este

modelo para a seqüência-alvo de gi 69552, é considerado válido.

42


43



modelo da seqüência de gi 69552.


1 GLY ( 1) : -0.581

2 ILE ( 2) : 1.275

3 GLY ( 3) : 2.007

4 ALA ( 4) : 1.271

5 VAL ( 5) : 1.744

6 LEU ( 6) : 1.894

7 LYS ( 7) : 2.408

8 VAL ( 8) : -0.537

9 LEU ( 9) : -1.265

10 THR ( 10) : -3.716

11 THR ( 11) : -2.754

12 GLY ( 12) : -3.208

13 LEU ( 13) : 1.288

14 PRO ( 14) : 0.779

15 ALA ( 15) : 1.392

16 LEU ( 16) : 1.054

17 ILE ( 17) : 1.275

18 SER ( 18) : 1.688

19 TRP ( 19) : 0.962

20 ILE ( 20) : 1.826

21 SER ( 21) : 0.990

22 ARG ( 22) : 0.722

23 LYS ( 23) : 0.126

24 LYS ( 24) : -1.873

25 ARG ( 25) : -5.747

26 GLN ( 26) : -5.177

27 GLN ( 27) : -7.800


44

Como classificado anteriormente, um bom nível de qualidade para contatos

atômicos seria um valor maior que -1,0. Para o modelo analisado, o índice total é -0.500,

coincidindo com o valor médio para uma boa qualidade.


amarelo, resíduos que apresentam valores menores que -5,0 para o índice da qualidade de

contato.

Figura 29 - Modelo para seqüência de gi 69552. Em amarelo, estão representados os resíduos com baixa qualidade de contato.

Na Figura 30, está a avaliação do modelo de gi 69552, onde os 11 primeiros

resíduos de cada extremidade são desconsiderados. Mesmo apresentando um resíduo com

valor negativo, este foi o melhor modelo gerado para a seqüência-alvo de gi 69552, pois esse

modelo passou pro um protocolo de minimização de energia, e segundo resultado do

Procheck e Verify 3D, é classificado como um bom modelo.


45

Após analisar todos os modelos obtidos e otimizados, e validá-los, conclui-se que

o melhor molde utilizado foi a estrutura 2mlt cadeia B. Mas, é necessário, aplicar técnicas,

como por exemplo de dinâmica molecular, para melhorar os moldes gerados, obtendo

melhores resultados para a validação através do Verify 3D.

3.2 ESTRUTURA DO BANCO DE DADOS

3.2.1 DER

O Diagrama Entidade-Relacionamento (DER) é um modelo em rede que descreve

de forma abstrata os dados armazenados de um sistema (TEOREY et al., 2007). De acordo

com o diagrama entidade-relacionamento do Banco de Dados de Proteínas de Apis mellifera -

BDModel, que se encontra na Figura 31, pode-se observar o relacionamento entre as tabelas

criadas. Esses relacionamentos podem gerar as mais diversas consultas, utilizando suporte à

linguagem de consulta SQL. As informações são retornadas, utilizando PHP e HTML,

podendo visualizar diversos resultados

Figura 31 - Diagrama entidade-relacionamento do sistema.

3.2.2 Dicionário de dados

O Dicionário de Dados é a descrição das características e atributos dos objetos

do modelo apresentado no Diagrama Entidade-Relacionamento. Na primeira coluna da Tabela

9 pode-se encontrar as entidades contidas no BDModel.

46

O banco de dados do sistema é formado por três tabelas. São elas: Seqüência,

Estrutura_PDB, Estrutura_Modelada. Elas são descritas na segunda coluna da Tabela 9.

Tabela 9 - Descrição das tabelas apresentadas no Diagrama Entidade-Relacionamento do sistema em desenvolvimento

Entidade Descrição

Seqüência Armazena as seqüências primárias das proteínas buscadas no GenBank.

Estrutura_PDB Armazena as estruturas terciárias das proteínas encontradas no PBD.

Estrutura_Modelada Armazena as estruturas terciárias modeladas durante o desenvolvimento do

sistema.

Para que se possa apresentar uma variedade de resultados, será necessário fazer

vários tipos de consultas relacionais no banco de dados, para isso serão utilizados scripts em

PHP, como dito anteriormente. A variedade de resultados está relacionada com os atributos

contidos em cada tabela do BDModel. Como por exemplo, na tabela Seqüência, temos os

seguintes atributos:

- idsequencia: identificador da seqüência primária das proteínas no DBMoldel;

- gi: identificador da seqüência no GenBank;

- ref: cabeçalho da seqüência, quando ela está em formato fasta;

- fasta: seqüência primária da proteína no formato fasta, menos o cabeçalho;

- definicao: definição que a seqüência primária da proteína possui no GenBank;

- autor: pessoa que publicou a seqüência primária da proteína no GenBank.

- tipo: classificação da proteína segundo as toxinas selecionadas, como por exemplo,

Melitina, Fosfolipase A2, Apamina, Secapina, Hyaluronidase, Peptídeo Degranulador de

Mastócitos, Fosfatase Ácida, Veneno Protease e Tertiapina (ver Tabela 2);

- nro_amino: número de aminoácidos que formam a seqüência primária da proteína;

- organismo: classificação taxonômica do organismo;

- referencia: campo onde é armazenado, o título da primeira publicação sobre a

seqüência, juntamente com o periódico que foi publicado.

Segue na Tabela 10, as tabelas (entidades) contidas no BDModel, com seus

respectivos atributos e suas descrições.

47

Tabela 10 - Descrição dos atributos das entidades do Diagrama Entidade - Relacionamento do sistema em desenvolvimento

Entidade Atributo

Seqüência

- idsequencia: identificador da seqüência primária das proteínas no DBMoldel;

- gi: identificador da seqüência no GenBank;

- ref: cabeçalho da seqüência, quando ela está em formato fasta;

- fasta: seqüência primária da proteína no formato fasta, menos o cabeçalho;

- definicao: definição que a seqüência primária da proteína possui no GenBank;

- autor: pessoa que publicou a seqüência primária da proteína no GenBank.

- tipo: classificação da proteína segundo as toxinas selecionadas;

- nro_amino: número de aminoácidos que formam a seqüência primária da proteína;

- organismo: classificação taxonômica do organismo;

- referencia: campo onde é armazenado, o título da primeira publicação sobre a

seqüência, juntamente com o periódico que foi publicado.

Estrutura_PDB - isEstruturaPDB: identificador da estrutura 3D no BDModel;

- codigoPDB: identificador da estrutura no banco de dados PDB;

- arquivoPDB: campo texto que armazena o caminho onde se encontra o arquivo

“pdb” da estrutura 3D;

- autor: responsável pela publicação da estrutura

- titulo: título da estrutura 3D no PDB

- metodo_obtencao: método experimental pelo qual a estrutura 3D foi determinada;

- classificacao: classificação da proteína segundo o PDB;

-dt_deposito: data de depósito da estrutura 3D no PDB

Estrutura_Modelada - idEstruturaModelada: identificador da estrutura modelada no BDModel;

- arquivoPDB: campo texto que armazena o caminho para o arquivo “pdb” da

estrutura modelada;

- dt_modelagem: data que foi realizada a modelagem da estrutura;

- autor: nome do responsável por modelar a estrutura 3D;

- similaridade: valor de similaridade a partir do alinhamento das seqüências alvo e

molde;

3.3 DESENVOLVIMENTO DO SISTEMA BDMODEL O sistema, denominado BDModel, foi desenvolvido com a finalidade de

disponibilizar os resultados que foram recolhidos, analisados e desenvolvidos durante o

projeto. O sistema pode ser acessado através do endereço http://gbi.fmrp.usp.br/bdmodel.

48

3.3.1 Interfaces do Sistema

A interface com o usuário representa a principal interação ser humano-

computador, e se torna extremamente importante à medida que a dependência de tarefas

informatizadas aumenta. O projeto de interface de usuário provê os mecanismos de interação

e layout para auxiliarem a relação homem-máquina. Representa também a associação de

fatores humanos, tais como, modelo de usuário, percepção e imagem do sistema com

tecnologias de interface.

A interface gráfica do sistema foi desenvolvida, com a preocupação, de mantê-las

amigáveis e intuitivas para facilitar as interações com os usuários, e também compatíveis aos

navegadores mais utilizados atualmente, como Mozilla Firefox26 e Internet Explorer27.

Inicialmente, foram criados diversos protótipos de interface que, ao longo do

projeto, sofreram algumas modificações, para que a interação entre usuário e sistema, fosse a

mais intuitiva possível. A seguir são apresentadas as principais interfaces do BDModel.

3.3.1.1 Home: Página Inicial

A interface home é a tela inicial do sistema, e pode ser visualizada na Figura 32.

Nela há uma breve introdução do projeto que foi desenvolvido com as modelagens. Apresenta

layout definido em blocos constituindo o topo, menu horizontal, colunas e base.

No topo são apresentados o logotipo e o nome do sistema. O menu horizontal é

exibido abaixo do topo da interface, contendo links direcionados para a própria página (link

Home), para busca de informações contidas no sistema (link Seqüências), e para sugestões e

informações de contato do laboratório e responsáveis pela manutenção do sistema (link Fale

Conosco).

Há três colunas na tela inicial, sendo que a primeira contém um menu vertical e

imagens ilustrativas dinâmicas, a segunda exibe o conteúdo acessado e a terceira exibe uma

caixa para pesquisa na rede e links para as instituições vinculadas ao projeto.

No menu vertical estão listados os links Home, Pesquisa, Seqüências, Ajuda,

Contato, Fale Conosco, Links, que redirecionam para páginas de conteúdo informativo,

buscas no banco de dados e links para páginas de temática relacionada ao sistema. Os créditos

do desenvolvedor do sistema estão na base da página.

26 http:// www.mozillafirefox.com/ 27 http://www.microsoft.com/

49

Figura 32 - Tela inicial do sistema BDModel. Em A) menu vertical contendo links para busca de informações, ajuda na utilização do sistema, contato, fale conosco (através de mensagens) e links relacionados com o projeto; B) menu Horizontal contendo links para busca de informações e fale conosco; C) caixa para pesquisa na rede (internet); D) links para as entidades relacionadas com o projeto.

3.3.1.2 Pesquisa : Uma página de busca

As informações armazenadas no banco de dados do sistema podem ser resgatadas

de duas maneiras. Através de uma pesquisa por atributos (Figura 33) ou por exibição de todas

as informações, de todas as seqüências primárias depositadas (Figura 36). Através do link

Pesquisa, que está fixado no menu vertical, abre-se uma tela, onde se inicia a pesquisa. A

qualquer momento, uma nova pesquisa pode ser iniciada. Nessa tela de Pesquisa (Figura 33),

o usuário deve informar o tipo de informação que busca, optando por buscas de seqüências

primárias e estruturas 3D.

50

Figura 33 – Tela inicial de pesquisa. O usuário deve optar por seqüência primária ou estrutura 3D.

Se a opção escolhida for seqüência primária, uma tela com os atributos referentes a

seqüências primárias são mostrados. Esses campos de pesquisa, inicialmente, estão

desabilitados. O usuário pode escolher pesquisar apenas por um atributo, ou fazer uma busca

utilizando vários atributos. Como mostra a Figura 34, é possível buscar uma seqüência

primária habilitando apenas 2 campos, tipo da proteína e número de aminoácidos. Essa busca

irá varrer o banco de dados do sistema, e exibir todas as seqüências primárias de melitinas que

possuem em sua cadeia 27 aminoácidos.

De forma análoga, o mesmo acontece para busca por estruturas 3D. Na Figura 35,

ocorre uma busca específica por estrutura 3D. Através do código PDB da estrutura é possível

realizar a pesquisa no sistema.

51

Figura 34 – Pesquisa de seqüências primárias. Os campos são os atributos referentes a uma seqüência primária. Esses campos inicialmente estão desabilitados, e quando habilitados podem realizar buscas específicas.

Figura 35 - Pesquisa de estruturas 3D. Os campos são os atributos referentes a uma estrutura 3D. Esses campos inicialmente estão desabilitados, e quando habilitados podem realizar buscas específicas.

52

Quando o usuário deseja verificar todas as informações, de todas as seqüências

depositadas, ele pode realizar uma busca geral através da tela Seqüência. Quando essa busca

é realizada, todas as informações, referentes ao tipo da proteína escolhida, são retornados

numa tela. Na Figura 36, está representada a tela Seqüência, apresentando todos os diferentes

tipos de proteínas armazenados no sistema.

Figura 36 – Tela Seqüência. Quando o usuário deseja exibir todas as informações referentes a seqüências primárias, ele apenas deve escolher o tipo da proteína que está buscando.

No caso, se for escolhida o tipo Melitina, uma tela contendo todas as informações

de todas as seqüências primárias de melitina são retornadas. Representado pela Figura 37,

encontra-se uma parte da exibição do tipo melitina.

Quando uma proteína possui estrutura terciária (experimentalmente resolvida ou

modelada durante o projeto) estará indicado no resultado, um link para as informações da

estrutura 3D dessa proteína. Na Figura 37, pode-se observar que a primeira seqüência

retornada possui estrutura 3D. Quando usuário acessar este link, outra tela de exibição se

abrirá para apresentar os dados referentes àquela estrutura, como representado na Figura 38.

53

Figura 37 – Exibição das informações de seqüências de melitinas. Quando uma proteína possuir estrutura 3D, haverá um link, que quando acessado disponibilizará as informações sobre a estrutura.

A primeira seqüência demonstrada na Figura 37 possui estrutura conhecida. É

possível, se o usuário desejar, visualizar essas informações.

Na Figura 38, observa-se as informações referentes à estrutura 1bh1. Além dessas

informações e da representação gráfica da estrutura, o sistema permite, que seja realizado o

download da estrutura no formato PDB. Também é possível, ao usuário, interagir com a

estrutura através do plugin do JMol28 implementado no sistema, que permite essa interação. O

JMol, permite a visualização gráfica da proteína, e diversas interações estão disponíveis ao

usuário. Essas opções estão representadas na Figura 39.

28 http://jmol.sourceforge.net/

54

Figura 38 – Informações sobre estrutura 3D. Além dessas informações o usuário pode realizar o download da estrutura, em formato fasta, e também interagir com a estrutura através de um plugin do JMol.

Figura 39 – Representação da estrutura de código PDB 1bh1, utilizando um plugin do JMol. O usuário pode interagir com a estrutura de diversas maneiras, dependendo da informação que busca.

55

O sistema possui também, um link de Ajuda, onde são encontradas as perguntas

mais freqüentemente respondidas (FAQ’s), um pequeno manual do sistema, e algumas

informações sobre a realização das modelagens.

Uma tela de Contato onde constam os e-mails dos responsáveis pelo sistema e

também uma tela onde o usuário pode interagir através de mensagens, na tela Fale Conosco.

E por fim, nos Links, encontram-se os principais endereços na rede, de

laboratórios, softwares e afins, relacionados com o projeto.

56

4 CONCLUSÕES

Mesmo com o grande número de depósitos, de novas resoluções de estruturas

protéicas, que estão ocorrendo atualmente, o número total de estruturas conhecidas é bem

inferior ao número de seqüenciamentos que foram realizados e armazenados em bancos de

dados. Para tentar equilibrar esses números, a modelagem molecular computacional vem

sendo utilizada, e por apresentar os melhores resultados, a modelagem comparativa, também

conhecida por modelagem por homologia, vem sendo aplicada cada vez mais, na predição de

estruturas protéicas de possíveis fármacos.

Embora este método teórico seja limitado devido à dependência por estruturas

resolvidas, a modelagem por homologia foi aplicada neste trabalho e apresentou dados

satisfatórios e a validação dos modelos apresentou bons resultados. Os modelos obtidos no

projeto e apresentados aqui podem ser aplicados em estudos de mecanismos catalíticos e

também no desenho racional de fármacos baseados em estruturas.

Bancos de dados biológicos são de extrema importância para o armazenamento e

gerenciamento das mais diversas informações provindas das pesquisas atuais. Seja com

genomas, proteomas, resolução de estruturas, eles são o ponto central para que as informações

sejam propagadas. Todas as informações coletadas durante o projeto, juntamente com os

melhores modelos gerados estão armazenados no sistema BDModel. Este sistema, que

também é apresentado aqui, foi um dos objetivos do projeto.

O sistema BDModel centraliza informações de estruturas protéicas que compõem

o veneno das Apis mellifera, armazenando seqüências primárias, estruturas 3D e modelos 3D

gerados durante o projeto. Encontram-se armazenados no banco de dados do sistema, 95

seqüências primárias contendo suas informações principais, relacionadas com 9 estruturas 3D

com suas principais informações. Também faz parte do banco de dados os 5 melhores

modelos gerados para as seqüências-alvo, com algumas informações, como por exemplo, os

arquivos de validação.

Disponível na Internet através do endereço eletrônico

(http://gbi.fmrp.usp.br/bdmodel), qualquer usuário que desejar pode interagir com o sistema

sem restrições.

Novas estruturas 3D, e até mesmo, novas seqüências primárias poderão ser

inseridas pelo administrador do sistema, para atualização e enriquecimento do banco de dados

estruturado.

57

Como prosseguimento deste trabalho, melhorias, como a possibilidade de incluir

módulos automatizados para geração de modelos 3D, ou então, viabilizar o sistema para

interação com os usuários através de depósitos de modelos gerados por eles, podem ser

realizadas, e mecanismos de administração podem ser aperfeiçoados. Outras técnicas de

otimização dos modelos gerados, também podem ser empregadas, buscando modelos

melhores.

A participação de pesquisadores das áreas biológicas proporcionou confiabilidade

nos dados armazenados, tornando o sistema BDModel mais familiar e claro àqueles usuários

que realmente irão interagir com o sistema.

Assim, as modelagens realizadas e o sistema BDModel, cumpre os requisitos e os

objetivos previamente propostos do projeto, os modelos obtidos foram validados e o sistema

mostra-se eficiente em suas principais funcionalidades, como busca e exibição das

informações de estruturas e seqüências de proteínas contidas no veneno de abelhas.

58

REFERÊNCIAS BIBLIOGRÁFICAS

ALTSCHUL, S. F.; GISH, W.; MILLER, W.; MEYERS, E. W.; LIPMAN, D.J. Basic

local alignment search tool. Journal of Molecular Biology. v. 215, p. 403-410, 1990.

ANDERSON, A.C. The Process of Structure-Based Drug Design. Chemistry &

Biology. 10, 787-797, 2003.

BENNER, S. A.; CANNAROZZI, G.; GERLOFF, D.; TURCOTTE, M.;

CHEVANAYAGAM, G. Chemical Reviews. p. 2725-2844, 1997.

BERMAN, H. M.; WESTBROOK, J.; FENG, G.; GILLILAND, G.; BHAT, T.N.;

WEISSIG, H.; SHINDYALOV, I. N.; BOURNE, P. E. The Protein Data Bank. Nucleic Acids

Res. V. 28, p. 235-242, 2000.

BROADMAN, J. Bee Venom - The Natural Curative for Arthritis and Rheumatism.

New York: Putnam and Sons. p.224, 1962.

CHANG,Y.H. & BLIVEN,M.L. Anti-arthritic effect of bee venom, Agents Actions,

9: 205-11. 1979.

COSTA NETO, E. M.; PACHECO, J. M. Utilização medicinal de insetos no povoado

de Pedra Branca, Santa Terezinha, Bahia, Brasil. Biotemas. v.18, p. 113 - 133, 2005.

D’ALFONSO, G.; TRAMONTANO, A.; LAHM, A. Structural conservation in single-

domain proteins: implications for homology modeling. Journal of Structural Biology. v.

134, p. 246-256, 2001.

D´AVILA, M.; MARCHINI L. C., Polinização realizada por abelhas em culturas de

importância econômica no Brasil. Boletim da Indústria animal. Nova Odessa, v.62, n.1,

p.79-90, 2005.

DEANE, C. M.; BLUNDELL, T. L. Protein comparative modelling and drug

discovery. In WERMUTH, C. G. The Practice of Medicinal Chemistry. London, Elsevier

Academic Press, 2003.

59

FRANÇA, F.O.S.; MEDEIROS, C. R. Acidentes por Abelhas e Vespas. In: Cardoso J.

L. C., França F. O. S., Málaque C. M. S., Jr. Haddad V., Wen F. H..Animais Peçonhentos no

Brasil. 1ª Edição. Sarvier, c. 26, p. 244-245, 2003.

FISER, A.; SALI, A. MODELLER: generation and refinement of homology-based

protein structure models. In Methods in Enzymology, C.W. Carter and R.M. Sweet, eds.

Academic Press, San Diego, 374, p. 463-493, 2003.

GIBAS, C.; JAMBECK, P. Desenvolvendo Bioinformática: ferramentas de

software para aplicações em biologia. Tradução Milarepa Ltda.- Rio de Janeiro: Campus,

2001.

GONÇALVES, L.S. Expansão da apicultura brasileira e suas perspectivas em

relação ao mercado apícola internacional. Anais do XV Congresso Brasileiro de Apicultura

- Natal-RN, 2004.

GUEX, N.; PEITSCH, M.C. Swiss-model and swiss-pdb viewer: Na environment for

comparative protein modeling. Electrophoresis, 18, p.2714, 1997.

HABERMANN, E. Bee and wasp venoms. Science. 1, p.314, 1972.

HIGGINS, D.; THOMPSON, J.; GIBSON, T.; THOMPSON, J.D.; HIGGINS, D.G.;

GIBSON, T.J. CLUSTAL W: improving the sensitivity of progressivemultiple sequence

alignment through sequence weighting,position-specific gap penalties and weight matrix

choice. Nucleic Acids Research. 22 p. 4673-4680, 1994.

HILLISCH, A.; PINEDA, L. F.; HILGENFELD, R. Utility of homology models in the

drug discovery process. Drug Discovery Today. v. 09, p. 659-669, 2004.

HÖLTJE, H. D.; SIPPL, W.; ROGNAN, D.; FOLKERS, G. Introduction to

comparative protein modeling. In Molecular Modeling: Basic Principles and Applications.

Weinheim: Wiley-VCH, 2003.

HOOFT, R. W. W.; VRIEND, G.; SANDER, C.; ABOLA, E. E.; Nature. 381, p. 272,

1996

60

LASKOWSKI, R. A.; MACARTHUR, M. W.; MOSS D. S.; THORNTON, J. M..

PROCHECK: a program to check the stereochemical quality of protein structures. Journal of

Applied Crystallography. 26, p.283-291, 1993.

LUTHY, R., BOWIE, J.U.; EISENBERG, D. Assessment of protein models with

three-dimentional profiles. Nature. 356: 83-85, 1992.

MAIA, A. B. O potencial terapêutico da apitoxina. Mensagem Doce. 66: 15-22. 2002.

MARTÝ-RENOM, M.A.; STUART, A.C.; FISER, A.; SÁNCHEZ, R.; MELO, F.;

ŠALI, A. Comparative protein structure modeling of genes and genomes. Annu. Rev.

Biophys. Biomol. Struct., 29, 291–325, 2000.

MUNIZ, J. R. C. Aplicação da bioinformática nos estudos dos genes e enzimas

envolvidos na síntese da gomafastidiana produzida pela Xylela fastidiosa. 124p.

Dissertação (Mestrado) - Instituto de Física de São Carlos, Universidade de São Paulo, São

Carlos, 2003.

NEEDLEMAN, S.B. & WUNSCH, C.D. A General Method Applicable to the Search

for Similarites in the Amino Acid Sequence of Two Proteins. Journal of Molecular Biology.

48:443-453., 1970.

OWEN, M. D.; PFAFF, L. A. Melittin synthesis in the venom system of the honey bee

(Apis mellifera L.). Toxicon. 33, 1181-8, 1995.

PIEMOLINI, L. T., 2004, Modelagem Estrutural da PHA Sintase de

Chromobacterium violaceum para Estudos de Mutação Sítio-Dirigida, Departamento de

Engenharia Química e Engenharia de Alimentos, Universidade Federal de Santa Catarina,

Florianópolis, Brasil.

PONTIUS, J.; RICHELLE, J.; WODAK, S. J. Journal of Molecular Biology. v. 264,

p 121, 1996.

PRESSMAN, R. S. Software Engineering: A Practitioner's Approach. Thirth

Edition, McGraw-Hill, 1991.

61

RAMACHANDRAN, G. N.; SASISEKHARAN, V.; Advances in Protein

Chemistry. v. 23, p. 283, 1968.

RÖSSLE, S. C. S., Desenvolvimento de um Sistema Computacional para a

Modelagem Comparativa em Genômica Estrutural: Análise de Seqüências do Genoma da

Gluconacetobacter diazotrophicus. D.Sc., Instituto de Biofísica Carlos Chagas Filho,

Universidade Federal do Rio de Janeiro, Rio de Janeiro, Brasil, 2004.

SALI, A. 100,000 protein structures for the biologist. Nature Structural &

Molecular Biology. v. 05, p. 1029-1032, 1998.

SALI, A.; BLUNDELL, T. L. Comparative protein modeling by satisfaction of spatial

restraints. Journal of Molecular Biology. v. 234, p. 779-815, 1993.

SÁNCHEZ, R.; SALI, A. Evaluation of comparative protein structure modeling by

modeler-3. PROTEINS: Structure, Function and Genetics, 29: 50-58, 1997.

SAUDER, J. M.; ARTHUR, J. W.; DUNBRACK, R. L. Proteins. 40, 6, 2000.

SCHAFFERHANS, A.; KLEBE, G. Docking ligands onto binding site representations

derived from proteins. Journal of Molecular Biology. v. 307, p. 407-427, 2001.

SCHIRMER, L.R. Abelhas ecológicas. São Paulo. Nobel, p. 218, 1986.

SCHWEDE, T.; KOPP, J.; GUEX, N.; PEITSCH, M. C. SWISS-MODEL: an

automated protein homology-modeling server. Nucleic Acids Research. v. 31, p. 3381-3385,

2003.

SILVA FILHO, A. Arquitetura de Software, Editora Campus, 2002.

SILVA, V. B.; Estudos de modelagem molecular e relação estrutura atividade da

oncoproteína hnRNP K e ligantes. Faculdade de Ciências Farmacêuticas de Ribeirão Preto,

Universidade de São Paulo, Brasil, 2007.

SILVA, V. B.; SILVA, C. H. T. P. Modelagem molecular de proteínas-alvo por

homologia estrutural. Revista Eletrônica de Farmácia, v. 04, p. 15-26, 2007.

62

TEOREY, T.; LIGHTSTONE, S.; NADEAU, T. Projeto e modelagem de bancos de

dados. Rio de Janeiro. Elsevier, 2007.

VITKUP, D.; MELAMUD, E.; MOULT, J.; SANDER, C. Completeness in structural

genomics. Nature Structural & Molecular Biology. v. 08, p. 559-566, 2001.

VRIEND, G. WHAT IF: A molecular modeling and drug design program. Journal

Molecular Graphics. p. 52-56, 1990.

VRIEND, G.; SANDER, C. Quality control of protein models: directional atomic

contact analysis. Journal of Applied Crystallography, v. 26, p. 47-60, 1993.

WESSELIUS, T.; HEERSEMA, D. J.; MOSTERT, J. P.; HEERINGS, M.;

ADMIRAAL-BEHLOUL, F.; TALEBIAN, A.; VAN BUCHEM, M. A.; DE KEYSER, J. A

randomized crossover study of bee sting therapy for multiple sclerosis

Neurology, 65: 1764 – 1768, 2005.

Modelagem por homologia de estruturas proteicas do veneno de Apis mellifera

Documents

Transcript of Modelagem por homologia de estruturas proteicas do veneno de Apis mellifera