Integrating Protein Structural Information · PDF file Alex Haley, paraphrased. ... Trosset,...
date post
07-Aug-2020Category
Documents
view
1download
0
Embed Size (px)
Transcript of Integrating Protein Structural Information · PDF file Alex Haley, paraphrased. ... Trosset,...
Ludwig Krippahl
Integrating Protein Structural Information
Dissertação apresentada para obtenção
de Grau de Doutor em Bioquímica,
Bioquímica Estrutural, pela Universidade
Nova de Lisboa, Faculdade de Ciências e
Tecnologia.
LISBOA
2003
i
To Lena, Bruno, and Vasco
iii
Acknowledgements
Anytime you see a turtle up on top of a fence post, you know he had some help.
Alex Haley, paraphrased.
My work on molecular modelling began eight years ago, as a naïve undergraduate student of a
bioinorganics course, when I proposed to write a protein docking program instead of the course’s
regular assignment, which was a simple experimental protocol. Fortunately, the course lecturer was
both generous and understanding, and let me off with a much simpler task. Little did I know that
eight years later I would still be working with Professor José Moura on the assignment I had
initially proposed. What I achieved these seven years I owe to the chance he gave me and to his
constant support, orientation, and friendship.
It was also at that time that I began working with Doctor Nuno Palma, and most of my work on
BiGGER and Chemera was under his supervision. We worked extraordinarily well together, and our
complementary views on most problems led me much farther than I could ever have gone
otherwise. Working with Doctor Palma was a wonderful experience, and I could not have
developed the docking algorithms without his supervision, his knowledge of molecular modelling,
and his skill at finding the right tests and test cases to show us the problems along the way.
Professor Pedro Barahona was the lecturer on the constraint programming course in the artificial
intelligence master programme. Both the subject and the way it was presented aroused my interest
in constraint programming, and led me to the application of these techniques to protein structure
and interaction. The PSICO algorithm was developed under the guidance, and with the teachings,
of Professor Barahona, and much of the credit should go to his orientation, experience, and interest
in the problem of determining protein structures.
A lot of work goes into implementing an algorithm. In this book I describe the algorithm itself, but
gloss over the long labour of transforming an idea into a working application. In this I have to
thank Marco Correia for his precious assistance and keen eye for my inevitable programming
errors. His work on profiling and testing PSICO was invaluable in implementing the algorithm and,
especially, in producing the dynamic link library that will allow the integration of this solver in
other applications.
iv
I am thankful to my friends, family, and teachers for their contribution, direct or indirect, to this
work. I thank Professor Victor Teodoro for showing me the beauty of numerical methods; Professor
John Wampler for a memorable orientation, both for the experience of staying in his lab and for the
ideas he planted and which grew into much of BiGGER and Chemera; Doctor Graham Pettigrew for
a our long and fruitful collaboration, and for many delightful conversations; Doctor Sofia Pauleta
and Patrícia Raleiras for their patience in bearing with the constant changes of the docking
algorithms; Doctor Xavier Morelli, for his work with docking and constraints, a major factor in the
development of the constraint processing systems in BiGGER; Doctor Brian Goodfellow and Doctor
Anjos Macedo for their precious help with the NMR techniques; Professor Isabel Moura for her
support; Doctors Francoise Guerlesquin, Antonio Rosatto, Tom Dietterich, Xin Wang, Michael
Trosset, Jorge Cruz, Francisco Azevedo and Paula Amaral for fruitful discussions and their help.
I am most grateful to my family for their support, especially all those times my work on this project
kept me from the duties (and pleasures) of fatherhood.
v
Sumário
O tema principal deste trabalho é a aplicação de técnicas de programação por restrições e outras
técnicas de inteligência artificial à modelação de estrutura e interacção de proteínas, com o
objectivo de melhor combinar dados experimentais com métodos de previsão estrutural.
A primeira parte desta dissertação introduz os temas principais de estrutura de proteínas e
programação por restrições, resume as técnicas mais recentes de modelação de estruturas e
complexos de proteínas, descreve o contexto em que se inserem as técnicas descritas nas partes
subsequentes, e delineia o ponto fulcral da tese: a integração de dados experimentais na
modelação.
O primeiro capitulo, Protein Structure, introduz o leitor às noções básicas de estrutura de amino
ácidos, cadeias proteicas, e enrolamento e interacção de proteínas. Estes são conceitos importantes
para compreender o trabalho descrito nas partes dois e três..
O segundo capitulo, Protein Modelling, dá uma visão breve das técnicas experimentais e de
previsão teórica usadas para criar modelos de estruturas proteicas. Este capítulo dá o contexto
onde se insere o trabalho descrito nas partes dois e três, mas não é essencial para a compreensão
dos algoritmos apresentados.
O terceiro capítulo, Constraint Programming, delineia os conceitos principais desta técnica de
programação. A compreensão de métodos de modelação de variáveis, noção de consistência e
programação, e de métodos de pesquisa ajudará o leitor interessado nos detalhes dos algoritmos
descritos na segunda parte desta dissertação.
O quarto capítulo, Integrating Structural Information, resume a tese aqui proposta, os objectivos
deste trabalho, e dá uma ideia de como os algoritmos desenvolvidos podem contribuir para a
modelação de estruturas de proteínas. O objective principal é obter um sistema flexível e em
evolução continua para a integração de dados experimentais e previsões teóricas.
A segunda parte descreve os algoritmos desenvolvidos, que são a principal contribuição original
deste trabalho. Esta parte é especialmente dedicada a leitores interessados em confirmar os
resultados, em melhorar os métodos propostos, ou em integrar estes algoritmos em outros
programas. Os aspectos bioquímicos são descritos apenas brevemente e só quando estritamente
necessário, visto ser esta parte dedicada principalmente aos algoritmos e ao código.
vi
O capitulo cinco, The PSICO Algorithm, descreve as componentes principais deste agoritmo para
previsão e determinação de estruturas de proteínas. Estas incluem a modelação de domínios e
variáveis, restrições binárias de distância, restrições sobre grupos rígidos e ângulos de torção, e
detecção de sobreposições de átomos. Este capitulo descreve também como os diferentes métodos
de propagação são integrados e as heurísticas usadas para guiar a pesquisa de soluções.
O sexto capitulo, The BiGGER Algorithm, descreve o algoritmo de modelação de complexos de
proteínas. Detalha o filtro geométrico e a pesquisa geométrica de modelos candidatos, e o
algoritmo de avaliação que estima a viabilidade destes modelos. O capitulo seis descreve também
a integração de restrições experimentais na fase de pesquisa e eliminação, usando técnicas de
programação por restrições..
O capítulo sete, Algorithms in Chemera, descreve um conjunto de algoritmos auxiliares para
visualizar estruturas e propriedades de proteínas. Alguns dos algoritmos apresentados neste
capítulo tais como os de agrupamento ou avaliação de simetria de complexos são um
complemento ao algoritmo BiGGER, permitindo um processamento adicional dos modelos gerados
pelo algoritmo de previsão de complexos.
A terceira parte desta dissertação apresenta os resultados experimentais usados para testar e
parameterizar os algoritmos, bem como exemplos de aplicações práticas a casos reais, e é parte da
contribuição original deste trabalho.
O capítulo oito foca os testes do algoritmo PSICO, usando principalmente dados simulados. Este
capítulo delineia também alguns problemas que só poderão ser adequadamente resolvidos quando
o algoritmo começar a ser aplicado a casos reais.
O capítulo nove descreve a parameterização da fase de pesquisa e triagem geométrica do
algoritmo BiGGER, bem como o trabalho mais recente no aperfeiçoamento das funções de
avaliação dos modelos gerados.
O capítulo dez é uma selecção de aplicações práticas de ambos os algoritmos BiGGER e PSICO. A
maioria destas aplicações contou com a colaboração de vários grupos de investigação que
forneceram os dados experimentais. Todos os exemplos referem-se ao algoritmo BiGGER e a
previsão de complexos proteicos, por ser este o algoritmo mais maduro, já em fase avançada de
utilização. Duas excepções são a Dynamic Link Library do algoritmo PSICO, concebida para permitir
a integração fácil deste algoritmo em qua