Integrating Protein Structural Information · PDF file Alex Haley, paraphrased. ... Trosset,...

Click here to load reader

  • date post

    07-Aug-2020
  • Category

    Documents

  • view

    1
  • download

    0

Embed Size (px)

Transcript of Integrating Protein Structural Information · PDF file Alex Haley, paraphrased. ... Trosset,...

  • Ludwig Krippahl

    Integrating Protein Structural Information

    Dissertação apresentada para obtenção

    de Grau de Doutor em Bioquímica,

    Bioquímica Estrutural, pela Universidade

    Nova de Lisboa, Faculdade de Ciências e

    Tecnologia.

    LISBOA

    2003

  • i

    To Lena, Bruno, and Vasco

  • iii

    Acknowledgements

    Anytime you see a turtle up on top of a fence post, you know he had some help.

    Alex Haley, paraphrased.

    My work on molecular modelling began eight years ago, as a naïve undergraduate student of a

    bioinorganics course, when I proposed to write a protein docking program instead of the course’s

    regular assignment, which was a simple experimental protocol. Fortunately, the course lecturer was

    both generous and understanding, and let me off with a much simpler task. Little did I know that

    eight years later I would still be working with Professor José Moura on the assignment I had

    initially proposed. What I achieved these seven years I owe to the chance he gave me and to his

    constant support, orientation, and friendship.

    It was also at that time that I began working with Doctor Nuno Palma, and most of my work on

    BiGGER and Chemera was under his supervision. We worked extraordinarily well together, and our

    complementary views on most problems led me much farther than I could ever have gone

    otherwise. Working with Doctor Palma was a wonderful experience, and I could not have

    developed the docking algorithms without his supervision, his knowledge of molecular modelling,

    and his skill at finding the right tests and test cases to show us the problems along the way.

    Professor Pedro Barahona was the lecturer on the constraint programming course in the artificial

    intelligence master programme. Both the subject and the way it was presented aroused my interest

    in constraint programming, and led me to the application of these techniques to protein structure

    and interaction. The PSICO algorithm was developed under the guidance, and with the teachings,

    of Professor Barahona, and much of the credit should go to his orientation, experience, and interest

    in the problem of determining protein structures.

    A lot of work goes into implementing an algorithm. In this book I describe the algorithm itself, but

    gloss over the long labour of transforming an idea into a working application. In this I have to

    thank Marco Correia for his precious assistance and keen eye for my inevitable programming

    errors. His work on profiling and testing PSICO was invaluable in implementing the algorithm and,

    especially, in producing the dynamic link library that will allow the integration of this solver in

    other applications.

  • iv

    I am thankful to my friends, family, and teachers for their contribution, direct or indirect, to this

    work. I thank Professor Victor Teodoro for showing me the beauty of numerical methods; Professor

    John Wampler for a memorable orientation, both for the experience of staying in his lab and for the

    ideas he planted and which grew into much of BiGGER and Chemera; Doctor Graham Pettigrew for

    a our long and fruitful collaboration, and for many delightful conversations; Doctor Sofia Pauleta

    and Patrícia Raleiras for their patience in bearing with the constant changes of the docking

    algorithms; Doctor Xavier Morelli, for his work with docking and constraints, a major factor in the

    development of the constraint processing systems in BiGGER; Doctor Brian Goodfellow and Doctor

    Anjos Macedo for their precious help with the NMR techniques; Professor Isabel Moura for her

    support; Doctors Francoise Guerlesquin, Antonio Rosatto, Tom Dietterich, Xin Wang, Michael

    Trosset, Jorge Cruz, Francisco Azevedo and Paula Amaral for fruitful discussions and their help.

    I am most grateful to my family for their support, especially all those times my work on this project

    kept me from the duties (and pleasures) of fatherhood.

  • v

    Sumário

    O tema principal deste trabalho é a aplicação de técnicas de programação por restrições e outras

    técnicas de inteligência artificial à modelação de estrutura e interacção de proteínas, com o

    objectivo de melhor combinar dados experimentais com métodos de previsão estrutural.

    A primeira parte desta dissertação introduz os temas principais de estrutura de proteínas e

    programação por restrições, resume as técnicas mais recentes de modelação de estruturas e

    complexos de proteínas, descreve o contexto em que se inserem as técnicas descritas nas partes

    subsequentes, e delineia o ponto fulcral da tese: a integração de dados experimentais na

    modelação.

    O primeiro capitulo, Protein Structure, introduz o leitor às noções básicas de estrutura de amino

    ácidos, cadeias proteicas, e enrolamento e interacção de proteínas. Estes são conceitos importantes

    para compreender o trabalho descrito nas partes dois e três..

    O segundo capitulo, Protein Modelling, dá uma visão breve das técnicas experimentais e de

    previsão teórica usadas para criar modelos de estruturas proteicas. Este capítulo dá o contexto

    onde se insere o trabalho descrito nas partes dois e três, mas não é essencial para a compreensão

    dos algoritmos apresentados.

    O terceiro capítulo, Constraint Programming, delineia os conceitos principais desta técnica de

    programação. A compreensão de métodos de modelação de variáveis, noção de consistência e

    programação, e de métodos de pesquisa ajudará o leitor interessado nos detalhes dos algoritmos

    descritos na segunda parte desta dissertação.

    O quarto capítulo, Integrating Structural Information, resume a tese aqui proposta, os objectivos

    deste trabalho, e dá uma ideia de como os algoritmos desenvolvidos podem contribuir para a

    modelação de estruturas de proteínas. O objective principal é obter um sistema flexível e em

    evolução continua para a integração de dados experimentais e previsões teóricas.

    A segunda parte descreve os algoritmos desenvolvidos, que são a principal contribuição original

    deste trabalho. Esta parte é especialmente dedicada a leitores interessados em confirmar os

    resultados, em melhorar os métodos propostos, ou em integrar estes algoritmos em outros

    programas. Os aspectos bioquímicos são descritos apenas brevemente e só quando estritamente

    necessário, visto ser esta parte dedicada principalmente aos algoritmos e ao código.

  • vi

    O capitulo cinco, The PSICO Algorithm, descreve as componentes principais deste agoritmo para

    previsão e determinação de estruturas de proteínas. Estas incluem a modelação de domínios e

    variáveis, restrições binárias de distância, restrições sobre grupos rígidos e ângulos de torção, e

    detecção de sobreposições de átomos. Este capitulo descreve também como os diferentes métodos

    de propagação são integrados e as heurísticas usadas para guiar a pesquisa de soluções.

    O sexto capitulo, The BiGGER Algorithm, descreve o algoritmo de modelação de complexos de

    proteínas. Detalha o filtro geométrico e a pesquisa geométrica de modelos candidatos, e o

    algoritmo de avaliação que estima a viabilidade destes modelos. O capitulo seis descreve também

    a integração de restrições experimentais na fase de pesquisa e eliminação, usando técnicas de

    programação por restrições..

    O capítulo sete, Algorithms in Chemera, descreve um conjunto de algoritmos auxiliares para

    visualizar estruturas e propriedades de proteínas. Alguns dos algoritmos apresentados neste

    capítulo tais como os de agrupamento ou avaliação de simetria de complexos são um

    complemento ao algoritmo BiGGER, permitindo um processamento adicional dos modelos gerados

    pelo algoritmo de previsão de complexos.

    A terceira parte desta dissertação apresenta os resultados experimentais usados para testar e

    parameterizar os algoritmos, bem como exemplos de aplicações práticas a casos reais, e é parte da

    contribuição original deste trabalho.

    O capítulo oito foca os testes do algoritmo PSICO, usando principalmente dados simulados. Este

    capítulo delineia também alguns problemas que só poderão ser adequadamente resolvidos quando

    o algoritmo começar a ser aplicado a casos reais.

    O capítulo nove descreve a parameterização da fase de pesquisa e triagem geométrica do

    algoritmo BiGGER, bem como o trabalho mais recente no aperfeiçoamento das funções de

    avaliação dos modelos gerados.

    O capítulo dez é uma selecção de aplicações práticas de ambos os algoritmos BiGGER e PSICO. A

    maioria destas aplicações contou com a colaboração de vários grupos de investigação que

    forneceram os dados experimentais. Todos os exemplos referem-se ao algoritmo BiGGER e a

    previsão de complexos proteicos, por ser este o algoritmo mais maduro, já em fase avançada de

    utilização. Duas excepções são a Dynamic Link Library do algoritmo PSICO, concebida para permitir

    a integração fácil deste algoritmo em qua