7 Predição de estruturas de proteínas e construção de ... · Métodos para determinação de...

18
!"#$%#!& ! PREDIÇÃO DE ESTRUTURAS DE PROTEÍNAS E CONSTRUÇÃO DE REDES DE INTERAÇÃO PROTEICA Marcos T. Geraldo Guilherme Valente PREDIÇÃO DE ESTRUTURAS DE PROTEÍNAS MARCOS T. GERALDO

Transcript of 7 Predição de estruturas de proteínas e construção de ... · Métodos para determinação de...

!"#$%#!&'

!'

PREDIÇÃO DE ESTRUTURAS DE PROTEÍNAS E

CONSTRUÇÃO DE REDES DE INTERAÇÃO PROTEICA

Marcos T. Geraldo Guilherme Valente

PREDIÇÃO DE ESTRUTURAS DE

PROTEÍNAS MARCOS T. GERALDO

!"#$%#!&'

('

Métodos para determinação de estrutura proteica

Cristalografia de raio-X

NMR (Nuclear magnetic resonance)

Microscopia crioeletrônica

Modelagem por homologia

Threading

Ab initio

Abordagens experimentais

Abordagens computacionais (modelos teóricos)

Modelagem por homologia

As estruturas se conservam mais durante a evolução do que a estrutura primária das proteínas.

Na ausência de dados experimentais, a construção de modelos

baseados na estrutura tridimensional de proteínas homólogas é um dos métodos mais confiáveis para a obtenção da informação estrutural.

!"#$%#!&'

)'

Escolhido o template, segue-se para a etapa de geração do modelo

Há vários programas que realizam modelagem por homologia

http://salilab.org/modeller/

Exemplo:

!"#$%#!&'

&'

Ab initio / de novo

Construção de modelos estruturais baseado nas propriedades físicas dos aminoácidos (sem template!)

Método ainda em desenvolvimento (imprecisão)

Somente é possível modelar pequenos trechos de sequências

É o método mais custoso computacionalmente

!"#$%#!&'

*'

Forma intermediária entre o método de homologia e o ab initio

Opera através de um reconhecimento de fold (fold recognition)

Utilizado para sequências de proteínas que não possuem uma proteína homóloga no banco de dados de estrutura

Lembre-se Sequências diferentes podem gerar estruturas

semelhantes!

No método de threading, cada aminoácido da sequência a ser modelada é posicionado (alinhado) à estrutura de um possível template

É avaliado o quão bem cada aminoácido “se encaixa” no template

Isto é feito até que o melhor template seja escolhido

THREADING

http://zhanglab.ccmb.med.umich.edu/I-TASSER/

!"#$%#!&'

+'

Análise de Interações

Ligações de hidrogênio

Pontes salinas Interações hidrofóbicas

http://www.ebi.ac.uk/thornton-srv/software/LIGPLOT/

http://www.ebi.ac.uk/msd-srv/prot_int/pistart.html

http://www.ks.uiuc.edu/Research/vmd/

http://www.cgl.ucsf.edu/chimera/

Desenvolvimento de um

método de predição de

interação entre proteínas

usando machine learning

Guilherme T. Valente FCA-UNESP [email protected]

!"#$%#!&'

%'

Protein-protein interactions - PPIs

-  P r o t e í n a s - b i o m o l é c u l a s m a i s abundantes;

-  Atuam em todas as vias biológicas;

Protein-protein interactions - PPIs

-  P r o t e í n a s - b i o m o l é c u l a s m a i s abundantes;

-  Atuam em todas as vias biológicas;

-  Entendimento do cerne de traços complexos;

-  Entendimento da interação molecular entre um patógeno e o hospedeiro;

-  Pode contribuir para o design de drogas;

!"#$%#!&'

"'

PPIs – um nível do sistema

Joyce e Palsson (2006). Nature. Karr et al. (2012). Cell.

Modelo computational do ciclo de vida de uma célula de M. genitalium

Omics e biologia de sistemas

Machine learning

-  Definição?

Arthur Samuel - Stanford

1959 – Área de estudo que permite aos

computadores um aprendizado sem a

necessidade de ser explicitamente programado.

!"#$%#!&'

,'

Machine learning

-  Sub-área da inteligência artificial; -  Lida com data mining; -  Extrair padrões de um conjunto de dados

Machine learning

- Supervised learning

- Unsupervised learning

- Semisupervised learning

!"#$%#!&'

!$'

Construção de um preditor

!"#"$%&'(')'*+,"-'./)%0,"

"""1'./)%0,2"&%'3+,2".,&%.45-,2"%"-'./)%0'2".6&'('2"-'./7&,-+'8,+2"

9"#":3%(+&'3"8;'<78+=%32,)"

""":%>7%8'"78+=%32'"(%"/3'&%?8,2"%"*%3,).%8&%"%2/6-+%<%2/%-?@-'"

A" #" :3'B)%.," %." ,)*782" /3'-%(+.%8&'2"

.%&'(')C*+-'2"

!"#$%#!&'

!!'

UNISPPI

The Development of a Universal In Silico Predictor ofProtein-Protein InteractionsGuilherme T. Valente1*., Marcio L. Acencio2., Cesar Martins1, Ney Lemke2

1Department of Morphology, UNESP – Univ Estadual Paulista, Botucatu, Sao Paulo, Brazil, 2Department of Physics and Biophysics, UNESP – Univ Estadual Paulista,

Botucatu, Sao Paulo, Brazil

Abstract

Protein-protein interactions (PPIs) are essential for understanding the function of biological systems and have beencharacterized using a vast array of experimental techniques. These techniques detect only a small proportion of all PPIs andare labor intensive and time consuming. Therefore, the development of computational methods capable of predicting PPIsaccelerates the pace of discovery of new interactions. This paper reports a machine learning-based prediction model, theUniversal In Silico Predictor of Protein-Protein Interactions (UNISPPI), which is a decision tree model that can reliably predictPPIs for all species (including proteins from parasite-host associations) using only 20 combinations of amino acidsfrequencies from interacting and non-interacting proteins as learning features. UNISPPI was able to correctly classify 79.4%and 72.6% of experimentally supported interactions and non-interacting protein pairs, respectively, from an independenttest set. Moreover, UNISPPI suggests that the frequencies of the amino acids asparagine, cysteine and isoleucine areimportant features for distinguishing between interacting and non-interacting protein pairs. We envisage that UNISPPI canbe a useful tool for prioritizing interactions for experimental validation.

Citation: Valente GT, Acencio ML, Martins C, Lemke N (2013) The Development of a Universal In Silico Predictor of Protein-Protein Interactions. PLoS ONE 8(5):e65587. doi:10.1371/journal.pone.0065587

Editor: Peter Csermely, Semmelweis University, Hungary

Received March 22, 2013; Accepted April 27, 2013; Published May 31, 2013

Copyright: ! 2013 Valente et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permitsunrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

Funding: This work received financial support from FAPESP, grant numbers 2009/05234-4 and 2013/02018-4, and from CNPq, grant number 475147/2010-3. Thefunders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript.

Competing Interests: The authors have declared that no competing interests exist.

* E-mail: [email protected]

. These authors contributed equally to this work.

Introduction

Graph or network theory has been used to model complexsystems such as social and biological aspects [1,2], and provides agood interface between the reductionist and holistic views [3]. Inbiological networks, the nodes represent biological elements (e.g.biomolecules) and links or edges represent physical or functionalinteractions among these biological elements [3]. These networkshave shown to be useful for deciphering the behavior of biologicalsystems and their computational inference can sharply reduce thecosts of experimental identification of novel interactions [1,3] witha high applicability to drug targets discovery, for example [3].Usually, the predictions are based on similarity-based algorithms,maximum likelihood methods or probabilistic methods; the typicalapplications of those algorithms are concerning the reconstructionof networks, evaluation of network evolving mechanism, andclassification of partially labeled networks [1]. In the molecularnetworks, the links can be predicted based on the node features(e.g. protein sequences or domains), by the similarities of edgeneighborhood, by comparisons to an appropriated model, bynetwork topology, and so on [3].Proteins are one of the most abundant classes of biomolecules

that can interact with many other biomolecules in cells, such asDNA, RNA, metabolites and other proteins. The latter interac-tions – protein-protein interactions (PPIs) – are essential interac-tions that build functional units responsible for the functioning ofall biological molecular pathways [4]. Consequently, building a list

of all of an organism’s PPIs can be useful for the molecular-levelunderstanding of the core of complex traits. Therefore, thecollection of all PPIs can be important for understanding theunderlying mechanisms of diseases, facilitating the process of drugdesign, elucidating the functions of newly identified proteins,predicting their subcellular location and gaining insight into theevolution of some interaction or metabolic pathways, among otherbiological aspects of a cell or organism.Physical PPIs can be identified using experimental methods,

such as the yeast two-hybrid assay, mass spectrometry, proteinmicroarrays, phage display, X-ray crystallography, fluorescenceresonance energy transfer, surface plasmon resonance, atomicforce microscopy and electron microscopy [5]. However, theseexperiments, in addition to being expensive and time demanding,are not suitable for all proteins and do not report all interactionsthat can occur in cells or organisms [5–7]. Therefore, acomputational approach capable of reliably predicting PPIs canidentify the potential interactions to be further interrogated usingexperimental approaches.Several computational methods for predicting physical or

functional protein interactions based on the information fromseveral experimental and computational approaches, such asphylogenetic profile analysis, gene co-expression profiles, sequenceco-evolution, synthetic lethality data, in silico two-hybrid systems,gene cluster and gene neighbor analysis, protein domaininformation [7,8], protein interface analysis, protein dockingmethods [9,10], and orthology and ontology information [11],

PLOS ONE | www.plosone.org 1 May 2013 | Volume 8 | Issue 5 | e65587

D3%>7%8-+,"EF"(%"-,(,",,G"

1'./'2+H;'"EF"(%"-,(,"*37/'"(%"1DG"

!"#$%#!&'

!('

I+2-3%5J,H;'"

400

441

841

20 21 41

K&3+B7&'2"#"/3'/3+%(,(%2"(%"7.,"+82&L8-+,"

!"#$%#!&'

!)'

M3%+8'"('"K/3%8(+J,('"(%"

$4>7+8,"

NAOAPQ"%0%./)'2R"&'&,)"(%"9!"%2/6-+%2""

!"#$%#!&'

!&'

1'./'2+H;'"#"8;'"/'227+"

,2"+8S'3.,HT%2".,+2"

3%)%=,8&%2O"

:%3S'3.,8-%"/3%(+5=,"

:3+.%+3'"8?=%)"

--'./0'1'!$$2'34'--'564/40748'U%*78('"8?=%)"

--'9:/';'*&8&2'34'--'564/4074<'--'=>4'1'(+8*2'34'--'564/4074<'--'./0'1'!,8!2'34'--'564/40748"

V3='3%"(%"(%-+2;'"

K28WK28X" Y)%WY)%" %" 1Z2W1Z2" /'227%." .,+'3%2"

=,)'3%2" (%" ?8(+-%" (%" /3%S%3[8-+," 3%),-+'8,('2"

,2",84)+2%2"(%"-'8&,&'2"+8&%3<-,(%+,2R"

\22%2" ,," %2&;'" /3%2%8&%2" 8," +8&%3S,-%R" :'8&%2"

(%"(+227)S%&'"2;'"+./'3&,8&%2"/,3,"::Y2O"

!"#$%#!&'

!*'

M%2&%"(%"1),22+@-,H;'"

N9ON]A"%0%./)'2R"&'&,)"(%"^_"%2/6-+%2""

!"#$%#!&'

!+'

F normal consensus model

F’ normal consensus model

Plasmodium falciparum e humanos; virus da imuno-deficiência humana, vírus Epstein-Barr, influenza A, cytomegalovirus humano, vírus símio, hepatite de chimpanzee e humanos como hospedeiros; vírus Sendai

mouse como hospedeiro; fago e Escherichia coli como hospedeiro

\7-,3+'8&%2"

:3'-,3+'&%2"

`?372"

M+/'2"-%)O"

^_"%2/6-+%2"

!"#$%#!&'

!%'

Novidades do UNISPPI -  Um dos menores atributos (20);

-  Baseado apenas na sequencia de aminoácidos!!!!

-  Revelou a importância dos atributos simétricos;

-  Gera “pequenos inputs” (ex. >770 milhões - ~50 Gbyte);

-  Um dos maiores set de treinamento;

-  Todos os exemplos são experimentalmente validados e incluem diversas

espécies;

-  O maior test set e incluiu diversas espécies;

-  Pode ser facilmente utilizado em procedimentos em larga-escala.

Uso do UNISPPI

1- Estudos de determinação e diferenciação sexual em vertebrados (Valente et al. em

preparação);

2- Gerar redes PPIs de Neospora caninum (Pollo-Oliveira et al. 2013);

3- Predizer interação entre proteínas positivamente selecionadas de T. cruzy e

Leischmania contra o proteoma de mamíferos (Lopez et al. em preparação);

!"#$%#!&'

!"'

JANEIRO-2015 I curso em genômica na Engenharia de Bioprocessos

e Biotecnologia Módulo: Introdução à bioinformática e suas aplicações Introdução à bioinformática; Introdução à programação em bioinformática; Tecnologias de sequenciamento de DNA; Manipulação de dados de next- generation sequencing; Anotação de transcritos e genomas; Identificação e anotação de elementos repetitivos em dados de next-gen; Princípios das análises filogenética e genômica comparativa; Filogenômica; Proteômica; ncRNAs e surgimento de genes novos; Modelagem de biomolecular: princípios e aplicações; Modelagem de biomoléculas: proteínas; Modelagem de biomoléculas: motores moleculares; Biblioteca conformacional de Anticorpos: Inovação no desenvolvimento de Vacinas; Aprendizado de máquina; Biologia de sistemas e biologia sintética: dois lados de uma mesma moeda

[email protected]

Biologia de sistemas e biologia sintética aplicado ao estudo de

bioenergia