Predição de estruturas secundárias de proteínas utilizando redes neurais artificiais...
-
Upload
lucas-chan -
Category
Documents
-
view
214 -
download
0
Transcript of Predição de estruturas secundárias de proteínas utilizando redes neurais artificiais...
Predição de estruturas secundárias de proteínas utilizando redes
neurais artificiais
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
• Introdução– Motivação– Proteínas– Estruturas de Proteínas– Redes Neurais Artificiais
• Objetivo• Metodologia• Resultados• Conclusões• Trabalhos Futuros
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução - Motivação
• O processo para catalogar as estruturas das proteínas em laboratório ainda é considerado financeiramente pouco viável.
• Busca-se utilizar a computação para fazer com que esse processo seja financeiramente viável mantendo os resultados confiáveis;
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução - Proteínas• São os componentes básicos de todo organismo desempenhando funções variadas;
• Ter o conhecimento dessas funções é de grande utilidade, pois com essas informações pode-se diagnosticar doenças, descobrir curas, desenvolver novos medicamentos, entre outras inúmeras utilidades.
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução - Proteínas
A função de uma proteína é determinada por sua estrutura tridimensional, e esta pela natureza e seqüência de seus aminoácidos constituintes.
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução - Proteínas
• Aminoácidos são compostos orgânicos que possuem uma estrutura básica comum, consiste de um carbono central, o qual possui quatro ligantes diferentes, um grupo carboxila (COOH), um grupo amino (NH2) e um radical R também chamado cadeia lateral do aminoácido.
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução - Proteínas
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução - Proteínas
• Funções das proteínas • Catalisadoras • Transportadoras• Contráteis ou de movimento• Estruturais• De defesa
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução – Estruturas de Proteínas• Estrutura primária
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução – Estruturas de Proteínas• Estrutura secundária
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução – Estruturas de Proteínas• Estrutura terciária
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução – Redes Neurais Artificiais RNAs
• Definição: “são sistemas paralelos distribuídos compostos por unidades de processamento simples chamados neurônios artificiais”;
• Dentre suas funções pode-se destacar a classificações de padrões;
• Simula funcionamento do cérebro humano
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Introdução – Redes Neurais Artificiais• O modelo de neurônio artificial apresenta:
entradas, pesos, unidade de processamento e saída.
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Objetivo
• Este trabalho objetiva prever a estrutura
secundária da proteína através de sua estrutura
primária utilizando RNAs como preditor;
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Metodologia
• Obtenção dos dados.• O banco de dados público de proteínas
Protein Data Bank, PDB, foi utilizado para a obtenção dos dados.
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Metodologia
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
• A rede deverá ser modelada da seguinte maneira:• Subseqüências extraídas da estrutura
primária serão as entradas da rede.• As estruturas secundárias destas
subseqüências servirão como um vetor de valores esperados para a rede.
• Deve-se selecionar uma topologia, o algoritmo de treinamento e os ajustes dos parâmetros da rede.
Metodologia
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
• Foi utilizado o Matlab 6.0 para a realização do treinamento e teste das RNAs;
Metodologia
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Resuldados• Filtragem
A filtragem foi realizada obtendo subseqüências com tamanho de 10 aminoácidos.
• CodificaçãoA codificação dos dados adotada foi por fator de
hidrofobicidade.
Para realização da filtragem e da codificação, foram desenvolvidos softwares na linguagem Java.
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Resultados
• Dos dados obtidos, cerca de 70 % deles foram separados para o treinamento, e os outros 30% foram separados para validação da rede.
Estrutura Para 70% dos dados
Para 30% dos dados
Alfa-Helice 29794 12770Folha-Beta 20286 8694
Coil 13313 5706Total 63393 27170
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Resultados
• Várias topologias de redes Multi layer perceptron foram testadas;
• Assim como vários algoritmos de treinamento disponíveis no toolbox do MatLab 6.0;
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Resultados• A rede treinada que obteve melhor desempenho
foi:– Backpropagation com taxa de aprendizado
adaptativa;– Taxa de momentum;– Funções de ativação tangente hiperbólica
sigmoidal nas camadas intermediárias e de saída, respectivamente;
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Resultados• 10 neurônios camada de entrada• 55 neurônios camada intermediária• 3 neurônios camada de saída
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Resultados• Com o treinamento a rede obteve uma taxa de
acertos totais de 78.1%, sendo que para Alfa-Helices a taxa foi de 89%, para folha-Beta a taxa foi de 77 % e de Coil a taxa foi de 68.3 %
Estrutura Performance (%)Alfa-Helice 89Folha-Beta 77
Coil 68.3Total 78.1
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
ResultadosID método ano performance (%)
1 cadeias de markov 2006 70.3
2 estatístico 1998 72.9
3 rede neural 2005 73.5
4 logica fuzzy 2005 75.75
5 support vector machine 2001 76.2
6 estatístico 2002 76.5
7 support vector machine 2007 77
8 rede neural 2008 78.1
9 rede neural 2004 79
10 rede neural 2000 80
11 rede neural 2006 80
12 estatístico 2005 80.7-81.7
13 rede neural 2005 81.8
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Conclusões• A falta de informações detalhadas na
literatura sobre o processo de construção dos preditores não permitiu uma avaliação conclusiva sobre os resultados encontrados;
• A complexidade do problema o torna difícil de se tratar, ficando evidente pelo baixo nível de exatidão dos resultados.
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
Trabalhos Futuros• Utilizar RNAs independentes para os três tipos
de estruturas a fim de tentar melhorar a taxa de generalização;
• Realizar o treinamento das RNAs por novos algoritmos de treinamento como o algoritmo de treinamento Multi-Objetivo.
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues
FIM
Universidade Federal de LavrasDepartamento de Ciência da Computação
Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues