Post on 20-Oct-2019
PONTIFICIA UNIVERSIDADE CATOLICA DE MINAS GERAIS
Programa de Pos-Graduacao em Informatica
Bruno Cesar dos Santos
ALGORITMO GENETICO MULTIOBJETIVO PARA
SELECAO DE ATRIBUTOS APLICADO A PREDICAO DE
FUNCAO DE PROTEINA
Belo Horizonte
2017
Bruno Cesar dos Santos
ALGORITMO GENETICO MULTIOBJETIVO PARA
SELECAO DE ATRIBUTOS APLICADO A PREDICAO DE
FUNCAO DE PROTEINA
Dissertacao apresentada ao Programa dePos-Graduacao em Informatica da PontifıciaUniversidade Catolica de Minas Gerais, comorequisito parcial para obtencao do tıtulo deMestre em Informatica.
Orientador: Prof. Dr. Luis EnriqueZarate Galvez
Belo Horizonte
2017
FICHA CATALOGRÁFICA
Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais
Santos, Bruno César dos
S237a Algoritmo genético multiobjetivo para seleção de atributos aplicado a
predição de função de proteína / Bruno César dos Santos. Belo Horizonte,
2017.
88 f. : il.
Orientador: Luis Enrique Zárate Gálvez
Dissertação (Mestrado) - Pontifícia Universidade Católica de Minas Gerais.
Programa de Pós-Graduação em Informática
1. Algorítmos genéticos. 2. Classificação. 3. Proteínas. 4. Banco de dados. 5.
Análise fatorial. 6. Bioinformática. I. Gálvez, Luis Enrique Zárate. II. Pontifícia
Universidade Católica de Minas Gerais. Programa de Pós-Graduação em
Informática. III. Título.
CDU: 681.3.056
FICHA CATALOGRÁFICA
Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais
Bruno Cesar dos Santos
ALGORITMO GENETICO MULTIOBJETIVO PARA
SELECAO DE ATRIBUTOS APLICADO A PREDICAO DE
FUNCAO DE PROTEINA
Dissertacao apresentada ao Programade Pos-Graduacao em Informatica daPontifıcia Universidade Catolica deMinas Gerais, como requisito parcialpara obtencao do tıtulo de Mestre emInformatica.
Prof. Dr. Luis Enrique Zarate Galvez –PUC Minas (Orientador)
Prof.a Dr.a Gisele Lobo Pappa – UFMG(Banca Examinadora)
Prof..a Dr.a Cristiane Neri Nobre – PUCMinas (Banca Examinadora)
Belo Horizonte, 01 de dezembro de 2017.
Aos meus pais, Marciano (in memorium) e Nilda,
pelo carinho e incentivo. A Marina pelo apoio e
paciencia.
AGRADECIMENTOS
Gostaria de agradecer primeiramente a Deus, por iluminar meu caminho, me dando
forca e coragem durante toda esta caminhada.
Aos meus pais, Marciano (in memorium) e Nilda por sempre me incentivarem a
correr atras dos meus sonhos, me apoiando nos momentos de fraqueza e por estarem
sempre ao meu lado. Com o incentivo de voces, e que consegui obter todas estas
conquistas.
A agencia financiadora deste projeto CAPES, pelo auxılio financeiro.
Aos meus colegas de pesquisa, especialmente Pedro, Larissa, Caio e Marcos que
de forma direta ou indiretamente me incentivaram, com nossas conversas e trocas de
experiencias, que foram fundamentais na minha formacao e pesquisa. A Marina, por me
encorajar durante todo este percurso, seu apoio foi fundamental.
Agradeco tambem aos meus professores que compartilharam comigo o seu
conhecimento, em particular ao meu orientador Zarate, pela amizade e por me auxiliar
nesta jornada, solucionando minhas duvidas e me guiando por este percurso academico.
A todos voces, o meu muito obrigado!
“A mente que se abre a uma nova ideia,
jamais voltara ao seu tamanho original.”
Albert Einstein
RESUMO
Com o avanco das tecnicas de sequenciamento genomico, o numero de sequencias
de proteınas disponıveis para analise tem aumentado de forma significativa. Processos
laboratoriais para predicao de funcao de proteınas possuem um elevado custo financeiro.
Entretanto, conhecer a funcao de uma proteına e de extrema importancia em diversas areas
como a medicina e a agropecuaria, por exemplo. Com isso, e necessario encontrar modelos
computacionais capazes de predizer a funcao de proteınas. Essa area permanece em aberto
no ramo da bioinformatica, pois ainda nao se conhecem modelos precisos para esta tarefa.
A base STING DB disponibiliza informacoes relativas as caracterısticas fısico quımicas
das proteınas, as quais tem sido consideradas por alguns autores em seus trabalhos,
porem, a maioria destes limitada a algumas caracterısticas. Neste trabalho, propomos
uma metodologia utilizando Algoritmo Genetico Multiobjetivo (AGM) para encontrar o
subconjunto ideal de caracterısticas que melhor contribua para identificacao das classes
de enzimas estudadas. Apos essa selecao de atributos, foi realizado um enriquecimento
com novas variaveis, de forma a construir um modelo baseado no classificador SVM.
A metodologia proposta utilizando algoritmo genetico obteve uma precisao de 77,3% e
uma F-Measure de 72,7%. Uma analise previa, mostrou que existiam variaveis com
certo nıvel de correlacao. Com o intuito de verificar se a correlacao influenciava no
resultado, empregamos a tecnica de Analise Fatorial (AF). Esta abordagem obteve valores
de precisao de 71,9% e F-Measure de 65,6%.
Palavras-chave: Algoritmo genetico multiobjetivo, classificacao, proteınas, selecao de
atributos, analise fatorial.
ABSTRACT
With the recent advances of genomic sequencing techniques, the number of protein
sequences available for analysis has increased greatly. Wet-lab processes to predict the
function of a protein are too high-cost to answer to this demand. However, knowing
the function of a protein is extremely important in several fields such as medicine and
agriculture. Therefore, it is necessary to find computational models able to predict protein
function. That is an open research field in Bioinformatics, since the existing models
don’t perform well enough yet. The Sting DB database gathers relevant informations
related to the proteins’ physico-chemical characteristics, which have been considered in
some researches, most of those limited to a few set of characteristics. In this work, we
proposed a methodology utilizing a multi-objective genetic algorithm to find the ideal
subset of characteristics to identify the classes of a dataset of enzymes. After the feature
selection process, we performed a dataset enhancement by adding new variables, in order
to construct a SVM classifier. The proposed methodology achieved 77.3% precision and
72.6% F-Measure averages. A previous analysis showed that there were variables with
a certain level of correlation. In order to verify if the correlation influenced the result,
we used the technique of AF. This approach obtained precision values of 71.9% and
F-Measure of 65.6%
Keywords: multi objective genetic algorithm, classification, protein, feature selection,
factor analysis.
LISTA DE FIGURAS
FIGURA 1 – Representacao da estrutura geral dos aminoacidos. . . . . . . . . . . . . . . . . . 29
FIGURA 2 – Nıveis estruturais da proteına. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
FIGURA 3 – Exemplo de classificacao hard margin do SVM linear. . . . . . . . . . . . . . . 33
FIGURA 4 – Etapas de um processo para selecao de atributos. . . . . . . . . . . . . . . . . . . 34
FIGURA 5 – Estrutura evolutiva do AG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
FIGURA 6 – Fronteira de Pareto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
FIGURA 7 – NSGA-II funcionamento da etapa de selecao. . . . . . . . . . . . . . . . . . . . . . . 43
FIGURA 8 – Crowding distance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
FIGURA 9 – Comportamento do NSGA II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
FIGURA 10 – Metodologia utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
FIGURA 11 – Pre processamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
FIGURA 12 – Grau de correlacao entre algumas variaveis. . . . . . . . . . . . . . . . . . . . . . . 55
FIGURA 13 – Processo da transformada do cosseno . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
FIGURA 14 – Representacao do indivıduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
FIGURA 15 – Criterio para a escolha da melhor solucao do AG . . . . . . . . . . . . . . . . . 60
FIGURA 16 – P = 500 Geracoes = 100 Pc = 0,70 Pm = 0,01 . . . . . . . . . . . . . . . . . . . 62
FIGURA 17 – Comparativo das caracterısticas fısico quımicas . . . . . . . . . . . . . . . . . . 67
FIGURA 18 – Comparativo das caracterısticas fısico quımicas com enriquecimento . 68
FIGURA 19 – Comparativo entre correlacoes das variaveis encontradas pelo AG . . . 70
FIGURA 1 – Experimentos utilizando P = 100 e G = 100 . . . . . . . . . . . . . . . . . . . . . . 84
FIGURA 2 – Experimentos utilizando P = 100 e G = 300 . . . . . . . . . . . . . . . . . . . . . . 85
FIGURA 3 – Experimentos utilizando P = 300 e G = 100 . . . . . . . . . . . . . . . . . . . . . . 86
FIGURA 4 – Experimentos utilizando P = 300 e G = 300 . . . . . . . . . . . . . . . . . . . . . . 87
FIGURA 5 – Experimentos utilizando P = 500 e G = 100 . . . . . . . . . . . . . . . . . . . . . . 88
LISTA DE TABELAS
TABELA 1 – Classe e quantidade de enzimas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
TABELA 2 – Matriz Confusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
TABELA 3 – Matriz (parcial) de correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
TABELA 4 – Associacao do conjunto de variaveis aos fatores . . . . . . . . . . . . . . . . . . . 73
TABELA 5 – Analise de Fator Caracterısticas fısico quımicas . . . . . . . . . . . . . . . . . . 74
TABELA 6 – Analise de Fator Caracterısticas fısico-quımicas + Externos . . . . . . . . 74
LISTA DE QUADROS
QUADRO 1 – Classes das enzimas e suas reacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
QUADRO 2 – Kernels e seus parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
QUADRO 3 – Modelos de AEMO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
QUADRO 4 – Parametros dos experimentos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
LISTA DE ABREVIATURAS E SIGLAS
AGM – Algoritmo Genetico Multiobjetivo
AF – Analise Fatorial
NSGA II – Non dominated Sorting Genetic Algorithm II
IUBMB – International Union of Biochemistry and Molecular Biology
EC – Enzyme Commission
KNN – K Nearest Neighbor
SVM – Support Vector Machines
RBF – Radial Basis Functions
AEMO – Algoritmos Evolucionarios Multiobjetivo
SUMARIO
1 INTRODUCAO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1 Definicao do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.2 Objetivos geral e especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.4 Organizacao da dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 FUNDAMENTACAO TEORICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1 Proteına . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.1 Enzimas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Classificacao - SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Selecao de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4 Algoritmo Genetico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4.1 Codificacao do Indivıduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2 Populacao Inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.3 Fitness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.4 Operadores Geneticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.4.1 Selecao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.4.2 Cruzamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.4.3 Mutacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.5 Criterio de Parada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5 Otimizacao Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6 Algoritmo Genetico Multiobjetivo NSGA-II . . . . . . . . . . . . . . . . . . . 42
2.6.1 Fast Non Dominated Sort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.6.2 Crowding Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6.3 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.7 Analise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1 Materiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Selecao da Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Pre Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.2 Transformada Discreta de Cosseno . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.3 Algoritmo genetico multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4 Representacao do indivıduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4.1 Funcao Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4.2 Definicao do tamanho da populacao e codificacao dos indivıduos 59
4.2.4.3 Busca da Melhor Solucao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 Enriquecimento da Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.0.1 Frequencia de aminoacidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.0.2 Frequencia do Carbono alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.0.3 Extracao de dados estatısticos da estrutura primaria . . . . . . . . . . 65
4.3.1 Analise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4 Metricas de Avaliacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5 ANALISE DE RESULTADOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.0.1 Analise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6 CONCLUSOES E TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . 77
REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
APENDICE A -- EXPERIMENTOS COMPLEMENTARES . . . . . . . . . . . . . 83
23
1 INTRODUCAO
As proteınas sao macromoleculas mais abundantes e variadas existentes nas
celulas. Sao formadas por cadeias polipeptıdicas por uma combinacao de aminoacidos.
Desempenham um papel fundamental no corpo humano com funcoes construtoras e
reparadoras do organismo, alem de participar da formacao dos hormonios, enzimas e
anticorpos. Devido a sua grande importancia, o conhecimento de sua funcao e fundamental
para compreender os processos biologicos dos seres vivos.
Com o avanco das tecnicas de sequenciamento genomico, o numero de sequencias
de proteınas disponıveis para analise tem aumentado de forma significativa. No
entanto, Nadzirin e Firdaus-Raih (NADZIRIN; FIRDAUS-RAIH, 2012) constataram que, das
proteınas que sao descobertas, conhecemos a funcao de apenas 5% delas. Frente a esse
cenario, e necessario o desenvolvimento de metodos computacionais para automatizacao
e facilitacao do processo de identificacao da funcao proteica. Atualmente, existe uma
grande quantidade de metodos experimentais e computacionais para prever as funcoes de
proteınas. No entanto, ainda nao existe uma abordagem computacional capaz de predizer
com precisao a funcao de uma grande variedade de proteınas. Desse modo, o problema
de predicao de funcao da proteına permanece como um desafio para a biologia molecular
e bioinformatica.
A proteına pode ser dividida em quatro nıveis de acordo com sua estrutura, que
sao: 1) estrutura primaria, composta por resıduos de aminoacidos unidos por ligacoes
peptıdicas; 2) a estrutura secundaria que corresponde ao arranjo espacial de resıduos
adjacentes em um segmento da cadeia polipeptıdica; 3) estrutura terciaria que ocorre
quando resıduos que estao distantes na cadeia polipeptıdica se ligam apos o enovelamento
da proteına; 4) estrutura quaternaria a qual corresponde ao arranjo formado quando
proteınas possuem duas ou mais cadeias de aminoacidos e essas estabelecem ligacoes
(LEHNINGER; NELSON; COX, 2004). A proteına tambem pode ser dividida de acordo com
a funcao na qual desempenha que pode ser: regulatorias, transportadoras, contrateis e
moveis, estruturais, protetoras e as catalisadoras. Neste trabalho optamos por utilizar as
catalisadoras, que desempenham o papel de acelerar os processos biologicos e facilitar as
reacoes quımicas, permitindo que estes sejam feitos em um tempo habil. As enzimas sao
um exemplo desta classe que correspondem a maior classe de proteına, sendo conhecidas
mais de 2000 tipos.
A classe de enzimas tem na sua ausencia ou na sua excessiva atividade a causa
de algumas doencas, sendo de grande importancia a identificacao de suas funcoes. Neste
trabalho e utilizado um conjunto de enzimas classificadas de forma hierarquica, em seis
diferentes classes, de acordo com a reacao quımica que catalisam. Essas enzimas recebem
24
um identificador numerico chamado E.C (Enzyme Commission) criado pela International
Union of Biochemistry and Molecular Biology (IUBMB). O numero E.C e composto por
quatro nıveis (1.2.3.4), sendo que o primeiro nıvel (1) informa a qual das seis classes
a enzima pertence: Oxidorredutases (E.C 1), Transferases (E.C 2), Hidrolases (E.C 3),
Liases (E.C 4), Isomerases (E.C 5) e Ligases (E.C 6). Neste trabalho propomos realizar a
separacao deste primeiro nıvel, representado pelas seis classes.
Inumeras informacoes acerca das estruturas das proteınas sao disponibilizadas a
todo momento nos bancos de dados publicos. Porem, nao se sabe quais variaveis ou
caracterısticas sao as mais relevantes para se fazer a distincao de uma determinada funcao
de proteına. Com isso, nota-se a necessidade de encontrar um conjunto de caracterısticas
que melhor represente a funcao proteica, para a resolucao do problema de classificacao.
Portanto, e necessario selecionar quais sao as informacoes mais relevantes a partir de
diferentes bases de dados, para construcao de um modelo de classificacao. Em se tratando
de classificacao, a selecao de atributos junto com a reducao da dimensionalidade, podem
diminuir o tempo computacional necessario para treinar os algoritmos de aprendizado de
maquina, com uma melhora na precisao preditiva e um aumento na compreensibilidade
do problema. A selecao de atributos e um problema de otimizacao combinatoria, em que
a meta e encontrar um subconjunto otimo de caracterısticas sobre algum criterio, dentre
as varias possibilidades do espaco de solucoes (AHUJA; RATNOO, 2015).
Existem diversas pesquisas que tratam o problema da predicao de funcao de
proteına. Trabalhos tem proposto a aplicacao de diversas abordagens e tipos de
classificadores, como pode ser visto em (DOBSON; DOIG, 2003), (BORRO et al., 2006),
(HUANG; WANG, 2006) e (KUMAR; CHOUDHARY, 2012), tendo como principal desafio a
selecao de atributos para serem utilizados pelo classificador. Abordagens foram propostas
utilizando tambem algoritmos geneticos (DEB et al., 2002), (TAN et al., 2008), (GAN; LIU,
2017) e (ZHOU; LIU, 2017).
Em (BORRO et al., 2006), fez-se um estudo para aumentar a precisao do classificador
Bayesiano, utilizando informacoes fısico quımicas provenientes da base STING DB∗. Pela
abordagem proposta, os autores consideraram 11 caracterısticas, alcancando uma precisao
de 53,8% e uma sensibilidade de 45,4%. Entretanto, com essa abordagem nao foi possıvel
afirmar quais eram as melhores caracterısticas a serem utilizadas, ja que a escolha foi feita
baseado em metodos estatısticos. Foi proposto em (LEIJOTO et al., 2014), um algoritmo
genetico mono objetivo para encontrar as melhores caracterısticas para a base de dados.
Entretanto, foi fixado o numero de 10 variaveis a serem encontradas. Em (SANTOS, 2016),
propos-se um modelo com a avaliacao de diversas informacoes relativas as estruturas da
proteına. No entanto, este modelo considerou somente 10 caracterısticas fısico quımicas
∗STING DB e uma base de dados com mais de 300 atributos estruturais de proteınas disponıvel em:http://www.cbi.cnptia.embrapa.br/SMS
25
apontadas inicialmente em (BORRO et al., 2006). Concluiu-se que, as informacoes fısico
quımicas (que considera informacoes das quatro estruturas da proteına) utilizadas por
(SANTOS, 2016), nao foram suficientes para melhorar o desempenho do classificador
proposto. Com isso, foi necessario o enriquecimento com novas informacoes.
Todos estes trabalhos fixaram o numero de caracterısticas fısico quımicas da base
de dados STING DB e consequentemente nao pode-se afirmar que sao realmente as mais
indicadas, nem qual e o numero ideal de atributos para a resolucao do problema. Portanto,
o principal desafio abordado neste trabalho e encontrar quais sao as caracterısticas
relevantes e uteis no processo de predicao de funcao de proteına e associado a isso, verificar
se estas caracterısticas sao suficientes para a resolucao do problema de predicao de funcao
de proteına.
Diante do problema a ser abordado neste trabalho, e necessario alguma tecnica
que permita atingir o objetivo proposto. Uma das tecnicas que podemos utilizar e a
selecao de atributos. Como mencionado, a selecao de atributos consiste em encontrar
um subconjunto de atributos que melhor represente a base de dados, para a resolucao de
um problema de classificacao (LIU; MOTODA, 1998). A selecao de atributos busca por um
subconjunto otimo dentre n (n e igual ao numero de variaveis disponıveis). Para isto, seria
necessario a avaliacao de cada subconjunto entre 2n − 1 candidatos, se o subconjunto for
de tamanho fixo; oun∑
i=1
n!i!(n−i)! se o subconjunto for de tamanho variavel; para encontrar o
mais adequado (AHUJA; RATNOO, 2015). Nota-se que e uma abordagem exaustiva e cara
computacionalmente. Para contornar este problema, buscou-se algoritmos que trabalhem
com otimizacao heurıstica como os algoritmos geneticos.
Os algoritmos geneticos sao uma classe de tecnicas de busca heurıstica aleatoria
que se aproximam aos mecanismos da evolucao darwiniana, baseado no conceito da
sobrevivencia do mais forte (HOLLAND, 1975). Os AGs oferecem uma metodologia de
busca da solucao proxima da otima para o problema de otimizacao e neste caso, da escolha
das variaveis de entrada mais apropriadas para o classificador. Seu grande diferencial e
que eles realizam uma busca global no conjunto de dados, proporcionando assim um
melhor resultado (de selecao de caracterısticas) para os algoritmos de aprendizado de
maquina. Na literatura existem varias abordagens para a resolucao da selecao de atributos
usando algoritmos geneticos (DEB et al., 2000), (TAN et al., 2008), (GAN; LIU, 2017) e
(ZHOU; LIU, 2017). O algoritmo de selecao de atributos escolhido neste trabalho foi Non
dominated Sorting Genetic Algorithm II (NSGA II), proposto por (DEB et al., 2000), por
ser amplamente utilizado na literatura, alem de trabalhar com varios objetivos alvo para
o mesmo problema.
Alem do algoritmo genetico multiobjetivo, este trabalho propoe tambem um estudo
de um modelo estatıstico baseado na analise fatorial, uma tecnica que pertencente a
26
classe dos modelos estatısticos multivariados. O objetivo principal da analise fatorial
e simplificar os dados quantitativos por meio de um conjunto reduzido de variaveis.
Esta simplificacao e o resultado da analise entre variaveis que estejam correlacionadas
(inter-relacionadas) entre si e ortogonais (independentes) a outras.
1.1 Definicao do problema
Uma grande variedade de caracterısticas foi utilizada nos trabalhos citados
anteriormente, o que levanta a hipotese de um elevado numero de caracterısticas, para
a representacao das classes de enzimas. Diante deste problema, partimos com o intuito
de melhorar os resultados encontrados por outras pesquisas analisando as caracterısticas
disponıveis. Essa analise, tem como objetivo esclarecer os seguintes questionamentos:
1. Quais sao os atributos e a quantidade necessaria que melhor separem as seis classes
de enzimas estudadas?
2. As informacoes fornecidas pela base sao suficientes para a representacao das classes
de enzimas?
1.2 Objetivos geral e especıficos
O objetivo deste trabalho e encontrar o menor subconjunto de caracterısticas fısico
quımicas com menor percentual de erro de precisao na classificacao utilizando algoritmo
genetico multiobjetivo NSGA-II (DEB et al., 2002). Para que o objetivo fosse alcancado,
foi necessario atender os seguintes objetivos especıficos:
• Pre processar a base de dados utilizando tecnicas de reducao de dimensionalidade e
em seguida utilizar esta base de dados para a construcao do modelo de classificacao;
• Desenvolver um procedimento para a selecao de atributos para o problema
de predicao de funcao de proteına, considerando caracterısticas fısico quımicas
fornecidas pela base, baseado nos algoritmos geneticos multiobjetivos;
• Propor um classificador baseado em SVM utilizando o subconjunto de caracterısticas
selecionadas e enriquecimento de novas informacoes das estruturas da proteına;
• Analisar e comparar os resultados do modelo de classificacao construıdo para
a abordagem proposta nesse trabalho com os resultados obtidos por trabalhos
relacionados;
• Aplicar a analise fatorial para selecao de fatores representativos das caracterısticas
fısico quımicas.
27
1.3 Justificativa
A identificacao da funcao de proteınas desconhecidas e de grande valor em diversas
areas como a industria quımica, a agropecuaria e a saude, que precisam trabalhar com
aperfeicoamento genetico. Uma vez que, processos realizados em laboratorio demandam
um elevado tempo e custo. Portanto, formas que visam automatizar e facilitar este
processo sao muito importantes. Alem disso, possibilitam melhorar os resultados ate
entao encontrados por outras pesquisas.
Um outro ponto e que a predicao de funcao de proteına e um problema complexo.
Fato este que motivou a utilizacao de um algoritmo genetico multiobjetivo, para auxiliar
no processo de selecao de atributos, na busca de atributos lineares e nao lineares.
1.4 Organizacao da dissertacao
Esta dissertacao esta organizado da seguinte maneira. Capıtulo 2 sao abordados
os principais conceitos utilizados neste trabalho. O Capıtulo 3 apresenta os trabalhos
relacionados a area de predicao de funcao de proteına utilizando algoritmos geneticos
multiobjetivo. O Capıtulo 4 apresenta uma metodologia contendo a descricao da base
de dados, as definicoes das caracterısticas utilizadas, o processo de selecao de atributos
e todo o processo de experimentos do algoritmo genetico multiobjetivo. No Capıtulo
5 sao apresentados os resultados empregando a metodologia proposta. As conclusoes e
propostas de continuidade deste trabalho sao apresentadas no Capıtulo 6.
28
29
2 FUNDAMENTACAO TEORICA
Este Capıtulo aborda os principais conceitos de modo a fundamentar cada etapa do
processo de selecao de atributos para a predicao de funcao de proteına. Os conceitos aqui
apresentados sao utilizados na construcao da metodologia que sera detalhada no Capıtulo
4.
2.1 Proteına
A proteına e uma macromolecula formada por sequencias de aminoacidos. Elas
desempenham um papel muito importante em nosso organismo, pois fornecem material
tanto para a construcao como para a manutencao de todos os nossos orgaos e tecidos
(ALBERTS et al., 2007).
Os aminoacidos sao moleculas organicas que servem como unidade fundamental
na formacao de proteınas, as quais sao formadas a partir da ligacao em sequencia de
aminoacidos. Os aminoacidos compartilham uma estrutura basica que consiste em um
atomo de carbono central, tambem conhecido como carbono α, ligado a um grupo amina
(−NH2) e um grupo carboxila (−COOH) e um atomo de hidrogenio (−H). O quarto
ligante e um radical chamado genericamente de ”R” que e responsavel pela diferenciacao
entre os aminoacidos. E o radical ”R” quem define uma serie de caracterısticas dos
aminoacidos, tais como polaridade e grau de ionizacao em solucao aquosa. A Figura
1 ilustra a estrutura base dos aminoacidos (NELSON; COX, 2004).
Figura 1 – Representacao da estrutura geral dos aminoacidos.
Fonte: (NELSON; COX, 2004)
Existem dezenas de tipos de aminoacidos na natureza, mas apenas vinte aparecem
no codigo genetico, os quais chamamos de principais e alguns especiais que so aparecem em
algumas proteınas. Os vinte aminoacidos mais comuns sao: alanina, arginina, aspartato,
asparagina, cisteına, fenilalanina, glicina, glutamato, glutamina, histidina, isoleucina,
leucina, lisina, metionina, prolina, serina, tirosina, treonina, triptofano e valina.
A sequencia de aminoacidos determina as diferentes caracterısticas que a proteına
pode assumir e esta relacionado, com a forma no qual a proteına se enovela formando a
30
estrutura tridimensional. Cada tipo de proteına possui uma configuracao tridimensional
peculiar que e determinada pela sequencia de aminoacidos e pelo grau de inclinacao
entre as ligacoes quımicas (proporcionada pelos arranjos intermoleculares). As proteınas
possuem quatro diferentes nıveis estruturais: a primaria, secundaria, terciaria e
quaternaria. A Figura 2 ilustra os quatro nıveis da proteına.
Figura 2 – Nıveis estruturais da proteına.
Fonte: Adaptado de (NELSON; COX, 2004)
• Estrutura Primaria: Consiste na cadeia principal da proteına formada pela ligacao
dos aminoacidos e que mostra a sequencia em que eles aparecem na proteına.
• Estrutura Secundaria: consiste na relacao espacial entre os aminoacidos que estao
proximos na estrutura primaria. Nas proteınas, as unidades basicas da estrutura
secundaria sao: as α-helices e as folhas-β.
• Estrutura Terciaria: Fornece a disposicao espacial dos atomos dos aminoacidos que
compoem a estrutura primaria. Ou seja e a forma tridimensional enovelada de uma
proteına.
• Estrutura Quartenaria: Algumas proteınas possuem mais de uma cadeia
polipeptıdica e a estrutura quaternaria representa a disposicao dessas cadeias dentro
da estrutura proteica.
As proteınas podem ser divididas quanto a funcao no qual desempenham. Existem
um total de seis funcoes que as proteınas podem desempenhar, conforme sera descrito.
A funcao regulatoria nao realiza transformacoes quımicas e sim regula as atividades
de outras proteınas. As transportadoras sao aquelas que desempenham o papel de
transportar substancias. As contrateis e moveis promovem movimentos na celula.
Aquelas denominadas estruturais sao responsaveis pelas estruturas biologicas, entre elas
as proteınas fibrosas insoluveis como a queratina e o colageno. Temos tambem as com
31
funcoes protetoras, um exemplo sao os anticorpos. E finalmente as catalisadoras, que
possuem a funcao de acelerar e facilitar reacoes quımicas. As enzimas sao um exemplo
desta classe e correspondem a maior classe de proteınas sendo conhecidas mais de 2000
tipos de enzimas. Elas sao substancias que catalisam reacoes, acelerando sua taxa. Neste
trabalho iremos abordar este ultimo grupo.
2.1.1 Enzimas
As enzimas sao moleculas organicas de natureza proteica e agem nas reacoes
quımicas das celulas como catalisadoras, acelerando os processos sem altera-los. Elas sao
necessarias para que os processos biologicos ocorram de forma satisfatoria e em uma escala
de tempo adequada, devido ao seu alto poder de aceleracao das reacoes quımicas(LEE et al.,
2007). Sem a atuacao das enzimas, atividades basicas como a digestao ou a oxidacao de
sacarose no organismo poderiam nao ocorrer em tempo habil para os organismos (ALBERTS
et al., 2007).
A ausencia de alguma enzima ou mesmo seu excessivo trabalho enzimatico e um
causador de determinadas doencas. Para o tratamento dessas doencas, e necessario
sua identificacao para um adequado tratamento. Portanto, nota-se a importancia dos
trabalhos que abordam a area de identificacao de funcao de proteına.
Atualmente existe uma nomenclatura oficial para a padronizacao das proteınas,
criado pela IUBMB. E um sistema no qual as proteınas sao classificadas de forma
hierarquica com relacao a reacao quımica que catalizam. Estas recebem um identificador
numerico Enzyme Commission (EC). O numero desempenha um papel fundamental na
representacao computacional das reacoes enzimaticas na rede metabolica. Basicamente,
os numeros das EC representam uma classificacao hierarquica das reacoes enzimaticas, os
tres primeiros numeros representam a classe, subclasse e sub-subclasse, onde representa
o tipo de reacao quımica com a qual uma enzima esta envolvida. E o quarto numero
e especıfico de cada enzima (TIPTON; BOYCE, 2000). Esse sistema criado pela IUBMB
divide a enzima em seis classes descritas pelo Quadro 1. Neste trabalho iremos trabalhar
com o mais alto nıvel que corresponde a classe no qual a enzima pertence. Para comparar
com diversos outras metodologias que trabalharam neste nıvel.
2.2 Classificacao - SVM
A classificacao e uma tecnica da mineracao de dados que visa identificar a qual
classe um determinado registro pertence. Nesta tecnica, o modelo e construıdo a partir
de um conjunto de registros fornecidos. Cada registro contem a indicacao a qual classe
pertence, com o intuito de ”aprender”como classificar aquele conjunto de registros. Seu
32
Quadro 1 – Classes das enzimas e suas reacoes
EC Classe Reacao1 Oxidorredutases Sao enzimas responsaveis pela transferencia de eletrons
2 TransferasesEnzimas que catalisam a transferencia de grupos funcionais entremoleculas
3 HidrolasesEnzimas que catalisam a transferencia de grupos funcionais para aagua
4 LiasesSao enzimas responsaveis pela formacao de ligacoes duplas atravesde remocoes de grupos
5 IsomerasesEnzimas que catalisam a transferencia de grupos dentro de umamesma molecula
6 LigasesSao enzimas responsaveis pela formacao de ligacoes atraves dereacoes por condensacao
Fonte: Adaptado de (NELSON; COX, 2004)
objetivo e descobrir um relacionamento entre os atributos previsores e o atributo alvo.
Na classificacao as amostras disponıveis para a construcao do modelo sao divididas
em duas partes. A primeira parte e chamada de conjunto de treinamento, utilizado
pelo classificador com o intuito de encontrar padroes nos registros com o atributo alvo
e consequentemente tracar um padrao entre os registros com suas classes. Apos este
processo de treinamento o segundo conjunto de dados entao e passado para o classificador
no processo de validacao e/ou teste do aprendizado do classificador. Neste segundo
conjunto de dados o atributo alvo nao esta disponıvel para o classificador. Baseado no
primeiro conjunto de treinamento o classificador deve prever as classes a que pertencem
o conjunto de validacao. Se a classe indicada pelo classificador for a mesma do atributo
meta o classificador acertou; caso contrario, ele errou, podendo se construir uma matriz
de confusao e a partir desta construir metricas de avaliacao.
Existem diversos classificadores disponıveis na literatura como K Nearest Neighbor
(KNN) (COVER; HART, 1967), Naive Bayes (LEWIS, 1998), Redes Neurais (HAYKIN, 1998),
Support Vector Machines (SVM) (CORTES; VAPNIK, 1995) e outros. O classificador
escolhido para este trabalho foi o SVM por ser amplamente utilizado na literatura e
pela existencia de diversos trabalhos na area de predicao de funcao de proteına que o
utilizaram, com isso optamos pelo seu uso para realizar um comparativo com os resultados
da literatura.
O Support Vector Machine (SVM) e uma tecnica robusta de classificacao e
regressao que maximiza a precisao preditiva de um modelo sem causar super ajuste
dos dados de treinamento. Considerando o classificador binario, dado um conjunto de
treinamento T (x1, y1), ..., (xm, ym), onde xi ∈ X e yi ∈ ±1, para i = 1 ... m, o SVM
tem como objetivo separar as classes em uma superfıcie de decisao linear e encontrar o
hiperplano otimo. Hiperplano otimo e definido como a maior margem de separacao entre
33
classes conforme Figura 3.
Figura 3 – Exemplo de classificacao hard margin do SVM linear.
Fonte: (HEARST, 1998)
Onde w ∈ X e um vetor de pesos, normal ao hiperplano e b ∈ R representa a
distancia do hiperplano da origem. Novos dados podem ser classificados a partir de uma
funcao de decisao, Equacao 2.2, obtida pelo hiperplano. De tal forma que encontrar a
maior margem de separacao equivale a minimizar ‖w‖. Para isto, recorre-se a simplificacao
dada pela Equacao 2.3, sujeito as condicoes da Equacao 2.4.
(x · w) + b = 0 (2.1)
f(x) = sgn((x · w) + b) (2.2)
minimizar =1
2‖w‖2 (2.3)
yi(w · xi + b) ≥ 1,∀ i = 1, ...,m (2.4)
Como nem todos os problemas enfrentados podem ser mapeados linearmente, o
SVM possui uma funcao Kernel para poder separar melhor o espaco de solucoes (HEARST,
1998). A escolha do kernel e o ajuste de seus parametros estao intimamente relacionados
a qualidade da generalizacao que o SVM ira encontrar. Os kernels mais comuns e seus
parametros estao representados no Quadro 2. Neste trabalho, utilizamos o Kernel Radial
Basis Functions (RBF) pois em experimentos preliminares obteve-se melhores resultados
com este tipo escolhido.
34
Quadro 2 – Kernels e seus parametros
Kernel ParametrosRBF Cost, γ
Polinomial γ, r, dSigmoidal γ, r
Linear -
Fonte: Adaptado de (HSU; CHANG; LIN, 2010)
2.3 Selecao de Atributos
O numero de informacoes disponıveis nas bases de dados tem crescido
vertiginosamente. Os metodos de aprendizado de maquina tem dificuldades de trabalhar
com essas inumeras informacoes. A selecao de atributos veio justamente para contornar
este problema. Ela e uma tecnica de deteccao de atributos relevantes e remocao de dados
irrelevantes, redundantes ou ruidosos. Com isso, temos uma melhora no desempenho
computacional dos algoritmos de mineracao de dados e uma melhor compreensibilidade
do modelo gerado (KALOUSIS; PRADOS; HILARIO, 2007).
Os algoritmos usados para selecao de atributos podem ser separados em duas
atividades principais: busca do subconjunto de atributos e avaliacao dos subconjuntos
de atributos encontrados, tal como pode ser visto na Figura 4.
Figura 4 – Etapas de um processo para selecao de atributos.
Fonte: Adaptado de (LIU; MOTODA, 1998)
Na primeira parte busca-se um subconjunto de atributos. Seleciona-se um
subconjunto de variaveis relevantes com o apoio de um algoritmo de busca. Na segunda
35
parte avalia-se o subconjunto de atributos selecionados. Os algoritmos de busca do
subconjunto podem ser divididos em tres grupos principais: algoritmos exponenciais,
sequenciais e randomicos.
• Algoritmos exponenciais: fazem todas as combinacoes possıveis do subconjunto.
Neste tipo de busca temos a garantia da melhor solucao. Porem este tipo de pesquisa
dependendo do tamanho do conjunto de variaveis e inviavel computacionalmente.
• Algoritmos sequenciais: a pesquisa seleciona apenas um entre todos os atributos
disponıveis. Em seguida, seleciona o segundo melhor atributo para aquele
subconjunto. Esse processo continua ate que nao se consiga mais melhorar aquele
subconjunto (Pesquisa sequencial para frente).
• Algoritmos randomicos: A pesquisa aleatoria comeca com o subconjunto selecionado
aleatoriamente. E segue sua evolucao seguindo alguma heurıstica. Exemplo e o AG
que trabalha com os conceitos da evolucao darwiniana.
Como mencionado, a segunda parte consiste na avaliacao do subconjunto gerado. Esta
segunda parte pode ser subdividida, basicamente, em duas abordagens principais: Filter
e Wrapper (KOHAVI; JOHN, 1997).
A abordagem Filter introduz um processo de separacao, que ocorre antes da
aplicacao do algoritmo de aprendizagem propriamente dito. Em outras palavras, a ideia
e separar atributos irrelevantes, segundo algum criterio, antes do aprendizado ocorrer.
A abordagem Wrapper ocorre externamente ao algoritmo basico de aprendizagem,
mas utiliza este algoritmo para analisar, a cada iteracao, o subconjunto de atributos ate
aquele momento selecionados. Os metodos wrapper geram um subconjunto candidato
de atributos selecionado do conjunto de treinamento, e utilizam a precisao resultante
do algoritmo de aprendizado para avaliar o subconjunto de atributos em questao. Esse
processo e repetido para cada subconjunto de atributos ate que o criterio de parada
determinado pelo usuario seja satisfeito. Esta abordagem avalia os atributos usando
estimativas de desempenho como a precisao providas por algoritmos de aprendizado
pre-determinados (FREITAS, 2002).
2.4 Algoritmo Genetico
Algoritmo Genetico (AG) e uma tecnica de busca baseado no processo biologico
de evolucao natural, que se aproxima aos mecanismos da evolucao darwiniana baseado
no conceito da sobrevivencia do mais forte (LINDEN, 2012). No AG, a populacao e
representada pelos indivıduos (cromossomo) que sao criados e submetidos aos operadores
36
geneticos: selecao, recombinacao(crossover) e mutacao. Estes operadores utilizam a
qualidade de cada indivıduo como solucao do problema em questao, chamado de avaliacao
(fitness), gerando um processo de evolucao natural, que eventualmente devera gerar um
indivıduo que caracteriza uma boa solucao para o problema proposto ao longo de geracoes
(iteracoes).
A arquitetura de um algoritmo genetico pode ser dividida em etapas para um
melhor entendimento do seu funcionamento. A Figura 5 mostra a estrutura evolutiva do
AG simples.
Figura 5 – Estrutura evolutiva do AG.
Fonte: Elaborado pelo autor
Os AG sao tecnicas probabilısticas, e nao tecnicas determinısticas. Assim sendo,
o AG com a mesma populacao inicial e o mesmo conjunto de parametros pode encontrar
solucoes diferentes cada vez que e executado. Entretanto, se diferenciam de esquemas
aleatorios por serem uma busca que utiliza informacoes pertinentes ao problema e nao
trabalham com caminhos aleatorios pelo espaco de solucoes, mas sim direcionando a busca
atraves do mecanismo da selecao. Em outras palavras, apesar de determinar o conjunto de
pontos a serem percorridos de forma aleatoria, eles nao podem ser chamados de aleatorios,
pois exploram informacoes historicas para encontrar novos pontos de busca onde sao
esperados bons desempenhos (REZENDE, 2003). A seguir descrevemos sucintamente o
funcionamento de um algoritmo genetico
37
2.4.1 Codificacao do Indivıduo
A codificacao do indivıduo e fundamental para o algoritmo genetico, pois representa
uma solucao candidata a resolucao do problema. Ou seja, e uma maneira de traduzir a
informacao do problema em uma maneira viavel de ser tratada computacionalmente.
Existem diversas formas de representar o indivıduo no AG. A mais utilizada e
a codificacao binaria de tamanho fixo, em que um indivıduo e representando por uma
sequencias de bits que assumem valores 0 e 1. Nota-se que a codificacao do indivıduo e
uma abstracao da realidade. Ou seja, a codificacao do indivıduo nao e realmente a solucao
do problema (HOLLAND, 1975).
2.4.2 Populacao Inicial
A escolha da populacao inicial e feita de forma simples, com uma escolha aleatoria
para cada indivıduo da populacao. Seguindo as leis da probabilidade, teremos uma
distribuicao que cobre praticamente todo o espaco de busca de solucoes. Entretanto,
existe uma limitacao, pois a populacao e de tamanho finito e o AG trabalha em problemas
com grandes espacos de busca. Logo nao existe a garantia de alcancar ou cobrir todo o
espaco de busca. E mesmo se desejarmos abranger todo este espaco, havera um custo
computacional que seria inviavel. Para contornar este problema e considerado e ajustado
o operador de mutacao que proporciona diversidade da populacao.
2.4.3 Fitness
E utilizada para determinar a qualidade de um indivıduo como solucao do problema
em questao. O valor fitness corresponde a um valor (normalmente numerico) que reflete
quanto as caracterısticas representadas no cromossomo ou indivıduo correspondem a uma
solucao do problema. A funcao fitness deve embutir o conhecimento que se possui sobre o
problema a ser resolvido, tanto suas restricoes quanto seus objetivos de qualidade. Alem de
possibilitar diferenciar duas solucoes sub otimas mostrando qual delas esta mais proxima
da solucao procurada.
Para o problema proposto foi considerado o erro medio de precisao (eprec)
utilizando o classificador SVM e para a composicao da funcao fitness o menor numero de
caracterısticas, para a avaliacao dos indivıduos.
2.4.4 Operadores Geneticos
O princıpio basico dos operadores geneticos e transformar a populacao atraves
de sucessivas geracoes, estendendo a busca ate chegar a um resultado satisfatorio. Os
38
operadores geneticos sao necessarios para que a populacao se diversifique e mantenha
caracterısticas de adaptacao adquiridas pelas geracoes anteriores. Os operadores de
cruzamento e de mutacao tem um papel fundamental em um algoritmo genetico.
2.4.4.1 Selecao
Esta etapa simula o mecanismo de selecao natural que atua sobre as especies
biologicas, em que os pais mais capazes geram mais filhos, ao mesmo tempo em que permite
que os pais menos aptos tambem gerem descendentes, para nao perder a diversidade
genetica. Existem varios tipos de selecao que podem ser aplicados, como exemplo podemos
citar a selecao por torneio e roleta (LINDEN, 2012).
A selecao por torneio e recomendada quando ha uma grande diferenca relativa
no valor do fitness dos indivıduos. Em sua versao mais simples, para k = 2, um par
de indivıduos e escolhido aleatoriamente e o indivıduo que possuir maior fitness sera
selecionado para reproducao. O processo se repete obedecendo a probabilidade de selecao
normalmente estabelecida. O valor do parametro k esta diretamente vinculado ao nıvel
de pressao seletiva durante este processo.
A selecao por roleta cada indivıduo da populacao e representado na roleta
proporcionalmente ao seu ındice de aptidao. Assim, para indivıduos com alta aptidao
e dada uma porcao maior da roleta, enquanto aos indivıduos de aptidao mais baixa, e
dada uma porcao relativamente menor.
2.4.4.2 Cruzamento
Este operador e responsavel por trocar e combinar caracterısticas dos pais durante o
processo de reproducao, permitindo que as proximas geracoes herdem essas caracterısticas.
A ideia e que, os novos indivıduos descendentes poderao ser melhores que seus pais, caso
herdem as melhores caracterısticas de cada pai. Existem diversos tipos de cruzamento na
literatura como o cruzamento de um ponto e dois pontos.
O cruzamento de um ponto e bastante simples. Dados dois pais, uma posicao
do cromossomo (maior que zero e menor que o numero total de genes) e escolhida
aleatoriamente como ponto de corte, de modo que os segmentos a partir deste ponto
sejam trocados. Um dos seus problemas e que, no caso de apenas alguns genes em um
indivıduo serem bons, propiciando a ele um fitness alto, os demais genes mesmo nao sendo
bons, serao propagados pela populacao.
O cruzamento de dois pontos e semelhante ao cruzamento de um ponto. Com a
diferenca que em vez de ser selecionado apenas um ponto do cromossomo, sao selecionados
dois pontos. Com isso, temos uma reducao do problema de transmitir genes que nao sao
39
bons para outros indivıduos como no cruzamento de um ponto. Neste trabalho utilizamos
o cruzamento de dois pontos.
2.4.4.3 Mutacao
O operador de mutacao garante a continuidade da existencia de diversidade
genetica na populacao. Ele e uma heurıstica exploratoria, injetando novas caracterısticas
na populacao e permitindo que o AG busque solucoes fora dos limites definidos pela
populacao inicial (VOSE, 2004). Portanto, ele garante que caracterısticas que ainda nao
foram utilizadas possam aparecer em algum filho gerado.
Esta operacao simplesmente modifica aleatoriamente alguma caracterıstica do
indivıduo sobre o qual e aplicada. Esta troca e importante, pois acaba por criar
novos valores de caracterısticas que nao existiam ou apareciam em pequena quantidade
na populacao em analise. O operador de mutacao e necessario para a introducao e
manutencao da diversidade genetica da populacao. Desta forma, a mutacao assegura
que a probabilidade de se chegar a qualquer ponto do espaco de busca possivelmente nao
sera zero. O operador de mutacao e aplicado aos indivıduos atraves de uma taxa de
mutacao geralmente pequena. Um exemplo classico de operacao de mutacao e o bit flip
ou Inversao de bit, que consiste basicamente em escolher um gene aleatoriamente dentro
do cromossomo binario e inverter o valor no gene escolhido (DEB; KALYANMOY, 2001).
2.4.5 Criterio de Parada
Os principais criterios de parada sao: numero de geracoes ou percentual de
convergencia. Neste trabalho foi proposto um teste de convergencia para estipular quais
seriam as faixas de valores para se trabalhar no algoritmo genetico. Com isso estipulamos
quais seriam os valores a serem ajustados dentro do AG. Neste teste de convergencia,
analisou-se a existencia de alteracoes significativas (baseado em um percentual) em relacao
aos indivıduos da populacao entre n geracoes. Se entre as geracoes, nao for detectada uma
variacao significativa, entao existe a indicacao de convergencia e o algoritmo e finalizado.
Caso contrario, o algoritmo segue sua execucao normal em direcao a uma nova geracao.
Posteriormente a isto, executamos o algoritmo genetico utilizando o numero de geracoes
como criterio de parada.
2.5 Otimizacao Multiobjetivo
A otimizacao de multiplos objetivos geralmente e empregada quando existem
objetivos nos quais existe conflito, ou seja, um objetivo impede que o outro seja
40
otimizado. Com isso a otimizacao simultanea nao e possıvel. Um problema de otimizacao
multiobjetivo e composto por um conjunto de funcoes-objetivo a serem otimizadas
(maximizadas ou minimizadas) e um conjunto de restricoes que devem ser satisfeitas
para que a solucao seja factıvel (DEB; KALYANMOY, 2001). Supondo a existencia de NObj
funcoes-objetivo que formam o vetor f(x) = [f1(x), f2(x), ..., fNObj(x)]T , o problema pode
ser formulado como:
maximizar/minimizar f(x) (2.5)
Respeitando as seguintes restricoes em cada uma das equacoes:
gj(x) ≥ 0, j = 1, ..., J (2.6)
hk(x) = 0, k = 1, ..., K (2.7)
x(inf)i ≤ xi ≤ x
(sup)i (2.8)
Onde x e um vetor de variaveis de decisao tal que x = [x1, x2, ..., xNvar ]T ,
representando a solucao do problema e J e K sao, respectivamente, o numero de restricoes
de desigualdade e de igualdade. As desigualdades (gj) (Equacao 2.6) e as igualdades (hk)
(Equacao 2.7) sao chamadas de funcoes de restricao e os valores x(inf)i e x
(sup)i (Equacao 2.8)
representam os limites inferior e superior para a variavel xi. Esses limites definem o espaco
das variaveis. O conjunto de todas as solucoes factıveis forma a regiao factıvel ou espaco
de busca. O vetor de funcoes objetivo f(x) = [f1(x), f2(x), ...., fNobj(x)]T pertencem ao
espaco dos objetivos. Para cada solucao x no espaco de decisao, existe um ponto f(x) no
espaco dos objetivos.
Em otimizacao multiobjetivo, emprega-se o conceito de dominancia de Pareto
para comparar duas solucoes factıveis do problema. Dadas duas solucoes x e y, diz-se
que x domina y (representado como x � y) se as seguintes condicoes sao satisfeitas
(considerando-se um problema de minimizacao):
• A solucao x e nao pior que y em todos os objetivos;
• A solucao x e melhor que y em pelo menos um objetivo
Assim existe um conjunto de alternativas otimas que sao dominadas entre os objetivos.
Com isso nao existe uma unica solucao para o problema, mas sim um conjunto de solucoes
41
candidatas para o problema, conhecido como fronteira de pareto. A Figura 6 mostra um
exemplo onde a solucao x1 domina a solucao x2.
Figura 6 – Fronteira de Pareto.
Adaptado: (DEB; KALYANMOY, 2001)
O processo de busca de solucoes utilizando varios objetivos pode ser custoso
computacionalmente e geralmente pode ser inviavel obter solucoes boas em um tempo
habil. Com este problema surgiram estrategias de buscas estocasticas como os Algoritmos
Evolucionarios Multiobjetivo (AEMO). Estes podem ser utilizados para encontrar o
conjunto de pareto. Apesar deles nao garantirem as melhores solucoes, proporcionam
na maioria das vezes encontrar solucoes satisfatorias para os problemas tratados. Sao
amplamente utilizados pois apresentam facilidade e flexibilidade de modelagem, alem
de exigirem um menor esforco para encontrar cada solucao do conjunto de solucoes
nao-dominadas, se comparado ao esforco de encontrar uma solucao para uma formulacao
mono-objetivo. Alem disso, trabalham em espacos de busca que sao intrataveis pelas
abordagens tradicionais.
Os principais algoritmos evolucionarios de otimizacao multiobjetivo sao descritos
no Quadro 3. Estes sao usualmente classificados em dois grupos: Nao elitistas:
compreendem os algoritmos que como o proprio nome indica, nao utiliza nenhuma forma
de elitismo nas suas interacoes; Os elitistas compreendem os modelos que empregam
alguma forma de elitismo.
42
Quadro 3 – Modelos de AEMO.
AlgoritmoNSGA - Non Dominated Sorting Genetic AlgorithmNPGA - Niched Pareto Genetic AlgorithmMOGA - Multiple Objective Genetic AlgorithmSPEA - Strenght Pareto Evolutionary AlgorithmPAES - Pareto Archived Evolutionary Strategy KnowlesSPEA2 - Strenght Pareto Evolutionary Algorithm 2NSGA II - Elitist Non Dominated Sorting Genetic II
Fonte: Elaborado pelo autor
2.6 Algoritmo Genetico Multiobjetivo NSGA-II
O NSGA II (Non-dominated Sorting Genetic Algorithm II) (DEB et al., 2000)
e um aprimoramento do algoritmo NSGA (SRINIVAS; DEB, 1994). No NSGA e feito
um procedimento de selecao por ordenamento no qual as solucoes nao dominadas tem
prioridade para o processo de selecao. Entretanto este algoritmo possui algumas limitacoes
apontadas pela comunidade cientıfica com relacao a:
a) Alta complexidade computacional;
b) Ausencia do elitismo;
c) Dificuldade em especificar o parametro de compartilhamento σshare, utilizado na
funcao de compartilhamento, que mantem a diversidade da populacao.
Com estas limitacoes os mesmos autores propuseram uma nova implementacao,
que visa contornar estes problemas que e o NSGA-II. Resultados utilizando esta nova
implementacao demonstraram que ele foi superior a outros tradicionais da literatura,
como o PAES (KNOWLES; CORNE, 1999) e SPEA2 (ZITZLER; LAUMANNS; THIELE, 2002).
A Figura 7 mostra uma fluxograma basico da execucao do NSGA-II.
O processo do NSGA-II possui dois importantes passos que sao: Fast Non
Dominated Sorting e o Crowding Distance que serao descritos nas proximas secoes.
Inicialmente, temos uma populacao ainda nao classificada, esta populacao passara por
um processo no qual cada indivıduo tera calculado seu grau de dominancia em relacao a
todos os outros. Apos o grau de dominancia ser calculado estes mesmos indivıduos serao
classificados em fronteiras fronts de acordo com os valores de dominancia previamente
calculados. Onde os melhores indivıduos sao calculados no primeiro front e assim
sucessivamente, ate que todos os indivıduos tenham seu front definido. Em seguida, uma
nova classificacao sera aplicada aos indivıduos atraves do operador de Crowding Distance,
que ira ordenar cada indivıduo de acordo com a sua distancia em relacao aos pontos
vizinhos, no mesmo front em relacao a cada objetivo. As demais etapas do algoritmo
como cruzamento e mutacao seguem o mesmo processo do algoritmo genetico classico.
43
Figura 7 – NSGA-II funcionamento da etapa de selecao.
Fonte: Elaborado pelo autor
2.6.1 Fast Non Dominated Sort
Este procedimento corresponde a atribuicao de um valor de aptidao as solucoes da
populacao de acordo com o seu nıvel de nao dominancia. Esta etapa encontra para cada
solucao p o contador de dominancia np, que mostra o numero de solucoes que dominam a
solucao p e o conjunto Sp, formado pelas solucoes dominadas por p.
As solucoes da primeira fronteira nao dominada tem o contador de dominancia np
igual a zero. Para cada solucao p com np = 0, sao visitadas as q solucoes pertencente ao
conjunto Sp e o contador de dominancia nq e decrementado em uma unidade. As solucoes
q que tiverem seu contador de dominancia nq reduzido a zero sao, entao, separadas em
uma lista Q. Estas solucoes formam a segunda fronteira. Este procedimento e repetido
para cada membro de Q, sendo identificada assim a terceira fronteira. O processo continua
ate que todas as fronteiras sejam identificadas.
No final deste processo as solucoes estao agrupadas em diferentes fronteiras, estas
possuem um atributo denominado rank, que corresponde ao numero da fronteira a qual
pertencem.
44
2.6.2 Crowding Distance
O crowding distance e um operador de diversidade, seu intuito e garantir um maior
espalhamento dos resultados ao longo da linha de pareto. Com isso, evita-se uma grande
concentracao de solucoes em cima dos mesmos pontos do espaco de busca. O crowding
distance trabalha com a metrica de distancia de cada indivıduo em relacao aos indivıduos
mais proximos.
O algoritmo estipula a distancia media entre um ponto central i selecionado dentro
da populacao e dois pontos localizados nas extremidades do ponto central (i−1) e (i+1). A
ideia e que a partir de um ponto central, o operador de diversidade possa encontrar pontos
extremos e priorizar os pontos mais distantes durante o processo de selecao, com o intuito
de espalhar os resultados ao longo de pareto. Sua disposicao dos pontos extremos formam
um cuboide em relacao ao ponto central. A Figura 8 ilustra o processo de estipulacao do
cuboide.
Figura 8 – Crowding distance.
Fonte: Elaborado pelo autor
Apos atribuir um valor de Crowding distance a cada uma das solucoes de uma
determinada fronteira, torna-se possıvel comparar duas solucoes atraves de suas medidas
de proximidade com outras solucoes. A solucao com o menor valor dessa medida de
distancia tem mais solucoes a sua volta quando comparada a outras solucoes.
Existe um criterio de selecao nos diferentes estagios do algoritmo geralmente
denominado crowded comparison operator. Seu intuito e guiar no processo de selecao
do algoritmo. Assumindo que todo indivıduo i da populacao possui dois atributos: rank
(irank) e o crowding distance (idist), podemos definir a seguinte ordem parcial � n:
45
i � n j se (irank < jrank) ou ((irank = jrank) e (idist > jdist)) (2.9)
2.6.3 Algoritmo
A Figura 9 apresenta o comportamento do NSGA II, mostrando todo o processo
ate a selecao da proxima populacao.
Figura 9 – Comportamento do NSGA II.
Fonte: Adaptado de (DEB et al., 2000)
O NSGA-II inicia-se com a geracao aleatoria de uma populacao inicial, P0, de
tamanho N . Esta populacao e ordenada de acordo o criterio de nao-dominancia. Em
funcao do seu nıvel de nao-dominancia, cada solucao recebe um rank, correspondente ao
ındice da fronteira a qual a solucao pertence.
Apos a classificacao das solucoes, e gerada uma nova populacao Q0, de tamanho N ,
atraves dos mecanismos de selecao, recombinacao e mutacao. O elitismo e introduzido pela
comparacao da populacao corrente com a populacao anterior, o procedimento e diferente
apos a geracao inicial. A seguir, o algoritmo e descrito para a t−esima geracao.
Inicialmente, com a combinacao das populacoes Pt e Qt, e formada a populacao
Rt, de tamanho 2N . A populacao Rt e entao ordenada por nao-dominancia. Como todas
as populacoes (anteriores e corrente) estao incluıdas em Rt, e garantido o elitismo do
algoritmo (ANDRADE, 2009).
As solucoes pertencentes a F1 sao as melhores solucoes na populacao combinada.
Se o tamanho de F1 e menor que N , todas as solucoes de F1 sao escolhidas para a
46
nova populacao, Pt+1. Para completar Pt+1, sao escolhidos os indivıduos das fronteiras
subsequentes. Deste modo, as proximas solucoes a serem escolhidas sao aquelas
pertencentes a F2, seguidas pelas solucoes de F3, e assim por diante. Este procedimento
continua, ate que nao seja mais possıvel acomodar inteiramente uma fronteira. A ultima
fronteira alem da qual nao podem mais ser adicionadas novas fronteiras sera chamada de
FL (DEB et al., 2000).
Geralmente, a soma das solucoes de todas as fronteiras entre F1 e FL sao maiores
que o tamanho da populacao. Para que sejam escolhidos, entao, nao mais que N
indivıduos, as solucoes da fronteira FL sao ordenadas de acordo com o crowded comparison
operator ≺ n, em ordem decrescente. Em seguida, para finalizar o preenchimento da nova
populacao, sao escolhidas as solucoes com maior valor de crowding distance, seguindo a
lista ordenada obtida acima. A nova populacao Pt+1, de tamanho N , passa agora pelos
processos de selecao, crossover e mutacao, dando origem a uma nova populacao Qt+1, de
tamanho N . A Figura apresenta o procedimento descrito. Para o presente trabalho os
objetivos tratados no NSGA-II foram: menor erro medio de precisao eprec do classificador
SVM e menor subconjunto de caracterısticas.
2.7 Analise Fatorial
Os modelos estatısticos sao utilizados para a analise de dados, em diversas
situacoes, como por exemplo, avaliar os resultados de uma pesquisa, validar a credibilidade
do metodo empregado, ou ainda, analisar um conjunto de dados por meio de selecao e
reducao do numero de variaveis deste conjunto.
Dado um grande conjunto de variaveis, em geral, e possıvel encontrar variaveis
que apresentam medidas de inter-relacao/associacao com outras variaveis. Esta medida
e chamada de coeficiente de correlacao e mede a forca da relacao entre as variaveis
analisadas. Em outras palavras, mostra o quanto uma variavel esta relacionada a
outra. Esta relacao pode significar uma tendencia crescente ou decrescente, uma
proporcionalidade direta ou inversa.
O modelo estatıstico utilizado neste trabalho e a Analise Fatorial (AF), pertencente
a classe dos modelos estatısticos multivariados. O objetivo principal da AF e simplificar os
dados quantitativos por meio de um conjunto reduzido de variaveis. Esta simplificacao e o
resultado da analise entre variaveis que estejam correlacionadas (inter-relacionadas) entre
si e ortogonais (independentes) a outras. Este processo permite facilitar a conducao das
analises realizadas sobre os dados, uma vez que a redundancia de informacao produzida por
diversas variaveis correlacionadas entre si e reduzida. Existem basicamente dois metodos
de Analise de Fatorial:
47
a) AF Exploratoria: determina o conjunto de fatores para as variaveis originais;
b) AF Confirmativa: avalia a consistencia do modelo fatorial (hipotetico) por meio de
equacoes estruturais;
A formulacao da analise fatorial e dada pela Equacao 2.10. Seja uma matriz de
dados representada por:
X =
x11 x11 x1p
x21 x21 x2p
· · · · · · · · ·xn1 xn2 xnp
= [X1X2...Xp] (2.10)
Seja a matriz µ de medias: µ = [µ1µ2µ3...µp] onde p corresponde ao numero de variaveis.
Seja a matriz de covariancia COV (X)pp e de correlacao COR(X)pp.
Seja a nova matriz de dados Z com media 0 e desvio padrao σ = 1
O metodo de Analise Fatorial e dado pela Equacao 2.11:
Z1 = l11F1 + l12F2 + · · ·+ l1mFm + ε1
Z2 = l21F1 + l22F2 + · · ·+ l2mFm + ε2...
Zp = lp1F1 + lp2F2 + · · ·+ lpmFm + εp
(2.11)
Em que Zi = (Xi − µi)/σi e a variavel padronizada, onde Xi e a variavel original com
media µi e variancia σ2i e εi e o i-esimo erro aleatorio para i = 1, ..., p Fj, j = 1, ...,m e
o j-esimo fator comum e lij e o coeficiente da i-esima variavel padronizada Zi no j-esimo
fator Fj e representa o grau de relacionamento linear entre Zi e Fj .
A analise fatorial utiliza um determinado numero de fatores. Para estimar o
numero ideal de fatores a serem utilizados temos os metodos Scree Analysis e Parallel
Analysis :
a) Scree Analysis : Metodo popular baseado em (CATTELL, 1966), envolve a exploracao
visual da representacao grafica dos autovalores. E considerado o numero de fatores
pelo fator acima da linha de corte;
b) Parallel Analysis : Proposto por (HORN, 1965), o metodo utiliza formulas de
regressao para aproximar dos autovalores esperados dada a matriz original. E
considerado o numero de fatores pelo fator acima dos dados da simulacao e
re-amostrados.
48
49
3 TRABALHOS RELACIONADOS
Neste Capıtulo sao apresentados trabalhos relacionados ao problema da predicao
de funcao de proteınas, assim como os que utilizam algoritmo genetico para solucao dos
problemas.
Em (PAPPA; FREITAS; KAESTNER, 2002) e proposto um algoritmo genetico
multiobjetivo para a selecao de atributo com base na abordagem wrapper. Os autores
utilizaram o classificador C4.5. Seus objetivos eram minimizar a quantidade de regras e
maximizar a acuracia. O trabalho tambem, fez um comparativo com outra abordagem, a
selecao sequencial para frente com uma versao multiobjetiva, com o intuito de comparar
estas duas versoes. Os experimentos foram feitos em 18 bases de dados diferentes e os
resultados demonstraram que sao eficazes para solucao do problema de selecao de atributos
e competitivos como outros algoritmos tradicionais da literatura de otimizacao como o
SPEA.
Em (DOBSON; DOIG, 2004), os autores propuseram uma abordagem para classificar
enzimas em uma das seis classes sem depender do alinhamento de sequencias. Os autores
utilizaram caracterısticas obtidas a partir da estrutura secundaria das proteınas. O
metodo apresentado pelos autores obteve uma precisao media de 35% com o classificador
SVM, isso porque segundo os autores, foi adotada uma estrategia para penalizar atraves
de uma funcao de pontuacao relacionado com a quantidade de enzimas por classe, uma
vez que uma maior precisao foi encontrada para as classes com maior numero de enzimas.
Em (BORRO et al., 2006), utilizando os parametros fısico-quımicos das proteınas,
retirados do banco de dados STING DB, os autores realizaram uma selecao de
caracterısticas utilizando a tecnica de correlacao de variaveis, identificacao e remocao
de redundancias, reduzindo para 11 o numero de variaveis utilizadas para caracterizar as
enzimas. Para contornar o problema de diferentes tamanhos das enzimas, a Transfomada
Discreta de Cosseno (TDC) foi aplicada em cada um das variaveis e selecionados os 40
primeiros coeficientes resultantes da TDC, gerando um vetor de 440 posicoes. Outro
problema tratado pelos autores corresponde a diferenca na quantidade de proteınas de
cada classe, para o qual a tecnica de balanceamento de amostragem com reposicao foi
utilizada para corrigir o desbalanceamento. Para avaliar a metodologia, foi utilizado
o classificador Naive Bayes. A metodologia conseguiu 45,3% de acuracia, classificando
corretamente 223 proteınas de um total de 492, com uma precisao media de 53,9%. Os
autores apontaram a necessidade de testar outros classificadores com objetivo de melhorar
a acuracia da metodologia proposta. Este resultado mostra a grande complexidade na
predicao de funcao de proteına no ambito da bioinformatica.
O trabalho de (HUANG; WANG, 2006) fez tambem uso de um algoritmo genetico
50
utilizado para a selecao de atributos. Realizaram experimentos para avaliar a precisao
da classificacao utilizando SVM com a utilizacao de um kernel RBF e o algoritmo
associado a tecnica de Grid Search em 11 bases de dados da UCI (NEWMAN; MERZ,
1998). Na abordagem utilizada empregou-se o classificador PSO-SVM, obteve-se melhoras
na acuracia com media de acerto de 84% utilizando o PSO-SVM. O autor ressalta que
outros parametros do kernel tambem podem ser ajustados buscando sempre a otimizacao
com a mesma abordagem proposta.
O trabalho de (TAN et al., 2008) empregou um metodo de combinacao com selecao de
atributos para selecionar os melhores atributos e/ou melhor desempenho da classificacao
e faz um comparativo com metodos ja existentes na literatura. Multiplos criterios
de selecao sao combinados por um algoritmo genetico para melhorar os atributos do
subconjunto. O trabalho utilizou bases de dados para avaliar o metodo proposto (SHARAN;
ELKON; SHAMIR, 2002). Os resultados mostraram que a abordagem e eficaz em encontrar
subconjuntos. Os resultados encontrados foram um conjunto com 8 atributos com um
percentual de precisao de 90,31%.
Em (NEMATI et al., 2009) e proposto um algoritmo para selecao de caracterısticas
que combina algoritmos geneticos e otimizacao de colonias de formigas com o intuito
de otimizacao da pesquisa. O algoritmo proposto utiliza as vantagens da colonia de
formigas e do algoritmo genetico. Os experimentos foram realizados em bases de dados
biologicas (GPCR-PROSITE e ENZYME-PROSITE ) para uma classificacao hierarquica.
Os criterios utilizados para a analise dos resultados foram maximizar a precisao preditiva
e encontrar o menor subconjunto de recursos. Os resultados mostraram superioridade do
algoritmo com valores de 82% para o GPCR e 98% para a base de enzimas comparados
as abordagens individuais do algoritmo genetico e colonia de formiga.
Em (LEIJOTO et al., 2014), os autores utilizaram um algoritmo genetico (AG) para
selecionar 11 variaveis do STING DB. Das caracterısticas encontradas pelo AG apenas
uma e igual as de (BORRO et al., 2006)): Accessible Surface in Isolation. Os valores
de cada uma das variaveis foram normalizados e a TDC, considerando os 75 primeiros
coeficientes, foi aplicada para tambem contornar o problema da diferenca de tamanho entre
as proteınas. Para validar a abordagem, os autores utilizaram o classificador SVM com a
estrategia Grid search para ajustar os valores de C e γ para o classificador. A abordagem
obteve uma sensibilidade media de 62% e uma precisao media de 70%. Tambem foram
realizados experimentos adicionando a frequencia de cada aminoacido aos valores dos
coeficientes da TDC aumentando a sensibilidade media e a precisao media do classificador
para 68% e 71%, respectivamente. Como apontado pelos autores, o algoritmo genetico
teve limitacao de processamento de 50 geracoes e 10 indivıduos, devido ao alto custo de
processamento computacional demandado.
51
Em (SANTOS, 2016), e feita uma avaliacao das diferentes informacoes relativas as 4
estruturas da proteına, tais como: fısico-quımicas, potencial eletrostatico, hidrofobicidade,
frequencia de aminoacidos, distancias entre carbonos α e peso molecular. Os valores
das variaveis foram normalizados e a TDC, considerou os 10 primeiros valores baseados
em varios experimentos. Para a validacao o autor utilizou o classificador SVM com a
abordagem grid search ajustando os parametros Cost e γ. A metodologia proposta
obteve-se valores medios de precisao de 78,4% e sensibilidade de 74,3%. O autor comparou
diferentes modelos baseados em SVM e conclui que todas as informacoes sao relevantes
para melhorar o desempenho do classificador. No entanto, o modelo considerou somente
10 de 344 caracterısticas fısico quımicas apontadas inicialmente por (MANCINI et al., 2004).
Em (ALZUBAIDI; COSMA, 2017) e proposto, uma metodologia para construir
modelos de previsao para dados de alta dimensao. Sua divisao compoe em tres fases
principais. A fase de filtragem de recursos que filtra as caracterısticas ruidosas; a fase
de selecao de caracterısticas que se baseia em tecnicas de aprendizado de maquinas
multivariadas e o Algoritmo Genetico para avaliar os recursos filtrados e selecionar os
subconjuntos mais informativos de recursos para alcancar o desempenho maximo de
classificacao; e a fase de modelagem preditiva durante a qual os algoritmos de aprendizado
da maquina sao treinados nas caracterısticas selecionadas para construir um modelo de
previsao confiavel. As experiencias foram realizadas utilizando quatro conjuntos de dados
biomedicos com alta dimensionalidade e dois classificadores o SVM e o KNN. Os resultados
mostraram desempenho satisfatorios com relacao ao desempenho e valores em torno de
93% de entropia usando o SVM e 89% para o KNN.
52
53
4 METODOLOGIA
Nesta secao e descrita a metodologia de pesquisa utilizada nesse trabalho. A
Figura 10, ilustra a metodologia adotada para a construcao do classificador baseado em
SVM para predicao de funcao de proteına. Essas etapas envolvem o pre processamento,
padronizacao dos tamanhos do conjunto de entradas, selecao de atributos baseado em AG,
enriquecimento da base de dados, reducao de dimensionalidade baseado em PCA, uso do
classificador SVM e por ultimo a validacao dos resultados. Cada uma dessas etapas sera
detalhada nas proximas secoes.
Figura 10 – Metodologia utilizada
Fonte: Elaborado pelo autor
4.1 Materiais
Nesta secao e descrito a base de dados considerada e os processos de extracao e
seus respectivos repositorios e todo o processo ate a obtencao dos resultados.
4.2 Selecao da Base de Dados
Neste trabalho utilizamos o STING DB (MANCINI et al., 2004) para extracao das
caracterısticas do conjunto das seis enzimas investigadas neste trabalho: Oxidorredutases,
Transferases, Hidrolases, Liases, Isomerases e Ligases. Estas enzimas sao as mesmas
54
utilizadas por Dobson and Doig (DOBSON; DOIG, 2004), Borro et al (BORRO et al., 2006),
Larissa et al (LEIJOTO et al., 2014) e Santos (SANTOS, 2016).
O STING DB e um repositorio desenvolvido pelo laboratorio de Biologia
Computacional da Embrapa Informatica, que possui um conjunto de programas e bases
de dados para visualizacao e analise da estrutura de macromoleculas. Neste trabalho
inicialmente comecamos com 334 caracterısticas de um dos modulos contido neste
repositorio, denominado Java Protein Dossier (NESHICH et al., 2004). A Tabela 1 mostra
a quantidade de enzimas e o numero de cadeias utilizadas neste trabalho.
Tabela 1 – Classe e quantidade de enzimas.
Proteınas usadas porDobson and Doig
Apos processode limpeza
Classe Proteına Cadeia Proteına CadeiaHidrolases 160 312 122 162Isomerases 51 89 35 56Liases 60 131 43 61Ligases 20 22 15 16Oxidoredutases 79 124 52 78Transferases 128 162 82 117Total 498 840 349 490
Fonte: Dados da Pesquisa
Esta base de dados contem uma quantidade relevante de informacoes acerca das proteınas,
inclusive provenientes de outros repositorios de informacoes e apresenta propriedades que
sao calculadas apos a proteına estar enovelada, ou seja, informacoes que representam
as estruturas primaria, secundaria, terciaria e quaternaria. As enzimas utilizadas por
Dobson and Doig (DOBSON; DOIG, 2004) foram extraıdas do banco de dados ASTRAL
SCOP versao 1.63∗ em 2003 (DOBSON; DOIG, 2003).
Em Santos (SANTOS, 2016) esta mesma base de dados passou por um processo de
limpeza, no qual enzimas com uma pontuacao score inferior a 0,3 foram eliminadas. As
enzimas foram comparadas com as informacoes contidas no Protein Data Bank † (PDB)
(BERMAN et al., 2000), o que permitiu observar que algumas delas foram classificadas em
uma nova classe e portanto, foram reorganizadas. Enzimas identificadas como obsoletas no
PDB nao foram incluıdas neste estudo. Durante o processo de extracao das caracterısticas
algumas situacoes foram consideradas: as enzimas que nao tinham nenhuma informacao
encontrada neste banco de dados foram descartadas e arquivos que estavam corrompidos
tambem nao foram considerados, resultando em uma menor quantidade de enzimas
utilizadas para este estudo, como mostrado nas ultimas colunas da Tabela 1.
∗http://astral.berkeley.edu/†http://www.rcsb.org/pdb/home/home.do
55
4.2.1 Pre Processamento
A base de dados possui um total de 490 cadeias de seis classes diferentes, com um
total de 334 caracterısticas disponıveis. Foi realizado o pre processamento dos dados para
aprimorar a qualidade das informacoes disponıveis, conforme apresentado na Figura 11.
Figura 11 – Pre processamento dos dados
Fonte: Elaborado pelo autor
Inicialmente, foi realizada uma analise destas caracterısticas e verificou-se a
existencia de dados redundantes, os quais foram removidos. Ficando portanto, com um
total de 291 caracterısticas. Uma analise preliminar mostrou o alto custo computacional
de trabalhar com o conjunto de dados completo (291 caracterısticas), resultando em∑291i=1C
291i = 291!
i!(291−i)! combinacoes possıveis.
Visando reduzir a alta dimensionalidade da base de dados, utilizamos a tecnica de
correlacao de Pearson, conforme pode ser visto na Figura 12.
Figura 12 – Grau de correlacao entre algumas variaveis
Fonte: Dados da Pesquisa
56
Observamos nesta analise que, existiam um grande numero de caracterısticas com
correlacao muito forte. Com isso, optamos por eliminar caracterısticas que tinham forte
correlacao acima de 0.90, ficando com um total de 51 caracterısticas.
A matriz contendo as caracterısticas (c1...c51) para cada aminoacido, obtidas do
repositorio STING DB sao representadas pela Equacao 4.1.
C =
c1,1,1,1 ... c1,1,1,L...
......
c1,1,A1,1,1 ... c1,1,A1,1,L
......
...
cp,sp,1,1 ... cp,sp,1,L...
......
cp,sp,Ap,sp ,1 ... cp,sp,Ap,sp ,L
∑p
i=1
∑sij=1 AijxL
(4.1)
C = cijkl onde:
i = 1 ... P ; j = 1 ...si; k = 1 ... Aij;
l = 1 ... L = numero de caracterısticas sendo L = 51.
Cabe ressaltar que o processo de selecao de atributos por meio do AG, para as
caracterısticas fısico quımicas foi aplicado sobre as 51 caracterısticas disponıveis, levando
para um espaco de busca de51∑i=1
51!i!(51−i)! possıveis solucoes. Essas 51 caracterısticas restantes
sao compostas por informacoes fısico quımicas obtidas por meio das atracoes ocorridas
pelos diversos tipos de ligacoes entre os aminoacidos.
4.2.2 Transformada Discreta de Cosseno
Para que a utilizacao de um classificador seja possıvel, o tamanho de todos os
vetores de entrada deve ser o mesmo. No entanto, devido a diferenca da quantidade de
aminoacidos de cada cadeia da proteına, o conjunto de dados possui tamanhos diferentes.
Para solucionar este problema, foi utilizada a tecnica da Transformada Discreta do
Cosseno (TDC) (AHMED; NATARAJAN; RAO, 1974), aplicada para cada caracterıstica do
conjunto cijkl...cijAij l (ver Equacao 4.1). A TDC foi escolhida pois e uma transformacao
que preserva nos valores iniciais os coeficientes mais significativos e nos restantes os valores
que carregam pouca informacao, pode ser expressa conforme Equacao 4.2.
Tk = αk
N−1∑n=0
Xn cos
[π
N
(n+
1
2
)k
], n > 0 (4.2)
57
onde αk = 1√Npara, k = 0
αk =√
2Npara, k = 1...N
N = numero de aminoacidos de cada cadeia Aij
Baseado em testes experimentais, foi definido como relevante os k = 10 primeiros
coeficientes da transformada. Esse valor trouxe a melhor media encontrada para as
medidas de precisao e sensibilidade apontados em (SANTOS, 2016). A Figura 13 ilustra a
aplicacao da TDC.
Figura 13 – Processo da transformada do cosseno
Fonte: Elaborado pelo autor
Em seguida, um processo de normalizacao foi aplicado a todas as caracterısticas
para que estivessem no intervalo de [0,1]. Este ajuste e necessario para evitar que
algumas variaveis, por apresentarem uma escala de valores maiores que outros, influenciem
de forma tendenciosa a classificacao dos dados. A Equacao 4.3 mostra a funcao de
normalizacao Min-Max utilizada.
X ′ =X −minmax−min
(4.3)
onde: X = representa o valor a ser normalizado;
max = e o maior valor da variavel;
min = representa o menor valor da variavel;
58
X ′ = corresponde ao valor normalizado.
4.2.3 Algoritmo genetico multiobjetivo
Apos a aplicacao da TDC, todas as caracterısticas fısico quımicas das cadeias
das proteınas possuem a mesma quantidade de variaveis de entrada, correspondente
ao numero de coeficientes (Tk = 10). Com isso, aplicamos o algoritmo genetico
multiobjetivo Non-dominated Sorting Genetic Algorithm II (NSGA-II) para buscar o
melhor subconjunto de caracterısticas, com menor percentual de erro do classificador,
utilizando o menor numero de atributos para reduzir a complexidade do modelo gerado.
O NSGA II e um algoritmo multiobjetivo que implementa os conceitos de
dominancia. Sua escolha foi motivada por este ser o estado da arte em problemas que
envolvem varios objetivos. A sua implementacao foi na linguagem Python utilizando a
biblioteca DEAP, disponıvel pela Universite Laval (FORTIN et al., 2012).
4.2.4 Representacao do indivıduo
O indivıduo do AG representa uma possıvel solucao para o problema a ser resolvido.
Logo, e necessario encontrar uma representacao eficiente para ele. A Figura 14 apresenta
um exemplo de indivıduo utilizado no algoritmo proposto. Este indivıduo e representado
por um vetor que possui 51 posicoes binarias, onde cada posicao pode assumir valores entre
0 e 1, indicando a presenca ou ausencia daquela determinada caracterıstica. Cada posicao
deste vetor representa uma caracterıstica contida nos arquivos extraıdos do STING DB.
Para cada caracterıstica tem-se 10 coeficientes obtidos pela TDC.
Figura 14 – Representacao do indivıduo
Fonte: Elaborado pelo autor
4.2.4.1 Funcao Objetivo
Neste trabalho dois aspectos foram considerados no processo de predicao de funcao
de proteına: que o modelo tenha um percentual de erro baixo, aumentando a sua
confiabilidade e um subconjunto pequeno de atributos para uma simplificacao do modelo
gerado. Portanto, foram considerados dois objetivos relacionados a minimizacao:
59
• Menor percentual de erro medio de precisao do classificador SVM, onde Precisao =V P
V P+FP, conforme Equacao 4.4.
ePrec = 1−
m∑i=1
n∑j=1
Precisaoij
mn(4.4)
sendo:
m = numero de classes de enzimas m = 6;
n = numero de dobras da cross-validacao n = 10;
• Menor subconjunto de atributos dentre os 51 candidatos que melhor separa as classes
de proteınas.
Nota-se que, durante o processo de avaliacao da fitness o criterio de desempate de dois
indivıduos e: primeiro a melhor fitness da precisao e em seguida o menor numero de
caracterısticas.
4.2.4.2 Definicao do tamanho da populacao e codificacao dos indivıduos
Foram realizados testes preliminares para definir quais seriam os intervalos de
variacao dos parametros mais adequados para a realizacao dos experimentos e definir
um criterio de parada baseado no numero de geracoes, de forma a ter um controle dos
experimentos em relacao ao esforco computacional requerido.
Estes testes visavam encontrar valores para os parametros de tamanho da
populacao e numero de geracoes, pois estes sao parametros que influenciam no tempo
de execucao dos testes. Os valores considerados para a populacao e geracoes foram
de 100, 300, 500 e 1000. Para estes testes, o criterio de parada utilizado foi por
convergencia e a fitness definida anteriormente. Para este criterio de parada, analisamos
alteracoes significativas sobre os indivıduos da populacao entre as n geracoes, buscando
a convergencia. Caso nao houvesse alteracoes significativas entre os indivıduos da
populacao, haveria indıcios de convergencia. O limiar de convergencia adotado foi de 60%
e foi definido empiricamente. Os demais parametros do AG, probabilidade de cruzamento
(Pc) e probabilidade de mutacao (Pm), foram fixados em 0.70 e 0.01 respectivamente, pois
o objetivo destes testes eram encontrar uma faixa de valores, para que se estabelecesse
quais seriam os valores a serem testados de populacao e numero de geracoes. Como
resultado dos testes foi observado que, para uma populacao de 300 indivıduos e 200
geracoes foi alcancado o limiar de convergencia estipulado de 60%. Os testes foram
repetidos 10 vezes para garantir a confiabilidade.
60
Apos definido os valores de convergencia da populacao e o numero de geracoes.
Estipulamos uma faixa de valores para estes parametros de forma a garantir uma
confiabilidade dos experimentos. Com isso, a faixa de valores para o tamanho da
populacao foi de 100, 300 e 500. O intervalo de valores para o numero de geracoes foi de
100 e 300. O Quadro 4 mostra os parametros e seus valores ajustados para a realizacao
dos experimentos globais.
Quadro 4 – Parametros dos experimentos.
Inicializacao da populacao AleatoriaRepresentacao BinariaOperador de cruzamento Two PointsProbabilidade de cruzamento (Pc) 65%, 70%, 75%, 80%Operador de mutacao One PointProbabilidade de mutacao (Pm) 1%, 5%, 10%Tamanho da populacao 100, 300, 500Numero de geracoes 100, 300Metodo de selecao para cruzamento Torneio = 2Composicao da nova geracao Indivıduos nao dominadosCriterio de parada Numero de Geracoes
Fonte: Elaborado pelo autor
4.2.4.3 Busca da Melhor Solucao
Para buscar a melhor solucao foram realizados um total de 60 experimentos que
representam as combinacoes da faixa de parametros conforme mostrado na Tabela 4. A
Figura 15 mostra o processo experimental executado para a escolha da melhor solucao.
Figura 15 – Criterio para a escolha da melhor solucao do AG
Fonte: Elaborado pelo autor
61
Os parametros Cost e γ do SVM foram fixados para realizacao dos experimentos. Isto
pelo fato de que a otimizacao do Cost e γ para cada experimento demandaria um tempo
computacional adicional de aproximadamente 30 min‡ para cada indivıduo da populacao,
com uma configuracao de maquina especıfica§, tornando assim inviavel a otimizacao destes
parametros. Isto levou a encontrar solucoes com baixa precisao (44% hidrolases, 70%
isomerases, 60% ligases, 37% liases, 48% oxidoredutases, 49% Transferases). Porem,
o objetivo foi sempre encontrar a melhor solucao dentre todas elas. Alem disso, em
(SANTOS, 2016) foi apontado que as caracterısticas fısico-quımicas contidas no Sting-DB
nao sao suficientes para melhorar o desempenho do classificador e portanto, e necessario
o enriquecimento do classificador com novas informacoes.
Terminado o processo de busca das caracterısticas por meio do AG, tem-se um
conjunto de experimentos, cada um desses experimentos com 10 sementes diferentes para
validacao estatıstica. Para cada semente tem-se um conjunto de 10 possıveis candidatos
nao dominados (hall of fame). De posse destes candidatos, realizamos uma validacao
cruzada (10-dobras) para cada um destes e em seguida obtivemos uma media aritmetica
da precisao. O experimento que obteve a melhor media foi o conjunto de parametros
escolhido (Populacao, geracao, Pc, Pm).
Apos a escolha do melhor conjunto de parametros da solucao a partir de todos
os experimentos realizados, temos varios possıveis candidatos daquele conjunto de
parametros. Estas correspondem as melhores solucoes encontradas. No caso ideal seria
neste ponto que o usuario iria escolher a melhor solucao para o problema. Para a escolha
da melhor solucao realizamos uma validacao estatıstica para cada um destes conjuntos de
dados. Para isso aplicamos uma validacao cruzada (k = 10 dobras). Dividimos o conjunto
de dados de cada candidato da solucao em 10 conjuntos, em que 9 sao destinados ao
treinamento e 1 a validacao. Para cada processo de treinamento, guardamos os valores
encontrados em relacao ao objetivo 1 (percentual de erro) e em seguida calculamos uma
media destes valores. Aquele que obteve melhor media, neste caso menor percentual de
erro na precisao, foi a solucao candidata escolhida. Apos encontrar a melhor solucao, os
parametros fixados do SVM foram otimizados utilizando a abordagem Grid Search (HSU;
CHANG; LIN, 2003), ajustando os valores de Cost e γ. A Figura 16 mostra o conjunto de
parametros que obteve melhor resultado.
Podemos notar que a metrica de diversidade, a qual indica o numero de indivıduos
que sao diferentes dos pais, convergiu proximo da geracao 40. Nota-se tambem que
a fitness de precisao atingiu seu apice na geracao 50. Outra analise realizada foi em
relacao ao numero de atributos encontrados. Obteve-se melhores valores medios de fitness
‡Tempo adicional para otimizacao do Cost e γ = Tamanho da Populacao x Numero de geracoes x 30min. (Ex: 300 x 300 x 30 min = aproximadamente 1875 dias)
§Processador Core i7, Memoria 16 GB e 1 TB HD.
62
utilizando 28 atributos.
Figura 16 – P = 500 Geracoes = 100 Pc = 0,70 Pm = 0,01
Fonte: Dados da pesquisa
Desta forma, os melhores atributos (caracterısticas fısico quımicas) sao os seguintes:
• 3DEntropyCA-Sliding-Window-[Window=5-Radius=4)
• 3DEntropyCA-Sliding-Window-[Window=5-Radius=6)
• 3DEntropyIFR(4)
• EnergyDensityIFR(9)
• EnergyDensityLHAsw(9,3)
• HydroR()
• IFRDensityCA(3)
• IFRDensityLHA(3)
• NumberOfHBondPLC()
• NumberofIFRContacts(1)
• NumberofIFRContacts(4)
• NumberofIFRContacts(6)
63
• NumberofIFRContacts(7)
• NumberofIFRContacts(10)
• NumberofIFRResidues(4)
• NumberofIFRResidues(6)
• NumberofIFRResidues(7)
• NumberofIFRResidues(9)
• NumberofIFRResidues(11)
• NumberofIFRResidues(12)
• NumberofIFRResidues(17)
• NumberofINTContacts(4)
• NumberofINTContacts(5)
• NumberofINTContacts(6)
• NumberofINTContacts(8)
• NumberofINTContacts(10)
• NumberofINTContacts(13)
• NumberofINTContacts(14)
Uma descricao detalhada destas caracterısticas pode ser encontrada em (MORAES
et al., 2014). De posse deste subconjunto de dados, adicionamos outras caracterısticas
biologicas, conforme apresentado na Metodologia descrita na Secao 4.2.
4.3 Enriquecimento da Base de Dados
Foi constatado em experimentos anteriores que houve uma melhora nos resultados
adicionando informacoes a base de dados do STING DB. Portanto, foram coletadas
informacoes biologicas adicionais visando melhorar os resultados apos o processo de selecao
de atributos pelo AG. Estas informacoes estao descritas a seguir.
64
4.3.0.1 Frequencia de aminoacidos
Para cada uma das cadeias consideradas contabilizou-se a frequencia com que cada
um dos 20 aminoacidos aparece. Esta frequencia foi adicionada como novos atributos
para caracterizar a proteına. Com isso tem-se mais um tipo de caracterıstica relacionado
a estrutura primaria. A Equacao 4.5 apresenta a matriz de caracterıstica composta pela
frequencia dos aminoacidos, sendo que cada linha corresponde a uma cadeia de proteınas.
F =
f1,1,1 ... f1,1,N...
......
f1,S1 ,1... f1,S1,N
......
...
fp,1,1 ... fp,1,N...
......
fp,Sp,1 ... fp,Sp,N
∑p
i=1 SixN
(4.5)
F = fijq onde:
i = 1 ... P; j = 1 ...Si; n = 1 ... N, sendo N = 20
P: numero de proteınas;
Si: numero de cadeias da proteına i;
N : quantidade de aminoacidos diferentes.
4.3.0.2 Frequencia do Carbono alpha
O Cutoff Scanning Matrix (CSM) fornece o padrao de distribuicao da distancia
Euclidiana entre os carbonos α dos resıduos ao longo da cadeia (PIRES et al., 2011). Sua
utilizacao neste trabalho e porque proteınas com diferentes dobras e funcoes apresentam
diferencas significativas na distribuicao de distancias entre os seus resıduos. Assim, temos
um conjunto de atributos representado pela Equacao 4.6.
D =
d1,1,1 ... d1,1,Q...
......
d1,S1,1 ... d1,S1,Q
......
...
dp,1,1 ... dp,1,Q...
......
dp,Sp,1 ... dp,Sp,Q
∑p
i=1 SixQ
(4.6)
65
D = dijq onde:
i = 1 ... P; j = 1 ...Si; q = 1 ... q, sendo Q = 151
P: numero de proteınas;
Si: numero de cadeias da proteına i;
Q: quantidade de distancia entre os carbonos.
4.3.0.3 Extracao de dados estatısticos da estrutura primaria
O EMBOSS Pepstats e um repositorio que fornece informacoes estatısticas sobre
as sequencias dos aminoacidos. Os dados fornecidos por este repositorio formam um total
de 31 atributos representados pela Equacao 4.7.
E =
e1,1,1 ... e1,1,M...
......
e1,S1,1 ... e1,S1,M
......
...
ep,1,1 ... ep,1,M...
......
ep,Sp,1 ... ep,Sp,M
∑p
i=1 SixM
(4.7)
E = eijm onde:
i = 1 ... P; j = 1 ...Si; m = 1 ... M, sendo M = 31
P: numero de proteınas;
Si: numero de cadeias da proteına i;
M : numero de atributos do EMBOSS Pepstats.
Desta maneira, apos o processo de selecao de atributos feito pelo NSGA-II, adicionamos
as caracterısticas descritas nas Equacoes 4.5, 4.6 e 4.7. Apos todo o processo
de enriquecimento de informacoes adicionais, temos finalmente todas as informacoes
necessarias para realizar novos experimentos utilizando atributos selecionados do STING
DB e outras caracterısticas biologicas, conforme descrito pela Equacao 4.8.
Q =[[T k
ij1]...[Tkij28], fijn, dijq, eijm
]∑p
i=1 Six482(4.8)
Para k = 1...10 (Coeficientes TDC)
66
4.3.1 Analise de componentes principais
E possıvel observar que o vetor de caracterısticas Q possui alta dimensionalidade,
motivo pelo qual aplicamos a analise de componentes principais (PCA) para a reduzir o
tamanho de entradas ao classificador. Este e um procedimento matematico, que utiliza
uma transformacao ortogonal para converter um conjunto de observacoes de variaveis,
possivelmente correlacionadas, num conjunto de valores de variaveis linearmente nao
correlacionadas, chamadas de componentes principais (KRIEGEL et al., 2008). O numero
de componentes principais e menor ou igual ao numero de variaveis originais. Esta
transformacao e definida de forma que, o primeiro componente principal tem a maior
variancia possıvel (ou seja, e responsavel pelo maximo de variabilidade nos dados) e cada
componente seguinte, por sua vez, tem a maxima variancia sob a restricao de ser ortogonal
aos componentes anteriores.
Neste trabalho, foram consideradas as componentes com 95% de explicacao para
a base de dados. Novamente com o conjunto de dados completo com os atributos
encontrados pelo AG associado aos atributos externos adicionados posteriormente e feito
uma validacao dos resultados encontrados com o classificador SVM e serao apresentados
na Secao 5.
4.4 Metricas de Avaliacao
Para a analise dos resultados utilizamos as seguintes metricas de avaliacao,
descritas abaixo:
• Precisao: taxa de instancias classificadas em uma determinada classe que realmente
pertencem a essa classe.
Precisao =V P
V P + FP(4.9)
• Sensibilidade: taxa de instancias da classe que realmente foram classificadas como
sendo da classe.
Sensibilidade =V P
V P + FN(4.10)
• F-Measure: e a media harmonica entre a precisao e sensibilidade.
F-Measure =2V P
2V P + Fp+ FN(4.11)
Onde: VP (verdadeiro Positivo) quantidade de proteınas corretamente classificadas na
classe em questao; FN(Falso Negativo): quantidade de proteınas da classe analisada,
erroneamente classificadas; FP (Falso Positivo): proteınas que nao sao da classe
considerada, mas que foi classificada nesta classe.
67
5 ANALISE DE RESULTADOS
Este Capıtulo apresenta os resultados obtidos pela aplicacao da metodologia
proposta. Comparou-se com resultados existentes na literatura e com a abordagem
estatıstica da analise fatorial que serao apresentados a seguir.
A Figura 17, mostra os resultados encontrados utilizando o conjunto de atributos
fısico quımicos, encontrados pelo AG, otimizando o Cost = 8.0 e γ = 0.00195313.
Figura 17 – Comparativo das caracterısticas fısico quımicas
Fonte: Dados da pesquisa
Considerando o valor da media global, podemos observar que, em relacao aos
trabalhos propostos na literatura, existiram algumas diferencas. Nota-se que, a media
global da metodologia proposta em relacao a metodologia de Leijoto (LEIJOTO et al.,
2014) e inferior em 4,2%, para F-Measure, porem, e superior em 2,3% para Precisao. A
explicacao deste fato, esta associado a metrica utilizada por nossa metodologia durante a
evolucao do algoritmo genetico, que foi o valor da Precisao, ao contrario de (LEIJOTO et
al., 2014) que fez o uso da F-Measure. Isto mostra a consistencia da estrutura evolutiva
proposta, de apresentar melhores resultados para a metrica Precisao. E importante
ressaltar que, a metodologia de (LEIJOTO et al., 2014) fixou o numero de caracterısticas
em 10 e a metodologia proposta neste trabalho, busca encontrar a quantidade que
68
melhor separasse as 6 classes de enzimas, dentro das 51 caracterısticas disponıveis. Com
isso, obtivemos o melhoramento em relacao a metrica de Precisao da nossa estrategia
multiobjetivo.
De forma a melhorar essas medidas, prosseguimos com o enriquecimento da base
de dados. A Figura 18, mostra que os valores medios de sensibilidade foram de 69,7%.
Comparando com outros trabalhos temos um ganho medio de 4% e 22,2% em relacao a
(LEIJOTO et al., 2014) e (BORRO et al., 2006) respectivamente e uma perda de 1,8% com
relacao ao trabalho de (SANTOS, 2016).
Figura 18 – Comparativo das caracterısticas fısico quımicas comenriquecimento
Fonte: Dados da pesquisa
Uma analise em relacao a metrica F-Measure foi feita. Notamos que, os valores
medios da metodologia proposta foram de 72,7% e um ganho de 5,2% em relacao ao
trabalho (LEIJOTO et al., 2014) e 22,8% em relacao ao trabalho de (BORRO et al., 2006)
e uma ligeira queda, de 1,7% em relacao ao trabalho de (SANTOS, 2016). De forma a
detalhar melhor os resultados apresentados, utilizamos a matriz de confusao Tabela 2,
que apresenta o numero de classificacoes obtidas para cada classe, em relacao ao numero
de classificacoes previstas.
Ao analisa-la, podemos observar que, algumas instancias foram classificadas em
69
Tabela 2 – Matriz Confusao
Classes Classes preditas pelo classificadorHid Iso Lia Lig Oxi Tra
Hidrolases (Hid) 141 1 2 0 3 15Isomerases (Iso) 2 38 1 1 4 9
Liases (Lia) 6 3 40 0 3 10Ligases (Lig) 1 0 2 8 3 2
Oxidoredutases (Oxi) 7 3 1 0 53 13Transferases (Tra) 11 6 0 1 6 94
Fonte: Dados da Pesquisa
classes diferentes. E importante ressaltar que os maiores erros de classificacao estao
associados a classe ligase com 50% de falsos positivos. Verificamos tambem que, a classe
transferase teve um total de 25% de falsos positivos. Esta classe de enzima corresponde
a segunda com maior numero de cadeias. Este resultado poderia indicar problemas de
balanceamento, considerando que nas enzimas Hidrolases e Ligase o desbalanceamento
chega a aproximadamente 1:10. No entanto, no trabalho de (SANTOS, 2016) verificou-se
que o desbalanceamento nao influenciou na qualidade do modelo. Alem disso, problemas
de desbalanceamento sao considerados em situacoes como 1:100, 1:1000 ou superiores
(CHAWLA; JAPKOWICZ; KOTCZ, 2004) .
Como a diferenca entre os valores da metodologia proposta por (SANTOS, 2016)
foram muito proximos, aplicamos um teste de hipoteses (T-Student). Adotamos a metrica
F-Measure, ja que e a media harmonica entre a precisao e a sensibilidade. Para comparar,
utilizamos a media geral das classes h0 : x1 = x2 com um nıvel de confianca de 95%. O
valor de p-value encontrado foi de 0.85, o que comprova que os resultados sao equivalentes
(p-value > 0, 05).
5.0.1 Analise Fatorial
Apos o AG encontrar o conjunto das 28 variaveis, notou-se que existiam ainda
variaveis com um ındice superior a 0.80 de correlacao. Visto isso, optamos por adotar um
metodo estatıstico de analise multivariavel, a analise fatorial. Fez-se uma analise entre
os 28 atributos sugeridos pelo Algoritmo genetico, conforme Figura 19. Notamos que o
algoritmo conseguiu encontrar varias caracterısticas que tinham baixa correlacao, abaixo
de 0.70. Entretanto, notamos que ainda existiam caracterısticas com correlacao acima de
0.80. Mediante a esta constatacao, optamos por realizar uma exploracao da base de dados
utilizando uma tecnica estatıstica, para verificar se era possıvel melhorar ainda mais os
resultados encontrados pelo algoritmo genetico.
Utilizamos a mesma base de dados que o algoritmo genetico trabalhou a base
70
Figura 19 – Comparativo entre correlacoes das variaveis encontradas pelo AG
Fonte: Dados da Pesquisa
de dados STING DB. Porem, a analise fatorial trabalhou com todas as caracterısticas
disponıveis, neste caso as 291 caracterısticas. O primeiro passo na analise fatorial e obter a
matriz de correlacao, conforme pode ser visto na Tabela 3. A partir desta tabela, e possıvel
a analise da relacao/associacao entre as variaveis por meio do coeficiente de correlacao
de Pearson (correlacao entre duas variaveis contınuas). A partir da matriz padronizada
de variancias/covariancia (coeficientes de correlacao), os autovalores e autovetores sao
calculados. A Tabela 3, mostra apenas um pequeno trecho desta matriz. Nao foi possıvel
apresenta-la por completo pois e uma matriz de dimensao 291x291.
71
Tabela 3 – Matriz (parcial) de correlacao
3DEntropyIFR(3)
3DEntropyLHA
sw(3,3)ACCC ACCI ACCR Chi(0) CloCB CloLHA ...
PLCHydrophil
3DEntropyIFR(3)
1 0,4587 0,3895 0,5740 0,5202 0,5092 0,3801 0,3804 ... 0,2445
3DEntropyLHAsw
(3,3)0,4586 1,0000 0,8971 0,8955 0,9323 0,9297 0,8357 0,8340 ... 0,3533
ACCC 0,3894 0,8971 1,0000 0,9747 0,9437 0,9278 0,7778 0,7748 ... 0,3445ACCI 0,5739 0,8955 0,9747 1,0000 0,9541 0,9361 0,7707 0,7680 ... 0,3631ACCR 0,5202 0,9323 0,9437 0,9541 1,0000 0,9947 0,8922 0,8924 ... 0,3961Chi(0) 0,5091 0,9297 0,9278 0,9361 0,9947 1,0000 0,9063 0,9068 ... 0,4009CloCB 0,3801 0,8357 0,7778 0,7707 0,8922 0,9063 1,0000 0,9972 ... 0,3706
CloLHA 0,3803 0,8340 0,7748 0,7680 0,8924 0,9068 0,9972 1,0000 ... 0,3739... ... ... ... ... ... ... ... ... ... ...
PLCHydrophil
0,2444 0,3533 0,3445 0,3631 0,3961 0,4009 0,3706 0,3739 ... 1,0000
Fonte: Dados da Pesquisa
72
De posse da matriz de correlacao, precisamos estimar quantos fatores sao ideais
para a representacao da base de dados. Utilizamos dois metodos para esta estimativa:
Scree Analysis e o Parallel Analysis.
A tecnica de Screen Analysis sugeriu 10 fatores como o numero ideal a ser utilizado.
Ja a analise do numero de fatores utilizando Parallel Analysis, sugeriu 11 fatores como
suficientes. Com isso, optamos por utilizar 11 fatores (F1, F2, F3...F11) de maneira
emırica para explicar/representar o conjunto de variaveis.
Realizado o processo da analise fatorial, obtivemos a seguinte associacao entre os
fatores sugeridos e as variaveis encontradas. A Tabela 4 apresenta esta associacao. Apos
este processo, realizamos a classificacao com os fatores sugeridos, que serao apresentados
nas Tabelas 5 e 6.
73
Tabela 4 – Associacao do conjunto de variaveis aos fatores
Fatores Variaveis
F1
v59,v61,v194,v191,v193,v196,v192,v195,v134,v89,v90,v64,v65,v62,v63,v111,v91,v92,v115,v95,v112,v119,v99,v93,v123,v103,v210,v107,v127,v94,v96,v211,v113,v207,v100,v209,v114,v206,v108,v202,v208,v201,v203,v204,v161,v97,v200,v198,v199,v101,v162,v105,v109,v163,v164,v116,v165,v205,v124,v128,v168v98,v102,v106,v110,v197,v167,v117,v121,v125,v126,v130,v144,v140,v136,v38,v36,v37,v34,v33,v88,v69,v67,v68,v81,v80
F5v132,v16,v13,v18,v17,v11,v56,v12,v5,v8,v15,v51,v10,v20,v6,v49,v48,v53,v9,v41,v19,v57,v1,v43,v52,v2,v44,v47,v55,v42,v50,v45,v39,v40,v31
F2 v30,v29,v28,v27,v26,v24,v25,v21,v159,v23,v160,v158,v156,v155,v154,v157,v153,v22,v152,v240,v222,v246,v228,v234,v287
F3v231,v178,v182,v171,v175,v179,v183,v172,v176,v180,v181,v185,v139,v143,v147,v151,v138,v142,v146,v150,v137,v141,v145,v131,v226,v227
F4 v149,v224,v223,v241,v242,v214,v213,v257,v258,v259,v260,v261F10 v215,v217,v74,v75,v76,v77,v216,v70,v71,v72,v73,v82,v83,v84,v85,v218,v78F8 v79,v186,v189,v187,v188,v66,v248,v249,v250,v251,v252,v253,v254F6 v190,v220,v221,v288,v289,v290,v291,v255,v256,v237,v238,v239,v244,v245F9 v219,v229,v247,v266,v267,v268,v269,v270,v271,v272,v273,v274,v275,v276F7 v225,v243,v262,v263,v264,v265,v283,v284,v285,v286F11 v277,v278,v279,v280,v281,v282,v230
”v232
”v233
”v235
”v236
Fonte: Dados da Pesquisa
74
A Tabela 5, apresenta os resultados encontrados utilizando a analise fatorial com
apenas as caracterısticas fısico quımicas.
Tabela 5 – Analise de Fator Caracterısticas fısico quımicas
Classe Precisao Sensibilidade F-MeasureHidrolases 59.8 75.3 66.7Isomerases 72.0 65.5 68.6
Ligases 69.8 48.4 57.1Liases 77.8 43.8 56.0
Oxidoredutases 55.2 41.6 47.4Transferases 54.0 57.6 55.7
Media 64.7 55.3 58.5
Fonte: Dados da Pesquisa
Notamos que, os valores encontrados utilizando a analise fatorial foram inferiores
se comparados ao algoritmo genetico. Nao existiu ganho com relacao a nenhuma metrica
de avaliacao. Observa-se que os valores de sensibilidade das classes ligases, liases e
oxidoredutases foram em torno de 40% a 50%, valores muito inferiores se comparados
ao algoritmo genetico. A Tabela 6, apresenta os resultados encontrados utilizando a
analise fatorial com os atributos externos.
Tabela 6 – Analise de Fator Caracterısticas fısico-quımicas + Externos
Classe Precisao Sensibilidade F-MeasureHidrolases 70.8 85.2 77.3Isomerases 71.4 63.6 67.3
Ligases 78.0 51.6 62.1Liases 77.8 43.8 56.0
Oxidoredutases 67.2 55.8 61.0Transferases 66.7 74.6 70.4
Media 71.9 62.4 65.6
Fonte: Dados da Pesquisa
Nesta avaliacao, existiu um ganho nas metricas trabalhadas em relacao a analise
fatorial com apenas as caracterısticas fısico quımicas, o mesmo comportamento que o
algoritmo genetico obteve. A precisao da analise fatorial foi 5,4% inferior a do algoritmo
genetico.
O Grafico 1, faz um comparativo entre as classes de enzimas trabalhadas, entre
o algoritmo genetico e a analise fatorial. Observa-se que, a analise fatorial perdeu em 5
classes. Uma melhora ocorreu na classe transferase, no percentual de 1,7%.
O Grafico 2, mostra os valores encontrados sobre a sensibilidade pela AF
juntamente com o AG. Notamos que, nao existiu nenhum ganho em relacao a nenhuma das
75
Grafico 1 – Comparativo da Precisao entre AG e Analise de Fator
Fonte: Dados da pesquisa
6 seis classes. Alem disso, notou-se uma perda de 7.3% em relacao aos valores encontrados
pelo algoritmo genetico.
Grafico 2 – Comparativo da Sensibilidade entre AG e Analise de Fator
Fonte: Dados da pesquisa
76
Finalmente o Grafico 3, apresenta o comparativo entre a F-Measure. Tambem
nesta metrica nao houve ganho em relacao a media geral das classes. A diferenca entre o
algoritmo genetico e a analise fatorial ficou proximo de 7.2%. Apenas na classe transferases
os valores foram relativamente proximos ao algoritmo genetico, com uma diferenca de
1.6%.
Grafico 3 – Comparativo da F-Measure entre AG e Analise de Fator
Fonte: Dados da pesquisa
Os resultados mostram que, a predicao de funcao de proteına e um problema
complexo, com relacoes mais nao lineares que lineares. Isto ratifica que, os algoritmos
geneticos sao uma alternativa para selecao de atributos correlacionados, de forma linear
e nao linear, utilizando um classificador nao linear (SVM). Diferente da analise fatorial,
que considera somente correlacoes e combinacoes lineares. Entretanto, a analise fatorial
ganha em relacao a tempo de execucao em relacao ao algoritmo genetico. Seu tempo
de execucao e em torno de aproximadamente 5 minutos para esta base de dados. Ao
contrario do algoritmo genetico que demanda 30 minutos para cada geracao (de acordo
com a configuracao de maquina descrita na secao 4.2.4.3).
77
6 CONCLUSOES E TRABALHOS FUTUROS
Este trabalho apresentou uma metodologia para o problema da predicao de funcao
de proteına, utilizando algoritmo genetico multiobjetivo para a selecao de atributos. Seu
objetivo foi, confirmar se os atributos utilizados pelas metodologias anteriores eram de
fato os melhores atributos da base e se os atributos do STING DB, eram suficientes para
a separacao das seis classes de enzimas.
Foram realizados diversos experimentos utilizando algoritmo genetico
multiobjetivo, para encontrar o subconjunto de atributos finais, envolvendo as
caracterısticas fısico quımicas. A este subconjunto foram adicionadas novas
caracterısticas, de forma a melhorar o desempenho do classificador SVM. Obteve-se
um ganho em relacao as duas metodologias existentes na literatura. E em relacao a
(SANTOS, 2016), os resultados foram equivalentes, segundo a analise de T-Student. Com
a metodologia proposta, podemos de fato encontrar o melhor conjunto de caracterısticas
para a separacao das classes de proteınas.
Quanto ao uso do NSGA-II, nota-se que, ele tem trabalhado adequadamente,
atingindo sempre os objetivos desejados: menor percentual de erro na precisao do
classificador e menor numero de atributos. Produzimos um modelo de maior confiabilidade
sobre o domınio do problema tratado, se comparado a outros trabalhos citados que
utilizaram algoritmo genetico. Apesar de todos os problemas que tivemos em realizar
ajuste de parametros e do tempo de processamento do algoritmo genetico, concluımos
que, o modelo proposto e mais eficaz do que um algoritmo de busca exaustiva e ate
mesmo um algoritmo genetico mono objetivo.
Em relacao a analise fatorial, constatou-se que nao existiu nenhum ganho em
relacao ao algoritmo genetico. Porem, e uma tecnica de facil implementacao e rapida
execucao. Sendo indicada para problemas que demandam um tempo mınimo de resolucao.
Finalmente, outro ponto observado e que, o STING DB embora rico em informacoes
fısico quımicas, nao trouxe melhoras significativas quando aplicado o AG.
Um aspecto limitante da metodologia adotada, foi a utilizacao do SVM que
demanda ajuste de Cost e γ, o que nao foi possıvel pelo alto custo computacional adicional.
Como trabalhos futuros, sugere-se aplicar outras tecnicas de aprendizado de maquina, de
forma a nao ficar dependente da otimizacao de parametros do classificador. Sugere-se
tambem, aplicar o processo de selecao de atributos ao conjunto de atributos externos
que foram adicionados posteriormente. Finalmente, outra sugestao para este trabalho e a
utilizacao de uma outra metrica para a funcao de fitness, diferente da precisao considerada
durante a evolucao do algoritmo genetico.
78
79
REFERENCIAS
AHMED, N.; NATARAJAN, T.; RAO, K. R. Discrete cosine transform. Computers,IEEE Transactions on, C-23, p. 90–93, 1974.
AHUJA, J.; RATNOO, S. Feature selection using multi-objective genetic algorith m:A hybrid approach. INFOCOMP Journal of Computer Science, v. 14, n. 1, p.26–37, 2015. ISSN 1982-3363.
ALBERTS, B. et al. Molecular Biology of the Cell. 5. ed. [S.l.]: Garland Science,2007. Hardcover. ISBN 0815341059.
ALZUBAIDI, A.; COSMA, G. A multivariate feature selection framework forhigh dimensional biomedical data classification. In: 2017 IEEE Conferenceon Computational Intelligence in Bioinformatics and ComputationalBiology (CIBCB). [S.l.: s.n.], 2017. p. 1–8.
ANDRADE, M. S. F. de. Algoritmos Evolutivos Mono e Multiobjetivos paraProblemas Bidimensionais de Corte. Dissertacao (Mestrado) — Centro Federal deEducacao Tecnologica de Minas Gerais.
BERMAN, H. M. et al. The protein data bank. Nucleic Acids Research, v. 28, p.235–242, 2000.
BORRO, L. C. et al. Predictiong enzyme class from protein structure using bayesianclassification. Genetic and Molecular Research, v. 1, p. 193–202, 2006.
CATTELL, R. B. The scree test for the number of factors. Multivariate BehavioralResearch, Routledge, v. 1, n. 2, p. 245–276, 1966. PMID: 26828106.
CHAWLA, N. V.; JAPKOWICZ, N.; KOTCZ, A. Editorial: Special issue on learningfrom imbalanced data sets. SIGKDD Explor. Newsl., ACM, New York, NY, USA,v. 6, n. 1, p. 1–6, jun. 2004. ISSN 1931-0145.
CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, v. 20, n. 3,p. 273–297, September 1995.
COVER, T.; HART, P. Nearest neighbor pattern classification. IEEE Transactionson Information Theory, v. 13, n. 1, p. 21–27, January 1967. ISSN 0018-9448.
DEB, K. et al. A fast elitist non-dominated sorting genetic algorithm for multi-objectiveoptimization: Nsga-ii. Springer Berlin Heidelberg, Berlin, Heidelberg, p. 849–858, 2000.
DEB, K.; KALYANMOY, D. Multi-Objective Optimization Using EvolutionaryAlgorithms. New York, NY, USA: John Wiley & Sons, Inc., 2001. ISBN 047187339X.
DEB, K. et al. A fast and elitist multiobjective genetic algorithm: Nsga-ii. Trans.Evol. Comp, IEEE Press, Piscataway, NJ, USA, v. 6, n. 2, p. 182–197, abr. 2002. ISSN1089-778X.
80
DOBSON, P. D.; DOIG, A. J. Distinguishing enzyme structures from non-enzymeswithout alignments. Molecular Biology, v. 330, p. 771–783, 2003.
DOBSON, P. D.; DOIG, A. J. Predicting enzyme class from protein structure withoutalignments. Molecular Biology, v. 345, p. 187–199, 2004.
FORTIN, F.-A. et al. Deap: Evolutionary algorithms made easy. J. Mach. Learn.Res., JMLR.org, v. 13, n. 1, p. 2171–2175, jul. 2012. ISSN 1532-4435.
FREITAS, A. A. Data Mining and Knowledge Discovery with EvolutionaryAlgorithms. Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2002. ISBN3540433317.
GAN, X.; LIU, J. A multi-objective evolutionary algorithm for emergency logisticsscheduling in large-scale disaster relief. In: 2017 IEEE Congress on EvolutionaryComputation (CEC). [S.l.: s.n.], 2017. p. 51–58.
HAYKIN, S. Neural Networks: A Comprehensive Foundation. 2nd. ed. UpperSaddle River, NJ, USA: Prentice Hall PTR, 1998. ISBN 0132733501.
HEARST, M. A. Support vector machines. IEEE Intelligent Systems, IEEEComputer Society, Los Alamitos, CA, USA, v. 13, p. 18–28, 1998. ISSN 1541-1672.
HOLLAND, J. Adaptation in natural and artificial systems. The University ofMichigan Press, Ann Arbor., 1975.
HORN, J. L. A rationale and test for the number of factors in factor analysis.Psychometrika, v. 30, n. 2, p. 179–185, Jun 1965. ISSN 1860-0980.
HSU, C.-W.; CHANG, C.-C.; LIN, C.-J. A Practical Guideto Support Vector Classification. [S.l.], 2003. Disponıvel em:<http://www.csie.ntu.edu.tw/ cjlin/papers.html>.
HSU, C. wei; CHANG, C. chung; LIN, C. jen. A practical guide to supportvector classification. 2010.
HUANG, C.-L.; WANG, C.-J. A ga-based feature selection and parameters optimizationfor support vector machines. Expert System with Application, v. 31, p. 231–240,2006.
KALOUSIS, A.; PRADOS, J.; HILARIO, M. Stability of feature selection algorithms:a study on high-dimensional spaces. Knowledge and Information Systems, v. 12,n. 1, p. 95–116, May 2007. ISSN 0219-3116.
KNOWLES, J.; CORNE, D. The pareto archived evolution strategy: a new baselinealgorithm for pareto multiobjective optimisation. In: Proceedings of the 1999Congress on Evolutionary Computation-CEC99 (Cat. No. 99TH8406). [S.l.:s.n.], 1999. v. 1, p. 105 Vol. 1.
KOHAVI, R.; JOHN, G. H. Wrappers for feature subset selection. Artif. Intell.,Elsevier Science Publishers Ltd., Essex, UK, v. 97, n. 1-2, p. 273–324, dez. 1997. ISSN0004-3702.
81
KRIEGEL, H.-P. et al. A general framework for increasing the robustness of pca-basedcorrelation clustering algorithms. In: LUDASCHER, B.; MAMOULIS, N. (Ed.).Scientific and Statistical Database Management: 20th InternationalConference, SSDBM 2008, Hong Kong, China, July 9-11, 2008 Proceedings.Berlin, Heidelberg: Springer Berlin Heidelberg, 2008. p. 418–435. ISBN 978-3-540-69497-7.
KUMAR, C.; CHOUDHARY, A. A top-down approach to classify enzyme functionalclasses and sub-classes using random forest. EURASIP J. Bioinformatics andSystems Biology, v. 2012, p. 1, 2012.
LEE, B. J. et al. Classification of enzyme function from protein sequence basedon feature representation. In: 2007 IEEE 7th International Symposium onBioInformatics and BioEngineering. [S.l.: s.n.], 2007. p. 741–747.
LEHNINGER, A.; NELSON, D. L.; COX, M. M. Lehninger Principles ofBiochemistry. Fourth edition. [S.l.]: W. H. Freeman, 2004. Hardcover.
LEIJOTO, L. et al. A genetic algorithm for the selection of features used in the predictionof protein function. In: Bioinformatics and Bioengineering (BIBE), 2014 IEEEInternational Conference on. [S.l.: s.n.], 2014. p. 168–174.
LEWIS, D. D. Naive (Bayes) at forty: The independence assumption ininformation retrieval. Berlin, Heidelberg: Springer Berlin Heidelberg, 1998. 4–15 p.ISBN 978-3-540-69781-7.
LINDEN, R. Algoritmos Geneticos. [S.l.]: Editora Ciencia Moderna Ltda, 2012.
LIU, H.; MOTODA, H. Data Processing and Knowledge Discovery inDatabases. Boston, MA: Springer US, 1998. 1–15 p. ISBN 978-1-4615-5689-3.
MANCINI, A. L. et al. Sting contacts: a web-based application for identification andanalysis of amino acid contacts within protein structure and across protein interfaces.Bioinformatics, v. 20, p. 2145–2147, 2004.
MORAES, F. R. de et al. Improving predictions of protein-protein interfaces bycombining amino acid-specific classifiers based on structural and physicochemicaldescriptors with their weighted neighbor averages. PLOS ONE, Public Library ofScience, v. 9, n. 1, p. 1–15, 01 2014.
NADZIRIN, N.; FIRDAUS-RAIH, M. Proteins of unknown function in the protein databank (pdb): An inventory of true uncharacterized proteins and computational tools fortheir analysis. International Journal of Molecular Sciences, v. 13, n. 10, p.12761–12772, 2012. ISSN 1422-0067.
NELSON, D. L.; COX, M. M. Lehninger Principles of Biochemistry, FourthEdition. Fourth edition. [S.l.: s.n.], 2004.
NEMATI, S. et al. A novel ACO-GA hybrid algorithm for feature selection in proteinfunction prediction. Expert Syst. Appl., v. 36, n. 10, p. 12086–12094, 2009. Disponıvelem: <https://doi.org/10.1016/j.eswa.2009.04.023>.
82
NESHICH, G. et al. Javaprotein dossier: a novel web-based data visualization tool forcomprehensive analysis of protein structure. Nucleic Acids Research, v. 32, p.W595–W601, 2004.
NEWMAN, C. B. D.; MERZ, C. UCI Repository of machine learning databases.1998. Disponıvel em: <http://www.ics.uci.edu/∼mlearn/MLRepository.html>.
PAPPA, G. L.; FREITAS, A. A.; KAESTNER, C. A. A. Attribute selection with amulti-objective genetic algorithm. Springer Berlin Heidelberg, Berlin, Heidelberg, p.280–290, 2002.
PIRES, D. E. et al. Cutoff scanning matrix (csm): structural classification and functionprediction by protein inter-residue distance patterns. BMC Genomics, v. 12, n. 4,p. S12, 2011. ISSN 1471-2164.
REZENDE, S. O. Sistemas Inteligentes: Fundamentos e Aplicacoes. Barueri,SP: Editora Manole Ltda, 2003. ISBN 8520416837.
SANTOS, G. T. de O. Avaliacao de caracterısticas para predicao de classesde enzimas com Support Vector Machine. Dissertacao (Mestrado) — PontifıciaUniversidade Catolica de Minas Gerais.
SHARAN, R.; ELKON, R.; SHAMIR, R. Cluster analysis and its applications to geneexpression data. Springer Berlin Heidelberg, Berlin, Heidelberg, p. 83–108, 2002.
SRINIVAS, N.; DEB, K. Muiltiobjective optimization using nondominatedsorting in genetic algorithms. Evol. Comput., MIT Press, Cambridge,MA, USA, v. 2, n. 3, p. 221–248, set. 1994. ISSN 1063-6560. Disponıvel em:<http://dx.doi.org/10.1162/evco.1994.2.3.221>.
TAN, F. et al. A genetic algorithm-based method for feature subset selection. SoftComputing, v. 12, n. 2, p. 111–120, 2008. ISSN 1433-7479.
TIPTON, K.; BOYCE, S. History of the enzyme nomenclature system. Bioinformatics,v. 16, n. 1, p. 34–40, 2000.
VOSE, M. D. The Simple Genetic Algorithm. Nova Dheli, India: Prentice-Hall ofIndia, 2004.
ZHOU, Y.; LIU, J. A multi-agent genetic algorithm for multi-period emergency resourcescheduling problems in uncertain traffic network. In: 2017 IEEE Congress onEvolutionary Computation (CEC). [S.l.: s.n.], 2017. p. 43–50.
ZITZLER, E.; LAUMANNS, M.; THIELE, L. SPEA2: Improving the StrengthPareto Evolutionary Algorithm For Multiobjective Optimization. 2002.
83
APENDICE A -- EXPERIMENTOS COMPLEMENTARES
Este apendice, apresenta-se outros experimentos realizados durante a execucao do
algoritmo genetico multiobjetivo. Serao apresentados utilizando um agrupamento a partir
do numero de populacao (P) e geracoes (G), variando o percentual de cruzamento (Pc)
e o percentual de mutacao (Pm). Observa-se que, todos estes experimentos nao tiveram
os parametros do SVM Cost e γ ajustados, justificando os valores baixos em relacao a
fitness (precisao).
84
Figura 1 – Experimentos utilizando P = 100 e G = 100
(a) Pc = 0.65 Pm = 0.01 (b) Pc = 0.70 Pm = 0.05
(c) Pc = 0.75 Pm = 0.05 (d) Pc = 0.80 Pm = 0.10
85
Figura 2 – Experimentos utilizando P = 100 e G = 300
(a) Pc = 0.65 Pm = 0.01 (b) Pc = 0.70 Pm = 0.05
(c) Pc = 0.75 Pm = 0.05 (d) Pc = 0.80 Pm = 0.10
86
Figura 3 – Experimentos utilizando P = 300 e G = 100
(a) Pc = 0.65 Pm = 0.01 (b) Pc = 0.70 Pm = 0.05
(c) Pc = 0.75 Pm = 0.05 (d) Pc = 0.80 Pm = 0.10
87
Figura 4 – Experimentos utilizando P = 300 e G = 300
(a) Pc = 0.65 Pm = 0.01 (b) Pc = 0.70 Pm = 0.05
(c) Pc = 0.75 Pm = 0.05 (d) Pc = 0.80 Pm = 0.10
88
Figura 5 – Experimentos utilizando P = 500 e G = 100
(a) Pc = 0.65 Pm = 0.01 (b) Pc = 0.70 Pm = 0.05
(c) Pc = 0.75 Pm = 0.05 (d) Pc = 0.80 Pm = 0.10