Bruno C esar dos Santos - biblioteca.pucminas.br · Bruno C esar dos Santos ALGORITMO GENETICO...

PONTIFICIA UNIVERSIDADE CATOLICA DE MINAS GERAIS

Programa de Pos-Graduacao em Informatica

Bruno Cesar dos Santos

ALGORITMO GENETICO MULTIOBJETIVO PARA

SELECAO DE ATRIBUTOS APLICADO A PREDICAO DE

FUNCAO DE PROTEINA

Belo Horizonte

FUNCAO DE PROTEINA

Dissertacao apresentada ao Programa dePos-Graduacao em Informatica da PontifıciaUniversidade Catolica de Minas Gerais, comorequisito parcial para obtencao do tıtulo deMestre em Informatica.

Orientador: Prof. Dr. Luis EnriqueZarate Galvez

Belo Horizonte

FICHA CATALOGRÁFICA

Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais

Santos, Bruno César dos

S237a Algoritmo genético multiobjetivo para seleção de atributos aplicado a

predição de função de proteína / Bruno César dos Santos. Belo Horizonte,

88 f. : il.

Orientador: Luis Enrique Zárate Gálvez

Dissertação (Mestrado) - Pontifícia Universidade Católica de Minas Gerais.

Programa de Pós-Graduação em Informática

1. Algorítmos genéticos. 2. Classificação. 3. Proteínas. 4. Banco de dados. 5.

Análise fatorial. 6. Bioinformática. I. Gálvez, Luis Enrique Zárate. II. Pontifícia

Universidade Católica de Minas Gerais. Programa de Pós-Graduação em

Informática. III. Título.

CDU: 681.3.056

FICHA CATALOGRÁFICA

Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais

FUNCAO DE PROTEINA

Dissertacao apresentada ao Programade Pos-Graduacao em Informatica daPontifıcia Universidade Catolica deMinas Gerais, como requisito parcialpara obtencao do tıtulo de Mestre emInformatica.

Prof. Dr. Luis Enrique Zarate Galvez –PUC Minas (Orientador)

Prof.a Dr.a Gisele Lobo Pappa – UFMG(Banca Examinadora)

Prof..a Dr.a Cristiane Neri Nobre – PUCMinas (Banca Examinadora)

Belo Horizonte, 01 de dezembro de 2017.

Aos meus pais, Marciano (in memorium) e Nilda,

pelo carinho e incentivo. A Marina pelo apoio e

paciencia.

AGRADECIMENTOS

Gostaria de agradecer primeiramente a Deus, por iluminar meu caminho, me dando

forca e coragem durante toda esta caminhada.

Aos meus pais, Marciano (in memorium) e Nilda por sempre me incentivarem a

correr atras dos meus sonhos, me apoiando nos momentos de fraqueza e por estarem

sempre ao meu lado. Com o incentivo de voces, e que consegui obter todas estas

conquistas.

A agencia financiadora deste projeto CAPES, pelo auxılio financeiro.

Aos meus colegas de pesquisa, especialmente Pedro, Larissa, Caio e Marcos que

de forma direta ou indiretamente me incentivaram, com nossas conversas e trocas de

experiencias, que foram fundamentais na minha formacao e pesquisa. A Marina, por me

encorajar durante todo este percurso, seu apoio foi fundamental.

Agradeco tambem aos meus professores que compartilharam comigo o seu

conhecimento, em particular ao meu orientador Zarate, pela amizade e por me auxiliar

nesta jornada, solucionando minhas duvidas e me guiando por este percurso academico.

A todos voces, o meu muito obrigado!

“A mente que se abre a uma nova ideia,

jamais voltara ao seu tamanho original.”

Albert Einstein

RESUMO

Com o avanco das tecnicas de sequenciamento genomico, o numero de sequencias

de proteınas disponıveis para analise tem aumentado de forma significativa. Processos

laboratoriais para predicao de funcao de proteınas possuem um elevado custo financeiro.

Entretanto, conhecer a funcao de uma proteına e de extrema importancia em diversas areas

como a medicina e a agropecuaria, por exemplo. Com isso, e necessario encontrar modelos

computacionais capazes de predizer a funcao de proteınas. Essa area permanece em aberto

no ramo da bioinformatica, pois ainda nao se conhecem modelos precisos para esta tarefa.

A base STING DB disponibiliza informacoes relativas as caracterısticas fısico quımicas

das proteınas, as quais tem sido consideradas por alguns autores em seus trabalhos,

porem, a maioria destes limitada a algumas caracterısticas. Neste trabalho, propomos

uma metodologia utilizando Algoritmo Genetico Multiobjetivo (AGM) para encontrar o

subconjunto ideal de caracterısticas que melhor contribua para identificacao das classes

de enzimas estudadas. Apos essa selecao de atributos, foi realizado um enriquecimento

com novas variaveis, de forma a construir um modelo baseado no classificador SVM.

A metodologia proposta utilizando algoritmo genetico obteve uma precisao de 77,3% e

uma F-Measure de 72,7%. Uma analise previa, mostrou que existiam variaveis com

certo nıvel de correlacao. Com o intuito de verificar se a correlacao influenciava no

resultado, empregamos a tecnica de Analise Fatorial (AF). Esta abordagem obteve valores

de precisao de 71,9% e F-Measure de 65,6%.

Palavras-chave: Algoritmo genetico multiobjetivo, classificacao, proteınas, selecao de

atributos, analise fatorial.

ABSTRACT

With the recent advances of genomic sequencing techniques, the number of protein

sequences available for analysis has increased greatly. Wet-lab processes to predict the

function of a protein are too high-cost to answer to this demand. However, knowing

the function of a protein is extremely important in several fields such as medicine and

agriculture. Therefore, it is necessary to find computational models able to predict protein

function. That is an open research field in Bioinformatics, since the existing models

don’t perform well enough yet. The Sting DB database gathers relevant informations

related to the proteins’ physico-chemical characteristics, which have been considered in

some researches, most of those limited to a few set of characteristics. In this work, we

proposed a methodology utilizing a multi-objective genetic algorithm to find the ideal

subset of characteristics to identify the classes of a dataset of enzymes. After the feature

selection process, we performed a dataset enhancement by adding new variables, in order

to construct a SVM classifier. The proposed methodology achieved 77.3% precision and

72.6% F-Measure averages. A previous analysis showed that there were variables with

a certain level of correlation. In order to verify if the correlation influenced the result,

we used the technique of AF. This approach obtained precision values of 71.9% and

F-Measure of 65.6%

Keywords: multi objective genetic algorithm, classification, protein, feature selection,

factor analysis.

LISTA DE FIGURAS

FIGURA 1 – Representacao da estrutura geral dos aminoacidos. . . . . . . . . . . . . . . . . . 29

FIGURA 2 – Nıveis estruturais da proteına. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

FIGURA 3 – Exemplo de classificacao hard margin do SVM linear. . . . . . . . . . . . . . . 33

FIGURA 4 – Etapas de um processo para selecao de atributos. . . . . . . . . . . . . . . . . . . 34

FIGURA 5 – Estrutura evolutiva do AG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

FIGURA 6 – Fronteira de Pareto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

FIGURA 7 – NSGA-II funcionamento da etapa de selecao. . . . . . . . . . . . . . . . . . . . . . . 43

FIGURA 8 – Crowding distance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

FIGURA 9 – Comportamento do NSGA II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

FIGURA 10 – Metodologia utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

FIGURA 11 – Pre processamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

FIGURA 12 – Grau de correlacao entre algumas variaveis. . . . . . . . . . . . . . . . . . . . . . . 55

FIGURA 13 – Processo da transformada do cosseno . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

FIGURA 14 – Representacao do indivıduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

FIGURA 15 – Criterio para a escolha da melhor solucao do AG . . . . . . . . . . . . . . . . . 60

FIGURA 16 – P = 500 Geracoes = 100 Pc = 0,70 Pm = 0,01 . . . . . . . . . . . . . . . . . . . 62

FIGURA 17 – Comparativo das caracterısticas fısico quımicas . . . . . . . . . . . . . . . . . . 67

FIGURA 18 – Comparativo das caracterısticas fısico quımicas com enriquecimento . 68

FIGURA 19 – Comparativo entre correlacoes das variaveis encontradas pelo AG . . . 70

FIGURA 1 – Experimentos utilizando P = 100 e G = 100 . . . . . . . . . . . . . . . . . . . . . . 84

LISTA DE TABELAS

TABELA 1 – Classe e quantidade de enzimas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

TABELA 2 – Matriz Confusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

TABELA 3 – Matriz (parcial) de correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

TABELA 4 – Associacao do conjunto de variaveis aos fatores . . . . . . . . . . . . . . . . . . . 73

TABELA 5 – Analise de Fator Caracterısticas fısico quımicas . . . . . . . . . . . . . . . . . . 74

TABELA 6 – Analise de Fator Caracterısticas fısico-quımicas + Externos . . . . . . . . 74

LISTA DE QUADROS

QUADRO 1 – Classes das enzimas e suas reacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

QUADRO 2 – Kernels e seus parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

QUADRO 3 – Modelos de AEMO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

QUADRO 4 – Parametros dos experimentos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

LISTA DE ABREVIATURAS E SIGLAS

AGM – Algoritmo Genetico Multiobjetivo

AF – Analise Fatorial

NSGA II – Non dominated Sorting Genetic Algorithm II

IUBMB – International Union of Biochemistry and Molecular Biology

EC – Enzyme Commission

KNN – K Nearest Neighbor

SVM – Support Vector Machines

RBF – Radial Basis Functions

AEMO – Algoritmos Evolucionarios Multiobjetivo

SUMARIO

1 INTRODUCAO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.1 Definicao do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.2 Objetivos geral e especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.3 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.4 Organizacao da dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2 FUNDAMENTACAO TEORICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1 Proteına . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1.1 Enzimas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2 Classificacao - SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.3 Selecao de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4 Algoritmo Genetico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.4.1 Codificacao do Indivıduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.2 Populacao Inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.3 Fitness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.4 Operadores Geneticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.4.1 Selecao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.4.4.2 Cruzamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.4.4.3 Mutacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.4.5 Criterio de Parada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.5 Otimizacao Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.6 Algoritmo Genetico Multiobjetivo NSGA-II . . . . . . . . . . . . . . . . . . . 42

2.6.1 Fast Non Dominated Sort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.6.2 Crowding Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.6.3 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.7 Analise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.1 Materiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2 Selecao da Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2.1 Pre Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2.2 Transformada Discreta de Cosseno . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.3 Algoritmo genetico multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.4 Representacao do indivıduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.4.1 Funcao Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.4.2 Definicao do tamanho da populacao e codificacao dos indivıduos 59

4.2.4.3 Busca da Melhor Solucao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3 Enriquecimento da Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.3.0.1 Frequencia de aminoacidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3.0.2 Frequencia do Carbono alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3.0.3 Extracao de dados estatısticos da estrutura primaria . . . . . . . . . . 65

4.3.1 Analise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . . 66

4.4 Metricas de Avaliacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 ANALISE DE RESULTADOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.0.1 Analise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6 CONCLUSOES E TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . 77

REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

APENDICE A -- EXPERIMENTOS COMPLEMENTARES . . . . . . . . . . . . . 83

1 INTRODUCAO

As proteınas sao macromoleculas mais abundantes e variadas existentes nas

celulas. Sao formadas por cadeias polipeptıdicas por uma combinacao de aminoacidos.

Desempenham um papel fundamental no corpo humano com funcoes construtoras e

reparadoras do organismo, alem de participar da formacao dos hormonios, enzimas e

anticorpos. Devido a sua grande importancia, o conhecimento de sua funcao e fundamental

para compreender os processos biologicos dos seres vivos.

Com o avanco das tecnicas de sequenciamento genomico, o numero de sequencias

de proteınas disponıveis para analise tem aumentado de forma significativa. No

entanto, Nadzirin e Firdaus-Raih (NADZIRIN; FIRDAUS-RAIH, 2012) constataram que, das

proteınas que sao descobertas, conhecemos a funcao de apenas 5% delas. Frente a esse

cenario, e necessario o desenvolvimento de metodos computacionais para automatizacao

e facilitacao do processo de identificacao da funcao proteica. Atualmente, existe uma

grande quantidade de metodos experimentais e computacionais para prever as funcoes de

proteınas. No entanto, ainda nao existe uma abordagem computacional capaz de predizer

com precisao a funcao de uma grande variedade de proteınas. Desse modo, o problema

de predicao de funcao da proteına permanece como um desafio para a biologia molecular

e bioinformatica.

A proteına pode ser dividida em quatro nıveis de acordo com sua estrutura, que

sao: 1) estrutura primaria, composta por resıduos de aminoacidos unidos por ligacoes

peptıdicas; 2) a estrutura secundaria que corresponde ao arranjo espacial de resıduos

adjacentes em um segmento da cadeia polipeptıdica; 3) estrutura terciaria que ocorre

quando resıduos que estao distantes na cadeia polipeptıdica se ligam apos o enovelamento

da proteına; 4) estrutura quaternaria a qual corresponde ao arranjo formado quando

proteınas possuem duas ou mais cadeias de aminoacidos e essas estabelecem ligacoes

(LEHNINGER; NELSON; COX, 2004). A proteına tambem pode ser dividida de acordo com

a funcao na qual desempenha que pode ser: regulatorias, transportadoras, contrateis e

moveis, estruturais, protetoras e as catalisadoras. Neste trabalho optamos por utilizar as

catalisadoras, que desempenham o papel de acelerar os processos biologicos e facilitar as

reacoes quımicas, permitindo que estes sejam feitos em um tempo habil. As enzimas sao

um exemplo desta classe que correspondem a maior classe de proteına, sendo conhecidas

mais de 2000 tipos.

A classe de enzimas tem na sua ausencia ou na sua excessiva atividade a causa

de algumas doencas, sendo de grande importancia a identificacao de suas funcoes. Neste

trabalho e utilizado um conjunto de enzimas classificadas de forma hierarquica, em seis

diferentes classes, de acordo com a reacao quımica que catalisam. Essas enzimas recebem

um identificador numerico chamado E.C (Enzyme Commission) criado pela International

Union of Biochemistry and Molecular Biology (IUBMB). O numero E.C e composto por

quatro nıveis (1.2.3.4), sendo que o primeiro nıvel (1) informa a qual das seis classes

a enzima pertence: Oxidorredutases (E.C 1), Transferases (E.C 2), Hidrolases (E.C 3),

Liases (E.C 4), Isomerases (E.C 5) e Ligases (E.C 6). Neste trabalho propomos realizar a

separacao deste primeiro nıvel, representado pelas seis classes.

Inumeras informacoes acerca das estruturas das proteınas sao disponibilizadas a

todo momento nos bancos de dados publicos. Porem, nao se sabe quais variaveis ou

caracterısticas sao as mais relevantes para se fazer a distincao de uma determinada funcao

de proteına. Com isso, nota-se a necessidade de encontrar um conjunto de caracterısticas

que melhor represente a funcao proteica, para a resolucao do problema de classificacao.

Portanto, e necessario selecionar quais sao as informacoes mais relevantes a partir de

diferentes bases de dados, para construcao de um modelo de classificacao. Em se tratando

de classificacao, a selecao de atributos junto com a reducao da dimensionalidade, podem

diminuir o tempo computacional necessario para treinar os algoritmos de aprendizado de

maquina, com uma melhora na precisao preditiva e um aumento na compreensibilidade

do problema. A selecao de atributos e um problema de otimizacao combinatoria, em que

a meta e encontrar um subconjunto otimo de caracterısticas sobre algum criterio, dentre

as varias possibilidades do espaco de solucoes (AHUJA; RATNOO, 2015).

Existem diversas pesquisas que tratam o problema da predicao de funcao de

proteına. Trabalhos tem proposto a aplicacao de diversas abordagens e tipos de

classificadores, como pode ser visto em (DOBSON; DOIG, 2003), (BORRO et al., 2006),

(HUANG; WANG, 2006) e (KUMAR; CHOUDHARY, 2012), tendo como principal desafio a

selecao de atributos para serem utilizados pelo classificador. Abordagens foram propostas

utilizando tambem algoritmos geneticos (DEB et al., 2002), (TAN et al., 2008), (GAN; LIU,

2017) e (ZHOU; LIU, 2017).

Em (BORRO et al., 2006), fez-se um estudo para aumentar a precisao do classificador

Bayesiano, utilizando informacoes fısico quımicas provenientes da base STING DB∗. Pela

abordagem proposta, os autores consideraram 11 caracterısticas, alcancando uma precisao

de 53,8% e uma sensibilidade de 45,4%. Entretanto, com essa abordagem nao foi possıvel

afirmar quais eram as melhores caracterısticas a serem utilizadas, ja que a escolha foi feita

baseado em metodos estatısticos. Foi proposto em (LEIJOTO et al., 2014), um algoritmo

genetico mono objetivo para encontrar as melhores caracterısticas para a base de dados.

Entretanto, foi fixado o numero de 10 variaveis a serem encontradas. Em (SANTOS, 2016),

propos-se um modelo com a avaliacao de diversas informacoes relativas as estruturas da

proteına. No entanto, este modelo considerou somente 10 caracterısticas fısico quımicas

∗STING DB e uma base de dados com mais de 300 atributos estruturais de proteınas disponıvel em:http://www.cbi.cnptia.embrapa.br/SMS

apontadas inicialmente em (BORRO et al., 2006). Concluiu-se que, as informacoes fısico

quımicas (que considera informacoes das quatro estruturas da proteına) utilizadas por

(SANTOS, 2016), nao foram suficientes para melhorar o desempenho do classificador

proposto. Com isso, foi necessario o enriquecimento com novas informacoes.

Todos estes trabalhos fixaram o numero de caracterısticas fısico quımicas da base

de dados STING DB e consequentemente nao pode-se afirmar que sao realmente as mais

indicadas, nem qual e o numero ideal de atributos para a resolucao do problema. Portanto,

o principal desafio abordado neste trabalho e encontrar quais sao as caracterısticas

relevantes e uteis no processo de predicao de funcao de proteına e associado a isso, verificar

se estas caracterısticas sao suficientes para a resolucao do problema de predicao de funcao

de proteına.

Diante do problema a ser abordado neste trabalho, e necessario alguma tecnica

que permita atingir o objetivo proposto. Uma das tecnicas que podemos utilizar e a

selecao de atributos. Como mencionado, a selecao de atributos consiste em encontrar

um subconjunto de atributos que melhor represente a base de dados, para a resolucao de

um problema de classificacao (LIU; MOTODA, 1998). A selecao de atributos busca por um

subconjunto otimo dentre n (n e igual ao numero de variaveis disponıveis). Para isto, seria

necessario a avaliacao de cada subconjunto entre 2n − 1 candidatos, se o subconjunto for

de tamanho fixo; oun∑

n!i!(n−i)! se o subconjunto for de tamanho variavel; para encontrar o

mais adequado (AHUJA; RATNOO, 2015). Nota-se que e uma abordagem exaustiva e cara

computacionalmente. Para contornar este problema, buscou-se algoritmos que trabalhem

com otimizacao heurıstica como os algoritmos geneticos.

Os algoritmos geneticos sao uma classe de tecnicas de busca heurıstica aleatoria

que se aproximam aos mecanismos da evolucao darwiniana, baseado no conceito da

sobrevivencia do mais forte (HOLLAND, 1975). Os AGs oferecem uma metodologia de

busca da solucao proxima da otima para o problema de otimizacao e neste caso, da escolha

das variaveis de entrada mais apropriadas para o classificador. Seu grande diferencial e

que eles realizam uma busca global no conjunto de dados, proporcionando assim um

melhor resultado (de selecao de caracterısticas) para os algoritmos de aprendizado de

maquina. Na literatura existem varias abordagens para a resolucao da selecao de atributos

usando algoritmos geneticos (DEB et al., 2000), (TAN et al., 2008), (GAN; LIU, 2017) e

(ZHOU; LIU, 2017). O algoritmo de selecao de atributos escolhido neste trabalho foi Non

dominated Sorting Genetic Algorithm II (NSGA II), proposto por (DEB et al., 2000), por

ser amplamente utilizado na literatura, alem de trabalhar com varios objetivos alvo para

o mesmo problema.

Alem do algoritmo genetico multiobjetivo, este trabalho propoe tambem um estudo

de um modelo estatıstico baseado na analise fatorial, uma tecnica que pertencente a

classe dos modelos estatısticos multivariados. O objetivo principal da analise fatorial

e simplificar os dados quantitativos por meio de um conjunto reduzido de variaveis.

Esta simplificacao e o resultado da analise entre variaveis que estejam correlacionadas

(inter-relacionadas) entre si e ortogonais (independentes) a outras.

1.1 Definicao do problema

Uma grande variedade de caracterısticas foi utilizada nos trabalhos citados

anteriormente, o que levanta a hipotese de um elevado numero de caracterısticas, para

a representacao das classes de enzimas. Diante deste problema, partimos com o intuito

de melhorar os resultados encontrados por outras pesquisas analisando as caracterısticas

disponıveis. Essa analise, tem como objetivo esclarecer os seguintes questionamentos:

1. Quais sao os atributos e a quantidade necessaria que melhor separem as seis classes

de enzimas estudadas?

2. As informacoes fornecidas pela base sao suficientes para a representacao das classes

de enzimas?

1.2 Objetivos geral e especıficos

O objetivo deste trabalho e encontrar o menor subconjunto de caracterısticas fısico

quımicas com menor percentual de erro de precisao na classificacao utilizando algoritmo

genetico multiobjetivo NSGA-II (DEB et al., 2002). Para que o objetivo fosse alcancado,

foi necessario atender os seguintes objetivos especıficos:

• Pre processar a base de dados utilizando tecnicas de reducao de dimensionalidade e

em seguida utilizar esta base de dados para a construcao do modelo de classificacao;

• Desenvolver um procedimento para a selecao de atributos para o problema

de predicao de funcao de proteına, considerando caracterısticas fısico quımicas

fornecidas pela base, baseado nos algoritmos geneticos multiobjetivos;

• Propor um classificador baseado em SVM utilizando o subconjunto de caracterısticas

selecionadas e enriquecimento de novas informacoes das estruturas da proteına;

• Analisar e comparar os resultados do modelo de classificacao construıdo para

a abordagem proposta nesse trabalho com os resultados obtidos por trabalhos

relacionados;

• Aplicar a analise fatorial para selecao de fatores representativos das caracterısticas

fısico quımicas.

1.3 Justificativa

A identificacao da funcao de proteınas desconhecidas e de grande valor em diversas

areas como a industria quımica, a agropecuaria e a saude, que precisam trabalhar com

aperfeicoamento genetico. Uma vez que, processos realizados em laboratorio demandam

um elevado tempo e custo. Portanto, formas que visam automatizar e facilitar este

processo sao muito importantes. Alem disso, possibilitam melhorar os resultados ate

entao encontrados por outras pesquisas.

Um outro ponto e que a predicao de funcao de proteına e um problema complexo.

Fato este que motivou a utilizacao de um algoritmo genetico multiobjetivo, para auxiliar

no processo de selecao de atributos, na busca de atributos lineares e nao lineares.

1.4 Organizacao da dissertacao

Esta dissertacao esta organizado da seguinte maneira. Capıtulo 2 sao abordados

os principais conceitos utilizados neste trabalho. O Capıtulo 3 apresenta os trabalhos

relacionados a area de predicao de funcao de proteına utilizando algoritmos geneticos

multiobjetivo. O Capıtulo 4 apresenta uma metodologia contendo a descricao da base

de dados, as definicoes das caracterısticas utilizadas, o processo de selecao de atributos

e todo o processo de experimentos do algoritmo genetico multiobjetivo. No Capıtulo

5 sao apresentados os resultados empregando a metodologia proposta. As conclusoes e

propostas de continuidade deste trabalho sao apresentadas no Capıtulo 6.

2 FUNDAMENTACAO TEORICA

Este Capıtulo aborda os principais conceitos de modo a fundamentar cada etapa do

processo de selecao de atributos para a predicao de funcao de proteına. Os conceitos aqui

apresentados sao utilizados na construcao da metodologia que sera detalhada no Capıtulo

2.1 Proteına

A proteına e uma macromolecula formada por sequencias de aminoacidos. Elas

desempenham um papel muito importante em nosso organismo, pois fornecem material

tanto para a construcao como para a manutencao de todos os nossos orgaos e tecidos

(ALBERTS et al., 2007).

Os aminoacidos sao moleculas organicas que servem como unidade fundamental

na formacao de proteınas, as quais sao formadas a partir da ligacao em sequencia de

aminoacidos. Os aminoacidos compartilham uma estrutura basica que consiste em um

atomo de carbono central, tambem conhecido como carbono α, ligado a um grupo amina

(−NH2) e um grupo carboxila (−COOH) e um atomo de hidrogenio (−H). O quarto

ligante e um radical chamado genericamente de ”R” que e responsavel pela diferenciacao

entre os aminoacidos. E o radical ”R” quem define uma serie de caracterısticas dos

aminoacidos, tais como polaridade e grau de ionizacao em solucao aquosa. A Figura

1 ilustra a estrutura base dos aminoacidos (NELSON; COX, 2004).

Figura 1 – Representacao da estrutura geral dos aminoacidos.

Fonte: (NELSON; COX, 2004)

Existem dezenas de tipos de aminoacidos na natureza, mas apenas vinte aparecem

no codigo genetico, os quais chamamos de principais e alguns especiais que so aparecem em

algumas proteınas. Os vinte aminoacidos mais comuns sao: alanina, arginina, aspartato,

asparagina, cisteına, fenilalanina, glicina, glutamato, glutamina, histidina, isoleucina,

leucina, lisina, metionina, prolina, serina, tirosina, treonina, triptofano e valina.

A sequencia de aminoacidos determina as diferentes caracterısticas que a proteına

pode assumir e esta relacionado, com a forma no qual a proteına se enovela formando a

estrutura tridimensional. Cada tipo de proteına possui uma configuracao tridimensional

peculiar que e determinada pela sequencia de aminoacidos e pelo grau de inclinacao

entre as ligacoes quımicas (proporcionada pelos arranjos intermoleculares). As proteınas

possuem quatro diferentes nıveis estruturais: a primaria, secundaria, terciaria e

quaternaria. A Figura 2 ilustra os quatro nıveis da proteına.

Figura 2 – Nıveis estruturais da proteına.

Fonte: Adaptado de (NELSON; COX, 2004)

• Estrutura Primaria: Consiste na cadeia principal da proteına formada pela ligacao

dos aminoacidos e que mostra a sequencia em que eles aparecem na proteına.

• Estrutura Secundaria: consiste na relacao espacial entre os aminoacidos que estao

proximos na estrutura primaria. Nas proteınas, as unidades basicas da estrutura

secundaria sao: as α-helices e as folhas-β.

• Estrutura Terciaria: Fornece a disposicao espacial dos atomos dos aminoacidos que

compoem a estrutura primaria. Ou seja e a forma tridimensional enovelada de uma

proteına.

• Estrutura Quartenaria: Algumas proteınas possuem mais de uma cadeia

polipeptıdica e a estrutura quaternaria representa a disposicao dessas cadeias dentro

da estrutura proteica.

As proteınas podem ser divididas quanto a funcao no qual desempenham. Existem

um total de seis funcoes que as proteınas podem desempenhar, conforme sera descrito.

A funcao regulatoria nao realiza transformacoes quımicas e sim regula as atividades

de outras proteınas. As transportadoras sao aquelas que desempenham o papel de

transportar substancias. As contrateis e moveis promovem movimentos na celula.

Aquelas denominadas estruturais sao responsaveis pelas estruturas biologicas, entre elas

as proteınas fibrosas insoluveis como a queratina e o colageno. Temos tambem as com

funcoes protetoras, um exemplo sao os anticorpos. E finalmente as catalisadoras, que

possuem a funcao de acelerar e facilitar reacoes quımicas. As enzimas sao um exemplo

desta classe e correspondem a maior classe de proteınas sendo conhecidas mais de 2000

tipos de enzimas. Elas sao substancias que catalisam reacoes, acelerando sua taxa. Neste

trabalho iremos abordar este ultimo grupo.

2.1.1 Enzimas

As enzimas sao moleculas organicas de natureza proteica e agem nas reacoes

quımicas das celulas como catalisadoras, acelerando os processos sem altera-los. Elas sao

necessarias para que os processos biologicos ocorram de forma satisfatoria e em uma escala

de tempo adequada, devido ao seu alto poder de aceleracao das reacoes quımicas(LEE et al.,

2007). Sem a atuacao das enzimas, atividades basicas como a digestao ou a oxidacao de

sacarose no organismo poderiam nao ocorrer em tempo habil para os organismos (ALBERTS

et al., 2007).

A ausencia de alguma enzima ou mesmo seu excessivo trabalho enzimatico e um

causador de determinadas doencas. Para o tratamento dessas doencas, e necessario

sua identificacao para um adequado tratamento. Portanto, nota-se a importancia dos

trabalhos que abordam a area de identificacao de funcao de proteına.

Atualmente existe uma nomenclatura oficial para a padronizacao das proteınas,

criado pela IUBMB. E um sistema no qual as proteınas sao classificadas de forma

hierarquica com relacao a reacao quımica que catalizam. Estas recebem um identificador

numerico Enzyme Commission (EC). O numero desempenha um papel fundamental na

representacao computacional das reacoes enzimaticas na rede metabolica. Basicamente,

os numeros das EC representam uma classificacao hierarquica das reacoes enzimaticas, os

tres primeiros numeros representam a classe, subclasse e sub-subclasse, onde representa

o tipo de reacao quımica com a qual uma enzima esta envolvida. E o quarto numero

e especıfico de cada enzima (TIPTON; BOYCE, 2000). Esse sistema criado pela IUBMB

divide a enzima em seis classes descritas pelo Quadro 1. Neste trabalho iremos trabalhar

com o mais alto nıvel que corresponde a classe no qual a enzima pertence. Para comparar

com diversos outras metodologias que trabalharam neste nıvel.

2.2 Classificacao - SVM

A classificacao e uma tecnica da mineracao de dados que visa identificar a qual

classe um determinado registro pertence. Nesta tecnica, o modelo e construıdo a partir

de um conjunto de registros fornecidos. Cada registro contem a indicacao a qual classe

pertence, com o intuito de ”aprender”como classificar aquele conjunto de registros. Seu

Quadro 1 – Classes das enzimas e suas reacoes

EC Classe Reacao1 Oxidorredutases Sao enzimas responsaveis pela transferencia de eletrons

2 TransferasesEnzimas que catalisam a transferencia de grupos funcionais entremoleculas

3 HidrolasesEnzimas que catalisam a transferencia de grupos funcionais para aagua

4 LiasesSao enzimas responsaveis pela formacao de ligacoes duplas atravesde remocoes de grupos

5 IsomerasesEnzimas que catalisam a transferencia de grupos dentro de umamesma molecula

6 LigasesSao enzimas responsaveis pela formacao de ligacoes atraves dereacoes por condensacao

Fonte: Adaptado de (NELSON; COX, 2004)

objetivo e descobrir um relacionamento entre os atributos previsores e o atributo alvo.

Na classificacao as amostras disponıveis para a construcao do modelo sao divididas

em duas partes. A primeira parte e chamada de conjunto de treinamento, utilizado

pelo classificador com o intuito de encontrar padroes nos registros com o atributo alvo

e consequentemente tracar um padrao entre os registros com suas classes. Apos este

processo de treinamento o segundo conjunto de dados entao e passado para o classificador

no processo de validacao e/ou teste do aprendizado do classificador. Neste segundo

conjunto de dados o atributo alvo nao esta disponıvel para o classificador. Baseado no

primeiro conjunto de treinamento o classificador deve prever as classes a que pertencem

o conjunto de validacao. Se a classe indicada pelo classificador for a mesma do atributo

meta o classificador acertou; caso contrario, ele errou, podendo se construir uma matriz

de confusao e a partir desta construir metricas de avaliacao.

Existem diversos classificadores disponıveis na literatura como K Nearest Neighbor

(KNN) (COVER; HART, 1967), Naive Bayes (LEWIS, 1998), Redes Neurais (HAYKIN, 1998),

Support Vector Machines (SVM) (CORTES; VAPNIK, 1995) e outros. O classificador

escolhido para este trabalho foi o SVM por ser amplamente utilizado na literatura e

pela existencia de diversos trabalhos na area de predicao de funcao de proteına que o

utilizaram, com isso optamos pelo seu uso para realizar um comparativo com os resultados

da literatura.

O Support Vector Machine (SVM) e uma tecnica robusta de classificacao e

regressao que maximiza a precisao preditiva de um modelo sem causar super ajuste

dos dados de treinamento. Considerando o classificador binario, dado um conjunto de

treinamento T (x1, y1), ..., (xm, ym), onde xi ∈ X e yi ∈ ±1, para i = 1 ... m, o SVM

tem como objetivo separar as classes em uma superfıcie de decisao linear e encontrar o

hiperplano otimo. Hiperplano otimo e definido como a maior margem de separacao entre

classes conforme Figura 3.

Figura 3 – Exemplo de classificacao hard margin do SVM linear.

Fonte: (HEARST, 1998)

Onde w ∈ X e um vetor de pesos, normal ao hiperplano e b ∈ R representa a

distancia do hiperplano da origem. Novos dados podem ser classificados a partir de uma

funcao de decisao, Equacao 2.2, obtida pelo hiperplano. De tal forma que encontrar a

maior margem de separacao equivale a minimizar ‖w‖. Para isto, recorre-se a simplificacao

dada pela Equacao 2.3, sujeito as condicoes da Equacao 2.4.

(x · w) + b = 0 (2.1)

f(x) = sgn((x · w) + b) (2.2)

minimizar =1

2‖w‖2 (2.3)

yi(w · xi + b) ≥ 1,∀ i = 1, ...,m (2.4)

Como nem todos os problemas enfrentados podem ser mapeados linearmente, o

SVM possui uma funcao Kernel para poder separar melhor o espaco de solucoes (HEARST,

1998). A escolha do kernel e o ajuste de seus parametros estao intimamente relacionados

a qualidade da generalizacao que o SVM ira encontrar. Os kernels mais comuns e seus

parametros estao representados no Quadro 2. Neste trabalho, utilizamos o Kernel Radial

Basis Functions (RBF) pois em experimentos preliminares obteve-se melhores resultados

com este tipo escolhido.

Quadro 2 – Kernels e seus parametros

Kernel ParametrosRBF Cost, γ

Polinomial γ, r, dSigmoidal γ, r

Linear -

Fonte: Adaptado de (HSU; CHANG; LIN, 2010)

2.3 Selecao de Atributos

O numero de informacoes disponıveis nas bases de dados tem crescido

vertiginosamente. Os metodos de aprendizado de maquina tem dificuldades de trabalhar

com essas inumeras informacoes. A selecao de atributos veio justamente para contornar

este problema. Ela e uma tecnica de deteccao de atributos relevantes e remocao de dados

irrelevantes, redundantes ou ruidosos. Com isso, temos uma melhora no desempenho

computacional dos algoritmos de mineracao de dados e uma melhor compreensibilidade

do modelo gerado (KALOUSIS; PRADOS; HILARIO, 2007).

Os algoritmos usados para selecao de atributos podem ser separados em duas

atividades principais: busca do subconjunto de atributos e avaliacao dos subconjuntos

de atributos encontrados, tal como pode ser visto na Figura 4.

Figura 4 – Etapas de um processo para selecao de atributos.

Fonte: Adaptado de (LIU; MOTODA, 1998)

Na primeira parte busca-se um subconjunto de atributos. Seleciona-se um

subconjunto de variaveis relevantes com o apoio de um algoritmo de busca. Na segunda

parte avalia-se o subconjunto de atributos selecionados. Os algoritmos de busca do

subconjunto podem ser divididos em tres grupos principais: algoritmos exponenciais,

sequenciais e randomicos.

• Algoritmos exponenciais: fazem todas as combinacoes possıveis do subconjunto.

Neste tipo de busca temos a garantia da melhor solucao. Porem este tipo de pesquisa

dependendo do tamanho do conjunto de variaveis e inviavel computacionalmente.

• Algoritmos sequenciais: a pesquisa seleciona apenas um entre todos os atributos

disponıveis. Em seguida, seleciona o segundo melhor atributo para aquele

subconjunto. Esse processo continua ate que nao se consiga mais melhorar aquele

subconjunto (Pesquisa sequencial para frente).

• Algoritmos randomicos: A pesquisa aleatoria comeca com o subconjunto selecionado

aleatoriamente. E segue sua evolucao seguindo alguma heurıstica. Exemplo e o AG

que trabalha com os conceitos da evolucao darwiniana.

Como mencionado, a segunda parte consiste na avaliacao do subconjunto gerado. Esta

segunda parte pode ser subdividida, basicamente, em duas abordagens principais: Filter

e Wrapper (KOHAVI; JOHN, 1997).

A abordagem Filter introduz um processo de separacao, que ocorre antes da

aplicacao do algoritmo de aprendizagem propriamente dito. Em outras palavras, a ideia

e separar atributos irrelevantes, segundo algum criterio, antes do aprendizado ocorrer.

A abordagem Wrapper ocorre externamente ao algoritmo basico de aprendizagem,

mas utiliza este algoritmo para analisar, a cada iteracao, o subconjunto de atributos ate

aquele momento selecionados. Os metodos wrapper geram um subconjunto candidato

de atributos selecionado do conjunto de treinamento, e utilizam a precisao resultante

do algoritmo de aprendizado para avaliar o subconjunto de atributos em questao. Esse

processo e repetido para cada subconjunto de atributos ate que o criterio de parada

determinado pelo usuario seja satisfeito. Esta abordagem avalia os atributos usando

estimativas de desempenho como a precisao providas por algoritmos de aprendizado

pre-determinados (FREITAS, 2002).

2.4 Algoritmo Genetico

Algoritmo Genetico (AG) e uma tecnica de busca baseado no processo biologico

de evolucao natural, que se aproxima aos mecanismos da evolucao darwiniana baseado

no conceito da sobrevivencia do mais forte (LINDEN, 2012). No AG, a populacao e

representada pelos indivıduos (cromossomo) que sao criados e submetidos aos operadores

geneticos: selecao, recombinacao(crossover) e mutacao. Estes operadores utilizam a

qualidade de cada indivıduo como solucao do problema em questao, chamado de avaliacao

(fitness), gerando um processo de evolucao natural, que eventualmente devera gerar um

indivıduo que caracteriza uma boa solucao para o problema proposto ao longo de geracoes

(iteracoes).

A arquitetura de um algoritmo genetico pode ser dividida em etapas para um

melhor entendimento do seu funcionamento. A Figura 5 mostra a estrutura evolutiva do

AG simples.

Figura 5 – Estrutura evolutiva do AG.

Fonte: Elaborado pelo autor

Os AG sao tecnicas probabilısticas, e nao tecnicas determinısticas. Assim sendo,

o AG com a mesma populacao inicial e o mesmo conjunto de parametros pode encontrar

solucoes diferentes cada vez que e executado. Entretanto, se diferenciam de esquemas

aleatorios por serem uma busca que utiliza informacoes pertinentes ao problema e nao

trabalham com caminhos aleatorios pelo espaco de solucoes, mas sim direcionando a busca

atraves do mecanismo da selecao. Em outras palavras, apesar de determinar o conjunto de

pontos a serem percorridos de forma aleatoria, eles nao podem ser chamados de aleatorios,

pois exploram informacoes historicas para encontrar novos pontos de busca onde sao

esperados bons desempenhos (REZENDE, 2003). A seguir descrevemos sucintamente o

funcionamento de um algoritmo genetico

2.4.1 Codificacao do Indivıduo

A codificacao do indivıduo e fundamental para o algoritmo genetico, pois representa

uma solucao candidata a resolucao do problema. Ou seja, e uma maneira de traduzir a

informacao do problema em uma maneira viavel de ser tratada computacionalmente.

Existem diversas formas de representar o indivıduo no AG. A mais utilizada e

a codificacao binaria de tamanho fixo, em que um indivıduo e representando por uma

sequencias de bits que assumem valores 0 e 1. Nota-se que a codificacao do indivıduo e

uma abstracao da realidade. Ou seja, a codificacao do indivıduo nao e realmente a solucao

do problema (HOLLAND, 1975).

2.4.2 Populacao Inicial

A escolha da populacao inicial e feita de forma simples, com uma escolha aleatoria

para cada indivıduo da populacao. Seguindo as leis da probabilidade, teremos uma

distribuicao que cobre praticamente todo o espaco de busca de solucoes. Entretanto,

existe uma limitacao, pois a populacao e de tamanho finito e o AG trabalha em problemas

com grandes espacos de busca. Logo nao existe a garantia de alcancar ou cobrir todo o

espaco de busca. E mesmo se desejarmos abranger todo este espaco, havera um custo

computacional que seria inviavel. Para contornar este problema e considerado e ajustado

o operador de mutacao que proporciona diversidade da populacao.

2.4.3 Fitness

E utilizada para determinar a qualidade de um indivıduo como solucao do problema

em questao. O valor fitness corresponde a um valor (normalmente numerico) que reflete

quanto as caracterısticas representadas no cromossomo ou indivıduo correspondem a uma

solucao do problema. A funcao fitness deve embutir o conhecimento que se possui sobre o

problema a ser resolvido, tanto suas restricoes quanto seus objetivos de qualidade. Alem de

possibilitar diferenciar duas solucoes sub otimas mostrando qual delas esta mais proxima

da solucao procurada.

Para o problema proposto foi considerado o erro medio de precisao (eprec)

utilizando o classificador SVM e para a composicao da funcao fitness o menor numero de

caracterısticas, para a avaliacao dos indivıduos.

2.4.4 Operadores Geneticos

O princıpio basico dos operadores geneticos e transformar a populacao atraves

de sucessivas geracoes, estendendo a busca ate chegar a um resultado satisfatorio. Os

operadores geneticos sao necessarios para que a populacao se diversifique e mantenha

caracterısticas de adaptacao adquiridas pelas geracoes anteriores. Os operadores de

cruzamento e de mutacao tem um papel fundamental em um algoritmo genetico.

2.4.4.1 Selecao

Esta etapa simula o mecanismo de selecao natural que atua sobre as especies

biologicas, em que os pais mais capazes geram mais filhos, ao mesmo tempo em que permite

que os pais menos aptos tambem gerem descendentes, para nao perder a diversidade

genetica. Existem varios tipos de selecao que podem ser aplicados, como exemplo podemos

citar a selecao por torneio e roleta (LINDEN, 2012).

A selecao por torneio e recomendada quando ha uma grande diferenca relativa

no valor do fitness dos indivıduos. Em sua versao mais simples, para k = 2, um par

de indivıduos e escolhido aleatoriamente e o indivıduo que possuir maior fitness sera

selecionado para reproducao. O processo se repete obedecendo a probabilidade de selecao

normalmente estabelecida. O valor do parametro k esta diretamente vinculado ao nıvel

de pressao seletiva durante este processo.

A selecao por roleta cada indivıduo da populacao e representado na roleta

proporcionalmente ao seu ındice de aptidao. Assim, para indivıduos com alta aptidao

e dada uma porcao maior da roleta, enquanto aos indivıduos de aptidao mais baixa, e

dada uma porcao relativamente menor.

2.4.4.2 Cruzamento

Este operador e responsavel por trocar e combinar caracterısticas dos pais durante o

processo de reproducao, permitindo que as proximas geracoes herdem essas caracterısticas.

A ideia e que, os novos indivıduos descendentes poderao ser melhores que seus pais, caso

herdem as melhores caracterısticas de cada pai. Existem diversos tipos de cruzamento na

literatura como o cruzamento de um ponto e dois pontos.

O cruzamento de um ponto e bastante simples. Dados dois pais, uma posicao

do cromossomo (maior que zero e menor que o numero total de genes) e escolhida

aleatoriamente como ponto de corte, de modo que os segmentos a partir deste ponto

sejam trocados. Um dos seus problemas e que, no caso de apenas alguns genes em um

indivıduo serem bons, propiciando a ele um fitness alto, os demais genes mesmo nao sendo

bons, serao propagados pela populacao.

O cruzamento de dois pontos e semelhante ao cruzamento de um ponto. Com a

diferenca que em vez de ser selecionado apenas um ponto do cromossomo, sao selecionados

dois pontos. Com isso, temos uma reducao do problema de transmitir genes que nao sao

bons para outros indivıduos como no cruzamento de um ponto. Neste trabalho utilizamos

o cruzamento de dois pontos.

2.4.4.3 Mutacao

O operador de mutacao garante a continuidade da existencia de diversidade

genetica na populacao. Ele e uma heurıstica exploratoria, injetando novas caracterısticas

na populacao e permitindo que o AG busque solucoes fora dos limites definidos pela

populacao inicial (VOSE, 2004). Portanto, ele garante que caracterısticas que ainda nao

foram utilizadas possam aparecer em algum filho gerado.

Esta operacao simplesmente modifica aleatoriamente alguma caracterıstica do

indivıduo sobre o qual e aplicada. Esta troca e importante, pois acaba por criar

novos valores de caracterısticas que nao existiam ou apareciam em pequena quantidade

na populacao em analise. O operador de mutacao e necessario para a introducao e

manutencao da diversidade genetica da populacao. Desta forma, a mutacao assegura

que a probabilidade de se chegar a qualquer ponto do espaco de busca possivelmente nao

sera zero. O operador de mutacao e aplicado aos indivıduos atraves de uma taxa de

mutacao geralmente pequena. Um exemplo classico de operacao de mutacao e o bit flip

ou Inversao de bit, que consiste basicamente em escolher um gene aleatoriamente dentro

do cromossomo binario e inverter o valor no gene escolhido (DEB; KALYANMOY, 2001).

2.4.5 Criterio de Parada

Os principais criterios de parada sao: numero de geracoes ou percentual de

convergencia. Neste trabalho foi proposto um teste de convergencia para estipular quais

seriam as faixas de valores para se trabalhar no algoritmo genetico. Com isso estipulamos

quais seriam os valores a serem ajustados dentro do AG. Neste teste de convergencia,

analisou-se a existencia de alteracoes significativas (baseado em um percentual) em relacao

aos indivıduos da populacao entre n geracoes. Se entre as geracoes, nao for detectada uma

variacao significativa, entao existe a indicacao de convergencia e o algoritmo e finalizado.

Caso contrario, o algoritmo segue sua execucao normal em direcao a uma nova geracao.

Posteriormente a isto, executamos o algoritmo genetico utilizando o numero de geracoes

como criterio de parada.

2.5 Otimizacao Multiobjetivo

A otimizacao de multiplos objetivos geralmente e empregada quando existem

objetivos nos quais existe conflito, ou seja, um objetivo impede que o outro seja

otimizado. Com isso a otimizacao simultanea nao e possıvel. Um problema de otimizacao

multiobjetivo e composto por um conjunto de funcoes-objetivo a serem otimizadas

(maximizadas ou minimizadas) e um conjunto de restricoes que devem ser satisfeitas

para que a solucao seja factıvel (DEB; KALYANMOY, 2001). Supondo a existencia de NObj

funcoes-objetivo que formam o vetor f(x) = [f1(x), f2(x), ..., fNObj(x)]T , o problema pode

ser formulado como:

maximizar/minimizar f(x) (2.5)

Respeitando as seguintes restricoes em cada uma das equacoes:

gj(x) ≥ 0, j = 1, ..., J (2.6)

hk(x) = 0, k = 1, ..., K (2.7)

x(inf)i ≤ xi ≤ x

(sup)i (2.8)

Onde x e um vetor de variaveis de decisao tal que x = [x1, x2, ..., xNvar ]T ,

representando a solucao do problema e J e K sao, respectivamente, o numero de restricoes

de desigualdade e de igualdade. As desigualdades (gj) (Equacao 2.6) e as igualdades (hk)

(Equacao 2.7) sao chamadas de funcoes de restricao e os valores x(inf)i e x

(sup)i (Equacao 2.8)

representam os limites inferior e superior para a variavel xi. Esses limites definem o espaco

das variaveis. O conjunto de todas as solucoes factıveis forma a regiao factıvel ou espaco

de busca. O vetor de funcoes objetivo f(x) = [f1(x), f2(x), ...., fNobj(x)]T pertencem ao

espaco dos objetivos. Para cada solucao x no espaco de decisao, existe um ponto f(x) no

espaco dos objetivos.

Em otimizacao multiobjetivo, emprega-se o conceito de dominancia de Pareto

para comparar duas solucoes factıveis do problema. Dadas duas solucoes x e y, diz-se

que x domina y (representado como x � y) se as seguintes condicoes sao satisfeitas

(considerando-se um problema de minimizacao):

• A solucao x e nao pior que y em todos os objetivos;

• A solucao x e melhor que y em pelo menos um objetivo

Assim existe um conjunto de alternativas otimas que sao dominadas entre os objetivos.

Com isso nao existe uma unica solucao para o problema, mas sim um conjunto de solucoes

candidatas para o problema, conhecido como fronteira de pareto. A Figura 6 mostra um

exemplo onde a solucao x1 domina a solucao x2.

Figura 6 – Fronteira de Pareto.

Adaptado: (DEB; KALYANMOY, 2001)

O processo de busca de solucoes utilizando varios objetivos pode ser custoso

computacionalmente e geralmente pode ser inviavel obter solucoes boas em um tempo

habil. Com este problema surgiram estrategias de buscas estocasticas como os Algoritmos

Evolucionarios Multiobjetivo (AEMO). Estes podem ser utilizados para encontrar o

conjunto de pareto. Apesar deles nao garantirem as melhores solucoes, proporcionam

na maioria das vezes encontrar solucoes satisfatorias para os problemas tratados. Sao

amplamente utilizados pois apresentam facilidade e flexibilidade de modelagem, alem

de exigirem um menor esforco para encontrar cada solucao do conjunto de solucoes

nao-dominadas, se comparado ao esforco de encontrar uma solucao para uma formulacao

mono-objetivo. Alem disso, trabalham em espacos de busca que sao intrataveis pelas

abordagens tradicionais.

Os principais algoritmos evolucionarios de otimizacao multiobjetivo sao descritos

no Quadro 3. Estes sao usualmente classificados em dois grupos: Nao elitistas:

compreendem os algoritmos que como o proprio nome indica, nao utiliza nenhuma forma

de elitismo nas suas interacoes; Os elitistas compreendem os modelos que empregam

alguma forma de elitismo.

Quadro 3 – Modelos de AEMO.

AlgoritmoNSGA - Non Dominated Sorting Genetic AlgorithmNPGA - Niched Pareto Genetic AlgorithmMOGA - Multiple Objective Genetic AlgorithmSPEA - Strenght Pareto Evolutionary AlgorithmPAES - Pareto Archived Evolutionary Strategy KnowlesSPEA2 - Strenght Pareto Evolutionary Algorithm 2NSGA II - Elitist Non Dominated Sorting Genetic II

2.6 Algoritmo Genetico Multiobjetivo NSGA-II

O NSGA II (Non-dominated Sorting Genetic Algorithm II) (DEB et al., 2000)

e um aprimoramento do algoritmo NSGA (SRINIVAS; DEB, 1994). No NSGA e feito

um procedimento de selecao por ordenamento no qual as solucoes nao dominadas tem

prioridade para o processo de selecao. Entretanto este algoritmo possui algumas limitacoes

apontadas pela comunidade cientıfica com relacao a:

a) Alta complexidade computacional;

b) Ausencia do elitismo;

c) Dificuldade em especificar o parametro de compartilhamento σshare, utilizado na

funcao de compartilhamento, que mantem a diversidade da populacao.

Com estas limitacoes os mesmos autores propuseram uma nova implementacao,

que visa contornar estes problemas que e o NSGA-II. Resultados utilizando esta nova

implementacao demonstraram que ele foi superior a outros tradicionais da literatura,

como o PAES (KNOWLES; CORNE, 1999) e SPEA2 (ZITZLER; LAUMANNS; THIELE, 2002).

A Figura 7 mostra uma fluxograma basico da execucao do NSGA-II.

O processo do NSGA-II possui dois importantes passos que sao: Fast Non

Dominated Sorting e o Crowding Distance que serao descritos nas proximas secoes.

Inicialmente, temos uma populacao ainda nao classificada, esta populacao passara por

um processo no qual cada indivıduo tera calculado seu grau de dominancia em relacao a

todos os outros. Apos o grau de dominancia ser calculado estes mesmos indivıduos serao

classificados em fronteiras fronts de acordo com os valores de dominancia previamente

calculados. Onde os melhores indivıduos sao calculados no primeiro front e assim

sucessivamente, ate que todos os indivıduos tenham seu front definido. Em seguida, uma

nova classificacao sera aplicada aos indivıduos atraves do operador de Crowding Distance,

que ira ordenar cada indivıduo de acordo com a sua distancia em relacao aos pontos

vizinhos, no mesmo front em relacao a cada objetivo. As demais etapas do algoritmo

como cruzamento e mutacao seguem o mesmo processo do algoritmo genetico classico.

Figura 7 – NSGA-II funcionamento da etapa de selecao.

2.6.1 Fast Non Dominated Sort

Este procedimento corresponde a atribuicao de um valor de aptidao as solucoes da

populacao de acordo com o seu nıvel de nao dominancia. Esta etapa encontra para cada

solucao p o contador de dominancia np, que mostra o numero de solucoes que dominam a

solucao p e o conjunto Sp, formado pelas solucoes dominadas por p.

As solucoes da primeira fronteira nao dominada tem o contador de dominancia np

igual a zero. Para cada solucao p com np = 0, sao visitadas as q solucoes pertencente ao

conjunto Sp e o contador de dominancia nq e decrementado em uma unidade. As solucoes

q que tiverem seu contador de dominancia nq reduzido a zero sao, entao, separadas em

uma lista Q. Estas solucoes formam a segunda fronteira. Este procedimento e repetido

para cada membro de Q, sendo identificada assim a terceira fronteira. O processo continua

ate que todas as fronteiras sejam identificadas.

No final deste processo as solucoes estao agrupadas em diferentes fronteiras, estas

possuem um atributo denominado rank, que corresponde ao numero da fronteira a qual

pertencem.

2.6.2 Crowding Distance

O crowding distance e um operador de diversidade, seu intuito e garantir um maior

espalhamento dos resultados ao longo da linha de pareto. Com isso, evita-se uma grande

concentracao de solucoes em cima dos mesmos pontos do espaco de busca. O crowding

distance trabalha com a metrica de distancia de cada indivıduo em relacao aos indivıduos

mais proximos.

O algoritmo estipula a distancia media entre um ponto central i selecionado dentro

da populacao e dois pontos localizados nas extremidades do ponto central (i−1) e (i+1). A

ideia e que a partir de um ponto central, o operador de diversidade possa encontrar pontos

extremos e priorizar os pontos mais distantes durante o processo de selecao, com o intuito

de espalhar os resultados ao longo de pareto. Sua disposicao dos pontos extremos formam

um cuboide em relacao ao ponto central. A Figura 8 ilustra o processo de estipulacao do

cuboide.

Figura 8 – Crowding distance.

Apos atribuir um valor de Crowding distance a cada uma das solucoes de uma

determinada fronteira, torna-se possıvel comparar duas solucoes atraves de suas medidas

de proximidade com outras solucoes. A solucao com o menor valor dessa medida de

distancia tem mais solucoes a sua volta quando comparada a outras solucoes.

Existe um criterio de selecao nos diferentes estagios do algoritmo geralmente

denominado crowded comparison operator. Seu intuito e guiar no processo de selecao

do algoritmo. Assumindo que todo indivıduo i da populacao possui dois atributos: rank

(irank) e o crowding distance (idist), podemos definir a seguinte ordem parcial � n:

i � n j se (irank < jrank) ou ((irank = jrank) e (idist > jdist)) (2.9)

2.6.3 Algoritmo

A Figura 9 apresenta o comportamento do NSGA II, mostrando todo o processo

ate a selecao da proxima populacao.

Figura 9 – Comportamento do NSGA II.

Fonte: Adaptado de (DEB et al., 2000)

O NSGA-II inicia-se com a geracao aleatoria de uma populacao inicial, P0, de

tamanho N . Esta populacao e ordenada de acordo o criterio de nao-dominancia. Em

funcao do seu nıvel de nao-dominancia, cada solucao recebe um rank, correspondente ao

ındice da fronteira a qual a solucao pertence.

Apos a classificacao das solucoes, e gerada uma nova populacao Q0, de tamanho N ,

atraves dos mecanismos de selecao, recombinacao e mutacao. O elitismo e introduzido pela

comparacao da populacao corrente com a populacao anterior, o procedimento e diferente

apos a geracao inicial. A seguir, o algoritmo e descrito para a t−esima geracao.

Inicialmente, com a combinacao das populacoes Pt e Qt, e formada a populacao

Rt, de tamanho 2N . A populacao Rt e entao ordenada por nao-dominancia. Como todas

as populacoes (anteriores e corrente) estao incluıdas em Rt, e garantido o elitismo do

algoritmo (ANDRADE, 2009).

As solucoes pertencentes a F1 sao as melhores solucoes na populacao combinada.

Se o tamanho de F1 e menor que N , todas as solucoes de F1 sao escolhidas para a

nova populacao, Pt+1. Para completar Pt+1, sao escolhidos os indivıduos das fronteiras

subsequentes. Deste modo, as proximas solucoes a serem escolhidas sao aquelas

pertencentes a F2, seguidas pelas solucoes de F3, e assim por diante. Este procedimento

continua, ate que nao seja mais possıvel acomodar inteiramente uma fronteira. A ultima

fronteira alem da qual nao podem mais ser adicionadas novas fronteiras sera chamada de

FL (DEB et al., 2000).

Geralmente, a soma das solucoes de todas as fronteiras entre F1 e FL sao maiores

que o tamanho da populacao. Para que sejam escolhidos, entao, nao mais que N

indivıduos, as solucoes da fronteira FL sao ordenadas de acordo com o crowded comparison

operator ≺ n, em ordem decrescente. Em seguida, para finalizar o preenchimento da nova

populacao, sao escolhidas as solucoes com maior valor de crowding distance, seguindo a

lista ordenada obtida acima. A nova populacao Pt+1, de tamanho N , passa agora pelos

processos de selecao, crossover e mutacao, dando origem a uma nova populacao Qt+1, de

tamanho N . A Figura apresenta o procedimento descrito. Para o presente trabalho os

objetivos tratados no NSGA-II foram: menor erro medio de precisao eprec do classificador

SVM e menor subconjunto de caracterısticas.

2.7 Analise Fatorial

Os modelos estatısticos sao utilizados para a analise de dados, em diversas

situacoes, como por exemplo, avaliar os resultados de uma pesquisa, validar a credibilidade

do metodo empregado, ou ainda, analisar um conjunto de dados por meio de selecao e

reducao do numero de variaveis deste conjunto.

Dado um grande conjunto de variaveis, em geral, e possıvel encontrar variaveis

que apresentam medidas de inter-relacao/associacao com outras variaveis. Esta medida

e chamada de coeficiente de correlacao e mede a forca da relacao entre as variaveis

analisadas. Em outras palavras, mostra o quanto uma variavel esta relacionada a

outra. Esta relacao pode significar uma tendencia crescente ou decrescente, uma

proporcionalidade direta ou inversa.

O modelo estatıstico utilizado neste trabalho e a Analise Fatorial (AF), pertencente

a classe dos modelos estatısticos multivariados. O objetivo principal da AF e simplificar os

dados quantitativos por meio de um conjunto reduzido de variaveis. Esta simplificacao e o

resultado da analise entre variaveis que estejam correlacionadas (inter-relacionadas) entre

si e ortogonais (independentes) a outras. Este processo permite facilitar a conducao das

analises realizadas sobre os dados, uma vez que a redundancia de informacao produzida por

diversas variaveis correlacionadas entre si e reduzida. Existem basicamente dois metodos

de Analise de Fatorial:

a) AF Exploratoria: determina o conjunto de fatores para as variaveis originais;

b) AF Confirmativa: avalia a consistencia do modelo fatorial (hipotetico) por meio de

equacoes estruturais;

A formulacao da analise fatorial e dada pela Equacao 2.10. Seja uma matriz de

dados representada por:

x11 x11 x1p

x21 x21 x2p

· · · · · · · · ·xn1 xn2 xnp

= [X1X2...Xp] (2.10)

Seja a matriz µ de medias: µ = [µ1µ2µ3...µp] onde p corresponde ao numero de variaveis.

Seja a matriz de covariancia COV (X)pp e de correlacao COR(X)pp.

Seja a nova matriz de dados Z com media 0 e desvio padrao σ = 1

O metodo de Analise Fatorial e dado pela Equacao 2.11:

Z1 = l11F1 + l12F2 + · · ·+ l1mFm + ε1

Z2 = l21F1 + l22F2 + · · ·+ l2mFm + ε2...

Zp = lp1F1 + lp2F2 + · · ·+ lpmFm + εp

(2.11)

Em que Zi = (Xi − µi)/σi e a variavel padronizada, onde Xi e a variavel original com

media µi e variancia σ2i e εi e o i-esimo erro aleatorio para i = 1, ..., p Fj, j = 1, ...,m e

o j-esimo fator comum e lij e o coeficiente da i-esima variavel padronizada Zi no j-esimo

fator Fj e representa o grau de relacionamento linear entre Zi e Fj .

A analise fatorial utiliza um determinado numero de fatores. Para estimar o

numero ideal de fatores a serem utilizados temos os metodos Scree Analysis e Parallel

Analysis :

a) Scree Analysis : Metodo popular baseado em (CATTELL, 1966), envolve a exploracao

visual da representacao grafica dos autovalores. E considerado o numero de fatores

pelo fator acima da linha de corte;

b) Parallel Analysis : Proposto por (HORN, 1965), o metodo utiliza formulas de

regressao para aproximar dos autovalores esperados dada a matriz original. E

considerado o numero de fatores pelo fator acima dos dados da simulacao e

re-amostrados.

3 TRABALHOS RELACIONADOS

Neste Capıtulo sao apresentados trabalhos relacionados ao problema da predicao

de funcao de proteınas, assim como os que utilizam algoritmo genetico para solucao dos

problemas.

Em (PAPPA; FREITAS; KAESTNER, 2002) e proposto um algoritmo genetico

multiobjetivo para a selecao de atributo com base na abordagem wrapper. Os autores

utilizaram o classificador C4.5. Seus objetivos eram minimizar a quantidade de regras e

maximizar a acuracia. O trabalho tambem, fez um comparativo com outra abordagem, a

selecao sequencial para frente com uma versao multiobjetiva, com o intuito de comparar

estas duas versoes. Os experimentos foram feitos em 18 bases de dados diferentes e os

resultados demonstraram que sao eficazes para solucao do problema de selecao de atributos

e competitivos como outros algoritmos tradicionais da literatura de otimizacao como o

Em (DOBSON; DOIG, 2004), os autores propuseram uma abordagem para classificar

enzimas em uma das seis classes sem depender do alinhamento de sequencias. Os autores

utilizaram caracterısticas obtidas a partir da estrutura secundaria das proteınas. O

metodo apresentado pelos autores obteve uma precisao media de 35% com o classificador

SVM, isso porque segundo os autores, foi adotada uma estrategia para penalizar atraves

de uma funcao de pontuacao relacionado com a quantidade de enzimas por classe, uma

vez que uma maior precisao foi encontrada para as classes com maior numero de enzimas.

Em (BORRO et al., 2006), utilizando os parametros fısico-quımicos das proteınas,

retirados do banco de dados STING DB, os autores realizaram uma selecao de

caracterısticas utilizando a tecnica de correlacao de variaveis, identificacao e remocao

de redundancias, reduzindo para 11 o numero de variaveis utilizadas para caracterizar as

enzimas. Para contornar o problema de diferentes tamanhos das enzimas, a Transfomada

Discreta de Cosseno (TDC) foi aplicada em cada um das variaveis e selecionados os 40

primeiros coeficientes resultantes da TDC, gerando um vetor de 440 posicoes. Outro

problema tratado pelos autores corresponde a diferenca na quantidade de proteınas de

cada classe, para o qual a tecnica de balanceamento de amostragem com reposicao foi

utilizada para corrigir o desbalanceamento. Para avaliar a metodologia, foi utilizado

o classificador Naive Bayes. A metodologia conseguiu 45,3% de acuracia, classificando

corretamente 223 proteınas de um total de 492, com uma precisao media de 53,9%. Os

autores apontaram a necessidade de testar outros classificadores com objetivo de melhorar

a acuracia da metodologia proposta. Este resultado mostra a grande complexidade na

predicao de funcao de proteına no ambito da bioinformatica.

O trabalho de (HUANG; WANG, 2006) fez tambem uso de um algoritmo genetico

utilizado para a selecao de atributos. Realizaram experimentos para avaliar a precisao

da classificacao utilizando SVM com a utilizacao de um kernel RBF e o algoritmo

associado a tecnica de Grid Search em 11 bases de dados da UCI (NEWMAN; MERZ,

1998). Na abordagem utilizada empregou-se o classificador PSO-SVM, obteve-se melhoras

na acuracia com media de acerto de 84% utilizando o PSO-SVM. O autor ressalta que

outros parametros do kernel tambem podem ser ajustados buscando sempre a otimizacao

com a mesma abordagem proposta.

O trabalho de (TAN et al., 2008) empregou um metodo de combinacao com selecao de

atributos para selecionar os melhores atributos e/ou melhor desempenho da classificacao

e faz um comparativo com metodos ja existentes na literatura. Multiplos criterios

de selecao sao combinados por um algoritmo genetico para melhorar os atributos do

subconjunto. O trabalho utilizou bases de dados para avaliar o metodo proposto (SHARAN;

ELKON; SHAMIR, 2002). Os resultados mostraram que a abordagem e eficaz em encontrar

subconjuntos. Os resultados encontrados foram um conjunto com 8 atributos com um

percentual de precisao de 90,31%.

Em (NEMATI et al., 2009) e proposto um algoritmo para selecao de caracterısticas

que combina algoritmos geneticos e otimizacao de colonias de formigas com o intuito

de otimizacao da pesquisa. O algoritmo proposto utiliza as vantagens da colonia de

formigas e do algoritmo genetico. Os experimentos foram realizados em bases de dados

biologicas (GPCR-PROSITE e ENZYME-PROSITE ) para uma classificacao hierarquica.

Os criterios utilizados para a analise dos resultados foram maximizar a precisao preditiva

e encontrar o menor subconjunto de recursos. Os resultados mostraram superioridade do

algoritmo com valores de 82% para o GPCR e 98% para a base de enzimas comparados

as abordagens individuais do algoritmo genetico e colonia de formiga.

Em (LEIJOTO et al., 2014), os autores utilizaram um algoritmo genetico (AG) para

selecionar 11 variaveis do STING DB. Das caracterısticas encontradas pelo AG apenas

uma e igual as de (BORRO et al., 2006)): Accessible Surface in Isolation. Os valores

de cada uma das variaveis foram normalizados e a TDC, considerando os 75 primeiros

coeficientes, foi aplicada para tambem contornar o problema da diferenca de tamanho entre

as proteınas. Para validar a abordagem, os autores utilizaram o classificador SVM com a

estrategia Grid search para ajustar os valores de C e γ para o classificador. A abordagem

obteve uma sensibilidade media de 62% e uma precisao media de 70%. Tambem foram

realizados experimentos adicionando a frequencia de cada aminoacido aos valores dos

coeficientes da TDC aumentando a sensibilidade media e a precisao media do classificador

para 68% e 71%, respectivamente. Como apontado pelos autores, o algoritmo genetico

teve limitacao de processamento de 50 geracoes e 10 indivıduos, devido ao alto custo de

processamento computacional demandado.

Em (SANTOS, 2016), e feita uma avaliacao das diferentes informacoes relativas as 4

estruturas da proteına, tais como: fısico-quımicas, potencial eletrostatico, hidrofobicidade,

frequencia de aminoacidos, distancias entre carbonos α e peso molecular. Os valores

das variaveis foram normalizados e a TDC, considerou os 10 primeiros valores baseados

em varios experimentos. Para a validacao o autor utilizou o classificador SVM com a

abordagem grid search ajustando os parametros Cost e γ. A metodologia proposta

obteve-se valores medios de precisao de 78,4% e sensibilidade de 74,3%. O autor comparou

diferentes modelos baseados em SVM e conclui que todas as informacoes sao relevantes

para melhorar o desempenho do classificador. No entanto, o modelo considerou somente

10 de 344 caracterısticas fısico quımicas apontadas inicialmente por (MANCINI et al., 2004).

Em (ALZUBAIDI; COSMA, 2017) e proposto, uma metodologia para construir

modelos de previsao para dados de alta dimensao. Sua divisao compoe em tres fases

principais. A fase de filtragem de recursos que filtra as caracterısticas ruidosas; a fase

de selecao de caracterısticas que se baseia em tecnicas de aprendizado de maquinas

multivariadas e o Algoritmo Genetico para avaliar os recursos filtrados e selecionar os

subconjuntos mais informativos de recursos para alcancar o desempenho maximo de

classificacao; e a fase de modelagem preditiva durante a qual os algoritmos de aprendizado

da maquina sao treinados nas caracterısticas selecionadas para construir um modelo de

previsao confiavel. As experiencias foram realizadas utilizando quatro conjuntos de dados

biomedicos com alta dimensionalidade e dois classificadores o SVM e o KNN. Os resultados

mostraram desempenho satisfatorios com relacao ao desempenho e valores em torno de

93% de entropia usando o SVM e 89% para o KNN.

4 METODOLOGIA

Nesta secao e descrita a metodologia de pesquisa utilizada nesse trabalho. A

Figura 10, ilustra a metodologia adotada para a construcao do classificador baseado em

SVM para predicao de funcao de proteına. Essas etapas envolvem o pre processamento,

padronizacao dos tamanhos do conjunto de entradas, selecao de atributos baseado em AG,

enriquecimento da base de dados, reducao de dimensionalidade baseado em PCA, uso do

classificador SVM e por ultimo a validacao dos resultados. Cada uma dessas etapas sera

detalhada nas proximas secoes.

Figura 10 – Metodologia utilizada

4.1 Materiais

Nesta secao e descrito a base de dados considerada e os processos de extracao e

seus respectivos repositorios e todo o processo ate a obtencao dos resultados.

4.2 Selecao da Base de Dados

Neste trabalho utilizamos o STING DB (MANCINI et al., 2004) para extracao das

caracterısticas do conjunto das seis enzimas investigadas neste trabalho: Oxidorredutases,

Transferases, Hidrolases, Liases, Isomerases e Ligases. Estas enzimas sao as mesmas

utilizadas por Dobson and Doig (DOBSON; DOIG, 2004), Borro et al (BORRO et al., 2006),

Larissa et al (LEIJOTO et al., 2014) e Santos (SANTOS, 2016).

O STING DB e um repositorio desenvolvido pelo laboratorio de Biologia

Computacional da Embrapa Informatica, que possui um conjunto de programas e bases

de dados para visualizacao e analise da estrutura de macromoleculas. Neste trabalho

inicialmente comecamos com 334 caracterısticas de um dos modulos contido neste

repositorio, denominado Java Protein Dossier (NESHICH et al., 2004). A Tabela 1 mostra

a quantidade de enzimas e o numero de cadeias utilizadas neste trabalho.

Tabela 1 – Classe e quantidade de enzimas.

Proteınas usadas porDobson and Doig

Apos processode limpeza

Classe Proteına Cadeia Proteına CadeiaHidrolases 160 312 122 162Isomerases 51 89 35 56Liases 60 131 43 61Ligases 20 22 15 16Oxidoredutases 79 124 52 78Transferases 128 162 82 117Total 498 840 349 490

Fonte: Dados da Pesquisa

Esta base de dados contem uma quantidade relevante de informacoes acerca das proteınas,

inclusive provenientes de outros repositorios de informacoes e apresenta propriedades que

sao calculadas apos a proteına estar enovelada, ou seja, informacoes que representam

as estruturas primaria, secundaria, terciaria e quaternaria. As enzimas utilizadas por

Dobson and Doig (DOBSON; DOIG, 2004) foram extraıdas do banco de dados ASTRAL

SCOP versao 1.63∗ em 2003 (DOBSON; DOIG, 2003).

Em Santos (SANTOS, 2016) esta mesma base de dados passou por um processo de

limpeza, no qual enzimas com uma pontuacao score inferior a 0,3 foram eliminadas. As

enzimas foram comparadas com as informacoes contidas no Protein Data Bank † (PDB)

(BERMAN et al., 2000), o que permitiu observar que algumas delas foram classificadas em

uma nova classe e portanto, foram reorganizadas. Enzimas identificadas como obsoletas no

PDB nao foram incluıdas neste estudo. Durante o processo de extracao das caracterısticas

algumas situacoes foram consideradas: as enzimas que nao tinham nenhuma informacao

encontrada neste banco de dados foram descartadas e arquivos que estavam corrompidos

tambem nao foram considerados, resultando em uma menor quantidade de enzimas

utilizadas para este estudo, como mostrado nas ultimas colunas da Tabela 1.

∗http://astral.berkeley.edu/†http://www.rcsb.org/pdb/home/home.do

4.2.1 Pre Processamento

A base de dados possui um total de 490 cadeias de seis classes diferentes, com um

total de 334 caracterısticas disponıveis. Foi realizado o pre processamento dos dados para

aprimorar a qualidade das informacoes disponıveis, conforme apresentado na Figura 11.

Figura 11 – Pre processamento dos dados

Inicialmente, foi realizada uma analise destas caracterısticas e verificou-se a

existencia de dados redundantes, os quais foram removidos. Ficando portanto, com um

total de 291 caracterısticas. Uma analise preliminar mostrou o alto custo computacional

de trabalhar com o conjunto de dados completo (291 caracterısticas), resultando em∑291i=1C

291i = 291!

i!(291−i)! combinacoes possıveis.

Visando reduzir a alta dimensionalidade da base de dados, utilizamos a tecnica de

correlacao de Pearson, conforme pode ser visto na Figura 12.

Figura 12 – Grau de correlacao entre algumas variaveis

Observamos nesta analise que, existiam um grande numero de caracterısticas com

correlacao muito forte. Com isso, optamos por eliminar caracterısticas que tinham forte

correlacao acima de 0.90, ficando com um total de 51 caracterısticas.

A matriz contendo as caracterısticas (c1...c51) para cada aminoacido, obtidas do

repositorio STING DB sao representadas pela Equacao 4.1.

c1,1,1,1 ... c1,1,1,L...

......

c1,1,A1,1,1 ... c1,1,A1,1,L

......

cp,sp,1,1 ... cp,sp,1,L...

......

cp,sp,Ap,sp ,1 ... cp,sp,Ap,sp ,L

∑sij=1 AijxL

C = cijkl onde:

i = 1 ... P ; j = 1 ...si; k = 1 ... Aij;

l = 1 ... L = numero de caracterısticas sendo L = 51.

Cabe ressaltar que o processo de selecao de atributos por meio do AG, para as

caracterısticas fısico quımicas foi aplicado sobre as 51 caracterısticas disponıveis, levando

para um espaco de busca de51∑i=1

51!i!(51−i)! possıveis solucoes. Essas 51 caracterısticas restantes

sao compostas por informacoes fısico quımicas obtidas por meio das atracoes ocorridas

pelos diversos tipos de ligacoes entre os aminoacidos.

4.2.2 Transformada Discreta de Cosseno

Para que a utilizacao de um classificador seja possıvel, o tamanho de todos os

vetores de entrada deve ser o mesmo. No entanto, devido a diferenca da quantidade de

aminoacidos de cada cadeia da proteına, o conjunto de dados possui tamanhos diferentes.

Para solucionar este problema, foi utilizada a tecnica da Transformada Discreta do

Cosseno (TDC) (AHMED; NATARAJAN; RAO, 1974), aplicada para cada caracterıstica do

conjunto cijkl...cijAij l (ver Equacao 4.1). A TDC foi escolhida pois e uma transformacao

que preserva nos valores iniciais os coeficientes mais significativos e nos restantes os valores

que carregam pouca informacao, pode ser expressa conforme Equacao 4.2.

Tk = αk

N−1∑n=0

Xn cos

], n > 0 (4.2)

onde αk = 1√Npara, k = 0

αk =√

2Npara, k = 1...N

N = numero de aminoacidos de cada cadeia Aij

Baseado em testes experimentais, foi definido como relevante os k = 10 primeiros

coeficientes da transformada. Esse valor trouxe a melhor media encontrada para as

medidas de precisao e sensibilidade apontados em (SANTOS, 2016). A Figura 13 ilustra a

aplicacao da TDC.

Figura 13 – Processo da transformada do cosseno

Em seguida, um processo de normalizacao foi aplicado a todas as caracterısticas

para que estivessem no intervalo de [0,1]. Este ajuste e necessario para evitar que

algumas variaveis, por apresentarem uma escala de valores maiores que outros, influenciem

de forma tendenciosa a classificacao dos dados. A Equacao 4.3 mostra a funcao de

normalizacao Min-Max utilizada.

X ′ =X −minmax−min

onde: X = representa o valor a ser normalizado;

max = e o maior valor da variavel;

min = representa o menor valor da variavel;

X ′ = corresponde ao valor normalizado.

4.2.3 Algoritmo genetico multiobjetivo

Apos a aplicacao da TDC, todas as caracterısticas fısico quımicas das cadeias

das proteınas possuem a mesma quantidade de variaveis de entrada, correspondente

ao numero de coeficientes (Tk = 10). Com isso, aplicamos o algoritmo genetico

multiobjetivo Non-dominated Sorting Genetic Algorithm II (NSGA-II) para buscar o

melhor subconjunto de caracterısticas, com menor percentual de erro do classificador,

utilizando o menor numero de atributos para reduzir a complexidade do modelo gerado.

O NSGA II e um algoritmo multiobjetivo que implementa os conceitos de

dominancia. Sua escolha foi motivada por este ser o estado da arte em problemas que

envolvem varios objetivos. A sua implementacao foi na linguagem Python utilizando a

biblioteca DEAP, disponıvel pela Universite Laval (FORTIN et al., 2012).

4.2.4 Representacao do indivıduo

O indivıduo do AG representa uma possıvel solucao para o problema a ser resolvido.

Logo, e necessario encontrar uma representacao eficiente para ele. A Figura 14 apresenta

um exemplo de indivıduo utilizado no algoritmo proposto. Este indivıduo e representado

por um vetor que possui 51 posicoes binarias, onde cada posicao pode assumir valores entre

0 e 1, indicando a presenca ou ausencia daquela determinada caracterıstica. Cada posicao

deste vetor representa uma caracterıstica contida nos arquivos extraıdos do STING DB.

Para cada caracterıstica tem-se 10 coeficientes obtidos pela TDC.

Figura 14 – Representacao do indivıduo

4.2.4.1 Funcao Objetivo

Neste trabalho dois aspectos foram considerados no processo de predicao de funcao

de proteına: que o modelo tenha um percentual de erro baixo, aumentando a sua

confiabilidade e um subconjunto pequeno de atributos para uma simplificacao do modelo

gerado. Portanto, foram considerados dois objetivos relacionados a minimizacao:

• Menor percentual de erro medio de precisao do classificador SVM, onde Precisao =V P

V P+FP, conforme Equacao 4.4.

ePrec = 1−

m∑i=1

n∑j=1

Precisaoij

mn(4.4)

sendo:

m = numero de classes de enzimas m = 6;

n = numero de dobras da cross-validacao n = 10;

• Menor subconjunto de atributos dentre os 51 candidatos que melhor separa as classes

de proteınas.

Nota-se que, durante o processo de avaliacao da fitness o criterio de desempate de dois

indivıduos e: primeiro a melhor fitness da precisao e em seguida o menor numero de

caracterısticas.

4.2.4.2 Definicao do tamanho da populacao e codificacao dos indivıduos

Foram realizados testes preliminares para definir quais seriam os intervalos de

variacao dos parametros mais adequados para a realizacao dos experimentos e definir

um criterio de parada baseado no numero de geracoes, de forma a ter um controle dos

experimentos em relacao ao esforco computacional requerido.

Estes testes visavam encontrar valores para os parametros de tamanho da

populacao e numero de geracoes, pois estes sao parametros que influenciam no tempo

de execucao dos testes. Os valores considerados para a populacao e geracoes foram

de 100, 300, 500 e 1000. Para estes testes, o criterio de parada utilizado foi por

convergencia e a fitness definida anteriormente. Para este criterio de parada, analisamos

alteracoes significativas sobre os indivıduos da populacao entre as n geracoes, buscando

a convergencia. Caso nao houvesse alteracoes significativas entre os indivıduos da

populacao, haveria indıcios de convergencia. O limiar de convergencia adotado foi de 60%

e foi definido empiricamente. Os demais parametros do AG, probabilidade de cruzamento

(Pc) e probabilidade de mutacao (Pm), foram fixados em 0.70 e 0.01 respectivamente, pois

o objetivo destes testes eram encontrar uma faixa de valores, para que se estabelecesse

quais seriam os valores a serem testados de populacao e numero de geracoes. Como

resultado dos testes foi observado que, para uma populacao de 300 indivıduos e 200

geracoes foi alcancado o limiar de convergencia estipulado de 60%. Os testes foram

repetidos 10 vezes para garantir a confiabilidade.

Apos definido os valores de convergencia da populacao e o numero de geracoes.

Estipulamos uma faixa de valores para estes parametros de forma a garantir uma

confiabilidade dos experimentos. Com isso, a faixa de valores para o tamanho da

populacao foi de 100, 300 e 500. O intervalo de valores para o numero de geracoes foi de

100 e 300. O Quadro 4 mostra os parametros e seus valores ajustados para a realizacao

dos experimentos globais.

Quadro 4 – Parametros dos experimentos.

Inicializacao da populacao AleatoriaRepresentacao BinariaOperador de cruzamento Two PointsProbabilidade de cruzamento (Pc) 65%, 70%, 75%, 80%Operador de mutacao One PointProbabilidade de mutacao (Pm) 1%, 5%, 10%Tamanho da populacao 100, 300, 500Numero de geracoes 100, 300Metodo de selecao para cruzamento Torneio = 2Composicao da nova geracao Indivıduos nao dominadosCriterio de parada Numero de Geracoes

4.2.4.3 Busca da Melhor Solucao

Para buscar a melhor solucao foram realizados um total de 60 experimentos que

representam as combinacoes da faixa de parametros conforme mostrado na Tabela 4. A

Figura 15 mostra o processo experimental executado para a escolha da melhor solucao.

Figura 15 – Criterio para a escolha da melhor solucao do AG

Os parametros Cost e γ do SVM foram fixados para realizacao dos experimentos. Isto

pelo fato de que a otimizacao do Cost e γ para cada experimento demandaria um tempo

computacional adicional de aproximadamente 30 min‡ para cada indivıduo da populacao,

com uma configuracao de maquina especıfica§, tornando assim inviavel a otimizacao destes

parametros. Isto levou a encontrar solucoes com baixa precisao (44% hidrolases, 70%

isomerases, 60% ligases, 37% liases, 48% oxidoredutases, 49% Transferases). Porem,

o objetivo foi sempre encontrar a melhor solucao dentre todas elas. Alem disso, em

(SANTOS, 2016) foi apontado que as caracterısticas fısico-quımicas contidas no Sting-DB

nao sao suficientes para melhorar o desempenho do classificador e portanto, e necessario

o enriquecimento do classificador com novas informacoes.

Terminado o processo de busca das caracterısticas por meio do AG, tem-se um

conjunto de experimentos, cada um desses experimentos com 10 sementes diferentes para

validacao estatıstica. Para cada semente tem-se um conjunto de 10 possıveis candidatos

nao dominados (hall of fame). De posse destes candidatos, realizamos uma validacao

cruzada (10-dobras) para cada um destes e em seguida obtivemos uma media aritmetica

da precisao. O experimento que obteve a melhor media foi o conjunto de parametros

escolhido (Populacao, geracao, Pc, Pm).

Apos a escolha do melhor conjunto de parametros da solucao a partir de todos

os experimentos realizados, temos varios possıveis candidatos daquele conjunto de

parametros. Estas correspondem as melhores solucoes encontradas. No caso ideal seria

neste ponto que o usuario iria escolher a melhor solucao para o problema. Para a escolha

da melhor solucao realizamos uma validacao estatıstica para cada um destes conjuntos de

dados. Para isso aplicamos uma validacao cruzada (k = 10 dobras). Dividimos o conjunto

de dados de cada candidato da solucao em 10 conjuntos, em que 9 sao destinados ao

treinamento e 1 a validacao. Para cada processo de treinamento, guardamos os valores

encontrados em relacao ao objetivo 1 (percentual de erro) e em seguida calculamos uma

media destes valores. Aquele que obteve melhor media, neste caso menor percentual de

erro na precisao, foi a solucao candidata escolhida. Apos encontrar a melhor solucao, os

parametros fixados do SVM foram otimizados utilizando a abordagem Grid Search (HSU;

CHANG; LIN, 2003), ajustando os valores de Cost e γ. A Figura 16 mostra o conjunto de

parametros que obteve melhor resultado.

Podemos notar que a metrica de diversidade, a qual indica o numero de indivıduos

que sao diferentes dos pais, convergiu proximo da geracao 40. Nota-se tambem que

a fitness de precisao atingiu seu apice na geracao 50. Outra analise realizada foi em

relacao ao numero de atributos encontrados. Obteve-se melhores valores medios de fitness

‡Tempo adicional para otimizacao do Cost e γ = Tamanho da Populacao x Numero de geracoes x 30min. (Ex: 300 x 300 x 30 min = aproximadamente 1875 dias)

§Processador Core i7, Memoria 16 GB e 1 TB HD.

utilizando 28 atributos.

Figura 16 – P = 500 Geracoes = 100 Pc = 0,70 Pm = 0,01

Fonte: Dados da pesquisa

Desta forma, os melhores atributos (caracterısticas fısico quımicas) sao os seguintes:

• 3DEntropyCA-Sliding-Window-[Window=5-Radius=4)

• 3DEntropyCA-Sliding-Window-[Window=5-Radius=6)

• 3DEntropyIFR(4)

• EnergyDensityIFR(9)

• EnergyDensityLHAsw(9,3)

• HydroR()

• IFRDensityCA(3)

• IFRDensityLHA(3)

• NumberOfHBondPLC()

• NumberofIFRContacts(1)

• NumberofIFRResidues(4)

• NumberofINTContacts(4)

Uma descricao detalhada destas caracterısticas pode ser encontrada em (MORAES

et al., 2014). De posse deste subconjunto de dados, adicionamos outras caracterısticas

biologicas, conforme apresentado na Metodologia descrita na Secao 4.2.

4.3 Enriquecimento da Base de Dados

Foi constatado em experimentos anteriores que houve uma melhora nos resultados

adicionando informacoes a base de dados do STING DB. Portanto, foram coletadas

informacoes biologicas adicionais visando melhorar os resultados apos o processo de selecao

de atributos pelo AG. Estas informacoes estao descritas a seguir.

4.3.0.1 Frequencia de aminoacidos

Para cada uma das cadeias consideradas contabilizou-se a frequencia com que cada

um dos 20 aminoacidos aparece. Esta frequencia foi adicionada como novos atributos

para caracterizar a proteına. Com isso tem-se mais um tipo de caracterıstica relacionado

a estrutura primaria. A Equacao 4.5 apresenta a matriz de caracterıstica composta pela

frequencia dos aminoacidos, sendo que cada linha corresponde a uma cadeia de proteınas.

f1,1,1 ... f1,1,N...

......

f1,S1 ,1... f1,S1,N

......

fp,1,1 ... fp,1,N...

......

fp,Sp,1 ... fp,Sp,N

i=1 SixN

F = fijq onde:

i = 1 ... P; j = 1 ...Si; n = 1 ... N, sendo N = 20

P: numero de proteınas;

Si: numero de cadeias da proteına i;

N : quantidade de aminoacidos diferentes.

4.3.0.2 Frequencia do Carbono alpha

O Cutoff Scanning Matrix (CSM) fornece o padrao de distribuicao da distancia

Euclidiana entre os carbonos α dos resıduos ao longo da cadeia (PIRES et al., 2011). Sua

utilizacao neste trabalho e porque proteınas com diferentes dobras e funcoes apresentam

diferencas significativas na distribuicao de distancias entre os seus resıduos. Assim, temos

um conjunto de atributos representado pela Equacao 4.6.

d1,1,1 ... d1,1,Q...

......

d1,S1,1 ... d1,S1,Q

......

dp,1,1 ... dp,1,Q...

......

dp,Sp,1 ... dp,Sp,Q

i=1 SixQ

D = dijq onde:

i = 1 ... P; j = 1 ...Si; q = 1 ... q, sendo Q = 151

Q: quantidade de distancia entre os carbonos.

4.3.0.3 Extracao de dados estatısticos da estrutura primaria

O EMBOSS Pepstats e um repositorio que fornece informacoes estatısticas sobre

as sequencias dos aminoacidos. Os dados fornecidos por este repositorio formam um total

de 31 atributos representados pela Equacao 4.7.

e1,1,1 ... e1,1,M...

......

e1,S1,1 ... e1,S1,M

......

ep,1,1 ... ep,1,M...

......

ep,Sp,1 ... ep,Sp,M

i=1 SixM

E = eijm onde:

i = 1 ... P; j = 1 ...Si; m = 1 ... M, sendo M = 31

M : numero de atributos do EMBOSS Pepstats.

Desta maneira, apos o processo de selecao de atributos feito pelo NSGA-II, adicionamos

as caracterısticas descritas nas Equacoes 4.5, 4.6 e 4.7. Apos todo o processo

de enriquecimento de informacoes adicionais, temos finalmente todas as informacoes

necessarias para realizar novos experimentos utilizando atributos selecionados do STING

DB e outras caracterısticas biologicas, conforme descrito pela Equacao 4.8.

Q =[[T k

ij1]...[Tkij28], fijn, dijq, eijm

i=1 Six482(4.8)

Para k = 1...10 (Coeficientes TDC)

4.3.1 Analise de componentes principais

E possıvel observar que o vetor de caracterısticas Q possui alta dimensionalidade,

motivo pelo qual aplicamos a analise de componentes principais (PCA) para a reduzir o

tamanho de entradas ao classificador. Este e um procedimento matematico, que utiliza

uma transformacao ortogonal para converter um conjunto de observacoes de variaveis,

possivelmente correlacionadas, num conjunto de valores de variaveis linearmente nao

correlacionadas, chamadas de componentes principais (KRIEGEL et al., 2008). O numero

de componentes principais e menor ou igual ao numero de variaveis originais. Esta

transformacao e definida de forma que, o primeiro componente principal tem a maior

variancia possıvel (ou seja, e responsavel pelo maximo de variabilidade nos dados) e cada

componente seguinte, por sua vez, tem a maxima variancia sob a restricao de ser ortogonal

aos componentes anteriores.

Neste trabalho, foram consideradas as componentes com 95% de explicacao para

a base de dados. Novamente com o conjunto de dados completo com os atributos

encontrados pelo AG associado aos atributos externos adicionados posteriormente e feito

uma validacao dos resultados encontrados com o classificador SVM e serao apresentados

na Secao 5.

4.4 Metricas de Avaliacao

Para a analise dos resultados utilizamos as seguintes metricas de avaliacao,

descritas abaixo:

• Precisao: taxa de instancias classificadas em uma determinada classe que realmente

pertencem a essa classe.

Precisao =V P

V P + FP(4.9)

• Sensibilidade: taxa de instancias da classe que realmente foram classificadas como

sendo da classe.

Sensibilidade =V P

V P + FN(4.10)

• F-Measure: e a media harmonica entre a precisao e sensibilidade.

F-Measure =2V P

2V P + Fp+ FN(4.11)

Onde: VP (verdadeiro Positivo) quantidade de proteınas corretamente classificadas na

classe em questao; FN(Falso Negativo): quantidade de proteınas da classe analisada,

erroneamente classificadas; FP (Falso Positivo): proteınas que nao sao da classe

considerada, mas que foi classificada nesta classe.

5 ANALISE DE RESULTADOS

Este Capıtulo apresenta os resultados obtidos pela aplicacao da metodologia

proposta. Comparou-se com resultados existentes na literatura e com a abordagem

estatıstica da analise fatorial que serao apresentados a seguir.

A Figura 17, mostra os resultados encontrados utilizando o conjunto de atributos

fısico quımicos, encontrados pelo AG, otimizando o Cost = 8.0 e γ = 0.00195313.

Figura 17 – Comparativo das caracterısticas fısico quımicas

Considerando o valor da media global, podemos observar que, em relacao aos

trabalhos propostos na literatura, existiram algumas diferencas. Nota-se que, a media

global da metodologia proposta em relacao a metodologia de Leijoto (LEIJOTO et al.,

2014) e inferior em 4,2%, para F-Measure, porem, e superior em 2,3% para Precisao. A

explicacao deste fato, esta associado a metrica utilizada por nossa metodologia durante a

evolucao do algoritmo genetico, que foi o valor da Precisao, ao contrario de (LEIJOTO et

al., 2014) que fez o uso da F-Measure. Isto mostra a consistencia da estrutura evolutiva

proposta, de apresentar melhores resultados para a metrica Precisao. E importante

ressaltar que, a metodologia de (LEIJOTO et al., 2014) fixou o numero de caracterısticas

em 10 e a metodologia proposta neste trabalho, busca encontrar a quantidade que

melhor separasse as 6 classes de enzimas, dentro das 51 caracterısticas disponıveis. Com

isso, obtivemos o melhoramento em relacao a metrica de Precisao da nossa estrategia

multiobjetivo.

De forma a melhorar essas medidas, prosseguimos com o enriquecimento da base

de dados. A Figura 18, mostra que os valores medios de sensibilidade foram de 69,7%.

Comparando com outros trabalhos temos um ganho medio de 4% e 22,2% em relacao a

(LEIJOTO et al., 2014) e (BORRO et al., 2006) respectivamente e uma perda de 1,8% com

relacao ao trabalho de (SANTOS, 2016).

Figura 18 – Comparativo das caracterısticas fısico quımicas comenriquecimento

Uma analise em relacao a metrica F-Measure foi feita. Notamos que, os valores

medios da metodologia proposta foram de 72,7% e um ganho de 5,2% em relacao ao

trabalho (LEIJOTO et al., 2014) e 22,8% em relacao ao trabalho de (BORRO et al., 2006)

e uma ligeira queda, de 1,7% em relacao ao trabalho de (SANTOS, 2016). De forma a

detalhar melhor os resultados apresentados, utilizamos a matriz de confusao Tabela 2,

que apresenta o numero de classificacoes obtidas para cada classe, em relacao ao numero

de classificacoes previstas.

Ao analisa-la, podemos observar que, algumas instancias foram classificadas em

Tabela 2 – Matriz Confusao

Classes Classes preditas pelo classificadorHid Iso Lia Lig Oxi Tra

Hidrolases (Hid) 141 1 2 0 3 15Isomerases (Iso) 2 38 1 1 4 9

Liases (Lia) 6 3 40 0 3 10Ligases (Lig) 1 0 2 8 3 2

Oxidoredutases (Oxi) 7 3 1 0 53 13Transferases (Tra) 11 6 0 1 6 94

classes diferentes. E importante ressaltar que os maiores erros de classificacao estao

associados a classe ligase com 50% de falsos positivos. Verificamos tambem que, a classe

transferase teve um total de 25% de falsos positivos. Esta classe de enzima corresponde

a segunda com maior numero de cadeias. Este resultado poderia indicar problemas de

balanceamento, considerando que nas enzimas Hidrolases e Ligase o desbalanceamento

chega a aproximadamente 1:10. No entanto, no trabalho de (SANTOS, 2016) verificou-se

que o desbalanceamento nao influenciou na qualidade do modelo. Alem disso, problemas

de desbalanceamento sao considerados em situacoes como 1:100, 1:1000 ou superiores

(CHAWLA; JAPKOWICZ; KOTCZ, 2004) .

Como a diferenca entre os valores da metodologia proposta por (SANTOS, 2016)

foram muito proximos, aplicamos um teste de hipoteses (T-Student). Adotamos a metrica

F-Measure, ja que e a media harmonica entre a precisao e a sensibilidade. Para comparar,

utilizamos a media geral das classes h0 : x1 = x2 com um nıvel de confianca de 95%. O

valor de p-value encontrado foi de 0.85, o que comprova que os resultados sao equivalentes

(p-value > 0, 05).

5.0.1 Analise Fatorial

Apos o AG encontrar o conjunto das 28 variaveis, notou-se que existiam ainda

variaveis com um ındice superior a 0.80 de correlacao. Visto isso, optamos por adotar um

metodo estatıstico de analise multivariavel, a analise fatorial. Fez-se uma analise entre

os 28 atributos sugeridos pelo Algoritmo genetico, conforme Figura 19. Notamos que o

algoritmo conseguiu encontrar varias caracterısticas que tinham baixa correlacao, abaixo

de 0.70. Entretanto, notamos que ainda existiam caracterısticas com correlacao acima de

0.80. Mediante a esta constatacao, optamos por realizar uma exploracao da base de dados

utilizando uma tecnica estatıstica, para verificar se era possıvel melhorar ainda mais os

resultados encontrados pelo algoritmo genetico.

Utilizamos a mesma base de dados que o algoritmo genetico trabalhou a base

Figura 19 – Comparativo entre correlacoes das variaveis encontradas pelo AG

de dados STING DB. Porem, a analise fatorial trabalhou com todas as caracterısticas

disponıveis, neste caso as 291 caracterısticas. O primeiro passo na analise fatorial e obter a

matriz de correlacao, conforme pode ser visto na Tabela 3. A partir desta tabela, e possıvel

a analise da relacao/associacao entre as variaveis por meio do coeficiente de correlacao

de Pearson (correlacao entre duas variaveis contınuas). A partir da matriz padronizada

de variancias/covariancia (coeficientes de correlacao), os autovalores e autovetores sao

calculados. A Tabela 3, mostra apenas um pequeno trecho desta matriz. Nao foi possıvel

apresenta-la por completo pois e uma matriz de dimensao 291x291.

Tabela 3 – Matriz (parcial) de correlacao

3DEntropyIFR(3)

3DEntropyLHA

sw(3,3)ACCC ACCI ACCR Chi(0) CloCB CloLHA ...

PLCHydrophil

3DEntropyIFR(3)

1 0,4587 0,3895 0,5740 0,5202 0,5092 0,3801 0,3804 ... 0,2445

3DEntropyLHAsw

(3,3)0,4586 1,0000 0,8971 0,8955 0,9323 0,9297 0,8357 0,8340 ... 0,3533

ACCC 0,3894 0,8971 1,0000 0,9747 0,9437 0,9278 0,7778 0,7748 ... 0,3445ACCI 0,5739 0,8955 0,9747 1,0000 0,9541 0,9361 0,7707 0,7680 ... 0,3631ACCR 0,5202 0,9323 0,9437 0,9541 1,0000 0,9947 0,8922 0,8924 ... 0,3961Chi(0) 0,5091 0,9297 0,9278 0,9361 0,9947 1,0000 0,9063 0,9068 ... 0,4009CloCB 0,3801 0,8357 0,7778 0,7707 0,8922 0,9063 1,0000 0,9972 ... 0,3706

CloLHA 0,3803 0,8340 0,7748 0,7680 0,8924 0,9068 0,9972 1,0000 ... 0,3739... ... ... ... ... ... ... ... ... ... ...

PLCHydrophil

0,2444 0,3533 0,3445 0,3631 0,3961 0,4009 0,3706 0,3739 ... 1,0000

De posse da matriz de correlacao, precisamos estimar quantos fatores sao ideais

para a representacao da base de dados. Utilizamos dois metodos para esta estimativa:

Scree Analysis e o Parallel Analysis.

A tecnica de Screen Analysis sugeriu 10 fatores como o numero ideal a ser utilizado.

Ja a analise do numero de fatores utilizando Parallel Analysis, sugeriu 11 fatores como

suficientes. Com isso, optamos por utilizar 11 fatores (F1, F2, F3...F11) de maneira

emırica para explicar/representar o conjunto de variaveis.

Realizado o processo da analise fatorial, obtivemos a seguinte associacao entre os

fatores sugeridos e as variaveis encontradas. A Tabela 4 apresenta esta associacao. Apos

este processo, realizamos a classificacao com os fatores sugeridos, que serao apresentados

nas Tabelas 5 e 6.

Tabela 4 – Associacao do conjunto de variaveis aos fatores

Fatores Variaveis

v59,v61,v194,v191,v193,v196,v192,v195,v134,v89,v90,v64,v65,v62,v63,v111,v91,v92,v115,v95,v112,v119,v99,v93,v123,v103,v210,v107,v127,v94,v96,v211,v113,v207,v100,v209,v114,v206,v108,v202,v208,v201,v203,v204,v161,v97,v200,v198,v199,v101,v162,v105,v109,v163,v164,v116,v165,v205,v124,v128,v168v98,v102,v106,v110,v197,v167,v117,v121,v125,v126,v130,v144,v140,v136,v38,v36,v37,v34,v33,v88,v69,v67,v68,v81,v80

F5v132,v16,v13,v18,v17,v11,v56,v12,v5,v8,v15,v51,v10,v20,v6,v49,v48,v53,v9,v41,v19,v57,v1,v43,v52,v2,v44,v47,v55,v42,v50,v45,v39,v40,v31

F2 v30,v29,v28,v27,v26,v24,v25,v21,v159,v23,v160,v158,v156,v155,v154,v157,v153,v22,v152,v240,v222,v246,v228,v234,v287

F3v231,v178,v182,v171,v175,v179,v183,v172,v176,v180,v181,v185,v139,v143,v147,v151,v138,v142,v146,v150,v137,v141,v145,v131,v226,v227

F4 v149,v224,v223,v241,v242,v214,v213,v257,v258,v259,v260,v261F10 v215,v217,v74,v75,v76,v77,v216,v70,v71,v72,v73,v82,v83,v84,v85,v218,v78F8 v79,v186,v189,v187,v188,v66,v248,v249,v250,v251,v252,v253,v254F6 v190,v220,v221,v288,v289,v290,v291,v255,v256,v237,v238,v239,v244,v245F9 v219,v229,v247,v266,v267,v268,v269,v270,v271,v272,v273,v274,v275,v276F7 v225,v243,v262,v263,v264,v265,v283,v284,v285,v286F11 v277,v278,v279,v280,v281,v282,v230

”v232

”v233

”v235

”v236

A Tabela 5, apresenta os resultados encontrados utilizando a analise fatorial com

apenas as caracterısticas fısico quımicas.

Tabela 5 – Analise de Fator Caracterısticas fısico quımicas

Classe Precisao Sensibilidade F-MeasureHidrolases 59.8 75.3 66.7Isomerases 72.0 65.5 68.6

Ligases 69.8 48.4 57.1Liases 77.8 43.8 56.0

Oxidoredutases 55.2 41.6 47.4Transferases 54.0 57.6 55.7

Media 64.7 55.3 58.5

Notamos que, os valores encontrados utilizando a analise fatorial foram inferiores

se comparados ao algoritmo genetico. Nao existiu ganho com relacao a nenhuma metrica

de avaliacao. Observa-se que os valores de sensibilidade das classes ligases, liases e

oxidoredutases foram em torno de 40% a 50%, valores muito inferiores se comparados

ao algoritmo genetico. A Tabela 6, apresenta os resultados encontrados utilizando a

analise fatorial com os atributos externos.

Tabela 6 – Analise de Fator Caracterısticas fısico-quımicas + Externos

Classe Precisao Sensibilidade F-MeasureHidrolases 70.8 85.2 77.3Isomerases 71.4 63.6 67.3

Ligases 78.0 51.6 62.1Liases 77.8 43.8 56.0

Oxidoredutases 67.2 55.8 61.0Transferases 66.7 74.6 70.4

Media 71.9 62.4 65.6

Nesta avaliacao, existiu um ganho nas metricas trabalhadas em relacao a analise

fatorial com apenas as caracterısticas fısico quımicas, o mesmo comportamento que o

algoritmo genetico obteve. A precisao da analise fatorial foi 5,4% inferior a do algoritmo

genetico.

O Grafico 1, faz um comparativo entre as classes de enzimas trabalhadas, entre

o algoritmo genetico e a analise fatorial. Observa-se que, a analise fatorial perdeu em 5

classes. Uma melhora ocorreu na classe transferase, no percentual de 1,7%.

O Grafico 2, mostra os valores encontrados sobre a sensibilidade pela AF

juntamente com o AG. Notamos que, nao existiu nenhum ganho em relacao a nenhuma das

Grafico 1 – Comparativo da Precisao entre AG e Analise de Fator

6 seis classes. Alem disso, notou-se uma perda de 7.3% em relacao aos valores encontrados

pelo algoritmo genetico.

Grafico 2 – Comparativo da Sensibilidade entre AG e Analise de Fator

Finalmente o Grafico 3, apresenta o comparativo entre a F-Measure. Tambem

nesta metrica nao houve ganho em relacao a media geral das classes. A diferenca entre o

algoritmo genetico e a analise fatorial ficou proximo de 7.2%. Apenas na classe transferases

os valores foram relativamente proximos ao algoritmo genetico, com uma diferenca de

Grafico 3 – Comparativo da F-Measure entre AG e Analise de Fator

Os resultados mostram que, a predicao de funcao de proteına e um problema

complexo, com relacoes mais nao lineares que lineares. Isto ratifica que, os algoritmos

geneticos sao uma alternativa para selecao de atributos correlacionados, de forma linear

e nao linear, utilizando um classificador nao linear (SVM). Diferente da analise fatorial,

que considera somente correlacoes e combinacoes lineares. Entretanto, a analise fatorial

ganha em relacao a tempo de execucao em relacao ao algoritmo genetico. Seu tempo

de execucao e em torno de aproximadamente 5 minutos para esta base de dados. Ao

contrario do algoritmo genetico que demanda 30 minutos para cada geracao (de acordo

com a configuracao de maquina descrita na secao 4.2.4.3).

6 CONCLUSOES E TRABALHOS FUTUROS

Este trabalho apresentou uma metodologia para o problema da predicao de funcao

de proteına, utilizando algoritmo genetico multiobjetivo para a selecao de atributos. Seu

objetivo foi, confirmar se os atributos utilizados pelas metodologias anteriores eram de

fato os melhores atributos da base e se os atributos do STING DB, eram suficientes para

a separacao das seis classes de enzimas.

Foram realizados diversos experimentos utilizando algoritmo genetico

multiobjetivo, para encontrar o subconjunto de atributos finais, envolvendo as

caracterısticas fısico quımicas. A este subconjunto foram adicionadas novas

caracterısticas, de forma a melhorar o desempenho do classificador SVM. Obteve-se

um ganho em relacao as duas metodologias existentes na literatura. E em relacao a

(SANTOS, 2016), os resultados foram equivalentes, segundo a analise de T-Student. Com

a metodologia proposta, podemos de fato encontrar o melhor conjunto de caracterısticas

para a separacao das classes de proteınas.

Quanto ao uso do NSGA-II, nota-se que, ele tem trabalhado adequadamente,

atingindo sempre os objetivos desejados: menor percentual de erro na precisao do

classificador e menor numero de atributos. Produzimos um modelo de maior confiabilidade

sobre o domınio do problema tratado, se comparado a outros trabalhos citados que

utilizaram algoritmo genetico. Apesar de todos os problemas que tivemos em realizar

ajuste de parametros e do tempo de processamento do algoritmo genetico, concluımos

que, o modelo proposto e mais eficaz do que um algoritmo de busca exaustiva e ate

mesmo um algoritmo genetico mono objetivo.

Em relacao a analise fatorial, constatou-se que nao existiu nenhum ganho em

relacao ao algoritmo genetico. Porem, e uma tecnica de facil implementacao e rapida

execucao. Sendo indicada para problemas que demandam um tempo mınimo de resolucao.

Finalmente, outro ponto observado e que, o STING DB embora rico em informacoes

fısico quımicas, nao trouxe melhoras significativas quando aplicado o AG.

Um aspecto limitante da metodologia adotada, foi a utilizacao do SVM que

demanda ajuste de Cost e γ, o que nao foi possıvel pelo alto custo computacional adicional.

Como trabalhos futuros, sugere-se aplicar outras tecnicas de aprendizado de maquina, de

forma a nao ficar dependente da otimizacao de parametros do classificador. Sugere-se

tambem, aplicar o processo de selecao de atributos ao conjunto de atributos externos

que foram adicionados posteriormente. Finalmente, outra sugestao para este trabalho e a

utilizacao de uma outra metrica para a funcao de fitness, diferente da precisao considerada

durante a evolucao do algoritmo genetico.

REFERENCIAS

AHMED, N.; NATARAJAN, T.; RAO, K. R. Discrete cosine transform. Computers,IEEE Transactions on, C-23, p. 90–93, 1974.

AHUJA, J.; RATNOO, S. Feature selection using multi-objective genetic algorith m:A hybrid approach. INFOCOMP Journal of Computer Science, v. 14, n. 1, p.26–37, 2015. ISSN 1982-3363.

ALBERTS, B. et al. Molecular Biology of the Cell. 5. ed. [S.l.]: Garland Science,2007. Hardcover. ISBN 0815341059.

ALZUBAIDI, A.; COSMA, G. A multivariate feature selection framework forhigh dimensional biomedical data classification. In: 2017 IEEE Conferenceon Computational Intelligence in Bioinformatics and ComputationalBiology (CIBCB). [S.l.: s.n.], 2017. p. 1–8.

ANDRADE, M. S. F. de. Algoritmos Evolutivos Mono e Multiobjetivos paraProblemas Bidimensionais de Corte. Dissertacao (Mestrado) — Centro Federal deEducacao Tecnologica de Minas Gerais.

BERMAN, H. M. et al. The protein data bank. Nucleic Acids Research, v. 28, p.235–242, 2000.

BORRO, L. C. et al. Predictiong enzyme class from protein structure using bayesianclassification. Genetic and Molecular Research, v. 1, p. 193–202, 2006.

CATTELL, R. B. The scree test for the number of factors. Multivariate BehavioralResearch, Routledge, v. 1, n. 2, p. 245–276, 1966. PMID: 26828106.

CHAWLA, N. V.; JAPKOWICZ, N.; KOTCZ, A. Editorial: Special issue on learningfrom imbalanced data sets. SIGKDD Explor. Newsl., ACM, New York, NY, USA,v. 6, n. 1, p. 1–6, jun. 2004. ISSN 1931-0145.

CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, v. 20, n. 3,p. 273–297, September 1995.

COVER, T.; HART, P. Nearest neighbor pattern classification. IEEE Transactionson Information Theory, v. 13, n. 1, p. 21–27, January 1967. ISSN 0018-9448.

DEB, K. et al. A fast elitist non-dominated sorting genetic algorithm for multi-objectiveoptimization: Nsga-ii. Springer Berlin Heidelberg, Berlin, Heidelberg, p. 849–858, 2000.

DEB, K.; KALYANMOY, D. Multi-Objective Optimization Using EvolutionaryAlgorithms. New York, NY, USA: John Wiley & Sons, Inc., 2001. ISBN 047187339X.

DEB, K. et al. A fast and elitist multiobjective genetic algorithm: Nsga-ii. Trans.Evol. Comp, IEEE Press, Piscataway, NJ, USA, v. 6, n. 2, p. 182–197, abr. 2002. ISSN1089-778X.

DOBSON, P. D.; DOIG, A. J. Distinguishing enzyme structures from non-enzymeswithout alignments. Molecular Biology, v. 330, p. 771–783, 2003.

DOBSON, P. D.; DOIG, A. J. Predicting enzyme class from protein structure withoutalignments. Molecular Biology, v. 345, p. 187–199, 2004.

FORTIN, F.-A. et al. Deap: Evolutionary algorithms made easy. J. Mach. Learn.Res., JMLR.org, v. 13, n. 1, p. 2171–2175, jul. 2012. ISSN 1532-4435.

FREITAS, A. A. Data Mining and Knowledge Discovery with EvolutionaryAlgorithms. Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2002. ISBN3540433317.

GAN, X.; LIU, J. A multi-objective evolutionary algorithm for emergency logisticsscheduling in large-scale disaster relief. In: 2017 IEEE Congress on EvolutionaryComputation (CEC). [S.l.: s.n.], 2017. p. 51–58.

HAYKIN, S. Neural Networks: A Comprehensive Foundation. 2nd. ed. UpperSaddle River, NJ, USA: Prentice Hall PTR, 1998. ISBN 0132733501.

HEARST, M. A. Support vector machines. IEEE Intelligent Systems, IEEEComputer Society, Los Alamitos, CA, USA, v. 13, p. 18–28, 1998. ISSN 1541-1672.

HOLLAND, J. Adaptation in natural and artificial systems. The University ofMichigan Press, Ann Arbor., 1975.

HORN, J. L. A rationale and test for the number of factors in factor analysis.Psychometrika, v. 30, n. 2, p. 179–185, Jun 1965. ISSN 1860-0980.

HSU, C.-W.; CHANG, C.-C.; LIN, C.-J. A Practical Guideto Support Vector Classification. [S.l.], 2003. Disponıvel em:<http://www.csie.ntu.edu.tw/ cjlin/papers.html>.

HSU, C. wei; CHANG, C. chung; LIN, C. jen. A practical guide to supportvector classification. 2010.

HUANG, C.-L.; WANG, C.-J. A ga-based feature selection and parameters optimizationfor support vector machines. Expert System with Application, v. 31, p. 231–240,2006.

KALOUSIS, A.; PRADOS, J.; HILARIO, M. Stability of feature selection algorithms:a study on high-dimensional spaces. Knowledge and Information Systems, v. 12,n. 1, p. 95–116, May 2007. ISSN 0219-3116.

KNOWLES, J.; CORNE, D. The pareto archived evolution strategy: a new baselinealgorithm for pareto multiobjective optimisation. In: Proceedings of the 1999Congress on Evolutionary Computation-CEC99 (Cat. No. 99TH8406). [S.l.:s.n.], 1999. v. 1, p. 105 Vol. 1.

KOHAVI, R.; JOHN, G. H. Wrappers for feature subset selection. Artif. Intell.,Elsevier Science Publishers Ltd., Essex, UK, v. 97, n. 1-2, p. 273–324, dez. 1997. ISSN0004-3702.

KRIEGEL, H.-P. et al. A general framework for increasing the robustness of pca-basedcorrelation clustering algorithms. In: LUDASCHER, B.; MAMOULIS, N. (Ed.).Scientific and Statistical Database Management: 20th InternationalConference, SSDBM 2008, Hong Kong, China, July 9-11, 2008 Proceedings.Berlin, Heidelberg: Springer Berlin Heidelberg, 2008. p. 418–435. ISBN 978-3-540-69497-7.

KUMAR, C.; CHOUDHARY, A. A top-down approach to classify enzyme functionalclasses and sub-classes using random forest. EURASIP J. Bioinformatics andSystems Biology, v. 2012, p. 1, 2012.

LEE, B. J. et al. Classification of enzyme function from protein sequence basedon feature representation. In: 2007 IEEE 7th International Symposium onBioInformatics and BioEngineering. [S.l.: s.n.], 2007. p. 741–747.

LEHNINGER, A.; NELSON, D. L.; COX, M. M. Lehninger Principles ofBiochemistry. Fourth edition. [S.l.]: W. H. Freeman, 2004. Hardcover.

LEIJOTO, L. et al. A genetic algorithm for the selection of features used in the predictionof protein function. In: Bioinformatics and Bioengineering (BIBE), 2014 IEEEInternational Conference on. [S.l.: s.n.], 2014. p. 168–174.

LEWIS, D. D. Naive (Bayes) at forty: The independence assumption ininformation retrieval. Berlin, Heidelberg: Springer Berlin Heidelberg, 1998. 4–15 p.ISBN 978-3-540-69781-7.

LINDEN, R. Algoritmos Geneticos. [S.l.]: Editora Ciencia Moderna Ltda, 2012.

LIU, H.; MOTODA, H. Data Processing and Knowledge Discovery inDatabases. Boston, MA: Springer US, 1998. 1–15 p. ISBN 978-1-4615-5689-3.

MANCINI, A. L. et al. Sting contacts: a web-based application for identification andanalysis of amino acid contacts within protein structure and across protein interfaces.Bioinformatics, v. 20, p. 2145–2147, 2004.

MORAES, F. R. de et al. Improving predictions of protein-protein interfaces bycombining amino acid-specific classifiers based on structural and physicochemicaldescriptors with their weighted neighbor averages. PLOS ONE, Public Library ofScience, v. 9, n. 1, p. 1–15, 01 2014.

NADZIRIN, N.; FIRDAUS-RAIH, M. Proteins of unknown function in the protein databank (pdb): An inventory of true uncharacterized proteins and computational tools fortheir analysis. International Journal of Molecular Sciences, v. 13, n. 10, p.12761–12772, 2012. ISSN 1422-0067.

NELSON, D. L.; COX, M. M. Lehninger Principles of Biochemistry, FourthEdition. Fourth edition. [S.l.: s.n.], 2004.

NEMATI, S. et al. A novel ACO-GA hybrid algorithm for feature selection in proteinfunction prediction. Expert Syst. Appl., v. 36, n. 10, p. 12086–12094, 2009. Disponıvelem: <https://doi.org/10.1016/j.eswa.2009.04.023>.

NESHICH, G. et al. Javaprotein dossier: a novel web-based data visualization tool forcomprehensive analysis of protein structure. Nucleic Acids Research, v. 32, p.W595–W601, 2004.

NEWMAN, C. B. D.; MERZ, C. UCI Repository of machine learning databases.1998. Disponıvel em: <http://www.ics.uci.edu/∼mlearn/MLRepository.html>.

PAPPA, G. L.; FREITAS, A. A.; KAESTNER, C. A. A. Attribute selection with amulti-objective genetic algorithm. Springer Berlin Heidelberg, Berlin, Heidelberg, p.280–290, 2002.

PIRES, D. E. et al. Cutoff scanning matrix (csm): structural classification and functionprediction by protein inter-residue distance patterns. BMC Genomics, v. 12, n. 4,p. S12, 2011. ISSN 1471-2164.

REZENDE, S. O. Sistemas Inteligentes: Fundamentos e Aplicacoes. Barueri,SP: Editora Manole Ltda, 2003. ISBN 8520416837.

SANTOS, G. T. de O. Avaliacao de caracterısticas para predicao de classesde enzimas com Support Vector Machine. Dissertacao (Mestrado) — PontifıciaUniversidade Catolica de Minas Gerais.

SHARAN, R.; ELKON, R.; SHAMIR, R. Cluster analysis and its applications to geneexpression data. Springer Berlin Heidelberg, Berlin, Heidelberg, p. 83–108, 2002.

SRINIVAS, N.; DEB, K. Muiltiobjective optimization using nondominatedsorting in genetic algorithms. Evol. Comput., MIT Press, Cambridge,MA, USA, v. 2, n. 3, p. 221–248, set. 1994. ISSN 1063-6560. Disponıvel em:<http://dx.doi.org/10.1162/evco.1994.2.3.221>.

TAN, F. et al. A genetic algorithm-based method for feature subset selection. SoftComputing, v. 12, n. 2, p. 111–120, 2008. ISSN 1433-7479.

TIPTON, K.; BOYCE, S. History of the enzyme nomenclature system. Bioinformatics,v. 16, n. 1, p. 34–40, 2000.

VOSE, M. D. The Simple Genetic Algorithm. Nova Dheli, India: Prentice-Hall ofIndia, 2004.

ZHOU, Y.; LIU, J. A multi-agent genetic algorithm for multi-period emergency resourcescheduling problems in uncertain traffic network. In: 2017 IEEE Congress onEvolutionary Computation (CEC). [S.l.: s.n.], 2017. p. 43–50.

ZITZLER, E.; LAUMANNS, M.; THIELE, L. SPEA2: Improving the StrengthPareto Evolutionary Algorithm For Multiobjective Optimization. 2002.

APENDICE A -- EXPERIMENTOS COMPLEMENTARES

Este apendice, apresenta-se outros experimentos realizados durante a execucao do

algoritmo genetico multiobjetivo. Serao apresentados utilizando um agrupamento a partir

do numero de populacao (P) e geracoes (G), variando o percentual de cruzamento (Pc)

e o percentual de mutacao (Pm). Observa-se que, todos estes experimentos nao tiveram

os parametros do SVM Cost e γ ajustados, justificando os valores baixos em relacao a

fitness (precisao).

Figura 1 – Experimentos utilizando P = 100 e G = 100

(a) Pc = 0.65 Pm = 0.01 (b) Pc = 0.70 Pm = 0.05