Post on 07-Jan-2017
UNIVERSIDADE DE CAXIAS DO SUL
CENTRO DE CINCIAS AGRRIAS E BIOLGICAS
INSTITUTO DE BIOTECNOLOGIA
PROGRAMA DE PS-GRADUAO EM BIOTECNOLOGIA
NVEL DE DOUTORADO
Redes neurais artificiais aplicadas no reconhecimento
de regies promotoras em bactrias Gram-negativas
Scheila de Avila e Silva
Caxias do Sul
2011
Scheila de Avila e Silva
Redes neurais artificiais aplicadas no reconhecimento
de regies promotoras em bactrias Gram-negativas
Tese apresentada ao Programa de Ps-Graduao em
Biotecnologia da Universidade de Caxias do Sul,
visando a obteno do grau de Doutor em Biotecnologia.
Orientador: Prof. Dr. Sergio Echeverrigaray
Co-orientador: Prof. Dr. Gnther J. L. Gerhardt
Caxias do Sul
2011
No fim voc vai ver que as coisas mais leves so
as nicas que o vento no conseguiu levar
Mrio Quintana.
A Joo Carlos Sartor,pelo carinho e companheirismo.
AGRADECIMENTOS
minha famlia, pelo apoio em mais esta etapa de minha vida.
Ao meu orientador, Prof. Dr. Sergio Echeverrigaray, pelo apoio e contribuies
realizadas ao longo da realizao da tese.
Ao Prof. Dr. Gnther J. L. Gerhardt, pela orientao durante a bolsa de
Iniciao Cientfica na Graduao, pelo encaminhamento ao curso de mestrado e
pelas contribuies realizadas.
s Prof. Dr Ana Paula Longaray Delamare e Prof. Dr Helena Graziottin
Ribeiro pelo acompanhamento e colaboraes pertinentes realizadas.
Universidade de Caxias do Sul e ao PPG em Biotecnologia pelo apoio ao
projeto e ao Ncleo de Pesquisa em Bioinformtica.
Ao Prof. Dr. Aldo J. P. Dillon pelo incentivo.
Ao Prof. Dr. Adelmo Cechin (in memorian) pela orientao no desenvolvimento
da dissertao de mestrado.
s bolsistas de iniciao cientfica que contriburam neste trabalho: Franciele
Forte, Ivaine Tas Sauthier Sartor e Tahila Andrighetti.
Aos alunos de graduao que, ao realizar seu trabalho de concluso
contriburam para o trabalho: Maurcio Adami Mariani, Daniel Jos dos Santos,
Vanessa Davanzo, Dase Lima da Silva, Rodrigo Cicconet, Marlon Maciel Abreu.
Aos colegas do laboratrio de Biotecnologia Vegetal e Microbiologia Aplicada
pelo clima descontrado de trabalho e coleguismo nos crditos cursados.
Aos colegas do Colgio La Salle Caxias pela amizade.
secretria do PPG, Lucimara Serafini, pela cordialidade e eficincia para
tratar de questes burocrticas.
LISTA DE ABREVIATURAS
A Nucleotdeo Adenina
AM Aprendizado de Mquina
ART Teoria da Ressonncia Adaptativa
BacPP Bacterial Promoter Predicition
BDBM Banco de Dados de Biologia Molecular
BP Algoritmo Backpropagation
C Nucleotdeo Citosina
DNA cido Desoxirribonuclico
E. coli Escherichia coli
FN Falsos Negativos
FP Falsos Positivos
G Nucleotdeo Guanina
k-FCV k-fold-cross-validation
LSSVM Least Square Support Vector Machine
MLP Multilayer Perceptron
MPP Matriz de Posies Ponderadas
NNPP Neural Networks Promoter Predicition
nt nucleotdeo
pb Pares de Bases
RN Rede Neural Artificial
RNA cido Ribonucleico
RNAm cido Ribonucleico Mensageiro
RNAp Enzima RNA Polimerase
RPc Complexo Fechado do Promotor
RPo Complexo Aberto do Promotor
SGBD Sistema de Gerncia de Banco de Dados
SVM Mquinas de Vetor de Suporte (Suport Vector Machine)
T Nucleotdeo Timina
TLS Stio de Incio da Traduo
TSS Stio de Incio de Transcrio
VN Verdadeiros Negativos
VP Verdadeiros Positivos
i
Sumrio
1 INTRODUO .......................................................................................................1
2 OBJETIVOS............................................................................................................4
2.1Objetivos especficos...........................................................................................4
3 REVISO BIBLIOGRFICA....................................................................................5
3.1 OS PROMOTORES E A TRANSCRIO DOS GENES................................6
3.2 RECONHECIMENTO BASEADO EM SINAL................................................12
3.2.1 Matriz de Posies Ponderadas ............................................................12
3.3 ANLISE POR APRENDIZADO DE MQUINA............................................15
3.3.1 Mquinas de suporte vetorial (Support vector machines)...................15
3.3.2 Redes Neurais........................................................................................17
3.4 METODOLOGIA UTILIZANDO A VALORES DE ESTABILIDADE...............19
3.5 FUNDAMENTOS de REDES NEURAIS ARTIFICIAIS..................................22
3.5.1 Arquitetura das Redes Neurais...............................................................22
3.5.2 Treinamento de Redes Neurais..............................................................25
3.6 EXTRAO DE REGRAS ............................................................................27
3.6.1 Extrao de Regras a Partir de Redes Neurais.....................................28
3.6.2 Tipos de regras.......................................................................................29
3.6.3 Regras obtidas a partir dos neurnios da camada oculta......................29
3.7 CONSIDERAES ADICIONAIS..................................................................30
4 METODOLOGIA....................................................................................................31
4.1 ORGANISMOS ESTUDADOS.......................................................................31
4.2 BANCOS DE DADOS....................................................................................32
4.3 FERRAMENTAS............................................................................................33
4.4 CRIAO DE BANCO DE DADOS DE REGIES INTERGNICAS..........34
5 RESULTADOS .....................................................................................................35
ii
5.1 CAPTULO I - Rules extraction from neural networks applied to prediction
and recognition of prokaryotic promoters................................................................36
5.2 CAPTULO II - BacPP: Bacterial promoter prediction - A tool for accurate sig-
ma-factor specific assignment in enterobacteria....................................................45
5.3 CAPTULO III - Neural Networks applied to bacterial promoter prediction
based on DNA stability ...........................................................................................46
5.4 CAPTULO IV Banco de dados Intergenicdb..............................................58
6 CONSIDERAES FINAIS..................................................................................68
7 REFERNCIAS BIBLIOGRFICAS......................................................................70
APNDICE 1 - PATENTE INTERNACIONAL DA FERRAMENTA BacPP..................75
iii
ndice de tabelas
Tabela 3.1: Descrio das subunidades da RNA polimerase holoenzima de E. coli.
(LEHNINGER et al., 2007)............................................................................................7
Tabela 3.2: Fatores de E. coli (LEWIN, 2008). .........................................................8
Tabela 3.3: Resultados obtidos pela metodologia de Jacques et al. (2006)..............14
Tabela 3.4: Resultados obtidos pelo trabalho de Rani et al. (2006)...........................19
iv
ndice de ilustraes
Figura 3.1: Dogma central da biologia molecular (LEWIN, 2008)................................6
Figura 3.2: Representao da regio promotora para uma nica fita de DNA em E.
coli. (BURDEN et al., 2005-modificado)........................................................................7
Figura 3.3: Esquema da RNAp de organismos procariotos (LEWIN,2008).................7
Figura 3.4: Promotor procaritico reconhecido pelo fator 70(LEHNINGER et al.,
2007)..............................................................................................................................8
Figura 3.5: Promotores tpicos de E. coli reconhecidos pela RNAp holoenzima 70
(MADIGAN, 2010). .......................................................................................................9
Figura 3.6: Etapas da iniciao da transcrio de E. coli (LEWIN et al., 2008).........10
Figura 3.7: Exemplo da transformao da matriz de alinhamento para a matriz de
posies ponderadas para a sequncia teste AGGTGC............................................13
Figura 3.8: Treinamento de SVM (RUSSEL e NORVIG, 2003)..................................15
Figura 3.9: Fluxograma que ilustra a metodologia desenvolvida pelos autores Polat e
Gnes (2007)...............................................................................................................16
Figura 3.10: Codificao ortogonal para os valores de estabilidade, empregado por
Askary et al. (2009).....................................................................................................18
Figura 3.11: Fluxograma da metodologia descrita por Rangannan e Bansal (2007). 21
Figura 3.12: Analogia entre neurnios biolgicos e artificiais. (WU e MCLARTY,
2000)............................................................................................................................22
Figura 3.13: Modelo de um neurnio artificial (RUSSELL e NORVIG, 2003).............23
Figura 3.14: Rede MLP com trs camadas (RUSSELL e NORVIG, 2003)................24
Figura 3.15: Ilustrao das trs regies definidas na funo sigmide para anlise
dos dados de entrada e extrao de regras...............................................................30
Figura 4.1: Estrutura da metodologia proposta para o uso de RN no reconhecimento
e predio de promotores...........................................................................................32
v
RESUMO
A regio promotora uma sequncia de DNA localizada anteriormente uma
regio codificante e responsvel por iniciar o processo de transcrio. Deste modo,
atua como um elemento regulador. O estudo da regulao da expresso gnica
auxilia na compreenso da maquinria vital dos seres vivos, no conhecimento sobre
a funcionalidade dos genes em diferentes espcies, na resposta celular frente s
mudanas ambientais, entre outras questes. Embora os mtodos computacionais
para a predio de genes possuam uma boa acurcia o mesmo no conseguido
para os promotores. Esta dificuldade se deve ao tamanho reduzido do promotor e ao
padro pouco conservado, o que gera resultados com alto nmero de falsos
positivos. Esta tese teve como objetivo a utilizao de Redes Neurais Artificiais na
predio, caracterizao e reconhecimento de promotores de bactrias Gram-
negativas. Diferente de outros trabalhos, a predio realizada no foi limitada
apenas aos promotores dos genes constitutivos; foi realizada tambm para as
demais classes de sequncias promotoras. Alm da abordagem clssica utilizando a
composio de nucleotdeos foram empregados os valores de estabilidade da
sequncia. De modo a otimizar o aprendizado da Rede Neural e implementar uma
ferramenta prpria para a predio de promotores, foram extradas regras de
inferncia (baseadas no conhecimento produzido durante o treinamento da rede)
que foram ponderadas e implementadas em uma nova ferramenta, chamada BacPP.
At o presente, os resultados obtidos com o BacPP foram satisfatrios e
comparveis com a literatura. Os valores de exatido obtidos com o BacPP para os
fatores 24, 28, 32, 38, 54 e 70 de E. coli foram, 86,9%; 92,8%; 91,5%; 89,3%;
97,0%; 83,6%, respectivamente. Quando a ferramenta foi aplicada em promotores
pertencentes a outras bactrias Gram-negativas, a exatido geral foi de 76%.
Considerando a importncia da predio de promotores e a ausncia de banco de
dados com informaes para outras bactrias, implementou-se o IntergenicDB, um
banco de dados com diversas informaes sobre as sequencias intergnicas e o
valor de classificao destas para os diferentes fatores bacterianos, conforme os
resultados obtidos com o BacPP.
vi
ABSTRACT
The promoter region is located some few base pairs before a coding region. It
is responsible for initiating gene expression process, thus, it can plays a regulatory
role. The study about gene expression regulation can assist mainly in the
comprehension of complex metabolic network presented by several organisms and
cellular answer considering the environment changes. The computational methods to
gene prediction have a good accuracy, but this is not achieved in promoter prediction.
This difficulty occurs because of the length of the promoter and its degenerate
pattern. Those features can explain results with a great number of false positives
present in the literature. The present thesis has as its main goal the neural networks
applied to Gram-negative promoter prediction, recognition and characterization.
Beside the classical approach with the nucleotides of the sequence, the prediction
was also made by using stability values. Aiming at developing a own tool for bacterial
promoter prediction, the rules extraction was carried out and the results were
weighted and implemented. This tool, named BacPP, presents results comparable
with the related literature. Currently, the BacPP specific accuracy for 24, 28, 32, 38,
54 and 70 were 86,9%; 92,8%; 91,5%; 89,3%; 97,0%; 83,6%, respectively.
Furthermore, when challenged with promoter sequences belonging to other
enterobacteria BacPP maintained 76% accuracy overall. Currently, there is no
databases dedicated for other Gram-negative promoter than E.coli. For this reason,
IntergenicDB was modeled and implemented. This database was projected to collect
several pieces of information about the sequences and the organisms to which they
belong and, the classification results originated from BacPP for each sequence.
vii
1 INTRODUO
Os fenmenos biolgicos so muito complexos e requerem a integrao de
muitas reas do conhecimento para a comprovao ou refutao de hipteses. A
interface interdisciplinar mais antiga (e talvez a mais conhecida) entre a Biologia e as
Cincias Exatas a Bioestatstica. Gradualmente nos ltimos anos, a Biologia tem
utilizado, as ferramentas proporcionadas pela Informtica e pela Matemtica para a
resoluo de problemas nos mais diversos campos: desde a Gentica at a Ecologia
(BARRERA et al., 2004).
Um dos maiores desafios da era ps-genmica a determinao de quando,
onde e como os genes so ligados e desligados. A diferena entre duas espcies
est muito mais relacionada com a transcrio de seus genes do que com a
estrutura destes em si. Assim, o estudo da regulao gnica contribui para a
construo do conhecimento a respeito da funcionalidade dos genes em diferentes
espcies, na questo da diferenciao celular em organismos multicelulares, na
resposta celular frente s mudanas ambientais, entre outras questes (HOWARD e
BENSON, 2003; COTIK et al., 2005).
Dentre as sequncias de DNA que atuam como reguladoras da expresso
gnica esto includas as regies promotoras. De uma maneira simplificada, pode-se
dizer que estas localizam-se anteriormente regio codificante e interagem com a
enzima RNA polimerase (RNAp), desencadeando o processo de transcrio
(LEWIN, 2008). Fazendo uma analogia, os elementos downstream (como os genes)
representam a memria de um computador e os elementos upstream (como os
promotores) os programas que atuam nesta memria. Assim, o estudo dos
promotores pode prover modelos sobre a constituio do programa e de como este
opera (HOWARD e BENSON, 2003).
1
Em organismos procariticos, a holoenzima RNAp formada por cinco
subunidades e uma subunidade adicional (que se liga de forma transitria) chamada
fator sigma (). A coleo de diferentes responsvel pela ligao da RNAp em
determinadas regies dos promotores e a consequente expresso de genes
especficos de resposta s mudanas ambientais. Os fatores so nomeados
conforme seu peso molecular (24, 28, 32, 38, 54 e 70) e esto relacionados com
determinadas funes metablicas e/ou fisiolgicas. Por exemplo, 32 e 24
desempenham papel na resposta ao estresse por choque trmico, 28 est
associado com a expresso de genes produtores de clios e flagelos, 54 est
envolvido na fixao de nitrognio e 70 est relacionado com a expresso de genes
constitutivos (LEWIN, 2008).
A regio promotora possui locais especficos e com certo grau de
conservao, que auxiliam no reconhecimento e na ligao da RNAp nesta regio.
Alm destes locais, os promotores possuem algumas caractersticas estruturais
prprias, diferentes das regies no-promotoras, que podem ser incorporadas nos
estudos destes elementos, tais como a deformabilidade, estabilidade e a curvatura.
(KANHERE e BANSAL, 2005a; KOZOBAYAVRAHAM et al., 2008).
As tcnicas moleculares para a identificao de promotores so custosas e
consomem muito tempo, o que permite que as abordagens in silico ganhem
aplicabilidade (TOWSEY, 2008). As mais variadas abordagens computacionais tm
sido empregadas para reconhecer estas regies e predizer se uma regio ou no
promotora. Dentre estas tcnicas, pode-se destacar Anlise Probabilstica,
Reconhecimento de Padres e Aprendizado de Mquina (AM). Embora haja
progressos na predio e anlise de promotores, estes ainda esto longe de possuir
uma alta acurcia (RANI et al., 2006).
A maioria dos trabalhos relacionados so aplicados apenas s sequncias
promotoras reconhecidas pelo fator 70. Esta tese tem como tema a aplicao de
Redes Neurais Artificiais (RN) na predio, reconhecimento e caracterizao de
regies promotoras procariticas conforme o fator que as reconhece. Alm da
composio de nucleotdeos (nt), suas propriedades estruturais (valores de
estabilidade) foram utilizadas no treinamento da RN.
A partir da anlise dos resultados obtidos, com as simulaes de RN, foi
realizada a extrao de regras a partir das arquiteturas treinadas para cada fator .
2
A extrao de regras um elemento importante no levantamento de hipteses pois
permite a visualizao de como ocorreu o processo de aprendizagem pela rede,
uma vez que verifica-se quais elementos da sequncia possuem um papel
determinante no seu reconhecimento como promotora (ANDREWS et al., 1995). As
regras foram ponderadas e implementadas em um programa de predio de
promotores procariticos, chamado de BacPP. Ao analisar uma determinada
sequncia, o programa atribui um valor de classificao para os fatores
bacterianos descritos neste trabalho. Considerando a falta de informaes sobre
outras bactrias Gram-negativas, surgiu a necessidade da implementao de uma
base de dados relacionada (TOWSEY et al.,2008). O IntergenicDB foi modelado
para armazenar informaes relevantes sobre a estrutura e bibliografia das
sequncias intergnicas de bactrias Gram-negativas, alm de armazenar os
valores de predio obtidos com a ferramenta BacPP.
O presente trabalho est organizado em 4 sees principais. A seo 3
constituda de uma reviso bibliogrfica geral, na qual so apresentados os
conceitos biolgicos e computacionais relevantes para a compreenso de como os
resultados foram obtidos. Uma viso geral da metodologia apresentada na seo
4, sendo que os detalhes da metodologia so apresentados nos captulos da seo
dos resultados. A seo 5, mostra os resultados na forma de artigos cientficos
publicados e/ou a serem submetidos publicao em peridicos cientficos.
3
2 OBJETIVOS
O objetivo geral deste trabalho reconhecer, predizer e caracterizar regies
promotoras de diferentes bactrias gram-negativas, integrando dados fsico-
qumicos da molcula de DNA com a composio da sequncia por meio de uma
abordagem de Redes Neurais Artificiais.
2.1 OBJETIVOS ESPECFICOS
- Preparar os dados de entrada para a realizao do treinamento;
- Determinar a melhor arquitetura de RNs para a identificao de regies
promotoras de acordo com o fator que reconhece a sequncia, utilizando a
informao dos nt e/ou estabilidade da sequncia;
- Extrair regras de cada RN treinada para compreenso dos mecanismos
utilizados no reconhecimento de promotores;
- Desenvolver uma ferramenta prpria para a predio de promotores com
base no aprendizado da RN;
- Aplicar a ferramenta desenvolvida em regies intergnicas de bactrias
Gram-negativas;
- Criar de um banco de dados de possveis promotores procariticos utilizando
diferentes metodologias disponveis;
4
3 REVISO BIBLIOGRFICA
O DNA ou cido desoxirribonuclico a molcula universal mais empregada
no armazenamento da informao gentica (DE ROBERTIS, 1993). Os genes so
um segmento da molcula de DNA que contm a informao necessria para a
codificao de seus produtos. Na maioria das vezes, estes produtos so protenas
que realizam uma funo especfica na clula: estrutural, regulatria ou cataltica. O
controle de qual gene deve ser expresso em um determinado momento compreende
um conjunto de mecanismos que torna este processo complexo at mesmo para
organismos unicelulares, como as bactrias. Este processo conhecido como
regulao da expresso gnica.
O estudo de promotores um dos aspectos fundamentais para a
compreenso da expresso gnica. Ainda que os promotores sejam de importncia
indiscutvel, a habilidade em identific-los menos desenvolvida que a de encontrar
regies codificantes. A maior dificuldade no seu reconhecimento in silico que sua
sequncia muito curta e no apresenta-se completamente conservada (HOWARD
e BENSON, 2003; BURDEN, et al., 2005; KANHERE e BANSAL, 2005b;
SIVARAMAN et al., 2005).
As prximas sees descrevem o processo de transcrio dos genes em
organismos procariotos, o papel do promotor para o seu desencadeamento e as
abordagens in silico para a predio de sequncias promotoras, sendo que esta
seo foi submetida para publicao como captulo de livro. Alm disso, so
apresentados os fundamentos sobre as RNs, j que estas foram escolhidas como a
tcnica de AM da metodologia deste trabalho.
5
3.1 OS PROMOTORES E A TRANSCRIO DOS GENES
Quando um gene expresso, sua informao copiada na forma de cido
ribonucleico (RNA) que por sua vez, dirige a sntese dos produtos elementares dos
genes. Este processo denominado como dogma central da Biologia Celular, que
pode ser visualizado na Figura 3.1.
A iniciao da transcrio dos genes inicia quando a enzima RNAp liga-se em
sequncias especficas do DNA, denominadas de promotores. Em E. coli, a ligao
da RNAp ocorre dentro de uma regio que se estende desde cerca de 70 pares de
base (pb) antes do stio de incio da transcrio (TSS) at cerca de 30 pb alm dele.
Por conveno, os pb de DNA que correspondem ao incio de uma molcula de
RNAm recebem nmeros positivos, sendo esta parte do DNA denominada de regio
downstream. J a regio upstream corresponde aos nt que precedem o stio de
incio da transcrio recebem nmeros negativos (Figura 3.2).
6
Figura 3.1: Dogma central da biologia molecular (LEWIN, 2008).
A enzima RNAp desempenha um importante papel no incio da transcrio
como reconhecedora das sequncias promotoras. Ela contm cinco unidades
bsicas: duas subunidades , uma subunidade , uma e uma subunidade .
Essas cinco subunidades formam o core da RNAp. Alm destas, h uma subunidade
designada fator , que liga-se transitoriamente ao core e direciona a enzima para
stios de ligao especficos do DNA. Quando o fator est associado RNAp, ela
passa a ser chamada de RNAp holoenzima. Na Tabela 3.1, esto as subunidades da
RNAp, seu gene codificante e sua funo no processo de transcrio e na Figura 3.3
encontra-se um esquema desta enzima.
Tabela 3.1: Descrio das subunidades da RNA polimerase holoenzima de E. coli. (LEHNINGER et al., 2007).
Subunidades Funo na RNAp Ligao a protenas regulatrias e ' Atividade cataltica Reconhecimento do promotor e especificidade Acrscimo na fora de associao entre as subunidades
7
Figura 3.2: Representao da regio promotora para uma nica fita de DNA em E. coli. (BURDEN et al., 2005-modificado).
Figura 3.3: Esquema da RNAp de organismos procariotos (LEWIN,2008).
Existem diferentes tipos de fatores (Tabela 3.2) que podem se ligar com o
core da RNAp, sendo cada um associado a uma classe de promotores que regulam
a expresso de um determinado conjunto de genes necessrios em um dado
momento celular.
Tabela 3.2: Fatores de E. coli (LEWIN, 2008).
Fator Nome do Gene Funo Consenso -35 separador -101
28 fliA Produo de clios e flagelos CTAAA 15 pb GCCGATAA32 rpoH Estresse por choque trmico CCCTTGAA 13-15pb CCCGATNT38 rpoS Resposta a estresse TTGACA 16-18pb TATACT54 rpoN Assimilao de nitrognio CTGGNA 6pb TTGCA70 rpoD Sigma constitutivo TTGACA 16-18pb TATAAT24 rpoE Estresse por choque trmico GGAACTT 15pb GTCTAAH sigH Estresse osmtico AGGANPuPu 11-12 GCTGAATCA1 Somente para 54, a regio consensual se localiza centrada nos nt -12 e -24. Na sequncia consensual, N
significa qualquer nucleotdeo e Pu significa nucleotdeo de base prica.
Um promotor procaritico tpico para 70 constitudo de 3 regies
caractersticas: uma sequncia de 6 nt (hexmero) centrada em 35 do ponto inicial
de transcrio (+1), outro hexmero centrado em 10 e a sequncia que separa os
hexmeros (espaador), conforme ilustrado na Figura 3.4.
Anlises e comparaes das sequncias da classe mais comum de
promotores bacterianos (reconhecidos pela RNAp holoenzima contendo 70) revelam
semelhanas nos dois hexmeros citados anteriormente. Embora as sequncias no
sejam idnticas para todos os promotores bacterianos, certos nt comuns em
determinadas posies formam uma sequncia consenso (Figura 3.5). O modelo
biolgico padro para estes promotores a sequncia TTGACA para a regio -35,
TATAAT para a regio -10 e um espaamento entre estes hexmeros de 16-18 nt.
Muitas linhas independentes de pesquisa atestam a importncia funcional das
sequncias -35 e -10 (LEHNINGER et al., 2007; KALATE et al., 2003; KANHERE e
BANSAL, 2005a). O hexmero -35 funciona como sinal para reconhecimento pela
8
Figura 3.4: Promotor procaritico reconhecido pelo fator 70(LEHNINGER et al., 2007).
RNAp e o hexmero -10 permite converter o complexo fechado em complexo aberto.
Alm disso, a distncia entre eles parece ser relevante, apesar do tamanho varivel
e da falta de conservao (LEWIN, 2008).
Variaes na sequncia consenso podem afetar a eficincia da ligao da
RNAp. Uma mudana em apenas um pb pode diminuir a velocidade de iniciao em
vrias ordens de grandeza. A sequncia do promotor, desta forma, estabelece um
nvel basal de expresso dos genes, sendo considerado um promotor forte aquele
mais perto da sequncia consensual e um promotor fraco aquele que possui mais de
trs nt diferentes do consenso (LEWIN, 2008). No entanto, alguns promotores
procariticos permanecem funcionais mesmo na ausncia da regio -35. Estes
promotores possuem uma regio chamada -10 estendida (duas bases extra no
hexmero -10). Ainda incerto se o hexmero -10 estendido um antecessor do
promotor bipartido ou vice-versa. A explicao para a origem dos promotores
bipartidos ainda desconhecida. A informao da regio -10 estendida importante
para o bom funcionamento da RNAp e esta informao foi realocada na regio -35
(HOOK-BARNARD et al., 2006; SHULTZABERGER et al., 2007).
A transcrio possui dois momentos principais, cada um com mltiplas etapas.
O incio do processo ocorre quando a RNAp holoenzima se liga ao promotor,
9
Figura 3.5: Promotores tpicos de E. coli reconhecidos pela RNAp holoenzima 70
(MADIGAN, 2010).
formando um complexo fechado do promotor RPc no qual o DNA ligado est na
forma de fita dupla. Aps, h a formao do complexo aberto RPo onde o DNA
desta regio est parcialmente desenrolado. Em seguida, inicia-se a transcrio
deste complexo (etapa de transcrio absortiva) e aps a insero dos dois
primeiros nt na molcula de RNA transcrita. O trmino da transcrio ocorre quando
encontrada uma sequncia de nt denominada de regio terminadora. Este
processo est ilustrado na Figura 3.6.
Apesar da simplicidade com a qual os livros de Biologia Molecular (LEWIN,
2008; LEHNINGER et al., 2007) descrevem os promotores, percebe-se em trabalhos
experimentais como os de Naryshkin et al (2000), Burgess e Anthony (2001),
Murakami et al. (2002), Toulokhonov e Landick (2006), Borukhov e Nudler (2007),
que a interao entre a enzima e a sequncia promotora um processo complexo,
que envolve a interao de vrios locais da RNAp com a sequncia.
Outros fatores alm das pontes de hidrognios e protenas ligantes regulam o
reconhecimento da sequncia alvo em promotores. Como sugestes iniciais tm-se
10
Figura 3.6: Etapas da iniciao da transcrio de E. coli (LEWIN et al., 2008).
as propriedades fsicas do DNA, tais como susceptibilidade DNaseI,
deformabilidade, estabilidade e curvatura (GOI et al., 2007). Existem diferenas
estruturais entre as regies upstream (onde localiza-se a regio promotora) e
downstream (onde localiza-se a regio codificante) que podem ser consideradas
para melhorar a predio das sequncias promotoras e caracteriz-las. muito
difcil acreditar que apenas os motivos consensuais sejam os responsveis pela
interao RNAp-promotor, j que estes motivos so pequenos e no completamente
conservados. possvel que as sequncias vizinhas a estes motivos tambm
estejam envolvidas neste processo de interao RNAp-promotor (KANHERE e
BANSAL, 2005a; RAMPRAKASH e SCWARZ, 2007).
A importncia destas propriedades para os promotores e para o processo de
transcrio est relacionado com a formao do RPo, que envolve a separao das
fitas de DNA. Esta separao um processo termodinamicamente desfavorvel e
ocorre sem nenhuma ajuda energtica de fonte externa. Aqui, a pouca estabilidade
da sequncia promotora pode auxiliar no incio de separao das fitas. Trabalhos
como os de, Juregui et al. (2003), Kanhere e Bansal (2005a, 2005b) e Ramprakash
e Scwarz (2007) mostram que as regies promotoras so menos estveis que as
regies gnicas. Outra propriedade, como a curvatura, pode ser definida como a
dupla fita curvada em um axis helicoidal. Muitas sequncias, de organismos
eucariotos e procariotos mostram que as regies upstream so mais curvadas que
as regies codificantes (BORUKHOV e NUDLER, 2008). J a deformabilidade,
refere-se ao afrouxamento com o qual a molcula pode realizar uma curva em
alguma direo. Sabe-se que a deformabilidade importante para a ligao de
fatores de transcrio e evidncias experimentais sugerem que a sequncia
promotora se enrola ao redor da RNAp (KANHERE e BANSAL, 2005a, 2005b;
RAMPRAKASH e SCHWARZ, 2007; KOZOBAY-AVRAHAM et al., 2008). Muitos
estudos mostram que a deformabilidade e a curvatura tem papel no mecanismo de
transcrio, entretanto estes mecanismos ainda no so totalmente compreendidos.
Na anlise de promotores, algumas questes permanecem sem respostas com
respeito curvatura do DNA: a curvatura um componente essencial e integral dos
promotores? Ela pode ser usada como caracterstica discriminante entre promotores
e outras sequncias?(PANDEY e KRISHNAMACHARI, 2006).
A flexibilidade da fita de DNA outra caracterstica fsica da sequncia. O
11
trabalho de Thiyagarajan et al. (2006) verificou que na regio consensual dos
promotores de E. coli h dois nt flexveis entre dois no flexveis, sendo esta uma
caracterstica determinante da regio -10 para determinar a fora de expresso de
um determinado promotor, talvez pela influncia de formao do complexo aberto do
promotor.
Apesar destas evidncias em relao estrutura da sequncia promotora,
estas informaes no so amplamente utilizadas na predio e reconhecimento
dos promotores, conforme descrito nas prximas sees, que apresentam os
principais trabalhos referentes anlise de promotores procariticos in silico. A
literatura apresenta muitas abordagens para o reconhecimento e predio de
promotores. Dentre estas pode-se citar: (i) metodologia baseada em sinal, que opera
no reconhecimento de sinais relativamente conservados atravs de alinhamento e
homologia entre promotores previamente identificados; (ii) AM, que usa conjunto de
informaes estruturais e funcionais disponveis sobre as sequncias promotoras
para aprender a reconhec-los automaticamente e produzir hipteses relevantes
sobre estas sequncias. Aqui, encontram-se as metodologias de RNs e Support
Vector Machines (SVM).
A seguir, esto apresentados os principais mtodos computacionais
encontrados na literatura de predio de promotores acompanhados da discusso
das implicaes que tornam este campo de pesquisa ainda latente.
3.2 RECONHECIMENTO BASEADO EM SINAL
A metodologia de reconhecimento de promotores baseado em sinal emprega
principalmente a comparao do contedo de diferentes sequncias promotoras. Os
trabalhos clssicos e alguns mais recentes esto apresentados a seguir.
3.2.1 Matriz de Posies Ponderadas
A metodologia de matriz de posies ponderadas (MPP) consiste em alinhar
um conjunto de sequncias identificadas previamente como promotoras e pesquisar
por regies conservadas em seu contedo. Conforme Hertz e Stormo (1999), as
matrizes de posies ponderadas assumem que cada linha corresponde a um dos
nt e cada coluna a um alinhamento. Os elementos da matriz so os pesos utilizados
para pontuar uma sequncia teste, conforme uma medida que quantifica a aderncia
12
ao modelo. A pontuao dada pela soma dos pesos de cada letra alinhada em
cada posio (Figura 3.7).
A transformao ilustrada na Figura 3.7, foi criada a partir da frmula 3.1:
No exemplo mostrado (Figura 3.7), em (a) est uma tabela de alinhamento
para os 4 hexmeros localizados no topo da figura. Embaixo da matriz est a
sequncia consenso correspondente ao alinhamento (N indica que no h
nucleotdeo preferencial). Aps a aplicao da frmula 3.1, foi gerada a matriz de
pesos (b), derivada da matriz de alinhamento (a). Os nmeros destacados so os
responsveis pela pontuao global da sequncia (Hertz e Stormo, 1999).
Jaques et al. (2006), desenvolveu uma nova abordagem de predio de
promotores com base nas matrizes de representao da distribuio genmica de
hexanucleotdeos. Esta metodologia foi utilizada para dez organismos procariticos
(Tabela 3.3). A sensibilidade das matrizes geradas para cada organismo variou de
29.4% (C. glutamicum) a 90,9% (B. japonicum), conforme mostrado na Tabela 3.3.
Para a matriz gerada para E. coli , a sensibilidade apresentada foi de 42,4%.
Quando os resultados deste trabalho so comparados com a literatura,
percebe-se que a sensibilidade da predio de promotores de E. coli no
melhorada. No entanto, ele demonstra os recentes esforos para ampliar a predio
para outras bactrias e, alm disso, mostra que a distribuio genmica dos
13
Figura 3.7: Exemplo da transformao da matriz de alinhamento para a matriz de posies ponderadas para a sequncia teste AGGTGC.
,ln)1/()(
lni
ij
i p
f
p
Npn iij ++ (3.1)
elementos regulatrios significativamente diferente dos elementos no-
regulatrios.
Tabela 3.3: Resultados obtidos pela metodologia de Jacques et al. (2006)
Organismos Contedo de GC (%) Sensibilidade (%)
E. coli 50,8 42,4B. subtilis 43,5 56,8C. glutamicum 53,8 29,4M. pneumoniae 40,0 43,3M. tuberculosis 65,6 57,1S. coelicolor 72,1 58,8H. pylori 38,9 47,1C. jejuni 30,5 42,9B. japonicum 64,1 90,9S. aureus 32,9 37,5
A MPP foi utilizada, tambm, no software Virtual Footprint (MUNCH et al.,
2005). Esta ferramenta tem o objetivo de reconhecer padres em sequncias de
DNA e est disponvel no site http://prodoric.tu-bs.de/vfp/index2.php (acessado em
29 de julho de 2010). A ideia central do trabalho baseia-se no princpio que os
promotores so mais representados nas regies intergnicas do que no resto do
genoma. O valor de classificao foi calculado na semelhana entre a matriz de
representao da distribuio genmica dos promotores encontrados na literatura e
a matriz de representao da distribuio de provveis promotores.
Uma variao da MPP foi desenvolvida por Li e Lin (2006) que obteve
sensibilidade de 91% e especificidade de 81% usando 683 sequncias
experimentalmente identificadas como promotores de E. coli reconhecidos pelo fator
70. A matriz desenvolvida por eles foi chamada de Matriz de Valores Posio-
Correlao e baseia-se na medida da conservao das sequncias.
Quando compara-se a MPP com o simples alinhamento de sequncias,
percebe-se que a ponderao melhora os resultados obtidos. A importncia e o
pioneirismo deste trabalho so indiscutveis para a anlise dos promotores, j que
existem recentes publicaes que mostram um certo grau de conservao dos
motivos (Cotik et al., 2005; Sivaraman et al., 2005). No entanto, somente a anlise
dos nt da sequncia para a descoberta de novos promotores uma abordagem
limitada, j que: (i) a variao dos nt grande; (ii) assume a independncia entre
bases adjacentes; (iii) no permite a presena de mltiplos elementos dos
14
promotores, inseres, delees ou espao varivel entre os elementos e (iv) o
resultado pode variar de acordo com o mtodo de alinhamento (SONG et al., 2007).
3.3 ANLISE POR APRENDIZADO DE MQUINA
Nesta seo so descritas as metodologias de SVM e RN j que estas so as
metodologias as mais empregadas na predio de promotores e mostram resultados
promissores.
3.3.1 Mquinas de suporte vetorial (Support vector machines)
O algoritmo das Mquinas de Vetor de Suporte ou Mquinas de Suporte
Vetorial foi proposto por Boser et al. (1992) e pode ser utilizado para classificaes
de padres e regresso linear. Basicamente, as SVM so uma mquina linear com
algumas propriedades muito interessantes. No caso das classificaes, a idia
principal construir um hiperplano como superfcie de deciso, de tal forma que a
margem de separao entre exemplos positivos e negativos seja mxima (Figura
3.8). As SVMs podem fornecer um bom desempenho de generalizao em
problemas de classificao de padres, apesar de no incorporarem conhecimento
do domnio do problema e apresentam limitaes com a escolha do kernel (HAYKIN,
1999).
15
Figura 3.8: Treinamento de SVM (RUSSEL e NORVIG, 2003).
Em (a) treinamento de duas dimenses com os exemplos positivos representados pelos crculos pretos e os exemplos negativos pelos crculos brancos. Em (b) o mesmo conjunto de dados aps mapeamento em um espao tridimensional.
Polat e Gnes (2007) usaram uma combinao de seleo de caractersticas
e LSSVM (least square support vector machine), conforme ilustrado na Figura 3.9.
Esta metodologia mostra uma acurcia de 84,6%, sensibilidade de 90% e
especificidade de 80%. Apesar destes ndices serem elevados, ressalta-se que
neste trabalho foram empregadas apenas 57 sequncias promotoras. Este pequeno
nmero no abrange todas as caractersticas do universo de sequncias promotoras
disponveis, que so de aproximadamente 740 para as sequncias reconhecidas
pelo fator 70 de E. coli. Se todo o conjunto disponvel fosse considerado, possvel
que mais de 57 atributos fossem selecionados como caracterizadores das
sequncias e, provavelmente, os valores de desempenho diminuiriam.
Gordon et al. (2003) usaram uma SVM com ncleo de uma funo de
alinhamento. Neste trabalho, foram tomados dois conjuntos de dados: (i) promotores
e regies codificadoras e (ii) promotores e regies intergnicas. A metodologia
empregada por eles mostra uma mdia de erro de 16,5% e de 18,6%,
respectivamente aos conjuntos de dados usados.
A SVM foi tambm utilizada para a predio in silico da TSS e seus
promotores constitutivos associados em E. coli por Gordon et al. (2006). O mtodo
conseguiu uma acurcia de acordo com o estado da arte (erro mdio de 11,6%).
Mais tarde, o mesmo grupo de pesquisa (TOWSEY et al., 2008), usou a SVM
treinada anteriormente em outras sequncias procariticas (B. subtilis e Chlamydia
trachomatis). Os valores de performance (acurcia, preciso, sensibilidade ou
16
Figura 3.9: Fluxograma que ilustra a metodologia desenvolvida pelos autores Polat e Gnes (2007).
especificidade) no so apresentados no trabalho. No entanto, os autores ressaltam
que sua metodologia foi capaz de encontrar outras informaes relevantes alm dos
motivos consensuais -10 e -35, sendo descrito um motivo localizado na regio +15
ao +25.
Para verificar a existncia de alguma correlao entre o grau de conservao
da sequncia promotora e a expresso do seu respectivo gene, Kiryu et al. (2005)
utilizou as SVMs e, como resultado, estes autores no encontraram correlao entre
a sequncia promotora e o nvel de expresso gnica.
3.3.2 Redes Neurais
As RNs so um sistema de AM inspirado no funcionamento de redes neurais
biolgicas. Pode-se afirmar que as RNs aprendem a partir dos exemplos e
apresentam alguma capacidade de generalizao do conjunto de treinamento (WU e
MCLARTY, 2000).
As primeiras aplicaes de RNs na predio de promotores, como
apresentados nos trabalhos de Demeler e Zhou (1991) e ONeill (1991), apesar da
arquitetura simples, obtiveram uma alta acurcia, mas um nmero de falsos
positivos igualmente alto. Outras abordagens foram apresentadas por Mahadevan e
Ghosh (1994) que usaram uma combinao de duas RNs para a identificao de
promotores de E. coli. Todos os promotores deste trabalho tinham espaamento
entre 15-21 nt entre os hexmeros caractersticos. A primeira RN predizia os
hexmeros consensuais, enquanto a segunda foi designada para o reconhecimento
da sequncia inteira (65 nt), sendo o espao entre os hexmeros varivel. Uma vez
usada a informao da sequncia inteira ocorreu dependncias entre as bases em
vrias posies. Isto refletiu em um treinamento pobre e uma predio realizada por
duas redes sem neurnios na camada oculta.
Pedersen e Engelbrecht (1995) predisseram a TSS e identificaram novos
sinais caractersticos correlacionados com o local de incio da transcrio. Para isso,
foram usados dois diferentes esquemas de codificao, um com janelas 1 at 51 nt
e outro com uma janela de 65 nt. Uma ideia interessante, neste trabalho, foi a
medida do contedo de informao relativa dos dados de entrada, pelo uso da
habilidade da RN para aprender corretamente, como avaliado pelo coeficiente de
correlao do teste mximo.
17
Uma ferramenta disponvel na internet e baseada em RNs o Neural
Networks Promoter Prediction (NNPP). Burden et al. (2005) incorporou rede a
informao sobre a distncia entre o stio de incio de transcrio (TSS) e o stio de
incio da traduo TLS (primeiro nucleotdeo da regio codificadora). Com um
conjunto de dados de 771 promotores, eles conseguiram uma preciso de 54% e
uma sensibilidade de 86%.
Askary et al. (2009) descrevem uma arquitetura de RN chamada de N4, capaz
de predizer a TSS de promotores de E. coli reconhecidos pelo fator 70. A
sensibilidade e a preciso da rede foram superiores a 94%. Esta rede neural
recebeu os valores de estabilidade das sequncias convertidos em codificao
ortogonal (Figura 3.10). Assim, a camada de entrada possuiu 6608 neurnios (413
grupos x 16 combinaes de valores de estabilidade). Esta rede possuiu duas
camadas de neurnios ocultos, totalizando 402 neurnios e um neurnio na camada
de sada. Apesar da complexidade da arquitetura apresentada (o que torna a rede
computacionalmente pesada), este trabalho mostra o potencial de utilizao dos
valores de estabilidade das sequncias como parmetro de classificao.
Utilizando a informao da quantidade de dinucleotdeos da sequncia
promotora, Rani et al. (2006) treinaram uma RN. Neste trabalho foram utilizados
promotores 70 de E. coli como exemplos positivos e quatro conjuntos diferentes de
exemplos negativos: (i) sequncias codificantes, (ii) sequncias codificantes e
intergnicas, (iii) sequncias aleatrias com 60% de AT e (iv) sequncias aleatrias
com 50% de AT. Os resultados de especificidade e sensibilidade obtidos esto
18
Figura 3.10: Codificao ortogonal para os valores de estabilidade, empregado por Askary et al. (2009).
apresentados na tabela 3.4.
Tabela 3.4: Resultados obtidos pelo trabalho de Rani et al. (2006)
Conjunto de dados Sensibilidade Especificidade
Promotores + sequncias codificantes 80% 79%Promotores + sequncias codificantes e intergnicas 63% 88%Promotores + sequncias aleatrias com 60% de AT 93% 88%Promotores + sequncias aleatrias com 50% de AT 95% 99%
Estes valores podem ser explicados pela quantidade grande de dinucleotdeos
AT nos promotores reconhecidos pelo 70, conforme os resultados mostrados no
captulo II dos resultados desta tese. Quando esta metodologia for aplicada em
sequncias reconhecidas por outros fatores , que possuem contedo AT mais
baixo, estes mesmos valores podem no ser alcanados.
A vantagem das RNs em relao a outras tcnicas de AM que elas podem
aprender a reconhecer padres degenerados, imprecisos e incompletos, os quais
so caractersticos dos promotores. Alm disso, permitem rpido desempenho em
grandes sequncias genmicas (COTIK et al., 2005). Como desvantagem, pode-se
citar a subjetividade da escolha dos parmetros e da arquitetura da rede, uma vez
que h falta de recomendaes tericas sobre estes e tambm sobre o tamanho do
conjunto de treinamento.
3.4 METODOLOGIA UTILIZANDO A VALORES DE ESTABILIDADE
Kanhere e Bansal (2005b) desenvolveram uma metodologia baseada nas
diferenas de estabilidade (G) entre as regies promotoras e codificantes (Figura
3.11). Esta ferramenta foi modificada e melhorada por Rangannan e Bansal (2007).
Eles calcularam a energia livre (estabilidade) entre duas regies do genoma de um
organismo, conforme as equaes (3.2), (3.3), (3.4) e (3.5). Os resultados obtidos
por eles mostram que a estabilidade uma medida melhor que os motivos
conservados para diferenciar regies promotoras e no-promotoras.
onde,
19
D n=E1nE2n (3.2)
50
)('1
49
+
=
n
n
G
nE
onde, n o nucleotdeo da sequncia promotora.
Assim, E1(n) e E2(n) representam a mdia de energia livre em uma janela de
100 nt comeando de n com uma vizinhana de 100 nt. E1(n) representa a mdia
de energia livre em uma regio de 50 nt. E1 usado no lugar de E1 no ciclo de
refinamento dos falsos negativos. O valor de D representa a diferena de energia
livre em duas regies vizinhas. Uma sequncia de DNA designada como portadora
de um promotor somente se a mdia da energia livre da regio de 100 nt (E1) e a
diferena (D) na energia livre forem maiores que o E-cutoff e D-cutoff escolhido,
respectivamente. A metodologia desenvolvida pelos autores para a anlise e
predio de promotores est esquematizada na Figura 3.11.
Esta metodologia consegue uma sensibilidade de 98%, mas uma preciso de
55% (nmero de verdadeiros positivos/(nmero de verdadeiros positivos + nmero
de falsos positivos)). Uma desvantagem desta metodologia que ela se aplica
somente em grandes sequncias (do nucleotdeo -150 at o nucleotdeo +50) e
foram analisadas 251 sequncias, o que representa aproximadamente um tero do
total das sequncias disponveis para 70 da E.coli.
20
100
)(1
99
+
=
n
n
G
nE
(3.3)
(3.5)
100
)(2
119
99
+
+
=
n
n
G
nE(3.4)
21
Figura 3.11: Fluxograma da metodologia descrita por Rangannan e Bansal (2007).
3.5 FUNDAMENTOS DE REDES NEURAIS ARTIFICIAIS
Conforme Baldi e Brunak (2001), as RNs foram originalmente desenvolvidas
com o objetivo de modelar o processamento de informao e aprendizagem do
crebro. Trata-se de um modelo computacional aplicvel a uma ampla variedade de
reas, como Engenharia, Economia e Biologia. Nesta ltima, principalmente em
problemas de anlise de sequncias e reconhecimento de padres. Nas demais
reas, por exemplo, as RNs podem ser aplicadas na sntese e reconhecimento de
fala, interface adaptativa entre humanos e sistemas fsicos complexos, aproximao
de funes, entre outros.
Esta seo apresenta conceitos fundamentais sobre as RNs que auxiliam na
compreenso da metodologia empregada e possibilitam uma melhor discusso dos
resultados obtidos.
3.5.1 Arquitetura das Redes Neurais
As RNs, conforme Wu e McLarty (2000), consistem de grupos ou camadas
(layers) de unidades de processamento com (ou algumas vezes sem) conexes
entre os grupos. A unidade bsica de uma camada um neurnio artificial. Estas
unidades, como os neurnios reais, tm conexes de entrada (dendritos) e
conexes de sada (axnios). Tambm como neurnios reais, as unidades da rede
neural tambm tm alguma forma de processamento interno, que cria um sinal de
sada como uma funo do sinal de entrada. Entretanto, diferentemente dos
neurnios reais, o neurnio artificial tem como sada um nmero e apresenta
mudanas somente em um intervalo discreto de tempo, conforme ilustrado na
Figura 3.12.
22
Figura 3.12: Analogia entre neurnios biolgicos e artificiais. (WU e MCLARTY, 2000).
Uma RN caracterizada pelo (i) padro de conexes entre os neurnios
(chamado de arquitetura), (ii) mtodo de determinao de pesos nas conexes
(chamado de treinamento ou aprendizagem) e (iii) sua funo de ativao. Esses
parmetros esto descritos ao longo desta e das prximas sees.
Os neurnios (Figura 3.13) so conectados por vnculos orientados. Assim,
pode-se representar uma RN como um grafo direcionado com peso ou arquitetura
(MOUNT, 2000). Um vnculo da unidade j para a unidade i serve para propagar a
ativao aj desde j at i. Cada vnculo tambm tem um peso numrico Wji associado
a ele, o qual determina a intensidade e o sinal da conexo. Especificamente, um
sinal aj na entrada da sinapse i conectada ao neurnio j multiplicada pelo peso
sinptico Wji (HAYKIN, 1999; RUSSEL e NORVIG, 2003).
Aps, cada unidade i calcula inicialmente uma soma ponderada de suas
entradas:
Ento ela aplica uma funo de ativao g a essa soma para derivar a sada:
importante ressaltar que h a incluso de parmetro externo do neurnio
23
Figura 3.13: Modelo de um neurnio artificial (RUSSELL e NORVIG, 2003).
A ativao da sada da unidade ai =
onde aj ativao de sada da unidade j e W
ji o peso no vnculo da unidade j at essa unidade.
)(0
=n
jjji aWg
=
=n
j
jjii aWin
0
. (3.6)
.)(
0
==
=
n
j
jjiii aWginga(3.7)
artificial, um bias W0i (Figura 3.12) conectado a uma entrada fixa a0= -1. O termo W0i
define o limite real para a unidade, no sentido de que a unidade ativada quando a
soma ponderada de entradas reais excede W0i. A funo de
ativao g projetada para atender duas aspiraes: primeiro, a unidade de estar
ativa (prxima de +1) quando as entradas positivas forem recebidas e negativas
(prxima a 0) quando as entradas erradas forem recebidas. Em segundo lugar, a
ativao precisa ser no-linear, caso contrrio a RN inteira entrar em colapso,
tornando-se uma funo linear simples (HAYKIN, 1999; RUSSEL e NORVIG, 2003).
Uma arquitetura com melhor capacidade de generalizao constitui-se de
redes com mltiplas camadas, chamadas de Multilayer Perceptron (MLP), sendo o
caso mais comum aquelas que envolvem uma nica camada oculta, conforme
ilustrado na Figura 3.14. Segundo Hornik (1989), as RNs com uma nica camada
oculta so aproximadores universais, pois aproximam qualquer funo com preciso
arbitrria. A funo dos neurnios ocultos intervir entre a entrada externa e a sada
de maneira til. A vantagem de adicionar camadas ocultas que ela aumenta o
espao de hipteses que a rede pode representar e, assim, capaz de extrair
estatsticas de ordem elevada. Isto particularmente valioso quando o tamanho da
camada de entrada grande.
Redes com muitas camadas ocultas so menos eficientes pois requerem
maior tempo de computao e apresentam menor capacidade de generalizao
quando comparadas s redes com uma camada oculta. Alm disso, a extrao das
regras da rede se torna mais difcil.
24
Figura 3.14: Rede MLP com trs camadas (RUSSELL e NORVIG, 2003).
=n
jjji aW
1
3.5.2 Treinamento de Redes Neurais
Segundo Wu e McLarty (2000) a ideia fundamental do aprendizado ou
treinamento, para todas as arquiteturas de RN, atribuir valores a um conjunto de
pesos (inicializado normalmente de forma aleatria), aplicar os dados de entrada
rede e verificar como esta responde a determinados conjuntos de pesos. Se o
desempenho no for satisfatrio, ento os pesos devem ser modificados pelo
algoritmo especfico da arquitetura e repetir o procedimento. Este procedimento
deve ser repetido at que algum critrio de parada pr-especificado seja atingido.
A passagem de todos os vetores dos dados de entrada atravs da rede
chamado de poca. Alteraes nos pesos podem ser feitas a cada padro
processado (treinamento on-line) ou aps uma poca inteira (treinamento em lote),
sendo esta ltima o procedimento mais utilizado. O objetivo do treinamento
encontrar o conjunto de parmetros (nmero de camadas, nmero de neurnios nas
camadas e pesos entre as camadas) que minimize a diferena entre os valores de
sada da rede e os valores desejados. No entanto, se a rede tiver uma arquitetura
com muitas camadas ocultas ou for treinada por muitas pocas (a quantidade de
pocas neste caso varia de acordo com os dados a rede envolvida), ela ser capaz
de memorizar todos os exemplos. Isto chamado de overtraining, j que a rede
forma uma extensa tabela de busca mas no realiza boas generalizaes para
entradas que no foram vistas antes.
Uma das maneiras de testar a exatido da rede tentar vrias arquiteturas e,
com a tcnica de validao cruzada, verificar qual apresenta os melhores resultados.
A tcnica de validao cruzada, ou k-fold-cross-validation (k-FCV), consiste em
particionar aleatoriamente o arquivo de padres em k partes de mesmo tamanho.
Assim, ocorre a gerao dos arquivos para treinamento e validao. As etapas de
treinamento e validao so repetidas k vezes, sendo utilizados para treinamento
k-1 arquivos e para validao o k-simo arquivo no utilizado no treinamento. A cada
iterao, o arquivo de validao possui um k diferente.
Outros mtodos de validao que podem ser citados so: holdout e jackknife.
O mtodo holdout consiste em separar, de forma aleatria, o arquivo de padres em
dois arquivos. O de treinamento tipicamente conter dois teros dos dados e o de
validao o um tero restante. J o mtodo jackknife, conhecido com leave-one-out,
semelhante ao k-FCV, mas k igual ao nmero de linhas do arquivo de padres.
25
Com isto, cada arquivo de validao conter somente uma linha em cada etapa do
processo.
O procedimento utilizado para realizar o processo de aprendizagem
chamado algoritmo de aprendizagem, e sua funo modificar os pesos sinpticos
de forma a alcanar o objetivo desejado. Os algoritmos de aprendizado podem ser
supervisionados ou no-supervisionados, embora aspectos de cada um possam co-
existir em uma dada arquitetura. O treinamento supervisionado acompanhado pela
apresentao de uma sequncia no vetor de treinamento associada com um vetor
de sada alvo. Um ingrediente essencial neste tipo de aprendizado a
disponibilidade de um professor externo. Em termos conceituais, podemos pensar
que o professor tem o conhecimento da sada desejada. O conhecimento disponvel
pelo professor ento transferido RN atravs de ajustes iterativos para minimizar
o erro de acordo com o algoritmo de aprendizado (WU, 1997). Como exemplo, os
algoritmos: Back-propagation (BP), Resilient Proapagation, Cascade Correlation,
Kohonen e Quickprop. A principal diferena entre eles est, principalmente, no modo
como os pesos da rede so ajustados.
Um algoritmo de aprendizado supervisionado tem o objetivo de minimizar a
diferena entre o valor de sada da rede e o valor desejado. Uma tpica funo de
erro a ser minimizada :
onde n o nmero de padres de entrada, yi a sada da rede (para um dado
conjunto de parmetros w) e hw(x) o valores esperado de sada. Se uma rede possui
mais que uma unidade na camada de sada, ento a equao 3.8 se torna:
onde k o nmero de unidades na camada de sada (WU e McLARTY, 2000).
O treinamento no-supervisionado ou aprendizado auto-organizvel no
possui um professor externo para verificar o processo de aprendizado. O algoritmo
normalmente guiado pela medida de similaridade sem um vetor alvo de
26
( )( )2
1
=
=n
i
wi xhyE (3.8)
( )( )2
1 1
= =
=n
i
wi
k
j
xhyE (3.9)
especificao. As redes auto-organizveis modificam os pesos at que os vetores
mais similares sejam designados ao mesmo grupo de sada (clusterizao), o qual
representado por um vetor-exemplo. Como exemplo de algoritmo de aprendizado
no-supervisionado, pode-se ser citados os mapas auto-organizveis de Kohonen e
a teoria da ressonncia adaptativa (ART) (WU, 1997).
Rumelhart et al. (1986) criaram um mtodo intuitivo que aprende rapidamente,
revolucionando o campo das RNs. O mtodo foi chamado de BP porque o erro
propagado da sada para a entrada da rede, ou seja, a propagao do erro pode ser
efetuada da camada de sada para a camada oculta e desta para a camada de
entrada. O erro nas camadas ocultas parece misterioso, porque os dados de
treinamento no informam que valor os neurnios ocultos devem ter. O processo de
propagao de retorno emerge diretamente de uma derivao do gradiente de erro
global e da aplicao da regra da cadeia (WU e McLARTY, 2000; RUSSELL e
NORVIG, 2003).
Uma RN multicamadas tem trs caractersticas distintas:
1. O modelo de cada neurnio da rede inclui uma funo de ativao no-
linear, como a funo logstica.
2. A rede contm uma ou mais camadas de neurnios ocultos, que no so
parte da entrada ou da sada da rede. Estes neurnios capacitam a rede a aprender
tarefas complexas extraindo progressivamente as caractersticas mais significativas
dos vetores de entrada.
3. A rede exibe um alto grau de conectividade, determinado pelas sinapses da
rede.
Estas caractersticas conferem o poder computacional da MLP, mas tambm
so responsveis pelas deficincias na compreenso do comportamento da rede
(HAYKIN, 1999).
3.6 EXTRAO DE REGRAS
A metodologia de RNs possui uma grande aplicabilidade nos mais diversos
problemas, mas uma de suas desvantagens que o conhecimento adquirido por
elas no diretamente acessvel. Com objetivo de diminuir esta dificuldade, muitos
algoritmos para extrao de regras a partir das RNs treinadas tm sido
27
desenvolvidos. Assim, as redes tornam-se mais atrativas que outras tcnicas de AM
j que fornecem uma explicao de como cada deciso feita (ODAJIMA et al.,
2007).
3.6.1 Extrao de Regras a Partir de Redes Neurais
Uma das caractersticas mais atrativas das RNs que elas no requerem um
conhecimento prvio da aplicao do problema para a construo do modelo. Assim,
para tornar esta metodologia realmente compreensvel ao usurio, desejvel
extrair conhecimento a partir de redes treinadas (WU e MCLARTY, 2000). Muitas
vezes, as RNs so denominadas de caixa preta, em particular por no fornecer ao
usurio nenhuma informao sobre o conhecimento adquirido. Embora isto
geralmente seja verdadeiro, especialmente para redes multicamadas, existem
mtodos para analisar RNs e extrair regras ou caractersticas. Estas regras incluem:
regras de inferncia (if-then-else), rvores de deciso, regras difusas, entre outras.
Conforme Andrews et al. (1995), a extrao de regras pode oferecer alguns
benefcios listados a seguir:
- descoberta de novos relacionamentos e/ou caractersticas importantes a
partir das regras extradas;
- expresso do conhecimento de modo formal;
- capacidade de gerar explicaes para as decises tomadas internamente
pela RN, de modo que facilite a aceitao do uso da rede pelos usurios;
- integrao com sistemas simblicos e a possibilidade de descobrir em que
situaes a rede pode cometer erros de generalizao;
- identificao de regies no espao de entrada que no se fizeram
representar no conjunto de treinamento.
Alm disso, as regras extradas a partir das RNs podem ser apresentadas
para anlise de um especialista. Assim, as regras corretas podem ser usadas para
gerar padres de treinamento adequados, os quais podem melhorar a capacidade
de generalizao (CLOETE e ZURADA, 2000). Uma vez que este trabalho visa
extrair regras a partir de RNs, a prxima seo descreve brevemente alguns tipos de
regras, com nfase maior s regras do tipo if-then.
28
3.6.2 Tipos de regras
A extrao de regras a partir de RNs baseada no comportamento dos
neurnios, sendo a relao entre as entradas e as sadas usualmente analisada
(CLOETE e ZURADA, 2000; HUANG e XING, 2005). Conforme Andrews et al.
(1995), h muitos tipos de regras que podem ser extrados das RNs, mas o
desenvolvimento de tcnicas de extrao de regras tem sido mais direcionado
apresentao da sada como um conjunto de regras expressas, usando a forma
convencional de lgica simblica na forma if...then...else....
Neste tipo de regra, a parte SE especifica um conjunto de condies sobre
valores de atributos previsores e a parte ENTO especifica um valor previsto para o
atributo de sada. Os atributos previsores so as premissas da regra que devem ser
obedecidas, para assim obter um atributo classe.
IF < condio> THEN ()
A condio , tipicamente, uma expresso lgica que contm variveis
relevantes das quais os valores podem ser inferidos a partir das bases de fatos ou
fornecidos pelo usurio. A concluso determina o valor de alguma varivel que
corresponde a condio ser satisfeita. O grau de certeza ou validade da regra
expressa pelo seu percentual de confiana (CLOETE e ZURADA, 2000). A extrao
de regras realizada atravs da interpretao dos pesos da rede neural.
As regras do tipo if-then podem ser utilizadas posteriormente em um sistema
de inferncia lgica para a resoluo de problemas. Um segundo uso destas regras
pode ser a gerao de regras para um sistema baseado em conhecimento. Deve-se
observar, tambm, que quanto mais curtas as regras (em termos de nmeros de
clusulas) melhor, pois regras curtas geralmente podem ser aplicadas a mais
situaes (CLOETE e ZURADA, 2000).
3.6.3 Regras obtidas a partir dos neurnios da camada oculta
Para a obteno de regras a partir dos neurnios da camada oculta da RN
treinada, o programa denominado FAGNIS (CECHIN, 1998), analisa o valor de
ativao dos neurnios na camada oculta e os classifica em trs regies, conforme
ilustrado na Figura 3.15. Aqui, encontra-se uma breve explicao desta ferramenta.
Uma descrio mais detalhada pode ser encontrada no captulo II dos resultados
desta tese.
29
A ferramenta FAGNIS, verifica em qual das regies a ativao dos neurnios
ocultos se enquadram para cada entrada da rede, O nmero mximo de
combinaes possveis 3n, onde n simboliza o nmero de neurnios na camada
oculta. No entanto, nem todas estas combinaes ocorrem e, somente as
combinaes mais frequentes so consideradas, pois melhor representam os dados.
Como resultado, temos o prottipo da regra, o qual definido como a mdia das
entradas de cada grupo (combinao das regies). Assim, a escrita formal da regra
possui a forma de uma equao linear: SE X prottipo ENTO Y = constante da
equao linear + (os coeficientes da equao linear) * X. Aqui, X o exemplo de
entrada; Y corresponde sada da RN e os coeficientes da equao linear
representam a influncia dos exemplos na sada da RN.
3.7 CONSIDERAES ADICIONAIS
Os promotores so importantes reguladores da expresso gnica e, a reviso
bibliogrfica sobre o estado da arte mostrou os esforos realizados para melhorar a
acurcia da predio e a importncia de estender o estudo para outras espcies
bacterianas alm de E. coli. Nesta seo no h descrio de trabalhos relacionados
com a extrao de regras a partir de RNs aplicadas predio de promotores, pois
no foi encontrado nenhum artigo at o trmino da reviso bibliogrfica. Este
trabalho pretende extrair regras de inferncia das RNs treinadas para compreender
o processo de classificao e, a partir das regras criar uma ferramenta prpria para
a predio de promotores de bactrias Gram-negativas.
30
Figura 3.15: Ilustrao das trs regies definidas na funo sigmide para anlise dos dados de entrada e extrao de regras.
4 METODOLOGIA
Nesta seo, uma viso geral da metodologia desenvolvida descrita. Para
facilitar a compreenso dos procedimentos realizados, apresenta-se um fluxograma
(Figura 4.1) com todas as etapas da metodologia. A descrio das etapas
apresentadas na Figura 4.1 so descritas nos captulos I IV dos resultados.
4.1 ORGANISMOS ESTUDADOS
Os organismos escolhidos foram as bactrias E. coli, as do gnero Shigella,
Pseudomonas, Salmonella e Aeromonas. Assim, abrange-se uma ampla variedade
de representantes das bactrias Gram-negativas. Salienta-se que neste estudo, as
bactrias Gram-positivas no foram consideradas por apresentarem diferentes
caractersticas em relao s Gram-negativas, no que diz respeito composio
qumica, estrutura e permeabilidade da parede celular, alm de diferenas
fisiolgicas, de metabolismo e patogenicidade.
31
4.2 BANCOS DE DADOS
As regies promotoras, as regies intergnicas e os dados relacionados s
caractersticas dos promotores foram retirados de bancos de dados biolgicos e de
artigos cientficos. Os bancos de dados pblicos utilizados foram:
32
Figura 4.1: Estrutura da metodologia proposta para o uso de RN no reconhecimento e predio de promotores.
- CMR: banco de dados de genomas procariticos (PETERSON et al., 2001).
Nele se encontram dados de genomas completos, de regies especficas (genes,
promotores, regies intergnicas, homologias), entre outras ferramentas. As
informaes esto disponveis no endereo de internet: http://cmr.jcvi.org/cgi-
bin/CMR/CmrHomePage.cgi
- NCBI: maior base de dados pblica de sequncias genticas. Desta podem-
se extrair sequncias de genes, protenas, genomas completos, dados de homologia
e expresso gnica, alm de possuir informaes sobre os artigos relacionados a
cada descoberta gentica (WHEELER et al., 2008). As informaes esto
disponveis no endereo de internet: http://www.ncbi.nlm.nih.gov.
- RegulonDB: base de dados que contm informaes acuradas sobre a rede
regulatria de E. coli com conhecimento experimental. H dados sobre a
organizao de operons, promotores e seu fator sigma associado, entre outros
(GAMA-CASTRO et al., 2008). As informaes esto disponveis no endereo de
internet: http://regulondb.ccg.unam.mx/index.html.
4.3 FERRAMENTAS
As principais ferramentas computacionais utilizadas foram:
- Python: linguagem de programao escolhida para desenvolver programas
que automatizem a preparao de dados para as etapas de treinamento e teste
(PYTHON SOFTWARE FOUNDATION, 2009).
- R: software para manipulao e anlise de dados. Este software permite a
realizao de anlise estatstica, treinamento de RNs, extrao de regras, entre
outras funes (R DEVELOPMENT CORE TEAM, 2005).
- SPSS: software para anlise estatstica. Permite a realizao de grficos e
outras funes (SPSS).
- Tisean: software de domnio pblico que realiza a suavizao de dados
atravs de um filtro passa-baixa LowPass (HEGGER et al., 1999).
- WEBLOGO: aplicao da web (de uso livre) para a gerao de sequencias
logo. Estas so uma representao grfica de aminocidos ou cidos nucleicos de
mltiplos alinhamentos. Cada logo consiste em empilhamento dos smbolos, um
para cada posio da sequncia. O tamanho geral dos empilhamentos indica o grau
33
de conservao da sequncia em determinada posio, enquanto que o tamanho do
smbolo indica a frequncia relativa do aminocido ou nucleotdeo em cada posio
(CROOKS et al., 2004).
4.4 CRIAO DE BANCO DE DADOS DE REGIES INTERGNICAS
A criao do banco de dados se faz necessria uma vez que no existem
repositrios pblicos de dados sobre os promotores pertencentes a outras bactrias
Gram-negativas que no E. coli. Assim, desta necessidade, implantamos uma base
de dados com as regies intergnicas. Esta base dados arquiva as sequncias
intergnicas e outras informaes associadas, como porcentagem de GC, genes
associados, tamanho, localizao na fita de DNA, entre outras informaes. Esta
base de dados foi desenvolvida em conjunto com professores e alunos do Centro de
Computao e Tecnologia da Informao e est descrita no captulo IV.
34
5 RESULTADOS
Esta seo apresenta os resultados obtidos na forma de artigos cientficos,
sendo organizada em cinco captulos, nos quais so apresentados:
Captulo I- Rules extraction from neural networks applied to prediction and
recognition of prokaryotic promoters.
Captulo II - BacPP: Bacterial promoter prediction - A tool for accurate
sigma-factor specific assignment in enterobacteria.
Captulo III- Neural Networks applied to bacterial promoter prediction based
on DNA stability.
Captulo IV- Banco de dados IntergenicDB.
35
5.1 CAPTULO I - RULES EXTRACTION FROM NEURAL
NETWORKS APPLIED TO PREDICTION AND RECOGNITION OF
PROKARYOTIC PROMOTERS
Este captulo apresenta o artigo Rules extraction from neural networks
applied to the prediction and recognition of prokaryotic promoters, publicado na
revista Genetics and Molecular Biology. Esta revista possui fator de impacto 0,08
(para os ltimos 3 anos, conforme informao disponvel no web site da revista
http://statbiblio.scielo.org//stat_biblio/index.php?
state=19&lang=en&country=scl&issn=1415-
4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011) e
classificada pela CAPES como B1 na rea de avaliao Interdisciplinar. O trabalho
pode ser acessado on-line pelo doi dx.doi.org/10.1590/S1415-47572011000200031.
Este artigo descreve os resultados das simulaes de RNs utilizando a codificao
ortogonal e os valores de estabilidade e mostra as regras extradas de cada
arquitetura.
36
http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011
Rules extraction from neural networks applied to the prediction
and recognition of prokaryotic promoters
Scheila de Avila e Silva, Gnther J.L. Gerhardt and Sergio Echeverrigaray
Programa de Ps-Graduao em Biotecnologia, Universidade de Caxias do Sul, Caxias do Sul, RS, Brazil.
Abstract
Promoters are DNA sequences located upstream of the gene region and play a central role in gene expression.
Computational techniques show good accuracy in gene prediction but are less successful in predicting promoters,
primarily because of the high number of false positives that reflect characteristics of the promoter sequences. Many
machine learning methods have been used to address this issue. Neural Networks (NN) have been successfully
used in this field because of their ability to recognize imprecise and incomplete patterns characteristic of promoter
sequences. In this paper, NN was used to predict and recognize promoter sequences in two data sets: (i) one based
on nucleotide sequence information and (ii) another based on stability sequence information. The accuracy was ap-
proximately 80% for simulation (i) and 68% for simulation (ii). In the rules extracted, biological consensus motifs were
important parts of the NN learning process in both simulations.
Key words: neural network, promoter, rule extraction.
Received: March 26, 2010; Accepted: January 11, 2011.
Introduction
The determination of how and when genes are turned
on and off is a challenge in the post-genomic era. Differ-
ences between two species are often more related to gene
expression and regulation than to their structures (Howard
and Benson, 2002). An adequate comprehension of the
complex metabolic networks present in various organisms,
including cellular differentiation and cellular responses to
environmental change, can be facilitated by studying of
promoter sequences, i.e., short sequences located before the
transcription start site (TSS) of a gene (Juregui et al.,
2003; Pandey and Krishnamachari, 2006).
Promoters act as gene expression regulators through
their ability to interact with the enzyme RNA polymerase,
thereby initiating transcription. The factor moiety of the
RNA polymerase, of which there are several types, are in-
volved in the recognition and primary interaction with the
promoters. Various bacterial factors interact with differ-
ent promoter sequences that are characterized by particular
consensus motifs and properties. Most prokaryotic promot-
ers have two consensus hexameric (six nucleotides) motifs:
one centered at position -35 and another centered at posi-
tion -10 relative to the TSS. For factor 70, the pattern se-
quences for these motifs are TTGACA and TATAAT for
positions -35 and -10, respectively, and are separated by
~17 non-conserved nucleotides (Lewin, 2008).
As an analogy, the downstream sequences (genes)
represent the computer memory while the upstream se-
quences (promoters) represent the computer program
that acts on this memory. The study of promoters can pro-
vide new models for developing computer programs and
for explaining how they operate (Howard and Benson,
2002). Despite the importance of promoters in gene expres-
sion, the shortness of their sequences, many of which are
not highly conserved, makes them difficult to detect when
compared to genes sequences. This characteristic limits the
accuracy of in silico methods because many nucleotide al-
terations may not be significant in terms of promoter func-
tionality (Howard and Benson, 2002; Burden et al., 2005;
Kanhere and Bansal, 2005b).
There are many machine learning approaches for pro-
moter recognition and prediction, including Hidden Mar-
kov Models HMM (Pedersen et al., 1996), Support
Vector Machines SVM (Gordon et al., 2003) and Neural
Networks NN. The earliest NN used for promoter predic-
tion had a simple architecture (Demeler and Zhou, 1991;
ONeill, 1991). In these papers, the prediction had good ac-
curacy but the number of false positives was high. Maha-
devan and Ghosh (1994) used two NN: one to predict
motifs and another to recognize the complete sequence.
The Neural Networks Promoter Prediction (NNPP) pro-
gram was implemented by Oppon (2000) and improved by
Burden et al. (2005), who included information about the
Genetics and Molecular Biology, 34, 2, 353-360 (2011)
Copyright 2011, Sociedade Brasileira de Gentica. Printed in Brazil
www.sbg.org.br
Send correspondence to Scheila de Avila e Silva. Instituto de Bio-
tecnologia, Universidade de Caxias do Sul, Rua Francisco Getlio
Vargas 1130, 95070-560 Caxias do Sul, RS, Brazil. E-mail:
scheila.as@gmail.com.
Research Article
distance between TSS and the first nucleotide translated,
thereby decreasing the number of false positives.
Apart from consensus motifs, promoters have certain
physical features, such as stability, curvature and benda-
bility, that make them different from gene sequences, i.e.,
they are less stable, more curved and more bendable (Ka-
nhere and Bansal, 2005a). The latter authors subsequently
used promoter stability information to develop a procedure
that recognizes promoters in whole sequences (Kanhere
and Bansal, 2005b). However, despite the importance of
these physical features, they have not been widely used in
NN promoter prediction.
Neural networks are suitable for promoter prediction
and recognition because of their ability to identify degener-
ated, imprecise and incomplete patterns present in these se-
quences. In addition, NNs perform well when processing
large genome sequences (Kalate et al., 2003; Cotik et al.,
2005). A further feature is that there is no need for prior
knowledge when building a suitable model. An important
procedure in NN methods is rule extraction from trained
networks that can assist the user in identifying biological
rules from the input data (Andrews et al., 1995). In this pa-
per, we describe the use of a NN to predict and recognize
prokaryotic promoters by comparing two data sets: (i) nu-
cleotide sequence information and (ii) stability sequence
information of E. coli promoters, regardless of the factor
that recognizes the sequence.
Material and Methods
The promoter sequences used were obtained from the
January 2006 version of the RegulonDB database (Gama-
Castro et al., 2008). Nine hundred and forty promoters and
940 random sequences were used to train and test the NN.
The promoters and sequences represented positive and neg-
ative examples, respectively. The random sequences were
generated with a probability of 0.22 for guanine (G) or cy-
tosine (C) nucleotides and 0.28 for adenine (A) or thymine
(T) nucleotides, based on the distribution of these nucleo-
tides in real promoter sequences (Kanhere and Bansal,
2005a). The examples were shuffled and allocated to one of
ten files in order to generate the train and test set. Two sim-
ulations were done, one based on nucleotide sequences and
the other on stability information. The procedures are de-
scribed below.
Simulation based on nucleotide sequences
In the simulation using nucleotide sequences (re-
ferred to as the sequence-based simulation) the promoters
and random sequences were initially aligned with the soft-
ware ClustalW (Thompson et al., 1994) to accommodate
the variable sequence length between the motifs. Without
this initial alignment, the NN does not provide good accu-
racy. The alignment introduced gaps in the sequences, rep-
resented by a short line (-). The gaps were inserted where
necessary (at the beginning, middle or end of a sequence)
(Figure 1). The short line (-) was removed from the begin-
ning and end of the sequence to avoid incorrect learning by
the NN. Consequently, the resulting promoter sequences
contained 72 nucleotides. After alignment, the nucleotides
and gaps were encoded using a set of four binary digits as
described by Demeler and Zhou (1991): A = 0100,
T = 1000, C = 0001, G = 0010 and - = 0000.
The architecture used to classify the sequences had
288 input neurons (72 bp x four digits for each nucleotide),
two neurons in the hidden layer and one neuron in the out-
put layer (Figure 2a). The presence of a large number of
neurons in the hidden layer or in the output layer did not in-
crease the accuracy of the procedure.
Simulation using promoter sequence stability
The stability of DNA molecules can be expressed in
terms of their free energy (G), which in turn depends on
the mononucleotide and dinucleotide composition (San-
taLucia and Hicks, 2004). The stability of a DNA duplex
can be predicted from its sequence based on the contribu-
tion of each nearest-neighbor interaction (SantaLucia and
Hicks, 2004; Kanhere and Bansal, 2005a). The contribution
of each dinucleotide is described in SantaLucia and Hicks
(2004).
To do the simulation using the free energy informa-
tion, denoted as the stability-based simulation, G was cal-
culated using the following formula, described in SantaLu-
cia and Hicks (2004) and Kanhere and Bansal (2005a):
G0 = Gij (1)
where G0ij is the standard free energy change for
dinucleotides of type ij. The original formula described in
Kanhere and Bansal (2005a) was modified to adjust its ade-
quacy to the goals of this paper. The best architecture ob-
354 Avila-Silva et al.
Figure 1 - Examples of promoter sequences aligned by ClustalW software.
tained to classify the sequences had 81 neurons in the input
layer, four hidden neurons and one output neuron (Figu-
re 2b).
Training and analysis procedures
Both simulations were done in the R Environment (R
Development Core Team, 2005). The algorithm back-pro-
pagation (BP) was chosen because it is the most popular al-
gorithm for training feedfoward networks (Kalate et al.,
2003). NNs based on the BP training algorithm have been
successfully used for various applications in biology in-
volving non-linear input-output modeling and classifica-
tion (Mahadevan and Gosh, 1994; Kalate et al., 2003;
Burden et al., 2005). The ten-fold cross-validation method
was used to obtain statistically valid results. The k-fold
cross-validation (k-FCV) technique consists in randomly
sharing the examples archive in k equal portions. The train
and validation were repeated k times, using k-1 archives to
train and kth archives for validation. In each interaction, the
validation archive had a different k (Polate and Gnes,
2007).
The accuracy (A), specificity (S) and sensitivity (SN)
were calculated from the number of true positives (TP), true
negatives (TN), false positives (FP) and false negatives
(FN). The TP were promo