RNAs aplicadas reconhecimento regioes promotoras bacterias ...

UNIVERSIDADE DE CAXIAS DO SUL

CENTRO DE CINCIAS AGRRIAS E BIOLGICAS

INSTITUTO DE BIOTECNOLOGIA

PROGRAMA DE PS-GRADUAO EM BIOTECNOLOGIA

NVEL DE DOUTORADO

Redes neurais artificiais aplicadas no reconhecimento

de regies promotoras em bactrias Gram-negativas

Scheila de Avila e Silva

Caxias do Sul

2011

Scheila de Avila e Silva

Redes neurais artificiais aplicadas no reconhecimento

de regies promotoras em bactrias Gram-negativas

Tese apresentada ao Programa de Ps-Graduao em

Biotecnologia da Universidade de Caxias do Sul,

visando a obteno do grau de Doutor em Biotecnologia.

Orientador: Prof. Dr. Sergio Echeverrigaray

Co-orientador: Prof. Dr. Gnther J. L. Gerhardt

Caxias do Sul

2011

No fim voc vai ver que as coisas mais leves so

as nicas que o vento no conseguiu levar

Mrio Quintana.

A Joo Carlos Sartor,pelo carinho e companheirismo.

AGRADECIMENTOS

minha famlia, pelo apoio em mais esta etapa de minha vida.

Ao meu orientador, Prof. Dr. Sergio Echeverrigaray, pelo apoio e contribuies

realizadas ao longo da realizao da tese.

Ao Prof. Dr. Gnther J. L. Gerhardt, pela orientao durante a bolsa de

Iniciao Cientfica na Graduao, pelo encaminhamento ao curso de mestrado e

pelas contribuies realizadas.

s Prof. Dr Ana Paula Longaray Delamare e Prof. Dr Helena Graziottin

Ribeiro pelo acompanhamento e colaboraes pertinentes realizadas.

Universidade de Caxias do Sul e ao PPG em Biotecnologia pelo apoio ao

projeto e ao Ncleo de Pesquisa em Bioinformtica.

Ao Prof. Dr. Aldo J. P. Dillon pelo incentivo.

Ao Prof. Dr. Adelmo Cechin (in memorian) pela orientao no desenvolvimento

da dissertao de mestrado.

s bolsistas de iniciao cientfica que contriburam neste trabalho: Franciele

Forte, Ivaine Tas Sauthier Sartor e Tahila Andrighetti.

Aos alunos de graduao que, ao realizar seu trabalho de concluso

contriburam para o trabalho: Maurcio Adami Mariani, Daniel Jos dos Santos,

Vanessa Davanzo, Dase Lima da Silva, Rodrigo Cicconet, Marlon Maciel Abreu.

Aos colegas do laboratrio de Biotecnologia Vegetal e Microbiologia Aplicada

pelo clima descontrado de trabalho e coleguismo nos crditos cursados.

Aos colegas do Colgio La Salle Caxias pela amizade.

secretria do PPG, Lucimara Serafini, pela cordialidade e eficincia para

tratar de questes burocrticas.

LISTA DE ABREVIATURAS

A Nucleotdeo Adenina

AM Aprendizado de Mquina

ART Teoria da Ressonncia Adaptativa

BacPP Bacterial Promoter Predicition

BDBM Banco de Dados de Biologia Molecular

BP Algoritmo Backpropagation

C Nucleotdeo Citosina

DNA cido Desoxirribonuclico

E. coli Escherichia coli

FN Falsos Negativos

FP Falsos Positivos

G Nucleotdeo Guanina

k-FCV k-fold-cross-validation

LSSVM Least Square Support Vector Machine

MLP Multilayer Perceptron

MPP Matriz de Posies Ponderadas

NNPP Neural Networks Promoter Predicition

nt nucleotdeo

pb Pares de Bases

RN Rede Neural Artificial

RNA cido Ribonucleico

RNAm cido Ribonucleico Mensageiro

RNAp Enzima RNA Polimerase

RPc Complexo Fechado do Promotor

RPo Complexo Aberto do Promotor

SGBD Sistema de Gerncia de Banco de Dados

SVM Mquinas de Vetor de Suporte (Suport Vector Machine)

T Nucleotdeo Timina

TLS Stio de Incio da Traduo

TSS Stio de Incio de Transcrio

VN Verdadeiros Negativos

VP Verdadeiros Positivos

i

Sumrio

1 INTRODUO .......................................................................................................1

2 OBJETIVOS............................................................................................................4

2.1Objetivos especficos...........................................................................................4

3 REVISO BIBLIOGRFICA....................................................................................5

3.1 OS PROMOTORES E A TRANSCRIO DOS GENES................................6

3.2 RECONHECIMENTO BASEADO EM SINAL................................................12

3.2.1 Matriz de Posies Ponderadas ............................................................12

3.3 ANLISE POR APRENDIZADO DE MQUINA............................................15

3.3.1 Mquinas de suporte vetorial (Support vector machines)...................15

3.3.2 Redes Neurais........................................................................................17

3.4 METODOLOGIA UTILIZANDO A VALORES DE ESTABILIDADE...............19

3.5 FUNDAMENTOS de REDES NEURAIS ARTIFICIAIS..................................22

3.5.1 Arquitetura das Redes Neurais...............................................................22

3.5.2 Treinamento de Redes Neurais..............................................................25

3.6 EXTRAO DE REGRAS ............................................................................27

3.6.1 Extrao de Regras a Partir de Redes Neurais.....................................28

3.6.2 Tipos de regras.......................................................................................29

3.6.3 Regras obtidas a partir dos neurnios da camada oculta......................29

3.7 CONSIDERAES ADICIONAIS..................................................................30

4 METODOLOGIA....................................................................................................31

4.1 ORGANISMOS ESTUDADOS.......................................................................31

4.2 BANCOS DE DADOS....................................................................................32

4.3 FERRAMENTAS............................................................................................33

4.4 CRIAO DE BANCO DE DADOS DE REGIES INTERGNICAS..........34

5 RESULTADOS .....................................................................................................35

ii

5.1 CAPTULO I - Rules extraction from neural networks applied to prediction

and recognition of prokaryotic promoters................................................................36

5.2 CAPTULO II - BacPP: Bacterial promoter prediction - A tool for accurate sig-

ma-factor specific assignment in enterobacteria....................................................45

5.3 CAPTULO III - Neural Networks applied to bacterial promoter prediction

based on DNA stability ...........................................................................................46

5.4 CAPTULO IV Banco de dados Intergenicdb..............................................58

6 CONSIDERAES FINAIS..................................................................................68

7 REFERNCIAS BIBLIOGRFICAS......................................................................70

APNDICE 1 - PATENTE INTERNACIONAL DA FERRAMENTA BacPP..................75

iii

ndice de tabelas

Tabela 3.1: Descrio das subunidades da RNA polimerase holoenzima de E. coli.

(LEHNINGER et al., 2007)............................................................................................7

Tabela 3.2: Fatores de E. coli (LEWIN, 2008). .........................................................8

Tabela 3.3: Resultados obtidos pela metodologia de Jacques et al. (2006)..............14

Tabela 3.4: Resultados obtidos pelo trabalho de Rani et al. (2006)...........................19

iv

ndice de ilustraes

Figura 3.1: Dogma central da biologia molecular (LEWIN, 2008)................................6

Figura 3.2: Representao da regio promotora para uma nica fita de DNA em E.

coli. (BURDEN et al., 2005-modificado)........................................................................7

Figura 3.3: Esquema da RNAp de organismos procariotos (LEWIN,2008).................7

Figura 3.4: Promotor procaritico reconhecido pelo fator 70(LEHNINGER et al.,

2007)..............................................................................................................................8

Figura 3.5: Promotores tpicos de E. coli reconhecidos pela RNAp holoenzima 70

(MADIGAN, 2010). .......................................................................................................9

Figura 3.6: Etapas da iniciao da transcrio de E. coli (LEWIN et al., 2008).........10

Figura 3.7: Exemplo da transformao da matriz de alinhamento para a matriz de

posies ponderadas para a sequncia teste AGGTGC............................................13

Figura 3.8: Treinamento de SVM (RUSSEL e NORVIG, 2003)..................................15

Figura 3.9: Fluxograma que ilustra a metodologia desenvolvida pelos autores Polat e

Gnes (2007)...............................................................................................................16

Figura 3.10: Codificao ortogonal para os valores de estabilidade, empregado por

Askary et al. (2009).....................................................................................................18

Figura 3.11: Fluxograma da metodologia descrita por Rangannan e Bansal (2007). 21

Figura 3.12: Analogia entre neurnios biolgicos e artificiais. (WU e MCLARTY,

2000)............................................................................................................................22

Figura 3.13: Modelo de um neurnio artificial (RUSSELL e NORVIG, 2003).............23

Figura 3.14: Rede MLP com trs camadas (RUSSELL e NORVIG, 2003)................24

Figura 3.15: Ilustrao das trs regies definidas na funo sigmide para anlise

dos dados de entrada e extrao de regras...............................................................30

Figura 4.1: Estrutura da metodologia proposta para o uso de RN no reconhecimento

e predio de promotores...........................................................................................32

v

RESUMO

A regio promotora uma sequncia de DNA localizada anteriormente uma

regio codificante e responsvel por iniciar o processo de transcrio. Deste modo,

atua como um elemento regulador. O estudo da regulao da expresso gnica

auxilia na compreenso da maquinria vital dos seres vivos, no conhecimento sobre

a funcionalidade dos genes em diferentes espcies, na resposta celular frente s

mudanas ambientais, entre outras questes. Embora os mtodos computacionais

para a predio de genes possuam uma boa acurcia o mesmo no conseguido

para os promotores. Esta dificuldade se deve ao tamanho reduzido do promotor e ao

padro pouco conservado, o que gera resultados com alto nmero de falsos

positivos. Esta tese teve como objetivo a utilizao de Redes Neurais Artificiais na

predio, caracterizao e reconhecimento de promotores de bactrias Gram-

negativas. Diferente de outros trabalhos, a predio realizada no foi limitada

apenas aos promotores dos genes constitutivos; foi realizada tambm para as

demais classes de sequncias promotoras. Alm da abordagem clssica utilizando a

composio de nucleotdeos foram empregados os valores de estabilidade da

sequncia. De modo a otimizar o aprendizado da Rede Neural e implementar uma

ferramenta prpria para a predio de promotores, foram extradas regras de

inferncia (baseadas no conhecimento produzido durante o treinamento da rede)

que foram ponderadas e implementadas em uma nova ferramenta, chamada BacPP.

At o presente, os resultados obtidos com o BacPP foram satisfatrios e

comparveis com a literatura. Os valores de exatido obtidos com o BacPP para os

fatores 24, 28, 32, 38, 54 e 70 de E. coli foram, 86,9%; 92,8%; 91,5%; 89,3%;

97,0%; 83,6%, respectivamente. Quando a ferramenta foi aplicada em promotores

pertencentes a outras bactrias Gram-negativas, a exatido geral foi de 76%.

Considerando a importncia da predio de promotores e a ausncia de banco de

dados com informaes para outras bactrias, implementou-se o IntergenicDB, um

banco de dados com diversas informaes sobre as sequencias intergnicas e o

valor de classificao destas para os diferentes fatores bacterianos, conforme os

resultados obtidos com o BacPP.

vi

ABSTRACT

The promoter region is located some few base pairs before a coding region. It

is responsible for initiating gene expression process, thus, it can plays a regulatory

role. The study about gene expression regulation can assist mainly in the

comprehension of complex metabolic network presented by several organisms and

cellular answer considering the environment changes. The computational methods to

gene prediction have a good accuracy, but this is not achieved in promoter prediction.

This difficulty occurs because of the length of the promoter and its degenerate

pattern. Those features can explain results with a great number of false positives

present in the literature. The present thesis has as its main goal the neural networks

applied to Gram-negative promoter prediction, recognition and characterization.

Beside the classical approach with the nucleotides of the sequence, the prediction

was also made by using stability values. Aiming at developing a own tool for bacterial

promoter prediction, the rules extraction was carried out and the results were

weighted and implemented. This tool, named BacPP, presents results comparable

with the related literature. Currently, the BacPP specific accuracy for 24, 28, 32, 38,

54 and 70 were 86,9%; 92,8%; 91,5%; 89,3%; 97,0%; 83,6%, respectively.

Furthermore, when challenged with promoter sequences belonging to other

enterobacteria BacPP maintained 76% accuracy overall. Currently, there is no

databases dedicated for other Gram-negative promoter than E.coli. For this reason,

IntergenicDB was modeled and implemented. This database was projected to collect

several pieces of information about the sequences and the organisms to which they

belong and, the classification results originated from BacPP for each sequence.

vii

1 INTRODUO

Os fenmenos biolgicos so muito complexos e requerem a integrao de

muitas reas do conhecimento para a comprovao ou refutao de hipteses. A

interface interdisciplinar mais antiga (e talvez a mais conhecida) entre a Biologia e as

Cincias Exatas a Bioestatstica. Gradualmente nos ltimos anos, a Biologia tem

utilizado, as ferramentas proporcionadas pela Informtica e pela Matemtica para a

resoluo de problemas nos mais diversos campos: desde a Gentica at a Ecologia

(BARRERA et al., 2004).

Um dos maiores desafios da era ps-genmica a determinao de quando,

onde e como os genes so ligados e desligados. A diferena entre duas espcies

est muito mais relacionada com a transcrio de seus genes do que com a

estrutura destes em si. Assim, o estudo da regulao gnica contribui para a

construo do conhecimento a respeito da funcionalidade dos genes em diferentes

espcies, na questo da diferenciao celular em organismos multicelulares, na

resposta celular frente s mudanas ambientais, entre outras questes (HOWARD e

BENSON, 2003; COTIK et al., 2005).

Dentre as sequncias de DNA que atuam como reguladoras da expresso

gnica esto includas as regies promotoras. De uma maneira simplificada, pode-se

dizer que estas localizam-se anteriormente regio codificante e interagem com a

enzima RNA polimerase (RNAp), desencadeando o processo de transcrio

(LEWIN, 2008). Fazendo uma analogia, os elementos downstream (como os genes)

representam a memria de um computador e os elementos upstream (como os

promotores) os programas que atuam nesta memria. Assim, o estudo dos

promotores pode prover modelos sobre a constituio do programa e de como este

opera (HOWARD e BENSON, 2003).

1

Em organismos procariticos, a holoenzima RNAp formada por cinco

subunidades e uma subunidade adicional (que se liga de forma transitria) chamada

fator sigma (). A coleo de diferentes responsvel pela ligao da RNAp em

determinadas regies dos promotores e a consequente expresso de genes

especficos de resposta s mudanas ambientais. Os fatores so nomeados

conforme seu peso molecular (24, 28, 32, 38, 54 e 70) e esto relacionados com

determinadas funes metablicas e/ou fisiolgicas. Por exemplo, 32 e 24

desempenham papel na resposta ao estresse por choque trmico, 28 est

associado com a expresso de genes produtores de clios e flagelos, 54 est

envolvido na fixao de nitrognio e 70 est relacionado com a expresso de genes

constitutivos (LEWIN, 2008).

A regio promotora possui locais especficos e com certo grau de

conservao, que auxiliam no reconhecimento e na ligao da RNAp nesta regio.

Alm destes locais, os promotores possuem algumas caractersticas estruturais

prprias, diferentes das regies no-promotoras, que podem ser incorporadas nos

estudos destes elementos, tais como a deformabilidade, estabilidade e a curvatura.

(KANHERE e BANSAL, 2005a; KOZOBAYAVRAHAM et al., 2008).

As tcnicas moleculares para a identificao de promotores so custosas e

consomem muito tempo, o que permite que as abordagens in silico ganhem

aplicabilidade (TOWSEY, 2008). As mais variadas abordagens computacionais tm

sido empregadas para reconhecer estas regies e predizer se uma regio ou no

promotora. Dentre estas tcnicas, pode-se destacar Anlise Probabilstica,

Reconhecimento de Padres e Aprendizado de Mquina (AM). Embora haja

progressos na predio e anlise de promotores, estes ainda esto longe de possuir

uma alta acurcia (RANI et al., 2006).

A maioria dos trabalhos relacionados so aplicados apenas s sequncias

promotoras reconhecidas pelo fator 70. Esta tese tem como tema a aplicao de

Redes Neurais Artificiais (RN) na predio, reconhecimento e caracterizao de

regies promotoras procariticas conforme o fator que as reconhece. Alm da

composio de nucleotdeos (nt), suas propriedades estruturais (valores de

estabilidade) foram utilizadas no treinamento da RN.

A partir da anlise dos resultados obtidos, com as simulaes de RN, foi

realizada a extrao de regras a partir das arquiteturas treinadas para cada fator .

2

A extrao de regras um elemento importante no levantamento de hipteses pois

permite a visualizao de como ocorreu o processo de aprendizagem pela rede,

uma vez que verifica-se quais elementos da sequncia possuem um papel

determinante no seu reconhecimento como promotora (ANDREWS et al., 1995). As

regras foram ponderadas e implementadas em um programa de predio de

promotores procariticos, chamado de BacPP. Ao analisar uma determinada

sequncia, o programa atribui um valor de classificao para os fatores

bacterianos descritos neste trabalho. Considerando a falta de informaes sobre

outras bactrias Gram-negativas, surgiu a necessidade da implementao de uma

base de dados relacionada (TOWSEY et al.,2008). O IntergenicDB foi modelado

para armazenar informaes relevantes sobre a estrutura e bibliografia das

sequncias intergnicas de bactrias Gram-negativas, alm de armazenar os

valores de predio obtidos com a ferramenta BacPP.

O presente trabalho est organizado em 4 sees principais. A seo 3

constituda de uma reviso bibliogrfica geral, na qual so apresentados os

conceitos biolgicos e computacionais relevantes para a compreenso de como os

resultados foram obtidos. Uma viso geral da metodologia apresentada na seo

4, sendo que os detalhes da metodologia so apresentados nos captulos da seo

dos resultados. A seo 5, mostra os resultados na forma de artigos cientficos

publicados e/ou a serem submetidos publicao em peridicos cientficos.

3

2 OBJETIVOS

O objetivo geral deste trabalho reconhecer, predizer e caracterizar regies

promotoras de diferentes bactrias gram-negativas, integrando dados fsico-

qumicos da molcula de DNA com a composio da sequncia por meio de uma

abordagem de Redes Neurais Artificiais.

2.1 OBJETIVOS ESPECFICOS

- Preparar os dados de entrada para a realizao do treinamento;

- Determinar a melhor arquitetura de RNs para a identificao de regies

promotoras de acordo com o fator que reconhece a sequncia, utilizando a

informao dos nt e/ou estabilidade da sequncia;

- Extrair regras de cada RN treinada para compreenso dos mecanismos

utilizados no reconhecimento de promotores;

- Desenvolver uma ferramenta prpria para a predio de promotores com

base no aprendizado da RN;

- Aplicar a ferramenta desenvolvida em regies intergnicas de bactrias

Gram-negativas;

- Criar de um banco de dados de possveis promotores procariticos utilizando

diferentes metodologias disponveis;

4

3 REVISO BIBLIOGRFICA

O DNA ou cido desoxirribonuclico a molcula universal mais empregada

no armazenamento da informao gentica (DE ROBERTIS, 1993). Os genes so

um segmento da molcula de DNA que contm a informao necessria para a

codificao de seus produtos. Na maioria das vezes, estes produtos so protenas

que realizam uma funo especfica na clula: estrutural, regulatria ou cataltica. O

controle de qual gene deve ser expresso em um determinado momento compreende

um conjunto de mecanismos que torna este processo complexo at mesmo para

organismos unicelulares, como as bactrias. Este processo conhecido como

regulao da expresso gnica.

O estudo de promotores um dos aspectos fundamentais para a

compreenso da expresso gnica. Ainda que os promotores sejam de importncia

indiscutvel, a habilidade em identific-los menos desenvolvida que a de encontrar

regies codificantes. A maior dificuldade no seu reconhecimento in silico que sua

sequncia muito curta e no apresenta-se completamente conservada (HOWARD

e BENSON, 2003; BURDEN, et al., 2005; KANHERE e BANSAL, 2005b;

SIVARAMAN et al., 2005).

As prximas sees descrevem o processo de transcrio dos genes em

organismos procariotos, o papel do promotor para o seu desencadeamento e as

abordagens in silico para a predio de sequncias promotoras, sendo que esta

seo foi submetida para publicao como captulo de livro. Alm disso, so

apresentados os fundamentos sobre as RNs, j que estas foram escolhidas como a

tcnica de AM da metodologia deste trabalho.

5

3.1 OS PROMOTORES E A TRANSCRIO DOS GENES

Quando um gene expresso, sua informao copiada na forma de cido

ribonucleico (RNA) que por sua vez, dirige a sntese dos produtos elementares dos

genes. Este processo denominado como dogma central da Biologia Celular, que

pode ser visualizado na Figura 3.1.

A iniciao da transcrio dos genes inicia quando a enzima RNAp liga-se em

sequncias especficas do DNA, denominadas de promotores. Em E. coli, a ligao

da RNAp ocorre dentro de uma regio que se estende desde cerca de 70 pares de

base (pb) antes do stio de incio da transcrio (TSS) at cerca de 30 pb alm dele.

Por conveno, os pb de DNA que correspondem ao incio de uma molcula de

RNAm recebem nmeros positivos, sendo esta parte do DNA denominada de regio

downstream. J a regio upstream corresponde aos nt que precedem o stio de

incio da transcrio recebem nmeros negativos (Figura 3.2).

6

Figura 3.1: Dogma central da biologia molecular (LEWIN, 2008).

A enzima RNAp desempenha um importante papel no incio da transcrio

como reconhecedora das sequncias promotoras. Ela contm cinco unidades

bsicas: duas subunidades , uma subunidade , uma e uma subunidade .

Essas cinco subunidades formam o core da RNAp. Alm destas, h uma subunidade

designada fator , que liga-se transitoriamente ao core e direciona a enzima para

stios de ligao especficos do DNA. Quando o fator est associado RNAp, ela

passa a ser chamada de RNAp holoenzima. Na Tabela 3.1, esto as subunidades da

RNAp, seu gene codificante e sua funo no processo de transcrio e na Figura 3.3

encontra-se um esquema desta enzima.

Tabela 3.1: Descrio das subunidades da RNA polimerase holoenzima de E. coli. (LEHNINGER et al., 2007).

Subunidades Funo na RNAp Ligao a protenas regulatrias e ' Atividade cataltica Reconhecimento do promotor e especificidade Acrscimo na fora de associao entre as subunidades

7

Figura 3.2: Representao da regio promotora para uma nica fita de DNA em E. coli. (BURDEN et al., 2005-modificado).

Figura 3.3: Esquema da RNAp de organismos procariotos (LEWIN,2008).

Existem diferentes tipos de fatores (Tabela 3.2) que podem se ligar com o

core da RNAp, sendo cada um associado a uma classe de promotores que regulam

a expresso de um determinado conjunto de genes necessrios em um dado

momento celular.

Tabela 3.2: Fatores de E. coli (LEWIN, 2008).

Fator Nome do Gene Funo Consenso -35 separador -101

28 fliA Produo de clios e flagelos CTAAA 15 pb GCCGATAA32 rpoH Estresse por choque trmico CCCTTGAA 13-15pb CCCGATNT38 rpoS Resposta a estresse TTGACA 16-18pb TATACT54 rpoN Assimilao de nitrognio CTGGNA 6pb TTGCA70 rpoD Sigma constitutivo TTGACA 16-18pb TATAAT24 rpoE Estresse por choque trmico GGAACTT 15pb GTCTAAH sigH Estresse osmtico AGGANPuPu 11-12 GCTGAATCA1 Somente para 54, a regio consensual se localiza centrada nos nt -12 e -24. Na sequncia consensual, N

significa qualquer nucleotdeo e Pu significa nucleotdeo de base prica.

Um promotor procaritico tpico para 70 constitudo de 3 regies

caractersticas: uma sequncia de 6 nt (hexmero) centrada em 35 do ponto inicial

de transcrio (+1), outro hexmero centrado em 10 e a sequncia que separa os

hexmeros (espaador), conforme ilustrado na Figura 3.4.

Anlises e comparaes das sequncias da classe mais comum de

promotores bacterianos (reconhecidos pela RNAp holoenzima contendo 70) revelam

semelhanas nos dois hexmeros citados anteriormente. Embora as sequncias no

sejam idnticas para todos os promotores bacterianos, certos nt comuns em

determinadas posies formam uma sequncia consenso (Figura 3.5). O modelo

biolgico padro para estes promotores a sequncia TTGACA para a regio -35,

TATAAT para a regio -10 e um espaamento entre estes hexmeros de 16-18 nt.

Muitas linhas independentes de pesquisa atestam a importncia funcional das

sequncias -35 e -10 (LEHNINGER et al., 2007; KALATE et al., 2003; KANHERE e

BANSAL, 2005a). O hexmero -35 funciona como sinal para reconhecimento pela

8

Figura 3.4: Promotor procaritico reconhecido pelo fator 70(LEHNINGER et al., 2007).

RNAp e o hexmero -10 permite converter o complexo fechado em complexo aberto.

Alm disso, a distncia entre eles parece ser relevante, apesar do tamanho varivel

e da falta de conservao (LEWIN, 2008).

Variaes na sequncia consenso podem afetar a eficincia da ligao da

RNAp. Uma mudana em apenas um pb pode diminuir a velocidade de iniciao em

vrias ordens de grandeza. A sequncia do promotor, desta forma, estabelece um

nvel basal de expresso dos genes, sendo considerado um promotor forte aquele

mais perto da sequncia consensual e um promotor fraco aquele que possui mais de

trs nt diferentes do consenso (LEWIN, 2008). No entanto, alguns promotores

procariticos permanecem funcionais mesmo na ausncia da regio -35. Estes

promotores possuem uma regio chamada -10 estendida (duas bases extra no

hexmero -10). Ainda incerto se o hexmero -10 estendido um antecessor do

promotor bipartido ou vice-versa. A explicao para a origem dos promotores

bipartidos ainda desconhecida. A informao da regio -10 estendida importante

para o bom funcionamento da RNAp e esta informao foi realocada na regio -35

(HOOK-BARNARD et al., 2006; SHULTZABERGER et al., 2007).

A transcrio possui dois momentos principais, cada um com mltiplas etapas.

O incio do processo ocorre quando a RNAp holoenzima se liga ao promotor,

9

Figura 3.5: Promotores tpicos de E. coli reconhecidos pela RNAp holoenzima 70

(MADIGAN, 2010).

formando um complexo fechado do promotor RPc no qual o DNA ligado est na

forma de fita dupla. Aps, h a formao do complexo aberto RPo onde o DNA

desta regio est parcialmente desenrolado. Em seguida, inicia-se a transcrio

deste complexo (etapa de transcrio absortiva) e aps a insero dos dois

primeiros nt na molcula de RNA transcrita. O trmino da transcrio ocorre quando

encontrada uma sequncia de nt denominada de regio terminadora. Este

processo est ilustrado na Figura 3.6.

Apesar da simplicidade com a qual os livros de Biologia Molecular (LEWIN,

2008; LEHNINGER et al., 2007) descrevem os promotores, percebe-se em trabalhos

experimentais como os de Naryshkin et al (2000), Burgess e Anthony (2001),

Murakami et al. (2002), Toulokhonov e Landick (2006), Borukhov e Nudler (2007),

que a interao entre a enzima e a sequncia promotora um processo complexo,

que envolve a interao de vrios locais da RNAp com a sequncia.

Outros fatores alm das pontes de hidrognios e protenas ligantes regulam o

reconhecimento da sequncia alvo em promotores. Como sugestes iniciais tm-se

10

Figura 3.6: Etapas da iniciao da transcrio de E. coli (LEWIN et al., 2008).

as propriedades fsicas do DNA, tais como susceptibilidade DNaseI,

deformabilidade, estabilidade e curvatura (GOI et al., 2007). Existem diferenas

estruturais entre as regies upstream (onde localiza-se a regio promotora) e

downstream (onde localiza-se a regio codificante) que podem ser consideradas

para melhorar a predio das sequncias promotoras e caracteriz-las. muito

difcil acreditar que apenas os motivos consensuais sejam os responsveis pela

interao RNAp-promotor, j que estes motivos so pequenos e no completamente

conservados. possvel que as sequncias vizinhas a estes motivos tambm

estejam envolvidas neste processo de interao RNAp-promotor (KANHERE e

BANSAL, 2005a; RAMPRAKASH e SCWARZ, 2007).

A importncia destas propriedades para os promotores e para o processo de

transcrio est relacionado com a formao do RPo, que envolve a separao das

fitas de DNA. Esta separao um processo termodinamicamente desfavorvel e

ocorre sem nenhuma ajuda energtica de fonte externa. Aqui, a pouca estabilidade

da sequncia promotora pode auxiliar no incio de separao das fitas. Trabalhos

como os de, Juregui et al. (2003), Kanhere e Bansal (2005a, 2005b) e Ramprakash

e Scwarz (2007) mostram que as regies promotoras so menos estveis que as

regies gnicas. Outra propriedade, como a curvatura, pode ser definida como a

dupla fita curvada em um axis helicoidal. Muitas sequncias, de organismos

eucariotos e procariotos mostram que as regies upstream so mais curvadas que

as regies codificantes (BORUKHOV e NUDLER, 2008). J a deformabilidade,

refere-se ao afrouxamento com o qual a molcula pode realizar uma curva em

alguma direo. Sabe-se que a deformabilidade importante para a ligao de

fatores de transcrio e evidncias experimentais sugerem que a sequncia

promotora se enrola ao redor da RNAp (KANHERE e BANSAL, 2005a, 2005b;

RAMPRAKASH e SCHWARZ, 2007; KOZOBAY-AVRAHAM et al., 2008). Muitos

estudos mostram que a deformabilidade e a curvatura tem papel no mecanismo de

transcrio, entretanto estes mecanismos ainda no so totalmente compreendidos.

Na anlise de promotores, algumas questes permanecem sem respostas com

respeito curvatura do DNA: a curvatura um componente essencial e integral dos

promotores? Ela pode ser usada como caracterstica discriminante entre promotores

e outras sequncias?(PANDEY e KRISHNAMACHARI, 2006).

A flexibilidade da fita de DNA outra caracterstica fsica da sequncia. O

11

trabalho de Thiyagarajan et al. (2006) verificou que na regio consensual dos

promotores de E. coli h dois nt flexveis entre dois no flexveis, sendo esta uma

caracterstica determinante da regio -10 para determinar a fora de expresso de

um determinado promotor, talvez pela influncia de formao do complexo aberto do

promotor.

Apesar destas evidncias em relao estrutura da sequncia promotora,

estas informaes no so amplamente utilizadas na predio e reconhecimento

dos promotores, conforme descrito nas prximas sees, que apresentam os

principais trabalhos referentes anlise de promotores procariticos in silico. A

literatura apresenta muitas abordagens para o reconhecimento e predio de

promotores. Dentre estas pode-se citar: (i) metodologia baseada em sinal, que opera

no reconhecimento de sinais relativamente conservados atravs de alinhamento e

homologia entre promotores previamente identificados; (ii) AM, que usa conjunto de

informaes estruturais e funcionais disponveis sobre as sequncias promotoras

para aprender a reconhec-los automaticamente e produzir hipteses relevantes

sobre estas sequncias. Aqui, encontram-se as metodologias de RNs e Support

Vector Machines (SVM).

A seguir, esto apresentados os principais mtodos computacionais

encontrados na literatura de predio de promotores acompanhados da discusso

das implicaes que tornam este campo de pesquisa ainda latente.

3.2 RECONHECIMENTO BASEADO EM SINAL

A metodologia de reconhecimento de promotores baseado em sinal emprega

principalmente a comparao do contedo de diferentes sequncias promotoras. Os

trabalhos clssicos e alguns mais recentes esto apresentados a seguir.

3.2.1 Matriz de Posies Ponderadas

A metodologia de matriz de posies ponderadas (MPP) consiste em alinhar

um conjunto de sequncias identificadas previamente como promotoras e pesquisar

por regies conservadas em seu contedo. Conforme Hertz e Stormo (1999), as

matrizes de posies ponderadas assumem que cada linha corresponde a um dos

nt e cada coluna a um alinhamento. Os elementos da matriz so os pesos utilizados

para pontuar uma sequncia teste, conforme uma medida que quantifica a aderncia

12

ao modelo. A pontuao dada pela soma dos pesos de cada letra alinhada em

cada posio (Figura 3.7).

A transformao ilustrada na Figura 3.7, foi criada a partir da frmula 3.1:

No exemplo mostrado (Figura 3.7), em (a) est uma tabela de alinhamento

para os 4 hexmeros localizados no topo da figura. Embaixo da matriz est a

sequncia consenso correspondente ao alinhamento (N indica que no h

nucleotdeo preferencial). Aps a aplicao da frmula 3.1, foi gerada a matriz de

pesos (b), derivada da matriz de alinhamento (a). Os nmeros destacados so os

responsveis pela pontuao global da sequncia (Hertz e Stormo, 1999).

Jaques et al. (2006), desenvolveu uma nova abordagem de predio de

promotores com base nas matrizes de representao da distribuio genmica de

hexanucleotdeos. Esta metodologia foi utilizada para dez organismos procariticos

(Tabela 3.3). A sensibilidade das matrizes geradas para cada organismo variou de

29.4% (C. glutamicum) a 90,9% (B. japonicum), conforme mostrado na Tabela 3.3.

Para a matriz gerada para E. coli , a sensibilidade apresentada foi de 42,4%.

Quando os resultados deste trabalho so comparados com a literatura,

percebe-se que a sensibilidade da predio de promotores de E. coli no

melhorada. No entanto, ele demonstra os recentes esforos para ampliar a predio

para outras bactrias e, alm disso, mostra que a distribuio genmica dos

13

Figura 3.7: Exemplo da transformao da matriz de alinhamento para a matriz de posies ponderadas para a sequncia teste AGGTGC.

,ln)1/()(

lni

ij

i p

f

p

Npn iij ++ (3.1)

elementos regulatrios significativamente diferente dos elementos no-

regulatrios.

Tabela 3.3: Resultados obtidos pela metodologia de Jacques et al. (2006)

Organismos Contedo de GC (%) Sensibilidade (%)

E. coli 50,8 42,4B. subtilis 43,5 56,8C. glutamicum 53,8 29,4M. pneumoniae 40,0 43,3M. tuberculosis 65,6 57,1S. coelicolor 72,1 58,8H. pylori 38,9 47,1C. jejuni 30,5 42,9B. japonicum 64,1 90,9S. aureus 32,9 37,5

A MPP foi utilizada, tambm, no software Virtual Footprint (MUNCH et al.,

2005). Esta ferramenta tem o objetivo de reconhecer padres em sequncias de

DNA e est disponvel no site http://prodoric.tu-bs.de/vfp/index2.php (acessado em

29 de julho de 2010). A ideia central do trabalho baseia-se no princpio que os

promotores so mais representados nas regies intergnicas do que no resto do

genoma. O valor de classificao foi calculado na semelhana entre a matriz de

representao da distribuio genmica dos promotores encontrados na literatura e

a matriz de representao da distribuio de provveis promotores.

Uma variao da MPP foi desenvolvida por Li e Lin (2006) que obteve

sensibilidade de 91% e especificidade de 81% usando 683 sequncias

experimentalmente identificadas como promotores de E. coli reconhecidos pelo fator

70. A matriz desenvolvida por eles foi chamada de Matriz de Valores Posio-

Correlao e baseia-se na medida da conservao das sequncias.

Quando compara-se a MPP com o simples alinhamento de sequncias,

percebe-se que a ponderao melhora os resultados obtidos. A importncia e o

pioneirismo deste trabalho so indiscutveis para a anlise dos promotores, j que

existem recentes publicaes que mostram um certo grau de conservao dos

motivos (Cotik et al., 2005; Sivaraman et al., 2005). No entanto, somente a anlise

dos nt da sequncia para a descoberta de novos promotores uma abordagem

limitada, j que: (i) a variao dos nt grande; (ii) assume a independncia entre

bases adjacentes; (iii) no permite a presena de mltiplos elementos dos

14

promotores, inseres, delees ou espao varivel entre os elementos e (iv) o

resultado pode variar de acordo com o mtodo de alinhamento (SONG et al., 2007).

3.3 ANLISE POR APRENDIZADO DE MQUINA

Nesta seo so descritas as metodologias de SVM e RN j que estas so as

metodologias as mais empregadas na predio de promotores e mostram resultados

promissores.

3.3.1 Mquinas de suporte vetorial (Support vector machines)

O algoritmo das Mquinas de Vetor de Suporte ou Mquinas de Suporte

Vetorial foi proposto por Boser et al. (1992) e pode ser utilizado para classificaes

de padres e regresso linear. Basicamente, as SVM so uma mquina linear com

algumas propriedades muito interessantes. No caso das classificaes, a idia

principal construir um hiperplano como superfcie de deciso, de tal forma que a

margem de separao entre exemplos positivos e negativos seja mxima (Figura

3.8). As SVMs podem fornecer um bom desempenho de generalizao em

problemas de classificao de padres, apesar de no incorporarem conhecimento

do domnio do problema e apresentam limitaes com a escolha do kernel (HAYKIN,

1999).

15

Figura 3.8: Treinamento de SVM (RUSSEL e NORVIG, 2003).

Em (a) treinamento de duas dimenses com os exemplos positivos representados pelos crculos pretos e os exemplos negativos pelos crculos brancos. Em (b) o mesmo conjunto de dados aps mapeamento em um espao tridimensional.

Polat e Gnes (2007) usaram uma combinao de seleo de caractersticas

e LSSVM (least square support vector machine), conforme ilustrado na Figura 3.9.

Esta metodologia mostra uma acurcia de 84,6%, sensibilidade de 90% e

especificidade de 80%. Apesar destes ndices serem elevados, ressalta-se que

neste trabalho foram empregadas apenas 57 sequncias promotoras. Este pequeno

nmero no abrange todas as caractersticas do universo de sequncias promotoras

disponveis, que so de aproximadamente 740 para as sequncias reconhecidas

pelo fator 70 de E. coli. Se todo o conjunto disponvel fosse considerado, possvel

que mais de 57 atributos fossem selecionados como caracterizadores das

sequncias e, provavelmente, os valores de desempenho diminuiriam.

Gordon et al. (2003) usaram uma SVM com ncleo de uma funo de

alinhamento. Neste trabalho, foram tomados dois conjuntos de dados: (i) promotores

e regies codificadoras e (ii) promotores e regies intergnicas. A metodologia

empregada por eles mostra uma mdia de erro de 16,5% e de 18,6%,

respectivamente aos conjuntos de dados usados.

A SVM foi tambm utilizada para a predio in silico da TSS e seus

promotores constitutivos associados em E. coli por Gordon et al. (2006). O mtodo

conseguiu uma acurcia de acordo com o estado da arte (erro mdio de 11,6%).

Mais tarde, o mesmo grupo de pesquisa (TOWSEY et al., 2008), usou a SVM

treinada anteriormente em outras sequncias procariticas (B. subtilis e Chlamydia

trachomatis). Os valores de performance (acurcia, preciso, sensibilidade ou

16

Figura 3.9: Fluxograma que ilustra a metodologia desenvolvida pelos autores Polat e Gnes (2007).

especificidade) no so apresentados no trabalho. No entanto, os autores ressaltam

que sua metodologia foi capaz de encontrar outras informaes relevantes alm dos

motivos consensuais -10 e -35, sendo descrito um motivo localizado na regio +15

ao +25.

Para verificar a existncia de alguma correlao entre o grau de conservao

da sequncia promotora e a expresso do seu respectivo gene, Kiryu et al. (2005)

utilizou as SVMs e, como resultado, estes autores no encontraram correlao entre

a sequncia promotora e o nvel de expresso gnica.

3.3.2 Redes Neurais

As RNs so um sistema de AM inspirado no funcionamento de redes neurais

biolgicas. Pode-se afirmar que as RNs aprendem a partir dos exemplos e

apresentam alguma capacidade de generalizao do conjunto de treinamento (WU e

MCLARTY, 2000).

As primeiras aplicaes de RNs na predio de promotores, como

apresentados nos trabalhos de Demeler e Zhou (1991) e ONeill (1991), apesar da

arquitetura simples, obtiveram uma alta acurcia, mas um nmero de falsos

positivos igualmente alto. Outras abordagens foram apresentadas por Mahadevan e

Ghosh (1994) que usaram uma combinao de duas RNs para a identificao de

promotores de E. coli. Todos os promotores deste trabalho tinham espaamento

entre 15-21 nt entre os hexmeros caractersticos. A primeira RN predizia os

hexmeros consensuais, enquanto a segunda foi designada para o reconhecimento

da sequncia inteira (65 nt), sendo o espao entre os hexmeros varivel. Uma vez

usada a informao da sequncia inteira ocorreu dependncias entre as bases em

vrias posies. Isto refletiu em um treinamento pobre e uma predio realizada por

duas redes sem neurnios na camada oculta.

Pedersen e Engelbrecht (1995) predisseram a TSS e identificaram novos

sinais caractersticos correlacionados com o local de incio da transcrio. Para isso,

foram usados dois diferentes esquemas de codificao, um com janelas 1 at 51 nt

e outro com uma janela de 65 nt. Uma ideia interessante, neste trabalho, foi a

medida do contedo de informao relativa dos dados de entrada, pelo uso da

habilidade da RN para aprender corretamente, como avaliado pelo coeficiente de

correlao do teste mximo.

17

Uma ferramenta disponvel na internet e baseada em RNs o Neural

Networks Promoter Prediction (NNPP). Burden et al. (2005) incorporou rede a

informao sobre a distncia entre o stio de incio de transcrio (TSS) e o stio de

incio da traduo TLS (primeiro nucleotdeo da regio codificadora). Com um

conjunto de dados de 771 promotores, eles conseguiram uma preciso de 54% e

uma sensibilidade de 86%.

Askary et al. (2009) descrevem uma arquitetura de RN chamada de N4, capaz

de predizer a TSS de promotores de E. coli reconhecidos pelo fator 70. A

sensibilidade e a preciso da rede foram superiores a 94%. Esta rede neural

recebeu os valores de estabilidade das sequncias convertidos em codificao

ortogonal (Figura 3.10). Assim, a camada de entrada possuiu 6608 neurnios (413

grupos x 16 combinaes de valores de estabilidade). Esta rede possuiu duas

camadas de neurnios ocultos, totalizando 402 neurnios e um neurnio na camada

de sada. Apesar da complexidade da arquitetura apresentada (o que torna a rede

computacionalmente pesada), este trabalho mostra o potencial de utilizao dos

valores de estabilidade das sequncias como parmetro de classificao.

Utilizando a informao da quantidade de dinucleotdeos da sequncia

promotora, Rani et al. (2006) treinaram uma RN. Neste trabalho foram utilizados

promotores 70 de E. coli como exemplos positivos e quatro conjuntos diferentes de

exemplos negativos: (i) sequncias codificantes, (ii) sequncias codificantes e

intergnicas, (iii) sequncias aleatrias com 60% de AT e (iv) sequncias aleatrias

com 50% de AT. Os resultados de especificidade e sensibilidade obtidos esto

18

Figura 3.10: Codificao ortogonal para os valores de estabilidade, empregado por Askary et al. (2009).

apresentados na tabela 3.4.

Tabela 3.4: Resultados obtidos pelo trabalho de Rani et al. (2006)

Conjunto de dados Sensibilidade Especificidade

Promotores + sequncias codificantes 80% 79%Promotores + sequncias codificantes e intergnicas 63% 88%Promotores + sequncias aleatrias com 60% de AT 93% 88%Promotores + sequncias aleatrias com 50% de AT 95% 99%

Estes valores podem ser explicados pela quantidade grande de dinucleotdeos

AT nos promotores reconhecidos pelo 70, conforme os resultados mostrados no

captulo II dos resultados desta tese. Quando esta metodologia for aplicada em

sequncias reconhecidas por outros fatores , que possuem contedo AT mais

baixo, estes mesmos valores podem no ser alcanados.

A vantagem das RNs em relao a outras tcnicas de AM que elas podem

aprender a reconhecer padres degenerados, imprecisos e incompletos, os quais

so caractersticos dos promotores. Alm disso, permitem rpido desempenho em

grandes sequncias genmicas (COTIK et al., 2005). Como desvantagem, pode-se

citar a subjetividade da escolha dos parmetros e da arquitetura da rede, uma vez

que h falta de recomendaes tericas sobre estes e tambm sobre o tamanho do

conjunto de treinamento.

3.4 METODOLOGIA UTILIZANDO A VALORES DE ESTABILIDADE

Kanhere e Bansal (2005b) desenvolveram uma metodologia baseada nas

diferenas de estabilidade (G) entre as regies promotoras e codificantes (Figura

3.11). Esta ferramenta foi modificada e melhorada por Rangannan e Bansal (2007).

Eles calcularam a energia livre (estabilidade) entre duas regies do genoma de um

organismo, conforme as equaes (3.2), (3.3), (3.4) e (3.5). Os resultados obtidos

por eles mostram que a estabilidade uma medida melhor que os motivos

conservados para diferenciar regies promotoras e no-promotoras.

onde,

19

D n=E1nE2n (3.2)

50

)('1

49

+

=

n

n

G

nE

onde, n o nucleotdeo da sequncia promotora.

Assim, E1(n) e E2(n) representam a mdia de energia livre em uma janela de

100 nt comeando de n com uma vizinhana de 100 nt. E1(n) representa a mdia

de energia livre em uma regio de 50 nt. E1 usado no lugar de E1 no ciclo de

refinamento dos falsos negativos. O valor de D representa a diferena de energia

livre em duas regies vizinhas. Uma sequncia de DNA designada como portadora

de um promotor somente se a mdia da energia livre da regio de 100 nt (E1) e a

diferena (D) na energia livre forem maiores que o E-cutoff e D-cutoff escolhido,

respectivamente. A metodologia desenvolvida pelos autores para a anlise e

predio de promotores est esquematizada na Figura 3.11.

Esta metodologia consegue uma sensibilidade de 98%, mas uma preciso de

55% (nmero de verdadeiros positivos/(nmero de verdadeiros positivos + nmero

de falsos positivos)). Uma desvantagem desta metodologia que ela se aplica

somente em grandes sequncias (do nucleotdeo -150 at o nucleotdeo +50) e

foram analisadas 251 sequncias, o que representa aproximadamente um tero do

total das sequncias disponveis para 70 da E.coli.

20

100

)(1

99

+

=

n

n

G

nE

(3.3)

(3.5)

100

)(2

119

99

+

+

=

n

n

G

nE(3.4)

21

Figura 3.11: Fluxograma da metodologia descrita por Rangannan e Bansal (2007).

3.5 FUNDAMENTOS DE REDES NEURAIS ARTIFICIAIS

Conforme Baldi e Brunak (2001), as RNs foram originalmente desenvolvidas

com o objetivo de modelar o processamento de informao e aprendizagem do

crebro. Trata-se de um modelo computacional aplicvel a uma ampla variedade de

reas, como Engenharia, Economia e Biologia. Nesta ltima, principalmente em

problemas de anlise de sequncias e reconhecimento de padres. Nas demais

reas, por exemplo, as RNs podem ser aplicadas na sntese e reconhecimento de

fala, interface adaptativa entre humanos e sistemas fsicos complexos, aproximao

de funes, entre outros.

Esta seo apresenta conceitos fundamentais sobre as RNs que auxiliam na

compreenso da metodologia empregada e possibilitam uma melhor discusso dos

resultados obtidos.

3.5.1 Arquitetura das Redes Neurais

As RNs, conforme Wu e McLarty (2000), consistem de grupos ou camadas

(layers) de unidades de processamento com (ou algumas vezes sem) conexes

entre os grupos. A unidade bsica de uma camada um neurnio artificial. Estas

unidades, como os neurnios reais, tm conexes de entrada (dendritos) e

conexes de sada (axnios). Tambm como neurnios reais, as unidades da rede

neural tambm tm alguma forma de processamento interno, que cria um sinal de

sada como uma funo do sinal de entrada. Entretanto, diferentemente dos

neurnios reais, o neurnio artificial tem como sada um nmero e apresenta

mudanas somente em um intervalo discreto de tempo, conforme ilustrado na

Figura 3.12.

22

Figura 3.12: Analogia entre neurnios biolgicos e artificiais. (WU e MCLARTY, 2000).

Uma RN caracterizada pelo (i) padro de conexes entre os neurnios

(chamado de arquitetura), (ii) mtodo de determinao de pesos nas conexes

(chamado de treinamento ou aprendizagem) e (iii) sua funo de ativao. Esses

parmetros esto descritos ao longo desta e das prximas sees.

Os neurnios (Figura 3.13) so conectados por vnculos orientados. Assim,

pode-se representar uma RN como um grafo direcionado com peso ou arquitetura

(MOUNT, 2000). Um vnculo da unidade j para a unidade i serve para propagar a

ativao aj desde j at i. Cada vnculo tambm tem um peso numrico Wji associado

a ele, o qual determina a intensidade e o sinal da conexo. Especificamente, um

sinal aj na entrada da sinapse i conectada ao neurnio j multiplicada pelo peso

sinptico Wji (HAYKIN, 1999; RUSSEL e NORVIG, 2003).

Aps, cada unidade i calcula inicialmente uma soma ponderada de suas

entradas:

Ento ela aplica uma funo de ativao g a essa soma para derivar a sada:

importante ressaltar que h a incluso de parmetro externo do neurnio

23

Figura 3.13: Modelo de um neurnio artificial (RUSSELL e NORVIG, 2003).

A ativao da sada da unidade ai =

onde aj ativao de sada da unidade j e W

ji o peso no vnculo da unidade j at essa unidade.

)(0

=n

jjji aWg

=

=n

j

jjii aWin

0

. (3.6)

.)(

0

==

=

n

j

jjiii aWginga(3.7)

artificial, um bias W0i (Figura 3.12) conectado a uma entrada fixa a0= -1. O termo W0i

define o limite real para a unidade, no sentido de que a unidade ativada quando a

soma ponderada de entradas reais excede W0i. A funo de

ativao g projetada para atender duas aspiraes: primeiro, a unidade de estar

ativa (prxima de +1) quando as entradas positivas forem recebidas e negativas

(prxima a 0) quando as entradas erradas forem recebidas. Em segundo lugar, a

ativao precisa ser no-linear, caso contrrio a RN inteira entrar em colapso,

tornando-se uma funo linear simples (HAYKIN, 1999; RUSSEL e NORVIG, 2003).

Uma arquitetura com melhor capacidade de generalizao constitui-se de

redes com mltiplas camadas, chamadas de Multilayer Perceptron (MLP), sendo o

caso mais comum aquelas que envolvem uma nica camada oculta, conforme

ilustrado na Figura 3.14. Segundo Hornik (1989), as RNs com uma nica camada

oculta so aproximadores universais, pois aproximam qualquer funo com preciso

arbitrria. A funo dos neurnios ocultos intervir entre a entrada externa e a sada

de maneira til. A vantagem de adicionar camadas ocultas que ela aumenta o

espao de hipteses que a rede pode representar e, assim, capaz de extrair

estatsticas de ordem elevada. Isto particularmente valioso quando o tamanho da

camada de entrada grande.

Redes com muitas camadas ocultas so menos eficientes pois requerem

maior tempo de computao e apresentam menor capacidade de generalizao

quando comparadas s redes com uma camada oculta. Alm disso, a extrao das

regras da rede se torna mais difcil.

24

Figura 3.14: Rede MLP com trs camadas (RUSSELL e NORVIG, 2003).

=n

jjji aW

1

3.5.2 Treinamento de Redes Neurais

Segundo Wu e McLarty (2000) a ideia fundamental do aprendizado ou

treinamento, para todas as arquiteturas de RN, atribuir valores a um conjunto de

pesos (inicializado normalmente de forma aleatria), aplicar os dados de entrada

rede e verificar como esta responde a determinados conjuntos de pesos. Se o

desempenho no for satisfatrio, ento os pesos devem ser modificados pelo

algoritmo especfico da arquitetura e repetir o procedimento. Este procedimento

deve ser repetido at que algum critrio de parada pr-especificado seja atingido.

A passagem de todos os vetores dos dados de entrada atravs da rede

chamado de poca. Alteraes nos pesos podem ser feitas a cada padro

processado (treinamento on-line) ou aps uma poca inteira (treinamento em lote),

sendo esta ltima o procedimento mais utilizado. O objetivo do treinamento

encontrar o conjunto de parmetros (nmero de camadas, nmero de neurnios nas

camadas e pesos entre as camadas) que minimize a diferena entre os valores de

sada da rede e os valores desejados. No entanto, se a rede tiver uma arquitetura

com muitas camadas ocultas ou for treinada por muitas pocas (a quantidade de

pocas neste caso varia de acordo com os dados a rede envolvida), ela ser capaz

de memorizar todos os exemplos. Isto chamado de overtraining, j que a rede

forma uma extensa tabela de busca mas no realiza boas generalizaes para

entradas que no foram vistas antes.

Uma das maneiras de testar a exatido da rede tentar vrias arquiteturas e,

com a tcnica de validao cruzada, verificar qual apresenta os melhores resultados.

A tcnica de validao cruzada, ou k-fold-cross-validation (k-FCV), consiste em

particionar aleatoriamente o arquivo de padres em k partes de mesmo tamanho.

Assim, ocorre a gerao dos arquivos para treinamento e validao. As etapas de

treinamento e validao so repetidas k vezes, sendo utilizados para treinamento

k-1 arquivos e para validao o k-simo arquivo no utilizado no treinamento. A cada

iterao, o arquivo de validao possui um k diferente.

Outros mtodos de validao que podem ser citados so: holdout e jackknife.

O mtodo holdout consiste em separar, de forma aleatria, o arquivo de padres em

dois arquivos. O de treinamento tipicamente conter dois teros dos dados e o de

validao o um tero restante. J o mtodo jackknife, conhecido com leave-one-out,

semelhante ao k-FCV, mas k igual ao nmero de linhas do arquivo de padres.

25

Com isto, cada arquivo de validao conter somente uma linha em cada etapa do

processo.

O procedimento utilizado para realizar o processo de aprendizagem

chamado algoritmo de aprendizagem, e sua funo modificar os pesos sinpticos

de forma a alcanar o objetivo desejado. Os algoritmos de aprendizado podem ser

supervisionados ou no-supervisionados, embora aspectos de cada um possam co-

existir em uma dada arquitetura. O treinamento supervisionado acompanhado pela

apresentao de uma sequncia no vetor de treinamento associada com um vetor

de sada alvo. Um ingrediente essencial neste tipo de aprendizado a

disponibilidade de um professor externo. Em termos conceituais, podemos pensar

que o professor tem o conhecimento da sada desejada. O conhecimento disponvel

pelo professor ento transferido RN atravs de ajustes iterativos para minimizar

o erro de acordo com o algoritmo de aprendizado (WU, 1997). Como exemplo, os

algoritmos: Back-propagation (BP), Resilient Proapagation, Cascade Correlation,

Kohonen e Quickprop. A principal diferena entre eles est, principalmente, no modo

como os pesos da rede so ajustados.

Um algoritmo de aprendizado supervisionado tem o objetivo de minimizar a

diferena entre o valor de sada da rede e o valor desejado. Uma tpica funo de

erro a ser minimizada :

onde n o nmero de padres de entrada, yi a sada da rede (para um dado

conjunto de parmetros w) e hw(x) o valores esperado de sada. Se uma rede possui

mais que uma unidade na camada de sada, ento a equao 3.8 se torna:

onde k o nmero de unidades na camada de sada (WU e McLARTY, 2000).

O treinamento no-supervisionado ou aprendizado auto-organizvel no

possui um professor externo para verificar o processo de aprendizado. O algoritmo

normalmente guiado pela medida de similaridade sem um vetor alvo de

26

( )( )2

1

=

=n

i

wi xhyE (3.8)

( )( )2

1 1

= =

=n

i

wi

k

j

xhyE (3.9)

especificao. As redes auto-organizveis modificam os pesos at que os vetores

mais similares sejam designados ao mesmo grupo de sada (clusterizao), o qual

representado por um vetor-exemplo. Como exemplo de algoritmo de aprendizado

no-supervisionado, pode-se ser citados os mapas auto-organizveis de Kohonen e

a teoria da ressonncia adaptativa (ART) (WU, 1997).

Rumelhart et al. (1986) criaram um mtodo intuitivo que aprende rapidamente,

revolucionando o campo das RNs. O mtodo foi chamado de BP porque o erro

propagado da sada para a entrada da rede, ou seja, a propagao do erro pode ser

efetuada da camada de sada para a camada oculta e desta para a camada de

entrada. O erro nas camadas ocultas parece misterioso, porque os dados de

treinamento no informam que valor os neurnios ocultos devem ter. O processo de

propagao de retorno emerge diretamente de uma derivao do gradiente de erro

global e da aplicao da regra da cadeia (WU e McLARTY, 2000; RUSSELL e

NORVIG, 2003).

Uma RN multicamadas tem trs caractersticas distintas:

1. O modelo de cada neurnio da rede inclui uma funo de ativao no-

linear, como a funo logstica.

2. A rede contm uma ou mais camadas de neurnios ocultos, que no so

parte da entrada ou da sada da rede. Estes neurnios capacitam a rede a aprender

tarefas complexas extraindo progressivamente as caractersticas mais significativas

dos vetores de entrada.

3. A rede exibe um alto grau de conectividade, determinado pelas sinapses da

rede.

Estas caractersticas conferem o poder computacional da MLP, mas tambm

so responsveis pelas deficincias na compreenso do comportamento da rede

(HAYKIN, 1999).

3.6 EXTRAO DE REGRAS

A metodologia de RNs possui uma grande aplicabilidade nos mais diversos

problemas, mas uma de suas desvantagens que o conhecimento adquirido por

elas no diretamente acessvel. Com objetivo de diminuir esta dificuldade, muitos

algoritmos para extrao de regras a partir das RNs treinadas tm sido

27

desenvolvidos. Assim, as redes tornam-se mais atrativas que outras tcnicas de AM

j que fornecem uma explicao de como cada deciso feita (ODAJIMA et al.,

2007).

3.6.1 Extrao de Regras a Partir de Redes Neurais

Uma das caractersticas mais atrativas das RNs que elas no requerem um

conhecimento prvio da aplicao do problema para a construo do modelo. Assim,

para tornar esta metodologia realmente compreensvel ao usurio, desejvel

extrair conhecimento a partir de redes treinadas (WU e MCLARTY, 2000). Muitas

vezes, as RNs so denominadas de caixa preta, em particular por no fornecer ao

usurio nenhuma informao sobre o conhecimento adquirido. Embora isto

geralmente seja verdadeiro, especialmente para redes multicamadas, existem

mtodos para analisar RNs e extrair regras ou caractersticas. Estas regras incluem:

regras de inferncia (if-then-else), rvores de deciso, regras difusas, entre outras.

Conforme Andrews et al. (1995), a extrao de regras pode oferecer alguns

benefcios listados a seguir:

- descoberta de novos relacionamentos e/ou caractersticas importantes a

partir das regras extradas;

- expresso do conhecimento de modo formal;

- capacidade de gerar explicaes para as decises tomadas internamente

pela RN, de modo que facilite a aceitao do uso da rede pelos usurios;

- integrao com sistemas simblicos e a possibilidade de descobrir em que

situaes a rede pode cometer erros de generalizao;

- identificao de regies no espao de entrada que no se fizeram

representar no conjunto de treinamento.

Alm disso, as regras extradas a partir das RNs podem ser apresentadas

para anlise de um especialista. Assim, as regras corretas podem ser usadas para

gerar padres de treinamento adequados, os quais podem melhorar a capacidade

de generalizao (CLOETE e ZURADA, 2000). Uma vez que este trabalho visa

extrair regras a partir de RNs, a prxima seo descreve brevemente alguns tipos de

regras, com nfase maior s regras do tipo if-then.

28

3.6.2 Tipos de regras

A extrao de regras a partir de RNs baseada no comportamento dos

neurnios, sendo a relao entre as entradas e as sadas usualmente analisada

(CLOETE e ZURADA, 2000; HUANG e XING, 2005). Conforme Andrews et al.

(1995), h muitos tipos de regras que podem ser extrados das RNs, mas o

desenvolvimento de tcnicas de extrao de regras tem sido mais direcionado

apresentao da sada como um conjunto de regras expressas, usando a forma

convencional de lgica simblica na forma if...then...else....

Neste tipo de regra, a parte SE especifica um conjunto de condies sobre

valores de atributos previsores e a parte ENTO especifica um valor previsto para o

atributo de sada. Os atributos previsores so as premissas da regra que devem ser

obedecidas, para assim obter um atributo classe.

IF < condio> THEN ()

A condio , tipicamente, uma expresso lgica que contm variveis

relevantes das quais os valores podem ser inferidos a partir das bases de fatos ou

fornecidos pelo usurio. A concluso determina o valor de alguma varivel que

corresponde a condio ser satisfeita. O grau de certeza ou validade da regra

expressa pelo seu percentual de confiana (CLOETE e ZURADA, 2000). A extrao

de regras realizada atravs da interpretao dos pesos da rede neural.

As regras do tipo if-then podem ser utilizadas posteriormente em um sistema

de inferncia lgica para a resoluo de problemas. Um segundo uso destas regras

pode ser a gerao de regras para um sistema baseado em conhecimento. Deve-se

observar, tambm, que quanto mais curtas as regras (em termos de nmeros de

clusulas) melhor, pois regras curtas geralmente podem ser aplicadas a mais

situaes (CLOETE e ZURADA, 2000).

3.6.3 Regras obtidas a partir dos neurnios da camada oculta

Para a obteno de regras a partir dos neurnios da camada oculta da RN

treinada, o programa denominado FAGNIS (CECHIN, 1998), analisa o valor de

ativao dos neurnios na camada oculta e os classifica em trs regies, conforme

ilustrado na Figura 3.15. Aqui, encontra-se uma breve explicao desta ferramenta.

Uma descrio mais detalhada pode ser encontrada no captulo II dos resultados

desta tese.

29

A ferramenta FAGNIS, verifica em qual das regies a ativao dos neurnios

ocultos se enquadram para cada entrada da rede, O nmero mximo de

combinaes possveis 3n, onde n simboliza o nmero de neurnios na camada

oculta. No entanto, nem todas estas combinaes ocorrem e, somente as

combinaes mais frequentes so consideradas, pois melhor representam os dados.

Como resultado, temos o prottipo da regra, o qual definido como a mdia das

entradas de cada grupo (combinao das regies). Assim, a escrita formal da regra

possui a forma de uma equao linear: SE X prottipo ENTO Y = constante da

equao linear + (os coeficientes da equao linear) * X. Aqui, X o exemplo de

entrada; Y corresponde sada da RN e os coeficientes da equao linear

representam a influncia dos exemplos na sada da RN.

3.7 CONSIDERAES ADICIONAIS

Os promotores so importantes reguladores da expresso gnica e, a reviso

bibliogrfica sobre o estado da arte mostrou os esforos realizados para melhorar a

acurcia da predio e a importncia de estender o estudo para outras espcies

bacterianas alm de E. coli. Nesta seo no h descrio de trabalhos relacionados

com a extrao de regras a partir de RNs aplicadas predio de promotores, pois

no foi encontrado nenhum artigo at o trmino da reviso bibliogrfica. Este

trabalho pretende extrair regras de inferncia das RNs treinadas para compreender

o processo de classificao e, a partir das regras criar uma ferramenta prpria para

a predio de promotores de bactrias Gram-negativas.

30

Figura 3.15: Ilustrao das trs regies definidas na funo sigmide para anlise dos dados de entrada e extrao de regras.

4 METODOLOGIA

Nesta seo, uma viso geral da metodologia desenvolvida descrita. Para

facilitar a compreenso dos procedimentos realizados, apresenta-se um fluxograma

(Figura 4.1) com todas as etapas da metodologia. A descrio das etapas

apresentadas na Figura 4.1 so descritas nos captulos I IV dos resultados.

4.1 ORGANISMOS ESTUDADOS

Os organismos escolhidos foram as bactrias E. coli, as do gnero Shigella,

Pseudomonas, Salmonella e Aeromonas. Assim, abrange-se uma ampla variedade

de representantes das bactrias Gram-negativas. Salienta-se que neste estudo, as

bactrias Gram-positivas no foram consideradas por apresentarem diferentes

caractersticas em relao s Gram-negativas, no que diz respeito composio

qumica, estrutura e permeabilidade da parede celular, alm de diferenas

fisiolgicas, de metabolismo e patogenicidade.

31

4.2 BANCOS DE DADOS

As regies promotoras, as regies intergnicas e os dados relacionados s

caractersticas dos promotores foram retirados de bancos de dados biolgicos e de

artigos cientficos. Os bancos de dados pblicos utilizados foram:

32

Figura 4.1: Estrutura da metodologia proposta para o uso de RN no reconhecimento e predio de promotores.

- CMR: banco de dados de genomas procariticos (PETERSON et al., 2001).

Nele se encontram dados de genomas completos, de regies especficas (genes,

promotores, regies intergnicas, homologias), entre outras ferramentas. As

informaes esto disponveis no endereo de internet: http://cmr.jcvi.org/cgi-

bin/CMR/CmrHomePage.cgi

- NCBI: maior base de dados pblica de sequncias genticas. Desta podem-

se extrair sequncias de genes, protenas, genomas completos, dados de homologia

e expresso gnica, alm de possuir informaes sobre os artigos relacionados a

cada descoberta gentica (WHEELER et al., 2008). As informaes esto

disponveis no endereo de internet: http://www.ncbi.nlm.nih.gov.

- RegulonDB: base de dados que contm informaes acuradas sobre a rede

regulatria de E. coli com conhecimento experimental. H dados sobre a

organizao de operons, promotores e seu fator sigma associado, entre outros

(GAMA-CASTRO et al., 2008). As informaes esto disponveis no endereo de

internet: http://regulondb.ccg.unam.mx/index.html.

4.3 FERRAMENTAS

As principais ferramentas computacionais utilizadas foram:

- Python: linguagem de programao escolhida para desenvolver programas

que automatizem a preparao de dados para as etapas de treinamento e teste

(PYTHON SOFTWARE FOUNDATION, 2009).

- R: software para manipulao e anlise de dados. Este software permite a

realizao de anlise estatstica, treinamento de RNs, extrao de regras, entre

outras funes (R DEVELOPMENT CORE TEAM, 2005).

- SPSS: software para anlise estatstica. Permite a realizao de grficos e

outras funes (SPSS).

- Tisean: software de domnio pblico que realiza a suavizao de dados

atravs de um filtro passa-baixa LowPass (HEGGER et al., 1999).

- WEBLOGO: aplicao da web (de uso livre) para a gerao de sequencias

logo. Estas so uma representao grfica de aminocidos ou cidos nucleicos de

mltiplos alinhamentos. Cada logo consiste em empilhamento dos smbolos, um

para cada posio da sequncia. O tamanho geral dos empilhamentos indica o grau

33

de conservao da sequncia em determinada posio, enquanto que o tamanho do

smbolo indica a frequncia relativa do aminocido ou nucleotdeo em cada posio

(CROOKS et al., 2004).

4.4 CRIAO DE BANCO DE DADOS DE REGIES INTERGNICAS

A criao do banco de dados se faz necessria uma vez que no existem

repositrios pblicos de dados sobre os promotores pertencentes a outras bactrias

Gram-negativas que no E. coli. Assim, desta necessidade, implantamos uma base

de dados com as regies intergnicas. Esta base dados arquiva as sequncias

intergnicas e outras informaes associadas, como porcentagem de GC, genes

associados, tamanho, localizao na fita de DNA, entre outras informaes. Esta

base de dados foi desenvolvida em conjunto com professores e alunos do Centro de

Computao e Tecnologia da Informao e est descrita no captulo IV.

34

5 RESULTADOS

Esta seo apresenta os resultados obtidos na forma de artigos cientficos,

sendo organizada em cinco captulos, nos quais so apresentados:

Captulo I- Rules extraction from neural networks applied to prediction and

recognition of prokaryotic promoters.

Captulo II - BacPP: Bacterial promoter prediction - A tool for accurate

sigma-factor specific assignment in enterobacteria.

Captulo III- Neural Networks applied to bacterial promoter prediction based

on DNA stability.

Captulo IV- Banco de dados IntergenicDB.

35

5.1 CAPTULO I - RULES EXTRACTION FROM NEURAL

NETWORKS APPLIED TO PREDICTION AND RECOGNITION OF

PROKARYOTIC PROMOTERS

Este captulo apresenta o artigo Rules extraction from neural networks

applied to the prediction and recognition of prokaryotic promoters, publicado na

revista Genetics and Molecular Biology. Esta revista possui fator de impacto 0,08

(para os ltimos 3 anos, conforme informao disponvel no web site da revista

http://statbiblio.scielo.org//stat_biblio/index.php?

state=19&lang=en&country=scl&issn=1415-

4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011) e

classificada pela CAPES como B1 na rea de avaliao Interdisciplinar. O trabalho

pode ser acessado on-line pelo doi dx.doi.org/10.1590/S1415-47572011000200031.

Este artigo descreve os resultados das simulaes de RNs utilizando a codificao

ortogonal e os valores de estabilidade e mostra as regras extradas de cada

arquitetura.

36

http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011

Rules extraction from neural networks applied to the prediction

and recognition of prokaryotic promoters

Scheila de Avila e Silva, Gnther J.L. Gerhardt and Sergio Echeverrigaray

Programa de Ps-Graduao em Biotecnologia, Universidade de Caxias do Sul, Caxias do Sul, RS, Brazil.

Abstract

Promoters are DNA sequences located upstream of the gene region and play a central role in gene expression.

Computational techniques show good accuracy in gene prediction but are less successful in predicting promoters,

primarily because of the high number of false positives that reflect characteristics of the promoter sequences. Many

machine learning methods have been used to address this issue. Neural Networks (NN) have been successfully

used in this field because of their ability to recognize imprecise and incomplete patterns characteristic of promoter

sequences. In this paper, NN was used to predict and recognize promoter sequences in two data sets: (i) one based

on nucleotide sequence information and (ii) another based on stability sequence information. The accuracy was ap-

proximately 80% for simulation (i) and 68% for simulation (ii). In the rules extracted, biological consensus motifs were

important parts of the NN learning process in both simulations.

Key words: neural network, promoter, rule extraction.

Received: March 26, 2010; Accepted: January 11, 2011.

Introduction

The determination of how and when genes are turned

on and off is a challenge in the post-genomic era. Differ-

ences between two species are often more related to gene

expression and regulation than to their structures (Howard

and Benson, 2002). An adequate comprehension of the

complex metabolic networks present in various organisms,

including cellular differentiation and cellular responses to

environmental change, can be facilitated by studying of

promoter sequences, i.e., short sequences located before the

transcription start site (TSS) of a gene (Juregui et al.,

2003; Pandey and Krishnamachari, 2006).

Promoters act as gene expression regulators through

their ability to interact with the enzyme RNA polymerase,

thereby initiating transcription. The factor moiety of the

RNA polymerase, of which there are several types, are in-

volved in the recognition and primary interaction with the

promoters. Various bacterial factors interact with differ-

ent promoter sequences that are characterized by particular

consensus motifs and properties. Most prokaryotic promot-

ers have two consensus hexameric (six nucleotides) motifs:

one centered at position -35 and another centered at posi-

tion -10 relative to the TSS. For factor 70, the pattern se-

quences for these motifs are TTGACA and TATAAT for

positions -35 and -10, respectively, and are separated by

~17 non-conserved nucleotides (Lewin, 2008).

As an analogy, the downstream sequences (genes)

represent the computer memory while the upstream se-

quences (promoters) represent the computer program

that acts on this memory. The study of promoters can pro-

vide new models for developing computer programs and

for explaining how they operate (Howard and Benson,

2002). Despite the importance of promoters in gene expres-

sion, the shortness of their sequences, many of which are

not highly conserved, makes them difficult to detect when

compared to genes sequences. This characteristic limits the

accuracy of in silico methods because many nucleotide al-

terations may not be significant in terms of promoter func-

tionality (Howard and Benson, 2002; Burden et al., 2005;

Kanhere and Bansal, 2005b).

There are many machine learning approaches for pro-

moter recognition and prediction, including Hidden Mar-

kov Models HMM (Pedersen et al., 1996), Support

Vector Machines SVM (Gordon et al., 2003) and Neural

Networks NN. The earliest NN used for promoter predic-

tion had a simple architecture (Demeler and Zhou, 1991;

ONeill, 1991). In these papers, the prediction had good ac-

curacy but the number of false positives was high. Maha-

devan and Ghosh (1994) used two NN: one to predict

motifs and another to recognize the complete sequence.

The Neural Networks Promoter Prediction (NNPP) pro-

gram was implemented by Oppon (2000) and improved by

Burden et al. (2005), who included information about the

Genetics and Molecular Biology, 34, 2, 353-360 (2011)

Copyright 2011, Sociedade Brasileira de Gentica. Printed in Brazil

www.sbg.org.br

Send correspondence to Scheila de Avila e Silva. Instituto de Bio-

tecnologia, Universidade de Caxias do Sul, Rua Francisco Getlio

Vargas 1130, 95070-560 Caxias do Sul, RS, Brazil. E-mail:

scheila.as@gmail.com.

Research Article

distance between TSS and the first nucleotide translated,

thereby decreasing the number of false positives.

Apart from consensus motifs, promoters have certain

physical features, such as stability, curvature and benda-

bility, that make them different from gene sequences, i.e.,

they are less stable, more curved and more bendable (Ka-

nhere and Bansal, 2005a). The latter authors subsequently

used promoter stability information to develop a procedure

that recognizes promoters in whole sequences (Kanhere

and Bansal, 2005b). However, despite the importance of

these physical features, they have not been widely used in

NN promoter prediction.

Neural networks are suitable for promoter prediction

and recognition because of their ability to identify degener-

ated, imprecise and incomplete patterns present in these se-

quences. In addition, NNs perform well when processing

large genome sequences (Kalate et al., 2003; Cotik et al.,

2005). A further feature is that there is no need for prior

knowledge when building a suitable model. An important

procedure in NN methods is rule extraction from trained

networks that can assist the user in identifying biological

rules from the input data (Andrews et al., 1995). In this pa-

per, we describe the use of a NN to predict and recognize

prokaryotic promoters by comparing two data sets: (i) nu-

cleotide sequence information and (ii) stability sequence

information of E. coli promoters, regardless of the factor

that recognizes the sequence.

Material and Methods

The promoter sequences used were obtained from the

January 2006 version of the RegulonDB database (Gama-

Castro et al., 2008). Nine hundred and forty promoters and

940 random sequences were used to train and test the NN.

The promoters and sequences represented positive and neg-

ative examples, respectively. The random sequences were

generated with a probability of 0.22 for guanine (G) or cy-

tosine (C) nucleotides and 0.28 for adenine (A) or thymine

(T) nucleotides, based on the distribution of these nucleo-

tides in real promoter sequences (Kanhere and Bansal,

2005a). The examples were shuffled and allocated to one of

ten files in order to generate the train and test set. Two sim-

ulations were done, one based on nucleotide sequences and

the other on stability information. The procedures are de-

scribed below.

Simulation based on nucleotide sequences

In the simulation using nucleotide sequences (re-

ferred to as the sequence-based simulation) the promoters

and random sequences were initially aligned with the soft-

ware ClustalW (Thompson et al., 1994) to accommodate

the variable sequence length between the motifs. Without

this initial alignment, the NN does not provide good accu-

racy. The alignment introduced gaps in the sequences, rep-

resented by a short line (-). The gaps were inserted where

necessary (at the beginning, middle or end of a sequence)

(Figure 1). The short line (-) was removed from the begin-

ning and end of the sequence to avoid incorrect learning by

the NN. Consequently, the resulting promoter sequences

contained 72 nucleotides. After alignment, the nucleotides

and gaps were encoded using a set of four binary digits as

described by Demeler and Zhou (1991): A = 0100,

T = 1000, C = 0001, G = 0010 and - = 0000.

The architecture used to classify the sequences had

288 input neurons (72 bp x four digits for each nucleotide),

two neurons in the hidden layer and one neuron in the out-

put layer (Figure 2a). The presence of a large number of

neurons in the hidden layer or in the output layer did not in-

crease the accuracy of the procedure.

Simulation using promoter sequence stability

The stability of DNA molecules can be expressed in

terms of their free energy (G), which in turn depends on

the mononucleotide and dinucleotide composition (San-

taLucia and Hicks, 2004). The stability of a DNA duplex

can be predicted from its sequence based on the contribu-

tion of each nearest-neighbor interaction (SantaLucia and

Hicks, 2004; Kanhere and Bansal, 2005a). The contribution

of each dinucleotide is described in SantaLucia and Hicks

(2004).

To do the simulation using the free energy informa-

tion, denoted as the stability-based simulation, G was cal-

culated using the following formula, described in SantaLu-

cia and Hicks (2004) and Kanhere and Bansal (2005a):

G0 = Gij (1)

where G0ij is the standard free energy change for

dinucleotides of type ij. The original formula described in

Kanhere and Bansal (2005a) was modified to adjust its ade-

quacy to the goals of this paper. The best architecture ob-

354 Avila-Silva et al.

Figure 1 - Examples of promoter sequences aligned by ClustalW software.

tained to classify the sequences had 81 neurons in the input

layer, four hidden neurons and one output neuron (Figu-

re 2b).

Training and analysis procedures

Both simulations were done in the R Environment (R

Development Core Team, 2005). The algorithm back-pro-

pagation (BP) was chosen because it is the most popular al-

gorithm for training feedfoward networks (Kalate et al.,

2003). NNs based on the BP training algorithm have been

successfully used for various applications in biology in-

volving non-linear input-output modeling and classifica-

tion (Mahadevan and Gosh, 1994; Kalate et al., 2003;

Burden et al., 2005). The ten-fold cross-validation method

was used to obtain statistically valid results. The k-fold

cross-validation (k-FCV) technique consists in randomly

sharing the examples archive in k equal portions. The train

and validation were repeated k times, using k-1 archives to

train and kth archives for validation. In each interaction, the

validation archive had a different k (Polate and Gnes,

2007).

The accuracy (A), specificity (S) and sensitivity (SN)

were calculated from the number of true positives (TP), true

negatives (TN), false positives (FP) and false negatives

(FN). The TP were promo

RNAs aplicadas reconhecimento regioes promotoras bacterias ...

Documents

Transcript of RNAs aplicadas reconhecimento regioes promotoras bacterias ...

Metabolismo hongos bacterias - eliana

Regioes brasil desennho

Seminario regioes do brasil

Bacterias Comedoras de Carne

Aula bacterias e_doencas_associadas

Mutacoes Em Bacterias

Caracteristicas gerais de bacterias

Regioes Caracteristicas de Precipitacoes

Recursos Hidricos Em Regioes Semiaridas

Ciano Bacterias

Reino Monera (bacterias)

Regioes 130111

Aula Microbiologia - Bacterias Anaerobias

Aula Bacterias Pdf752010104951

Apicultura Em Regioes Tropicais

3. Aprendizado de RNAs - edisciplinas.usp.br

Apresentação bacterias

Ana Mendez Assentados Nas Regioes Celestiais

114893397 FITO Bacterias

Regioes agrarias