RNAs aplicadas reconhecimento regioes promotoras bacterias ...

108
UNIVERSIDADE DE CAXIAS DO SUL CENTRO DE CIÊNCIAS AGRÁRIAS E BIOLÓGICAS INSTITUTO DE BIOTECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA NÍVEL DE DOUTORADO Redes neurais artificiais aplicadas no reconhecimento de regiões promotoras em bactérias Gram-negativas Scheila de Avila e Silva Caxias do Sul 2011

Transcript of RNAs aplicadas reconhecimento regioes promotoras bacterias ...

  • UNIVERSIDADE DE CAXIAS DO SUL

    CENTRO DE CINCIAS AGRRIAS E BIOLGICAS

    INSTITUTO DE BIOTECNOLOGIA

    PROGRAMA DE PS-GRADUAO EM BIOTECNOLOGIA

    NVEL DE DOUTORADO

    Redes neurais artificiais aplicadas no reconhecimento

    de regies promotoras em bactrias Gram-negativas

    Scheila de Avila e Silva

    Caxias do Sul

    2011

  • Scheila de Avila e Silva

    Redes neurais artificiais aplicadas no reconhecimento

    de regies promotoras em bactrias Gram-negativas

    Tese apresentada ao Programa de Ps-Graduao em

    Biotecnologia da Universidade de Caxias do Sul,

    visando a obteno do grau de Doutor em Biotecnologia.

    Orientador: Prof. Dr. Sergio Echeverrigaray

    Co-orientador: Prof. Dr. Gnther J. L. Gerhardt

    Caxias do Sul

    2011

  • No fim voc vai ver que as coisas mais leves so

    as nicas que o vento no conseguiu levar

    Mrio Quintana.

    A Joo Carlos Sartor,pelo carinho e companheirismo.

  • AGRADECIMENTOS

    minha famlia, pelo apoio em mais esta etapa de minha vida.

    Ao meu orientador, Prof. Dr. Sergio Echeverrigaray, pelo apoio e contribuies

    realizadas ao longo da realizao da tese.

    Ao Prof. Dr. Gnther J. L. Gerhardt, pela orientao durante a bolsa de

    Iniciao Cientfica na Graduao, pelo encaminhamento ao curso de mestrado e

    pelas contribuies realizadas.

    s Prof. Dr Ana Paula Longaray Delamare e Prof. Dr Helena Graziottin

    Ribeiro pelo acompanhamento e colaboraes pertinentes realizadas.

    Universidade de Caxias do Sul e ao PPG em Biotecnologia pelo apoio ao

    projeto e ao Ncleo de Pesquisa em Bioinformtica.

    Ao Prof. Dr. Aldo J. P. Dillon pelo incentivo.

    Ao Prof. Dr. Adelmo Cechin (in memorian) pela orientao no desenvolvimento

    da dissertao de mestrado.

    s bolsistas de iniciao cientfica que contriburam neste trabalho: Franciele

    Forte, Ivaine Tas Sauthier Sartor e Tahila Andrighetti.

    Aos alunos de graduao que, ao realizar seu trabalho de concluso

    contriburam para o trabalho: Maurcio Adami Mariani, Daniel Jos dos Santos,

    Vanessa Davanzo, Dase Lima da Silva, Rodrigo Cicconet, Marlon Maciel Abreu.

    Aos colegas do laboratrio de Biotecnologia Vegetal e Microbiologia Aplicada

    pelo clima descontrado de trabalho e coleguismo nos crditos cursados.

    Aos colegas do Colgio La Salle Caxias pela amizade.

    secretria do PPG, Lucimara Serafini, pela cordialidade e eficincia para

    tratar de questes burocrticas.

  • LISTA DE ABREVIATURAS

    A Nucleotdeo Adenina

    AM Aprendizado de Mquina

    ART Teoria da Ressonncia Adaptativa

    BacPP Bacterial Promoter Predicition

    BDBM Banco de Dados de Biologia Molecular

    BP Algoritmo Backpropagation

    C Nucleotdeo Citosina

    DNA cido Desoxirribonuclico

    E. coli Escherichia coli

    FN Falsos Negativos

    FP Falsos Positivos

    G Nucleotdeo Guanina

    k-FCV k-fold-cross-validation

    LSSVM Least Square Support Vector Machine

    MLP Multilayer Perceptron

    MPP Matriz de Posies Ponderadas

    NNPP Neural Networks Promoter Predicition

    nt nucleotdeo

    pb Pares de Bases

    RN Rede Neural Artificial

    RNA cido Ribonucleico

    RNAm cido Ribonucleico Mensageiro

    RNAp Enzima RNA Polimerase

    RPc Complexo Fechado do Promotor

    RPo Complexo Aberto do Promotor

    SGBD Sistema de Gerncia de Banco de Dados

    SVM Mquinas de Vetor de Suporte (Suport Vector Machine)

    T Nucleotdeo Timina

    TLS Stio de Incio da Traduo

    TSS Stio de Incio de Transcrio

    VN Verdadeiros Negativos

    VP Verdadeiros Positivos

    i

  • Sumrio

    1 INTRODUO .......................................................................................................1

    2 OBJETIVOS............................................................................................................4

    2.1Objetivos especficos...........................................................................................4

    3 REVISO BIBLIOGRFICA....................................................................................5

    3.1 OS PROMOTORES E A TRANSCRIO DOS GENES................................6

    3.2 RECONHECIMENTO BASEADO EM SINAL................................................12

    3.2.1 Matriz de Posies Ponderadas ............................................................12

    3.3 ANLISE POR APRENDIZADO DE MQUINA............................................15

    3.3.1 Mquinas de suporte vetorial (Support vector machines)...................15

    3.3.2 Redes Neurais........................................................................................17

    3.4 METODOLOGIA UTILIZANDO A VALORES DE ESTABILIDADE...............19

    3.5 FUNDAMENTOS de REDES NEURAIS ARTIFICIAIS..................................22

    3.5.1 Arquitetura das Redes Neurais...............................................................22

    3.5.2 Treinamento de Redes Neurais..............................................................25

    3.6 EXTRAO DE REGRAS ............................................................................27

    3.6.1 Extrao de Regras a Partir de Redes Neurais.....................................28

    3.6.2 Tipos de regras.......................................................................................29

    3.6.3 Regras obtidas a partir dos neurnios da camada oculta......................29

    3.7 CONSIDERAES ADICIONAIS..................................................................30

    4 METODOLOGIA....................................................................................................31

    4.1 ORGANISMOS ESTUDADOS.......................................................................31

    4.2 BANCOS DE DADOS....................................................................................32

    4.3 FERRAMENTAS............................................................................................33

    4.4 CRIAO DE BANCO DE DADOS DE REGIES INTERGNICAS..........34

    5 RESULTADOS .....................................................................................................35

    ii

  • 5.1 CAPTULO I - Rules extraction from neural networks applied to prediction

    and recognition of prokaryotic promoters................................................................36

    5.2 CAPTULO II - BacPP: Bacterial promoter prediction - A tool for accurate sig-

    ma-factor specific assignment in enterobacteria....................................................45

    5.3 CAPTULO III - Neural Networks applied to bacterial promoter prediction

    based on DNA stability ...........................................................................................46

    5.4 CAPTULO IV Banco de dados Intergenicdb..............................................58

    6 CONSIDERAES FINAIS..................................................................................68

    7 REFERNCIAS BIBLIOGRFICAS......................................................................70

    APNDICE 1 - PATENTE INTERNACIONAL DA FERRAMENTA BacPP..................75

    iii

  • ndice de tabelas

    Tabela 3.1: Descrio das subunidades da RNA polimerase holoenzima de E. coli.

    (LEHNINGER et al., 2007)............................................................................................7

    Tabela 3.2: Fatores de E. coli (LEWIN, 2008). .........................................................8

    Tabela 3.3: Resultados obtidos pela metodologia de Jacques et al. (2006)..............14

    Tabela 3.4: Resultados obtidos pelo trabalho de Rani et al. (2006)...........................19

    iv

  • ndice de ilustraes

    Figura 3.1: Dogma central da biologia molecular (LEWIN, 2008)................................6

    Figura 3.2: Representao da regio promotora para uma nica fita de DNA em E.

    coli. (BURDEN et al., 2005-modificado)........................................................................7

    Figura 3.3: Esquema da RNAp de organismos procariotos (LEWIN,2008).................7

    Figura 3.4: Promotor procaritico reconhecido pelo fator 70(LEHNINGER et al.,

    2007)..............................................................................................................................8

    Figura 3.5: Promotores tpicos de E. coli reconhecidos pela RNAp holoenzima 70

    (MADIGAN, 2010). .......................................................................................................9

    Figura 3.6: Etapas da iniciao da transcrio de E. coli (LEWIN et al., 2008).........10

    Figura 3.7: Exemplo da transformao da matriz de alinhamento para a matriz de

    posies ponderadas para a sequncia teste AGGTGC............................................13

    Figura 3.8: Treinamento de SVM (RUSSEL e NORVIG, 2003)..................................15

    Figura 3.9: Fluxograma que ilustra a metodologia desenvolvida pelos autores Polat e

    Gnes (2007)...............................................................................................................16

    Figura 3.10: Codificao ortogonal para os valores de estabilidade, empregado por

    Askary et al. (2009).....................................................................................................18

    Figura 3.11: Fluxograma da metodologia descrita por Rangannan e Bansal (2007). 21

    Figura 3.12: Analogia entre neurnios biolgicos e artificiais. (WU e MCLARTY,

    2000)............................................................................................................................22

    Figura 3.13: Modelo de um neurnio artificial (RUSSELL e NORVIG, 2003).............23

    Figura 3.14: Rede MLP com trs camadas (RUSSELL e NORVIG, 2003)................24

    Figura 3.15: Ilustrao das trs regies definidas na funo sigmide para anlise

    dos dados de entrada e extrao de regras...............................................................30

    Figura 4.1: Estrutura da metodologia proposta para o uso de RN no reconhecimento

    e predio de promotores...........................................................................................32

    v

  • RESUMO

    A regio promotora uma sequncia de DNA localizada anteriormente uma

    regio codificante e responsvel por iniciar o processo de transcrio. Deste modo,

    atua como um elemento regulador. O estudo da regulao da expresso gnica

    auxilia na compreenso da maquinria vital dos seres vivos, no conhecimento sobre

    a funcionalidade dos genes em diferentes espcies, na resposta celular frente s

    mudanas ambientais, entre outras questes. Embora os mtodos computacionais

    para a predio de genes possuam uma boa acurcia o mesmo no conseguido

    para os promotores. Esta dificuldade se deve ao tamanho reduzido do promotor e ao

    padro pouco conservado, o que gera resultados com alto nmero de falsos

    positivos. Esta tese teve como objetivo a utilizao de Redes Neurais Artificiais na

    predio, caracterizao e reconhecimento de promotores de bactrias Gram-

    negativas. Diferente de outros trabalhos, a predio realizada no foi limitada

    apenas aos promotores dos genes constitutivos; foi realizada tambm para as

    demais classes de sequncias promotoras. Alm da abordagem clssica utilizando a

    composio de nucleotdeos foram empregados os valores de estabilidade da

    sequncia. De modo a otimizar o aprendizado da Rede Neural e implementar uma

    ferramenta prpria para a predio de promotores, foram extradas regras de

    inferncia (baseadas no conhecimento produzido durante o treinamento da rede)

    que foram ponderadas e implementadas em uma nova ferramenta, chamada BacPP.

    At o presente, os resultados obtidos com o BacPP foram satisfatrios e

    comparveis com a literatura. Os valores de exatido obtidos com o BacPP para os

    fatores 24, 28, 32, 38, 54 e 70 de E. coli foram, 86,9%; 92,8%; 91,5%; 89,3%;

    97,0%; 83,6%, respectivamente. Quando a ferramenta foi aplicada em promotores

    pertencentes a outras bactrias Gram-negativas, a exatido geral foi de 76%.

    Considerando a importncia da predio de promotores e a ausncia de banco de

    dados com informaes para outras bactrias, implementou-se o IntergenicDB, um

    banco de dados com diversas informaes sobre as sequencias intergnicas e o

    valor de classificao destas para os diferentes fatores bacterianos, conforme os

    resultados obtidos com o BacPP.

    vi

  • ABSTRACT

    The promoter region is located some few base pairs before a coding region. It

    is responsible for initiating gene expression process, thus, it can plays a regulatory

    role. The study about gene expression regulation can assist mainly in the

    comprehension of complex metabolic network presented by several organisms and

    cellular answer considering the environment changes. The computational methods to

    gene prediction have a good accuracy, but this is not achieved in promoter prediction.

    This difficulty occurs because of the length of the promoter and its degenerate

    pattern. Those features can explain results with a great number of false positives

    present in the literature. The present thesis has as its main goal the neural networks

    applied to Gram-negative promoter prediction, recognition and characterization.

    Beside the classical approach with the nucleotides of the sequence, the prediction

    was also made by using stability values. Aiming at developing a own tool for bacterial

    promoter prediction, the rules extraction was carried out and the results were

    weighted and implemented. This tool, named BacPP, presents results comparable

    with the related literature. Currently, the BacPP specific accuracy for 24, 28, 32, 38,

    54 and 70 were 86,9%; 92,8%; 91,5%; 89,3%; 97,0%; 83,6%, respectively.

    Furthermore, when challenged with promoter sequences belonging to other

    enterobacteria BacPP maintained 76% accuracy overall. Currently, there is no

    databases dedicated for other Gram-negative promoter than E.coli. For this reason,

    IntergenicDB was modeled and implemented. This database was projected to collect

    several pieces of information about the sequences and the organisms to which they

    belong and, the classification results originated from BacPP for each sequence.

    vii

  • 1 INTRODUO

    Os fenmenos biolgicos so muito complexos e requerem a integrao de

    muitas reas do conhecimento para a comprovao ou refutao de hipteses. A

    interface interdisciplinar mais antiga (e talvez a mais conhecida) entre a Biologia e as

    Cincias Exatas a Bioestatstica. Gradualmente nos ltimos anos, a Biologia tem

    utilizado, as ferramentas proporcionadas pela Informtica e pela Matemtica para a

    resoluo de problemas nos mais diversos campos: desde a Gentica at a Ecologia

    (BARRERA et al., 2004).

    Um dos maiores desafios da era ps-genmica a determinao de quando,

    onde e como os genes so ligados e desligados. A diferena entre duas espcies

    est muito mais relacionada com a transcrio de seus genes do que com a

    estrutura destes em si. Assim, o estudo da regulao gnica contribui para a

    construo do conhecimento a respeito da funcionalidade dos genes em diferentes

    espcies, na questo da diferenciao celular em organismos multicelulares, na

    resposta celular frente s mudanas ambientais, entre outras questes (HOWARD e

    BENSON, 2003; COTIK et al., 2005).

    Dentre as sequncias de DNA que atuam como reguladoras da expresso

    gnica esto includas as regies promotoras. De uma maneira simplificada, pode-se

    dizer que estas localizam-se anteriormente regio codificante e interagem com a

    enzima RNA polimerase (RNAp), desencadeando o processo de transcrio

    (LEWIN, 2008). Fazendo uma analogia, os elementos downstream (como os genes)

    representam a memria de um computador e os elementos upstream (como os

    promotores) os programas que atuam nesta memria. Assim, o estudo dos

    promotores pode prover modelos sobre a constituio do programa e de como este

    opera (HOWARD e BENSON, 2003).

    1

  • Em organismos procariticos, a holoenzima RNAp formada por cinco

    subunidades e uma subunidade adicional (que se liga de forma transitria) chamada

    fator sigma (). A coleo de diferentes responsvel pela ligao da RNAp em

    determinadas regies dos promotores e a consequente expresso de genes

    especficos de resposta s mudanas ambientais. Os fatores so nomeados

    conforme seu peso molecular (24, 28, 32, 38, 54 e 70) e esto relacionados com

    determinadas funes metablicas e/ou fisiolgicas. Por exemplo, 32 e 24

    desempenham papel na resposta ao estresse por choque trmico, 28 est

    associado com a expresso de genes produtores de clios e flagelos, 54 est

    envolvido na fixao de nitrognio e 70 est relacionado com a expresso de genes

    constitutivos (LEWIN, 2008).

    A regio promotora possui locais especficos e com certo grau de

    conservao, que auxiliam no reconhecimento e na ligao da RNAp nesta regio.

    Alm destes locais, os promotores possuem algumas caractersticas estruturais

    prprias, diferentes das regies no-promotoras, que podem ser incorporadas nos

    estudos destes elementos, tais como a deformabilidade, estabilidade e a curvatura.

    (KANHERE e BANSAL, 2005a; KOZOBAYAVRAHAM et al., 2008).

    As tcnicas moleculares para a identificao de promotores so custosas e

    consomem muito tempo, o que permite que as abordagens in silico ganhem

    aplicabilidade (TOWSEY, 2008). As mais variadas abordagens computacionais tm

    sido empregadas para reconhecer estas regies e predizer se uma regio ou no

    promotora. Dentre estas tcnicas, pode-se destacar Anlise Probabilstica,

    Reconhecimento de Padres e Aprendizado de Mquina (AM). Embora haja

    progressos na predio e anlise de promotores, estes ainda esto longe de possuir

    uma alta acurcia (RANI et al., 2006).

    A maioria dos trabalhos relacionados so aplicados apenas s sequncias

    promotoras reconhecidas pelo fator 70. Esta tese tem como tema a aplicao de

    Redes Neurais Artificiais (RN) na predio, reconhecimento e caracterizao de

    regies promotoras procariticas conforme o fator que as reconhece. Alm da

    composio de nucleotdeos (nt), suas propriedades estruturais (valores de

    estabilidade) foram utilizadas no treinamento da RN.

    A partir da anlise dos resultados obtidos, com as simulaes de RN, foi

    realizada a extrao de regras a partir das arquiteturas treinadas para cada fator .

    2

  • A extrao de regras um elemento importante no levantamento de hipteses pois

    permite a visualizao de como ocorreu o processo de aprendizagem pela rede,

    uma vez que verifica-se quais elementos da sequncia possuem um papel

    determinante no seu reconhecimento como promotora (ANDREWS et al., 1995). As

    regras foram ponderadas e implementadas em um programa de predio de

    promotores procariticos, chamado de BacPP. Ao analisar uma determinada

    sequncia, o programa atribui um valor de classificao para os fatores

    bacterianos descritos neste trabalho. Considerando a falta de informaes sobre

    outras bactrias Gram-negativas, surgiu a necessidade da implementao de uma

    base de dados relacionada (TOWSEY et al.,2008). O IntergenicDB foi modelado

    para armazenar informaes relevantes sobre a estrutura e bibliografia das

    sequncias intergnicas de bactrias Gram-negativas, alm de armazenar os

    valores de predio obtidos com a ferramenta BacPP.

    O presente trabalho est organizado em 4 sees principais. A seo 3

    constituda de uma reviso bibliogrfica geral, na qual so apresentados os

    conceitos biolgicos e computacionais relevantes para a compreenso de como os

    resultados foram obtidos. Uma viso geral da metodologia apresentada na seo

    4, sendo que os detalhes da metodologia so apresentados nos captulos da seo

    dos resultados. A seo 5, mostra os resultados na forma de artigos cientficos

    publicados e/ou a serem submetidos publicao em peridicos cientficos.

    3

  • 2 OBJETIVOS

    O objetivo geral deste trabalho reconhecer, predizer e caracterizar regies

    promotoras de diferentes bactrias gram-negativas, integrando dados fsico-

    qumicos da molcula de DNA com a composio da sequncia por meio de uma

    abordagem de Redes Neurais Artificiais.

    2.1 OBJETIVOS ESPECFICOS

    - Preparar os dados de entrada para a realizao do treinamento;

    - Determinar a melhor arquitetura de RNs para a identificao de regies

    promotoras de acordo com o fator que reconhece a sequncia, utilizando a

    informao dos nt e/ou estabilidade da sequncia;

    - Extrair regras de cada RN treinada para compreenso dos mecanismos

    utilizados no reconhecimento de promotores;

    - Desenvolver uma ferramenta prpria para a predio de promotores com

    base no aprendizado da RN;

    - Aplicar a ferramenta desenvolvida em regies intergnicas de bactrias

    Gram-negativas;

    - Criar de um banco de dados de possveis promotores procariticos utilizando

    diferentes metodologias disponveis;

    4

  • 3 REVISO BIBLIOGRFICA

    O DNA ou cido desoxirribonuclico a molcula universal mais empregada

    no armazenamento da informao gentica (DE ROBERTIS, 1993). Os genes so

    um segmento da molcula de DNA que contm a informao necessria para a

    codificao de seus produtos. Na maioria das vezes, estes produtos so protenas

    que realizam uma funo especfica na clula: estrutural, regulatria ou cataltica. O

    controle de qual gene deve ser expresso em um determinado momento compreende

    um conjunto de mecanismos que torna este processo complexo at mesmo para

    organismos unicelulares, como as bactrias. Este processo conhecido como

    regulao da expresso gnica.

    O estudo de promotores um dos aspectos fundamentais para a

    compreenso da expresso gnica. Ainda que os promotores sejam de importncia

    indiscutvel, a habilidade em identific-los menos desenvolvida que a de encontrar

    regies codificantes. A maior dificuldade no seu reconhecimento in silico que sua

    sequncia muito curta e no apresenta-se completamente conservada (HOWARD

    e BENSON, 2003; BURDEN, et al., 2005; KANHERE e BANSAL, 2005b;

    SIVARAMAN et al., 2005).

    As prximas sees descrevem o processo de transcrio dos genes em

    organismos procariotos, o papel do promotor para o seu desencadeamento e as

    abordagens in silico para a predio de sequncias promotoras, sendo que esta

    seo foi submetida para publicao como captulo de livro. Alm disso, so

    apresentados os fundamentos sobre as RNs, j que estas foram escolhidas como a

    tcnica de AM da metodologia deste trabalho.

    5

  • 3.1 OS PROMOTORES E A TRANSCRIO DOS GENES

    Quando um gene expresso, sua informao copiada na forma de cido

    ribonucleico (RNA) que por sua vez, dirige a sntese dos produtos elementares dos

    genes. Este processo denominado como dogma central da Biologia Celular, que

    pode ser visualizado na Figura 3.1.

    A iniciao da transcrio dos genes inicia quando a enzima RNAp liga-se em

    sequncias especficas do DNA, denominadas de promotores. Em E. coli, a ligao

    da RNAp ocorre dentro de uma regio que se estende desde cerca de 70 pares de

    base (pb) antes do stio de incio da transcrio (TSS) at cerca de 30 pb alm dele.

    Por conveno, os pb de DNA que correspondem ao incio de uma molcula de

    RNAm recebem nmeros positivos, sendo esta parte do DNA denominada de regio

    downstream. J a regio upstream corresponde aos nt que precedem o stio de

    incio da transcrio recebem nmeros negativos (Figura 3.2).

    6

    Figura 3.1: Dogma central da biologia molecular (LEWIN, 2008).

  • A enzima RNAp desempenha um importante papel no incio da transcrio

    como reconhecedora das sequncias promotoras. Ela contm cinco unidades

    bsicas: duas subunidades , uma subunidade , uma e uma subunidade .

    Essas cinco subunidades formam o core da RNAp. Alm destas, h uma subunidade

    designada fator , que liga-se transitoriamente ao core e direciona a enzima para

    stios de ligao especficos do DNA. Quando o fator est associado RNAp, ela

    passa a ser chamada de RNAp holoenzima. Na Tabela 3.1, esto as subunidades da

    RNAp, seu gene codificante e sua funo no processo de transcrio e na Figura 3.3

    encontra-se um esquema desta enzima.

    Tabela 3.1: Descrio das subunidades da RNA polimerase holoenzima de E. coli. (LEHNINGER et al., 2007).

    Subunidades Funo na RNAp Ligao a protenas regulatrias e ' Atividade cataltica Reconhecimento do promotor e especificidade Acrscimo na fora de associao entre as subunidades

    7

    Figura 3.2: Representao da regio promotora para uma nica fita de DNA em E. coli. (BURDEN et al., 2005-modificado).

    Figura 3.3: Esquema da RNAp de organismos procariotos (LEWIN,2008).

  • Existem diferentes tipos de fatores (Tabela 3.2) que podem se ligar com o

    core da RNAp, sendo cada um associado a uma classe de promotores que regulam

    a expresso de um determinado conjunto de genes necessrios em um dado

    momento celular.

    Tabela 3.2: Fatores de E. coli (LEWIN, 2008).

    Fator Nome do Gene Funo Consenso -35 separador -101

    28 fliA Produo de clios e flagelos CTAAA 15 pb GCCGATAA32 rpoH Estresse por choque trmico CCCTTGAA 13-15pb CCCGATNT38 rpoS Resposta a estresse TTGACA 16-18pb TATACT54 rpoN Assimilao de nitrognio CTGGNA 6pb TTGCA70 rpoD Sigma constitutivo TTGACA 16-18pb TATAAT24 rpoE Estresse por choque trmico GGAACTT 15pb GTCTAAH sigH Estresse osmtico AGGANPuPu 11-12 GCTGAATCA1 Somente para 54, a regio consensual se localiza centrada nos nt -12 e -24. Na sequncia consensual, N

    significa qualquer nucleotdeo e Pu significa nucleotdeo de base prica.

    Um promotor procaritico tpico para 70 constitudo de 3 regies

    caractersticas: uma sequncia de 6 nt (hexmero) centrada em 35 do ponto inicial

    de transcrio (+1), outro hexmero centrado em 10 e a sequncia que separa os

    hexmeros (espaador), conforme ilustrado na Figura 3.4.

    Anlises e comparaes das sequncias da classe mais comum de

    promotores bacterianos (reconhecidos pela RNAp holoenzima contendo 70) revelam

    semelhanas nos dois hexmeros citados anteriormente. Embora as sequncias no

    sejam idnticas para todos os promotores bacterianos, certos nt comuns em

    determinadas posies formam uma sequncia consenso (Figura 3.5). O modelo

    biolgico padro para estes promotores a sequncia TTGACA para a regio -35,

    TATAAT para a regio -10 e um espaamento entre estes hexmeros de 16-18 nt.

    Muitas linhas independentes de pesquisa atestam a importncia funcional das

    sequncias -35 e -10 (LEHNINGER et al., 2007; KALATE et al., 2003; KANHERE e

    BANSAL, 2005a). O hexmero -35 funciona como sinal para reconhecimento pela

    8

    Figura 3.4: Promotor procaritico reconhecido pelo fator 70(LEHNINGER et al., 2007).

  • RNAp e o hexmero -10 permite converter o complexo fechado em complexo aberto.

    Alm disso, a distncia entre eles parece ser relevante, apesar do tamanho varivel

    e da falta de conservao (LEWIN, 2008).

    Variaes na sequncia consenso podem afetar a eficincia da ligao da

    RNAp. Uma mudana em apenas um pb pode diminuir a velocidade de iniciao em

    vrias ordens de grandeza. A sequncia do promotor, desta forma, estabelece um

    nvel basal de expresso dos genes, sendo considerado um promotor forte aquele

    mais perto da sequncia consensual e um promotor fraco aquele que possui mais de

    trs nt diferentes do consenso (LEWIN, 2008). No entanto, alguns promotores

    procariticos permanecem funcionais mesmo na ausncia da regio -35. Estes

    promotores possuem uma regio chamada -10 estendida (duas bases extra no

    hexmero -10). Ainda incerto se o hexmero -10 estendido um antecessor do

    promotor bipartido ou vice-versa. A explicao para a origem dos promotores

    bipartidos ainda desconhecida. A informao da regio -10 estendida importante

    para o bom funcionamento da RNAp e esta informao foi realocada na regio -35

    (HOOK-BARNARD et al., 2006; SHULTZABERGER et al., 2007).

    A transcrio possui dois momentos principais, cada um com mltiplas etapas.

    O incio do processo ocorre quando a RNAp holoenzima se liga ao promotor,

    9

    Figura 3.5: Promotores tpicos de E. coli reconhecidos pela RNAp holoenzima 70

    (MADIGAN, 2010).

  • formando um complexo fechado do promotor RPc no qual o DNA ligado est na

    forma de fita dupla. Aps, h a formao do complexo aberto RPo onde o DNA

    desta regio est parcialmente desenrolado. Em seguida, inicia-se a transcrio

    deste complexo (etapa de transcrio absortiva) e aps a insero dos dois

    primeiros nt na molcula de RNA transcrita. O trmino da transcrio ocorre quando

    encontrada uma sequncia de nt denominada de regio terminadora. Este

    processo est ilustrado na Figura 3.6.

    Apesar da simplicidade com a qual os livros de Biologia Molecular (LEWIN,

    2008; LEHNINGER et al., 2007) descrevem os promotores, percebe-se em trabalhos

    experimentais como os de Naryshkin et al (2000), Burgess e Anthony (2001),

    Murakami et al. (2002), Toulokhonov e Landick (2006), Borukhov e Nudler (2007),

    que a interao entre a enzima e a sequncia promotora um processo complexo,

    que envolve a interao de vrios locais da RNAp com a sequncia.

    Outros fatores alm das pontes de hidrognios e protenas ligantes regulam o

    reconhecimento da sequncia alvo em promotores. Como sugestes iniciais tm-se

    10

    Figura 3.6: Etapas da iniciao da transcrio de E. coli (LEWIN et al., 2008).

  • as propriedades fsicas do DNA, tais como susceptibilidade DNaseI,

    deformabilidade, estabilidade e curvatura (GOI et al., 2007). Existem diferenas

    estruturais entre as regies upstream (onde localiza-se a regio promotora) e

    downstream (onde localiza-se a regio codificante) que podem ser consideradas

    para melhorar a predio das sequncias promotoras e caracteriz-las. muito

    difcil acreditar que apenas os motivos consensuais sejam os responsveis pela

    interao RNAp-promotor, j que estes motivos so pequenos e no completamente

    conservados. possvel que as sequncias vizinhas a estes motivos tambm

    estejam envolvidas neste processo de interao RNAp-promotor (KANHERE e

    BANSAL, 2005a; RAMPRAKASH e SCWARZ, 2007).

    A importncia destas propriedades para os promotores e para o processo de

    transcrio est relacionado com a formao do RPo, que envolve a separao das

    fitas de DNA. Esta separao um processo termodinamicamente desfavorvel e

    ocorre sem nenhuma ajuda energtica de fonte externa. Aqui, a pouca estabilidade

    da sequncia promotora pode auxiliar no incio de separao das fitas. Trabalhos

    como os de, Juregui et al. (2003), Kanhere e Bansal (2005a, 2005b) e Ramprakash

    e Scwarz (2007) mostram que as regies promotoras so menos estveis que as

    regies gnicas. Outra propriedade, como a curvatura, pode ser definida como a

    dupla fita curvada em um axis helicoidal. Muitas sequncias, de organismos

    eucariotos e procariotos mostram que as regies upstream so mais curvadas que

    as regies codificantes (BORUKHOV e NUDLER, 2008). J a deformabilidade,

    refere-se ao afrouxamento com o qual a molcula pode realizar uma curva em

    alguma direo. Sabe-se que a deformabilidade importante para a ligao de

    fatores de transcrio e evidncias experimentais sugerem que a sequncia

    promotora se enrola ao redor da RNAp (KANHERE e BANSAL, 2005a, 2005b;

    RAMPRAKASH e SCHWARZ, 2007; KOZOBAY-AVRAHAM et al., 2008). Muitos

    estudos mostram que a deformabilidade e a curvatura tem papel no mecanismo de

    transcrio, entretanto estes mecanismos ainda no so totalmente compreendidos.

    Na anlise de promotores, algumas questes permanecem sem respostas com

    respeito curvatura do DNA: a curvatura um componente essencial e integral dos

    promotores? Ela pode ser usada como caracterstica discriminante entre promotores

    e outras sequncias?(PANDEY e KRISHNAMACHARI, 2006).

    A flexibilidade da fita de DNA outra caracterstica fsica da sequncia. O

    11

  • trabalho de Thiyagarajan et al. (2006) verificou que na regio consensual dos

    promotores de E. coli h dois nt flexveis entre dois no flexveis, sendo esta uma

    caracterstica determinante da regio -10 para determinar a fora de expresso de

    um determinado promotor, talvez pela influncia de formao do complexo aberto do

    promotor.

    Apesar destas evidncias em relao estrutura da sequncia promotora,

    estas informaes no so amplamente utilizadas na predio e reconhecimento

    dos promotores, conforme descrito nas prximas sees, que apresentam os

    principais trabalhos referentes anlise de promotores procariticos in silico. A

    literatura apresenta muitas abordagens para o reconhecimento e predio de

    promotores. Dentre estas pode-se citar: (i) metodologia baseada em sinal, que opera

    no reconhecimento de sinais relativamente conservados atravs de alinhamento e

    homologia entre promotores previamente identificados; (ii) AM, que usa conjunto de

    informaes estruturais e funcionais disponveis sobre as sequncias promotoras

    para aprender a reconhec-los automaticamente e produzir hipteses relevantes

    sobre estas sequncias. Aqui, encontram-se as metodologias de RNs e Support

    Vector Machines (SVM).

    A seguir, esto apresentados os principais mtodos computacionais

    encontrados na literatura de predio de promotores acompanhados da discusso

    das implicaes que tornam este campo de pesquisa ainda latente.

    3.2 RECONHECIMENTO BASEADO EM SINAL

    A metodologia de reconhecimento de promotores baseado em sinal emprega

    principalmente a comparao do contedo de diferentes sequncias promotoras. Os

    trabalhos clssicos e alguns mais recentes esto apresentados a seguir.

    3.2.1 Matriz de Posies Ponderadas

    A metodologia de matriz de posies ponderadas (MPP) consiste em alinhar

    um conjunto de sequncias identificadas previamente como promotoras e pesquisar

    por regies conservadas em seu contedo. Conforme Hertz e Stormo (1999), as

    matrizes de posies ponderadas assumem que cada linha corresponde a um dos

    nt e cada coluna a um alinhamento. Os elementos da matriz so os pesos utilizados

    para pontuar uma sequncia teste, conforme uma medida que quantifica a aderncia

    12

  • ao modelo. A pontuao dada pela soma dos pesos de cada letra alinhada em

    cada posio (Figura 3.7).

    A transformao ilustrada na Figura 3.7, foi criada a partir da frmula 3.1:

    No exemplo mostrado (Figura 3.7), em (a) est uma tabela de alinhamento

    para os 4 hexmeros localizados no topo da figura. Embaixo da matriz est a

    sequncia consenso correspondente ao alinhamento (N indica que no h

    nucleotdeo preferencial). Aps a aplicao da frmula 3.1, foi gerada a matriz de

    pesos (b), derivada da matriz de alinhamento (a). Os nmeros destacados so os

    responsveis pela pontuao global da sequncia (Hertz e Stormo, 1999).

    Jaques et al. (2006), desenvolveu uma nova abordagem de predio de

    promotores com base nas matrizes de representao da distribuio genmica de

    hexanucleotdeos. Esta metodologia foi utilizada para dez organismos procariticos

    (Tabela 3.3). A sensibilidade das matrizes geradas para cada organismo variou de

    29.4% (C. glutamicum) a 90,9% (B. japonicum), conforme mostrado na Tabela 3.3.

    Para a matriz gerada para E. coli , a sensibilidade apresentada foi de 42,4%.

    Quando os resultados deste trabalho so comparados com a literatura,

    percebe-se que a sensibilidade da predio de promotores de E. coli no

    melhorada. No entanto, ele demonstra os recentes esforos para ampliar a predio

    para outras bactrias e, alm disso, mostra que a distribuio genmica dos

    13

    Figura 3.7: Exemplo da transformao da matriz de alinhamento para a matriz de posies ponderadas para a sequncia teste AGGTGC.

    ,ln)1/()(

    lni

    ij

    i p

    f

    p

    Npn iij ++ (3.1)

  • elementos regulatrios significativamente diferente dos elementos no-

    regulatrios.

    Tabela 3.3: Resultados obtidos pela metodologia de Jacques et al. (2006)

    Organismos Contedo de GC (%) Sensibilidade (%)

    E. coli 50,8 42,4B. subtilis 43,5 56,8C. glutamicum 53,8 29,4M. pneumoniae 40,0 43,3M. tuberculosis 65,6 57,1S. coelicolor 72,1 58,8H. pylori 38,9 47,1C. jejuni 30,5 42,9B. japonicum 64,1 90,9S. aureus 32,9 37,5

    A MPP foi utilizada, tambm, no software Virtual Footprint (MUNCH et al.,

    2005). Esta ferramenta tem o objetivo de reconhecer padres em sequncias de

    DNA e est disponvel no site http://prodoric.tu-bs.de/vfp/index2.php (acessado em

    29 de julho de 2010). A ideia central do trabalho baseia-se no princpio que os

    promotores so mais representados nas regies intergnicas do que no resto do

    genoma. O valor de classificao foi calculado na semelhana entre a matriz de

    representao da distribuio genmica dos promotores encontrados na literatura e

    a matriz de representao da distribuio de provveis promotores.

    Uma variao da MPP foi desenvolvida por Li e Lin (2006) que obteve

    sensibilidade de 91% e especificidade de 81% usando 683 sequncias

    experimentalmente identificadas como promotores de E. coli reconhecidos pelo fator

    70. A matriz desenvolvida por eles foi chamada de Matriz de Valores Posio-

    Correlao e baseia-se na medida da conservao das sequncias.

    Quando compara-se a MPP com o simples alinhamento de sequncias,

    percebe-se que a ponderao melhora os resultados obtidos. A importncia e o

    pioneirismo deste trabalho so indiscutveis para a anlise dos promotores, j que

    existem recentes publicaes que mostram um certo grau de conservao dos

    motivos (Cotik et al., 2005; Sivaraman et al., 2005). No entanto, somente a anlise

    dos nt da sequncia para a descoberta de novos promotores uma abordagem

    limitada, j que: (i) a variao dos nt grande; (ii) assume a independncia entre

    bases adjacentes; (iii) no permite a presena de mltiplos elementos dos

    14

  • promotores, inseres, delees ou espao varivel entre os elementos e (iv) o

    resultado pode variar de acordo com o mtodo de alinhamento (SONG et al., 2007).

    3.3 ANLISE POR APRENDIZADO DE MQUINA

    Nesta seo so descritas as metodologias de SVM e RN j que estas so as

    metodologias as mais empregadas na predio de promotores e mostram resultados

    promissores.

    3.3.1 Mquinas de suporte vetorial (Support vector machines)

    O algoritmo das Mquinas de Vetor de Suporte ou Mquinas de Suporte

    Vetorial foi proposto por Boser et al. (1992) e pode ser utilizado para classificaes

    de padres e regresso linear. Basicamente, as SVM so uma mquina linear com

    algumas propriedades muito interessantes. No caso das classificaes, a idia

    principal construir um hiperplano como superfcie de deciso, de tal forma que a

    margem de separao entre exemplos positivos e negativos seja mxima (Figura

    3.8). As SVMs podem fornecer um bom desempenho de generalizao em

    problemas de classificao de padres, apesar de no incorporarem conhecimento

    do domnio do problema e apresentam limitaes com a escolha do kernel (HAYKIN,

    1999).

    15

    Figura 3.8: Treinamento de SVM (RUSSEL e NORVIG, 2003).

    Em (a) treinamento de duas dimenses com os exemplos positivos representados pelos crculos pretos e os exemplos negativos pelos crculos brancos. Em (b) o mesmo conjunto de dados aps mapeamento em um espao tridimensional.

  • Polat e Gnes (2007) usaram uma combinao de seleo de caractersticas

    e LSSVM (least square support vector machine), conforme ilustrado na Figura 3.9.

    Esta metodologia mostra uma acurcia de 84,6%, sensibilidade de 90% e

    especificidade de 80%. Apesar destes ndices serem elevados, ressalta-se que

    neste trabalho foram empregadas apenas 57 sequncias promotoras. Este pequeno

    nmero no abrange todas as caractersticas do universo de sequncias promotoras

    disponveis, que so de aproximadamente 740 para as sequncias reconhecidas

    pelo fator 70 de E. coli. Se todo o conjunto disponvel fosse considerado, possvel

    que mais de 57 atributos fossem selecionados como caracterizadores das

    sequncias e, provavelmente, os valores de desempenho diminuiriam.

    Gordon et al. (2003) usaram uma SVM com ncleo de uma funo de

    alinhamento. Neste trabalho, foram tomados dois conjuntos de dados: (i) promotores

    e regies codificadoras e (ii) promotores e regies intergnicas. A metodologia

    empregada por eles mostra uma mdia de erro de 16,5% e de 18,6%,

    respectivamente aos conjuntos de dados usados.

    A SVM foi tambm utilizada para a predio in silico da TSS e seus

    promotores constitutivos associados em E. coli por Gordon et al. (2006). O mtodo

    conseguiu uma acurcia de acordo com o estado da arte (erro mdio de 11,6%).

    Mais tarde, o mesmo grupo de pesquisa (TOWSEY et al., 2008), usou a SVM

    treinada anteriormente em outras sequncias procariticas (B. subtilis e Chlamydia

    trachomatis). Os valores de performance (acurcia, preciso, sensibilidade ou

    16

    Figura 3.9: Fluxograma que ilustra a metodologia desenvolvida pelos autores Polat e Gnes (2007).

  • especificidade) no so apresentados no trabalho. No entanto, os autores ressaltam

    que sua metodologia foi capaz de encontrar outras informaes relevantes alm dos

    motivos consensuais -10 e -35, sendo descrito um motivo localizado na regio +15

    ao +25.

    Para verificar a existncia de alguma correlao entre o grau de conservao

    da sequncia promotora e a expresso do seu respectivo gene, Kiryu et al. (2005)

    utilizou as SVMs e, como resultado, estes autores no encontraram correlao entre

    a sequncia promotora e o nvel de expresso gnica.

    3.3.2 Redes Neurais

    As RNs so um sistema de AM inspirado no funcionamento de redes neurais

    biolgicas. Pode-se afirmar que as RNs aprendem a partir dos exemplos e

    apresentam alguma capacidade de generalizao do conjunto de treinamento (WU e

    MCLARTY, 2000).

    As primeiras aplicaes de RNs na predio de promotores, como

    apresentados nos trabalhos de Demeler e Zhou (1991) e ONeill (1991), apesar da

    arquitetura simples, obtiveram uma alta acurcia, mas um nmero de falsos

    positivos igualmente alto. Outras abordagens foram apresentadas por Mahadevan e

    Ghosh (1994) que usaram uma combinao de duas RNs para a identificao de

    promotores de E. coli. Todos os promotores deste trabalho tinham espaamento

    entre 15-21 nt entre os hexmeros caractersticos. A primeira RN predizia os

    hexmeros consensuais, enquanto a segunda foi designada para o reconhecimento

    da sequncia inteira (65 nt), sendo o espao entre os hexmeros varivel. Uma vez

    usada a informao da sequncia inteira ocorreu dependncias entre as bases em

    vrias posies. Isto refletiu em um treinamento pobre e uma predio realizada por

    duas redes sem neurnios na camada oculta.

    Pedersen e Engelbrecht (1995) predisseram a TSS e identificaram novos

    sinais caractersticos correlacionados com o local de incio da transcrio. Para isso,

    foram usados dois diferentes esquemas de codificao, um com janelas 1 at 51 nt

    e outro com uma janela de 65 nt. Uma ideia interessante, neste trabalho, foi a

    medida do contedo de informao relativa dos dados de entrada, pelo uso da

    habilidade da RN para aprender corretamente, como avaliado pelo coeficiente de

    correlao do teste mximo.

    17

  • Uma ferramenta disponvel na internet e baseada em RNs o Neural

    Networks Promoter Prediction (NNPP). Burden et al. (2005) incorporou rede a

    informao sobre a distncia entre o stio de incio de transcrio (TSS) e o stio de

    incio da traduo TLS (primeiro nucleotdeo da regio codificadora). Com um

    conjunto de dados de 771 promotores, eles conseguiram uma preciso de 54% e

    uma sensibilidade de 86%.

    Askary et al. (2009) descrevem uma arquitetura de RN chamada de N4, capaz

    de predizer a TSS de promotores de E. coli reconhecidos pelo fator 70. A

    sensibilidade e a preciso da rede foram superiores a 94%. Esta rede neural

    recebeu os valores de estabilidade das sequncias convertidos em codificao

    ortogonal (Figura 3.10). Assim, a camada de entrada possuiu 6608 neurnios (413

    grupos x 16 combinaes de valores de estabilidade). Esta rede possuiu duas

    camadas de neurnios ocultos, totalizando 402 neurnios e um neurnio na camada

    de sada. Apesar da complexidade da arquitetura apresentada (o que torna a rede

    computacionalmente pesada), este trabalho mostra o potencial de utilizao dos

    valores de estabilidade das sequncias como parmetro de classificao.

    Utilizando a informao da quantidade de dinucleotdeos da sequncia

    promotora, Rani et al. (2006) treinaram uma RN. Neste trabalho foram utilizados

    promotores 70 de E. coli como exemplos positivos e quatro conjuntos diferentes de

    exemplos negativos: (i) sequncias codificantes, (ii) sequncias codificantes e

    intergnicas, (iii) sequncias aleatrias com 60% de AT e (iv) sequncias aleatrias

    com 50% de AT. Os resultados de especificidade e sensibilidade obtidos esto

    18

    Figura 3.10: Codificao ortogonal para os valores de estabilidade, empregado por Askary et al. (2009).

  • apresentados na tabela 3.4.

    Tabela 3.4: Resultados obtidos pelo trabalho de Rani et al. (2006)

    Conjunto de dados Sensibilidade Especificidade

    Promotores + sequncias codificantes 80% 79%Promotores + sequncias codificantes e intergnicas 63% 88%Promotores + sequncias aleatrias com 60% de AT 93% 88%Promotores + sequncias aleatrias com 50% de AT 95% 99%

    Estes valores podem ser explicados pela quantidade grande de dinucleotdeos

    AT nos promotores reconhecidos pelo 70, conforme os resultados mostrados no

    captulo II dos resultados desta tese. Quando esta metodologia for aplicada em

    sequncias reconhecidas por outros fatores , que possuem contedo AT mais

    baixo, estes mesmos valores podem no ser alcanados.

    A vantagem das RNs em relao a outras tcnicas de AM que elas podem

    aprender a reconhecer padres degenerados, imprecisos e incompletos, os quais

    so caractersticos dos promotores. Alm disso, permitem rpido desempenho em

    grandes sequncias genmicas (COTIK et al., 2005). Como desvantagem, pode-se

    citar a subjetividade da escolha dos parmetros e da arquitetura da rede, uma vez

    que h falta de recomendaes tericas sobre estes e tambm sobre o tamanho do

    conjunto de treinamento.

    3.4 METODOLOGIA UTILIZANDO A VALORES DE ESTABILIDADE

    Kanhere e Bansal (2005b) desenvolveram uma metodologia baseada nas

    diferenas de estabilidade (G) entre as regies promotoras e codificantes (Figura

    3.11). Esta ferramenta foi modificada e melhorada por Rangannan e Bansal (2007).

    Eles calcularam a energia livre (estabilidade) entre duas regies do genoma de um

    organismo, conforme as equaes (3.2), (3.3), (3.4) e (3.5). Os resultados obtidos

    por eles mostram que a estabilidade uma medida melhor que os motivos

    conservados para diferenciar regies promotoras e no-promotoras.

    onde,

    19

    D n=E1nE2n (3.2)

  • 50

    )('1

    49

    +

    =

    n

    n

    G

    nE

    onde, n o nucleotdeo da sequncia promotora.

    Assim, E1(n) e E2(n) representam a mdia de energia livre em uma janela de

    100 nt comeando de n com uma vizinhana de 100 nt. E1(n) representa a mdia

    de energia livre em uma regio de 50 nt. E1 usado no lugar de E1 no ciclo de

    refinamento dos falsos negativos. O valor de D representa a diferena de energia

    livre em duas regies vizinhas. Uma sequncia de DNA designada como portadora

    de um promotor somente se a mdia da energia livre da regio de 100 nt (E1) e a

    diferena (D) na energia livre forem maiores que o E-cutoff e D-cutoff escolhido,

    respectivamente. A metodologia desenvolvida pelos autores para a anlise e

    predio de promotores est esquematizada na Figura 3.11.

    Esta metodologia consegue uma sensibilidade de 98%, mas uma preciso de

    55% (nmero de verdadeiros positivos/(nmero de verdadeiros positivos + nmero

    de falsos positivos)). Uma desvantagem desta metodologia que ela se aplica

    somente em grandes sequncias (do nucleotdeo -150 at o nucleotdeo +50) e

    foram analisadas 251 sequncias, o que representa aproximadamente um tero do

    total das sequncias disponveis para 70 da E.coli.

    20

    100

    )(1

    99

    +

    =

    n

    n

    G

    nE

    (3.3)

    (3.5)

    100

    )(2

    119

    99

    +

    +

    =

    n

    n

    G

    nE(3.4)

  • 21

    Figura 3.11: Fluxograma da metodologia descrita por Rangannan e Bansal (2007).

  • 3.5 FUNDAMENTOS DE REDES NEURAIS ARTIFICIAIS

    Conforme Baldi e Brunak (2001), as RNs foram originalmente desenvolvidas

    com o objetivo de modelar o processamento de informao e aprendizagem do

    crebro. Trata-se de um modelo computacional aplicvel a uma ampla variedade de

    reas, como Engenharia, Economia e Biologia. Nesta ltima, principalmente em

    problemas de anlise de sequncias e reconhecimento de padres. Nas demais

    reas, por exemplo, as RNs podem ser aplicadas na sntese e reconhecimento de

    fala, interface adaptativa entre humanos e sistemas fsicos complexos, aproximao

    de funes, entre outros.

    Esta seo apresenta conceitos fundamentais sobre as RNs que auxiliam na

    compreenso da metodologia empregada e possibilitam uma melhor discusso dos

    resultados obtidos.

    3.5.1 Arquitetura das Redes Neurais

    As RNs, conforme Wu e McLarty (2000), consistem de grupos ou camadas

    (layers) de unidades de processamento com (ou algumas vezes sem) conexes

    entre os grupos. A unidade bsica de uma camada um neurnio artificial. Estas

    unidades, como os neurnios reais, tm conexes de entrada (dendritos) e

    conexes de sada (axnios). Tambm como neurnios reais, as unidades da rede

    neural tambm tm alguma forma de processamento interno, que cria um sinal de

    sada como uma funo do sinal de entrada. Entretanto, diferentemente dos

    neurnios reais, o neurnio artificial tem como sada um nmero e apresenta

    mudanas somente em um intervalo discreto de tempo, conforme ilustrado na

    Figura 3.12.

    22

    Figura 3.12: Analogia entre neurnios biolgicos e artificiais. (WU e MCLARTY, 2000).

  • Uma RN caracterizada pelo (i) padro de conexes entre os neurnios

    (chamado de arquitetura), (ii) mtodo de determinao de pesos nas conexes

    (chamado de treinamento ou aprendizagem) e (iii) sua funo de ativao. Esses

    parmetros esto descritos ao longo desta e das prximas sees.

    Os neurnios (Figura 3.13) so conectados por vnculos orientados. Assim,

    pode-se representar uma RN como um grafo direcionado com peso ou arquitetura

    (MOUNT, 2000). Um vnculo da unidade j para a unidade i serve para propagar a

    ativao aj desde j at i. Cada vnculo tambm tem um peso numrico Wji associado

    a ele, o qual determina a intensidade e o sinal da conexo. Especificamente, um

    sinal aj na entrada da sinapse i conectada ao neurnio j multiplicada pelo peso

    sinptico Wji (HAYKIN, 1999; RUSSEL e NORVIG, 2003).

    Aps, cada unidade i calcula inicialmente uma soma ponderada de suas

    entradas:

    Ento ela aplica uma funo de ativao g a essa soma para derivar a sada:

    importante ressaltar que h a incluso de parmetro externo do neurnio

    23

    Figura 3.13: Modelo de um neurnio artificial (RUSSELL e NORVIG, 2003).

    A ativao da sada da unidade ai =

    onde aj ativao de sada da unidade j e W

    ji o peso no vnculo da unidade j at essa unidade.

    )(0

    =n

    jjji aWg

    =

    =n

    j

    jjii aWin

    0

    . (3.6)

    .)(

    0

    ==

    =

    n

    j

    jjiii aWginga(3.7)

  • artificial, um bias W0i (Figura 3.12) conectado a uma entrada fixa a0= -1. O termo W0i

    define o limite real para a unidade, no sentido de que a unidade ativada quando a

    soma ponderada de entradas reais excede W0i. A funo de

    ativao g projetada para atender duas aspiraes: primeiro, a unidade de estar

    ativa (prxima de +1) quando as entradas positivas forem recebidas e negativas

    (prxima a 0) quando as entradas erradas forem recebidas. Em segundo lugar, a

    ativao precisa ser no-linear, caso contrrio a RN inteira entrar em colapso,

    tornando-se uma funo linear simples (HAYKIN, 1999; RUSSEL e NORVIG, 2003).

    Uma arquitetura com melhor capacidade de generalizao constitui-se de

    redes com mltiplas camadas, chamadas de Multilayer Perceptron (MLP), sendo o

    caso mais comum aquelas que envolvem uma nica camada oculta, conforme

    ilustrado na Figura 3.14. Segundo Hornik (1989), as RNs com uma nica camada

    oculta so aproximadores universais, pois aproximam qualquer funo com preciso

    arbitrria. A funo dos neurnios ocultos intervir entre a entrada externa e a sada

    de maneira til. A vantagem de adicionar camadas ocultas que ela aumenta o

    espao de hipteses que a rede pode representar e, assim, capaz de extrair

    estatsticas de ordem elevada. Isto particularmente valioso quando o tamanho da

    camada de entrada grande.

    Redes com muitas camadas ocultas so menos eficientes pois requerem

    maior tempo de computao e apresentam menor capacidade de generalizao

    quando comparadas s redes com uma camada oculta. Alm disso, a extrao das

    regras da rede se torna mais difcil.

    24

    Figura 3.14: Rede MLP com trs camadas (RUSSELL e NORVIG, 2003).

    =n

    jjji aW

    1

  • 3.5.2 Treinamento de Redes Neurais

    Segundo Wu e McLarty (2000) a ideia fundamental do aprendizado ou

    treinamento, para todas as arquiteturas de RN, atribuir valores a um conjunto de

    pesos (inicializado normalmente de forma aleatria), aplicar os dados de entrada

    rede e verificar como esta responde a determinados conjuntos de pesos. Se o

    desempenho no for satisfatrio, ento os pesos devem ser modificados pelo

    algoritmo especfico da arquitetura e repetir o procedimento. Este procedimento

    deve ser repetido at que algum critrio de parada pr-especificado seja atingido.

    A passagem de todos os vetores dos dados de entrada atravs da rede

    chamado de poca. Alteraes nos pesos podem ser feitas a cada padro

    processado (treinamento on-line) ou aps uma poca inteira (treinamento em lote),

    sendo esta ltima o procedimento mais utilizado. O objetivo do treinamento

    encontrar o conjunto de parmetros (nmero de camadas, nmero de neurnios nas

    camadas e pesos entre as camadas) que minimize a diferena entre os valores de

    sada da rede e os valores desejados. No entanto, se a rede tiver uma arquitetura

    com muitas camadas ocultas ou for treinada por muitas pocas (a quantidade de

    pocas neste caso varia de acordo com os dados a rede envolvida), ela ser capaz

    de memorizar todos os exemplos. Isto chamado de overtraining, j que a rede

    forma uma extensa tabela de busca mas no realiza boas generalizaes para

    entradas que no foram vistas antes.

    Uma das maneiras de testar a exatido da rede tentar vrias arquiteturas e,

    com a tcnica de validao cruzada, verificar qual apresenta os melhores resultados.

    A tcnica de validao cruzada, ou k-fold-cross-validation (k-FCV), consiste em

    particionar aleatoriamente o arquivo de padres em k partes de mesmo tamanho.

    Assim, ocorre a gerao dos arquivos para treinamento e validao. As etapas de

    treinamento e validao so repetidas k vezes, sendo utilizados para treinamento

    k-1 arquivos e para validao o k-simo arquivo no utilizado no treinamento. A cada

    iterao, o arquivo de validao possui um k diferente.

    Outros mtodos de validao que podem ser citados so: holdout e jackknife.

    O mtodo holdout consiste em separar, de forma aleatria, o arquivo de padres em

    dois arquivos. O de treinamento tipicamente conter dois teros dos dados e o de

    validao o um tero restante. J o mtodo jackknife, conhecido com leave-one-out,

    semelhante ao k-FCV, mas k igual ao nmero de linhas do arquivo de padres.

    25

  • Com isto, cada arquivo de validao conter somente uma linha em cada etapa do

    processo.

    O procedimento utilizado para realizar o processo de aprendizagem

    chamado algoritmo de aprendizagem, e sua funo modificar os pesos sinpticos

    de forma a alcanar o objetivo desejado. Os algoritmos de aprendizado podem ser

    supervisionados ou no-supervisionados, embora aspectos de cada um possam co-

    existir em uma dada arquitetura. O treinamento supervisionado acompanhado pela

    apresentao de uma sequncia no vetor de treinamento associada com um vetor

    de sada alvo. Um ingrediente essencial neste tipo de aprendizado a

    disponibilidade de um professor externo. Em termos conceituais, podemos pensar

    que o professor tem o conhecimento da sada desejada. O conhecimento disponvel

    pelo professor ento transferido RN atravs de ajustes iterativos para minimizar

    o erro de acordo com o algoritmo de aprendizado (WU, 1997). Como exemplo, os

    algoritmos: Back-propagation (BP), Resilient Proapagation, Cascade Correlation,

    Kohonen e Quickprop. A principal diferena entre eles est, principalmente, no modo

    como os pesos da rede so ajustados.

    Um algoritmo de aprendizado supervisionado tem o objetivo de minimizar a

    diferena entre o valor de sada da rede e o valor desejado. Uma tpica funo de

    erro a ser minimizada :

    onde n o nmero de padres de entrada, yi a sada da rede (para um dado

    conjunto de parmetros w) e hw(x) o valores esperado de sada. Se uma rede possui

    mais que uma unidade na camada de sada, ento a equao 3.8 se torna:

    onde k o nmero de unidades na camada de sada (WU e McLARTY, 2000).

    O treinamento no-supervisionado ou aprendizado auto-organizvel no

    possui um professor externo para verificar o processo de aprendizado. O algoritmo

    normalmente guiado pela medida de similaridade sem um vetor alvo de

    26

    ( )( )2

    1

    =

    =n

    i

    wi xhyE (3.8)

    ( )( )2

    1 1

    = =

    =n

    i

    wi

    k

    j

    xhyE (3.9)

  • especificao. As redes auto-organizveis modificam os pesos at que os vetores

    mais similares sejam designados ao mesmo grupo de sada (clusterizao), o qual

    representado por um vetor-exemplo. Como exemplo de algoritmo de aprendizado

    no-supervisionado, pode-se ser citados os mapas auto-organizveis de Kohonen e

    a teoria da ressonncia adaptativa (ART) (WU, 1997).

    Rumelhart et al. (1986) criaram um mtodo intuitivo que aprende rapidamente,

    revolucionando o campo das RNs. O mtodo foi chamado de BP porque o erro

    propagado da sada para a entrada da rede, ou seja, a propagao do erro pode ser

    efetuada da camada de sada para a camada oculta e desta para a camada de

    entrada. O erro nas camadas ocultas parece misterioso, porque os dados de

    treinamento no informam que valor os neurnios ocultos devem ter. O processo de

    propagao de retorno emerge diretamente de uma derivao do gradiente de erro

    global e da aplicao da regra da cadeia (WU e McLARTY, 2000; RUSSELL e

    NORVIG, 2003).

    Uma RN multicamadas tem trs caractersticas distintas:

    1. O modelo de cada neurnio da rede inclui uma funo de ativao no-

    linear, como a funo logstica.

    2. A rede contm uma ou mais camadas de neurnios ocultos, que no so

    parte da entrada ou da sada da rede. Estes neurnios capacitam a rede a aprender

    tarefas complexas extraindo progressivamente as caractersticas mais significativas

    dos vetores de entrada.

    3. A rede exibe um alto grau de conectividade, determinado pelas sinapses da

    rede.

    Estas caractersticas conferem o poder computacional da MLP, mas tambm

    so responsveis pelas deficincias na compreenso do comportamento da rede

    (HAYKIN, 1999).

    3.6 EXTRAO DE REGRAS

    A metodologia de RNs possui uma grande aplicabilidade nos mais diversos

    problemas, mas uma de suas desvantagens que o conhecimento adquirido por

    elas no diretamente acessvel. Com objetivo de diminuir esta dificuldade, muitos

    algoritmos para extrao de regras a partir das RNs treinadas tm sido

    27

  • desenvolvidos. Assim, as redes tornam-se mais atrativas que outras tcnicas de AM

    j que fornecem uma explicao de como cada deciso feita (ODAJIMA et al.,

    2007).

    3.6.1 Extrao de Regras a Partir de Redes Neurais

    Uma das caractersticas mais atrativas das RNs que elas no requerem um

    conhecimento prvio da aplicao do problema para a construo do modelo. Assim,

    para tornar esta metodologia realmente compreensvel ao usurio, desejvel

    extrair conhecimento a partir de redes treinadas (WU e MCLARTY, 2000). Muitas

    vezes, as RNs so denominadas de caixa preta, em particular por no fornecer ao

    usurio nenhuma informao sobre o conhecimento adquirido. Embora isto

    geralmente seja verdadeiro, especialmente para redes multicamadas, existem

    mtodos para analisar RNs e extrair regras ou caractersticas. Estas regras incluem:

    regras de inferncia (if-then-else), rvores de deciso, regras difusas, entre outras.

    Conforme Andrews et al. (1995), a extrao de regras pode oferecer alguns

    benefcios listados a seguir:

    - descoberta de novos relacionamentos e/ou caractersticas importantes a

    partir das regras extradas;

    - expresso do conhecimento de modo formal;

    - capacidade de gerar explicaes para as decises tomadas internamente

    pela RN, de modo que facilite a aceitao do uso da rede pelos usurios;

    - integrao com sistemas simblicos e a possibilidade de descobrir em que

    situaes a rede pode cometer erros de generalizao;

    - identificao de regies no espao de entrada que no se fizeram

    representar no conjunto de treinamento.

    Alm disso, as regras extradas a partir das RNs podem ser apresentadas

    para anlise de um especialista. Assim, as regras corretas podem ser usadas para

    gerar padres de treinamento adequados, os quais podem melhorar a capacidade

    de generalizao (CLOETE e ZURADA, 2000). Uma vez que este trabalho visa

    extrair regras a partir de RNs, a prxima seo descreve brevemente alguns tipos de

    regras, com nfase maior s regras do tipo if-then.

    28

  • 3.6.2 Tipos de regras

    A extrao de regras a partir de RNs baseada no comportamento dos

    neurnios, sendo a relao entre as entradas e as sadas usualmente analisada

    (CLOETE e ZURADA, 2000; HUANG e XING, 2005). Conforme Andrews et al.

    (1995), h muitos tipos de regras que podem ser extrados das RNs, mas o

    desenvolvimento de tcnicas de extrao de regras tem sido mais direcionado

    apresentao da sada como um conjunto de regras expressas, usando a forma

    convencional de lgica simblica na forma if...then...else....

    Neste tipo de regra, a parte SE especifica um conjunto de condies sobre

    valores de atributos previsores e a parte ENTO especifica um valor previsto para o

    atributo de sada. Os atributos previsores so as premissas da regra que devem ser

    obedecidas, para assim obter um atributo classe.

    IF < condio> THEN ()

    A condio , tipicamente, uma expresso lgica que contm variveis

    relevantes das quais os valores podem ser inferidos a partir das bases de fatos ou

    fornecidos pelo usurio. A concluso determina o valor de alguma varivel que

    corresponde a condio ser satisfeita. O grau de certeza ou validade da regra

    expressa pelo seu percentual de confiana (CLOETE e ZURADA, 2000). A extrao

    de regras realizada atravs da interpretao dos pesos da rede neural.

    As regras do tipo if-then podem ser utilizadas posteriormente em um sistema

    de inferncia lgica para a resoluo de problemas. Um segundo uso destas regras

    pode ser a gerao de regras para um sistema baseado em conhecimento. Deve-se

    observar, tambm, que quanto mais curtas as regras (em termos de nmeros de

    clusulas) melhor, pois regras curtas geralmente podem ser aplicadas a mais

    situaes (CLOETE e ZURADA, 2000).

    3.6.3 Regras obtidas a partir dos neurnios da camada oculta

    Para a obteno de regras a partir dos neurnios da camada oculta da RN

    treinada, o programa denominado FAGNIS (CECHIN, 1998), analisa o valor de

    ativao dos neurnios na camada oculta e os classifica em trs regies, conforme

    ilustrado na Figura 3.15. Aqui, encontra-se uma breve explicao desta ferramenta.

    Uma descrio mais detalhada pode ser encontrada no captulo II dos resultados

    desta tese.

    29

  • A ferramenta FAGNIS, verifica em qual das regies a ativao dos neurnios

    ocultos se enquadram para cada entrada da rede, O nmero mximo de

    combinaes possveis 3n, onde n simboliza o nmero de neurnios na camada

    oculta. No entanto, nem todas estas combinaes ocorrem e, somente as

    combinaes mais frequentes so consideradas, pois melhor representam os dados.

    Como resultado, temos o prottipo da regra, o qual definido como a mdia das

    entradas de cada grupo (combinao das regies). Assim, a escrita formal da regra

    possui a forma de uma equao linear: SE X prottipo ENTO Y = constante da

    equao linear + (os coeficientes da equao linear) * X. Aqui, X o exemplo de

    entrada; Y corresponde sada da RN e os coeficientes da equao linear

    representam a influncia dos exemplos na sada da RN.

    3.7 CONSIDERAES ADICIONAIS

    Os promotores so importantes reguladores da expresso gnica e, a reviso

    bibliogrfica sobre o estado da arte mostrou os esforos realizados para melhorar a

    acurcia da predio e a importncia de estender o estudo para outras espcies

    bacterianas alm de E. coli. Nesta seo no h descrio de trabalhos relacionados

    com a extrao de regras a partir de RNs aplicadas predio de promotores, pois

    no foi encontrado nenhum artigo at o trmino da reviso bibliogrfica. Este

    trabalho pretende extrair regras de inferncia das RNs treinadas para compreender

    o processo de classificao e, a partir das regras criar uma ferramenta prpria para

    a predio de promotores de bactrias Gram-negativas.

    30

    Figura 3.15: Ilustrao das trs regies definidas na funo sigmide para anlise dos dados de entrada e extrao de regras.

  • 4 METODOLOGIA

    Nesta seo, uma viso geral da metodologia desenvolvida descrita. Para

    facilitar a compreenso dos procedimentos realizados, apresenta-se um fluxograma

    (Figura 4.1) com todas as etapas da metodologia. A descrio das etapas

    apresentadas na Figura 4.1 so descritas nos captulos I IV dos resultados.

    4.1 ORGANISMOS ESTUDADOS

    Os organismos escolhidos foram as bactrias E. coli, as do gnero Shigella,

    Pseudomonas, Salmonella e Aeromonas. Assim, abrange-se uma ampla variedade

    de representantes das bactrias Gram-negativas. Salienta-se que neste estudo, as

    bactrias Gram-positivas no foram consideradas por apresentarem diferentes

    caractersticas em relao s Gram-negativas, no que diz respeito composio

    qumica, estrutura e permeabilidade da parede celular, alm de diferenas

    fisiolgicas, de metabolismo e patogenicidade.

    31

  • 4.2 BANCOS DE DADOS

    As regies promotoras, as regies intergnicas e os dados relacionados s

    caractersticas dos promotores foram retirados de bancos de dados biolgicos e de

    artigos cientficos. Os bancos de dados pblicos utilizados foram:

    32

    Figura 4.1: Estrutura da metodologia proposta para o uso de RN no reconhecimento e predio de promotores.

  • - CMR: banco de dados de genomas procariticos (PETERSON et al., 2001).

    Nele se encontram dados de genomas completos, de regies especficas (genes,

    promotores, regies intergnicas, homologias), entre outras ferramentas. As

    informaes esto disponveis no endereo de internet: http://cmr.jcvi.org/cgi-

    bin/CMR/CmrHomePage.cgi

    - NCBI: maior base de dados pblica de sequncias genticas. Desta podem-

    se extrair sequncias de genes, protenas, genomas completos, dados de homologia

    e expresso gnica, alm de possuir informaes sobre os artigos relacionados a

    cada descoberta gentica (WHEELER et al., 2008). As informaes esto

    disponveis no endereo de internet: http://www.ncbi.nlm.nih.gov.

    - RegulonDB: base de dados que contm informaes acuradas sobre a rede

    regulatria de E. coli com conhecimento experimental. H dados sobre a

    organizao de operons, promotores e seu fator sigma associado, entre outros

    (GAMA-CASTRO et al., 2008). As informaes esto disponveis no endereo de

    internet: http://regulondb.ccg.unam.mx/index.html.

    4.3 FERRAMENTAS

    As principais ferramentas computacionais utilizadas foram:

    - Python: linguagem de programao escolhida para desenvolver programas

    que automatizem a preparao de dados para as etapas de treinamento e teste

    (PYTHON SOFTWARE FOUNDATION, 2009).

    - R: software para manipulao e anlise de dados. Este software permite a

    realizao de anlise estatstica, treinamento de RNs, extrao de regras, entre

    outras funes (R DEVELOPMENT CORE TEAM, 2005).

    - SPSS: software para anlise estatstica. Permite a realizao de grficos e

    outras funes (SPSS).

    - Tisean: software de domnio pblico que realiza a suavizao de dados

    atravs de um filtro passa-baixa LowPass (HEGGER et al., 1999).

    - WEBLOGO: aplicao da web (de uso livre) para a gerao de sequencias

    logo. Estas so uma representao grfica de aminocidos ou cidos nucleicos de

    mltiplos alinhamentos. Cada logo consiste em empilhamento dos smbolos, um

    para cada posio da sequncia. O tamanho geral dos empilhamentos indica o grau

    33

  • de conservao da sequncia em determinada posio, enquanto que o tamanho do

    smbolo indica a frequncia relativa do aminocido ou nucleotdeo em cada posio

    (CROOKS et al., 2004).

    4.4 CRIAO DE BANCO DE DADOS DE REGIES INTERGNICAS

    A criao do banco de dados se faz necessria uma vez que no existem

    repositrios pblicos de dados sobre os promotores pertencentes a outras bactrias

    Gram-negativas que no E. coli. Assim, desta necessidade, implantamos uma base

    de dados com as regies intergnicas. Esta base dados arquiva as sequncias

    intergnicas e outras informaes associadas, como porcentagem de GC, genes

    associados, tamanho, localizao na fita de DNA, entre outras informaes. Esta

    base de dados foi desenvolvida em conjunto com professores e alunos do Centro de

    Computao e Tecnologia da Informao e est descrita no captulo IV.

    34

  • 5 RESULTADOS

    Esta seo apresenta os resultados obtidos na forma de artigos cientficos,

    sendo organizada em cinco captulos, nos quais so apresentados:

    Captulo I- Rules extraction from neural networks applied to prediction and

    recognition of prokaryotic promoters.

    Captulo II - BacPP: Bacterial promoter prediction - A tool for accurate

    sigma-factor specific assignment in enterobacteria.

    Captulo III- Neural Networks applied to bacterial promoter prediction based

    on DNA stability.

    Captulo IV- Banco de dados IntergenicDB.

    35

  • 5.1 CAPTULO I - RULES EXTRACTION FROM NEURAL

    NETWORKS APPLIED TO PREDICTION AND RECOGNITION OF

    PROKARYOTIC PROMOTERS

    Este captulo apresenta o artigo Rules extraction from neural networks

    applied to the prediction and recognition of prokaryotic promoters, publicado na

    revista Genetics and Molecular Biology. Esta revista possui fator de impacto 0,08

    (para os ltimos 3 anos, conforme informao disponvel no web site da revista

    http://statbiblio.scielo.org//stat_biblio/index.php?

    state=19&lang=en&country=scl&issn=1415-

    4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011) e

    classificada pela CAPES como B1 na rea de avaliao Interdisciplinar. O trabalho

    pode ser acessado on-line pelo doi dx.doi.org/10.1590/S1415-47572011000200031.

    Este artigo descreve os resultados das simulaes de RNs utilizando a codificao

    ortogonal e os valores de estabilidade e mostra as regras extradas de cada

    arquitetura.

    36

    http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011http://statbiblio.scielo.org//stat_biblio/index.php?state=19&lang=en&country=scl&issn=1415-4757&CITED[]=GENETICS+AND+MOLECULAR+BIOLOGY&YNG[]=2011

  • Rules extraction from neural networks applied to the prediction

    and recognition of prokaryotic promoters

    Scheila de Avila e Silva, Gnther J.L. Gerhardt and Sergio Echeverrigaray

    Programa de Ps-Graduao em Biotecnologia, Universidade de Caxias do Sul, Caxias do Sul, RS, Brazil.

    Abstract

    Promoters are DNA sequences located upstream of the gene region and play a central role in gene expression.

    Computational techniques show good accuracy in gene prediction but are less successful in predicting promoters,

    primarily because of the high number of false positives that reflect characteristics of the promoter sequences. Many

    machine learning methods have been used to address this issue. Neural Networks (NN) have been successfully

    used in this field because of their ability to recognize imprecise and incomplete patterns characteristic of promoter

    sequences. In this paper, NN was used to predict and recognize promoter sequences in two data sets: (i) one based

    on nucleotide sequence information and (ii) another based on stability sequence information. The accuracy was ap-

    proximately 80% for simulation (i) and 68% for simulation (ii). In the rules extracted, biological consensus motifs were

    important parts of the NN learning process in both simulations.

    Key words: neural network, promoter, rule extraction.

    Received: March 26, 2010; Accepted: January 11, 2011.

    Introduction

    The determination of how and when genes are turned

    on and off is a challenge in the post-genomic era. Differ-

    ences between two species are often more related to gene

    expression and regulation than to their structures (Howard

    and Benson, 2002). An adequate comprehension of the

    complex metabolic networks present in various organisms,

    including cellular differentiation and cellular responses to

    environmental change, can be facilitated by studying of

    promoter sequences, i.e., short sequences located before the

    transcription start site (TSS) of a gene (Juregui et al.,

    2003; Pandey and Krishnamachari, 2006).

    Promoters act as gene expression regulators through

    their ability to interact with the enzyme RNA polymerase,

    thereby initiating transcription. The factor moiety of the

    RNA polymerase, of which there are several types, are in-

    volved in the recognition and primary interaction with the

    promoters. Various bacterial factors interact with differ-

    ent promoter sequences that are characterized by particular

    consensus motifs and properties. Most prokaryotic promot-

    ers have two consensus hexameric (six nucleotides) motifs:

    one centered at position -35 and another centered at posi-

    tion -10 relative to the TSS. For factor 70, the pattern se-

    quences for these motifs are TTGACA and TATAAT for

    positions -35 and -10, respectively, and are separated by

    ~17 non-conserved nucleotides (Lewin, 2008).

    As an analogy, the downstream sequences (genes)

    represent the computer memory while the upstream se-

    quences (promoters) represent the computer program

    that acts on this memory. The study of promoters can pro-

    vide new models for developing computer programs and

    for explaining how they operate (Howard and Benson,

    2002). Despite the importance of promoters in gene expres-

    sion, the shortness of their sequences, many of which are

    not highly conserved, makes them difficult to detect when

    compared to genes sequences. This characteristic limits the

    accuracy of in silico methods because many nucleotide al-

    terations may not be significant in terms of promoter func-

    tionality (Howard and Benson, 2002; Burden et al., 2005;

    Kanhere and Bansal, 2005b).

    There are many machine learning approaches for pro-

    moter recognition and prediction, including Hidden Mar-

    kov Models HMM (Pedersen et al., 1996), Support

    Vector Machines SVM (Gordon et al., 2003) and Neural

    Networks NN. The earliest NN used for promoter predic-

    tion had a simple architecture (Demeler and Zhou, 1991;

    ONeill, 1991). In these papers, the prediction had good ac-

    curacy but the number of false positives was high. Maha-

    devan and Ghosh (1994) used two NN: one to predict

    motifs and another to recognize the complete sequence.

    The Neural Networks Promoter Prediction (NNPP) pro-

    gram was implemented by Oppon (2000) and improved by

    Burden et al. (2005), who included information about the

    Genetics and Molecular Biology, 34, 2, 353-360 (2011)

    Copyright 2011, Sociedade Brasileira de Gentica. Printed in Brazil

    www.sbg.org.br

    Send correspondence to Scheila de Avila e Silva. Instituto de Bio-

    tecnologia, Universidade de Caxias do Sul, Rua Francisco Getlio

    Vargas 1130, 95070-560 Caxias do Sul, RS, Brazil. E-mail:

    [email protected].

    Research Article

  • distance between TSS and the first nucleotide translated,

    thereby decreasing the number of false positives.

    Apart from consensus motifs, promoters have certain

    physical features, such as stability, curvature and benda-

    bility, that make them different from gene sequences, i.e.,

    they are less stable, more curved and more bendable (Ka-

    nhere and Bansal, 2005a). The latter authors subsequently

    used promoter stability information to develop a procedure

    that recognizes promoters in whole sequences (Kanhere

    and Bansal, 2005b). However, despite the importance of

    these physical features, they have not been widely used in

    NN promoter prediction.

    Neural networks are suitable for promoter prediction

    and recognition because of their ability to identify degener-

    ated, imprecise and incomplete patterns present in these se-

    quences. In addition, NNs perform well when processing

    large genome sequences (Kalate et al., 2003; Cotik et al.,

    2005). A further feature is that there is no need for prior

    knowledge when building a suitable model. An important

    procedure in NN methods is rule extraction from trained

    networks that can assist the user in identifying biological

    rules from the input data (Andrews et al., 1995). In this pa-

    per, we describe the use of a NN to predict and recognize

    prokaryotic promoters by comparing two data sets: (i) nu-

    cleotide sequence information and (ii) stability sequence

    information of E. coli promoters, regardless of the factor

    that recognizes the sequence.

    Material and Methods

    The promoter sequences used were obtained from the

    January 2006 version of the RegulonDB database (Gama-

    Castro et al., 2008). Nine hundred and forty promoters and

    940 random sequences were used to train and test the NN.

    The promoters and sequences represented positive and neg-

    ative examples, respectively. The random sequences were

    generated with a probability of 0.22 for guanine (G) or cy-

    tosine (C) nucleotides and 0.28 for adenine (A) or thymine

    (T) nucleotides, based on the distribution of these nucleo-

    tides in real promoter sequences (Kanhere and Bansal,

    2005a). The examples were shuffled and allocated to one of

    ten files in order to generate the train and test set. Two sim-

    ulations were done, one based on nucleotide sequences and

    the other on stability information. The procedures are de-

    scribed below.

    Simulation based on nucleotide sequences

    In the simulation using nucleotide sequences (re-

    ferred to as the sequence-based simulation) the promoters

    and random sequences were initially aligned with the soft-

    ware ClustalW (Thompson et al., 1994) to accommodate

    the variable sequence length between the motifs. Without

    this initial alignment, the NN does not provide good accu-

    racy. The alignment introduced gaps in the sequences, rep-

    resented by a short line (-). The gaps were inserted where

    necessary (at the beginning, middle or end of a sequence)

    (Figure 1). The short line (-) was removed from the begin-

    ning and end of the sequence to avoid incorrect learning by

    the NN. Consequently, the resulting promoter sequences

    contained 72 nucleotides. After alignment, the nucleotides

    and gaps were encoded using a set of four binary digits as

    described by Demeler and Zhou (1991): A = 0100,

    T = 1000, C = 0001, G = 0010 and - = 0000.

    The architecture used to classify the sequences had

    288 input neurons (72 bp x four digits for each nucleotide),

    two neurons in the hidden layer and one neuron in the out-

    put layer (Figure 2a). The presence of a large number of

    neurons in the hidden layer or in the output layer did not in-

    crease the accuracy of the procedure.

    Simulation using promoter sequence stability

    The stability of DNA molecules can be expressed in

    terms of their free energy (G), which in turn depends on

    the mononucleotide and dinucleotide composition (San-

    taLucia and Hicks, 2004). The stability of a DNA duplex

    can be predicted from its sequence based on the contribu-

    tion of each nearest-neighbor interaction (SantaLucia and

    Hicks, 2004; Kanhere and Bansal, 2005a). The contribution

    of each dinucleotide is described in SantaLucia and Hicks

    (2004).

    To do the simulation using the free energy informa-

    tion, denoted as the stability-based simulation, G was cal-

    culated using the following formula, described in SantaLu-

    cia and Hicks (2004) and Kanhere and Bansal (2005a):

    G0 = Gij (1)

    where G0ij is the standard free energy change for

    dinucleotides of type ij. The original formula described in

    Kanhere and Bansal (2005a) was modified to adjust its ade-

    quacy to the goals of this paper. The best architecture ob-

    354 Avila-Silva et al.

    Figure 1 - Examples of promoter sequences aligned by ClustalW software.

  • tained to classify the sequences had 81 neurons in the input

    layer, four hidden neurons and one output neuron (Figu-

    re 2b).

    Training and analysis procedures

    Both simulations were done in the R Environment (R

    Development Core Team, 2005). The algorithm back-pro-

    pagation (BP) was chosen because it is the most popular al-

    gorithm for training feedfoward networks (Kalate et al.,

    2003). NNs based on the BP training algorithm have been

    successfully used for various applications in biology in-

    volving non-linear input-output modeling and classifica-

    tion (Mahadevan and Gosh, 1994; Kalate et al., 2003;

    Burden et al., 2005). The ten-fold cross-validation method

    was used to obtain statistically valid results. The k-fold

    cross-validation (k-FCV) technique consists in randomly

    sharing the examples archive in k equal portions. The train

    and validation were repeated k times, using k-1 archives to

    train and kth archives for validation. In each interaction, the

    validation archive had a different k (Polate and Gnes,

    2007).

    The accuracy (A), specificity (S) and sensitivity (SN)

    were calculated from the number of true positives (TP), true

    negatives (TN), false positives (FP) and false negatives

    (FN). The TP were promo