MODELAGEM EMPIRICA DE COLUNAS DE DESTILAÇÃO...

UNIVERSIDADE FEDERAL DE SANTA CATARINA

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA QUÍMICA

MODELAGEM EMPIRICA DE COLUNAS DE

DESTILAÇÃO UTILIZANDO REDES NEURAIS DE WAVELETS PARA OTIMIZAÇÃO E CONTROLE DE

PROCESSOS

Dissertação submetida ao Programa de Pós-Graduação em Engenharia Química, Departamento de Engenharia Química e

Alimentos, Universidade Federal de Santa Catarina, como requisito parcial para obtenção do título de Mestre em Ciências da

Engenharia Química.

Letícia Gomes Moura

Florianópolis, Julho de 2003

LETÍCIA GOMES MOURA

MODELAGEM EMPÍRICA DE COLUNAS DE DESTILAÇÃO

UTILIZANDO REDES NEURAIS DE WAVELETS PARA

OTIMIZAÇÃO E CONTROLE DE PROCESSOS

Dissertação submetida ao Programa de Pós-

Graduação em Engenharia Química, Departamento

de Engenharia Química e Alimentos, Universidade

Federal de Santa Catarina, como requisito parcial

para obtenção do título de Mestre em Ciências da

Engenharia Química.

Orientador: Prof. Ricardo A. F. Machado, Dr.

Co-orientador: Prof. Nestor Roqueiro, Dr.

Florianópolis, 2003

Modelagem empírica de colunas de destilação utilizando redes neurais

de wavelets para otimização e controle de processos

Letícia Gomes Moura

Dissertação julgada para obtenção do título de Mestre em Engenharia Química, área de concentração Desenvolvimento de Processos Químicos e Biotecnológicos e aprovada em sua forma final pelo Programa de Pós-Graduação em Engenharia Química da Universidade Federal de Santa Catarina. _________________________________ _________________________________

Prof.Dr. Ricardo A. F. Machado Prof. Dr. Nestor Roqueiro Orientador Co-orientador

_________________________________________

Prof. Dr. Agenor Furigo Junior Coordenador do Curso

Banca Examinadora:

__________________________

Prof.Dr. Ricardo Antonio Francisco Machado Orientador

__________________________ Prof.Dr. Nestor Roqueiro

Co-Orientador

__________________________ Prof.Dr. Ariovaldo Bolzan

__________________________ Prof.Dr. Julio Elias Normey Rico

__________________________ Prof.Dr. Ubirajara Franco Moreno

Florianópolis, 25 de Julho de 2003

“Segundo o velho ditado, é melhor viajar com esperança do que chegar. Nossa busca de descobertas alimenta nossa criatividade em todos os campos, não apenas na ciência.

Se chegássemos ao fim da linha, o espírito humano definharia e morreria”.

Stephen Hawking.

O universo numa casca de noz. São Paulo: Mandarim, 2001.

DEDICATÓRIA

Aos meus pais,

Por tudo que me deram,

são também responsáveis por este trabalho.

AGRADECIMENTOS

Aos Professores orientadores, pela confiança depositada.

A Nestor Roqueiro, pelo companheirismo, estímulo e orientação.

Aos Professores que tomaram parte nesta banca examinadora, pelo incentivo e

sugestões para futuras pesquisas.

Ao professor Julio Elias Normey Rico que, pronta e gentilmente, colaborou com

sua experiência em alguns dos momentos mais difíceis deste trabalho.

Aos amigos Carlos A. Claumann, Jessé Felipe Muller, Raúl Alves pela

participação conjunta nos trabalhos publicados.

A todos os colegas do Departamento de Automação e Sistemas, pelo

companheirismo e convivência sempre agradável; a Agustinho Plucênio, pelo idealismo

na atividade acadêmica.

Aos professores dos Cursos de Pós-Graduação em Engenharia Química, Elétrica

e Mecânica da UFSC, que em equipe nos ensinaram a valorizar o conhecimento,

principalmente aos Professores Albertazzi, Augusto Bruciapaglia, Ariovaldo Bolzan,

Luismar M. Porto, Marintho B. Quadri e Selene M. U. Souza.

Aos professores do Curso de Engenharia Química da UFRJ, pela preciosa

formação da qual tive o privilégio de desfrutar. Em especial aos professores Cyrus

Hackenberg, José L. Medeiros, Eduardo Mach, Frederico Tavares e Marcelo Castier.

A Ronoel Luis de Oliveira Godoy, Angelo da Cunha Pinto, Carlos Alberto Riehl

e Francisco Radler de Aquino Neto, pelo que representaram (e representam) para mim

no início da minha vida acadêmica e de pesquisa na UFRJ.

Aos meus amigos. A Dachamir e Aparecida Hotza, pela amizade e carinho. A

minha amada Zeni, por estar sempre presente em minha vida.

Aos meus pais e irmãos, ainda que distantes, pelo apoio em todos os momentos.

A todos que, de alguma forma, contribuíram para este trabalho.

A Agência Nacional de Petróleo – ANP e a Financiadora de Estudos e Projetos –

FINEP por meio do Programa de Recursos Humanos da ANP para o Setor Petróleo e

Gas PRH – ANP/MCT, pelo apoio financeiro.

Para sempre grata.

RESUMO

MOURA, Letícia Gomes. Modelagem empírica de colunas de destilação utilizando redes neurais de wavelets para otimização e controle de processos. Florianópolis, 2003. 112 páginas. Dissertação (Mestrado em Engenharia Química) – Curso de Pós-Graduação em Engenharia Química, Universidade Federal de Santa Catarina. Orientador: Ricardo Antônio Francisco Machado Co-Orientador: Nestor Roqueiro Defesa: 25/07/2003

Por muitas razões, o processo de destilação é a mais importante técnica de separação na indústria de processos químicos em todo o mundo. No entanto, a implementação do controle industrial é dificultada por se não linear, não-estacionário, interativo, e ainda sujeito a restrições e perturbações. Muitos dos modernos métodos de controle são baseados em modelos não- lineares multivariáveis. Os modelos não-lineares precisam ser mais rigorosos e com maiores exigências computacionais na medida em que aumenta a complexidade do processo. As redes neurais são uma alternativa para a modelagem destes processos na medida em que não se necessita um conhecimento a priori do processo. As redes neurais são capazes de encontrar correlação nos problemas complexos e não- lineares, processam a informação rapidamente e podem ser usadas para reduzir o esforço para o desenvolvimento de um modelo para controle. A utilização de uma rede neural para simplificar a modelagem fenomenológica de uma coluna de destilação é apresentada. A rede neural aqui utilizada apresenta uma modificação para melhorar a sua capacidade de generalização. A rede exibe uma performance superior quando comparada com redes feedforward e de base radial na identificação de processos fortemente não-lineares. O caso estudado é uma coluna de destilação com 12 m de altura e 30 pratos, que separa hidrocarbonetos em processo contínuo. Um procedimento sistemático em três etapas é desenvolvido. O primeiro consiste na coleção de dados e eleição das variáveis mais importantes do processo. A aquisição de dados foi feita usando um simulador rigoroso, numa periodicidade compatível com o que poderia ser feito num processo real. A seguir, entradas são informadas à rede no processo de treinamento. A terceira etapa é a validação do modelo testando-o com um novo grupo de dados. O presente trabalho analisa a rede para um número crescente de entradas e saídas possível de ser calculado; a qualidade e quantidade do grupo de dados de treinamento e previsão; o número máximo de passos possíveis de serem preditos pela rede; e finalmente a melhor topologia. A rede ainda é testada para uma série de variáveis de entrada. A performance da rede é testada para determinar os melhores parâmetros livres a serem usados. A qualidade do modelo depende no sucesso de cada uma destas três etapas.Aparte servir como um preditor, a rede neural provê informação sobre a relevância de cada variável. A maioria das predições forneceu coeficientes de correlação acima de 99%, mostrando que a rede pode ser usada em controle e ainda como um sensor por software. Palavras-chave: Petróleo; Coluna de destilação; Wavelets; Redes Neurais; Identificação de processos; Controle de processos.

ABSTRACT

For many reasons, distillation remains the most important separation technique in chemical process industries around the world. However, distillation control is difficult because it is usually nonlinear, nonstationary, interactive, and is subject to constrains and disturbances. Most advanced control techniques are generally grounded in the use of nonlinear multivariable models. The nonlinear models generally tend to become rigorous and computationally intensive as the process behavior becomes more complex. Neural networks (NN) offer an alternative approach to modeling process behavior as they do not require a priori knowledge of the process phenomena. NN are capable of handling complex and nonlinear problems, process information rapidly and can reduce the engineering effort required in controller model development. An application of wave-nets to simplify the mechanistic model of a distillation column is presented. The neural network used in this work has modifications to enhance its generalization capability. The modified net exhibited superior performance when compared with traditional feedforward and radial base nets in the identification of strong nonlinear process. A more complex process is modeled here. The case study is a distillation column, 12 m tall and 30 trays. The column separates mixtures of hydrocarbons in continuous separation. A systematic approach of three step procedure is developed. The first step consists of data collection and election of relevant process variables. The process data is acquired using a rigorous simulator, periodically as it would be in a real process. Next, inputs are applied to the network in a process known as learning. The third step involves the model validation by testing the NN behavior using a new data set. The present work analyses the net for an increasing number of inputs and outputs possible to be calculated; the quality and quantity of the data set for learning and for testing; the number of steps possible to be predicted by the net; and finally the best topology. Also the NN is tested for some inputs. And optimization of performance is made to find the best free parameters to be used. The quality of the model depends on the success of each of the three steps. Apart from serving as a predictor, the NN provides useful information regarding the importance of each input variable. Most of the predictions made shown a correlation coefficient over 99%, showing it can be used in process control and as a soft sensor.

SUMÁRIO

LISTA DE FIGURAS ............................................................................... x

LISTA DE TABELAS ............................................................................ xii

1 INTRODUÇÃO....................................................................................................... 1

2 A REDE NEURAL ................................................................................................. 6

2.1 Introdução ...................................................................................6

2.2 Aproximação de Funções Utilizando a Teoria de Wavelets..........8

2.2.1 Multiresolução........................................................................................................................10

2.3 Multiresolução com Funções Localizadas e de Escopo Global ..11

2.4 Redes de Wavelets e Identificação de Sistemas...........................14

2.4.1 Metodologia de Identificação ....................................................................................15 2.4.2 Estrutura das Redes Wavelets para Identificação......................................16

2.5 Regularização e Representação de Conhecimento.....................18

2.5.1 Introdução de Regularizadores no Problema de Mínimos Quadrados........................................................................................................................................................19

2.6 Alterações na WaveNet...............................................................21

2.7 Conclusão...................................................................................21

3 O PROCESSO A SER IDENTIFICADO........................................................... 23

3.1 Introdução .................................................................................23

3.2 Petróleo e seu refino...................................................................23

3.3 Modelagem do Processo de Destilação.......................................25

3.4 O Simulador...............................................................................26

3.4.1 Introdução ..................................................................................................................................26

3.4.2 Comunicação entre o INDISS e o MATLAB ..............................................29 3.4.3 O Simulador de Processos INDISS......................................................................32

3.5 Conclusão...................................................................................33

4 IDENTIFICAÇÃO DO PROCESSO.................................................................. 34

4.1 Introdução .................................................................................34

4.2 Resultados de simulação ............................................................35

4.2.1 Da unidade de processo estudada...........................................................................35 4.2.2 Das perturbações ..................................................................................................................36 4.2.3 Do Tempo de Processo...................................................................................................39 4.2.4 Dos Bancos de Dados.......................................................................................................40

4.3 Resultados no Treinamento e na Previsão .................................41

4.3.1 Avaliação do Número de Entradas e de Saídas da Rede....................42 4.3.2 Escolha dos Parâmetros Livres: µ e Níveis de Resolução ................48 4.3.3 Escolha do Grupo de Dados do Treinamento ..............................................57 4.3.4 Comparação dos resultados no treinamento e previsão.......................74

4.4 Conclusão do capítulo................................................................80

5 CONCLUSÕES FINAIS ...................................................................................... 83

6 APÊNDICE ........................................................................................................... 87

6.1 Treinamentos e Predições do Banco de Dados I-F.....................88

6.2 Treinamentos e Predições do Banco de Dados I-T.....................93

6.3 Treinamentos e Predições do Banco de Dados I-C ....................98

6.4 Treinamentos e Predições do Banco de Dados I-R ..................103

LISTA DE FIGURAS

Figura 2-1 Spline e sua Wavelet (Cedida por Claumann [Claumann 2003])....................................... 12

Figura 2-2 Spline dividida em 3 Regiões (Cedida por Claumann [Claumann 2003]) ......................... 12

Figura 2-3 Expansão de Funções de Escala (8 funções) (Cedida por Claumann [Claumann 2003]) .. 13

Figura 2-4 Expansão de Funções de Escala (5 funções) (Cedida por Claumann [Claumann 2003]) .. 13

Figura 2-5 Rede de wavelets usada na identificação de processos (Cedida por Claumann

[Claumann 2003])............................................................................................................. 17

Figura 2-6 Rede de wavelets usada como simulador do processo (Cedida por Claumann [Claumann

2003]) ......................................................................................................................... 17

Figura 2-7 Comparação da aproximação do mesmo conjunto de dados para diferentes

modelos (Cedida por Claumann [Claumann 2003])..................................................................... 18

Figura 3-1 Indiss interface homem-máquina ................................................................. 28

Figura 3-2 Comunicações entre INDISS e outras aplicações ........................................ 30

Figura 3-3 Exportação de grupos de dados do processo................................................ 32

Figura 4-1 Diagrama do Processo: Variáveis Escolhidas .............................................. 36

Figura 4-2 Perfil de Perturbação de Variável de Entrada da Rede. ............................... 37

Figura 4-3 Perfil de Variável de Saída da Rede. ........................................................... 38

Figura 4-4. Amostras x Tempo de Processo .................................................................. 39

Figura 4-5 Tempo de máquina (s) x Número de entradas na rede................................. 44

Figura 4-6 Tempo de máquina (s) x número de pontos. ................................................ 46

Figura 4-7 Curva: µ x R2 no Treinamento ..................................................................... 49

Figura 4-8 µ x R2 no Treinamento, Previsão a um passo e Previsão Recorrente .......... 50

Figura 4-9 Previsão recorrente usando µ de 1x10-6 ....................................................... 51

Figura 4-10 Previsão recorrente usando µ de 1x10-4 ..................................................... 51

Figura 4-11 µ x R2 no treinamento ................................................................................ 52

Figura 4-12 µ x R2 para o primeiro nível de resolução.................................................. 53

Figura 4-13 µ x R2 para o segundo nível de resolução .................................................. 54

Figura 4-14 µ x R2 para o terceiro nível de resolução ................................................... 54

Figura 4-15 Comparativo de coeficientes de correlação na previsão recorrente. .......... 55

Figura 4-16 (a) Previsões recorrentes para escolha do µ e número de níveis; (b)

Detalhe. ................................................................................................................... 56

Figura 4-17 R2 em função do número de amostras usadas no treinamento ................... 58

Figura 4-18 R2 em Função do Número de Amostras .................................................... 59

Figura 4-19 Caso I -Número de passos na predição x R2 .............................................. 60

Figura 4-20 Caso I - Erro de predição para 200 passos ................................................. 61

Figura 4-21 (a) Caso I - Previsão da rede para 4000 passos; (b) Detalhe ..................... 62

Figura 4-22 Caso I - Número de passos na predição x R2, nova avaliação ................... 63

Figura 4-23 Caso II - Número de passos na predição x R2 ............................................ 64

Figura 4-24 Caso II - Previsão da rede para 8000 passos .............................................. 65

Figura 4-25 Caso III - Número de passos na predição x R2........................................... 66

Figura 4-26 (a) Caso III - Previsão da rede para 8000 passos; (b) Detalhe ................... 67

Figura 4-27 Variáveis de Entrada da Rede do BD3000 ................................................ 70

Figura 4-28 Variáveis de entrada da rede do BD6500 .................................................. 71

Figura 4-29 Comparação Dados Reais x Predição Rede – Caso VI. ............................. 72

Figura 4-30 (a) Comparação Dados Reais x Predição Rede – Caso I; (b) Detalhe ...... 73

LISTA DE TABELAS

Tabela 1 Funções de acesso ao servidor OLE do Indiss................................................ 30 Tabela 2 Chamadas às funções desde Matlab................................................................ 31 Tabela 3 Agrupamento dos bancos de dados por número de variáveis perturbadas. .... 41 Tabela 4 Tempo de Máquina (s) x Número de Entradas na Rede. ................................ 43 Tabela 5 Tempo de Treinamento (s) x Número de Entradas da Rede em Vários Níveis

de Resolução ........................................................................................................... 45 Tabela 6 Tempo de Máquina no Treinamento x Número de Saídas da Rede (1000

pontos) .................................................................................................................... 47 Tabela 7 Avaliação do Grupo de Amostras para Treinamento...................................... 69 Tabela 8 R2 x Número de entradas ................................................................................ 75 Tabela 9 Redes do Grupo I ............................................................................................ 77 Tabela 10 Redes do Grupo II ......................................................................................... 78 Tabela 11 Redes do Grupo III ....................................................................................... 79 Tabela 12 Redes do Grupo IV e V.................................................................................. 79

1 INTRODUÇÃO

A destilação é de longe a mais importante técnica de separação da indústria de

processos em todo o mundo. Nos EUA contam-se 40.000 colunas de destilação que

consomem 3% de toda a energia utilizada naquele país [Ramchandran 1995]. Por estas

razões, melhorar o processo e seu controle pode ter um impacto significativo na redução

de consumo de energia, na melhora da qualidade do produto e na proteção dos recursos

ambientais. A modelagem e o controle de colunas de destilação é tarefa complexa já que

o processo reúne várias características que dificultam o controle pelos métodos

clássicos; ele é não- linear, acoplado e ainda está sujeito a restrições de operação. Todas

estas características limitam a efetividade de controladores lineares [Dutta 1999]. As

interações entre as variáveis e o comportamento não linear conjuntamente definem o

problema de controle como multivariável não linear.

Uma característica que distingue o campo de controle de processo, quando

comparado com o controle da maioria dos sistemas mecânicos e elétricos, é a

ocorrência comum do tempo de atraso (em inglês: time delay, que tem como sinônimos

ainda transportation lag e dead time). Toda vez que massa ou energia são fisicamente

movimentadas em um processo ou planta, ocorre um tempo de atraso associado ao

movimento. Aparte o movimento físico de materiais líquidos ou sólidos, existem outras

fontes de tempo de atraso nos problemas de controle de processo. Por exemplo, o uso de

cromatógrafos para medir concentração em uma corrente do processo: o tempo de

análise. A presença do tempo de atraso no processo afeta a estabilidade do sistema em

malha fechada.

Os analisadores em linha, quando disponíveis, apresentam atrasos significativos

(15-20 minutos), e estes atrasos prejudicam o desempenho dos sistemas de controle. Ao

invés de utilizar estas medidas, pode ser utilizado um modelo de inferência para

predizer os valores das variáveis de interesse, sendo que, para implementação de

controladores multivariáveis é imprescindível contar com um modelo do processo. Os

modelos de inferência permitem que os operadores disponham de valores sempre

atualizados das variáveis importantes de processo e possam realizar as alterações

necessárias em um tempo menor. Além disso, os modelos de inferência são mais

econômicos que a aquisição instalação e manutenção de um analisador em linha.

Para melhorar a performance de um sistema com tempo de atraso, estratégias

especiais de controle são permanentemente desenvolvidas, como a compensação do

tempo de atraso e o controle inferencial.

Nos últimos anos, as estratégias de controle não lineares baseadas em modelos

têm sido estudadas de forma intensiva. Para alguns algoritmos de controle não linear

baseado em modelo é necessário resolver um problema de otimização, em que uma

trajetória pré-definida para o valor desejado (set-point) deve ser atendida e a ação de

controle é a solução do problema. O modelo do processo utilizado para previsão da

variável controlada pode ser linear ou não linear. Controladores, como por exemplo

IMC (Internal Model Control) ou MPC (Model Predictive Control), utilizam modelos

lineares e, embora, existam referências a aplicações de redes neurais em controle de

colunas de destilação usando MPC [Su 1993], não são apresentados os resultados da

qualidade de previsão do modelo do processo representado pela rede neural.

Em uma publicação recente [Ansari 2000], os autores afirmam que são as não

linearidades do modelo do processo que permitem melhorar o desempenho e, portanto, a

estrutura do controlador deve preservar estas não linearidades.

Pearson relata que o desenvolvimento de modelos não lineares é um dos maiores

obstáculos à aplicação de NMPC (Non-linear Model Predictive Control) e que a

modelagem é a etapa mais demorada de um projeto industrial [Pearson 2003]. As

estratégias de controle baseadas em modelo requerem o desenvolvimento de modelos de

sistemas não lineares e para estes não existe uma metodologia geral para obtenção.

Na etapa de aplicação industrial, o tempo de cálculo é fator determinante para a

escolha do modelo [Dutta 1999][Safati 1999]. Controladores não- lineares, baseados em

modelagem fenomenológica prato a prato, podem ser desenvolvidos, porém, por razões

práticas, controladores precisam fornecer uma resposta razoável dentro de um curto e

determinado intervalo de tempo; e, ademais, exigências computacionais limitam a

adoção industrial de controladores com modelagem rigorosa [Dutta 1999] [Luyben

1990].

Os métodos para controle e otimização dependem ainda de medidas precisas de

variáveis que, em muitos processos industriais, são medidas off-line em laboratórios de

qualidade. No processo em foco neste trabalho, a concentração dos compostos chaves

nas correntes de saída da coluna de destilação são os melhores exemplos de medidas

que demandam serem medidas off-line e muito tempo para sua medição. A dificuldade

de aquisição de informação sobre estas variáveis pode ser atribuída a vários fatores:

pouca automatização das análises laboratoriais; necessidade de manutenção constante

do sis tema de medição; e, mesmo quando medidas em tempo real são possíveis, o custo

de instalação de um sensor adicional pode não ser atrativo [Fieg 2002]. Esses compostos

chaves freqüentemente refletem a qualidade do produto final e, por isso, são de grande

interesse econômico. Nestes casos, uma estimativa da variável pode ser obtida a partir

de um modelo inferencial [Barbosa 2002][Bhartiya 2001][Wang 1996].

Devido ao volume de produto processado por uma coluna de destilação e os

custos envolvidos no processo, pequenas melhoras no desempenho podem representar

ganhos significativos a médio e longo prazos. Pelo exposto acima contar com um

modelo de inferência acurado é de grande valia para o acompanhamento, controle e

otimização do processo.

Ainda que modelos inferenciais sejam largamente utilizados na indústria, apenas

poucas técnicas destes modelos são discutidas na literatura [Bhartiya 2001]. Barbosa et

al. [Barbosa 2002], num trabalho desenvolvimento pelo Centro de Pesquisas da

PETROBRAS – CENPES –, comparam redes neurais quando utilizados como sensores

inferenciais de colunas de destilação. Korres [Korres 2002] e Wang [Wang 1996]

também utilizam inteligência artificial em sensores.

O potencial de aplicação de redes neurais em processos industriais é vasto. A

habilidade das redes neurais de capturar e modelar processos severamente não- lineares,

dinâmicos ou ainda acoplados faz delas ferramentas poderosas em controle baseado em

modelos e monitoração.

A utilização de modelos não lineares provenientes da inteligência artificial tem

sido objeto de muita investigação e avanço. Os modelos que utilizam funções de

ativação são chamados de redes neurais. Estas são compostas de camadas de neurônios

interconectados através de pesos. Desde o surgimento das Redes Neurais (Neural

Networks - NNs) como uma ferramenta computacional poderosa para descrição de

mapeamentos complexos, elas foram objeto de interesse para aplicações em engenharia.

Há vasta literatura sobre diversos tipos de redes neurais [Safati 1997].

A utilização de redes neurais como solução potencial para problemas complexos

não é novidade. Nos últimos 50 anos, muitos estudos têm sido realizados com o intuito

de alcançar o nível de sofisticação do cérebro humano para processar informação

[Willis 1991]. A habilidade das redes neurais de modelar funções não- lineares é

utilizada em muitas aplicações industriais, tais como: identificação de sistemas, controle

de processos, detecção de falhas, reconhecimento de padrões [Pearson 2003]

[Ramchandran 1995]. Como modelo empírico, o uso de redes neurais apresenta a

vantagem de não se necessitar de conhecimento prévio do processo, pois são capazes de

estabelecer a relação dinâmica de causa e efeito e encontrar relações complexas entre

variáveis [Korres 2002] [Lennox 2001] [Arahal 1998] [ Savkotic 1996] [Su 1993]. A

partir de informação do processo – valores medidos das entradas e saídas e utilizados na

etapa de treinamento –, as redes neurais são capazes de reproduzir o comportamento do

processo – etapa de previsão. As redes neurais tradicionalmente utilizadas (multicamada

com treinamento backpropagation) apresentam algumas características indesejadas que

foram superadas parcialmente pelas redes de base radial e wavenets descritas na

literatura [Claumann 1999] [Roqueiro 1995].

A adoção de redes neurais nas diversas possibilidades ilustradas acima encontra-

se em estágio incipiente na indústria de processos no Brasil. A modificação de sensores

e estratégias de controle de processos já em funcionamento raramente ocorre, pois

acarreta em custos de interrupção de produção, de aquisição de novos equipamentos, de

treinamento de operadores, sem falar no risco embutido na inovação. A adoção de novas

tecnologias, ainda que vantajosas, implica na possibilidade de situações desconhecidas,

por isso a avaliação prévia é exaustiva.

O potencial da utilização de redes neurais na modelagem do refino de petróleo

encontra-se ilustrado em trabalho recente de inferência de produtos de destilação

utilizando dados experimentais obtidos na refinaria REPAR, operada pela

PETROBRAS S.A. [Barbosa 2002].

Apesar do potencial das redes neurais, muitos problemas restam a serem

resolvidos antes que larga utilização delas venha a ocorrer [Haikin 1999] [Safati 1997].

Algumas funções de ativação utilizadas são funções cujo suporte é igual ao domínio

definido para as variáveis de interesse e, portanto, não é possível realizar um

aprendizado da rede de forma localizada. A classe e o número de funções define a

estrutura da rede e pode ser necessário determiná- las de forma empírica, por tentativa e

erro ou por heurística. A convergência do algoritmo de aprendizado não é normalmente

garantida.

Tentativas foram feitas para resolver estes, e outros problemas, considerando

estrutura rigorosa para as NNs. A teoria de wavelets foi utilizada por Bakshi [Bakshi

1993] para implementar este tipo de redes denominadas wavenets. Uma abordagem

ampla encontra-se nos trabalhos de Roqueiro [Roqueiro 1995] e Claumann [Claumann

2003].

Esta dissertação de mestrado utiliza uma rede neural de wavelets com

modificações que melhoram seu desempenho em malha aberta; é utilizada para

modelagem de coluna de destilação, objetivando-se superar os obstáculos apresentados

pelas redes precursoras. O objetivo aqui é desenvolver a metodologia de adoção das

redes neurais e viabilizar a sua utilização no processo de refino de Petróleo e analisar o

comportamento dinâmico da rede proposta como preditor.

Este documento está apresentado da seguinte forma: o Capítulo 2 aborda a

estrutura da rede neural utilizada para modelagem empírica da coluna de destilação e

suas novas características. No Capítulo 3, apresenta-se o processo a ser modelado

empiricamente e o simulador utilizado na produção dos dados necessários à

identificação, assim como as demais ferramentas necessárias. Já o Capítulo 4 traz os

resultados obtidos nas simulações, no treinamento e na predição, com avaliação

quantitativa dos diversos sistemas estudados. Por fim, no Capítulo 5 encontram-se as

conclusões e perspectivas.

2 A REDE NEURAL

2.1 Introdução

Nos últimos anos, foram realizados grandes avanços na análise e identificação

de sistemas dinâmicos com a utilização de modelos não lineares provenientes da

inteligência artificial. Nesta área destacam-se os modelos obtidos a partir de regras

sintáticas (lógica difusa) e principalmente, os que utilizam funções de ativação (redes

neurais). Na visão da inteligência artificial, uma rede neural é composta de camadas de

neurônios interconectados através de pesos. Matematicamente, são modelos complexos

cuja estrutura é determinada empiricamente.

As redes neurais mais utilizadas em controle e identificação não linear são as

tipo feedforward. Muitos trabalhos encontrados na literatura utilizam-nas. Grande parte

desse sucesso pode ser atribuído ao algoritmo de treinamento supervisionado e iterativo

conhecido por Retropropagação do Erro [Rumelhart 86]. No entanto, a identificação de

sistemas pode ser muito trabalhosa devido ao grande número de parâmetros da estrutura

da rede (número de camadas escondidas, número de neurônios por camada) e do método

de treinamento (seleção inicial dos pesos, determinação do fator de aprendizado, da taxa

de momento e do critério de parada) [Haikin 99]. Os parâmetros da estrutura de rede e

do método de treinamento são determinados por tentativa e erro ou através de

heurísticas.

Devido ao grande número de parâmetros e pela ausência de fundamentação

matemática, as redes feedforward vêm sendo substituídas por modelos não lineares,

lineares nos parâmetros. Este último tipo de estrutura é muito atrativa, pois o

treinamento pode ser formalizado como um problema de regressão linear e portanto,

resolvido via mínimos quadrados. Neste contexto são utilizados dois tipos de redes não

lineares, lineares nos parâmetros: as redes de funções de base radial (RBFN) e as redes

de wavelets.

As RBFN possuem apenas uma camada e os neurônios utilizam funções de

ativação, em geral de suporte compacto, definidas na vizinhança de um ponto central

[Haikin 99]. Uma função com suporte compacto é uma função com valor diferente de

zero em um intervalo e valor zero fora desse domínio.

A determinação da estrutura da rede se resume à determinação do número e

localização dos centros. Isto significa que devem ser determinados um número bem

menor de parâmetros quando se compara esse tipo de rede com as feedforward.

As redes de wavelets são compostas de funções localizadas assim como as

RBFN, no entanto, são melhor fundamentadas matematicamente que estas últimas. As

redes de wavelets utilizam o conceito de multiresolução [Mallat 89].

A análise em multiresolução é uma metodologia de representação de sinais em

diferentes escalas ou resoluções. Um sinal, no contexto da multiresolução, é

representado como a soma de sucessivas aproximações feitas a partir das projeções

desse em espaços definidos pela teoria das wavelets [Daubechies 92],[Strang 96].

Aplicações de wavelets para aproximação de funções e construção de redes

neurais surgem com Bakshi e Stephanopoulos [Bakshi 93] através das wavenets. A

aproximação de uma função f(x) é feita, no contexto de multiresolução, obtendo as

projeções de f(x) para versões deslocadas e comprimidas de uma função básica,

conhecida como "wavelet mãe". As translações e compressões e, portanto, a localização

e o suporte são definidos pela teoria de wavelets. Neste caso, o treinamento da rede se

restringe à determinação dos coeficientes (pesos) relativos às projeções. O problema é

que o número funções de ativação de uma Wavenet cresce exponencialmente à medida

que se aumenta o número de entradas. Além disso, o suporte das funções de ativação

diminui muito em relação ao domínio do problema, já que em uma Wavenet, o suporte

de cada função de ativação multidimensional é obtido pela interseção do suporte de

funções localizadas unidimensionais. Dessa forma, pode haver funções com muito

poucos pontos em seu suporte levando a problemas numéricos no treinamento,

principalmente para casos com amostragem deficiente de dados.

Na rede neural proposta por Claumann [Claumann 2003], propõe-se uma forma

de diminuir o número de funções de ativação na Wavenet. Os dados de treinamento são

inicialmente aproximados com funções de ativação (funções de escala) cujo suporte é

igual ao domínio do problema (funções de escopo global), ao contrário da Wavenet

originalmente proposta que utiliza apenas funções localizadas. Se a aproximação não for

adequada, então podem ser adicionadas wavelets com um nível crescente de localização

de acordo com a multiresolução.

2.2 Aproximação de Funções Utilizando a Teoria de Wavelets

As wavelets constituem uma família de funções construídas de dilatações e

translações de uma função básica Ψ(.) denominada "wavelet mãe". Essa família de

wavelets é definida da seguinte forma:

( ) ( )

btatba

Ψ⋅=Ψ−

Equação 1

Na Equação 1, o parâmetro b efetua uma translação, ou seja, modifica a

localização temporal da wavelet, o parâmetro a efetua uma compressão, o que altera o

suporte no domínio da freqüência. O coeficiente que precede a wavelet mãe tem como

objetivo normalizar as funções da família. Em geral, restringem-se os valores dos

parâmetros a e b a um conjunto discreto. Por exemplo, se a = a0m

e b= nb0 para m,n ∈ Z

com a0 > 1 e b0 > 0 é possível definir a seguinte família de wavelets discretas:

( ) ( ) ( )Znm

nbtaat mmnm

−Ψ⋅=Ψ −−

Equação 2

As wavelets formam um conjunto completo em L2(R) [Daubechies 88] e podem

ser utilizadas em diferentes aplicações. Em particular, podem representar funções de

quadrado integrável f(t) ∈ L2(R) (sinais de energia finita), de acordo com a seguinte

expansão:

( )∑∑ Ψ=m

nm tctf ,,)(

Equação 3

Em geral, não se conseguem representações analíticas para as wavelets; essas são

construídas a partir da solução de uma equação do tipo:

( ) ( )∑ −Φ=Φk

k ktct 2

Equação 4

Onde Φ(t) é conhecida como função de escala. Uma vez obtida a função de

escala, a wavelet pode ser construída [Strang 96]. Os coeficientes ck na Equação 4

determinam as propriedades da wavelet [Daubechies 88].

A expansão em séries de funções mostrada na Equação 3 é, em geral, separada

em duas partes. As informações mais grosseiras são identificadas por uma expansão em

funções de escala. Os detalhes são identificados pelas wavelets. O sinal completo é a

soma das duas partes descritas. Matematicamente tem-se:

( ) ( )∑ ∑∑∞=

−∞=

Ψ+Φ=m

nnn tctdtf

0,,,0)(

Equação 5

A Equação 5 pode ser escrita na forma de uma expansão em espaços de funções.

Definindo-se:

( ) ( )

( ) ( )∑

∑∞=

−∞=

nnmnmm

Tem-se:

( ) ( ) ( ) )(......)( 100 tWtWtWtVtf ∞→⊕⊕=

Equação 6

Onde ⊕ significa complemento ortogonal.

2.2.1 Multiresolução

A análise em multiresolução é uma metodologia de representação de sinais em

diferentes escalas (a cada valor de m na Equação 3 é associado uma escala ou

resolução). Uma função, no contexto da multiresolução, é representada como a soma de

sucessivas aproximações. Esta aproximação é feita projetando a função nos espaços

definidos pela Equação 6.

Exemplificando, seja F0 a projeção, ou aproximação, de f(t) no espaço V0(t), ou

( ) ( )∑∞=

−∞=

nnn tdtF ,00

Equação 7

Para obter uma aproximação mais detalhada, deverá ser incorporado um

conjunto de wavelets correspondentes à escala 0:

( ) ( ) ( )∑∞=

−∞=

nnn tctFtF ,0,001

Equação 8

O próximo passo é incorporar um conjunto de wavelets na escala 1:

( ) ( ) ( )∑∞=

−∞=

nnn tctFtF ,1,112

Equação 9

Aplicando-se este processo continuamente, obtém-se a seqüência de

aproximações F0,F1,F2 ... que são, progressivamente, melhores aproximações de f(t).

Para obter os coeficientes (pesos) das projeções, deve-se resolver o problema

descrito pela Equação 10 para cada escala :

[ ] [ )∞=− ,0 ; )(min 2 mFtf m

Equação 10

Dado que Fm é uma série de funções com coeficientes desconhecidos, solucionar

a Equação 10 implica em resolver um problema de mínimos quadrados. Isso só é

possível porque a expansão por wavelets gera modelos não lineares, lineares nos

parâmetros.

Tudo o que foi descrito até o momento se refere a uma função unidimensional. A

teoria de wavelets permite estender à aproximação em multiresolução facilmente para o

caso multivariável. A técnica mais comum para desenvolvimento de wavelets

multidimensionais é o produto tensorial de wavelets e funções de escala

unidimensionais. Exemplificando, para o caso de duas entradas, tem-se uma função de

escala :

( ) ( ) ( )2121 , tttt Φ⋅Φ=Φ

e três wavelets mães:

( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )2121

Ψ⋅Ψ=Ψ

Φ⋅Ψ=Ψ

Ψ⋅Φ=Ψ

Se Ψ(t) constitui uma base para o L2(R), então Ψ h(t) com h = 1, 2, 3 constitui

uma base para o espaço L2(R2) (o espaço das funções quadrado integráveis com duas

entradas). O número de wavelets aumenta exponencialmente com o número de entradas,

resultando em (2d -1) wavelets para d entradas.

2.3 Multiresolução com Funções Localizadas e de Escopo Global

Na seção anterior, foi considerada a aproximação de funções com suporte

infinito. Na prática, interessa a aproximação de funções contidas em um domínio finito.

Esse fato, além do tamanho finito do grupo de dados de treinamento, impõe restrições

no número de funções de ativação a serem utilizadas. Dessa forma, apenas alguns níveis

de resolução devem ser suficientes para uma correta aproximação.

O primeiro passo para aproximar uma função de domínio finito é normalizar os

dados de entrada e saída; por exemplo no intervalo [0,1]. Em seguida, escolhe-se o tipo

de função de escala. Assim sendo, a wavelet fica definida automaticamente.

Função de Escala Wavelet

Figura 2-1 Spline e sua Wavelet (Cedida por Claumann [Claumann 2003])

Uma ilustração da função de escala spline (que pode ser gerada a partir da

Equação 4 ) e de sua wavelet é mostrada na Figura 2-1.

A aproximação dos dados de treinamento se inicia, no contexto da

multiresolução, a partir de uma combinação linear de funções de escala deslocadas. No

caso da spline, o deslocamento é de 1/3 do suporte quando se consideram as adjacentes.

Dessa forma, a spline pode ser dividida em 3 regiões conforme mostrado na Figura 2-2.

(1) (3)(2)

Figura 2-2 Spline dividida em 3 Regiões (Cedida por Claumann [Claumann 2003])

Pode-se definir o número de funções de escala de forma arbitrária. Para

exemplificar, utilizando um caso unidimensional, podem ser vistas duas expansões

possíveis: uma com 8 funções (Figura 2-3) e outra com 5 (Figura 2-4) (Os números 1, 2

e 3 são relativos às regiões demarcadas na Figura 2-2). Note que, nos dois casos, várias

funções de escala (deslocadas em 1/3 de seu suporte) estão contidas no intervalo [0,1] (o

mesmo que o utilizado para normalizar o grupo de dados). As funções de escala

localizadas nas extremidades devem ser truncadas em razão do domínio finito da função

que se deseja aproximar.

N° da Função12345678

Versões Deslocadas da Spline

Domínio0 1

Figura 2-3 Expansão de Funções de Escala (8 funções) (Cedida por Claumann [Claumann 2003])

N° da Função12345

Versões Deslocadas da Spline

Domínio0 1

Figura 2-4 Expansão de Funções de Escala (5 funções) (Cedida por Claumann [Claumann 2003])

Se a função que se deseja aproximar é conhecida, então conforme a Equação 5

não interessa o ponto de partida. No entanto, quando se dispõe apenas de um conjunto

finito de pontos, a expansão que inicia com menor número de funções de escala será,

possivelmente, melhor em termos de capacidade de generalização. Algumas razões para

isto são:

1) Se a curva que se deseja aproximar tiver não linearidades pouco acentuadas,

então ela será certamente identificada utilizando somente funções de escala em

qualquer caso. O que foi afirmado é válido porque um comportamento próximo

do linear está contido no espaço das funções geradas por expansões de splines

(as splines são combinações de polinômios de baixa ordem e o comportamento

linear é um caso particular).

2) Para um problema com d entradas, o domínio de cada função

multidimensional é obtido pela interseção dos domínios de d funções

unidimensionais localizadas. Isso implica que, à medida que aumenta a

dimensão do espaço de entrada, o suporte das funções de ativação diminui

quando comparado ao domínio do problema. Dessa forma, pode haver funções

com muito poucos pontos em seu suporte, levando a problemas numéricos no

treinamento, principalmente para casos com amostragem deficiente de dados e

ruído. Assim sendo, na expansão utilizando 8 funções de escala para cada

entrada da um total de 8d funções a serem utilizadas (considerando todas as

combinações), estas funções tem um suporte menor do que as utilizadas para

uma aproximação com 5 funções de escala para cada entrada.

3) Quanto maior o número de funções de escala definidas no domínio mais

parâmetros devem ser estimados, aumentando a possibilidade de erro numérico.

Analisando o que foi descrito, nota-se que há uma tendência para produzir

melhores modelos à medida que se diminui o número de funções de escala. Por indução,

conclui-se que a melhor expansão possui apenas 3 funções de ativação (o menor número

possível, observe a Figura 2-3 ou a Figura 2-4).

Uma vez definidas as funções de escala, continua-se a multiresolução

incorporando conjuntos de wavelets em escalas progressivamente maiores (aumenta-se

a compressão) até atingir um pequeno erro de treinamento.

2.4 Redes de Wavelets e Identificação de Sistemas

Os modelos dinâmicos não lineares, lineares nos parâmetros podem ser

descritos, em geral, como séries temporais não lineares e o nome genérico dado a estes

modelos é NARMAX (Non-Linear Auto Regressive Moving Avarage with Exogenous

Inputs). Como casos particulares dos modelos NARMAX, podem-se citar as redes

neurais e os modelos ARMAX (lineares) muito utilizados em identificação [Ljung 1987].

Grande parte dos trabalhos encontrados na literatura relativos a identificação e

controle não linear utilizam as redes feedforward e as RBFN. Uma revisão destes temas

pode ser encontrada em Bequette [Bequette 1991] e Hunt et all. [Hunt 1992]. Bakshi e

Stephanopoulos [Bakshi 93] propuseram o uso de redes neurais monocamadas que

utilizam, como funções de ativação, famílias de funções denominadas wavelets. Estas

podem ser consideradas um caso particular das funções de base radial utilizadas nas

RBFN. Em outra abordagem, as redes de uma camada podem ser caracterizadas como

casos particulares do modelo NARMAX; ou seja, séries de funções obtidas da teoria de

wavelets.

2.4.1 Metodologia de Identificação

A identificação de sistemas utilizando redes neurais consiste, basicamente dos

seguintes passos:

1) Obtenção do Grupo de Dados de Treinamento: Aplicando um conjunto de

perturbações ao processo que se deseja modelar, gera-se um conjunto de dados

para treinamento. Os alvos são as saídas do processo no tempo discreto (k+1).

As entradas da rede são os valores atrasados das saídas e das perturbações, ou

seja, correspondem aos tempos discretos (k),(k-1),(k-2)... Observação: o

conjunto de dados descritos com entradas amostradas até o instante k e saídas no

instante k+1 correspondem a um sistema sem tempo morto. Caso o processo

possua tempo morto, a saída deverá ser considerada no instante k+TempoMorto.

2) Determinação da Melhor Estrutura da Rede: Esta etapa é relativa ao estudo do

conjunto de variáveis de entrada que melhor identifica o processo. Um critério

simples para indicar o melhor conjunto seria aquele que produzisse um pequeno

erro quadrático com o menor número de variáveis de entrada.

3) Validação: O procedimento mais comum para validar modelos é utilizar um

novo grupo de dados (Teste) relacionando as entradas às saídas.

O desempenho da rede pode ser avaliado utilizando-se o valor do coeficiente de

correlação R2. O valor de R2 é definido pela equação:

( )( )

100.1%

−−=

Equação 11

pN : Número de pontos do grupo de dados;

iγ : Valores de saída para os pontos do grupo de dados (i=1... Np);

piγ : Valores de saída previstos pelo modelo (i=1... Np);

y : Valor médio dos pontos de saída do grupo de dados.

O desempenho da rede deve ser avaliado com relação a um grupo de dados

diferente do utilizado no treinamento (validação cruzada). Alternativamente, pode-se

validar o modelo através de simulação, ou seja, utiliza-se o(s) primeiro(s) ponto(s) de

grupo dados de validação (condição inicial) como entrada à rede. Para os demais,

utilizam-se apenas os dados das variáveis de perturbação como informação externa e

faz-se a realimentação das saídas da rede. Na validação por simulação, pode-se utilizar

tanto o grupo de dados de treinamento quanto um novo.

2.4.2 Estrutura das Redes Wavelets para Identificação

Uma ilustração da rede de wavelets utilizada na identificação de um sistema

dinâmico pode ser vista na Figura 2-5. Neste exemplo, a rede possui apenas uma saída:

y(k+1), a variável predita no tempo (k+1) e duas entradas: a variável de perturbação

u(k) e a saída no instante atual y(k). Note que os pesos da camada de entrada recebem o

valor 1.

m - Resolução [0,i]n - Translação [0,ni]Φ - F. de EscalaΨ - Wavelets

Φ0,0 Φ0,n0 Ψ0,0 Ψ0,n0 Ψ i,0 Ψ i,ni

∑y(k+1)

u(k)y(k)Pesosunitários

Figura 2-5 Rede de wavelets usada na identificação de processos (Cedida por Claumann [Claumann 2003])

Na Figura 2-6, mostra-se uma ilustração da rede de wavelets utilizada como

simulador do processo (o mesmo do caso anterior).

m - Resolução [0,i]n - Translação [0,ni]Φ - F. de EscalaΨ - Wavelets

Φ0,0 Φ0,n0 Ψ0,0 Ψ0,n0 Ψ i,0 Ψ i ,ni

∑y(k+1)

u(k)y(k)Pesosunitários

Figura 2-6 Rede de wavelets usada como simulador do processo (Cedida por Claumann [Claumann 2003])

Como pode ser observado nas figuras acima, a rede é treinada para predizer o

comportamento da saída um passo à frente e, utilizando a predição de um passo,

realimenta-se a rede para predizer um número arbitrário de passos à frente. Cabe

ressaltar que redes multicamadas com treinamento tipo backpropagation, treinadas e

utilizadas da forma descrita acima, rapidamente divergem do comportamento do

processo.

2.5 Regularização e Representação de Conhecimento

Determinar um modelo a partir de um conjunto finito de observações sem

qualquer conhecimento sobre um sistema é um problema mal-posto, no sentido que um

modelo único pode não existir [Tikhonov 1977].

Na Figura 2-7, mostra-se uma ilustração de duas possíveis formas de

aproximação para o mesmo conjunto de dados. Têm-se, nos dois casos, um pequeno

erro de modelagem, no entanto, a amostragem dos dados é deficiente gerando incertezas

na aproximação.

Figura 2-7 Comparação da aproximação do mesmo conjunto de dados para diferentes modelos

(Cedida por Claumann [Claumann 2003])

Na identificação de sistemas, utilizando modelos lineares nos parâmetros,

problemas mal-postos produzem matrizes mal condicionadas, o que pode levar a

grandes erros na determinação dos coeficientes do modelo. Uma maneira de diminuir

incertezas é introduzir conhecimento prévio do processo que se deseja identificar, além

da simples aproximação de dados, de forma a obter-se uma solução única para o

problema de aproximação. Tal procedimento é conhecido por regularização. Para

transformar a identificação de sistemas em um problema bem-posto, Tikhonov

[Tikhonov 1977] criou a teoria da regularização. O conhecimento prévio utilizado na

teoria de regularização significa considerar que os processos não apresentam

descontinuidades. Isto evitará que o comportamento de um modelo mude abruptamente

nas vizinhanças de uma amostra. Tal hipótese é válida para uma grande classe de

sistemas do mundo real, mas não para todos os sistemas. A hipótese de suavidade pode

ser incorporada em um modelo introduzindo uma penalização da não suavidade no

critério de identificação [Tikhonov 1977] [O'Sullivan 1986] [Wahba 1990].

Regularizadores de naturezas diversas podem ser propostos. Por exemplo, para

penalizar a curvatura das funções utilizadas na aproximação dos dados, para impor

restrições no valor assumido pelas variáveis, para forçar a estabilidade em malha aberta

do modelo proposto entre outros.

2.5.1 Introdução de Regularizadores no Problema de Mínimos Quadrados

Matematicamente, a maior parte dos regularizadores podem ser introduzidos no

problema de identificação através da função objetivo. Termos adicionais, além do erro

quadrático de aproximação, constituirão a nova função objetivo regularizada. Dessa

forma, múltiplos critérios podem ser introduzidos. A importância de cada critério pode

ser ponderada utilizando multiplicadores (constantes positivas).

Na Equação 12, mostra-se o formato da função objetivo regularizada J:

( ) ∑=

⋅+⋅−=N

iii JXFYJ

Equação 12

N: Número de regularizadores;

Y: Vetor de dados que se deseja aproximar;

X- Matriz de dados de entrada;

F(X): Mapeamento não linear aplicado em X (Matriz);

θ: Vetor de parâmetros;

Ji - i-ésimo regularizador;

γi - i-ésimo multiplicador (γi >0);

Para maior compreensão, as matrizes e vetores presentes na equação 12 são

descritos em formato expandido como:

( )( )

,....1 ; ;

( )( )

,22,21,2

,12,11,1

,....1 ;

,....1 ; ,....1 ;

NjNiRx

( )( )

( )( ) ( )( )

,....1 ;:

,....1 ; ;

εφεφ

( )( )

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

NpNNpNp

pφφφ

φφφ

Sendo:

Np: Número de pontos do grupo de dados;

Nv: Número de variáveis;

Nf: Número de funções;

Φ(⋅): Mapeamento não linear correspondente ao conjunto de funções de

ativação da rede de wavelets.

Levando em conta as modificações realizadas por Claumann [2003], as funções

de ativação são compostas apenas de funções de escala. O mapeamento é aplicado aos

pontos do grupo de dados.

No caso de múltiplas saídas (θ matriz) o problema de mínimos quadrados pode

ser resolvido de forma desacoplada. Por isso, sem perda de generalidade, admitiu-se que

θ é um vetor, o que implica considerar apenas uma saída.

2.6 Alterações na Wavenet

Claumann [2003] propôs duas modificações na Wavenet e implementadas na

rede utilizada neste trabalho: o uso exclusivamente de funções de escala no esquema

multiressolução; e a introdução de um parâmetro de regularização. Uma descrição mais

detalhada da rede utilizada neste trabalho pode ser encontrada no trabalho de Claumann

[2003].

2.7 Conclusão

A rede usada no presente trabalho, proposta por Claumann [Claumann 2003], é

um modelo não linear, linear nos parâmetros. Este tipo de estrutura é muito atrativa pois

o treinamento pode ser formalizado como um problema de regressão linear e portanto

resolvido por mínimos quadrados. A qualidade do modelo depende das funções

escolhidas e dos pontos amostrados. Além disso o suporte e a localização das funções

de ativações são dados pela teoria de wavelets, por isso a escolha da estrutura da rede

prescinde da utilização de métodos heurísticos.

A primeira aproximação é feita com funções de ativação (função de escala), cujo

suporte é igual ao domínio do problema (função de escopo global) minimizando o

número de parâmetros a serem estimados. Na resolução de problemas práticos, interessa

a aproximação de funções contidas em um domínio finito, por isso, além do tamanho

finito do grupo de dados de treinamento, impõe-se restrições no número de funções de

ativação a serem utilizadas. Apenas alguns níveis de resolução devem ser suficientes

para uma correta aproximação.

A teoria da regularização incorporada ao modelo está relacionada com a

consideração que os processos de interesse não apresentam descontinuidades. Tal

hipótese é válida para uma grande classe de sistemas do mundo real, incluindo o sistema

avaliado neste trabalho: o processo de destilação. A hipótese de suavidade foi

incorporada ao modelo introduzindo uma penalização da não suavidade no critério de

identificação, isto é, na função objetivo.

3 O PROCESSO A SER IDENTIFICADO

3.1 Introdução

O processo de destilação ocorre desde a etapa de refino do petróleo cru, mas

permeia toda a Indústria de Petróleo. Sempre que houver correntes com misturas a

serem separadas e a destilação for um dos métodos adequados para a separação, esta

estará presente. O requisito básico é haver diferença no ponto de ebulição de seus

componentes, sejam eles hidrocarbonetos (provenientes do petróleo) ou outros

utilizados na indústria.

Sendo assim, a destilação aparece com tal freqüência entre os processos

industriais, que se tornou um dos processos mais estudados. A modelagem

fenomenológica, no entanto, requer a avaliação específica da mistura a ser separada e do

tipo de coluna de separação utilizada. Esta etapa pode ser demorada.

Nos mais recentes métodos de controle baseados em modelo, pode-se lançar

mão da modelagem empírica, que carece do estudo específico do processo. Requer, por

outro lado, uma etapa inicial de aquisição de dados.

Neste capítulo mostra-se o processo de destilação escolhido para fazer a

identificação, ainda que qualquer outro pudesse ser identificado utilizando-se a mesma

metodologia.

3.2 Petróleo e seu refino

O petróleo cru é constituído por centenas de diferentes substâncias químicas, do

metano ao asfalto. Embora a maioria dos constituintes seja hidrocarbonetos (83 a 87%

em carbono e 11 a 15% em hidrogênio), a análise elementar mostra a presença de

pequenas quantidades de nitrogênio (0 a 5%), de enxofre (0 a 6%) e de oxigênio (0 a

3,5%). A característica geral da refinação do petróleo é o processamento econômico do

óleo cru, o que sai do poço após a separação da água e do gás, até os produtos

comercializáveis.

A refinação envolve a separação por destilação, que, por seu turno, compreende

as operações unitárias de escoamento de fluidos, de transferência de calor e de

destilação. O processamento por destilação do petróleo nos seus mais diversos produtos

consiste numa separação puramente física dos hidrocarbonetos.

A destilação se classifica entre as mais importantes das operações unitárias.

Nesta operação, a separação se baseia na volatilidade, e a corrente de processo pode ser

separada, mediante a destilação, num componente mais volátil e num outro menos

volátil. As operações mais antigas de destilação descontínua foram quase inteiramente

superadas pelas de destilação contínua. Os sistemas usados modernamente

compreendem o aquecimento do óleo, mediante bombeamento através de tubos

colocados num forno, seguido pela vaporização numa coluna de fracionamento com

diversas saídas laterais, que possibilitam a retirada de frações com várias faixas de

ebulição, os cortes ou produtos. O resíduo do fundo da coluna pode ser sujeito à

destilação a vácuo ou a vapor.

A primeira etapa de separação do óleo cru conduz às seguintes frações

principais:

Destilados leves: Compreendem as naftas e óleos refinados, a gasolina de

aviação, a gasolina de automóveis, os solventes do petróleo e o querosene para

jatos. A gasolina encabeça a lista como o mais importante entre os produtos do

petróleo.

Destilados intermediários: Incluem o gasóleo, o óleo de fornalha pesado

(doméstico), o óleo de craqueamento, o óleo diesel combustível, o óleo de

absorção e destilados craqueados e reformados, para a obtenção de gasolina.

Destilados pesados: Fornecem os óleos lubrificantes (que também são

provenientes dos resíduos), os óleos pesados para diversos empregos e as

parafinas. Os destilados pesados são também hidrocraqueados a combustíveis

mais leves e a gasolina.

Resíduos: Incluem o asfalto, o óleo combustível residual, o coque e o petrolato.

São coprodutos, ou resíduos, do processo normal de refinação. O coque de

petróleo é usado comercialmente para a fabricação de eletrodos, na fabricação

do carbeto de cálcio, em tintas e na indústria cerâmica.

As diversas frações obtidas a partir do óleo cru sofrem novas separações,

normalmente novas destilações, até atingirem a qualidade de produtos comercializáveis.

Destinam-se principalmente ao uso como combustíveis ou como matéria-prima da

Industria Petroquímica, quando atingem seu mais alto valor agregado.

3.3 Modelagem do Processo de Destilação

As estratégias de controle dos processos químicos foram projetadas,

tradicionalmente, usando modelos dinâmicos lineares simples. Embora estes modelos

fossem adequados para alguns processos, em outros casos não proviam acurácia

suficiente para realizar o controle de forma adequada. Um exemplo é a relação da

composição de topo de uma coluna de destilação com a taxa de refluxo.

O uso de modelos de estado estacionário não lineares como modelos de

inferência representam um grande avanço no controle de colunas, como é o caso do

controle multivariável aplicado a uma debutanizadora apresentado por Ansari e Tadé

[Ansari 2000]. Os benefícios apresentados ali, pela mudança do sistema de controle de

PID para controle multivariável GMC (Generic Model Control) usando um modelo de

estado estacionário, devm ser superados pela utilização de modelos dinâmicos não

lineares acurados.

3.4 O Simulador

3.4.1 Introdução

A técnica de simulação já é bastante difundida na Indústria de Petróleo e Gás,

visto que proporciona um ambiente favorável ao estudo aprofundado de processos, sem

que seja necessário o contato direto com o processo real. Desta forma, operadores

inexperientes podem ser treinados em simuladores até que atinjam um grau de

capacitação e conhecimento necessário exigido para a operação do processo. Isto é, eles

devem ser capazes de conduzir o processo e detectar eventuais anomalias, tomando as

devidas providências para garantir seu bom funcionamento [De Prada et al., 2002].

Assim, evitam-se eventuais problemas graves tanto de segurança, como de qualidade do

produto a que se destina o processo, que possam ocorrer devido à inexperiência, tanto

no manuseio da planta, como também no desconhecimento do processo. Do mesmo

modo, através do uso de simuladores, torna-se viável o estudo de estratégias avançadas

de controle, que se tornaram uma necessidade urgente nas indústrias, dado que os

processos produtivos tiveram que ser adaptados às novas características do mercado

internacional [Camacho, 1999].

O desenvolvimento de simuladores é realizado tradicionalmente com linguagens

de propósito geral, como C ou FORTRAN, ou com linguagens de simulação, como

SIMULA, ACSL, SIMSCRIPT, etc., incluindo estes mais facilidades para a

programação de simulações.

Nos últimos anos têm surgido outros tipos de linguagens de simulação mais

avançados, com orientação a objetos e componentes reutilizáveis. Um exemplo disto é

EcosimPro [EcosimPro, 2002] que é uma linguagem de simulação orientada a objetos

que permite desenvolver livrarias de componentes para a reutilização posterior deles no

desenvolvimento de simuladores. O objetivo principal destes é diminuir os custos de

tempo e desenvolvimento, ao usar componentes que já foram provados, e ser capazes de

usar componentes desenvolvidos por outras pessoas.

Com esta idéia surgiu o projeto CAPE-OPEN (Computer Aided Process

Engineering – Open Simulation Environment), procurando um modelado rápido,

preciso e efetivo para a síntese, projeto, monitorização e otimização de processos

químicos e relacionados [CAPE-OPEN, 2002]. O que aí se propõem são as séries de

interfaces que devem ser respeitadas por aqueles que desenvolvem os componentes para

as simulações para permitir a integração e troca de componentes entre diferentes

fabricantes [Braunschweig et al., 2002].

Um destes fabricantes é a empresa francesa RSI [RSI, 2002], que desenvolveu

um ambiente software que cobre o processo inteiro para o desenvolvimento de

simuladores. Este software é INDISS (INDustrial and Integrated Simulation Software) .

O Indiss dispõe de uma biblioteca de componentes padronizados. Na concepção

de um novo processo, os componentes disponibilizados pelo simulador podem ser

utilizados fazendo-se suas interligações e o ajuste dos parâmetros, conforme o

fluxograma do processo a ser simulado. Funciona tanto no modo estático quanto no

dinâmico. Tem como característica um código fechado, impossibilitando a edição e

criação de novos componentes. Presta-se como uma ferramenta para: projeto e

desenvolvimento de processos; otimização de sistemas de controle e procedimentos de

operação; ou ainda para o treinamento de novos operadores ou ainda para ensino em

cursos técnicos e de engenharia.

Criar um novo processo no simulador implica na definição do fluxograma

completo e implementação de todas as variáveis de projeto, além de informar as

variáveis iniciais de processo. Após esta etapa, é necessário ainda fazer a validação do

modelo, que consiste na verificação de todas as correntes matérias, transporte de energia

e transferência de sinais dentro do processo. Os valores calculados pelo simulador

devem gerar informações compatíveis com um processo real. A validação pode ainda

consistir na comparação entre os cálculos do simulador e dados de um processo real; ou

ainda a confrontação com outro modelo de simulação já implementado. A experiência

de operadores de planta consiste ainda importante fonte de informação na validação,

considerando que a checagem dos pontos mais críticos devem ser priorizados frente ao

grande número de dados implementados e calculados.

A utilização de um simulador que utiliza modelos rigorosos é essencial para

garantir credibilidade mínima quando se está tratando de utilizar um simulador, ao invés

de um processo real. A utilização do Indiss satisfaz essa exigência, pois os cálculos em

seus diversos equipamentos, como por exemplo para os estados de equilíbrio de fases,

são os mais próximos possíveis de serem calculados. Isso faz dele um simulador

bastante complexo. O domínio de sua utilização requer longa experiência, ainda mais

para a criação de um novo processo. A interface homem-máquina, no entanto, é

amigável para a manipulação do processo pronto como um todo, aceitando

modificações de variáveis de processo e ainda assim, para tal, demanda conhecimento

do processo, como se passaria na operação de uma planta real com a vantagem de que

decisões equivocadas não destroem toda uma instalação industrial.

Dada a complexidade de projeto de uma planta inteira de um processo de

destilação de petróleo e seus derivados, a aprendizagem completa que viabilizasse isso e

ainda dispor de todos os cálculos de projeto de uma planta inteira não seriam os objetos

deste trabalho, por isso utilizou-se um simulador cedido ao Departamento de

Automação e Sistemas da Universidade Federal de Santa Catarina.

Figura 3-1 Indiss interface homem-máquina

A Figura 3-1 mostra a interface homem-máquina para a manipulação do

processo industrial, como disponibilizada na versão de demonstração do Indiss: uma

coluna de separação de frações leves de petróleo, que poderia ser, por exemplo: uma

coluna depropanizadora, ou ainda uma debutanizadora, conforme a eleição da

composição de entrada da coluna de destilação.

3.4.2 Comunicação entre o INDISS e o MATLAB

A utilização do simulador Indiss neste trabalho só foi possível após se verificar a

possibilidade da implementação de uma interface com outros softwares para

programação externa ao Indiss, ampliando as possibilidades de uso do simulador

comercial. A interface deveria permitir a interferência ao longo da simulação do

processo sem interrompê-lo, como ocorre na prática, para modificar o processo de

forma inteligente, i.e., para: checar valores, modificar parâmetros de processo do Indiss,

armazenar os valores de interesse capturados durante a simulação, etc. A linguagem

escolhida para esta comunicação foi o Matlab, pela facilidade de programação, pela

disponibilidade de toolboxes e, especialmente, pela quantidade de funções matriciais e

na área de controle de processos; e ainda pela quantidade de programas já existentes em

Matlab [Müller et al. 2003].

Apesar das vantagens do simulador Indiss e sua fidelidade na representação de

modelos reais, ele tem como inconveniente principal a característica de ter um código

fechado, não tornando possível a criação de novos componentes diferentes daqueles que

vem junto com o pacote do simulador. Isto impossibilita, por exemplo, o uso de

controladores avançados que não vem junto com a biblioteca do Indiss. Dentro deste

contexto, foi concebida uma interface entre o simulador Indiss e o software Matlab, que

tornou possível tanto a aquisição de dados do Indiss pelo Matlab quanto à definição de

variáveis do Indiss através do Matlab

O simulador Indiss ao estar desenvolvido para Microsoft Windows tem uma

série de facilidades para sua comunicação com outras aplicações por meio da sua

interface OLE/COM (Object Linking and Embedding / Component Object Model)

[Microsoft MSDN, 2002] e com componentes desenvolvidos de acordo com o padrão

CAPE-OPEN. Também permite o uso de componentes incluídos em DLLs (Dinamic-

Link Library) desenvolvidos externamente, incluindo um SDK (Software Development

Kit) para o desenvolvimento deles.

O acesso ao simulador através da sua interface OLE é direto desde aplicações

que podem acessar a um servidor de automatização OLE, como Excel ou Visual Basic

(Figura 3-2).

Figura 3-2 Comunicações entre INDISS e outras aplicações

O procedimento para o acesso consiste na criação de um objeto do tipo da

aplicação Indiss e uma vez criado pode-se acessar às funções definidas na interface

Public IndissOLE As Object;

Public Const ApplicationName As String = “Builder.Application”;

Set IndissOLE = CreateObject(ApplicationName);

IndissOLE.RunSimulation()

As funções mais importantes para o acesso a Indiss através do seu servidor OLE

são apresentadas na Tabela 1.

Tabela 1 Funções de acesso ao servidor OLE do Indiss

Função Ação

RunSimulator Inicia a simulação que está carregada no INDISS

StopSimulator Pára a simulação

EvaluateExpression Lê um dado da simulação

SetVariableValue Escreve um dado na simulação

GetSimulationTime Captura o tempo da simulação

INDISS SERVIDOR OLE

VB Script Visual BASIC

MATLAB

ActiveX

Existem outras séries de funções que permitem alterar a velocidade da

simulação, obter a lista de variáveis disponíveis, carregar uma simulação, etc como

pode ser visto na Tabela 1.

Foi realizado o acesso ao simulador, através do seu servidor de automatização

OLE, desde Matlab (MathWorks, 2002). Em princípio não é possível levar a cabo de

um modo direto a comunicação com Indiss, para isto desenvolveu-se um controle

ActiveX em Visual Basic, o qual encapsula todo o acesso às funções de Indiss, de forma

que atua como ponte entre ambos.

Uma vez criado e registrado o controle ActiveX, para acessar desde Matlab as

funções que contem, existe uma série de funções de acesso geral a controles ActiveX.

Para obter informação adicional, existe a possibilidade de se utilizar a ajuda do Matlab

("help winfun\activex"). A Tabela 2 mostra um exemplo de como são as chamadas às

funções desde um programa Matlab.

Tabela 2 Chamadas às funções desde Matlab

Ação Sentença em MATLAB

Criação do ActiveX INDISS = actxserver('CONTROL.INDISS');

Início da simulação invoke(INDISS, 'RunSimulation')

Captura do tempo timeprev =

invoke(INDISS,'GetSimulationTime');

Leitura de um dado da

simulação

Yk=invoke(INDISS,'EvaluateExpression',strP

Modificação de um dado na

simulação

invoke(INDISS,'SetVariableValue',strMV, U);

Espera invoke(INDISS,'delay',T*1000);

Parada da simulação invoke(INDISS,'StopSimulation')

A primeira ação a ser feita é a criação do controle ActiveX; quando este já

estiver criado, podem-se chamar as funções nele contidas. A partir das chamadas às

funções, podem-se gerar programas em Matlab para capturas de dados, controle, etc.

3.4.3 O Simulador de Processos INDISS

Com o objetivo inicial de gerar um conjunto de dados para treinamento da rede

neural em estudo, era essencial a avaliação do Indiss como modelo do processo. Checar

a sua capacidade de representação consistiu em: verificar as correntes materiais, quanto

ao balanço de massa e energia no processo; avaliar a comunicação entre instrumentos e

operação dos controladores; e ainda checar os valores gerados sob a luz de um possível

processo real.

Simulações foram feitas para avaliar: as condições de operação previamente

estabelecidas; possibilidade de modificação de algumas variáveis de projeto;

comportamento e limites de operação das variáveis de processo, como: vazão, pressão

de entrada e saída global da planta, temperaturas de entrada do processo, composição

das alimentações e ainda a alternância entre elas.

Figura 3-3 Exportação de grupos de dados do processo.

Foi avaliado o comportamento do processo para modificações de ponto de

operação e ainda perturbações nas variáveis de entrada. Isto foi possível pela

possibilidade de exportação e armazenamento dos dados do processo.

O fluxograma de processo corresponde ao de uma coluna de destilação de

petróleo com 12 metros de altura e 30 pratos (Figura 3-3). O projeto está feito para

separação de frações leves, e a alimentação variou entre misturas de diversas

composições de propano, n-butano, isobutano e alguns isômeros do pentano, hexano e

heptano.

Para a avaliação do uso de uma rede neural como simulador, foi definido como

objeto de estudo a modelagem do comportamento da composição de topo do composto

chave modificando a vazão de refluxo e a temperatura, vazão e composição de

alimentação, variáveis estas com forte acoplamento.

3.5 Conclusão

Os dados gerados a partir da modelagem fenomenológica rigorosa apresentam-se

fieis a um processo bem comportado e eventualmente registram-se ruídos numéricos.

A interface entre o Matlab e o Indiss funcionou como se esperava, mostrando

inclusive poder ser usada em outros trabalhos de pesquisa e desenvolvimento,

combinando as excelentes características de simulação de processos do Indiss e a

versatilidade de programação do Matlab.

O sistema de comunicação possibilitou a aquisição de dados do Indiss a fim de

fazer identificação de modelos através de ensaios em malha aberta.

4 IDENTIFICAÇÃO DO PROCESSO

4.1 Introdução

A metodologia de identificação de sistemas utilizando redes neurais, descrita no

Capítulo 2, consiste basicamente dos seguintes passos: (1) obtenção de grupo de dados

de treinamento; (2) determinação da melhor estrutura da rede; (3) validação.

A primeira etapa da metodologia de identificação consiste na obtenção de grupo

de dados de treinamento, aplicando um conjunto de perturbações ao processo que se

deseja modelar. O objetivo é gerar um conjunto de dados para treinamento, o que foi

obtido a partir da simulação rigorosa do processo, uma coluna de destilação de frações

leves de petróleo, descrito no Capítulo 3.

A segunda etapa da identificação de sistemas consiste na determinação da melhor

estrutura da rede, isto é relativa ao estudo do conjunto de variáveis de entrada que

melhor identifica o processo. Um critério simples para indicar o melhor conjunto seria

aquele que produzisse o menor erro de predição com o menor número de variáveis de

entrada.

As entradas da rede são os valores atuais das variáveis de entrada, u(k), e os

valores atrasados das saídas, y, ou seja, correspondem aos tempos discretos (k), (k-1),

(k-2)... e como saída a variável predita no tempo (k+1), ou seja: y(k+1). Os pesos da

camada de entrada recebem o valor 1. A rede é treinada para predizer o comportamento

da saída um passo à frente e, utilizando a predição de um passo, realimenta-se a rede

para predizer um número arbitrário de passos à frente.

A terceira etapa da metodologia de identificação de sistemas consiste na

validação do modelo. O procedimento mais comum para validar modelos é utilizar um

novo grupo de dados (Grupo de Dados Teste) relacionando as entradas às saídas.

O desempenho da rede deve ser avaliado com relação a um grupo de dados

diferente do utilizado no treinamento (validação cruzada). A previsão calculada pela

rede corresponde ao passo seguinte apenas (previsão a um passo).

Alternativamente, pode-se validar o modelo através de simulação, ou seja,

utiliza-se o primeiro ponto de grupo dados de validação (condição inicial) como entrada

à rede. Para os demais, utilizam-se apenas os dados das variáveis de perturbação como

informação externa e faz-se a realimentação das saídas da rede (previsão recorrente).

A seguir são apresentados os resultados das três etapas supracitadas.

4.2 Resultados de simulação

As redes neurais requerem grande quantidade de dados de processo para

treinamento. Analogamente ao que ocorre com modelos lineares, é importante que os

dados usados carreguem informação suficientemente relevante para permitir a

reprodução do processo pelo modelo.

Para a confecção do banco de dados é necessário que as variáveis independentes

sejam persistentemente perturbadas. Utilizando a interface entre Indiss e o Matlab, a

coluna de destilação simulada no Indiss teve uma ou mais variáveis perturbadas de

forma aleatória; o conjunto de interesse de variáveis foi registrado e estes dados

utilizados para identificação do processo usando a rede neural.

4.2.1 Da unidade de processo estudada

A unidade de processo, em realce na Figura 4-1, foi escolhida como objeto de

estudo. Nesta não há qualquer ação dos controladores do sistema, essenciais para que o

restante do sistema se mantenha em funcionamento. Para perturbações na entrada da

coluna e na razão de refluxo, foram avaliadas as composições de saída do topo.

As variáveis perturbadas avaliadas correspondem a:

1) vazão de alimentação da coluna (F);

2) concentração de N-1 componentes da alimentação (Xi);

3) temperatura da alimentação (TF);

4) vazão de refluxo da coluna (R).

0.00 kg/sFV2A17

1.90e+006 Pa362 K0.00 kg/s

4.63 kg/sFV2A16

Profile

+TemperatureMax102

FloatBox

+TemperatureMin49

FloatBox

+PressureMax17

FloatBox

+PressureMin15

FloatBox

+ DistillatePressure9

FloatBox

DistillateTemperature27.0396

FloatBox+

+ ResiduePressure9

FloatBox

ResidueTemperature76.0536

FloatBox+

+ BLHotoutputPressure1

FloatBox

BLHotoutputTemperature118.58

FloatBox+

5.79 kg/sXV1002

6.96 kg/sPRCV90

27.98 kg/sFV047

BLColdoutput

5.00e+005 Pa308 K27.98 kg/s

6.96 kg/sPV1003

BLCold

7.00e+005 Pa292 K27.98 kg/s

0.00 kg/sPV2M18

1.00e+006 Pa310 K0.00 kg/s

FT2M19

5.00e+005 Pa424 K15.91 kg/s

15.91 kg/sFV120

BLHotoutput

2.00e+005 Pa392 K15.91 kg/s

101.43

102.03

Pressure : 1.68e+006 Pa

Level : 50.00 %Temperature : 322.24 K

6.96 kg/sXV1001

2P236.96 kg/s

Distillate

1.00e+006 Pa300 K1.18 kg/s

1.18 kg/sLV2M18

1.69e+006 Pa

322.686

4.63 kg/sFV2A15

1.90e+006 Pa362 K4.63 kg/s

50.00 %375 K

1.7e+006 Pa

3.45 kg/sLV81A

Residue

1.00e+006 Pa349 K3.45 kg/s

298.30

0.04 s

FC2A15

FT2A1 5

400.00

1375.00

101.42

FRC121

FRT121

500.00

2417.63

PC2M18

PT2M18

FC2M1 8

FT2M18

101.70

LIC2M18

LIT2M18

118.58

T I115

0.58 XT1180.97

0.30 kg/sFV048

FRC122

Mixer1

BLHotPressure4

FloatBox

BLHotTemperature150.85

FloatBox

FEEDPressure18

FloatBox

FEEDTemperature89

FloatBox

BLColdPressure6

FloatBox

BLColdTemperature18.9

FloatBox

BLColdoutputPressure4

FloatBox

BLColdoutputTemperature34.8597

FloatBox+

Figura 4-1 Diagrama do Processo: Variáveis Escolhidas

4.2.2 Das perturbações

As perturbações nas variáveis de entrada da rede foram pulsos aleatórios de

largura entre 10 e 120 intervalos de amostragem e amplitude máxima em torno do

estado estacionário variando de forma crescente a cada 500 pontos de amostragem até

os valores máximos possíveis ou admitidos pelo processo (Figura 4-2 e Figura 4-3).

Os 50 pontos amostrados inicialmente têm a função de indicar que o sistema

parte do estado estacionário. A partir daí, ocorrem perturbações aleatórias de forma

crescente. A finalidade da obtenção deste perfil é assegurar, na etapa de treinamento,

que o grupo de dados utilizados (conjunto de entradas e saídas) têm a maior amplitude

possível, isto porque, na etapa de previsão, é importante que não haja extrapolação dos

dados usados no treinamento. Se, na previsão, for solicitado um valor de saída para

valores não informados na etapa de treinamento, a rede estará lançando mão de

extrapolação, o que não é adequado, e poderá fornecer resultados não previsíveis.

Figura 4-2 Perfil de Perturbação de Variável de Entrada da Rede.

Previsão

Treinamento

Figura 4-3 Perfil de Variável de Saída da Rede.

Os valores máximos possíveis ou admitidos pelo processo foram:

1) Vazão de alimentação da coluna (F): abertura da válvula de alimentação da

coluna de 0 a 100 %;

2) Para N componentes, concentração de N-1 componentes da alimentação (Xi):

0 a 100 (% mol);

3) Temperatura da alimentação (TF): Tb e To da mistura;

4) Vazão de refluxo da coluna (R): abertura da válvula de 0 a 100 %.

Para a obtenção do banco de dados, as variáveis foram perturbadas até o valor

máximo permitido pelo simulador. As vazões de alimentação e de refluxo sofreram

modificações de 10% até o máximo possível, isto é, 0 a 100% de abertura das válvulas.

Os valores normalizados das concentrações, em % molar, requer a leitura (ou, na

prática, medição) de N-1 componentes. A concentração dos componentes na

alimentação sofreu perturbações analogamente, desde variações pequenas até a de maior

amplitude, 0 a 100 (% mol). Alternando-se a vazão dos tanques de alimentação com as

Treinamento

Previsão

diferentes frações leves de petróleo as concentrações na entrada da coluna eram

modificadas.

Já a temperatura de alimentação variou entre a temperatura de bolha (Tb) e a

temperatura de orvalho (To), de acordo com a mistura de hidrocarbonetos da

alimentação da coluna. Com este objetivo, as simulações com variação na temperatura

da alimentação da coluna passaram por um processo prévio de cálculo destas

temperaturas.

4.2.3 Do Tempo de Processo

A comunicação entre o Matlab e o Indiss ocorre em períodos de amostragem de

aproximadamente 2 segundos de tempo de máquina. Dado que não existe sincronização

entre o tempo de máquina e o tempo de processo no Indiss, o tempo de processamento

varia entre execuções do programa. Porém, como pode ser observado na Figura 4-4, a

relação entre tempo de processo e número de amostras é aproximadamente constante.

Figura 4-4. Amostras x Tempo de Processo

O período de amostragem em tempo de processo foi de aproximadamente 60

segundos. Este valor está de acordo com o que é possível realizar numa planta real e

durante sua operação para treinamento de redes neurais [Barbosa 2002].

4.2.4 Dos Bancos de Dados

Muitas simulações foram realizadas a fim de se obter bancos de dados para

serem utilizados na etapa seguinte. As condições de cada simulação eram modificadas

da seguinte forma: as variáveis perturbadas foram aumentando em número para cada

banco de dados novos até o número necessário para avaliação do desempenho da rede.

As seguintes variáveis independentes foram perturbadas isoladamente e de

forma combinada para formarem 15 bancos de dados:

1) vazão de alimentação da coluna (F);

2) concentração de N-1 componentes da alimentação (Xi);

3) temperatura da alimentação (TF);

4) vazão de refluxo da coluna (R).

Para simplificar a exposição, os bancos de dados serão agrupados por número de

variáveis perturbadas durante o processo (Tabela 3):

Grupo I, perturbação de apenas uma variável;

Grupo II, duas variáveis concomitantemente;

Grupo III, três variáveis;

Grupo IV, quatro variáveis; e

Grupo V, cinco variáveis.

Esses grupos de dados foram utilizados para treinamento e previsão de redes

neurais e os resultados serão adiante designados segundo este mesmo critério.

Tabela 3 Agrupamento dos bancos de dados por número de variáveis perturbadas.

Número de Variáveis

Perturbadas Banco de Dados Variáveis

I-T TF

I-C C1F 1

II-FT F, TF

II-FC F, C1F

II-FR F, R

II-TC TF, C1F

II-TR TF, R

II-CR C1F, R

III-FTR F, TF , R

III-FCR F, C1F, R 3

III-TCR F, C1F, R

4 IV F, TF, C1F, R

5 V F, TF , R, C1F, C2F

4.3 Resultados no Treinamento e na Previsão

Verifica-se que, no trabalho com redes neurais, a topologia da rede é relevante

para todo o desenvolvimento seguinte, portanto a escolha inicial determinará a

qualidade de predição final.

A etapa inicial consiste em se avaliar quais variáveis são relevantes para

informar a rede sobre o comportamento da(s) saída(s). As entradas e saídas da rede

precisam ser escolhidas. Experiência prévia sobre o sistema é fundamental nesta etapa.

Estabelecidas as entradas e saídas da rede, a escolha da estrutura da rede de

wavelets, como foi visto no capítulo sobre a rede neural utilizada, depende somente da

escolha dos parâmetros livres, quais sejam, o número de níveis de resolução da rede e o

parâmetro de regularização (µ).

Por fim, o grupo de dados a ser selecionado deve fornecer informação necessária

e suficiente para representar o processo. Quanto maior o número de funções

(determinado pelo número de entradas e saídas da rede e ainda pelo número de níveis),

mais parâmetros terão de ser calculados, conseqüentemente, maior número de pontos

deverão ser informados à rede.

A seguir serão desenvolvidos os critérios adotados para as eleições feitas, assim

como o método de ava liação dos resultados. Como a qualidade do treinamento, em

última análise, tem como objetivo final a obtenção do melhor desempenho da rede no

momento da previsão, a avaliação do treinamento e de previsão serão realizados

paralelamente.

4.3.1 Avaliação do Número de Entradas e de Saídas da Rede

Como foi visto, o número funções da rede aumenta exponencialmente com o

número de entradas da rede. A capacidade de cálculo do processador usado deverá ser a

primeira avaliação a ser feita.

O tempo necessário para o treinamento e para previsão poderão ser ainda fatores

limitantes para a aplicação de um grande número de entradas na rede. No treinamento,

pode-se tomar um tempo tão longo para o cálculo que inviabilize a rede. Neste caso, há

ainda a opção de se fazer o treinamento num processador mais rápido. Na previsão, a

limitação diz respeito ao lapso de tempo solicitado para responder ao processo.

Os tempos necessários para treinamento e previsão foram registrados a seguir

para um processador Pentium 3–500Mhz e 256 Mb de memória RAM. O registro

temporal tem finalidade ilustrativa, já que numa aplicação industrial, utilizar-se- ia uma

linguagem compilada (e não interpretada, como é o caso do Matlab) e, ainda, para fins

de comparação, já que outros processadores podem ser utilizados.

4.3.1.1 Tempo x Número de Entradas na Rede

A rede tem como entradas: os valores atuais das variáveis independentes, ui(k), e

os valores atuais das saídas, yi(k). Tomando-se apenas uma saída, para um número de

entradas de variáveis independentes crescente, observa-se que o menor número possível

de entradas é 2.

Quando adotado apenas um nível de resolução e 1000 pontos de amostragem, os

tempos estão representados na Tabela 4.

Tabela 4 Tempo de Máquina (s) x Número de Entradas na Rede.

No Entradas na Rede Treinamento Previsão a um passo Previsão Recorrente

2 0,4 0,09 4,7

3 0,56 0,35 6,8

4 2,5 1,7 9,8

5 11,7 6,8 16,1

6 63,7 24,7 31,7

7 - * - -

* Não foi calculado por falta de memória.

O aumento de tempo necessário para o cálculo nas etapas de treinamento,

previsão a um passo e previsão recorrente são melhor representados visualizados no

gráfico da Figura 4-5.

Figura 4-5 Tempo de máquina (s) x Número de entradas na rede.

Observa-se que o tempo de cálculo para o treinamento cresce de mais

rapidamente que nas modalidades de previsão. Isto ocorre porque os cálculos

envolvidos no treinamento dispendem mais tempo do que os necessários para previsão.

No caso da previsão recorrente, observam-se tempos maiores do que os da previsão a

um passo devido à necessidade de realizar laços de cálculo em uma linguagem

interpretada.

4.3.1.2 Tempo de máquina x Número de Níveis de Resolução da Rede

O número de funções também depende do número de níveis de resolução

adotados. A influência do número de níveis sobre o desempenho da rede será visto

adiante. Aqui, apenas a avaliação do tempo demandado para o cálculo no treinamento,

para os níveis de resolução 1, 2 e 3 são feitos, para 1000 pontos de amostragem (Tabela

5). As entradas da rede são: as variáveis de entrada independentes, em número

crescente; e a realimentação da única variável de saída.

Tabela 5 Tempo de Treinamento (s) x Número de Entradas da Rede em Vários Níveis de Resolução

Número de Níveis Número de Entradas

2 0,521 0,641 1,071

3 0,851 2,223 6,36

4 2,554 9,413 120,55

5 11,306 80,4 -*

6 249,16 -* -*

* Não foi calculado por falta de memória

Novamente, o tempo de cálculo não foi demasiadamente largo para inviabilizar o

uso desta rede, mas a capacidade de memória do computador foi o fator limitante.

4.3.1.3 Tempo de máquina x Número de amostras utilizadas

O tempo de máquina no treinamento, fundamentalmente, independe da

qualidade do conjunto de pontos utilizado, já que a rede neural utilizada pode ser

treinada por mínimos quadrados e, portanto, os pesos podem ser estimados em um único

passo de cálculo.

Num mesmo gráfico (Figura 4-6) foram comparados os tempos de máquina

demandados para o treinamento, previsão a um passo e previsão recorrente para apenas

um nível de resolução, duas entradas e uma saída na rede. O número de pontos va riou

entre os valores de 300 até 5500.

Figura 4-6 Tempo de máquina (s) x número de pontos.

Observa-se um crescimento linear no tempo necessário para os três cálculos,

crescendo a uma taxa muito maior para o treinamento. Para o caso adotado aqui (duas

entradas, uma saída e um nível de resolução), até 5500 pontos foi possível realizar todos

os cálculos necessários para o treinamento e subseqüentes previsões, nada se podendo

afirmar até aqui sobre o número mínimo suficiente de pontos para treinar uma rede com

desempenho aceitável.

4.3.1.4 Tempo x Número de Saídas da Rede

Analogamente, mas agora adotando apenas uma variável independente de

entrada e aumentos progressivos do número de saídas, a rede ainda terá aumentos no

seu número de entradas, porque as saídas deverão ser informadas como entradas na

rede. Verifica-se que a estrutura da rede será distinta da descrita nas seções anteriores.

Adotando-se 1000 pontos de amostragem, os tempos registrados para etapa mais

crítica, ou seja, o treinamento são mostrados na Tabela 6, calculando-se para os três

níveis de resolução.

Tabela 6 Tempo de Máquina no Treinamento x Número de Saídas da Rede (1000 pontos)

Treinamento No Saídas na Rede

(Número de Entradas) Nível 1 Nível 2 Nível 3

1 (2) 0,452 0,516 0,652

2 (3) 0,781 1,151 1,962

3 (4) 1,952 5,658 17,614

4 (5) 12,563 36,803 363,03

5 (6) 65,698 360,79 - (*2)

6 (7) 371,4 - (*2) - (*2)

7 (8) 5,9x103 (*1) - (*2) - (*2)

(*1) Swap da memória (*2) Não foi calculado por falta de memória.

O número de parâmetros aumenta exponencialmente com o número de entradas,

como já foi visto, mas há incrementos lineares para o cálculo dos parâmetros de cada

nova saída. Observam-se tempos de processamento semelhantes aos apresentados no

item 4.3.1.2, mostrando que o aumento do número de saídas é menos importante que o

aumento do número de entradas quando se avalia tempo de processamento.

Considerando que se pode ter uma rede neural para cada saída que se deseja

prever, e considerando ainda que o número de entradas da rede aumenta

exponencialmente a complexidade e tempo de cálculo, daqui por diante, neste trabalho,

estudar-se-á apenas redes com uma saída apenas.

4.3.2 Escolha dos Parâmetros Livres: µ e Níveis de Resolução

Alguns parâmetros livres precisam ser informados mesmo antes do treinamento;

são eles: o número de níveis e o parâmetro de regularização µ. Contando com um grupo

de dados representativos do processo para treinamento e outro para avaliação do

desempenho da rede na previsão, podem ser escolhidos os melhores valores possíveis

para o parâmetro de regularização µ e para o número de níveis de resolução da rede.

A avaliação de desempenho da rede será feita pelo coeficiente de correlação (R2)

tanto no treinamento quanto na previsão recorrente. A qualidade de predição final pode

ser observada a partir da comparação gráfica entre os pontos reais do processo e aqueles

calculados pela rede, na previsão a um passo e na previsão recorrente.

O parâmetro de regularização (µ) tem o efeito de penalizar a não suavidade dos

modelos de predição. A concepção do parâmetro de regularização está exposta na teoria

apresentada sobre a rede no Capítulo 2. No entanto, o grau de suavidade imposto ainda

é dependente do número de funções e conseqüentemente do número de níveis de

resolução.

O que será apresentado a seguir é uma avaliação concomitante de µ e número de

níveis de resolução em termos de desempenho da rede, medido por R2.

4.3.2.1 Escolha do Parâmetro de Regularização (µ)

A escolha de µ a partir do melhor R2 apenas no treinamento não é suficiente para

determinar o melhor o parâmetro de regularização para os melhores resultados na

previsão, como veremos a seguir.

Uma indicação inicial de µ pode ser encontrado a partir de uma série de

treinamentos variando-se µ.

Figura 4-7 Curva: µ x R2 no Treinamento

No treinamento, a curva entre µ e R2 (Figura 4-7) indicou que valores de µ

abaixo de 1x10-5 seriam adequados para a rede proposta. A avaliação final da rede, no

entanto, dá-se no momento em que realiza a predição, então uma avaliação nesta

segunda etapa foi feita. Para os valores bem avaliados de µ foram feitas previsões para

um grupo de dados-teste. O resultado está representado na Figura 4-8.

Figura 4-8 µ x R2 no Treinamento, Previsão a um passo e Previsão Recorrente

O que se observa é que, no treinamento e na previsão a um passo, ainda que o R2

esteja dentro de valores excepcionais, não se garante ainda que a previsão recorrente

terá bons valores calculados.

Para fornecer uma comparação justa, em se tratando de desempenho de

modelagem, há que se comparar o coeficiente de correlação (R2) no momento da

previsão, e não no treinamento, já que é lá que a rede estará realmente funcionando

como preditor. A conclusão é que o valor de R2 no treinamento não garante bom

desempenho como simulador, fazendo-se necessário um processo iterativo de avaliação

da previsão recorrente para vários valores de µ.

Comparando-se os resultados antes e depois da otimização do parâmetro de

regularização (µ), Figura 4-9 e Figura 4-10.

Figura 4-9 Previsão recorrente usando µ de 1x10-6

Figura 4-10 Previsão recorrente usando µ de 1x10-4

Observa-se que a previsão recorrente para o caso escolhido (uma rede com duas

entradas e uma saída) foi, no primeiro cálculo, insatisfatória usando µ de 1x10-6

(R2=35); enquanto que µ com o valor de de 1x10-4 leva R2 para um valor muito

superior, 99,891.

Concluindo: a avaliação do melhor µ é fundamental para se obter o desempenho

ótimo da rede, pois a previsão recorrente apresenta grande sensibilidade a este

parâmetro. Sendo uma boa previsão recorrente o fim último e mais importante potencial

apresentado por esta rede neural, a partir deste resultado, o µ será sempre calculado a

partir da avaliação da previsão recorrente e não mais do treinamento.

4.3.2.2 Escolha do Número de Níveis

A partir do que foi visto na seção anterior, a avaliação do número de níveis foi

também feita com a concomitante otimização do µ. Observou-se no treinamento (Figura

4-11) um comportamento semelhante para as três redes.

Figura 4-11 µ x R2 no treinamento

A seguir, na Figura 4-12, para o primeiro nível de resolução, mostra-se o R2 para

o treinamento, previsão a um passo e previsão recorrente. Observa-se que o melhor

valor para µ é 1x10-3.

Figura 4-12 µ x R2 para o primeiro nível de resolução

O segundo nível de resolução (Figura 4-13) modificou ligeiramente o perfil das

curvas de R2 no treinamento, previsão a um passo e previsão recorrente. No mesmo

gráfico repete-se a curva de µ x R2 para o primeiro nível de resolução, a título de

comparação. Observando-se que o para µ ótimo é 1x10-2.

Figura 4-13 µ x R2 para o segundo nível de resolução

Figura 4-14 µ x R2 para o terceiro nível de resolução

Por fim, o terceiro nível de resolução (Figura 4-14) modificou ainda mais o

perfil das curvas de R2 no treinamento, previsão a um passo e previsão recorrente.

Observa-se pouca diferença no R2 para µ igual a 1x10-2 e µ igual a 1x10-1.

No mesmo gráfico repete-se a curva de µ x R2 para o primeiro nível de

resolução, a título de comparação.

Sendo a previsão recorrente a que traz informação mais relevante para a rede e a

mais sensível ao parâmetro µ, reuniram-se estas curvas em um só gráfico (Figura 4-15).

Figura 4-15 Comparativo de coeficientes de correlação na previsão recorrente.

Os maiores valores para cada uma das curvas são: 99,2957 para Nível 1; 99,5185

para Nível 2; e 99,5205 para Nível 3.

Os valores do processo estão muito próximos daqueles calculados pelas três

redes descritas acima. A comparação das previsões recorrentes, para treinamentos feitos

nos três níveis de resolução e µ ótimo em cada caso, é apresentada na Figura 4-16. Em

detalhe, observa-se a melhora gradativa para dois e três níveis de resolução.

Figura 4-16 (a) Previsões recorrentes para escolha do µ e número de níveis; (b) Detalhe.

O µ é dependente do número de níveis de resolução da rede. Este resultado pode

ser explicado pelo fato de o aumento do número de níveis significar um aumento do

número de funções da rede e, com isto, haver diminuição do domínio das funções e,

conseqüentemente, necessitarem ser mais suavizadas.

Os níveis 2 ou 3 podem ser vantajosos pela pequena melhora de R2, frente ao

primeiro nível de resolução, apesar de demandarem mais tempo no treinamento e na

previsão recorrente.

4.3.3 Escolha do Grupo de Dados do Treinamento

Nos itens anteriores, pode-se observar que a seleção do conjunto de dados para

treinamento da rede depende de vários fatores, entre eles: análise do processo a ser

modelado, verificação da capacidade de cálculo do computador a ser utilizado, escolha

do parâmetro de regularização (µ), e do número de níveis. O melhor grupo de dados não

foi escolhido inicialmente, pois era necessário desenvolver experiência no trato com

todas as ferramentas disponíveis.

Os grupos de dados, com os quais foram feitas as avaliações iniciais do

desempenho da rede, apenas deram um indicativo de como a rede poderia se comportar.

A escolha do grupo de dados é de vital importância pois uma vez treinada a rede

esta será utilizada para predição e apenas eventualmente a sua acurácia estará sendo

verificada.

A seguir, serão analisados os efeitos no desempenho da rede usando diferentes

grupos de dados, número de amostras e amplitude das perturbações.

4.3.3.1 Avaliação do Grupo de Treinamento: Número de Amostras

Na etapa de treinamento, um certo número de amostras deve ser suficiente para

informar à rede do comportamento do processo. A avaliação deste número foi feita

utilizando-se uma rede com duas entradas, uma saída e apenas um nível de resolução.

Foram feitos vários treinamentos, com número crescente de amostras, partindo-se de

300 amostras. A capacidade de aprendizado, medida pelo R2 da rede, está representada

pela Figura 4-17.

Figura 4-17 R2 em função do número de amostras usadas no treinamento

Para esta rede e este grupo de amostras, a rede melhora a capacidade de

aprendizado com o aumento dos pontos, até 3600 amostras; após este limite, o

incremento no número de pontos informados é indiferente. Nota-se que, este aumento

excessivo tampouco é prejudicial para o seu treinamento.

Observa-se ainda que a seleção do conjunto de dados é crítica quando poucas

amostras são disponíveis para o treinamento, já que a curva apresenta R2 menor

utilizando 1800 amostras, do que para 1500.

O valor máximo do erro tolerado deverá, no entanto, ser especificado pelo R2

durante a etapa de previsão recorrente. É o que ilustra a Figura 4-18.

Figura 4-18 R2 em Função do Número de Amostras

Os valores de R2 na previsão recorrente são diferentes dos correspondentes ao

mesmo número de amostras no treinamento, desta forma verifica-se que a qualidade

final da rede é dada pelo R2 da previsão recorrente.

4.3.3.2 Avaliação do Número de Passos na Previsão Recorrente

Para avaliar o número máximo de passos possíveis na previsão recorrente, três

grupos de dados foram utilizados. Avaliou-se o coeficiente de correlação à medida que

o número de passos solicitados na previsão recorrente aumentava.

A rede utilizada foi treinada com três entradas, uma saída e 3000 amostras;

apresentou para R2 99,946 (Tabela 7). O grupo de amostras utilizado na previsão a um

passo e previsão recorrente tem 6500 amostras. Avaliando-se R2 para números

crescentes de passos solicitados, chegou-se ao resultado apresentado de forma gráfica na

Figura 4-19.

Figura 4-19 Caso I -Número de passos na predição x R2 Com menos de 200 passos, pequenos desvios têm grande influência no cálculo

de R2, daí a oscilação inicial. A Figura 4-20 mostra o desvio cometido e pode-se

observar que não são maiores do que o que será apresentado para 4000 passos.

Figura 4-20 Caso I - Erro de predição para 200 passos

Observou-se pouca mudança no valor do coeficiente de correlação a partir de

200 passos. Mas aparentemente, à medida que o número de passos cresce, poder-se-ia

concluir pela piora da qualidade de predições acima de 2000 passos. No entanto, a

queda para os valores de R2 é explicada pelo perfil das perturbações deste grupo de

dados: perturbações de amplitude crescente.

Os primeiros pontos do gráfico foram solicitados para as menores amplitudes,

onde a rede está mais bem treinada. Nas maiores amplitudes, há deficiência de pontos e

por isso, à medida que o número de passos cresce, há uma queda aparente da qualidade

de predição. Esta diferença pode ser observada na Figura 4-21 (a) e, em detalhe, Figura

4-21(b), o erro cometido pela rede.

Figura 4-21 (a) Caso I - Previsão da rede para 4000 passos; (b) Detalhe

Para a mesma rede e mesmo grupo de amostras, foram feitas várias previsões

recorrentes com número crescente de passos, iniciando com 500 passos entre a amostra

6000 e a 6500, e progressivamente aumentando o número de passos previstos em 500

passos por vez diminuindo o instante inicial da simulação (5500, 5000, ...). Este novo

gráfico oferece a interpretação inversa (Figura 4-22), ou seja, a rede aparentemente

melhora a sua qualidade de predição à medida que o número de passos previstos

aumenta.

Figura 4-22 Caso I - Número de passos na predição x R2, nova avaliação

Em qualquer dos dois casos, para previsão a um passo R2 foi de 99,942 e a

previsão para 4000 passos apresentou R2 de 99,064 (Figura 4-21).

O resultado obtido oferece a seguinte conclusão: a rede ao ser avaliada deve

estar igualmente treinada para todo o universo de amostras. Esta qualidade é difícil de

ser garantida. Ou pode ainda ser testada para bancos de dados com perturbações

aleatórias de mesma amplitude em toda a sua extensão. Mais dois casos foram

avaliados, mas agora se utilizam grupos de amostras com amplitude aleatória em toda a

extensão.

A mesma rede foi utilizada para checar o número de passos passíveis de

predição. O grupo de previsão tem 8000 amostras. O resultado é mostrado na Figura

Figura 4-23 Caso II - Número de passos na predição x R2

300 passos. A previsão a um passo e previsão recorrente para 8000 passos, Figura 4-24,

ilustra os pequenos erros cometidos pela rede para grande número de passos.

Figura 4-24 Caso II - Previsão da rede para 8000 passos

Em todas as regiões, a rede faz boa previsão a um passo (R2 de 99,921) e

previsão recorrente muito razoável (R2 de 99,034).

Para fazer a mesma avaliação com um terceiro grupo de amostras, foi utilizada

uma outra rede neural, treinada com duas entradas, uma saída e 4000 amostras;

apresentou para R2 99,697. O grupo de amostras utilizada na previsão a um passo e

previsão recorrente tem 8000 amostras. Avaliando-se R2 para números crescentes de

passos solicitados, chegou-se ao resultado apresentado de forma gráfica na Figura 4-25.

Figura 4-25 Caso III - Número de passos na predição x R2

1000 passos. As oscilações, maiores que nos casos anteriores, observadas na Figura

4-25 são resultantes do perfil da variável de saída. Os valores estão muito próximos do

limite superior da concentração; nestas regiões a previsão não é boa.

A previsão a um passo e previsão recorrente para 8000 passos está ilustrada na

Figura 4-26, onde ilustra-se que valores de saída da rede muito próximas do limite de

100% não são bem previstas pela rede.

Figura 4-26 (a) Caso III - Previsão da rede para 8000 passos; (b) Detalhe

A rede tem um número de passos em aberto de previsão recorrente, pois o

aumento do número de passos manteve praticamente constante o R2. Se bem treinada, os

valores de saída da rede na previsão recorrente terão pequenos erros ainda que um

grande número de passos de predição seja solicitado; se mal treinada, um grande

número de passos pode ser solicitado ainda que os valores previstos sejam piores

(menores valores para R2).

4.3.3.3 Avaliação do grupo de treinamento: amplitude das perturbações

A rede ao ser treinada necessita ainda de uma certa quantidade de amostras bem

distribuídas em toda a excursão das variáveis de interesse, tanto das entradas quanto das

saídas do processo.

A verificação da qualidade do grupo de amostras do treinamento foi feita

utilizando-se dois bancos de dados com um conjunto completo de variações nas

variáveis de entrada: o menor com 3000 pontos (BD3000) e o maior com 6500 pontos

(BD6500). O parâmetro de regularização escolhido foi o mesmo para os dois conjuntos

de dados, igual a 1x10-4.

Foi feito um treinamento com BD3000, e várias previsões com o BD6500.

Depois o contrário, isto é, vários treinamentos com o BD6500 e previsão usando o

BD3000. O objetivo é comparar os coeficientes de correlação, R2, nos dois casos e

verificar que a qualidade do conjunto de dados utilizado no treinamento é responsável

pela melhor performance na previsão recorrente.

Os resultados são mostrados na Tabela 7.

Tabela 7 Avaliação do Grupo de Amostras para Treinamento

Treinamento Previsão Recorrente

Caso BD (pontos usados) R BD (pontos usados) R

I BDG (50-6500) 99,638

II BDG (50-3000) 99,734

III BDG (2050-5000) 99,371

BDp (50-3000) 99,946

BDG (3550-6500) 99,535

V BDG (50-6500) 99,953 99,629

VI BDG (50-3000) 99,981 74,607

VII BDG (2050-5000) 99,976 89,627

VIII BDG (3550-6500) 99,964

BDp (50-3050)

99,689

No treinamento não se observa uma diferença significativa nos valores de R2,

mas a capacidade de previsão é significativamente pior quando os dados utilizados no

treinamento não correspondem qualitativamente ao que se deseja prever.

Confirma-se novamente o que já foi concluído nas seções anteriores, de que o

desempenho da rede, em última instância, está refletido, não no valor de R2 calculado no

treinamento, senão no R2 obtido a partir de um conjunto amostrado para previsão

recorrente, que é o que nos interessa.

Para visualizar os resultados de previsão das redes, serão apresentadas as

variáveis de entrada e de saída dos dois bancos de dados utilizados e as previsões

recorrentes em dois dos casos calculados da Tabela 7. Os perfis das duas variáveis de

entrada nas redes I, II, III, IV são apresentados na Figura 4-27; os perfis das duas

variáveis de entrada nas redes V, VI, VII e VIII podem ser vistos na Figura 4-28.

Figura 4-27 Variáveis de Entrada da Rede do BD3000

Figura 4-28 Variáveis de entrada da rede do BD6500

Na Figura 4-29 pode ser observado que a rede mal treinada não consegue prever

o comportamento do processo para valores da variável de saída em regiões onde esta

não foi treinada. Confirma-se assim que a rede não consegue extrapolar, porém,

consegue prever adequadamente nas regiões onde foi bem treinada.

Figura 4-29 Comparação Dados Reais x Predição Rede – Caso VI.

A seguir apresenta-se o Caso I, Figura 4-30 (a), onde pode ser observado que a

rede foi treinada de forma adequada para prever todas as regiões do grupo de dados

BD6500. Em detalhe, na Figura 4-30 (b), a qualidade de previsão pode ser verificada

pelo pequeno erro cometido.

Figura 4-30 (a) Comparação Dados Reais x Predição Rede – Caso I; (b) Detalhe

O conjunto de pontos utilizado no treinamento deve ser tal que contenha

perturbações: suficiente em número para cálculo dos parâmetros da rede; e em todas as

amplitudes possíveis, sejam das variáveis de entrada, como nas de saída, para que a rede

não tenha que prever pontos fora da faixa dos pontos treinados. Quando, no

treinamento, o banco de dados selecionado tem estas características, a qua lidade de

previsão é a melhor possível para qualquer ponto inicial da previsão.

4.3.4 Comparação dos resultados no treinamento e previsão

Os bancos de dados resultantes das várias simulações do processo, descritos na

seção 4.3.1, foram todos utilizados para treinamento e previsão de diferentes redes.

Para efeito comparativo, todas as redes têm como característica comum:

1) Apenas o primeiro nível de resolução;

2) Uma variável de saída: a concentração do componente chave no topo da

coluna;

3) O treinamento utilizou 1000 amostras, dentre as que apresentavam as maiores

amplitudes de perturbação das variáveis de entrada e saída;

4) As previsões, a um passo e recorrente, foram avaliadas contra 1000 amostras,

de um grupo distinto daquele utilizado no treinamento;

5) A previsão recorrente previu 1000 passos adiante, sendo informadas apenas o

valor inicial da variável de saída e, a cada passo, os valores das variáveis de

entrada.

As redes diferenciam-se:

1) Nas variáveis que sofrem perturbação no processo:

a. vazão de alimentação da coluna (F);

b. concentração de N-1 componentes da alimentação (Xi);

c. temperatura da alimentação (TF);

d. vazão de refluxo da coluna (R);

2) No número de entradas da rede;

3) No parâmetro de regularização (µ) que foi otimizado para cada rede.

Os resultados em termos de R2 são apresentados na Tabela 8.

Tabela 8 R2 x Número de entradas

Variáveis

Entrada

Parâmetro de

Regularização

R2 (%)

Treinamento

Previsão a um

Previsão

Recorrente

I-F F >= 1E-9 99,97 99,99 93.40

I-T TF 1E-11 99,94 99,95 99,80

I-C C1F 1E-5 99,93 99,94 99,07

I-R R 1E-5 99,93 99,95 99,67

II-FT F, TF 1E-11 99,93 99,93 99,82

II-FC F, C1F 1E-5 99,98 99,95 53,60

II-FR F, R 1E-5 99,72 98,02 58,80

II-TC TF , C1F 1E-7 99,99 99,96* 85,12*

II-TR TF , R 1E-5 99,95 99,82* 93,50*

II-CR C1F, R 1E-5 99,91 99,87 79,24

III-FTR F, TF , R 1E-5 99,75 99,41* 72,20*

III-FCR F, C1F, R 1E-2 96,0 92,1 44,6

III-TCR TF , C1F, R 1E-5 99,93 99,85 63,6

IV F, TF,

C1F, R 1E-1 90,50 84,0 50,8

V F, TF, R,

C1F, C2F 1E-5 99,8 99,08* 56,4*

* Dados de validação fora da faixa de normalização utilizada no treinamento

Preliminarmente há que se observar que para se poder comparar a qualidade do

treinamento e desempenho da rede, isto é, valores de R2 na previsão recorrente, é

necessário que as redes tenham o mesmo número de entradas e, portanto, o mesmo

número de funções. Isto vale para a comparação dos resultados nas Tabelas 8, 9, 10, 11

Acerca do parâmetro de regularização (µ), todos os treinamentos melhoraram a

partir da otimização deste parâmetro na previsão recorrente.

De uma forma geral, nos resultados observa-se que o R2 para os treinamentos

são bons para todos os grupos de amostras, o que reflete os bons valores de R2 na

previsão a um passo. Já o R2 da previsão recorrente apresenta valores em sua maioria

razoáveis. São estes inferiores, mas isto já era esperado por serem resultados de

recorrência da rede.

À medida que se aumenta o número de variáveis de entrada da rede, em média,

os valores de R2 diminuem. Este resultado pode se explicado porque o aumento no

número de variáveis de entrada na rede tem como contrapartida um aumento do número

de funções. Ao aumentar o número de funções dever-se- ia ter também um aumento no

número de amostras para o cálculo dos parâmetros. Há ainda mais um fator que

contribui para piorar os resultados de R2: é que, à medida que se aumentou o número de

variáveis de entrada, por vezes não foi possível escolher grupos de amostras para

treinamento que tivessem amplitude maior do que os solicitados para previsão; por certo

que isto inviabilizou a previsão adequada da rede. Para sanar este problema, há que se

obter bancos de dados maiores onde se assegure que a excursão das variáveis no

treinamento seja maior do que na previsão.

4.3.4.1 Temperatura do topo da coluna (Tt): variável de entrada na rede

Além das variáveis perturbadas no processo, a temperatura do topo da coluna

(Tt) foi também utilizada como variável de entrada da rede. A intenção é avaliar a

contribuição desta variável, de fácil medição, na previsão de concentração dos

componentes da coluna de destilação face à correlação existente entre elas.

A partir dos bancos de dados originalmente testados acima, foram feitas, para

cada um deles mais duas redes:

1. Uma nova rede adicionando mais uma entrada: a temperatura de topo da

coluna;

2. Uma rede com uma única entrada independente: a temperatura de topo da

coluna.

A fim de facilitar análise dos resultados, estes foram sistematizados nas Tabelas

9, 10, 11 e 12. Os resultados da Tabela 8 seguem nas tabelas seguintes para efeito de

comparação.

Tabela 9 Redes do Grupo I

Variáveis

Entradas

Parâmetro de

Regularização

R2 (%)

Treinamento

Previsão a um

Previsão

Recorrente

F >= 1E-9 99,97 99,99 93.40

F, Tt 1E-6 99,98 99,99 99,98 I-F

Tt 1E-3 99,80 99,83 99,30

TF 1E-11 99,94 99,95 99,80

TF, Tt 1E-4 99,98 99,98 99,95 I-T

Tt 1E-6, 1E-7 99,98 99,98 99,96

C1F 1E-5 99,93 99,94 99,07

C1F, Tt 1E-6 99,99 99,98 99,08 I-C

Tt 1E-5 99,99 99,99 99,10

R 1E-5 99,93 99,95 99,67

R, Tt 1E-4 99,94 99,93 99,14 I-R

Tt 1E-6 99,95 99,50 99,32

As redes que têm o mesmo número de variáveis de entrada podem ter seus

desempenhos comparados. A utilização de Tt isoladamente não apresenta sempre ser

vantajosa. Porém, se considerarmos que, numa coluna de destilação qualquer das

variáveis, F, TF, Ci ou R, podem variar, então para uma rede com apenas uma entrada e

possíveis variações de todas as demais variáveis, Tt pode ser considerada isoladamente a

melhor opção.

As redes que utilizam a temperatura do topo (Tt) isoladamente, como variável de

entrada, não oferecem melhores resultados do que as redes que usam outra variável de

entrada (F, TF, Ci ou R) conjuntamente com Tt. Isto porque, como foi anteriormente

observado, as redes com duas entradas deveriam ter maior número de pontos para o

cálculo dos parâmetros da rede. Pode-se dizer, no entanto, que a falta de disponibilidade

de amostras para treinamento indica que redes com o menor número de entradas

possível.

Os resultados do Banco de Dados I estão no Apêndice. Tabela 10 Redes do Grupo II

Variáveis de

Entradas

Parâmetro de

Regularização

R2 (%) Treinamento

R2(%) Previsão a um

R2(%) Previsão

Recorrente

F, TF 1E-11 99,93 99,93 99,82

F, TF, Tt 1E-11 99,98 99,98 98,20 II-FT

Tt 1E-6, 1E-7 99,94 99,93 99,82

F, C1F 1E-5 99,98 99,95 53,60

F, C1F, Tt 1E-5 99,99 99,84 98,70 II-FC

Tt 1E-4 99,96 99,91 99,50

F, R 1E-5 99,72 98,02 58,80

F, R, Tt 1E-4 99,70 98,02 95,04 II-FR

Tt 1E-3 99,34 98,88 97,40

TF , C1F 1E-7 99,99 99,96 85,12

TF , C1F , Tt 1E-9 99,99 99,96 99,47 II-TC

Tt 1E-8 99,97 99,97 99,96

TF, R 1E-5 99,95 99,82 93,50

TF, R, Tt 1E-4 99,96 99,73 99,60 II-TR

Tt 1E-4 99,86 99,80 99,22

C1F, R 1E-5 99,91 99,87 79,24

C1F, R, Tt 1E-4 99,93 99,92 99,50 II-CR

Tt 1E-7 99,87 99,92 99,60

As avaliações feitas sobre os resultados apresentados na Tabela 9 se repetem

nestes apresentados na Tabela 10 e seguintes.

Tabela 11 Redes do Grupo III

Variáveis de

Entradas

Parâmetro de

Regularização

R2 (%)

Treinamento

Previsão a

um passo

Previsão

Recorrente

F, TF, R 1E-5 99,75 99,41 72,20

F, TF, R, Tt 1E-4 99,52 98,58 95,54 III-FTR

Tt 1E-3 99,50 97,50 95,53

F, C1F, R 1E-2 96,0 92,1 44,6

F, C1F, R, Tt 1E-6 99,86 99,63 99,50 III-FCR

Tt 1E-3 99,68 99,60 98,70

TF, C1F, R 1E-5 99,93 99,85 63,6

TF, C1F, R, Tt 1E-5 99,93 99,85 99,50 III-TCR

Tt 1E-4 99,85 99,90 99,70

Tabela 12 Redes do Grupo IV e V

Variáveis de

Entradas

Parâmetro de

Regularização

R2 (%) Treinamento

R2(%) Previsão a um

R2(%) Previsão

Recorrente

F, TF, C1F, R 1E-1 90,50 84,0 50,8

F, TF, C1F, R, Tt 1E-5 99,89 99,10 97,50 IV

Tt 1E-4 99,75 99,60 98,72

F, TF, R, C1F, C2F 1E-5 99,8 99,08 56,4 V

Tt 1E-3 99,8 99,7 99,6

Para os treinamentos com múltiplas entradas, quando incorporado como variável

de entrada a temperatura do topo da coluna de destilação (Tt), há melhora do R2 na

previsão recorrente.

Além disso, há um aumento nos valores de µ à medida que o número de

variáveis de entrada da cresce. E nas redes que têm como entrada Tt, os valores de µ

são, em geral, maiores também.

4.4 Conclusão do capítulo

As redes treinadas e utilizadas da forma como foi proposta em Claumann, 2003

não divergem do comportamento do processo ainda que um grande número de passos de

predição seja calculado. A sua utilização requer: a determinação de um parâmetro de

regularização; a escolha do número de níveis de resolução a serem adotados; e a seleção

do um grupo de dados de treinamento e outro grupo distinto para validação.

No estudo realizado foi observado que, com o aumento do número de variáveis

de entrada da rede, o tempo de treinamento aumentou rapidamente, porém, sendo da

ordem de minutos, foi ainda muito pequeno para representar alguma restrição no

momento da utilização prática da rede. Mais crítico foi o aumento do uso de memória

central, que para um número não muito grande de variáveis extrapolou a disponibilidade

de memória do computador utilizado (256 Mb).

Foi observado também que o número de amostras necessário ao treinamento está

relacionado com a capacidade de generalização da rede. A escolha do número de

amostras para treinamento depende: da qualidade da amostragem, da complexidade do

processo e ainda da estrutura da rede.

Quanto maior a complexidade da estrutura da rede (número de entradas e

saídas), maior o número de funções da rede e, assim, maior o número de parâmetros a

determinar. Logo, o aumento de número de amostras utilizadas para treinamento não

segue uma relação direta com o aumento da capacidade de predição, refletida pelo

coeficiente de correlação. A partir de um certo número de pontos, para uma mesma

rede, a melhora não é significativa. Já o tempo para treinamento cresce

proporcionalmente ao número de amostras.

Acerca do parâmetro de regularização (µ), todos os treinamentos melhoraram a

partir da otimização deste parâmetro na previsão recorrente. A previsão recorrente é

muito sensível ao valor do parâmetro de regularização. Por esta razão o desempenho da

rede para escolha de µ deve ser avaliado na etapa de previsão recorrente, não no

treinamento.

O aumento do número de níveis de resolução da rede melhora o desempenho,

mas demanda mais tempo para treinamento e para previsão, além de implicar em um

número máximo de entradas e saídas da rede pela limitação da capacidade de cálculo do

processador utilizado. Um balanço sobre os custos e benefícios na escolha do número de

níveis deverá ser feito durante a escolha da estrutura final da rede. Além disso, a

modificação do número de níveis implica em nova otimização do parâmetro de

regularização.

O número de amostras suficientes para treinamento depende de cada sistema,

mas poderá ser estimado aumentando-se o número de amostras até que a melhora de R2

não seja significativa. Em qualquer caso, observa-se que não ocorre sobre-treinamento.

Além disso, há que se observar que os erros cometidos pela rede no treinamento são

inferiores aos da previsão recorrente; por isso o desempenho final da rede deve ser

observado nesta etapa.

Comparando-se os resultados obtidos com todas as redes avaliadas, de uma

forma geral, observa-se que os R2 dos treinamentos são bons para todos os grupos de

amostras, o que reflete os bons valores de R2 na previsão a um passo. O R2 da previsão

recorrente apresenta valores, ainda que razoáveis, menores. Isto é resultado da

À medida que se aumenta o número de variáveis de entrada da rede, os valores

de R2 diminuem. Considerando que o aumento no número de variáveis de entrada na

rede tem como contrapartida um aumento do número de funções, e como em todos os

treinamentos o número de amostras no treinamento é o mesmo para todos os casos, este

resultado também poderia ser previsto.

O aumento do número de variáveis por vezes dificulta muito a seleção de grupos

de amostras para treinamento e previsão. Para a rede poder prever adequadamente, os

dados informados no treinamento devem abarcar os previstos. Muito mais cuidado deve

ser tomado na obtenção do grupo de amostras quando a rede contiver muitas entradas e

saídas.

A temperatura do topo (Tt) isoladamente, como variável de entrada

independente, não oferece melhores resultados, porque só podemos comparar os valores

de R2 na previsão recorrente de duas redes quando elas têm o mesmo número de

entradas, para que tenham o mesmo número de funções e poder comparar a qualidade

do treinamento e desempenho da rede para o mesmo número de amostras. Observado

isto, podemos concluir que, isoladamente, Tt foi a que melhor representou a variável de

saída nas condições em que foram feitas as avaliações.

O aumento no número de níveis não apresenta melhoras significativas de

capacidade de generalização, porém, se no caso a tratar, um pequeno aumento de

desempenho for significativo, o aumento no tempo de processamento e no número de

pontos necessário para treinamento cresce muito rapidamente.

5 CONCLUSÕES FINAIS

A presente dissertação de mestrado apresenta a modelagem empírica para

colunas de destilação utilizando uma rede neural baseada em wavelets com estrutura e

métodos de treinamento inovadores. Ainda que aplicada ao processo de destilação de

frações leves de petróleo, a mesma metodologia pode ser utilizada para outros

processos, não se restringindo a este processo ou mesmo a um processo de destilação.

Os processos a serem modelados empiricamente utilizando esta metodologia devem

seguir apenas às restrições impostas no desenvolvimento da rede neural.

As estratégias de controle baseadas em modelo requerem inicialmente o

desenvolvimento de modelos, em muitos casos de sistemas não lineares. Esta etapa pode

tornar-se bastante demorada e consistir num dos maiores obstáculos à aplicação de

NMPC (Non-linear Model Predictive Control). Com a utilização de rede neural a

obtenção do modelo constitui-se apenas da aquisição de um conjunto suficientemente

grande de dados para treinamento da rede.

Os resultados mostram que a rede utilizada reproduz com alto desempenho,

representado pelo coeficiente de correlação (R2), o comportamento dinâmico do

processo e poderá ser utilizada como preditor para fins de otimização e controle, ainda

que o processo seja um sistema não-linear, multivariável e acoplado. Além disso a rede

é de simples utilização e previu para apenas uma saída, ainda que para várias entradas, o

processo com boa acurácia.

A rede tem sua estrutura determinada pela teoria de wavelets, diferente das redes

backpropagation cuja estrutura é determinada por tentativa e erro ou através de

heurísticas. O método de ajuste de parâmetros baseado em mínimos quadrados garante

solução ótima e única para o problema de identificação quando precauções na escolha

dos dados para treinamento são tomadas para evitar problemas numéricos.

A metodologia aqui desenvolvida pode ser aplicada a diversos processos. Em

processos de refino de petróleo, além da metodologia em si, os resultados aqui obtidos

orientam ainda: a seleção das variáveis de entrada e saída da rede; número de amostras

necessárias ao treinamento da rede; freqüência de coleta dos dados; perfil da

amostragem; forma para estimar o melhor parâmetro de regularização (µ); o número de

níveis de resolução da rede; e, finalmente, a forma de avaliação da capacidade de

predição da rede obtida após o treinamento.

A avaliação prévia da rede deve ser em um simulador, pela segurança e

economia que oferece, desde a aquisição de dados até a implementação do controlador.

Neste trabalho, os dados utilizados foram produzidos em um simulador que utiliza

modelagem rigorosa.

A rede neural é treinada com muita rapidez para poucas variáveis; o tempo

necessário para treinamento cresce muito rapidamente com o aumento do número de

entradas, dado o número de parâmetros a ajustar. No presente trabalho, pelo número de

entradas utilizadas, o tempo não representou empecilho, pois foi da ordem de minutos.

Mais crítico foi o aumento do uso de memória central, que para um número não muito

grande de variáveis (sete entradas) extrapolou a disponibilidade de memória do

computador utilizado (256 Mb).

O desempenho da rede deve ser avaliado paralelamente, isto é, conjuntamente

nas etapas de treinamento e previsão. Isto porque a previsão recorrente apresenta um

comportamento distinto daquele apresentado no treinamento: redes com altos

coeficientes de correlação no treinamento podem não apresentar comportamento

adequado na previsão recorrente. Acerca do parâmetro de regularização (µ), todos as

previsões melhoraram a partir da otimização deste parâmetro na etapa de previsão

recorrente, ainda que no treinamento não houvesse diferença significativa.

Quando são comparados os coeficientes de correlação (R2) de treinamento,

previsão a um passo e previsão recorrente, observa-se que o R2 para os treinamentos são

bons para todos os grupos de amostras, o que reflete os bons valores de R2 na previsão a

um passo. Já o R2 da previsão recorrente apresenta va lores em sua maioria razoáveis,

ainda que sempre inferiores, mas isto já era esperado por serem resultados de

O grupo de amostras para treinamento deve ter amplitude maior do que os

valores que se espera prever, evitando que a rede tenha que estimar valores fora da faixa

em que foi treinada. Além disso, o número de amostras deve ser bem distribuído, de

forma a garantir boas previsões em todas as regiões previstas.

O número máximo de passos a serem previstos não foi atingido, indicando que a

rede para um número de passos em aberto, se bem treinada, terá boa previsão ou, se mal

treinada, uma previsão de pior qualidade.

Muito se tem a fazer em termos de avaliação e desenvolvimento de modelos

empíricos, antes que estes ganhem espaço dentro dos processos industriais. A adoção

de estratégias avançadas de controle, ainda que vantajosas, é lenta e requer muitas

avaliações prévias e planejamento para sua implementação, daí a relevância do estudo

destes modelos empíricos em processos simulados.

A aplicação da rede num processo real requer a obtenção de grande quantidade

de dados de processo, coleta feita enquanto a planta já estará produzindo. A avaliação

deste conjunto de dados necessitará muito critério de seleção e prévio tratamento dos

dados.

Há que se observar ainda que durante processos reais, a coleta de dados

apresenta ruídos inerentes aos sensores. A presença destes ruídos deve provocar um

aumento no número de dados necessários ao treinamento, além de aumentar o erro na

predição.

Uma característica que distingue o campo de controle de processo, quando

comparado com o controle da maioria dos sistemas mecânicos e elétricos, é a ocorrência

comum de tempo de atraso. A proposta de utilização desta rede e a metodologia aqui

desenvolvida tem como foco viabilizar estratégias avançadas de controle baseadas em

modelo, pela compensação do tempo de atraso e controle inferencial.

Os resultados apresentados mostram que a rede neural utilizada pode ser

considerada um excelente modelo empírico de colunas de destilação. A facilidade de

treinamento, capacidade de predição em malha aberta fazem possível que esta seja

utilizada tanto como simulador para treinamento como modelo para implementação de

controladores não lineares multivariáveis.

Como sugestões para trabalhos futuros, podem ser considerados feitos estudos

sobre o processo real com ruído inerente e validação da metodologia proposta neste

trabalho. Outro estudo interessante é a comparação desta rede com outras redes para

determinar condições de simulação de processo: tempo de treinamento, esforço de

cálculo, qualidade de reprodução do comportamento dinâmico, etc. E outro trabalho

interessante é a inclusão de restrições à rede, como por exemplo: limites para

concentrações em percentagens molares entre 0 e 100 %; soma das frações molares

igual à unidade; etc.

6 APÊNDICE

6.1 Treinamentos e Predições do Banco de Dados I-F

BD I-F: Variáveis de Entrada das redes (usadas para treinamento e previsão)

BD I-F: Variável de saída das redes (usadas para treinamento e previsão)

BD Entrada Rede µ R2 (%) Treinamento

R2(%) Previsão a um passo

R2(%) Previsão Recorrente

I-F F >= 1E-9 99,97 99,99 93.40

I-F Tt 1E-3 99,80 99,83 99,30

BD Entrada Rede

µ R2 (%) Treinamento

I-F F, Tt 1E-6 99,98 99,99 99,98

6.2 Treinamentos e Predições do Banco de Dados I-T BD I-T: Variáveis de Entrada das redes (usadas para treinamento e previsão)

BD I-T: Variável de saída das redes (usadas para treinamento e previsão)

I-T TF 1E-11 99,94 99,95 99,80

I-T Tt 1E-6, 1E-7 99,98 99,98 99,96

I-T TF, Tt 1E-4 99,98 99,98 99,95

6.3 Treinamentos e Predições do Banco de Dados I-C BD I-C: Variáveis de Entrada das redes (usadas para treinamento e previsão)

BD I-C: Variável de saída das redes (usadas para treinamento e previsão)

I-C C1F 1E-5 99,93 99,94 99,07

I-C Tt 1E-5 99,99 99,99 99,10

I-C C1F, Tt 1E-6 99,99 99,98 99,08

6.4 Treinamentos e Predições do Banco de Dados I-R BD I-R: Variáveis de Entrada das redes (usadas para treinamento e previsão)

BD I-R: Variável de saída das redes (usadas para treinamento e previsão)

I-R R 1E-5 99,93 99,95 99,67

I-R Tt 1E-6 99,95 99,50 99,32

I-R R, Tt 1E-4 99,94 99,93 99,14

7 REFERÊNCIAS BIBLIOGRÁFICAS

ANSARI, Rashid M.; TADE, Moses O.. Non-linear model-based process control:

Application in petroleum refining. Springer-Verlag, 2000.

ARAHAL, M.R.; BERENGUEL, M.; CAMACHO, E.F.. Neural identification

applied to predictive control of a solar plant. Control Engineering Practice 6, p.

333-344, 1998.

BAKSHI, B. R.; STEFANOPOULOS. G.. Wave-Net: a Multiresolution, Hierarchical

Neural Network with Localizad Learning. AIChE J., v. 39, 1, p. 57-81, 1993.

BARBOSA, C.H. et al. Inference of Distillation Column Products Quality Using

Bayesian Networks. Neural networks, IJCNN, ’02. Proceedings of the

International Join Conference on. p. 86-91, 2002.

BEQUETTE, B. W.. Nonlinear Control of Chemical Process. Ind. Eng. Chem. Res.,

v. 30, p. 1391-1413, 1991.

BHARTIYA, S.; WHITELEY, J.R.. Development of inferential measurements using

neural networks. ISA Transactions, v. 40, p. 307-323, 2001.

BRAUNSCHWEIG B., PAEN D., ROUX P., VACHER P., INTITUT FRANÇAIS DU

PÉTROLE, RSI. The use of CAPE-OPEN interfaces for interoperability of Unit

Operations and Thermodynamic Packages in Process Modelling. ERTC

Computing, Paris, France. 2002.

CAMACHO, E. and BORDONS, C.. Model Predictive Control. Springer Verlag,

CAPE-OPEN, www.colan.org, 2002.

CLAUMANN, C. A.. Modelagem e controle de processos não lineares: Uma

aplicação de algoritmos genéticos no treinamento de redes neurais recorrentes.

Dissertação de Mestrado, Programa de Pós-Graduação em Engenharia

Química/UFSC (1999).

CLAUMANN, C.A. Desenvolvimento e aplicações de redes neurais wavelets e da

teoria de regularização na modelagem de processos. Tese de Doutorado,

Programa de Pós-Graduação em Engenharia Química/UFSC (2003).

DAUBECHIES, I.. Orthonormal bases of compactly supported wavelets. Comm.

On Pure and Appl. Math., vol. XLI, p. 909, 1988.

DAUBECHIES, I.. Ten Lectures on Wavelets. SIAM, 1992.

DE PRADA, C., ACEBES, F., ALVES, R., MERINO, A., PELAYO, S., GARCIA, A.,

RUEDA, A., GUTIERREZ, G. & GARCIA, M. Un Simulador de Alcance Total

para la Formación de los Operarios de Sala de Control de Factorias

Azucareras. II Taller Iberoamericano de Informática Industrial, Octubre 2002.

DUTTA, P.; RHINEHART, R.R.. Application of neural network control to

distillation and an experimental comparison with other advanced controllers.

ISA Transactions . v. 38, p. 251-278, 1999.

EcosimPro by EA Internacional. Dynamic Modeling & Simulation Tool.

www.ecosimpro.com, 2002.

FIEG, George. Composition control of distillation columns with a sidestream by

using gas chromatographs . Chemical Engineering and Processing. v. 41, p. 123-

133, 2002.

HAIKIN, S. Neural Networks: A Comprehensive Foundation. Ontario: IEEE

Computer, Society Press, 1999.

HUNT, K. J., SBARBARO, D., ZBIKOWSKI, R. e GAWTHROP, P. J. Neural

Networks for Control Systems - A survey. Automatica, v. 28, n° 6, p. 1083-1112,

HUSSAIN, M. A.. Review of the application of neural networks in chemical

process control – simulation and online implementation. Artificial Intelligence

in Engineering 13 (1999) 55-68.

KORRES, D.M. et al. A neural network approach to the prediction of diesel fuel

lubricity. Fuel. v. 81, p. 1243-1250, 2002.

KOSANOVICH, K. A. e PIOVOSO, M. J.. PCA of Wavelet Transformed Data Process

for Monitoring. Intelligent Data Analisys. v. 1, p. 85-99, 1997.

LENNOX, B. et al.. Industrial application of neural networks – an investigation. J.

Process Control. v. 11, p. 497-507, 2001.

LUYBEN, W.L.. Process Modeling, Simulation and Control for Chemical

Engineerings, 2nd ed, McGraw-Hill Publishing Co., New York, 1990.

MALLAT, S. A.. A Theory for Multiresolution Signal Decomposition: The

Wavelet Representation. IEEE Trans. Pat. Anal Mach. Intel., v. 11-7, p. 674-693,

Microsoft MSDN, msdn.microsoft.com, 2002.

MOURA, L. G.; CLAUMANN, C. A.; NORMEY-RICO, J. E.; ROQUEIRO, N..

Modelagem empírica de colunas de destilação utilizando redes neurais de

wavelets para otimização e controle de processos. 2o Congresso Brasileiro de

P&D em Petróleo & Gás. No prelo, 2003.

MÜLLER, J. F. , MOURA, L. G. , ALVES, R. e NORMEY-RICO, J. E.. Simulação

para a Análise e Projeto de Controladores em Processos da Indústria de

Petróleo. 2o Congresso Brasileiro de P&D em Petróleo & Gás. No prelo, 2003.

O'SULLIVAN, F.. A statistical perspective on ill-posed inverse problems. Statistical

Science. v. 1, p. 502-527, 1986.

PEARSON, R.K.. Selecting nonlinear model structures for computer control. J.

Process Control. v. 13, p. 1-26, 2003.

RAMCHANDRAN, S.; RHINEHART, R.R.. A very simple structure for neural

network control of distillation. J. Process Control. v.5, n.2, p. 115-128, 1995.

ROQUEIRO, Nestor. Redes de wavelets na modelagem de processos não lineares.

Tese de Doutorado, COPPE/UFRJ, 1995.

RSI, www.rsi- france.com, 2002.

RUMELHART, D. E. e McCLELLAND, J. L.. Parallel Distributed Processing:

Explorations in the Microstrucuture of Cognition. 1986.

SAFATI, A.A.; NOORAII, A.; ROMAGNOLI, J.A.. A hybrid model formulation for

a distillation column and the on-line optimisation study. J. Process Control, v.

9, p. 125-134, 1999.

SAFATI, A.A.; ROMAGNOLI, J.A.. Application of Wavelet-based Neural

Networks to the Modeling and Optimisation of na Experimental Distillation

Column. Engng Applic. Artif. Intll., v.10 (3), p. 301-313, 1997.

SAVKOTIC-STEVANOVIC, J. Neural net controller by inverse modeling for a

distillation plant. Computer Chem. Engng. v 20, p. S925-S930, 1996.

STEPHANOPOULOS, G.. Chemical Process Control. McGraw-Hill Book Co. New

York, 1984.

STRANG, G., NGUYEN, T. (1996). Wavelets e Filter Banks. 1996.

SU, Hong-Te; McAVOY, T.J.. Neural Model Predictive Control of Nonlinear

Chemical Processes. IEEE, Proceedings of the International Symposium on

Intelligent Control, p.358-363, 1993.

The MathWorks, www.mathworks.com, 2002.

TIKHOVOV, A. N. e ARSENIN, V. Y. Solutions of Ill-posed Problems. Wiston,

Washington DC, 1977.

WAHBA, G.. Spline Models for Observational Data. SIAM, Philadelphia, 1990.

WANG, X. et al.. Designing a soft sensor for a distillation column with the fuzzy

distributed radial basis function neural network. IEEE Proceedings of the

Conference on Decision and Control. p. 1714-1719, 1996.

WILLIS, M. J. et al.. Artificial neural networks in process engineering. IEEE

Proceedings-D. v.138, n.3, p. 256-266,1991.

MODELAGEM EMPIRICA DE COLUNAS DE DESTILAÇÃO...

Documents

Transcript of MODELAGEM EMPIRICA DE COLUNAS DE DESTILAÇÃO...

Ricardo s. Santos Prh34 Ufsc Das g

Predição do Desgaste de Brocas para Perfuração de Poços de ...wbezerra.com.br/prh34/site/trabahos_finais/mestrado/Luiz F. Pozas... · Orientador Edson Roberto de Pieri Coordenador

Reforma da Automação da FPSO P34 - wbezerra.com.br G. … · Reforma da Automação da FPSO P34 Elson Gustavo Mota Arruda Esta monografia foi julgada no contexto da disciplina DAS

Identificação de Processos Industriais utilizando ...wbezerra.com.br/prh34/site/trabahos_finais/graduacao/Gustavo M... · CURSO DE ENGENHARIA DE CONTROLE E AUTOMAÇÃO INDUSTRIAL

Simplementação, Configuração e Customização do Sistema PI ...wbezerra.com.br/prh34/site/trabahos_finais/graduacao/Samia Genena... · compartilhando comigo os bons e maus momentos,

Projetos de Controle e Automação Aplicados à Indústria ...wbezerra.com.br/prh34/site/trabahos_finais/graduacao/Philipi S. K... · CURSO DE ENGENHARIA DE CONTROLE E AUTOMAÇÃO

Projeto FEED de uma Unidade de Separação de Propenowbezerra.com.br/prh34/site/trabahos_finais/graduacao/Ricardo S... · GLP – Gás Liquefeito de Petróleo LAS – Link Active

Dimensionamento e instalação de válvulas de controle, …wbezerra.com.br/prh34/site/trabahos_finais/graduacao/Fernanda R...UNIVERSIDADE FEDERAL DE SANTA CATARINA CURSO DE GRADUAÇÃO

Automação das Plataformas P-34 e P-48: Tratamento dos ...wbezerra.com.br/prh34/site/trabahos_finais/graduacao/Ricardo S... · construção foi a empresa KBR, ligada à americana

Jonatas Pavei Prh34 Ufsc Das g

Instrumentação e Controle de Processos Petroquímicoswbezerra.com.br/prh34/site/trabahos_finais/graduacao/Alvaro L... · destilação em escala piloto. A segunda etapa, foi desenvolvida

DESENVOLVIMENTO, ACOMPANHAMENTO E CONFIGURAÇÃO DE …wbezerra.com.br/prh34/site/trabahos_finais/graduacao/Michele F... · Esquema Geral do Tratamento d’água na Refinaria ...

Cleiton M. de Almeida PRH34 UFSC DAS G

Pré-detalhamento das arquiteturas de automação de unidades ...wbezerra.com.br/prh34/site/trabahos_finais/graduacao/Cleiton M. de... · Com a capacidade de produção do pré-sal,

Anderson c. Faller Prh34 Ufsc Das g

Implementação do Sistema de Controle, Intertravamento ...wbezerra.com.br/prh34/site/trabahos_finais/graduacao/Eduardo Valim... · Este trabalho apresenta as etapas da Implementação