Post on 24-Nov-2018
UNIVERSIDADE FEDERAL DE SANTA CATARINA
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA QUÍMICA
MODELAGEM EMPIRICA DE COLUNAS DE
DESTILAÇÃO UTILIZANDO REDES NEURAIS DE WAVELETS PARA OTIMIZAÇÃO E CONTROLE DE
PROCESSOS
Dissertação submetida ao Programa de Pós-Graduação em Engenharia Química, Departamento de Engenharia Química e
Alimentos, Universidade Federal de Santa Catarina, como requisito parcial para obtenção do título de Mestre em Ciências da
Engenharia Química.
Letícia Gomes Moura
Florianópolis, Julho de 2003
LETÍCIA GOMES MOURA
MODELAGEM EMPÍRICA DE COLUNAS DE DESTILAÇÃO
UTILIZANDO REDES NEURAIS DE WAVELETS PARA
OTIMIZAÇÃO E CONTROLE DE PROCESSOS
Dissertação submetida ao Programa de Pós-
Graduação em Engenharia Química, Departamento
de Engenharia Química e Alimentos, Universidade
Federal de Santa Catarina, como requisito parcial
para obtenção do título de Mestre em Ciências da
Engenharia Química.
Orientador: Prof. Ricardo A. F. Machado, Dr.
Co-orientador: Prof. Nestor Roqueiro, Dr.
Florianópolis, 2003
Modelagem empírica de colunas de destilação utilizando redes neurais
de wavelets para otimização e controle de processos
Por
Letícia Gomes Moura
Dissertação julgada para obtenção do título de Mestre em Engenharia Química, área de concentração Desenvolvimento de Processos Químicos e Biotecnológicos e aprovada em sua forma final pelo Programa de Pós-Graduação em Engenharia Química da Universidade Federal de Santa Catarina. _________________________________ _________________________________
Prof.Dr. Ricardo A. F. Machado Prof. Dr. Nestor Roqueiro Orientador Co-orientador
_________________________________________
Prof. Dr. Agenor Furigo Junior Coordenador do Curso
Banca Examinadora:
__________________________
Prof.Dr. Ricardo Antonio Francisco Machado Orientador
__________________________ Prof.Dr. Nestor Roqueiro
Co-Orientador
__________________________ Prof.Dr. Ariovaldo Bolzan
__________________________ Prof.Dr. Julio Elias Normey Rico
__________________________ Prof.Dr. Ubirajara Franco Moreno
Florianópolis, 25 de Julho de 2003
iii
“Segundo o velho ditado, é melhor viajar com esperança do que chegar. Nossa busca de descobertas alimenta nossa criatividade em todos os campos, não apenas na ciência.
Se chegássemos ao fim da linha, o espírito humano definharia e morreria”.
Stephen Hawking.
O universo numa casca de noz. São Paulo: Mandarim, 2001.
iv
DEDICATÓRIA
Aos meus pais,
Por tudo que me deram,
são também responsáveis por este trabalho.
v
AGRADECIMENTOS
Aos Professores orientadores, pela confiança depositada.
A Nestor Roqueiro, pelo companheirismo, estímulo e orientação.
Aos Professores que tomaram parte nesta banca examinadora, pelo incentivo e
sugestões para futuras pesquisas.
Ao professor Julio Elias Normey Rico que, pronta e gentilmente, colaborou com
sua experiência em alguns dos momentos mais difíceis deste trabalho.
Aos amigos Carlos A. Claumann, Jessé Felipe Muller, Raúl Alves pela
participação conjunta nos trabalhos publicados.
A todos os colegas do Departamento de Automação e Sistemas, pelo
companheirismo e convivência sempre agradável; a Agustinho Plucênio, pelo idealismo
na atividade acadêmica.
Aos professores dos Cursos de Pós-Graduação em Engenharia Química, Elétrica
e Mecânica da UFSC, que em equipe nos ensinaram a valorizar o conhecimento,
principalmente aos Professores Albertazzi, Augusto Bruciapaglia, Ariovaldo Bolzan,
Luismar M. Porto, Marintho B. Quadri e Selene M. U. Souza.
Aos professores do Curso de Engenharia Química da UFRJ, pela preciosa
formação da qual tive o privilégio de desfrutar. Em especial aos professores Cyrus
Hackenberg, José L. Medeiros, Eduardo Mach, Frederico Tavares e Marcelo Castier.
A Ronoel Luis de Oliveira Godoy, Angelo da Cunha Pinto, Carlos Alberto Riehl
e Francisco Radler de Aquino Neto, pelo que representaram (e representam) para mim
no início da minha vida acadêmica e de pesquisa na UFRJ.
Aos meus amigos. A Dachamir e Aparecida Hotza, pela amizade e carinho. A
minha amada Zeni, por estar sempre presente em minha vida.
Aos meus pais e irmãos, ainda que distantes, pelo apoio em todos os momentos.
A todos que, de alguma forma, contribuíram para este trabalho.
A Agência Nacional de Petróleo – ANP e a Financiadora de Estudos e Projetos –
FINEP por meio do Programa de Recursos Humanos da ANP para o Setor Petróleo e
Gas PRH – ANP/MCT, pelo apoio financeiro.
Para sempre grata.
vi
RESUMO
MOURA, Letícia Gomes. Modelagem empírica de colunas de destilação utilizando redes neurais de wavelets para otimização e controle de processos. Florianópolis, 2003. 112 páginas. Dissertação (Mestrado em Engenharia Química) – Curso de Pós-Graduação em Engenharia Química, Universidade Federal de Santa Catarina. Orientador: Ricardo Antônio Francisco Machado Co-Orientador: Nestor Roqueiro Defesa: 25/07/2003
Por muitas razões, o processo de destilação é a mais importante técnica de separação na indústria de processos químicos em todo o mundo. No entanto, a implementação do controle industrial é dificultada por se não linear, não-estacionário, interativo, e ainda sujeito a restrições e perturbações. Muitos dos modernos métodos de controle são baseados em modelos não- lineares multivariáveis. Os modelos não-lineares precisam ser mais rigorosos e com maiores exigências computacionais na medida em que aumenta a complexidade do processo. As redes neurais são uma alternativa para a modelagem destes processos na medida em que não se necessita um conhecimento a priori do processo. As redes neurais são capazes de encontrar correlação nos problemas complexos e não- lineares, processam a informação rapidamente e podem ser usadas para reduzir o esforço para o desenvolvimento de um modelo para controle. A utilização de uma rede neural para simplificar a modelagem fenomenológica de uma coluna de destilação é apresentada. A rede neural aqui utilizada apresenta uma modificação para melhorar a sua capacidade de generalização. A rede exibe uma performance superior quando comparada com redes feedforward e de base radial na identificação de processos fortemente não-lineares. O caso estudado é uma coluna de destilação com 12 m de altura e 30 pratos, que separa hidrocarbonetos em processo contínuo. Um procedimento sistemático em três etapas é desenvolvido. O primeiro consiste na coleção de dados e eleição das variáveis mais importantes do processo. A aquisição de dados foi feita usando um simulador rigoroso, numa periodicidade compatível com o que poderia ser feito num processo real. A seguir, entradas são informadas à rede no processo de treinamento. A terceira etapa é a validação do modelo testando-o com um novo grupo de dados. O presente trabalho analisa a rede para um número crescente de entradas e saídas possível de ser calculado; a qualidade e quantidade do grupo de dados de treinamento e previsão; o número máximo de passos possíveis de serem preditos pela rede; e finalmente a melhor topologia. A rede ainda é testada para uma série de variáveis de entrada. A performance da rede é testada para determinar os melhores parâmetros livres a serem usados. A qualidade do modelo depende no sucesso de cada uma destas três etapas.Aparte servir como um preditor, a rede neural provê informação sobre a relevância de cada variável. A maioria das predições forneceu coeficientes de correlação acima de 99%, mostrando que a rede pode ser usada em controle e ainda como um sensor por software. Palavras-chave: Petróleo; Coluna de destilação; Wavelets; Redes Neurais; Identificação de processos; Controle de processos.
vii
ABSTRACT
For many reasons, distillation remains the most important separation technique in chemical process industries around the world. However, distillation control is difficult because it is usually nonlinear, nonstationary, interactive, and is subject to constrains and disturbances. Most advanced control techniques are generally grounded in the use of nonlinear multivariable models. The nonlinear models generally tend to become rigorous and computationally intensive as the process behavior becomes more complex. Neural networks (NN) offer an alternative approach to modeling process behavior as they do not require a priori knowledge of the process phenomena. NN are capable of handling complex and nonlinear problems, process information rapidly and can reduce the engineering effort required in controller model development. An application of wave-nets to simplify the mechanistic model of a distillation column is presented. The neural network used in this work has modifications to enhance its generalization capability. The modified net exhibited superior performance when compared with traditional feedforward and radial base nets in the identification of strong nonlinear process. A more complex process is modeled here. The case study is a distillation column, 12 m tall and 30 trays. The column separates mixtures of hydrocarbons in continuous separation. A systematic approach of three step procedure is developed. The first step consists of data collection and election of relevant process variables. The process data is acquired using a rigorous simulator, periodically as it would be in a real process. Next, inputs are applied to the network in a process known as learning. The third step involves the model validation by testing the NN behavior using a new data set. The present work analyses the net for an increasing number of inputs and outputs possible to be calculated; the quality and quantity of the data set for learning and for testing; the number of steps possible to be predicted by the net; and finally the best topology. Also the NN is tested for some inputs. And optimization of performance is made to find the best free parameters to be used. The quality of the model depends on the success of each of the three steps. Apart from serving as a predictor, the NN provides useful information regarding the importance of each input variable. Most of the predictions made shown a correlation coefficient over 99%, showing it can be used in process control and as a soft sensor.
SUMÁRIO
LISTA DE FIGURAS ............................................................................... x
LISTA DE TABELAS ............................................................................ xii
1 INTRODUÇÃO....................................................................................................... 1
2 A REDE NEURAL ................................................................................................. 6
2.1 Introdução ...................................................................................6
2.2 Aproximação de Funções Utilizando a Teoria de Wavelets..........8
2.2.1 Multiresolução........................................................................................................................10
2.3 Multiresolução com Funções Localizadas e de Escopo Global ..11
2.4 Redes de Wavelets e Identificação de Sistemas...........................14
2.4.1 Metodologia de Identificação ....................................................................................15 2.4.2 Estrutura das Redes Wavelets para Identificação......................................16
2.5 Regularização e Representação de Conhecimento.....................18
2.5.1 Introdução de Regularizadores no Problema de Mínimos Quadrados........................................................................................................................................................19
2.6 Alterações na WaveNet...............................................................21
2.7 Conclusão...................................................................................21
3 O PROCESSO A SER IDENTIFICADO........................................................... 23
3.1 Introdução .................................................................................23
3.2 Petróleo e seu refino...................................................................23
3.3 Modelagem do Processo de Destilação.......................................25
3.4 O Simulador...............................................................................26
3.4.1 Introdução ..................................................................................................................................26
3.4.2 Comunicação entre o INDISS e o MATLAB ..............................................29 3.4.3 O Simulador de Processos INDISS......................................................................32
3.5 Conclusão...................................................................................33
4 IDENTIFICAÇÃO DO PROCESSO.................................................................. 34
4.1 Introdução .................................................................................34
4.2 Resultados de simulação ............................................................35
4.2.1 Da unidade de processo estudada...........................................................................35 4.2.2 Das perturbações ..................................................................................................................36 4.2.3 Do Tempo de Processo...................................................................................................39 4.2.4 Dos Bancos de Dados.......................................................................................................40
4.3 Resultados no Treinamento e na Previsão .................................41
4.3.1 Avaliação do Número de Entradas e de Saídas da Rede....................42 4.3.2 Escolha dos Parâmetros Livres: µ e Níveis de Resolução ................48 4.3.3 Escolha do Grupo de Dados do Treinamento ..............................................57 4.3.4 Comparação dos resultados no treinamento e previsão.......................74
4.4 Conclusão do capítulo................................................................80
5 CONCLUSÕES FINAIS ...................................................................................... 83
6 APÊNDICE ........................................................................................................... 87
6.1 Treinamentos e Predições do Banco de Dados I-F.....................88
6.2 Treinamentos e Predições do Banco de Dados I-T.....................93
6.3 Treinamentos e Predições do Banco de Dados I-C ....................98
6.4 Treinamentos e Predições do Banco de Dados I-R ..................103
LISTA DE FIGURAS
Figura 2-1 Spline e sua Wavelet (Cedida por Claumann [Claumann 2003])....................................... 12
Figura 2-2 Spline dividida em 3 Regiões (Cedida por Claumann [Claumann 2003]) ......................... 12
Figura 2-3 Expansão de Funções de Escala (8 funções) (Cedida por Claumann [Claumann 2003]) .. 13
Figura 2-4 Expansão de Funções de Escala (5 funções) (Cedida por Claumann [Claumann 2003]) .. 13
Figura 2-5 Rede de wavelets usada na identificação de processos (Cedida por Claumann
[Claumann 2003])............................................................................................................. 17
Figura 2-6 Rede de wavelets usada como simulador do processo (Cedida por Claumann [Claumann
2003]) ......................................................................................................................... 17
Figura 2-7 Comparação da aproximação do mesmo conjunto de dados para diferentes
modelos (Cedida por Claumann [Claumann 2003])..................................................................... 18
Figura 3-1 Indiss interface homem-máquina ................................................................. 28
Figura 3-2 Comunicações entre INDISS e outras aplicações ........................................ 30
Figura 3-3 Exportação de grupos de dados do processo................................................ 32
Figura 4-1 Diagrama do Processo: Variáveis Escolhidas .............................................. 36
Figura 4-2 Perfil de Perturbação de Variável de Entrada da Rede. ............................... 37
Figura 4-3 Perfil de Variável de Saída da Rede. ........................................................... 38
Figura 4-4. Amostras x Tempo de Processo .................................................................. 39
Figura 4-5 Tempo de máquina (s) x Número de entradas na rede................................. 44
Figura 4-6 Tempo de máquina (s) x número de pontos. ................................................ 46
Figura 4-7 Curva: µ x R2 no Treinamento ..................................................................... 49
Figura 4-8 µ x R2 no Treinamento, Previsão a um passo e Previsão Recorrente .......... 50
Figura 4-9 Previsão recorrente usando µ de 1x10-6 ....................................................... 51
Figura 4-10 Previsão recorrente usando µ de 1x10-4 ..................................................... 51
Figura 4-11 µ x R2 no treinamento ................................................................................ 52
Figura 4-12 µ x R2 para o primeiro nível de resolução.................................................. 53
Figura 4-13 µ x R2 para o segundo nível de resolução .................................................. 54
x
Figura 4-14 µ x R2 para o terceiro nível de resolução ................................................... 54
Figura 4-15 Comparativo de coeficientes de correlação na previsão recorrente. .......... 55
Figura 4-16 (a) Previsões recorrentes para escolha do µ e número de níveis; (b)
Detalhe. ................................................................................................................... 56
Figura 4-17 R2 em função do número de amostras usadas no treinamento ................... 58
Figura 4-18 R2 em Função do Número de Amostras .................................................... 59
Figura 4-19 Caso I -Número de passos na predição x R2 .............................................. 60
Figura 4-20 Caso I - Erro de predição para 200 passos ................................................. 61
Figura 4-21 (a) Caso I - Previsão da rede para 4000 passos; (b) Detalhe ..................... 62
Figura 4-22 Caso I - Número de passos na predição x R2, nova avaliação ................... 63
Figura 4-23 Caso II - Número de passos na predição x R2 ............................................ 64
Figura 4-24 Caso II - Previsão da rede para 8000 passos .............................................. 65
Figura 4-25 Caso III - Número de passos na predição x R2........................................... 66
Figura 4-26 (a) Caso III - Previsão da rede para 8000 passos; (b) Detalhe ................... 67
Figura 4-27 Variáveis de Entrada da Rede do BD3000 ................................................ 70
Figura 4-28 Variáveis de entrada da rede do BD6500 .................................................. 71
Figura 4-29 Comparação Dados Reais x Predição Rede – Caso VI. ............................. 72
Figura 4-30 (a) Comparação Dados Reais x Predição Rede – Caso I; (b) Detalhe ...... 73
xi
xii
LISTA DE TABELAS
Tabela 1 Funções de acesso ao servidor OLE do Indiss................................................ 30 Tabela 2 Chamadas às funções desde Matlab................................................................ 31 Tabela 3 Agrupamento dos bancos de dados por número de variáveis perturbadas. .... 41 Tabela 4 Tempo de Máquina (s) x Número de Entradas na Rede. ................................ 43 Tabela 5 Tempo de Treinamento (s) x Número de Entradas da Rede em Vários Níveis
de Resolução ........................................................................................................... 45 Tabela 6 Tempo de Máquina no Treinamento x Número de Saídas da Rede (1000
pontos) .................................................................................................................... 47 Tabela 7 Avaliação do Grupo de Amostras para Treinamento...................................... 69 Tabela 8 R2 x Número de entradas ................................................................................ 75 Tabela 9 Redes do Grupo I ............................................................................................ 77 Tabela 10 Redes do Grupo II ......................................................................................... 78 Tabela 11 Redes do Grupo III ....................................................................................... 79 Tabela 12 Redes do Grupo IV e V.................................................................................. 79
1
1 INTRODUÇÃO
A destilação é de longe a mais importante técnica de separação da indústria de
processos em todo o mundo. Nos EUA contam-se 40.000 colunas de destilação que
consomem 3% de toda a energia utilizada naquele país [Ramchandran 1995]. Por estas
razões, melhorar o processo e seu controle pode ter um impacto significativo na redução
de consumo de energia, na melhora da qualidade do produto e na proteção dos recursos
ambientais. A modelagem e o controle de colunas de destilação é tarefa complexa já que
o processo reúne várias características que dificultam o controle pelos métodos
clássicos; ele é não- linear, acoplado e ainda está sujeito a restrições de operação. Todas
estas características limitam a efetividade de controladores lineares [Dutta 1999]. As
interações entre as variáveis e o comportamento não linear conjuntamente definem o
problema de controle como multivariável não linear.
Uma característica que distingue o campo de controle de processo, quando
comparado com o controle da maioria dos sistemas mecânicos e elétricos, é a
ocorrência comum do tempo de atraso (em inglês: time delay, que tem como sinônimos
ainda transportation lag e dead time). Toda vez que massa ou energia são fisicamente
movimentadas em um processo ou planta, ocorre um tempo de atraso associado ao
movimento. Aparte o movimento físico de materiais líquidos ou sólidos, existem outras
fontes de tempo de atraso nos problemas de controle de processo. Por exemplo, o uso de
cromatógrafos para medir concentração em uma corrente do processo: o tempo de
análise. A presença do tempo de atraso no processo afeta a estabilidade do sistema em
malha fechada.
Os analisadores em linha, quando disponíveis, apresentam atrasos significativos
(15-20 minutos), e estes atrasos prejudicam o desempenho dos sistemas de controle. Ao
invés de utilizar estas medidas, pode ser utilizado um modelo de inferência para
predizer os valores das variáveis de interesse, sendo que, para implementação de
controladores multivariáveis é imprescindível contar com um modelo do processo. Os
2
modelos de inferência permitem que os operadores disponham de valores sempre
atualizados das variáveis importantes de processo e possam realizar as alterações
necessárias em um tempo menor. Além disso, os modelos de inferência são mais
econômicos que a aquisição instalação e manutenção de um analisador em linha.
Para melhorar a performance de um sistema com tempo de atraso, estratégias
especiais de controle são permanentemente desenvolvidas, como a compensação do
tempo de atraso e o controle inferencial.
Nos últimos anos, as estratégias de controle não lineares baseadas em modelos
têm sido estudadas de forma intensiva. Para alguns algoritmos de controle não linear
baseado em modelo é necessário resolver um problema de otimização, em que uma
trajetória pré-definida para o valor desejado (set-point) deve ser atendida e a ação de
controle é a solução do problema. O modelo do processo utilizado para previsão da
variável controlada pode ser linear ou não linear. Controladores, como por exemplo
IMC (Internal Model Control) ou MPC (Model Predictive Control), utilizam modelos
lineares e, embora, existam referências a aplicações de redes neurais em controle de
colunas de destilação usando MPC [Su 1993], não são apresentados os resultados da
qualidade de previsão do modelo do processo representado pela rede neural.
Em uma publicação recente [Ansari 2000], os autores afirmam que são as não
linearidades do modelo do processo que permitem melhorar o desempenho e, portanto, a
estrutura do controlador deve preservar estas não linearidades.
Pearson relata que o desenvolvimento de modelos não lineares é um dos maiores
obstáculos à aplicação de NMPC (Non-linear Model Predictive Control) e que a
modelagem é a etapa mais demorada de um projeto industrial [Pearson 2003]. As
estratégias de controle baseadas em modelo requerem o desenvolvimento de modelos de
sistemas não lineares e para estes não existe uma metodologia geral para obtenção.
Na etapa de aplicação industrial, o tempo de cálculo é fator determinante para a
escolha do modelo [Dutta 1999][Safati 1999]. Controladores não- lineares, baseados em
modelagem fenomenológica prato a prato, podem ser desenvolvidos, porém, por razões
práticas, controladores precisam fornecer uma resposta razoável dentro de um curto e
determinado intervalo de tempo; e, ademais, exigências computacionais limitam a
adoção industrial de controladores com modelagem rigorosa [Dutta 1999] [Luyben
1990].
Os métodos para controle e otimização dependem ainda de medidas precisas de
variáveis que, em muitos processos industriais, são medidas off-line em laboratórios de
3
qualidade. No processo em foco neste trabalho, a concentração dos compostos chaves
nas correntes de saída da coluna de destilação são os melhores exemplos de medidas
que demandam serem medidas off-line e muito tempo para sua medição. A dificuldade
de aquisição de informação sobre estas variáveis pode ser atribuída a vários fatores:
pouca automatização das análises laboratoriais; necessidade de manutenção constante
do sis tema de medição; e, mesmo quando medidas em tempo real são possíveis, o custo
de instalação de um sensor adicional pode não ser atrativo [Fieg 2002]. Esses compostos
chaves freqüentemente refletem a qualidade do produto final e, por isso, são de grande
interesse econômico. Nestes casos, uma estimativa da variável pode ser obtida a partir
de um modelo inferencial [Barbosa 2002][Bhartiya 2001][Wang 1996].
Devido ao volume de produto processado por uma coluna de destilação e os
custos envolvidos no processo, pequenas melhoras no desempenho podem representar
ganhos significativos a médio e longo prazos. Pelo exposto acima contar com um
modelo de inferência acurado é de grande valia para o acompanhamento, controle e
otimização do processo.
Ainda que modelos inferenciais sejam largamente utilizados na indústria, apenas
poucas técnicas destes modelos são discutidas na literatura [Bhartiya 2001]. Barbosa et
al. [Barbosa 2002], num trabalho desenvolvimento pelo Centro de Pesquisas da
PETROBRAS – CENPES –, comparam redes neurais quando utilizados como sensores
inferenciais de colunas de destilação. Korres [Korres 2002] e Wang [Wang 1996]
também utilizam inteligência artificial em sensores.
O potencial de aplicação de redes neurais em processos industriais é vasto. A
habilidade das redes neurais de capturar e modelar processos severamente não- lineares,
dinâmicos ou ainda acoplados faz delas ferramentas poderosas em controle baseado em
modelos e monitoração.
A utilização de modelos não lineares provenientes da inteligência artificial tem
sido objeto de muita investigação e avanço. Os modelos que utilizam funções de
ativação são chamados de redes neurais. Estas são compostas de camadas de neurônios
interconectados através de pesos. Desde o surgimento das Redes Neurais (Neural
Networks - NNs) como uma ferramenta computacional poderosa para descrição de
mapeamentos complexos, elas foram objeto de interesse para aplicações em engenharia.
Há vasta literatura sobre diversos tipos de redes neurais [Safati 1997].
A utilização de redes neurais como solução potencial para problemas complexos
não é novidade. Nos últimos 50 anos, muitos estudos têm sido realizados com o intuito
4
de alcançar o nível de sofisticação do cérebro humano para processar informação
[Willis 1991]. A habilidade das redes neurais de modelar funções não- lineares é
utilizada em muitas aplicações industriais, tais como: identificação de sistemas, controle
de processos, detecção de falhas, reconhecimento de padrões [Pearson 2003]
[Ramchandran 1995]. Como modelo empírico, o uso de redes neurais apresenta a
vantagem de não se necessitar de conhecimento prévio do processo, pois são capazes de
estabelecer a relação dinâmica de causa e efeito e encontrar relações complexas entre
variáveis [Korres 2002] [Lennox 2001] [Arahal 1998] [ Savkotic 1996] [Su 1993]. A
partir de informação do processo – valores medidos das entradas e saídas e utilizados na
etapa de treinamento –, as redes neurais são capazes de reproduzir o comportamento do
processo – etapa de previsão. As redes neurais tradicionalmente utilizadas (multicamada
com treinamento backpropagation) apresentam algumas características indesejadas que
foram superadas parcialmente pelas redes de base radial e wavenets descritas na
literatura [Claumann 1999] [Roqueiro 1995].
A adoção de redes neurais nas diversas possibilidades ilustradas acima encontra-
se em estágio incipiente na indústria de processos no Brasil. A modificação de sensores
e estratégias de controle de processos já em funcionamento raramente ocorre, pois
acarreta em custos de interrupção de produção, de aquisição de novos equipamentos, de
treinamento de operadores, sem falar no risco embutido na inovação. A adoção de novas
tecnologias, ainda que vantajosas, implica na possibilidade de situações desconhecidas,
por isso a avaliação prévia é exaustiva.
O potencial da utilização de redes neurais na modelagem do refino de petróleo
encontra-se ilustrado em trabalho recente de inferência de produtos de destilação
utilizando dados experimentais obtidos na refinaria REPAR, operada pela
PETROBRAS S.A. [Barbosa 2002].
Apesar do potencial das redes neurais, muitos problemas restam a serem
resolvidos antes que larga utilização delas venha a ocorrer [Haikin 1999] [Safati 1997].
Algumas funções de ativação utilizadas são funções cujo suporte é igual ao domínio
definido para as variáveis de interesse e, portanto, não é possível realizar um
aprendizado da rede de forma localizada. A classe e o número de funções define a
estrutura da rede e pode ser necessário determiná- las de forma empírica, por tentativa e
erro ou por heurística. A convergência do algoritmo de aprendizado não é normalmente
garantida.
5
Tentativas foram feitas para resolver estes, e outros problemas, considerando
estrutura rigorosa para as NNs. A teoria de wavelets foi utilizada por Bakshi [Bakshi
1993] para implementar este tipo de redes denominadas wavenets. Uma abordagem
ampla encontra-se nos trabalhos de Roqueiro [Roqueiro 1995] e Claumann [Claumann
2003].
Esta dissertação de mestrado utiliza uma rede neural de wavelets com
modificações que melhoram seu desempenho em malha aberta; é utilizada para
modelagem de coluna de destilação, objetivando-se superar os obstáculos apresentados
pelas redes precursoras. O objetivo aqui é desenvolver a metodologia de adoção das
redes neurais e viabilizar a sua utilização no processo de refino de Petróleo e analisar o
comportamento dinâmico da rede proposta como preditor.
Este documento está apresentado da seguinte forma: o Capítulo 2 aborda a
estrutura da rede neural utilizada para modelagem empírica da coluna de destilação e
suas novas características. No Capítulo 3, apresenta-se o processo a ser modelado
empiricamente e o simulador utilizado na produção dos dados necessários à
identificação, assim como as demais ferramentas necessárias. Já o Capítulo 4 traz os
resultados obtidos nas simulações, no treinamento e na predição, com avaliação
quantitativa dos diversos sistemas estudados. Por fim, no Capítulo 5 encontram-se as
conclusões e perspectivas.
6
2 A REDE NEURAL
2.1 Introdução
Nos últimos anos, foram realizados grandes avanços na análise e identificação
de sistemas dinâmicos com a utilização de modelos não lineares provenientes da
inteligência artificial. Nesta área destacam-se os modelos obtidos a partir de regras
sintáticas (lógica difusa) e principalmente, os que utilizam funções de ativação (redes
neurais). Na visão da inteligência artificial, uma rede neural é composta de camadas de
neurônios interconectados através de pesos. Matematicamente, são modelos complexos
cuja estrutura é determinada empiricamente.
As redes neurais mais utilizadas em controle e identificação não linear são as
tipo feedforward. Muitos trabalhos encontrados na literatura utilizam-nas. Grande parte
desse sucesso pode ser atribuído ao algoritmo de treinamento supervisionado e iterativo
conhecido por Retropropagação do Erro [Rumelhart 86]. No entanto, a identificação de
sistemas pode ser muito trabalhosa devido ao grande número de parâmetros da estrutura
da rede (número de camadas escondidas, número de neurônios por camada) e do método
de treinamento (seleção inicial dos pesos, determinação do fator de aprendizado, da taxa
de momento e do critério de parada) [Haikin 99]. Os parâmetros da estrutura de rede e
do método de treinamento são determinados por tentativa e erro ou através de
heurísticas.
Devido ao grande número de parâmetros e pela ausência de fundamentação
matemática, as redes feedforward vêm sendo substituídas por modelos não lineares,
lineares nos parâmetros. Este último tipo de estrutura é muito atrativa, pois o
treinamento pode ser formalizado como um problema de regressão linear e portanto,
resolvido via mínimos quadrados. Neste contexto são utilizados dois tipos de redes não
7
lineares, lineares nos parâmetros: as redes de funções de base radial (RBFN) e as redes
de wavelets.
As RBFN possuem apenas uma camada e os neurônios utilizam funções de
ativação, em geral de suporte compacto, definidas na vizinhança de um ponto central
[Haikin 99]. Uma função com suporte compacto é uma função com valor diferente de
zero em um intervalo e valor zero fora desse domínio.
A determinação da estrutura da rede se resume à determinação do número e
localização dos centros. Isto significa que devem ser determinados um número bem
menor de parâmetros quando se compara esse tipo de rede com as feedforward.
As redes de wavelets são compostas de funções localizadas assim como as
RBFN, no entanto, são melhor fundamentadas matematicamente que estas últimas. As
redes de wavelets utilizam o conceito de multiresolução [Mallat 89].
A análise em multiresolução é uma metodologia de representação de sinais em
diferentes escalas ou resoluções. Um sinal, no contexto da multiresolução, é
representado como a soma de sucessivas aproximações feitas a partir das projeções
desse em espaços definidos pela teoria das wavelets [Daubechies 92],[Strang 96].
Aplicações de wavelets para aproximação de funções e construção de redes
neurais surgem com Bakshi e Stephanopoulos [Bakshi 93] através das wavenets. A
aproximação de uma função f(x) é feita, no contexto de multiresolução, obtendo as
projeções de f(x) para versões deslocadas e comprimidas de uma função básica,
conhecida como "wavelet mãe". As translações e compressões e, portanto, a localização
e o suporte são definidos pela teoria de wavelets. Neste caso, o treinamento da rede se
restringe à determinação dos coeficientes (pesos) relativos às projeções. O problema é
que o número funções de ativação de uma Wavenet cresce exponencialmente à medida
que se aumenta o número de entradas. Além disso, o suporte das funções de ativação
diminui muito em relação ao domínio do problema, já que em uma Wavenet, o suporte
de cada função de ativação multidimensional é obtido pela interseção do suporte de
funções localizadas unidimensionais. Dessa forma, pode haver funções com muito
poucos pontos em seu suporte levando a problemas numéricos no treinamento,
principalmente para casos com amostragem deficiente de dados.
Na rede neural proposta por Claumann [Claumann 2003], propõe-se uma forma
de diminuir o número de funções de ativação na Wavenet. Os dados de treinamento são
inicialmente aproximados com funções de ativação (funções de escala) cujo suporte é
igual ao domínio do problema (funções de escopo global), ao contrário da Wavenet
8
originalmente proposta que utiliza apenas funções localizadas. Se a aproximação não for
adequada, então podem ser adicionadas wavelets com um nível crescente de localização
de acordo com a multiresolução.
2.2 Aproximação de Funções Utilizando a Teoria de Wavelets
As wavelets constituem uma família de funções construídas de dilatações e
translações de uma função básica Ψ(.) denominada "wavelet mãe". Essa família de
wavelets é definida da seguinte forma:
( ) ( )
Rbaa
btatba
∈
−
Ψ⋅=Ψ−
,
21,
Equação 1
Na Equação 1, o parâmetro b efetua uma translação, ou seja, modifica a
localização temporal da wavelet, o parâmetro a efetua uma compressão, o que altera o
suporte no domínio da freqüência. O coeficiente que precede a wavelet mãe tem como
objetivo normalizar as funções da família. Em geral, restringem-se os valores dos
parâmetros a e b a um conjunto discreto. Por exemplo, se a = a0m
e b= nb0 para m,n ∈ Z
com a0 > 1 e b0 > 0 é possível definir a seguinte família de wavelets discretas:
( ) ( ) ( )Znm
nbtaat mmnm
∈
−Ψ⋅=Ψ −−
,00
20,
Equação 2
As wavelets formam um conjunto completo em L2(R) [Daubechies 88] e podem
ser utilizadas em diferentes aplicações. Em particular, podem representar funções de
quadrado integrável f(t) ∈ L2(R) (sinais de energia finita), de acordo com a seguinte
expansão:
9
( )∑∑ Ψ=m
nmn
nm tctf ,,)(
Equação 3
Em geral, não se conseguem representações analíticas para as wavelets; essas são
construídas a partir da solução de uma equação do tipo:
( ) ( )∑ −Φ=Φk
k ktct 2
Equação 4
Onde Φ(t) é conhecida como função de escala. Uma vez obtida a função de
escala, a wavelet pode ser construída [Strang 96]. Os coeficientes ck na Equação 4
determinam as propriedades da wavelet [Daubechies 88].
A expansão em séries de funções mostrada na Equação 3 é, em geral, separada
em duas partes. As informações mais grosseiras são identificadas por uma expansão em
funções de escala. Os detalhes são identificados pelas wavelets. O sinal completo é a
soma das duas partes descritas. Matematicamente tem-se:
( ) ( )∑ ∑∑∞=
=
∞=
−∞=
∞=
−∞=
Ψ+Φ=m
m
n
nnmnm
n
nnn tctdtf
0,,,0)(
Equação 5
A Equação 5 pode ser escrita na forma de uma expansão em espaços de funções.
Definindo-se:
( ) ( )
( ) ( )∑
∑∞=
−∞=
∞=
−∞=
Ψ=
Φ=
n
nnmnmm
n
nnn
tctW
tdtV
,,
,00
Tem-se:
( ) ( ) ( ) )(......)( 100 tWtWtWtVtf ∞→⊕⊕=
Equação 6
Onde ⊕ significa complemento ortogonal.
10
2.2.1 Multiresolução
A análise em multiresolução é uma metodologia de representação de sinais em
diferentes escalas (a cada valor de m na Equação 3 é associado uma escala ou
resolução). Uma função, no contexto da multiresolução, é representada como a soma de
sucessivas aproximações. Esta aproximação é feita projetando a função nos espaços
definidos pela Equação 6.
Exemplificando, seja F0 a projeção, ou aproximação, de f(t) no espaço V0(t), ou
seja:
( ) ( )∑∞=
−∞=
Φ=n
nnn tdtF ,00
Equação 7
Para obter uma aproximação mais detalhada, deverá ser incorporado um
conjunto de wavelets correspondentes à escala 0:
( ) ( ) ( )∑∞=
−∞=
Ψ+=n
nnn tctFtF ,0,001
Equação 8
O próximo passo é incorporar um conjunto de wavelets na escala 1:
( ) ( ) ( )∑∞=
−∞=
Ψ+=n
nnn tctFtF ,1,112
Equação 9
Aplicando-se este processo continuamente, obtém-se a seqüência de
aproximações F0,F1,F2 ... que são, progressivamente, melhores aproximações de f(t).
Para obter os coeficientes (pesos) das projeções, deve-se resolver o problema
descrito pela Equação 10 para cada escala :
11
[ ] [ )∞=− ,0 ; )(min 2 mFtf m
Equação 10
Dado que Fm é uma série de funções com coeficientes desconhecidos, solucionar
a Equação 10 implica em resolver um problema de mínimos quadrados. Isso só é
possível porque a expansão por wavelets gera modelos não lineares, lineares nos
parâmetros.
Tudo o que foi descrito até o momento se refere a uma função unidimensional. A
teoria de wavelets permite estender à aproximação em multiresolução facilmente para o
caso multivariável. A técnica mais comum para desenvolvimento de wavelets
multidimensionais é o produto tensorial de wavelets e funções de escala
unidimensionais. Exemplificando, para o caso de duas entradas, tem-se uma função de
escala :
( ) ( ) ( )2121 , tttt Φ⋅Φ=Φ
e três wavelets mães:
( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )2121
3
21212
21211
,
,
,
tttt
tttt
tttt
Ψ⋅Ψ=Ψ
Φ⋅Ψ=Ψ
Ψ⋅Φ=Ψ
Se Ψ(t) constitui uma base para o L2(R), então Ψ h(t) com h = 1, 2, 3 constitui
uma base para o espaço L2(R2) (o espaço das funções quadrado integráveis com duas
entradas). O número de wavelets aumenta exponencialmente com o número de entradas,
resultando em (2d -1) wavelets para d entradas.
2.3 Multiresolução com Funções Localizadas e de Escopo Global
Na seção anterior, foi considerada a aproximação de funções com suporte
infinito. Na prática, interessa a aproximação de funções contidas em um domínio finito.
12
Esse fato, além do tamanho finito do grupo de dados de treinamento, impõe restrições
no número de funções de ativação a serem utilizadas. Dessa forma, apenas alguns níveis
de resolução devem ser suficientes para uma correta aproximação.
O primeiro passo para aproximar uma função de domínio finito é normalizar os
dados de entrada e saída; por exemplo no intervalo [0,1]. Em seguida, escolhe-se o tipo
de função de escala. Assim sendo, a wavelet fica definida automaticamente.
Função de Escala Wavelet
Figura 2-1 Spline e sua Wavelet (Cedida por Claumann [Claumann 2003])
Uma ilustração da função de escala spline (que pode ser gerada a partir da
Equação 4 ) e de sua wavelet é mostrada na Figura 2-1.
A aproximação dos dados de treinamento se inicia, no contexto da
multiresolução, a partir de uma combinação linear de funções de escala deslocadas. No
caso da spline, o deslocamento é de 1/3 do suporte quando se consideram as adjacentes.
Dessa forma, a spline pode ser dividida em 3 regiões conforme mostrado na Figura 2-2.
(1) (3)(2)
Figura 2-2 Spline dividida em 3 Regiões (Cedida por Claumann [Claumann 2003])
Pode-se definir o número de funções de escala de forma arbitrária. Para
exemplificar, utilizando um caso unidimensional, podem ser vistas duas expansões
possíveis: uma com 8 funções (Figura 2-3) e outra com 5 (Figura 2-4) (Os números 1, 2
e 3 são relativos às regiões demarcadas na Figura 2-2). Note que, nos dois casos, várias
13
funções de escala (deslocadas em 1/3 de seu suporte) estão contidas no intervalo [0,1] (o
mesmo que o utilizado para normalizar o grupo de dados). As funções de escala
localizadas nas extremidades devem ser truncadas em razão do domínio finito da função
que se deseja aproximar.
N° da Função12345678
Versões Deslocadas da Spline
321
321 3
21
321
321
321
Domínio0 1
Figura 2-3 Expansão de Funções de Escala (8 funções) (Cedida por Claumann [Claumann 2003])
N° da Função12345
321
321
321
Versões Deslocadas da Spline
Domínio0 1
Figura 2-4 Expansão de Funções de Escala (5 funções) (Cedida por Claumann [Claumann 2003])
Se a função que se deseja aproximar é conhecida, então conforme a Equação 5
não interessa o ponto de partida. No entanto, quando se dispõe apenas de um conjunto
finito de pontos, a expansão que inicia com menor número de funções de escala será,
possivelmente, melhor em termos de capacidade de generalização. Algumas razões para
isto são:
1) Se a curva que se deseja aproximar tiver não linearidades pouco acentuadas,
então ela será certamente identificada utilizando somente funções de escala em
qualquer caso. O que foi afirmado é válido porque um comportamento próximo
14
do linear está contido no espaço das funções geradas por expansões de splines
(as splines são combinações de polinômios de baixa ordem e o comportamento
linear é um caso particular).
2) Para um problema com d entradas, o domínio de cada função
multidimensional é obtido pela interseção dos domínios de d funções
unidimensionais localizadas. Isso implica que, à medida que aumenta a
dimensão do espaço de entrada, o suporte das funções de ativação diminui
quando comparado ao domínio do problema. Dessa forma, pode haver funções
com muito poucos pontos em seu suporte, levando a problemas numéricos no
treinamento, principalmente para casos com amostragem deficiente de dados e
ruído. Assim sendo, na expansão utilizando 8 funções de escala para cada
entrada da um total de 8d funções a serem utilizadas (considerando todas as
combinações), estas funções tem um suporte menor do que as utilizadas para
uma aproximação com 5 funções de escala para cada entrada.
3) Quanto maior o número de funções de escala definidas no domínio mais
parâmetros devem ser estimados, aumentando a possibilidade de erro numérico.
Analisando o que foi descrito, nota-se que há uma tendência para produzir
melhores modelos à medida que se diminui o número de funções de escala. Por indução,
conclui-se que a melhor expansão possui apenas 3 funções de ativação (o menor número
possível, observe a Figura 2-3 ou a Figura 2-4).
Uma vez definidas as funções de escala, continua-se a multiresolução
incorporando conjuntos de wavelets em escalas progressivamente maiores (aumenta-se
a compressão) até atingir um pequeno erro de treinamento.
2.4 Redes de Wavelets e Identificação de Sistemas
Os modelos dinâmicos não lineares, lineares nos parâmetros podem ser
descritos, em geral, como séries temporais não lineares e o nome genérico dado a estes
15
modelos é NARMAX (Non-Linear Auto Regressive Moving Avarage with Exogenous
Inputs). Como casos particulares dos modelos NARMAX, podem-se citar as redes
neurais e os modelos ARMAX (lineares) muito utilizados em identificação [Ljung 1987].
Grande parte dos trabalhos encontrados na literatura relativos a identificação e
controle não linear utilizam as redes feedforward e as RBFN. Uma revisão destes temas
pode ser encontrada em Bequette [Bequette 1991] e Hunt et all. [Hunt 1992]. Bakshi e
Stephanopoulos [Bakshi 93] propuseram o uso de redes neurais monocamadas que
utilizam, como funções de ativação, famílias de funções denominadas wavelets. Estas
podem ser consideradas um caso particular das funções de base radial utilizadas nas
RBFN. Em outra abordagem, as redes de uma camada podem ser caracterizadas como
casos particulares do modelo NARMAX; ou seja, séries de funções obtidas da teoria de
wavelets.
2.4.1 Metodologia de Identificação
A identificação de sistemas utilizando redes neurais consiste, basicamente dos
seguintes passos:
1) Obtenção do Grupo de Dados de Treinamento: Aplicando um conjunto de
perturbações ao processo que se deseja modelar, gera-se um conjunto de dados
para treinamento. Os alvos são as saídas do processo no tempo discreto (k+1).
As entradas da rede são os valores atrasados das saídas e das perturbações, ou
seja, correspondem aos tempos discretos (k),(k-1),(k-2)... Observação: o
conjunto de dados descritos com entradas amostradas até o instante k e saídas no
instante k+1 correspondem a um sistema sem tempo morto. Caso o processo
possua tempo morto, a saída deverá ser considerada no instante k+TempoMorto.
2) Determinação da Melhor Estrutura da Rede: Esta etapa é relativa ao estudo do
conjunto de variáveis de entrada que melhor identifica o processo. Um critério
simples para indicar o melhor conjunto seria aquele que produzisse um pequeno
erro quadrático com o menor número de variáveis de entrada.
16
3) Validação: O procedimento mais comum para validar modelos é utilizar um
novo grupo de dados (Teste) relacionando as entradas às saídas.
O desempenho da rede pode ser avaliado utilizando-se o valor do coeficiente de
correlação R2. O valor de R2 é definido pela equação:
( )( )
100.1%
1
2_
1
2
2
−
−−=
∑
∑
=
=
Np
ii
Np
i
pii
y
R
γ
γγ
Equação 11
Onde:
pN : Número de pontos do grupo de dados;
iγ : Valores de saída para os pontos do grupo de dados (i=1... Np);
piγ : Valores de saída previstos pelo modelo (i=1... Np);
_
y : Valor médio dos pontos de saída do grupo de dados.
O desempenho da rede deve ser avaliado com relação a um grupo de dados
diferente do utilizado no treinamento (validação cruzada). Alternativamente, pode-se
validar o modelo através de simulação, ou seja, utiliza-se o(s) primeiro(s) ponto(s) de
grupo dados de validação (condição inicial) como entrada à rede. Para os demais,
utilizam-se apenas os dados das variáveis de perturbação como informação externa e
faz-se a realimentação das saídas da rede. Na validação por simulação, pode-se utilizar
tanto o grupo de dados de treinamento quanto um novo.
2.4.2 Estrutura das Redes Wavelets para Identificação
Uma ilustração da rede de wavelets utilizada na identificação de um sistema
dinâmico pode ser vista na Figura 2-5. Neste exemplo, a rede possui apenas uma saída:
17
y(k+1), a variável predita no tempo (k+1) e duas entradas: a variável de perturbação
u(k) e a saída no instante atual y(k). Note que os pesos da camada de entrada recebem o
valor 1.
m - Resolução [0,i]n - Translação [0,ni]Φ - F. de EscalaΨ - Wavelets
Φ0,0 Φ0,n0 Ψ0,0 Ψ0,n0 Ψ i,0 Ψ i,ni
∑y(k+1)
u(k)y(k)Pesosunitários
Figura 2-5 Rede de wavelets usada na identificação de processos (Cedida por Claumann [Claumann 2003])
Na Figura 2-6, mostra-se uma ilustração da rede de wavelets utilizada como
simulador do processo (o mesmo do caso anterior).
m - Resolução [0,i]n - Translação [0,ni]Φ - F. de EscalaΨ - Wavelets
Φ0,0 Φ0,n0 Ψ0,0 Ψ0,n0 Ψ i,0 Ψ i ,ni
∑y(k+1)
u(k)y(k)Pesosunitários
z-1
Figura 2-6 Rede de wavelets usada como simulador do processo (Cedida por Claumann [Claumann 2003])
Como pode ser observado nas figuras acima, a rede é treinada para predizer o
comportamento da saída um passo à frente e, utilizando a predição de um passo,
realimenta-se a rede para predizer um número arbitrário de passos à frente. Cabe
ressaltar que redes multicamadas com treinamento tipo backpropagation, treinadas e
utilizadas da forma descrita acima, rapidamente divergem do comportamento do
processo.
18
2.5 Regularização e Representação de Conhecimento
Determinar um modelo a partir de um conjunto finito de observações sem
qualquer conhecimento sobre um sistema é um problema mal-posto, no sentido que um
modelo único pode não existir [Tikhonov 1977].
Na Figura 2-7, mostra-se uma ilustração de duas possíveis formas de
aproximação para o mesmo conjunto de dados. Têm-se, nos dois casos, um pequeno
erro de modelagem, no entanto, a amostragem dos dados é deficiente gerando incertezas
na aproximação.
Figura 2-7 Comparação da aproximação do mesmo conjunto de dados para diferentes modelos
(Cedida por Claumann [Claumann 2003])
Na identificação de sistemas, utilizando modelos lineares nos parâmetros,
problemas mal-postos produzem matrizes mal condicionadas, o que pode levar a
grandes erros na determinação dos coeficientes do modelo. Uma maneira de diminuir
incertezas é introduzir conhecimento prévio do processo que se deseja identificar, além
da simples aproximação de dados, de forma a obter-se uma solução única para o
problema de aproximação. Tal procedimento é conhecido por regularização. Para
transformar a identificação de sistemas em um problema bem-posto, Tikhonov
[Tikhonov 1977] criou a teoria da regularização. O conhecimento prévio utilizado na
teoria de regularização significa considerar que os processos não apresentam
19
descontinuidades. Isto evitará que o comportamento de um modelo mude abruptamente
nas vizinhanças de uma amostra. Tal hipótese é válida para uma grande classe de
sistemas do mundo real, mas não para todos os sistemas. A hipótese de suavidade pode
ser incorporada em um modelo introduzindo uma penalização da não suavidade no
critério de identificação [Tikhonov 1977] [O'Sullivan 1986] [Wahba 1990].
Regularizadores de naturezas diversas podem ser propostos. Por exemplo, para
penalizar a curvatura das funções utilizadas na aproximação dos dados, para impor
restrições no valor assumido pelas variáveis, para forçar a estabilidade em malha aberta
do modelo proposto entre outros.
2.5.1 Introdução de Regularizadores no Problema de Mínimos Quadrados
Matematicamente, a maior parte dos regularizadores podem ser introduzidos no
problema de identificação através da função objetivo. Termos adicionais, além do erro
quadrático de aproximação, constituirão a nova função objetivo regularizada. Dessa
forma, múltiplos critérios podem ser introduzidos. A importância de cada critério pode
ser ponderada utilizando multiplicadores (constantes positivas).
Na Equação 12, mostra-se o formato da função objetivo regularizada J:
( ) ∑=
⋅+⋅−=N
iii JXFYJ
1
2γθ
Equação 12
Onde:
N: Número de regularizadores;
Y: Vetor de dados que se deseja aproximar;
X- Matriz de dados de entrada;
F(X): Mapeamento não linear aplicado em X (Matriz);
θ: Vetor de parâmetros;
Ji - i-ésimo regularizador;
γi - i-ésimo multiplicador (γi >0);
20
Para maior compreensão, as matrizes e vetores presentes na equação 12 são
descritos em formato expandido como:
( )( )
=∈
=1
,....1 ; ;
2
1
xNY
NiRy
y
yy
Yp
pi
N p
M
( )( )
( )
=∈
==∈
=
=
v
,
,2,1,
,22,21,2
,12,11,1
2
1
,....1 ;
,....1 ; ,....1 ;
;
NxNX
NiRX
NjNiRx
xxx
xxx
xxx
X
XX
X
p
pN
i
vpji
NvNNN
Nv
Nv
N
v
ppppL
M
L
L
M
( )
( )( )
( )
( )( ) ( )( )
→Φ
=→
==∈
=Φfv
v
v
f
NN
fN
i
piN
NRR
NiRR
NiXR
:
,....1 ;:
,....1 ; ;
;
1
1
ε
εφ
εε
εφ
εφεφ
εM
( )
( )( )
( )
( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )
( )
=
Φ
Φ
Φ
=) (
;
21
22221
11211
2
1
fxp
NpNNpNp
N
N
NT
T
T
NNXF
XXX
XXX
XXX
X
X
X
XF
f
f
f
pφφφ
φφφ
φφφ
LM
L
L
M
Sendo:
Np: Número de pontos do grupo de dados;
Nv: Número de variáveis;
Nf: Número de funções;
Φ(⋅): Mapeamento não linear correspondente ao conjunto de funções de
ativação da rede de wavelets.
21
Levando em conta as modificações realizadas por Claumann [2003], as funções
de ativação são compostas apenas de funções de escala. O mapeamento é aplicado aos
pontos do grupo de dados.
No caso de múltiplas saídas (θ matriz) o problema de mínimos quadrados pode
ser resolvido de forma desacoplada. Por isso, sem perda de generalidade, admitiu-se que
θ é um vetor, o que implica considerar apenas uma saída.
2.6 Alterações na Wavenet
Claumann [2003] propôs duas modificações na Wavenet e implementadas na
rede utilizada neste trabalho: o uso exclusivamente de funções de escala no esquema
multiressolução; e a introdução de um parâmetro de regularização. Uma descrição mais
detalhada da rede utilizada neste trabalho pode ser encontrada no trabalho de Claumann
[2003].
2.7 Conclusão
A rede usada no presente trabalho, proposta por Claumann [Claumann 2003], é
um modelo não linear, linear nos parâmetros. Este tipo de estrutura é muito atrativa pois
o treinamento pode ser formalizado como um problema de regressão linear e portanto
resolvido por mínimos quadrados. A qualidade do modelo depende das funções
escolhidas e dos pontos amostrados. Além disso o suporte e a localização das funções
de ativações são dados pela teoria de wavelets, por isso a escolha da estrutura da rede
prescinde da utilização de métodos heurísticos.
A primeira aproximação é feita com funções de ativação (função de escala), cujo
suporte é igual ao domínio do problema (função de escopo global) minimizando o
número de parâmetros a serem estimados. Na resolução de problemas práticos, interessa
a aproximação de funções contidas em um domínio finito, por isso, além do tamanho
finito do grupo de dados de treinamento, impõe-se restrições no número de funções de
22
ativação a serem utilizadas. Apenas alguns níveis de resolução devem ser suficientes
para uma correta aproximação.
A teoria da regularização incorporada ao modelo está relacionada com a
consideração que os processos de interesse não apresentam descontinuidades. Tal
hipótese é válida para uma grande classe de sistemas do mundo real, incluindo o sistema
avaliado neste trabalho: o processo de destilação. A hipótese de suavidade foi
incorporada ao modelo introduzindo uma penalização da não suavidade no critério de
identificação, isto é, na função objetivo.
23
3 O PROCESSO A SER IDENTIFICADO
3.1 Introdução
O processo de destilação ocorre desde a etapa de refino do petróleo cru, mas
permeia toda a Indústria de Petróleo. Sempre que houver correntes com misturas a
serem separadas e a destilação for um dos métodos adequados para a separação, esta
estará presente. O requisito básico é haver diferença no ponto de ebulição de seus
componentes, sejam eles hidrocarbonetos (provenientes do petróleo) ou outros
utilizados na indústria.
Sendo assim, a destilação aparece com tal freqüência entre os processos
industriais, que se tornou um dos processos mais estudados. A modelagem
fenomenológica, no entanto, requer a avaliação específica da mistura a ser separada e do
tipo de coluna de separação utilizada. Esta etapa pode ser demorada.
Nos mais recentes métodos de controle baseados em modelo, pode-se lançar
mão da modelagem empírica, que carece do estudo específico do processo. Requer, por
outro lado, uma etapa inicial de aquisição de dados.
Neste capítulo mostra-se o processo de destilação escolhido para fazer a
identificação, ainda que qualquer outro pudesse ser identificado utilizando-se a mesma
metodologia.
3.2 Petróleo e seu refino
O petróleo cru é constituído por centenas de diferentes substâncias químicas, do
metano ao asfalto. Embora a maioria dos constituintes seja hidrocarbonetos (83 a 87%
24
em carbono e 11 a 15% em hidrogênio), a análise elementar mostra a presença de
pequenas quantidades de nitrogênio (0 a 5%), de enxofre (0 a 6%) e de oxigênio (0 a
3,5%). A característica geral da refinação do petróleo é o processamento econômico do
óleo cru, o que sai do poço após a separação da água e do gás, até os produtos
comercializáveis.
A refinação envolve a separação por destilação, que, por seu turno, compreende
as operações unitárias de escoamento de fluidos, de transferência de calor e de
destilação. O processamento por destilação do petróleo nos seus mais diversos produtos
consiste numa separação puramente física dos hidrocarbonetos.
A destilação se classifica entre as mais importantes das operações unitárias.
Nesta operação, a separação se baseia na volatilidade, e a corrente de processo pode ser
separada, mediante a destilação, num componente mais volátil e num outro menos
volátil. As operações mais antigas de destilação descontínua foram quase inteiramente
superadas pelas de destilação contínua. Os sistemas usados modernamente
compreendem o aquecimento do óleo, mediante bombeamento através de tubos
colocados num forno, seguido pela vaporização numa coluna de fracionamento com
diversas saídas laterais, que possibilitam a retirada de frações com várias faixas de
ebulição, os cortes ou produtos. O resíduo do fundo da coluna pode ser sujeito à
destilação a vácuo ou a vapor.
A primeira etapa de separação do óleo cru conduz às seguintes frações
principais:
Destilados leves: Compreendem as naftas e óleos refinados, a gasolina de
aviação, a gasolina de automóveis, os solventes do petróleo e o querosene para
jatos. A gasolina encabeça a lista como o mais importante entre os produtos do
petróleo.
Destilados intermediários: Incluem o gasóleo, o óleo de fornalha pesado
(doméstico), o óleo de craqueamento, o óleo diesel combustível, o óleo de
absorção e destilados craqueados e reformados, para a obtenção de gasolina.
Destilados pesados: Fornecem os óleos lubrificantes (que também são
provenientes dos resíduos), os óleos pesados para diversos empregos e as
25
parafinas. Os destilados pesados são também hidrocraqueados a combustíveis
mais leves e a gasolina.
Resíduos: Incluem o asfalto, o óleo combustível residual, o coque e o petrolato.
São coprodutos, ou resíduos, do processo normal de refinação. O coque de
petróleo é usado comercialmente para a fabricação de eletrodos, na fabricação
do carbeto de cálcio, em tintas e na indústria cerâmica.
As diversas frações obtidas a partir do óleo cru sofrem novas separações,
normalmente novas destilações, até atingirem a qualidade de produtos comercializáveis.
Destinam-se principalmente ao uso como combustíveis ou como matéria-prima da
Industria Petroquímica, quando atingem seu mais alto valor agregado.
3.3 Modelagem do Processo de Destilação
As estratégias de controle dos processos químicos foram projetadas,
tradicionalmente, usando modelos dinâmicos lineares simples. Embora estes modelos
fossem adequados para alguns processos, em outros casos não proviam acurácia
suficiente para realizar o controle de forma adequada. Um exemplo é a relação da
composição de topo de uma coluna de destilação com a taxa de refluxo.
O uso de modelos de estado estacionário não lineares como modelos de
inferência representam um grande avanço no controle de colunas, como é o caso do
controle multivariável aplicado a uma debutanizadora apresentado por Ansari e Tadé
[Ansari 2000]. Os benefícios apresentados ali, pela mudança do sistema de controle de
PID para controle multivariável GMC (Generic Model Control) usando um modelo de
estado estacionário, devm ser superados pela utilização de modelos dinâmicos não
lineares acurados.
26
3.4 O Simulador
3.4.1 Introdução
A técnica de simulação já é bastante difundida na Indústria de Petróleo e Gás,
visto que proporciona um ambiente favorável ao estudo aprofundado de processos, sem
que seja necessário o contato direto com o processo real. Desta forma, operadores
inexperientes podem ser treinados em simuladores até que atinjam um grau de
capacitação e conhecimento necessário exigido para a operação do processo. Isto é, eles
devem ser capazes de conduzir o processo e detectar eventuais anomalias, tomando as
devidas providências para garantir seu bom funcionamento [De Prada et al., 2002].
Assim, evitam-se eventuais problemas graves tanto de segurança, como de qualidade do
produto a que se destina o processo, que possam ocorrer devido à inexperiência, tanto
no manuseio da planta, como também no desconhecimento do processo. Do mesmo
modo, através do uso de simuladores, torna-se viável o estudo de estratégias avançadas
de controle, que se tornaram uma necessidade urgente nas indústrias, dado que os
processos produtivos tiveram que ser adaptados às novas características do mercado
internacional [Camacho, 1999].
O desenvolvimento de simuladores é realizado tradicionalmente com linguagens
de propósito geral, como C ou FORTRAN, ou com linguagens de simulação, como
SIMULA, ACSL, SIMSCRIPT, etc., incluindo estes mais facilidades para a
programação de simulações.
Nos últimos anos têm surgido outros tipos de linguagens de simulação mais
avançados, com orientação a objetos e componentes reutilizáveis. Um exemplo disto é
EcosimPro [EcosimPro, 2002] que é uma linguagem de simulação orientada a objetos
que permite desenvolver livrarias de componentes para a reutilização posterior deles no
desenvolvimento de simuladores. O objetivo principal destes é diminuir os custos de
tempo e desenvolvimento, ao usar componentes que já foram provados, e ser capazes de
usar componentes desenvolvidos por outras pessoas.
27
Com esta idéia surgiu o projeto CAPE-OPEN (Computer Aided Process
Engineering – Open Simulation Environment), procurando um modelado rápido,
preciso e efetivo para a síntese, projeto, monitorização e otimização de processos
químicos e relacionados [CAPE-OPEN, 2002]. O que aí se propõem são as séries de
interfaces que devem ser respeitadas por aqueles que desenvolvem os componentes para
as simulações para permitir a integração e troca de componentes entre diferentes
fabricantes [Braunschweig et al., 2002].
Um destes fabricantes é a empresa francesa RSI [RSI, 2002], que desenvolveu
um ambiente software que cobre o processo inteiro para o desenvolvimento de
simuladores. Este software é INDISS (INDustrial and Integrated Simulation Software) .
O Indiss dispõe de uma biblioteca de componentes padronizados. Na concepção
de um novo processo, os componentes disponibilizados pelo simulador podem ser
utilizados fazendo-se suas interligações e o ajuste dos parâmetros, conforme o
fluxograma do processo a ser simulado. Funciona tanto no modo estático quanto no
dinâmico. Tem como característica um código fechado, impossibilitando a edição e
criação de novos componentes. Presta-se como uma ferramenta para: projeto e
desenvolvimento de processos; otimização de sistemas de controle e procedimentos de
operação; ou ainda para o treinamento de novos operadores ou ainda para ensino em
cursos técnicos e de engenharia.
Criar um novo processo no simulador implica na definição do fluxograma
completo e implementação de todas as variáveis de projeto, além de informar as
variáveis iniciais de processo. Após esta etapa, é necessário ainda fazer a validação do
modelo, que consiste na verificação de todas as correntes matérias, transporte de energia
e transferência de sinais dentro do processo. Os valores calculados pelo simulador
devem gerar informações compatíveis com um processo real. A validação pode ainda
consistir na comparação entre os cálculos do simulador e dados de um processo real; ou
ainda a confrontação com outro modelo de simulação já implementado. A experiência
de operadores de planta consiste ainda importante fonte de informação na validação,
considerando que a checagem dos pontos mais críticos devem ser priorizados frente ao
grande número de dados implementados e calculados.
A utilização de um simulador que utiliza modelos rigorosos é essencial para
garantir credibilidade mínima quando se está tratando de utilizar um simulador, ao invés
de um processo real. A utilização do Indiss satisfaz essa exigência, pois os cálculos em
seus diversos equipamentos, como por exemplo para os estados de equilíbrio de fases,
28
são os mais próximos possíveis de serem calculados. Isso faz dele um simulador
bastante complexo. O domínio de sua utilização requer longa experiência, ainda mais
para a criação de um novo processo. A interface homem-máquina, no entanto, é
amigável para a manipulação do processo pronto como um todo, aceitando
modificações de variáveis de processo e ainda assim, para tal, demanda conhecimento
do processo, como se passaria na operação de uma planta real com a vantagem de que
decisões equivocadas não destroem toda uma instalação industrial.
Dada a complexidade de projeto de uma planta inteira de um processo de
destilação de petróleo e seus derivados, a aprendizagem completa que viabilizasse isso e
ainda dispor de todos os cálculos de projeto de uma planta inteira não seriam os objetos
deste trabalho, por isso utilizou-se um simulador cedido ao Departamento de
Automação e Sistemas da Universidade Federal de Santa Catarina.
Figura 3-1 Indiss interface homem-máquina
A Figura 3-1 mostra a interface homem-máquina para a manipulação do
processo industrial, como disponibilizada na versão de demonstração do Indiss: uma
coluna de separação de frações leves de petróleo, que poderia ser, por exemplo: uma
29
coluna depropanizadora, ou ainda uma debutanizadora, conforme a eleição da
composição de entrada da coluna de destilação.
3.4.2 Comunicação entre o INDISS e o MATLAB
A utilização do simulador Indiss neste trabalho só foi possível após se verificar a
possibilidade da implementação de uma interface com outros softwares para
programação externa ao Indiss, ampliando as possibilidades de uso do simulador
comercial. A interface deveria permitir a interferência ao longo da simulação do
processo sem interrompê-lo, como ocorre na prática, para modificar o processo de
forma inteligente, i.e., para: checar valores, modificar parâmetros de processo do Indiss,
armazenar os valores de interesse capturados durante a simulação, etc. A linguagem
escolhida para esta comunicação foi o Matlab, pela facilidade de programação, pela
disponibilidade de toolboxes e, especialmente, pela quantidade de funções matriciais e
na área de controle de processos; e ainda pela quantidade de programas já existentes em
Matlab [Müller et al. 2003].
Apesar das vantagens do simulador Indiss e sua fidelidade na representação de
modelos reais, ele tem como inconveniente principal a característica de ter um código
fechado, não tornando possível a criação de novos componentes diferentes daqueles que
vem junto com o pacote do simulador. Isto impossibilita, por exemplo, o uso de
controladores avançados que não vem junto com a biblioteca do Indiss. Dentro deste
contexto, foi concebida uma interface entre o simulador Indiss e o software Matlab, que
tornou possível tanto a aquisição de dados do Indiss pelo Matlab quanto à definição de
variáveis do Indiss através do Matlab
O simulador Indiss ao estar desenvolvido para Microsoft Windows tem uma
série de facilidades para sua comunicação com outras aplicações por meio da sua
interface OLE/COM (Object Linking and Embedding / Component Object Model)
[Microsoft MSDN, 2002] e com componentes desenvolvidos de acordo com o padrão
CAPE-OPEN. Também permite o uso de componentes incluídos em DLLs (Dinamic-
Link Library) desenvolvidos externamente, incluindo um SDK (Software Development
Kit) para o desenvolvimento deles.
30
O acesso ao simulador através da sua interface OLE é direto desde aplicações
que podem acessar a um servidor de automatização OLE, como Excel ou Visual Basic
(Figura 3-2).
Figura 3-2 Comunicações entre INDISS e outras aplicações
O procedimento para o acesso consiste na criação de um objeto do tipo da
aplicação Indiss e uma vez criado pode-se acessar às funções definidas na interface
OLE:
Public IndissOLE As Object;
Public Const ApplicationName As String = “Builder.Application”;
Set IndissOLE = CreateObject(ApplicationName);
IndissOLE.RunSimulation()
As funções mais importantes para o acesso a Indiss através do seu servidor OLE
são apresentadas na Tabela 1.
Tabela 1 Funções de acesso ao servidor OLE do Indiss
Função Ação
RunSimulator Inicia a simulação que está carregada no INDISS
StopSimulator Pára a simulação
EvaluateExpression Lê um dado da simulação
SetVariableValue Escreve um dado na simulação
GetSimulationTime Captura o tempo da simulação
INDISS SERVIDOR OLE
EXCEL
VB Script Visual BASIC
MATLAB
ActiveX
31
Existem outras séries de funções que permitem alterar a velocidade da
simulação, obter a lista de variáveis disponíveis, carregar uma simulação, etc como
pode ser visto na Tabela 1.
Foi realizado o acesso ao simulador, através do seu servidor de automatização
OLE, desde Matlab (MathWorks, 2002). Em princípio não é possível levar a cabo de
um modo direto a comunicação com Indiss, para isto desenvolveu-se um controle
ActiveX em Visual Basic, o qual encapsula todo o acesso às funções de Indiss, de forma
que atua como ponte entre ambos.
Uma vez criado e registrado o controle ActiveX, para acessar desde Matlab as
funções que contem, existe uma série de funções de acesso geral a controles ActiveX.
Para obter informação adicional, existe a possibilidade de se utilizar a ajuda do Matlab
("help winfun\activex"). A Tabela 2 mostra um exemplo de como são as chamadas às
funções desde um programa Matlab.
Tabela 2 Chamadas às funções desde Matlab
Ação Sentença em MATLAB
Criação do ActiveX INDISS = actxserver('CONTROL.INDISS');
Início da simulação invoke(INDISS, 'RunSimulation')
Captura do tempo timeprev =
invoke(INDISS,'GetSimulationTime');
Leitura de um dado da
simulação
Yk=invoke(INDISS,'EvaluateExpression',strP
V);
Modificação de um dado na
simulação
invoke(INDISS,'SetVariableValue',strMV, U);
Espera invoke(INDISS,'delay',T*1000);
Parada da simulação invoke(INDISS,'StopSimulation')
A primeira ação a ser feita é a criação do controle ActiveX; quando este já
estiver criado, podem-se chamar as funções nele contidas. A partir das chamadas às
funções, podem-se gerar programas em Matlab para capturas de dados, controle, etc.
32
3.4.3 O Simulador de Processos INDISS
Com o objetivo inicial de gerar um conjunto de dados para treinamento da rede
neural em estudo, era essencial a avaliação do Indiss como modelo do processo. Checar
a sua capacidade de representação consistiu em: verificar as correntes materiais, quanto
ao balanço de massa e energia no processo; avaliar a comunicação entre instrumentos e
operação dos controladores; e ainda checar os valores gerados sob a luz de um possível
processo real.
Simulações foram feitas para avaliar: as condições de operação previamente
estabelecidas; possibilidade de modificação de algumas variáveis de projeto;
comportamento e limites de operação das variáveis de processo, como: vazão, pressão
de entrada e saída global da planta, temperaturas de entrada do processo, composição
das alimentações e ainda a alternância entre elas.
Figura 3-3 Exportação de grupos de dados do processo.
33
Foi avaliado o comportamento do processo para modificações de ponto de
operação e ainda perturbações nas variáveis de entrada. Isto foi possível pela
possibilidade de exportação e armazenamento dos dados do processo.
O fluxograma de processo corresponde ao de uma coluna de destilação de
petróleo com 12 metros de altura e 30 pratos (Figura 3-3). O projeto está feito para
separação de frações leves, e a alimentação variou entre misturas de diversas
composições de propano, n-butano, isobutano e alguns isômeros do pentano, hexano e
heptano.
Para a avaliação do uso de uma rede neural como simulador, foi definido como
objeto de estudo a modelagem do comportamento da composição de topo do composto
chave modificando a vazão de refluxo e a temperatura, vazão e composição de
alimentação, variáveis estas com forte acoplamento.
3.5 Conclusão
Os dados gerados a partir da modelagem fenomenológica rigorosa apresentam-se
fieis a um processo bem comportado e eventualmente registram-se ruídos numéricos.
A interface entre o Matlab e o Indiss funcionou como se esperava, mostrando
inclusive poder ser usada em outros trabalhos de pesquisa e desenvolvimento,
combinando as excelentes características de simulação de processos do Indiss e a
versatilidade de programação do Matlab.
O sistema de comunicação possibilitou a aquisição de dados do Indiss a fim de
fazer identificação de modelos através de ensaios em malha aberta.
34
4 IDENTIFICAÇÃO DO PROCESSO
4.1 Introdução
A metodologia de identificação de sistemas utilizando redes neurais, descrita no
Capítulo 2, consiste basicamente dos seguintes passos: (1) obtenção de grupo de dados
de treinamento; (2) determinação da melhor estrutura da rede; (3) validação.
A primeira etapa da metodologia de identificação consiste na obtenção de grupo
de dados de treinamento, aplicando um conjunto de perturbações ao processo que se
deseja modelar. O objetivo é gerar um conjunto de dados para treinamento, o que foi
obtido a partir da simulação rigorosa do processo, uma coluna de destilação de frações
leves de petróleo, descrito no Capítulo 3.
A segunda etapa da identificação de sistemas consiste na determinação da melhor
estrutura da rede, isto é relativa ao estudo do conjunto de variáveis de entrada que
melhor identifica o processo. Um critério simples para indicar o melhor conjunto seria
aquele que produzisse o menor erro de predição com o menor número de variáveis de
entrada.
As entradas da rede são os valores atuais das variáveis de entrada, u(k), e os
valores atrasados das saídas, y, ou seja, correspondem aos tempos discretos (k), (k-1),
(k-2)... e como saída a variável predita no tempo (k+1), ou seja: y(k+1). Os pesos da
camada de entrada recebem o valor 1. A rede é treinada para predizer o comportamento
da saída um passo à frente e, utilizando a predição de um passo, realimenta-se a rede
para predizer um número arbitrário de passos à frente.
A terceira etapa da metodologia de identificação de sistemas consiste na
validação do modelo. O procedimento mais comum para validar modelos é utilizar um
novo grupo de dados (Grupo de Dados Teste) relacionando as entradas às saídas.
35
O desempenho da rede deve ser avaliado com relação a um grupo de dados
diferente do utilizado no treinamento (validação cruzada). A previsão calculada pela
rede corresponde ao passo seguinte apenas (previsão a um passo).
Alternativamente, pode-se validar o modelo através de simulação, ou seja,
utiliza-se o primeiro ponto de grupo dados de validação (condição inicial) como entrada
à rede. Para os demais, utilizam-se apenas os dados das variáveis de perturbação como
informação externa e faz-se a realimentação das saídas da rede (previsão recorrente).
A seguir são apresentados os resultados das três etapas supracitadas.
4.2 Resultados de simulação
As redes neurais requerem grande quantidade de dados de processo para
treinamento. Analogamente ao que ocorre com modelos lineares, é importante que os
dados usados carreguem informação suficientemente relevante para permitir a
reprodução do processo pelo modelo.
Para a confecção do banco de dados é necessário que as variáveis independentes
sejam persistentemente perturbadas. Utilizando a interface entre Indiss e o Matlab, a
coluna de destilação simulada no Indiss teve uma ou mais variáveis perturbadas de
forma aleatória; o conjunto de interesse de variáveis foi registrado e estes dados
utilizados para identificação do processo usando a rede neural.
4.2.1 Da unidade de processo estudada
A unidade de processo, em realce na Figura 4-1, foi escolhida como objeto de
estudo. Nesta não há qualquer ação dos controladores do sistema, essenciais para que o
restante do sistema se mantenha em funcionamento. Para perturbações na entrada da
coluna e na razão de refluxo, foram avaliadas as composições de saída do topo.
As variáveis perturbadas avaliadas correspondem a:
1) vazão de alimentação da coluna (F);
36
2) concentração de N-1 componentes da alimentação (Xi);
3) temperatura da alimentação (TF);
4) vazão de refluxo da coluna (R).
:+
+
0.00 kg/sFV2A17
FEED2
1.90e+006 Pa362 K0.00 kg/s
4.63 kg/sFV2A16
Sheet
Profile
XC118
TC114
TC117
TT117
45.09
+TemperatureMax102
FloatBox
+TemperatureMin49
FloatBox
+PressureMax17
FloatBox
+PressureMin15
FloatBox
+
+
+ DistillatePressure9
FloatBox
DistillateTemperature27.0396
FloatBox+
+ ResiduePressure9
FloatBox
ResidueTemperature76.0536
FloatBox+
+ BLHotoutputPressure1
FloatBox
BLHotoutputTemperature118.58
FloatBox+
+
5.79 kg/sXV1002
6.96 kg/sPRCV90
2T63A
27.98 kg/sFV047
BLColdoutput
5.00e+005 Pa308 K27.98 kg/s
6.96 kg/sPV1003
BLCold
7.00e+005 Pa292 K27.98 kg/s
TI114
49.54
TI584
49.14
0.00 kg/sPV2M18
FG
1.00e+006 Pa310 K0.00 kg/s
FT2M19
0.00
BLHot
5.00e+005 Pa424 K15.91 kg/s
E101
15.91 kg/sFV120
BLHotoutput
2.00e+005 Pa392 K15.91 kg/s
TI112
101.43
TI111
102.03
2M18
Pressure : 1.68e+006 Pa
Level : 50.00 %Temperature : 322.24 K
6.96 kg/sXV1001
2P236.96 kg/s
Distillate
1.00e+006 Pa300 K1.18 kg/s
1.18 kg/sLV2M18
2A13
1.69e+006 Pa
322.686
4.63 kg/sFV2A15
FEED1
1.90e+006 Pa362 K4.63 kg/s
2A13B
50.00 %375 K
1.7e+006 Pa
3.45 kg/sLV81A
Residue
1.00e+006 Pa349 K3.45 kg/s
FT81A
298.30
0.04 s
FC2A15
FT2A1 5
400.00
FC120
FT120
1375.00
TC120
TT120
101.42
LC81A
LT81A
50.00
FRC121
FRT121
500.00
FI122
2417.63
PC2M18
PT2M18
15.80
FC2M1 8
FT2M18
101.70
LIC2M18
LIT2M18
50.00
PT101
15.91
TI113
118.58
T I115
49.09
Split
Range
TI116
88.91
XT116
0.58 XT1180.97
0.30 kg/sFV048
FRC122
2T63B
Mixer1
BLHotPressure4
FloatBox
+
BLHotTemperature150.85
FloatBox
+
FEEDPressure18
FloatBox
+
FEEDTemperature89
FloatBox
+
BLColdPressure6
FloatBox
+
BLColdTemperature18.9
FloatBox
+
BLColdoutputPressure4
FloatBox
BLColdoutputTemperature34.8597
FloatBox+
Figura 4-1 Diagrama do Processo: Variáveis Escolhidas
4.2.2 Das perturbações
As perturbações nas variáveis de entrada da rede foram pulsos aleatórios de
largura entre 10 e 120 intervalos de amostragem e amplitude máxima em torno do
estado estacionário variando de forma crescente a cada 500 pontos de amostragem até
os valores máximos possíveis ou admitidos pelo processo (Figura 4-2 e Figura 4-3).
Os 50 pontos amostrados inicialmente têm a função de indicar que o sistema
parte do estado estacionário. A partir daí, ocorrem perturbações aleatórias de forma
crescente. A finalidade da obtenção deste perfil é assegurar, na etapa de treinamento,
que o grupo de dados utilizados (conjunto de entradas e saídas) têm a maior amplitude
37
possível, isto porque, na etapa de previsão, é importante que não haja extrapolação dos
dados usados no treinamento. Se, na previsão, for solicitado um valor de saída para
valores não informados na etapa de treinamento, a rede estará lançando mão de
extrapolação, o que não é adequado, e poderá fornecer resultados não previsíveis.
Figura 4-2 Perfil de Perturbação de Variável de Entrada da Rede.
Previsão
Treinamento
38
Figura 4-3 Perfil de Variável de Saída da Rede.
Os valores máximos possíveis ou admitidos pelo processo foram:
1) Vazão de alimentação da coluna (F): abertura da válvula de alimentação da
coluna de 0 a 100 %;
2) Para N componentes, concentração de N-1 componentes da alimentação (Xi):
0 a 100 (% mol);
3) Temperatura da alimentação (TF): Tb e To da mistura;
4) Vazão de refluxo da coluna (R): abertura da válvula de 0 a 100 %.
Para a obtenção do banco de dados, as variáveis foram perturbadas até o valor
máximo permitido pelo simulador. As vazões de alimentação e de refluxo sofreram
modificações de 10% até o máximo possível, isto é, 0 a 100% de abertura das válvulas.
Os valores normalizados das concentrações, em % molar, requer a leitura (ou, na
prática, medição) de N-1 componentes. A concentração dos componentes na
alimentação sofreu perturbações analogamente, desde variações pequenas até a de maior
amplitude, 0 a 100 (% mol). Alternando-se a vazão dos tanques de alimentação com as
Treinamento
Previsão
39
diferentes frações leves de petróleo as concentrações na entrada da coluna eram
modificadas.
Já a temperatura de alimentação variou entre a temperatura de bolha (Tb) e a
temperatura de orvalho (To), de acordo com a mistura de hidrocarbonetos da
alimentação da coluna. Com este objetivo, as simulações com variação na temperatura
da alimentação da coluna passaram por um processo prévio de cálculo destas
temperaturas.
4.2.3 Do Tempo de Processo
A comunicação entre o Matlab e o Indiss ocorre em períodos de amostragem de
aproximadamente 2 segundos de tempo de máquina. Dado que não existe sincronização
entre o tempo de máquina e o tempo de processo no Indiss, o tempo de processamento
varia entre execuções do programa. Porém, como pode ser observado na Figura 4-4, a
relação entre tempo de processo e número de amostras é aproximadamente constante.
Figura 4-4. Amostras x Tempo de Processo
40
O período de amostragem em tempo de processo foi de aproximadamente 60
segundos. Este valor está de acordo com o que é possível realizar numa planta real e
durante sua operação para treinamento de redes neurais [Barbosa 2002].
4.2.4 Dos Bancos de Dados
Muitas simulações foram realizadas a fim de se obter bancos de dados para
serem utilizados na etapa seguinte. As condições de cada simulação eram modificadas
da seguinte forma: as variáveis perturbadas foram aumentando em número para cada
banco de dados novos até o número necessário para avaliação do desempenho da rede.
As seguintes variáveis independentes foram perturbadas isoladamente e de
forma combinada para formarem 15 bancos de dados:
1) vazão de alimentação da coluna (F);
2) concentração de N-1 componentes da alimentação (Xi);
3) temperatura da alimentação (TF);
4) vazão de refluxo da coluna (R).
Para simplificar a exposição, os bancos de dados serão agrupados por número de
variáveis perturbadas durante o processo (Tabela 3):
Grupo I, perturbação de apenas uma variável;
Grupo II, duas variáveis concomitantemente;
Grupo III, três variáveis;
Grupo IV, quatro variáveis; e
Grupo V, cinco variáveis.
Esses grupos de dados foram utilizados para treinamento e previsão de redes
neurais e os resultados serão adiante designados segundo este mesmo critério.
41
Tabela 3 Agrupamento dos bancos de dados por número de variáveis perturbadas.
Número de Variáveis
Perturbadas Banco de Dados Variáveis
I-F F
I-T TF
I-C C1F 1
I-R R
II-FT F, TF
II-FC F, C1F
II-FR F, R
II-TC TF, C1F
II-TR TF, R
2
II-CR C1F, R
III-FTR F, TF , R
III-FCR F, C1F, R 3
III-TCR F, C1F, R
4 IV F, TF, C1F, R
5 V F, TF , R, C1F, C2F
4.3 Resultados no Treinamento e na Previsão
Verifica-se que, no trabalho com redes neurais, a topologia da rede é relevante
para todo o desenvolvimento seguinte, portanto a escolha inicial determinará a
qualidade de predição final.
A etapa inicial consiste em se avaliar quais variáveis são relevantes para
informar a rede sobre o comportamento da(s) saída(s). As entradas e saídas da rede
precisam ser escolhidas. Experiência prévia sobre o sistema é fundamental nesta etapa.
Estabelecidas as entradas e saídas da rede, a escolha da estrutura da rede de
wavelets, como foi visto no capítulo sobre a rede neural utilizada, depende somente da
42
escolha dos parâmetros livres, quais sejam, o número de níveis de resolução da rede e o
parâmetro de regularização (µ).
Por fim, o grupo de dados a ser selecionado deve fornecer informação necessária
e suficiente para representar o processo. Quanto maior o número de funções
(determinado pelo número de entradas e saídas da rede e ainda pelo número de níveis),
mais parâmetros terão de ser calculados, conseqüentemente, maior número de pontos
deverão ser informados à rede.
A seguir serão desenvolvidos os critérios adotados para as eleições feitas, assim
como o método de ava liação dos resultados. Como a qualidade do treinamento, em
última análise, tem como objetivo final a obtenção do melhor desempenho da rede no
momento da previsão, a avaliação do treinamento e de previsão serão realizados
paralelamente.
4.3.1 Avaliação do Número de Entradas e de Saídas da Rede
Como foi visto, o número funções da rede aumenta exponencialmente com o
número de entradas da rede. A capacidade de cálculo do processador usado deverá ser a
primeira avaliação a ser feita.
O tempo necessário para o treinamento e para previsão poderão ser ainda fatores
limitantes para a aplicação de um grande número de entradas na rede. No treinamento,
pode-se tomar um tempo tão longo para o cálculo que inviabilize a rede. Neste caso, há
ainda a opção de se fazer o treinamento num processador mais rápido. Na previsão, a
limitação diz respeito ao lapso de tempo solicitado para responder ao processo.
Os tempos necessários para treinamento e previsão foram registrados a seguir
para um processador Pentium 3–500Mhz e 256 Mb de memória RAM. O registro
temporal tem finalidade ilustrativa, já que numa aplicação industrial, utilizar-se- ia uma
linguagem compilada (e não interpretada, como é o caso do Matlab) e, ainda, para fins
de comparação, já que outros processadores podem ser utilizados.
43
4.3.1.1 Tempo x Número de Entradas na Rede
A rede tem como entradas: os valores atuais das variáveis independentes, ui(k), e
os valores atuais das saídas, yi(k). Tomando-se apenas uma saída, para um número de
entradas de variáveis independentes crescente, observa-se que o menor número possível
de entradas é 2.
Quando adotado apenas um nível de resolução e 1000 pontos de amostragem, os
tempos estão representados na Tabela 4.
Tabela 4 Tempo de Máquina (s) x Número de Entradas na Rede.
No Entradas na Rede Treinamento Previsão a um passo Previsão Recorrente
2 0,4 0,09 4,7
3 0,56 0,35 6,8
4 2,5 1,7 9,8
5 11,7 6,8 16,1
6 63,7 24,7 31,7
7 - * - -
* Não foi calculado por falta de memória.
O aumento de tempo necessário para o cálculo nas etapas de treinamento,
previsão a um passo e previsão recorrente são melhor representados visualizados no
gráfico da Figura 4-5.
44
Figura 4-5 Tempo de máquina (s) x Número de entradas na rede.
Observa-se que o tempo de cálculo para o treinamento cresce de mais
rapidamente que nas modalidades de previsão. Isto ocorre porque os cálculos
envolvidos no treinamento dispendem mais tempo do que os necessários para previsão.
No caso da previsão recorrente, observam-se tempos maiores do que os da previsão a
um passo devido à necessidade de realizar laços de cálculo em uma linguagem
interpretada.
4.3.1.2 Tempo de máquina x Número de Níveis de Resolução da Rede
O número de funções também depende do número de níveis de resolução
adotados. A influência do número de níveis sobre o desempenho da rede será visto
adiante. Aqui, apenas a avaliação do tempo demandado para o cálculo no treinamento,
para os níveis de resolução 1, 2 e 3 são feitos, para 1000 pontos de amostragem (Tabela
45
5). As entradas da rede são: as variáveis de entrada independentes, em número
crescente; e a realimentação da única variável de saída.
Tabela 5 Tempo de Treinamento (s) x Número de Entradas da Rede em Vários Níveis de Resolução
Número de Níveis Número de Entradas
1 2 3
2 0,521 0,641 1,071
3 0,851 2,223 6,36
4 2,554 9,413 120,55
5 11,306 80,4 -*
6 249,16 -* -*
* Não foi calculado por falta de memória
Novamente, o tempo de cálculo não foi demasiadamente largo para inviabilizar o
uso desta rede, mas a capacidade de memória do computador foi o fator limitante.
4.3.1.3 Tempo de máquina x Número de amostras utilizadas
O tempo de máquina no treinamento, fundamentalmente, independe da
qualidade do conjunto de pontos utilizado, já que a rede neural utilizada pode ser
treinada por mínimos quadrados e, portanto, os pesos podem ser estimados em um único
passo de cálculo.
Num mesmo gráfico (Figura 4-6) foram comparados os tempos de máquina
demandados para o treinamento, previsão a um passo e previsão recorrente para apenas
um nível de resolução, duas entradas e uma saída na rede. O número de pontos va riou
entre os valores de 300 até 5500.
46
Figura 4-6 Tempo de máquina (s) x número de pontos.
Observa-se um crescimento linear no tempo necessário para os três cálculos,
crescendo a uma taxa muito maior para o treinamento. Para o caso adotado aqui (duas
entradas, uma saída e um nível de resolução), até 5500 pontos foi possível realizar todos
os cálculos necessários para o treinamento e subseqüentes previsões, nada se podendo
afirmar até aqui sobre o número mínimo suficiente de pontos para treinar uma rede com
desempenho aceitável.
4.3.1.4 Tempo x Número de Saídas da Rede
Analogamente, mas agora adotando apenas uma variável independente de
entrada e aumentos progressivos do número de saídas, a rede ainda terá aumentos no
47
seu número de entradas, porque as saídas deverão ser informadas como entradas na
rede. Verifica-se que a estrutura da rede será distinta da descrita nas seções anteriores.
Adotando-se 1000 pontos de amostragem, os tempos registrados para etapa mais
crítica, ou seja, o treinamento são mostrados na Tabela 6, calculando-se para os três
níveis de resolução.
Tabela 6 Tempo de Máquina no Treinamento x Número de Saídas da Rede (1000 pontos)
Treinamento No Saídas na Rede
(Número de Entradas) Nível 1 Nível 2 Nível 3
1 (2) 0,452 0,516 0,652
2 (3) 0,781 1,151 1,962
3 (4) 1,952 5,658 17,614
4 (5) 12,563 36,803 363,03
5 (6) 65,698 360,79 - (*2)
6 (7) 371,4 - (*2) - (*2)
7 (8) 5,9x103 (*1) - (*2) - (*2)
(*1) Swap da memória (*2) Não foi calculado por falta de memória.
O número de parâmetros aumenta exponencialmente com o número de entradas,
como já foi visto, mas há incrementos lineares para o cálculo dos parâmetros de cada
nova saída. Observam-se tempos de processamento semelhantes aos apresentados no
item 4.3.1.2, mostrando que o aumento do número de saídas é menos importante que o
aumento do número de entradas quando se avalia tempo de processamento.
Considerando que se pode ter uma rede neural para cada saída que se deseja
prever, e considerando ainda que o número de entradas da rede aumenta
exponencialmente a complexidade e tempo de cálculo, daqui por diante, neste trabalho,
estudar-se-á apenas redes com uma saída apenas.
48
4.3.2 Escolha dos Parâmetros Livres: µ e Níveis de Resolução
Alguns parâmetros livres precisam ser informados mesmo antes do treinamento;
são eles: o número de níveis e o parâmetro de regularização µ. Contando com um grupo
de dados representativos do processo para treinamento e outro para avaliação do
desempenho da rede na previsão, podem ser escolhidos os melhores valores possíveis
para o parâmetro de regularização µ e para o número de níveis de resolução da rede.
A avaliação de desempenho da rede será feita pelo coeficiente de correlação (R2)
tanto no treinamento quanto na previsão recorrente. A qualidade de predição final pode
ser observada a partir da comparação gráfica entre os pontos reais do processo e aqueles
calculados pela rede, na previsão a um passo e na previsão recorrente.
O parâmetro de regularização (µ) tem o efeito de penalizar a não suavidade dos
modelos de predição. A concepção do parâmetro de regularização está exposta na teoria
apresentada sobre a rede no Capítulo 2. No entanto, o grau de suavidade imposto ainda
é dependente do número de funções e conseqüentemente do número de níveis de
resolução.
O que será apresentado a seguir é uma avaliação concomitante de µ e número de
níveis de resolução em termos de desempenho da rede, medido por R2.
4.3.2.1 Escolha do Parâmetro de Regularização (µ)
A escolha de µ a partir do melhor R2 apenas no treinamento não é suficiente para
determinar o melhor o parâmetro de regularização para os melhores resultados na
previsão, como veremos a seguir.
Uma indicação inicial de µ pode ser encontrado a partir de uma série de
treinamentos variando-se µ.
49
Figura 4-7 Curva: µ x R2 no Treinamento
No treinamento, a curva entre µ e R2 (Figura 4-7) indicou que valores de µ
abaixo de 1x10-5 seriam adequados para a rede proposta. A avaliação final da rede, no
entanto, dá-se no momento em que realiza a predição, então uma avaliação nesta
segunda etapa foi feita. Para os valores bem avaliados de µ foram feitas previsões para
um grupo de dados-teste. O resultado está representado na Figura 4-8.
50
Figura 4-8 µ x R2 no Treinamento, Previsão a um passo e Previsão Recorrente
O que se observa é que, no treinamento e na previsão a um passo, ainda que o R2
esteja dentro de valores excepcionais, não se garante ainda que a previsão recorrente
terá bons valores calculados.
Para fornecer uma comparação justa, em se tratando de desempenho de
modelagem, há que se comparar o coeficiente de correlação (R2) no momento da
previsão, e não no treinamento, já que é lá que a rede estará realmente funcionando
como preditor. A conclusão é que o valor de R2 no treinamento não garante bom
desempenho como simulador, fazendo-se necessário um processo iterativo de avaliação
da previsão recorrente para vários valores de µ.
Comparando-se os resultados antes e depois da otimização do parâmetro de
regularização (µ), Figura 4-9 e Figura 4-10.
51
Figura 4-9 Previsão recorrente usando µ de 1x10-6
Figura 4-10 Previsão recorrente usando µ de 1x10-4
52
Observa-se que a previsão recorrente para o caso escolhido (uma rede com duas
entradas e uma saída) foi, no primeiro cálculo, insatisfatória usando µ de 1x10-6
(R2=35); enquanto que µ com o valor de de 1x10-4 leva R2 para um valor muito
superior, 99,891.
Concluindo: a avaliação do melhor µ é fundamental para se obter o desempenho
ótimo da rede, pois a previsão recorrente apresenta grande sensibilidade a este
parâmetro. Sendo uma boa previsão recorrente o fim último e mais importante potencial
apresentado por esta rede neural, a partir deste resultado, o µ será sempre calculado a
partir da avaliação da previsão recorrente e não mais do treinamento.
4.3.2.2 Escolha do Número de Níveis
A partir do que foi visto na seção anterior, a avaliação do número de níveis foi
também feita com a concomitante otimização do µ. Observou-se no treinamento (Figura
4-11) um comportamento semelhante para as três redes.
Figura 4-11 µ x R2 no treinamento
53
A seguir, na Figura 4-12, para o primeiro nível de resolução, mostra-se o R2 para
o treinamento, previsão a um passo e previsão recorrente. Observa-se que o melhor
valor para µ é 1x10-3.
Figura 4-12 µ x R2 para o primeiro nível de resolução
O segundo nível de resolução (Figura 4-13) modificou ligeiramente o perfil das
curvas de R2 no treinamento, previsão a um passo e previsão recorrente. No mesmo
gráfico repete-se a curva de µ x R2 para o primeiro nível de resolução, a título de
comparação. Observando-se que o para µ ótimo é 1x10-2.
54
Figura 4-13 µ x R2 para o segundo nível de resolução
Figura 4-14 µ x R2 para o terceiro nível de resolução
55
Por fim, o terceiro nível de resolução (Figura 4-14) modificou ainda mais o
perfil das curvas de R2 no treinamento, previsão a um passo e previsão recorrente.
Observa-se pouca diferença no R2 para µ igual a 1x10-2 e µ igual a 1x10-1.
No mesmo gráfico repete-se a curva de µ x R2 para o primeiro nível de
resolução, a título de comparação.
Sendo a previsão recorrente a que traz informação mais relevante para a rede e a
mais sensível ao parâmetro µ, reuniram-se estas curvas em um só gráfico (Figura 4-15).
Figura 4-15 Comparativo de coeficientes de correlação na previsão recorrente.
Os maiores valores para cada uma das curvas são: 99,2957 para Nível 1; 99,5185
para Nível 2; e 99,5205 para Nível 3.
Os valores do processo estão muito próximos daqueles calculados pelas três
redes descritas acima. A comparação das previsões recorrentes, para treinamentos feitos
nos três níveis de resolução e µ ótimo em cada caso, é apresentada na Figura 4-16. Em
detalhe, observa-se a melhora gradativa para dois e três níveis de resolução.
56
Figura 4-16 (a) Previsões recorrentes para escolha do µ e número de níveis; (b) Detalhe.
(a)
(b)
57
O µ é dependente do número de níveis de resolução da rede. Este resultado pode
ser explicado pelo fato de o aumento do número de níveis significar um aumento do
número de funções da rede e, com isto, haver diminuição do domínio das funções e,
conseqüentemente, necessitarem ser mais suavizadas.
Os níveis 2 ou 3 podem ser vantajosos pela pequena melhora de R2, frente ao
primeiro nível de resolução, apesar de demandarem mais tempo no treinamento e na
previsão recorrente.
4.3.3 Escolha do Grupo de Dados do Treinamento
Nos itens anteriores, pode-se observar que a seleção do conjunto de dados para
treinamento da rede depende de vários fatores, entre eles: análise do processo a ser
modelado, verificação da capacidade de cálculo do computador a ser utilizado, escolha
do parâmetro de regularização (µ), e do número de níveis. O melhor grupo de dados não
foi escolhido inicialmente, pois era necessário desenvolver experiência no trato com
todas as ferramentas disponíveis.
Os grupos de dados, com os quais foram feitas as avaliações iniciais do
desempenho da rede, apenas deram um indicativo de como a rede poderia se comportar.
A escolha do grupo de dados é de vital importância pois uma vez treinada a rede
esta será utilizada para predição e apenas eventualmente a sua acurácia estará sendo
verificada.
A seguir, serão analisados os efeitos no desempenho da rede usando diferentes
grupos de dados, número de amostras e amplitude das perturbações.
4.3.3.1 Avaliação do Grupo de Treinamento: Número de Amostras
Na etapa de treinamento, um certo número de amostras deve ser suficiente para
informar à rede do comportamento do processo. A avaliação deste número foi feita
utilizando-se uma rede com duas entradas, uma saída e apenas um nível de resolução.
58
Foram feitos vários treinamentos, com número crescente de amostras, partindo-se de
300 amostras. A capacidade de aprendizado, medida pelo R2 da rede, está representada
pela Figura 4-17.
Figura 4-17 R2 em função do número de amostras usadas no treinamento
Para esta rede e este grupo de amostras, a rede melhora a capacidade de
aprendizado com o aumento dos pontos, até 3600 amostras; após este limite, o
incremento no número de pontos informados é indiferente. Nota-se que, este aumento
excessivo tampouco é prejudicial para o seu treinamento.
Observa-se ainda que a seleção do conjunto de dados é crítica quando poucas
amostras são disponíveis para o treinamento, já que a curva apresenta R2 menor
utilizando 1800 amostras, do que para 1500.
O valor máximo do erro tolerado deverá, no entanto, ser especificado pelo R2
durante a etapa de previsão recorrente. É o que ilustra a Figura 4-18.
59
Figura 4-18 R2 em Função do Número de Amostras
Os valores de R2 na previsão recorrente são diferentes dos correspondentes ao
mesmo número de amostras no treinamento, desta forma verifica-se que a qualidade
final da rede é dada pelo R2 da previsão recorrente.
4.3.3.2 Avaliação do Número de Passos na Previsão Recorrente
Para avaliar o número máximo de passos possíveis na previsão recorrente, três
grupos de dados foram utilizados. Avaliou-se o coeficiente de correlação à medida que
o número de passos solicitados na previsão recorrente aumentava.
A rede utilizada foi treinada com três entradas, uma saída e 3000 amostras;
apresentou para R2 99,946 (Tabela 7). O grupo de amostras utilizado na previsão a um
passo e previsão recorrente tem 6500 amostras. Avaliando-se R2 para números
60
crescentes de passos solicitados, chegou-se ao resultado apresentado de forma gráfica na
Figura 4-19.
Figura 4-19 Caso I -Número de passos na predição x R2 Com menos de 200 passos, pequenos desvios têm grande influência no cálculo
de R2, daí a oscilação inicial. A Figura 4-20 mostra o desvio cometido e pode-se
observar que não são maiores do que o que será apresentado para 4000 passos.
61
Figura 4-20 Caso I - Erro de predição para 200 passos
Observou-se pouca mudança no valor do coeficiente de correlação a partir de
200 passos. Mas aparentemente, à medida que o número de passos cresce, poder-se-ia
concluir pela piora da qualidade de predições acima de 2000 passos. No entanto, a
queda para os valores de R2 é explicada pelo perfil das perturbações deste grupo de
dados: perturbações de amplitude crescente.
Os primeiros pontos do gráfico foram solicitados para as menores amplitudes,
onde a rede está mais bem treinada. Nas maiores amplitudes, há deficiência de pontos e
por isso, à medida que o número de passos cresce, há uma queda aparente da qualidade
de predição. Esta diferença pode ser observada na Figura 4-21 (a) e, em detalhe, Figura
4-21(b), o erro cometido pela rede.
62
Figura 4-21 (a) Caso I - Previsão da rede para 4000 passos; (b) Detalhe
(b)
(a)
63
Para a mesma rede e mesmo grupo de amostras, foram feitas várias previsões
recorrentes com número crescente de passos, iniciando com 500 passos entre a amostra
6000 e a 6500, e progressivamente aumentando o número de passos previstos em 500
passos por vez diminuindo o instante inicial da simulação (5500, 5000, ...). Este novo
gráfico oferece a interpretação inversa (Figura 4-22), ou seja, a rede aparentemente
melhora a sua qualidade de predição à medida que o número de passos previstos
aumenta.
Figura 4-22 Caso I - Número de passos na predição x R2, nova avaliação
Em qualquer dos dois casos, para previsão a um passo R2 foi de 99,942 e a
previsão para 4000 passos apresentou R2 de 99,064 (Figura 4-21).
O resultado obtido oferece a seguinte conclusão: a rede ao ser avaliada deve
estar igualmente treinada para todo o universo de amostras. Esta qualidade é difícil de
ser garantida. Ou pode ainda ser testada para bancos de dados com perturbações
aleatórias de mesma amplitude em toda a sua extensão. Mais dois casos foram
avaliados, mas agora se utilizam grupos de amostras com amplitude aleatória em toda a
extensão.
64
A mesma rede foi utilizada para checar o número de passos passíveis de
predição. O grupo de previsão tem 8000 amostras. O resultado é mostrado na Figura
4-23.
Figura 4-23 Caso II - Número de passos na predição x R2
Observou-se pouca mudança no valor do coeficiente de correlação a partir de
300 passos. A previsão a um passo e previsão recorrente para 8000 passos, Figura 4-24,
ilustra os pequenos erros cometidos pela rede para grande número de passos.
65
Figura 4-24 Caso II - Previsão da rede para 8000 passos
Em todas as regiões, a rede faz boa previsão a um passo (R2 de 99,921) e
previsão recorrente muito razoável (R2 de 99,034).
Para fazer a mesma avaliação com um terceiro grupo de amostras, foi utilizada
uma outra rede neural, treinada com duas entradas, uma saída e 4000 amostras;
apresentou para R2 99,697. O grupo de amostras utilizada na previsão a um passo e
previsão recorrente tem 8000 amostras. Avaliando-se R2 para números crescentes de
passos solicitados, chegou-se ao resultado apresentado de forma gráfica na Figura 4-25.
66
Figura 4-25 Caso III - Número de passos na predição x R2
Observou-se pouca mudança no valor do coeficiente de correlação a partir de
1000 passos. As oscilações, maiores que nos casos anteriores, observadas na Figura
4-25 são resultantes do perfil da variável de saída. Os valores estão muito próximos do
limite superior da concentração; nestas regiões a previsão não é boa.
A previsão a um passo e previsão recorrente para 8000 passos está ilustrada na
Figura 4-26, onde ilustra-se que valores de saída da rede muito próximas do limite de
100% não são bem previstas pela rede.
67
Figura 4-26 (a) Caso III - Previsão da rede para 8000 passos; (b) Detalhe
(b)
(a)
68
A rede tem um número de passos em aberto de previsão recorrente, pois o
aumento do número de passos manteve praticamente constante o R2. Se bem treinada, os
valores de saída da rede na previsão recorrente terão pequenos erros ainda que um
grande número de passos de predição seja solicitado; se mal treinada, um grande
número de passos pode ser solicitado ainda que os valores previstos sejam piores
(menores valores para R2).
4.3.3.3 Avaliação do grupo de treinamento: amplitude das perturbações
A rede ao ser treinada necessita ainda de uma certa quantidade de amostras bem
distribuídas em toda a excursão das variáveis de interesse, tanto das entradas quanto das
saídas do processo.
A verificação da qualidade do grupo de amostras do treinamento foi feita
utilizando-se dois bancos de dados com um conjunto completo de variações nas
variáveis de entrada: o menor com 3000 pontos (BD3000) e o maior com 6500 pontos
(BD6500). O parâmetro de regularização escolhido foi o mesmo para os dois conjuntos
de dados, igual a 1x10-4.
Foi feito um treinamento com BD3000, e várias previsões com o BD6500.
Depois o contrário, isto é, vários treinamentos com o BD6500 e previsão usando o
BD3000. O objetivo é comparar os coeficientes de correlação, R2, nos dois casos e
verificar que a qualidade do conjunto de dados utilizado no treinamento é responsável
pela melhor performance na previsão recorrente.
Os resultados são mostrados na Tabela 7.
69
Tabela 7 Avaliação do Grupo de Amostras para Treinamento
Treinamento Previsão Recorrente
Caso BD (pontos usados) R BD (pontos usados) R
I BDG (50-6500) 99,638
II BDG (50-3000) 99,734
III BDG (2050-5000) 99,371
IV
BDp (50-3000) 99,946
BDG (3550-6500) 99,535
V BDG (50-6500) 99,953 99,629
VI BDG (50-3000) 99,981 74,607
VII BDG (2050-5000) 99,976 89,627
VIII BDG (3550-6500) 99,964
BDp (50-3050)
99,689
No treinamento não se observa uma diferença significativa nos valores de R2,
mas a capacidade de previsão é significativamente pior quando os dados utilizados no
treinamento não correspondem qualitativamente ao que se deseja prever.
Confirma-se novamente o que já foi concluído nas seções anteriores, de que o
desempenho da rede, em última instância, está refletido, não no valor de R2 calculado no
treinamento, senão no R2 obtido a partir de um conjunto amostrado para previsão
recorrente, que é o que nos interessa.
Para visualizar os resultados de previsão das redes, serão apresentadas as
variáveis de entrada e de saída dos dois bancos de dados utilizados e as previsões
recorrentes em dois dos casos calculados da Tabela 7. Os perfis das duas variáveis de
entrada nas redes I, II, III, IV são apresentados na Figura 4-27; os perfis das duas
variáveis de entrada nas redes V, VI, VII e VIII podem ser vistos na Figura 4-28.
70
Figura 4-27 Variáveis de Entrada da Rede do BD3000
71
Figura 4-28 Variáveis de entrada da rede do BD6500
72
Na Figura 4-29 pode ser observado que a rede mal treinada não consegue prever
o comportamento do processo para valores da variável de saída em regiões onde esta
não foi treinada. Confirma-se assim que a rede não consegue extrapolar, porém,
consegue prever adequadamente nas regiões onde foi bem treinada.
Figura 4-29 Comparação Dados Reais x Predição Rede – Caso VI.
A seguir apresenta-se o Caso I, Figura 4-30 (a), onde pode ser observado que a
rede foi treinada de forma adequada para prever todas as regiões do grupo de dados
BD6500. Em detalhe, na Figura 4-30 (b), a qualidade de previsão pode ser verificada
pelo pequeno erro cometido.
73
Figura 4-30 (a) Comparação Dados Reais x Predição Rede – Caso I; (b) Detalhe
(a)
(b)
74
O conjunto de pontos utilizado no treinamento deve ser tal que contenha
perturbações: suficiente em número para cálculo dos parâmetros da rede; e em todas as
amplitudes possíveis, sejam das variáveis de entrada, como nas de saída, para que a rede
não tenha que prever pontos fora da faixa dos pontos treinados. Quando, no
treinamento, o banco de dados selecionado tem estas características, a qua lidade de
previsão é a melhor possível para qualquer ponto inicial da previsão.
4.3.4 Comparação dos resultados no treinamento e previsão
Os bancos de dados resultantes das várias simulações do processo, descritos na
seção 4.3.1, foram todos utilizados para treinamento e previsão de diferentes redes.
Para efeito comparativo, todas as redes têm como característica comum:
1) Apenas o primeiro nível de resolução;
2) Uma variável de saída: a concentração do componente chave no topo da
coluna;
3) O treinamento utilizou 1000 amostras, dentre as que apresentavam as maiores
amplitudes de perturbação das variáveis de entrada e saída;
4) As previsões, a um passo e recorrente, foram avaliadas contra 1000 amostras,
de um grupo distinto daquele utilizado no treinamento;
5) A previsão recorrente previu 1000 passos adiante, sendo informadas apenas o
valor inicial da variável de saída e, a cada passo, os valores das variáveis de
entrada.
As redes diferenciam-se:
1) Nas variáveis que sofrem perturbação no processo:
a. vazão de alimentação da coluna (F);
b. concentração de N-1 componentes da alimentação (Xi);
c. temperatura da alimentação (TF);
d. vazão de refluxo da coluna (R);
75
2) No número de entradas da rede;
3) No parâmetro de regularização (µ) que foi otimizado para cada rede.
Os resultados em termos de R2 são apresentados na Tabela 8.
Tabela 8 R2 x Número de entradas
Banco
de
Dados
Variáveis
de
Entrada
Parâmetro de
Regularização
(µ)
R2 (%)
Treinamento
R2(%)
Previsão a um
passo
R2(%)
Previsão
Recorrente
I-F F >= 1E-9 99,97 99,99 93.40
I-T TF 1E-11 99,94 99,95 99,80
I-C C1F 1E-5 99,93 99,94 99,07
I-R R 1E-5 99,93 99,95 99,67
II-FT F, TF 1E-11 99,93 99,93 99,82
II-FC F, C1F 1E-5 99,98 99,95 53,60
II-FR F, R 1E-5 99,72 98,02 58,80
II-TC TF , C1F 1E-7 99,99 99,96* 85,12*
II-TR TF , R 1E-5 99,95 99,82* 93,50*
II-CR C1F, R 1E-5 99,91 99,87 79,24
III-FTR F, TF , R 1E-5 99,75 99,41* 72,20*
III-FCR F, C1F, R 1E-2 96,0 92,1 44,6
III-TCR TF , C1F, R 1E-5 99,93 99,85 63,6
IV F, TF,
C1F, R 1E-1 90,50 84,0 50,8
V F, TF, R,
C1F, C2F 1E-5 99,8 99,08* 56,4*
* Dados de validação fora da faixa de normalização utilizada no treinamento
Preliminarmente há que se observar que para se poder comparar a qualidade do
treinamento e desempenho da rede, isto é, valores de R2 na previsão recorrente, é
necessário que as redes tenham o mesmo número de entradas e, portanto, o mesmo
76
número de funções. Isto vale para a comparação dos resultados nas Tabelas 8, 9, 10, 11
e 12.
Acerca do parâmetro de regularização (µ), todos os treinamentos melhoraram a
partir da otimização deste parâmetro na previsão recorrente.
De uma forma geral, nos resultados observa-se que o R2 para os treinamentos
são bons para todos os grupos de amostras, o que reflete os bons valores de R2 na
previsão a um passo. Já o R2 da previsão recorrente apresenta valores em sua maioria
razoáveis. São estes inferiores, mas isto já era esperado por serem resultados de
recorrência da rede.
À medida que se aumenta o número de variáveis de entrada da rede, em média,
os valores de R2 diminuem. Este resultado pode se explicado porque o aumento no
número de variáveis de entrada na rede tem como contrapartida um aumento do número
de funções. Ao aumentar o número de funções dever-se- ia ter também um aumento no
número de amostras para o cálculo dos parâmetros. Há ainda mais um fator que
contribui para piorar os resultados de R2: é que, à medida que se aumentou o número de
variáveis de entrada, por vezes não foi possível escolher grupos de amostras para
treinamento que tivessem amplitude maior do que os solicitados para previsão; por certo
que isto inviabilizou a previsão adequada da rede. Para sanar este problema, há que se
obter bancos de dados maiores onde se assegure que a excursão das variáveis no
treinamento seja maior do que na previsão.
4.3.4.1 Temperatura do topo da coluna (Tt): variável de entrada na rede
Além das variáveis perturbadas no processo, a temperatura do topo da coluna
(Tt) foi também utilizada como variável de entrada da rede. A intenção é avaliar a
contribuição desta variável, de fácil medição, na previsão de concentração dos
componentes da coluna de destilação face à correlação existente entre elas.
A partir dos bancos de dados originalmente testados acima, foram feitas, para
cada um deles mais duas redes:
77
1. Uma nova rede adicionando mais uma entrada: a temperatura de topo da
coluna;
2. Uma rede com uma única entrada independente: a temperatura de topo da
coluna.
A fim de facilitar análise dos resultados, estes foram sistematizados nas Tabelas
9, 10, 11 e 12. Os resultados da Tabela 8 seguem nas tabelas seguintes para efeito de
comparação.
Tabela 9 Redes do Grupo I
Banco
de
Dados
Variáveis
de
Entradas
Parâmetro de
Regularização
(µ)
R2 (%)
Treinamento
R2(%)
Previsão a um
passo
R2(%)
Previsão
Recorrente
F >= 1E-9 99,97 99,99 93.40
F, Tt 1E-6 99,98 99,99 99,98 I-F
Tt 1E-3 99,80 99,83 99,30
TF 1E-11 99,94 99,95 99,80
TF, Tt 1E-4 99,98 99,98 99,95 I-T
Tt 1E-6, 1E-7 99,98 99,98 99,96
C1F 1E-5 99,93 99,94 99,07
C1F, Tt 1E-6 99,99 99,98 99,08 I-C
Tt 1E-5 99,99 99,99 99,10
R 1E-5 99,93 99,95 99,67
R, Tt 1E-4 99,94 99,93 99,14 I-R
Tt 1E-6 99,95 99,50 99,32
As redes que têm o mesmo número de variáveis de entrada podem ter seus
desempenhos comparados. A utilização de Tt isoladamente não apresenta sempre ser
vantajosa. Porém, se considerarmos que, numa coluna de destilação qualquer das
variáveis, F, TF, Ci ou R, podem variar, então para uma rede com apenas uma entrada e
possíveis variações de todas as demais variáveis, Tt pode ser considerada isoladamente a
melhor opção.
78
As redes que utilizam a temperatura do topo (Tt) isoladamente, como variável de
entrada, não oferecem melhores resultados do que as redes que usam outra variável de
entrada (F, TF, Ci ou R) conjuntamente com Tt. Isto porque, como foi anteriormente
observado, as redes com duas entradas deveriam ter maior número de pontos para o
cálculo dos parâmetros da rede. Pode-se dizer, no entanto, que a falta de disponibilidade
de amostras para treinamento indica que redes com o menor número de entradas
possível.
Os resultados do Banco de Dados I estão no Apêndice. Tabela 10 Redes do Grupo II
Banco
de
Dados
Variáveis de
Entradas
Parâmetro de
Regularização
(µ)
R2 (%) Treinamento
R2(%) Previsão a um
passo
R2(%) Previsão
Recorrente
F, TF 1E-11 99,93 99,93 99,82
F, TF, Tt 1E-11 99,98 99,98 98,20 II-FT
Tt 1E-6, 1E-7 99,94 99,93 99,82
F, C1F 1E-5 99,98 99,95 53,60
F, C1F, Tt 1E-5 99,99 99,84 98,70 II-FC
Tt 1E-4 99,96 99,91 99,50
F, R 1E-5 99,72 98,02 58,80
F, R, Tt 1E-4 99,70 98,02 95,04 II-FR
Tt 1E-3 99,34 98,88 97,40
TF , C1F 1E-7 99,99 99,96 85,12
TF , C1F , Tt 1E-9 99,99 99,96 99,47 II-TC
Tt 1E-8 99,97 99,97 99,96
TF, R 1E-5 99,95 99,82 93,50
TF, R, Tt 1E-4 99,96 99,73 99,60 II-TR
Tt 1E-4 99,86 99,80 99,22
C1F, R 1E-5 99,91 99,87 79,24
C1F, R, Tt 1E-4 99,93 99,92 99,50 II-CR
Tt 1E-7 99,87 99,92 99,60
79
As avaliações feitas sobre os resultados apresentados na Tabela 9 se repetem
nestes apresentados na Tabela 10 e seguintes.
Tabela 11 Redes do Grupo III
Banco
de
Dados
Variáveis de
Entradas
Parâmetro de
Regularização
(µ)
R2 (%)
Treinamento
R2(%)
Previsão a
um passo
R2(%)
Previsão
Recorrente
F, TF, R 1E-5 99,75 99,41 72,20
F, TF, R, Tt 1E-4 99,52 98,58 95,54 III-FTR
Tt 1E-3 99,50 97,50 95,53
F, C1F, R 1E-2 96,0 92,1 44,6
F, C1F, R, Tt 1E-6 99,86 99,63 99,50 III-FCR
Tt 1E-3 99,68 99,60 98,70
TF, C1F, R 1E-5 99,93 99,85 63,6
TF, C1F, R, Tt 1E-5 99,93 99,85 99,50 III-TCR
Tt 1E-4 99,85 99,90 99,70
Tabela 12 Redes do Grupo IV e V
Banco
de
Dados
Variáveis de
Entradas
Parâmetro de
Regularização
(µ)
R2 (%) Treinamento
R2(%) Previsão a um
passo
R2(%) Previsão
Recorrente
F, TF, C1F, R 1E-1 90,50 84,0 50,8
F, TF, C1F, R, Tt 1E-5 99,89 99,10 97,50 IV
Tt 1E-4 99,75 99,60 98,72
F, TF, R, C1F, C2F 1E-5 99,8 99,08 56,4 V
Tt 1E-3 99,8 99,7 99,6
Para os treinamentos com múltiplas entradas, quando incorporado como variável
de entrada a temperatura do topo da coluna de destilação (Tt), há melhora do R2 na
previsão recorrente.
80
Além disso, há um aumento nos valores de µ à medida que o número de
variáveis de entrada da cresce. E nas redes que têm como entrada Tt, os valores de µ
são, em geral, maiores também.
4.4 Conclusão do capítulo
As redes treinadas e utilizadas da forma como foi proposta em Claumann, 2003
não divergem do comportamento do processo ainda que um grande número de passos de
predição seja calculado. A sua utilização requer: a determinação de um parâmetro de
regularização; a escolha do número de níveis de resolução a serem adotados; e a seleção
do um grupo de dados de treinamento e outro grupo distinto para validação.
No estudo realizado foi observado que, com o aumento do número de variáveis
de entrada da rede, o tempo de treinamento aumentou rapidamente, porém, sendo da
ordem de minutos, foi ainda muito pequeno para representar alguma restrição no
momento da utilização prática da rede. Mais crítico foi o aumento do uso de memória
central, que para um número não muito grande de variáveis extrapolou a disponibilidade
de memória do computador utilizado (256 Mb).
Foi observado também que o número de amostras necessário ao treinamento está
relacionado com a capacidade de generalização da rede. A escolha do número de
amostras para treinamento depende: da qualidade da amostragem, da complexidade do
processo e ainda da estrutura da rede.
Quanto maior a complexidade da estrutura da rede (número de entradas e
saídas), maior o número de funções da rede e, assim, maior o número de parâmetros a
determinar. Logo, o aumento de número de amostras utilizadas para treinamento não
segue uma relação direta com o aumento da capacidade de predição, refletida pelo
coeficiente de correlação. A partir de um certo número de pontos, para uma mesma
rede, a melhora não é significativa. Já o tempo para treinamento cresce
proporcionalmente ao número de amostras.
Acerca do parâmetro de regularização (µ), todos os treinamentos melhoraram a
partir da otimização deste parâmetro na previsão recorrente. A previsão recorrente é
muito sensível ao valor do parâmetro de regularização. Por esta razão o desempenho da
81
rede para escolha de µ deve ser avaliado na etapa de previsão recorrente, não no
treinamento.
O aumento do número de níveis de resolução da rede melhora o desempenho,
mas demanda mais tempo para treinamento e para previsão, além de implicar em um
número máximo de entradas e saídas da rede pela limitação da capacidade de cálculo do
processador utilizado. Um balanço sobre os custos e benefícios na escolha do número de
níveis deverá ser feito durante a escolha da estrutura final da rede. Além disso, a
modificação do número de níveis implica em nova otimização do parâmetro de
regularização.
O número de amostras suficientes para treinamento depende de cada sistema,
mas poderá ser estimado aumentando-se o número de amostras até que a melhora de R2
não seja significativa. Em qualquer caso, observa-se que não ocorre sobre-treinamento.
Além disso, há que se observar que os erros cometidos pela rede no treinamento são
inferiores aos da previsão recorrente; por isso o desempenho final da rede deve ser
observado nesta etapa.
Comparando-se os resultados obtidos com todas as redes avaliadas, de uma
forma geral, observa-se que os R2 dos treinamentos são bons para todos os grupos de
amostras, o que reflete os bons valores de R2 na previsão a um passo. O R2 da previsão
recorrente apresenta valores, ainda que razoáveis, menores. Isto é resultado da
recorrência da rede.
À medida que se aumenta o número de variáveis de entrada da rede, os valores
de R2 diminuem. Considerando que o aumento no número de variáveis de entrada na
rede tem como contrapartida um aumento do número de funções, e como em todos os
treinamentos o número de amostras no treinamento é o mesmo para todos os casos, este
resultado também poderia ser previsto.
O aumento do número de variáveis por vezes dificulta muito a seleção de grupos
de amostras para treinamento e previsão. Para a rede poder prever adequadamente, os
dados informados no treinamento devem abarcar os previstos. Muito mais cuidado deve
ser tomado na obtenção do grupo de amostras quando a rede contiver muitas entradas e
saídas.
A temperatura do topo (Tt) isoladamente, como variável de entrada
independente, não oferece melhores resultados, porque só podemos comparar os valores
de R2 na previsão recorrente de duas redes quando elas têm o mesmo número de
entradas, para que tenham o mesmo número de funções e poder comparar a qualidade
82
do treinamento e desempenho da rede para o mesmo número de amostras. Observado
isto, podemos concluir que, isoladamente, Tt foi a que melhor representou a variável de
saída nas condições em que foram feitas as avaliações.
O aumento no número de níveis não apresenta melhoras significativas de
capacidade de generalização, porém, se no caso a tratar, um pequeno aumento de
desempenho for significativo, o aumento no tempo de processamento e no número de
pontos necessário para treinamento cresce muito rapidamente.
83
5 CONCLUSÕES FINAIS
A presente dissertação de mestrado apresenta a modelagem empírica para
colunas de destilação utilizando uma rede neural baseada em wavelets com estrutura e
métodos de treinamento inovadores. Ainda que aplicada ao processo de destilação de
frações leves de petróleo, a mesma metodologia pode ser utilizada para outros
processos, não se restringindo a este processo ou mesmo a um processo de destilação.
Os processos a serem modelados empiricamente utilizando esta metodologia devem
seguir apenas às restrições impostas no desenvolvimento da rede neural.
As estratégias de controle baseadas em modelo requerem inicialmente o
desenvolvimento de modelos, em muitos casos de sistemas não lineares. Esta etapa pode
tornar-se bastante demorada e consistir num dos maiores obstáculos à aplicação de
NMPC (Non-linear Model Predictive Control). Com a utilização de rede neural a
obtenção do modelo constitui-se apenas da aquisição de um conjunto suficientemente
grande de dados para treinamento da rede.
Os resultados mostram que a rede utilizada reproduz com alto desempenho,
representado pelo coeficiente de correlação (R2), o comportamento dinâmico do
processo e poderá ser utilizada como preditor para fins de otimização e controle, ainda
que o processo seja um sistema não-linear, multivariável e acoplado. Além disso a rede
é de simples utilização e previu para apenas uma saída, ainda que para várias entradas, o
processo com boa acurácia.
A rede tem sua estrutura determinada pela teoria de wavelets, diferente das redes
backpropagation cuja estrutura é determinada por tentativa e erro ou através de
heurísticas. O método de ajuste de parâmetros baseado em mínimos quadrados garante
solução ótima e única para o problema de identificação quando precauções na escolha
dos dados para treinamento são tomadas para evitar problemas numéricos.
A metodologia aqui desenvolvida pode ser aplicada a diversos processos. Em
processos de refino de petróleo, além da metodologia em si, os resultados aqui obtidos
84
orientam ainda: a seleção das variáveis de entrada e saída da rede; número de amostras
necessárias ao treinamento da rede; freqüência de coleta dos dados; perfil da
amostragem; forma para estimar o melhor parâmetro de regularização (µ); o número de
níveis de resolução da rede; e, finalmente, a forma de avaliação da capacidade de
predição da rede obtida após o treinamento.
A avaliação prévia da rede deve ser em um simulador, pela segurança e
economia que oferece, desde a aquisição de dados até a implementação do controlador.
Neste trabalho, os dados utilizados foram produzidos em um simulador que utiliza
modelagem rigorosa.
A rede neural é treinada com muita rapidez para poucas variáveis; o tempo
necessário para treinamento cresce muito rapidamente com o aumento do número de
entradas, dado o número de parâmetros a ajustar. No presente trabalho, pelo número de
entradas utilizadas, o tempo não representou empecilho, pois foi da ordem de minutos.
Mais crítico foi o aumento do uso de memória central, que para um número não muito
grande de variáveis (sete entradas) extrapolou a disponibilidade de memória do
computador utilizado (256 Mb).
O desempenho da rede deve ser avaliado paralelamente, isto é, conjuntamente
nas etapas de treinamento e previsão. Isto porque a previsão recorrente apresenta um
comportamento distinto daquele apresentado no treinamento: redes com altos
coeficientes de correlação no treinamento podem não apresentar comportamento
adequado na previsão recorrente. Acerca do parâmetro de regularização (µ), todos as
previsões melhoraram a partir da otimização deste parâmetro na etapa de previsão
recorrente, ainda que no treinamento não houvesse diferença significativa.
Quando são comparados os coeficientes de correlação (R2) de treinamento,
previsão a um passo e previsão recorrente, observa-se que o R2 para os treinamentos são
bons para todos os grupos de amostras, o que reflete os bons valores de R2 na previsão a
um passo. Já o R2 da previsão recorrente apresenta va lores em sua maioria razoáveis,
ainda que sempre inferiores, mas isto já era esperado por serem resultados de
recorrência da rede.
O grupo de amostras para treinamento deve ter amplitude maior do que os
valores que se espera prever, evitando que a rede tenha que estimar valores fora da faixa
em que foi treinada. Além disso, o número de amostras deve ser bem distribuído, de
forma a garantir boas previsões em todas as regiões previstas.
85
O número máximo de passos a serem previstos não foi atingido, indicando que a
rede para um número de passos em aberto, se bem treinada, terá boa previsão ou, se mal
treinada, uma previsão de pior qualidade.
Muito se tem a fazer em termos de avaliação e desenvolvimento de modelos
empíricos, antes que estes ganhem espaço dentro dos processos industriais. A adoção
de estratégias avançadas de controle, ainda que vantajosas, é lenta e requer muitas
avaliações prévias e planejamento para sua implementação, daí a relevância do estudo
destes modelos empíricos em processos simulados.
A aplicação da rede num processo real requer a obtenção de grande quantidade
de dados de processo, coleta feita enquanto a planta já estará produzindo. A avaliação
deste conjunto de dados necessitará muito critério de seleção e prévio tratamento dos
dados.
Há que se observar ainda que durante processos reais, a coleta de dados
apresenta ruídos inerentes aos sensores. A presença destes ruídos deve provocar um
aumento no número de dados necessários ao treinamento, além de aumentar o erro na
predição.
Uma característica que distingue o campo de controle de processo, quando
comparado com o controle da maioria dos sistemas mecânicos e elétricos, é a ocorrência
comum de tempo de atraso. A proposta de utilização desta rede e a metodologia aqui
desenvolvida tem como foco viabilizar estratégias avançadas de controle baseadas em
modelo, pela compensação do tempo de atraso e controle inferencial.
Os resultados apresentados mostram que a rede neural utilizada pode ser
considerada um excelente modelo empírico de colunas de destilação. A facilidade de
treinamento, capacidade de predição em malha aberta fazem possível que esta seja
utilizada tanto como simulador para treinamento como modelo para implementação de
controladores não lineares multivariáveis.
Como sugestões para trabalhos futuros, podem ser considerados feitos estudos
sobre o processo real com ruído inerente e validação da metodologia proposta neste
trabalho. Outro estudo interessante é a comparação desta rede com outras redes para
determinar condições de simulação de processo: tempo de treinamento, esforço de
cálculo, qualidade de reprodução do comportamento dinâmico, etc. E outro trabalho
interessante é a inclusão de restrições à rede, como por exemplo: limites para
concentrações em percentagens molares entre 0 e 100 %; soma das frações molares
igual à unidade; etc.
86
87
6 APÊNDICE
88
6.1 Treinamentos e Predições do Banco de Dados I-F
BD I-F: Variáveis de Entrada das redes (usadas para treinamento e previsão)
89
BD I-F: Variável de saída das redes (usadas para treinamento e previsão)
90
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-F F >= 1E-9 99,97 99,99 93.40
91
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-F Tt 1E-3 99,80 99,83 99,30
92
BD Entrada Rede
µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-F F, Tt 1E-6 99,98 99,99 99,98
93
6.2 Treinamentos e Predições do Banco de Dados I-T BD I-T: Variáveis de Entrada das redes (usadas para treinamento e previsão)
94
BD I-T: Variável de saída das redes (usadas para treinamento e previsão)
95
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-T TF 1E-11 99,94 99,95 99,80
96
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-T Tt 1E-6, 1E-7 99,98 99,98 99,96
97
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-T TF, Tt 1E-4 99,98 99,98 99,95
98
6.3 Treinamentos e Predições do Banco de Dados I-C BD I-C: Variáveis de Entrada das redes (usadas para treinamento e previsão)
99
BD I-C: Variável de saída das redes (usadas para treinamento e previsão)
100
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-C C1F 1E-5 99,93 99,94 99,07
101
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-C Tt 1E-5 99,99 99,99 99,10
102
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-C C1F, Tt 1E-6 99,99 99,98 99,08
103
6.4 Treinamentos e Predições do Banco de Dados I-R BD I-R: Variáveis de Entrada das redes (usadas para treinamento e previsão)
104
BD I-R: Variável de saída das redes (usadas para treinamento e previsão)
105
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-R R 1E-5 99,93 99,95 99,67
106
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-R Tt 1E-6 99,95 99,50 99,32
107
BD Entrada Rede µ R2 (%) Treinamento
R2(%) Previsão a um passo
R2(%) Previsão Recorrente
I-R R, Tt 1E-4 99,94 99,93 99,14
108
7 REFERÊNCIAS BIBLIOGRÁFICAS
ANSARI, Rashid M.; TADE, Moses O.. Non-linear model-based process control:
Application in petroleum refining. Springer-Verlag, 2000.
ARAHAL, M.R.; BERENGUEL, M.; CAMACHO, E.F.. Neural identification
applied to predictive control of a solar plant. Control Engineering Practice 6, p.
333-344, 1998.
BAKSHI, B. R.; STEFANOPOULOS. G.. Wave-Net: a Multiresolution, Hierarchical
Neural Network with Localizad Learning. AIChE J., v. 39, 1, p. 57-81, 1993.
BARBOSA, C.H. et al. Inference of Distillation Column Products Quality Using
Bayesian Networks. Neural networks, IJCNN, ’02. Proceedings of the
International Join Conference on. p. 86-91, 2002.
BEQUETTE, B. W.. Nonlinear Control of Chemical Process. Ind. Eng. Chem. Res.,
v. 30, p. 1391-1413, 1991.
BHARTIYA, S.; WHITELEY, J.R.. Development of inferential measurements using
neural networks. ISA Transactions, v. 40, p. 307-323, 2001.
BRAUNSCHWEIG B., PAEN D., ROUX P., VACHER P., INTITUT FRANÇAIS DU
PÉTROLE, RSI. The use of CAPE-OPEN interfaces for interoperability of Unit
Operations and Thermodynamic Packages in Process Modelling. ERTC
Computing, Paris, France. 2002.
CAMACHO, E. and BORDONS, C.. Model Predictive Control. Springer Verlag,
1999.
CAPE-OPEN, www.colan.org, 2002.
109
CLAUMANN, C. A.. Modelagem e controle de processos não lineares: Uma
aplicação de algoritmos genéticos no treinamento de redes neurais recorrentes.
Dissertação de Mestrado, Programa de Pós-Graduação em Engenharia
Química/UFSC (1999).
CLAUMANN, C.A. Desenvolvimento e aplicações de redes neurais wavelets e da
teoria de regularização na modelagem de processos. Tese de Doutorado,
Programa de Pós-Graduação em Engenharia Química/UFSC (2003).
DAUBECHIES, I.. Orthonormal bases of compactly supported wavelets. Comm.
On Pure and Appl. Math., vol. XLI, p. 909, 1988.
DAUBECHIES, I.. Ten Lectures on Wavelets. SIAM, 1992.
DE PRADA, C., ACEBES, F., ALVES, R., MERINO, A., PELAYO, S., GARCIA, A.,
RUEDA, A., GUTIERREZ, G. & GARCIA, M. Un Simulador de Alcance Total
para la Formación de los Operarios de Sala de Control de Factorias
Azucareras. II Taller Iberoamericano de Informática Industrial, Octubre 2002.
DUTTA, P.; RHINEHART, R.R.. Application of neural network control to
distillation and an experimental comparison with other advanced controllers.
ISA Transactions . v. 38, p. 251-278, 1999.
EcosimPro by EA Internacional. Dynamic Modeling & Simulation Tool.
www.ecosimpro.com, 2002.
FIEG, George. Composition control of distillation columns with a sidestream by
using gas chromatographs . Chemical Engineering and Processing. v. 41, p. 123-
133, 2002.
HAIKIN, S. Neural Networks: A Comprehensive Foundation. Ontario: IEEE
Computer, Society Press, 1999.
HUNT, K. J., SBARBARO, D., ZBIKOWSKI, R. e GAWTHROP, P. J. Neural
Networks for Control Systems - A survey. Automatica, v. 28, n° 6, p. 1083-1112,
1992.
110
HUSSAIN, M. A.. Review of the application of neural networks in chemical
process control – simulation and online implementation. Artificial Intelligence
in Engineering 13 (1999) 55-68.
KORRES, D.M. et al. A neural network approach to the prediction of diesel fuel
lubricity. Fuel. v. 81, p. 1243-1250, 2002.
KOSANOVICH, K. A. e PIOVOSO, M. J.. PCA of Wavelet Transformed Data Process
for Monitoring. Intelligent Data Analisys. v. 1, p. 85-99, 1997.
LENNOX, B. et al.. Industrial application of neural networks – an investigation. J.
Process Control. v. 11, p. 497-507, 2001.
LUYBEN, W.L.. Process Modeling, Simulation and Control for Chemical
Engineerings, 2nd ed, McGraw-Hill Publishing Co., New York, 1990.
MALLAT, S. A.. A Theory for Multiresolution Signal Decomposition: The
Wavelet Representation. IEEE Trans. Pat. Anal Mach. Intel., v. 11-7, p. 674-693,
1989.
Microsoft MSDN, msdn.microsoft.com, 2002.
MOURA, L. G.; CLAUMANN, C. A.; NORMEY-RICO, J. E.; ROQUEIRO, N..
Modelagem empírica de colunas de destilação utilizando redes neurais de
wavelets para otimização e controle de processos. 2o Congresso Brasileiro de
P&D em Petróleo & Gás. No prelo, 2003.
MÜLLER, J. F. , MOURA, L. G. , ALVES, R. e NORMEY-RICO, J. E.. Simulação
para a Análise e Projeto de Controladores em Processos da Indústria de
Petróleo. 2o Congresso Brasileiro de P&D em Petróleo & Gás. No prelo, 2003.
O'SULLIVAN, F.. A statistical perspective on ill-posed inverse problems. Statistical
Science. v. 1, p. 502-527, 1986.
PEARSON, R.K.. Selecting nonlinear model structures for computer control. J.
Process Control. v. 13, p. 1-26, 2003.
111
RAMCHANDRAN, S.; RHINEHART, R.R.. A very simple structure for neural
network control of distillation. J. Process Control. v.5, n.2, p. 115-128, 1995.
ROQUEIRO, Nestor. Redes de wavelets na modelagem de processos não lineares.
Tese de Doutorado, COPPE/UFRJ, 1995.
RSI, www.rsi- france.com, 2002.
RUMELHART, D. E. e McCLELLAND, J. L.. Parallel Distributed Processing:
Explorations in the Microstrucuture of Cognition. 1986.
SAFATI, A.A.; NOORAII, A.; ROMAGNOLI, J.A.. A hybrid model formulation for
a distillation column and the on-line optimisation study. J. Process Control, v.
9, p. 125-134, 1999.
SAFATI, A.A.; ROMAGNOLI, J.A.. Application of Wavelet-based Neural
Networks to the Modeling and Optimisation of na Experimental Distillation
Column. Engng Applic. Artif. Intll., v.10 (3), p. 301-313, 1997.
SAVKOTIC-STEVANOVIC, J. Neural net controller by inverse modeling for a
distillation plant. Computer Chem. Engng. v 20, p. S925-S930, 1996.
STEPHANOPOULOS, G.. Chemical Process Control. McGraw-Hill Book Co. New
York, 1984.
STRANG, G., NGUYEN, T. (1996). Wavelets e Filter Banks. 1996.
SU, Hong-Te; McAVOY, T.J.. Neural Model Predictive Control of Nonlinear
Chemical Processes. IEEE, Proceedings of the International Symposium on
Intelligent Control, p.358-363, 1993.
The MathWorks, www.mathworks.com, 2002.
TIKHOVOV, A. N. e ARSENIN, V. Y. Solutions of Ill-posed Problems. Wiston,
Washington DC, 1977.
WAHBA, G.. Spline Models for Observational Data. SIAM, Philadelphia, 1990.
112
WANG, X. et al.. Designing a soft sensor for a distillation column with the fuzzy
distributed radial basis function neural network. IEEE Proceedings of the
Conference on Decision and Control. p. 1714-1719, 1996.
WILLIS, M. J. et al.. Artificial neural networks in process engineering. IEEE
Proceedings-D. v.138, n.3, p. 256-266,1991.