Fitoterapia e a Ovinocaprinocultura uma associação promissora
2005 - Gorgens - Redes Neurais Uma Promissora Ferramenta Para o Gerenciamento Florestal
-
Upload
eric-gorgens -
Category
Documents
-
view
33 -
download
2
description
Transcript of 2005 - Gorgens - Redes Neurais Uma Promissora Ferramenta Para o Gerenciamento Florestal
ERIC BASTOS GORGENS
REDES NEURAIS: UMA PROMISSORA FERRAMENTA PARA O GERENCIAMENTO FLORESTAL
Monografia apresentada ao Departamento de Engenharia Florestal, da Universidade Federal de Viçosa, como parte das exigências do curso de Engenharia Florestal.
VIÇOSA MINAS GERAIS – BRASIL
JUNHO – 2005
ERIC BASTOS GORGENS
REDES NEURAIS: UMA PROMISSORA FERRAMENTA PARA O GERENCIAMENTO FLORESTAL
Monografia apresentada ao Departamento de Engenharia Florestal, da Universidade Federal de Viçosa, como parte das exigências do curso de Engenharia Florestal.
APROVADA: Junho de 2005.
Prof. José Marinaldo Gleriani
(Orientador)
Prof. Helio Garcia Leite
(Co-Orientador)
ii
Aos meus pais. À Polly.
Aos meus amigos. Aos meus Mestres.
À minha família.
iii
AGRADECIMENTOS
À Universidade Federal de Viçosa e ao Departamento de Engenharia
Florestal pelo curso de Engenharia Florestal.
Aos Mestres Helio Garcia Leite e José Marinaldo Gleriani, pela amizade,
confiança e experiência.
Aos professores do Departamento de Engenharia Florestal, pelos
ensinamentos despendidos ao longo destes quatro anos e meio, em especial
ao professor Carlos Pedro Boechat Soares.
Aos meus amados pais, Robert e Jacy, pelas eternas lições de caráter e
amor.
À minha irmã Diana, pela convivência e paciência.
À Pollyanna, pela valorosa companhia e apoio nos melhores e piores
momentos.
Aos meus familiares, em especial à minha avó Josefina, e minhas tias
Iracema e Jandira.
À minha querida avó Antonie Gorgens, in memoriam.
Aos meus amigos, pelos bons momentos que foram e que virão.
A todos que por displicência minha, tenha esquecido de citar.
iv
BIOGRAFIA
Eric Bastos Gorgens, filho de Robert Gorgens e Jacy Bastos Gorgens,
nasceu na cidade de Belo Horizonte, Estado de Minas Gerais, em 05 de Junho
de 1983.
Concluiu em 2000 o ensino médio no Colégio Loyola, na cidade de Belo
Horizonte, Minas Gerais.
Em 2001, ingressou no Curso de Engenharia Florestal, da Universidade
Federal de Viçosa, em Viçosa, Minas Gerais graduando-se em julho de 2005.
Durante a graduação desenvolveu pesquisas nas áreas de manejo,
mensuração e estatística florestal. Foi bolsista CNPq/PIBIC no programa
2004/2005. Estagiou em grandes empresas como Suzano Papel e Celulose, e
CENIBRA.
V
CONTEÚDO
EXTRATO ......................................................................................................................VI 1. INTRODUÇÃO ............................................................................................................1 2. OBJETIVOS .................................................................................................................4 3. O NEURÔNIO BIOLÓGICO.......................................................................................5 4. NOÇÕES BÁSICAS DE MATEMÁTICA ..................................................................8 5. O PRIMEIRO NEURÔNIO ARTIFICIAL.................................................................13 6. O PROCESSO DE APRENDIZAGEM......................................................................15 7. A EVOLUÇÃO DAS REDES NEURAIS ARTIFICIAIS .........................................21 8. REDES DE PERCEPTRONS DE MÚLTIPLAS CAMADAS ..................................27 9. REDES RBF ...............................................................................................................32 10. REDES AUTO-ORGANIZÁVEIS...........................................................................34 11. CONCLUSÕES ........................................................................................................38 12. REFERÊNCIAS BIBLIOGRÁFICAS......................................................................40
VI
EXTRATO
GORGENS, Eric Bastos. Universidade Federal de Viçosa, julho de 2005. Redes neurais: Uma promissora ferramenta para o gerenciamento florestal. Orientador José Marinaldo Gleriani. Co-orientador Helio Garcia Leite.
RESUMO � As redes neurais artificiais, um campo da inteligência artificial, se desenvolveram a partir dos estudos sobre o funcionamento das redes biológicas como o cérebro humano. A partir de 1943, a pesquisa na área se desenvolveu com incrível intensidade, e diversos tipos de redes estão disponíveis. O grande valor das redes neurais artificiais é forma com que resolve problemas complexos. As características mais importantes são a capacidade de aprendizado, que pode ser supervisionado e não supervisionado e a capacidade de generalização para dados desconhecidos. Em razão da capacidade de solucionar tais tipos de problemas, redes neurais é uma ferramenta em potencial para lidar com problemas clássicos da engenharia florestal. Discutem-se os fundamentos biológicos que compõe a inspiração para o desenvolvimento das redes neurais. Em seguida dedicou-se ao aprendizado um capítulo exclusivo, que aborda os paradigmas fundamentais de aprendizado. As principais redes foram tratadas em capítulos a parte. São elas Perceptrons de Múltiplas Camadas, redes Auto-organizáveis e redes de Funções de Base Radial. Além destas, uma demonstração da evolução dos estudos sobre RNA´s é apresentada de forma a demonstrar as inúmeras alternativas existentes e as tendências de estudos da área. Por fim, os interessados podem consultar as literaturas citadas ao final das discussões caso desejem maior profundidade. Palavra-chave: Redes neurais artificiais, RNA, Aprendizagem.
1
1. INTRODUÇÃO
Redes neurais artificiais são sistemas paralelos distribuídos compostos
por unidades de processamento simples que computam determinadas funções
matemáticas (Braga et al., 1998).
As redes neurais surgiram de observações e pesquisas sobre o
funcionamento de redes biológicas e seus elementos fundamentais, os
neurônios, presentes no cérebro humano.
O trabalho que �inaugurou� a área de redes neurais foi o artigo de
McCulloch e Pitts de 1943, denominado de �A logical calculus of the ideas
immanent in nervous activity�. Embora alguns autores digam que foi
ingenuamente simples mesmo para a época, o neurônio proposto por
McCulloch e Pitts neste artigo foi de grande importância para o
desenvolvimento do conhecimento sobre redes neurais.
RNA´s podem ser incluídas em diversas categorias de conhecimento, mas
conforme Kovács, limitá-la a um contexto seria um tremendo desperdício.
Pode-se dizer que RNA´s constituem uma teoria para o estudo de fenômenos
complexos.
Tais tipos de fenômenos são muito comuns no cotidiano. Daí o grande
interesse que as RNA´s despertam na comunidade científica. No entanto sua
aplicação concreta é desproporcional ao nível da atividade científica, salvo para
algumas áreas do conhecimento.
2
Mesmo sua abordagem acadêmica é tímida. Apenas algumas áreas como
Engenharia de Produção, Ciência da Computação, entre outras.
As características que mais chamam a atenção nas RNA´s são a
capacidade de aprender e de generalizar informações. Em outras palavras, as
RNA´s são capazes de através de um pequeno exemplo aprendido, generalizar
o conhecimento assimilado para um conjunto de dados não conhecidos. Outra
característica interessante das RNA´s, é a capacidade de extrair características
não explícitas, de um conjunto de informações que lhe são fornecidas como
exemplos.
As redes neurais apresentam propriedades extremamente desejáveis. A
não-linearidade é uma propriedade particular de seus nodos, levando portanto,
a uma expressão desta característica pela rede.
A rede executa um mapeamento de entrada-saída de maneira não
paramétrica, uma vez que não são feitas suposições prévias sobre o modelo
estatístico dos dados de entrada.
Um ponto interessante da rede neural, é que ela deve ser estável o
suficiente para não captar alterações momentâneas dos dados, mas deve ser
suficientemente plástica para se adaptar às mudanças ao longo do tempo. Este
é o famoso dilema da estabilidade-plasticidade.
Através do aprendizado, a rede neural é capaz captar as evidências e
atribuir respostas sensatas para os problemas abordados. Além de que cada
neurônio é potencialmente afetado pela atividade de todos os neurônios da
rede, anteriores ou não a ele.
Assim como as redes biológicas, caso uma parte da rede sofra um dano, o
prejuízo ocorre, mas é pontual aos nodos afetados. Em outras palavras, a rede
continua funcionando, embora apresente uma degradação de sua função. Tal
característica é conhecida como tolerância às falhas.
As ligações paralelas permitem que certas operações sejam realizadas
com maior rapidez. Esta propriedade é fundamental na abordagem de
problemas complexos.
Embora seja uma ferramenta com uso potencial em diversas áreas, a
linguagem utilizada é sempre a mesma. Este é um fato de extrema importância
3
para a difusão do conhecimento, pois a uniformidade de linguagem, permite
que exemplos diversos possam ser adaptados para problema de diferentes
naturezas científicas.
A última propriedade consiste no fato da rede apresentar forte analogia
biológica. E o tratamento de problemas de natureza biológica com uma
ferramenta fundamentada na biologia, gera um conforto muito grande, já que
assegura um tratamento �natural�.
Antes do início das discussões sobre redes neurais artificiais, é
fundamental esclarecer os principais símbolos utilizados durante os próximos
capítulos:
jiw = peso da sinapse i pertencente ao neurônio j;
η = taxa de aprendizado;
t = tempo t.
4
2. OBJETIVOS
Fornecer um material de simples entendimento para a abordagem de
redes neurais artificiais na área florestal, com conteúdo de qualidade.
Apresentar um histórico do desenvolvimento e os fundamentos das RNA´s
visando futuros estudos e aplicação na ciência florestal.
5
3. O NEURÔNIO BIOLÓGICO
Cientificamente, o cérebro humano é o processador de carbono mais
fascinante que existe, sendo constituído por cerca de 10 bilhões de neurônios
(Braga et al., 1998). Esta pequena unidade fundamental conhecida por
neurônio é responsável pelo funcionamento de todo o organismo. Estas
pequenas células, os neurônios, também chamados de nodos, é que formam a
base para o estudo das redes neurais artificiais.
Basicamente, as redes neurais artificiais imitam, ou tentam imitar, o
funcionamento das redes biológicas. No entanto, esta semelhança é apenas
ideológica, pois na realidade, as diferenças ainda são imensas.
Para fundamentar a discussão sobre nodos e redes neurais artificiais, é
necessário conhecer o neurônio biológico.
O neurônio biológico pode ser dividido em três partes denominadas de
dendritos, soma e axônio. Os dendritos são responsáveis pela recepção dos
estímulos nervosos. O soma é o corpo da célula, responsável pelos processos
metabólicos da célula. Também no corpo celular, soma, o impulso é
processado e novos são gerados com destino ao exterior da célula. Sendo
estes enviados através do axônio, que pode atingir vários metros de
comprimento (Kovàcs, 1996).
6
Figura 1 � Neurônio bilógico (Fonte: Brown & Benchmark Introductory
Phychology Electronic Image Banck).
Quando o neurônio está inativo, ou seja, em repouso, seu interior se
encontra mais eletronegativo que seu exterior. Este estado é denominado de
potencial de repouso.
Quando a membrana se encontra menos eletronegativa (diferença
interno/externo menor) que o potencial de repouso, diz-se que ela está
depolarizada, e hiperpolarizada quando a membrana se encontra mais
eletronegativa (diferença interno/externo maior).
Segundo Braga et al. (1998) o impulso nervoso é uma onda de
depolarização de uma certa duração ao longo da membrana. Ou seja, durante
o impulso, a diferença entre o interior e exterior da membrana torna-se menor,
que o potencial de repouso.
No entanto, nem toda depolarização resulta numa transmissão de
impulso. Este só ocorre quando o limiar de disparo é atingido, resultando em
um potencial de ação.
Esta onda de depolarização é extremamente rápida. Após a transmissão
de um impulso, o neurônio entra num período de refração absoluta, que
consiste na incapacidade temporária de transmissão de novo impulso. Após
este período, ocorre uma recuperação assintótica de seu valor normal de
7
eletronegatividade. Este período de recuperação assintótica é denominado de
período de refração relativa (Kovàcs, 1996).
Alguns neurônios apresentam uma camada de mielina ao longo do
axônio. Esta camada tem a função de acelerar a transmissão do impulso.
A comunicação entre neurônios é de natureza química. Já no interior do
neurônio a comunicação é de natureza elétrica, como vimos anteriormente.
Embora os impulsos fluem através dos neurônios, estes jamais se tocam.
A comunicação entre os neurônios é feita através neurotransmissores nas
sinapses. É através das sinapses que o impulso é transmitido dos axônios aos
dendritos do neurônio subseqüente.
Os impulsos químicos podem ser de natureza excitatória ou inibitória,
dependendo do tipo de neurotransmissor. Quando a conexão é excitatória, ela
trabalha provocando uma alteração no potencial da membrana que favorece a
formação de um impulso nervoso. Já a conexão inibitória age no sentido oposto
(Kovàcs, 1996).
Assim podemos resumir que o sinal de polarização, inibitório ou
excitatório, é uma função do tipo de neurotransmissor. Já a magnitude de
polarização é uma função da concentração de neurotransmissores, da
dimensão da sinapse e do comprimento do neurônio.
8
4. NOÇÕES BÁSICAS DE MATEMÁTICA
Para desenvolver um trabalho de redes neurais artificiais, alguns
conceitos de matemática são fundamentais. Os leitores poderão perceber que
tais conceitos são aprendidos em disciplinas básicas dos cursos de
engenharia, como cálculo e álgebra linear.
Funções. Segue abaixo duas funções básicas utilizadas em redes
neurais:
Função sinal, representada por sgn(x) é definida como:
( )
<≥
=0001
sgnxsexse
x
Figura 2 � Função sinal ou degrau unitário.
Função sigmoidal, representada por sigmoid(x) é definida como:
9
xexSigmoid −+=
11)(
Figura 3 � Função sigmoidal
Função Tangente Hiperbolica, representada por tanh(x/2) é definida
como:
x
x
eex−
−
+−
=
11
2tanh
Figura 4 � Função Tangente Hiperbólica.
Função Piecewise é uma aproximação linear da função sigmoidal. Sua
representação é vista abaixo:
10
≤≤≤−+
≥
5,005,05,05,0
5,01)(
xsexsex
xsexf
Figura 5 � Função Piecewise ou função linear por partes.
Vetores. Note que:
),...,,(),...,,(
21
21
m
n
yyyyxxxx
==
, são vetores.
Algumas operações podem ser realizadas utilizando os vetores x e y:
( )( ) ∑
∑
=+++=+++=+
=+++=
iimn
mn
in
yxyxyxyxyxyxyxyxyx
xxxxs
....,...,,
...
2211
2211
21
Matriz. Uma matriz de dimensões mxn é formada por m linhas e n
colunas. Quando m=n, a matriz é considerada como uma matriz quadrada.
Uma matriz mxn pode ser multiplicada por outra nxp, resultando numa
matriz mxp.
Matrizes de mesma dimensão podem ser somadas ou subtraídas,
componente por componente.
Um vetor pode ser representado por uma matriz 1xm ou mx1.
11
Gradiente e derivadas. No cálculo diferencial, um dos objetivos é
computar gradientes. Sendo y = f(x), o gradiente de f(x) num particular valor de
x pode ser descrito como (Bullinaria, [ca. 2000]):
xxfxxfLim
xyLim
xxf
xx ∆−∆+
=∆∆
=∂
∂→∆→∆
)()()(00
Algumas derivadas importantes:
axfbaxxf =+= )(')(
axxfaxxf 2)(')( 2 ==
xxh
xxgxfxhxgxf
∂∂
+∂
∂=+=
)()()(')()()(
1)(')( −== nn naxxfaxxf
axax aexfexf == )(')(
xxfxxf e1)('log)( ==
)cos()(')sin()( xxfxxf ==
A regra da cadeia, também que será útil durante as explicações sobre os
algoritmos, é conhecida da seguinte forma:
)(*)(')(*)(')('))(()( xgxhxhxgxfxhgxf +==
Para maior detalhamento nos conceitos de cálculo recomenda-se a
consulta de livros de Cálculo I.
12
Para finalizar os conceitos básicos de matemática, aproveitar-se-á a
abordagem sobre derivação e demonstrar-se-à o fundamento do método do
gradiente.
Se tivermos uma função f(x) e quisermos mudar o valor de x visando
minimizar a f(x), então devemos analisar:
Se 0>∂∂xf , então f(x) diminui com a diminuição de x.
Se 0<∂∂xf , então f(x) diminui se x aumenta.
Se 0=∂∂xf , então f(x) está num ponto de máximo ou mínimo.
Logo podemos diminuir f(x) alterando x de acordo com:
xfxx velhonovo ∂∂
−= η
Na expressão acima, verifica-se que a derivação mostra a direção para
onde se deve ir, visando a minimização da função.
Este procedimento é conhecido como Método do Gradiente
Descendente.
13
5. O PRIMEIRO NEURÔNIO ARTIFICIAL
A primeira tentativa de explicar matematicamente o funcionamento de
um neurônio foi feita pelo fisiologista Warren McCulloch e pelo estatístico
Walter Pitts em 1943.
O artigo sob o título �A Logical Calculus of the Ideas Immanent in
Nervous Activity� pode ser considerado como o marco zero das RNA´s.
Segundo Kovàcs (1996), o artigo teve relevante importância acadêmica,
embora simples.
Basicamente, o funcionamento do neurônio de McCulloch e Pitts,
também conhecido como MCP, pode ser descrito da seguinte maneira: haverá
uma saída Y, se o somatório da entrada ponderada pelos seus respectivos
pesos, for superior ao limiar do neurônio (Figura 1).
Figura 6 - Neurônio MCP (fonte: http://www.din.uem.br/ia/neurais/).
14
O neurônio MCP é um discriminador linear de entradas binárias. Assim
um vetor x de componentes { }pxxx ,...,, 21 estará uma região do espaço
euclidiano dividido por um hiperplano, representado pela equação
( )Θ−=
Θ−= ∑
=
xwfxwHy tn
ppp
1
quando [ ]1;0∈y . Onde os componentes do
vetor w são os pesos associados às entradas xp, Θ é o valor do limiar, f(x) é a
função degrau unitário (função sinal).
De forma mais clara, este discriminador linear dirá que 1=y se Ax∈ e
0=y se Bx∈ .
Logicamente o neurônio MCP só seria útil nos casos em que os
conjuntos a serem separados estivessem aglomerados no espaço nℜ de tal
forma que fossem separáveis por um hiperplano.
15
6. O PROCESSO DE APRENDIZAGEM
O processo de aprendizagem, também conhecido como treinamento,
consiste no processo de modificação organizada dos pesos, visando a
minimização de uma função de custo (Haykin, 2001).
Todo o conhecimento adquirido pela rede fica acumulado nos pesos
sinápticos. Analogamente à sinapse no neurônio biológico, o peso é a
�memória� da rede.
Podemos dividir o processo de aprendizagem em três partes bem
distintas. Inicialmente a rede neural é estimulada pelo ambiente. Como
resultando desta estimulação, o segundo estágio consiste nas alterações dos
seus parâmetros livres. Por fim, a rede neural passa a responder de uma nova
maneira ao ambiente que a estimula (Haykin, 2001).
Diversas regras de aprendizado foram propostas, no entanto nesta
monografia trataremos apenas de quatro destas regras. São elas a
aprendizagem por correção de erros, baseada em memória, Hebbiana e
competitiva.
Como visto em Haykin (2001), Kovács (1996) e Braga, et al (1998), dois
paradigmas norteiam o desenvolvimento de regras de aprendizagem. O
primeiro diz que a rede aprende sob supervisão externa. Já para o segundo
paradigma, a rede aprende sem que haja a necessidade de supervisão
externa, ou seja, não é necessário a presença de um supervisor. Tais
16
paradigmas são conhecidos como aprendizagem supervisionada e
aprendizagem não supervisionada respectivamente.
Aprendizagem por correção de erros. A natureza desta aprendizagem
é local, ou seja, os ajustes sinápticos ocorrem em torno de cada neurônio K.
Tais correções se dão através da minimização de uma função de custo que
nada mais é que a metade do quadrado da diferença entre a saída atual e a
desejada. Neste tipo de aprendizagem, apresenta-se à rede um vetor de
entrada e um vetor de saída esperada. Assim, após o vetor de entrada ser
trabalhado pela rede, a saída é comparada através da função de custo. Assim,
deseja-se que esta comparação seja minimizada (Haykin, 2001 e Braga, et al,
1998).
( ) ( ) ( )( )221 tytdt kk −=ε
Note que tal procedimento ocorre para cada neurônio k.
Este procedimento de minimização da função de custo ( )tε descrito
acima é conhecido como regra delta, ou regra de Widrow-Hoff. Pode-se
escrevê-la também da seguinte maneira genérica:
( ) ( ) ( )txtetw kkkl η=∆ , onde ( ) ( ) ( )kytdte kkk −= .
Aprendizagem baseada em memória. Nesta regra de aprendizagem as
experiências são classificadas numa superfície de resposta. Assim, cria-se uma
memória da qual a rede classifica futuros padrões.
Para esta aprendizagem geralmente utiliza-se o método do vizinho mais
próximo ou a função base radial.
Os algoritmos de aprendizagem baseada em memória se baseiam em
dois fundamentos. O critério para definir a vizinhança local e a regra de
17
aprendizagem aplicada aos dados de treinamento na vizinhança primeiramente
definida (Haykin, 2001).
Aprendizagem Hebbiana. Hebb propôs em 1949 a primeira regra de
aprendizagem baseada na neurobiologia. Esta regra ficou conhecida como
postulado de Hebb, e foi publicada em seu livro �The Organization of Behavior”.
�Quando um axônio da célula A está perto o suficiente para excitar uma
célula B e participa do seu disparo repetida ou persistentemente, então algum
processo de crescimento ou modificação metabólica acontece em uma das
células ou em ambas, de tal forma que a eficiência de A como uma das células
que dispara B é aumentada�. Hebb (1949, p. 62, citado por Haykin, 2001).
Assim podemos concluir que uma sinapse hebbiana usa um mecanismo
dependente do tempo, altamente local e correlacionada com as atividades pré
e pós sinápticas (Haykin, 2001).
Matematicamente, o aprendizado hebbiano pode ser escrito da seguinte
maneira:
( ) ( ) ( )( )txtynw jkkj η=∆
onde ( ) ( )( )txty jk é uma relação das atividades pré e pós-sinápticas.
Aprendizagem competitiva. Nesta regra de aprendizagem os
neurônios de saída competem entre si para se tornarem ativos. Logo, apenas
um neurônio de saída pode estar ativo em um determinado instante. Assim,
esta forma de aprendizagem é adequada para descobrir características
estatisticamente salientes, levando a uma classificação do conjunto de padrões
de entrada.
Alguns princípios são fundamentais nesta regra de aprendizagem.
Inicialmente os neurônios devem ser iguais entre si, exceto pelos pesos
sinápticos que são distribuídos aleatoriamente quando a rede é inicializada.
18
O segundo princípio é que os neurônios devem estar limitados quanto a
força. Por fim, deve existir com mecanismo de competição entre os neurônios,
onde aquele que ganha leva o direito de responder.
A arquitetura mais simples para este tipo de aprendizagem é composta
de uma única camada de saída, onde cada neurônio da mesma está conectado
a todos os sensores de entrada. Há também ligações laterais, entre os
neurônios da camada de saída, que funcionam como inibidores laterais.
( )
−
=∆perdekse
venceksewxw kjj
kj0
η
Onde: k = k-ésimo neurônio.
Xj = padrão de entrada.
Wkj = vetor de peso sináptico.
Aprendizagem supervisionada. Este paradigma da aprendizagem
também é conhecido como aprendizado com professor. Conceitualmente o
professor possui conhecimento sobre o ambiente, e utiliza este conhecimento
para indicar à rede qual caminho seguir.
No entanto a rede desconhece tal ambiente. São oferecidos à rede
padrões de entrada e de saída. Os dados de entrada são processados pelos
nodos, e a saída atual é comparada com a saída desejada, oriunda do prévio
conhecimento do ambiente pelo professor. Esta comparação é feita através de
uma função de custo.
19
Figura 7 � Aprendizado supervisionado (Adaptado de Haykin, 2001).
Podemos visualizar a função de custo como uma superfície de erro,
sendo os parâmetros livres como coordenadas. Nesta superfície, o que se
deseja é que o aprendizado leve a rede para o local de mínimo global, onde o
erro tende a zero (vide pág. 30).
Aprendizagem não supervisionada. Neste paradigma de aprendizado,
não há conhecimento prévio do ambiente externo. Também podemos
denominá-lo de aprendizado sem professor.
São oferecidas à rede as condições necessárias para uma análise
independente do ambiente. Todo o processo é balizado por esta análise
independente.
Este análise independente é feita tomando por base as regularidades
apresentadas pelos dados.
Figura 8 � Aprendizado não supervisionado (Adaptado de Haykin, 2001).
M eio Externo RNA
Estado do meio externo Resposta
Professor
RNAΣ Erro
Entrada
SaídaSupervisor
20
Problema da atribuição de crédito. Este problema foi exposto
inicialmente por Minsky (1961). A grande questão era como atribuir crédito ou
culpa de um resultado global aos neurônios que compões a rede neural?
Este problema torna-se evidente quando aplicamos o aprendizado de
correção de erro em uma rede de múltiplas camadas. A solução só foi
encontrada com o algoritmo da retropropagação do erro, que será estuda no
capítulo dedicado às redes MLP.
21
7. A EVOLUÇÃO DAS REDES NEURAIS ARTIFICIAIS
Em 1958 Rosenblatt demonstrou que se fossem acrescidas de sinapses
ajustáveis, as redes de nodos MCP poderiam ser treinadas (Braga et al, 1998).
Note que nesta altura do acontecimento, finalmente o termo treinamento foi
introduzido.
De maneira geral, a rede proposta por Rosenblatt era composta por
neurônios MCP como unidade básica e uma regra de aprendizado. Esta regra
nada mais é do que uma forma ordenada de atualizar os pesos das conexões
sinápticas das redes artificiais.
A arquitetura do perceptron era composta por uma retina (camada de
entrada), uma camada de associação e uma camada de saída formada por
unidades de resposta. Embora a topologia possua três níveis, ela é conhecida
como rede de camada única, uma vez que somente o nível de saída possui
características adaptativas. A camada associativa possui pesos fixos, definidos
antes do período de treinamento (Kovács, 1996).
No treinamento deseja-se obter o valor ∆w a ser aplicado no vetor de
pesos w, para ao final obter uma solução w(t+1) melhor que w(t). O algoritmo
de treinamento do perceptron sempre chega a uma solução para o problema
de separação de duas classes linearmente separáveis em um tempo finito.
Braga et al (1998) nos apresenta uma rotina de treinamento para uma
rede perceptron:
22
1. Inicializar η, e o vetor de pesos w.
2. Para cada par do conjunto de treinamento ( ){ }p
iid
i yx 1, ==Γ.
a. Atualizar o vetor de pesos para cada um dos neurônios da
rede segundo a regra ( ) ( ) ( )nxnenw kkkl η=∆
.
3. Até 0=e para todos os p elementos do conjunto de treinamento
em todos os nodos da rede.
Lembrando que uma rede perceptron tem sempre { }1,0∈y e { }1,0∈d .
Onde y é a saída atual e d é a saída desejada, e yde −= .
Enquanto Rosenblatt desenvolvia o perceptron, Widrow e Hoff
desenvolviam o modelo ADALINE (Adaptive Linear Neuron). Ambos possuíam
a mesma essência: os elementos de processamento realizavam operações de
soma ponderada que posteriormente era comparada a um valor de limiar.
O algoritmo de treinamento proposto por Widrow e Hoff ficou conhecido
por regra Delta (para detalhes matemáticos vide capítulo 4).
Em 1969 Minsk e Papert publicaram um documento de impacto da
ciência que estuda as redes neurais artificiais. Como conseqüência desta
publicação a década de 70 foi de completo obscurantismo para as redes
neurais. Nesta publicação, Minsk e Papert apontavam os defeitos das redes
neurais artificiais existentes até então.
A década obscura (que ficou conhecida como a década perdida) só foi
superada com os trabalhos de Hopfield (1982) a respeito de memórias
associativas e com os trabalhos de Rummelhart, Hinton e Willians (1986).
Estes últimos foram responsáveis pela divulgação e popularização do algoritmo
de treinamento conhecido como backpropagation ou retropropagação do erro.
Este algoritmo permitiu o treinamento das redes de multicamadas (MLP).
Tais redes por serem as mais implementadas atualmente serão discutidas em
um capítulo à parte.
23
Hopfield trabalhou com redes associativas que buscavam armazenar um
conjunto de vetores { }p
pdpy
1==ψ , de tal forma que se for endereçada com um
vetor y, retornará como saída um vetor ψ∈dpy que se encontra mais próximo
de y (Kovàcs, 1996).
Podemos citar como exemplo os modelos de Willshaw (1969), Kohonen
(1970 e 1974), Anderson (1968), a OLAM (Optimal Linear Associative Memory)
de 1989 e o modelo de Hopfiel (1982 e 1984).
Outro grupo de interessantes propriedades são as redes Self-
Organising. Este grupo apresenta a característica marcante de não haver a
presença de um supervisor. Podemos citar como exemplos as redes SOM
(1989), ART (1988, 1987 e 1990). Dedicaremos um capítulo a parte para as
redes SOM, também conhecidas como redes Kohonen.
Uma promissora área de pesquisa segundo Braga et al (1998) é a
combinação de técnicas para solução de problemas que quando tratados
individualmente por uma das técnicas não apresenta solução satisfatória.
A idéia é justamente combinar técnicas com a finalidade de obter uma
solução mais robusta e eficiente. O que muitas vezes não ocorre.
Braga et al (1998) diz que um modelo de computação verdadeiramente
inteligente tem maiores chances de ser desenvolvido se conseguir aglutinar
potenciais de diferentes paradigmas da Inteligência Artificial.
Estuda-se a integração de RNA´s com:
• Lógica Fuzzy
• Algoritmos genéticos
• Raciocínio baseado em dados
• Sistemas tutores
• Agentes Inteligentes, e muitos outros.
Outros tipos de redes que tem apresentado excelentes resultados são as
redes RBF, as redes construtivas e de processamento temporal. Devido à sua
crescente aplicação, iremos tratar das redes RBF em um capítulo à parte.
24
Adaptou-se da homepage Neural Network FAQ (2005) um breve
histórico dos estudos sobre redes neurais:
1. Supervisionado
1. Feedforward
! Linear
! Hebbian - Hebb (1949), Fausett (1994)
! Perceptron - Rosenblatt (1958), Minsky and Papert
(1969/1988), Fausett (1994)
! Adaline - Widrow and Hoff (1960), Fausett (1994)
! Higher Order - Bishop (1995)
! Functional Link - Pao (1989)
! MLP: Multilayer perceptron - Bishop (1995), Reed and
Marks (1999), Fausett (1994)
! Backprop - Rumelhart, Hinton, and Williams (1986)
! Cascade Correlation - Fahlman and Lebiere (1990),
Fausett (1994)
! Quickprop - Fahlman (1989)
! RPROP - Riedmiller and Braun (1993)
! RBF - Bishop (1995), Moody and Darken (1989), Orr
(1996)
! OLS: Orthogonal Least Squares - Chen, Cowan and
Grant (1991)
! CMAC: Cerebellar Model Articulation Controller - Albus
(1975), Brown and Harris (1994)
! Somente classificação
! LVQ: Learning Vector Quantization - Kohonen
(1988), Fausett (1994)
! PNN: Probabilistic Neural Network - Specht (1990),
Masters (1993), Hand (1982), Fausett (1994)
! Somente regressão
! GNN: General Regression Neural Network - Specht
(1991), Nadaraya (1964), Watson (1964)
25
2. Feedback - Hertz, Krogh, and Palmer (1991), Medsker and Jain
(2000)
! BAM: Bidirectional Associative Memory - Kosko (1992),
Fausett (1994)
! Boltzman Machine - Ackley et al. (1985), Fausett (1994)
! Séries temporais recorrentes
! Backpropagation through time - Werbos (1990)
! Elman - Elman (1990)
! FIR: Finite Impulse Response - Wan (1990)
! Jordan - Jordan (1986)
! Real-time recurrent network - Williams and Zipser
(1989)
! Recurrent backpropagation - Pineda (1989), Fausett
(1994)
! TDNN: Time Delay NN - Lang, Waibel and Hinton
(1990)
3. Competitivos
! ARTMAP - Carpenter, Grossberg and Reynolds (1991)
! Fuzzy ARTMAP - Carpenter, Grossberg, Markuzon,
Reynolds and Rosen (1992), Kasuba (1993)
! Gaussian ARTMAP - Williamson (1995)
! Counterpropagation - Hecht-Nielsen (1987; 1988; 1990),
Fausett (1994)
! Neocognitron - Fukushima, Miyake, and Ito (1983),
Fukushima, (1988), Fausett (1994)
2. Não supervisionados - Hertz, Krogh, and Palmer (1991)
1. Competitivos
! Vector Quantization
! Grossberg - Grossberg (1976)
! Kohonen - Kohonen (1984)
! Conscience - Desieno (1988)
! Self-Organizing Map
26
! Kohonen - Kohonen (1995), Fausett (1994)
! GTM: - Bishop, Svensén and Williams (1997)
! Local Linear - Mulier and Cherkassky (1995)
! Teoria da resonância adaptativa
! ART 1 - Carpenter and Grossberg (1987a), Moore
(1988), Fausett (1994)
! ART 2 - Carpenter and Grossberg (1987b), Fausett
(1994)
! ART 2-A - Carpenter, Grossberg and Rosen (1991a)
! ART 3 - Carpenter and Grossberg (1990)
! Fuzzy ART - Carpenter, Grossberg and Rosen
(1991b)
! DCL: Differential Competitive Learning - Kosko (1992)
2. Redução dimensional - Diamantaras and Kung (1996)
! Hebbian - Hebb (1949), Fausett (1994)
! Oja - Oja (1989)
! Sanger - Sanger (1989)
! Differential Hebbian - Kosko (1992)
3. Auto associadores
! Linear autoassociator - Anderson et al. (1977), Fausett
(1994)
! BSB: Brain State in a Box - Anderson et al. (1977), Fausett
(1994)
! Hopfield - Hopfield (1982), Fausett (1994)
3. Redes sem pesos
1. Hopfield - Hertz, Krogh, and Palmer (1991)
2. various networks for optimization - Cichocki and Unbehauen
(1993)
27
8. REDES DE PERCEPTRONS DE MÚLTIPLAS CAMADAS
Na publicação de Minsk & Papert, duras críticas foram feitas à rede
perceptron de Rosenblatt. A mais importante destas críticas era o fato da rede
Perceptron resolver somente os problemas linearmente separáveis.
Os problemas não linearmente separáveis só foram devidamente
resolvidos com a proposição de redes neurais artificiais com uma ou mais
camadas intermediárias (ou ocultas) conhecidas como redes Multilayer
Perceptron (MLP).
O treinamento de redes com camadas ocultas não é uma tarefa simples.
O problema encontrado durante o aprendizado das redes MLP era de como
definir o erro dos neurônios das camadas intermediárias?
Percebe-se nos parágrafos anteriores, uma rede MLP é composta de
uma camada de entrada, uma ou mais camadas intermediárias (também
conhecidas como camadas ocultas) e uma camada de saída.
Cada neurônio de uma rede MLP possui uma função de ativação não
linear e diferenciável. Estas características são essenciais para que as redes
MLP possam ser treinadas. Sendo a função de ativação diferenciável, torna-se
possível calcular o gradiente. Sendo este responsável pela indicação da
direção de ajuste dos pesos. A função mais utilizada é a função sigmoidal
logística. Em alguns casos também se utiliza a função tangente hiperbólica
(vide capítulo 4).
28
Na medida que caminhamos em direção à saída da rede MLP, as
funções de ativação implementadas se tornam mais complexas. Esta
complexidade reflete a divisão do espaço de decisão.
Assim, em uma rede MLP, o processamento realizado por cada neurônio
é definido pela combinação dos processamentos dos neurônios da camada
anterior.
Qual o tamanho da camada intermediária? Esta não é uma pergunta de
simples resolução. Existem diversos métodos para dimensionar o número de
neurônios das camadas intermediárias, na maioria das vezes isto de dá de
forma empírica e deve-se levar em consideração diversos fatores como
(Bullinaria, 2003):
• Número de padrões de entrada.
• Número de unidades de entrada e saída.
• Intensidade de ruído presente nos dados.
• Complexidade das funções ou classificações a serem aprendidas.
• Tipo de função de ativação.
• Algoritmo de treinamento.
O excesso de neurônios pode levar ao overfitting (memorização e
conseqüentemente baixo poder de generalização). Já o baixo número de
neurônios pode levar a um custo temporal elevado (às vezes nunca chegando
a um resultado ótimo).
Existem alternativas ao dimensionamento empírico. Após o treinamento
da rede, aplica-se a técnica de pruning, onde os pesos e neurônios irrelevantes
são descartados (Braga et al., 1998). A maior crítica que pesa sobre a técnica
de pruning é a desconsideração da correlação existente entre os neurônios.
Backpropagation. O principal algoritmo utilizado para o treinamento de
redes MLP é o backpropagation, também conhecido como retropropagação do
erro. Este é um algoritmo que utiliza o paradigma do aprendizado
29
supervisionado. Através de pares de entrada e saída os pesos são ajustados
buscando minimizar o erro.
O treinamento ocorre em duas fases. Na fase forward (para frente) a
saída da rede é definida. Numa segunda fase, conhecida como backward (para
trás), a saída atual é comparada com a saída desejada e atualizam-se os
pesos das conexões (Bullinaria, [ca. 2000]).
Nota-se que como o erro é propagado da saída em direção à entrada,
quanto maior a quantidade de camadas intermediárias, menos preciso e útil o
erro se torna.
A grande contribuição deste algoritmo foi solucionar o problema da
definição do erro dos neurônios das camadas intermediárias, possibilitando
com isso a atualização dos pesos da rede MLP.
Assim como a regra delta, a derivação da retropropagação do erro é
bastante simples. A função de custo a ser minimizada também é a soma dos
erros quadráticos:
( ) ( ) ( )( )2
12
1 ∑=
−=k
iii tytdtε
Lembramos que o algoritmo da retropropagação do erro requer que as
funções de ativação sejam contínuas e diferenciáveis, pois a alteração dos
pesos é definida de acordo com o gradiente do erro em relação ao peso.
jiw∆ α jiw∂
∂−
ε
Ao final das operações teremos:
ijji xw ηδ=∆
onde
jδ é o erro do neurônio j.
30
O treinamento de uma rede MLP através do algoritmo da
retropropagação do erro pode ocorrer em duas periodicidades diferentes: on-
line (padrão) ou batch (cíclico).
Quando os pesos são atualizados após a apresentação de cada padrão
de treinamento, denominados aprendizado on-line. Quando os pesos são
atualizados após todos os padrões serem apresentados (ao fim de um ciclo),
denomina-se aprendizado cíclico ou batch.
Problemas no treinamento. O treinamento não implica na garantia de
implementação da função desejada. Há casos de convergência para mínimos
locais, de demora excessiva e de overfitting (a rede fica especializada para os
dados a qual foi treinada e tem uma generalização ruim para dados
desconhecidos).
Sem dúvida, o principal problema encontrado é a convergência para um
mínimo local. Embora seja uma solução estável, ela não é mínima.
Figura 09 � Mínimo local (resultado a ser evitado) e mínimo global
(resultado desejado), (Fonte: <www.inf.ufrgs.br/procpar/disc/cmp135/trabs/
rafael/T2/RNA1.ppt>).
As alternativas para reduzir a ocorrência de mínimos locais são (Braga
et al., 1998):
31
• Utilizar uma taxa de aprendizado decrescente.
• Acrescentar neurônios intermediários.
• Acrescentar o termo Momentum.
• Adicionar ruído aos dados.
Das alternativas apresentadas, a mais elegante e sem dúvida mais
utilizada é a adição do termo momentum, resultando na seguinte regra para
atualização dos pesos (Braga et al., 1998):
( ) ( ) ( ) ( ) ( )( )11 −−++=+ twtwtxtwtw ijijijjiji αηδ
Quanto ao overfitting, que é a perda de capacidade de generalização, as
alternativas apresentadas por Braga et al (1998) são:
• Encerrar o treinamento mais cedo.
• Aplicar a técnica de pruning.
Algumas variações do algoritmo backpropagation são encontradas na
literatura como o Quickprop (Fahlman, 1988) e o Rprop (Riedmiller, 1994).
32
9. REDES RBF
As redes RBF são redes multicamadas onde as camadas ocultas e de
saída possuem regras completamente diferentes, das MLP. Assim como os
pesos correspondentes têm propriedades e significados diferentes. Portanto
fica claro que a técnica de aprendizado para as redes RBF é diferente das
redes MLP.
Na maioria das redes multicamadas a função de ativação aplicada a
cada nodo utiliza como argumento o produto escalar do vetor de entrada (x) e
do vetor de peso (w) deste nodo. No caso das redes RBF, a função de ativação
leva como argumento a distância entre seus vetores de entrada e de peso.
Comparando as redes MLP com as redes RBF, nota-se que a primeira
utiliza-se nos nodos intermediários funções de base sigmoidal. No segundo tipo
de rede, os nodos intermediários utilizam funções de base radiais. A ativação
das unidades escondidas, numa rede RBF, resultam da função base radial
( )jjj v σµφ ,,= (Bullinaria, [ca. 2000]).
As redes RBF possuem uma arquitetura típica, sendo uma camada de
entrada, uma camada de saída e uma única camada intermediária. Como foi
dito no primeiro parágrafo, cada camada possui um papel específico.
A camada intermediária que possui os nodos com funções de ativação
de base radiais agrupa os dados em clusters. Nesta camada o problema passa
33
de não linearmente separável para linearmente separável. A camada de saída
classifica os padrões recebidos da camada anterior.
As funções de base radiais são ( )jjj v σµφ ,,= , onde v é a distância
euclidiana µ−x , µ é o centro e σ é a largura da função base radial.
A resposta yi de um nodo j é definido sendo:
( )∑=
+−=k
ijijij wxwy
10µφ
Cada nodo da camada intermediária agrupa os padrões em um cluster,
que é posteriormente utilizado pelos nodos da camada de saída.
Recomenda-se utilizar um número de funções radiais menor que o
número total de padrões de treinamento.
As funções de base radial comumente utilizadas são função gaussiana,
função multiquadrática e função thin-plate-spline (Haykin, 2001).
O treinamento é dividido em dois estágios. No primeiro o número de
funções radiais e seus parâmetros são determinados por métodos não
supervisionados.
Nesta primeira fase, diferentes abordagens podem ser adotadas como:
• Seleção aleatória dos centros das funções radiais.
• Utilizar técnicas de clusterização. Geralmente se aplica o
algoritmo k-means.
34
10. REDES AUTO-ORGANIZÁVEIS
As redes auto-organizáveis (do inglês self-organising - redes SOM) são
conhecidas também como redes SOFM (Self-organising Features Maps) ou
redes Kohonen.
Nas redes SOM os neurônios estão espacialmente organizados em
forma de um reticulado. Assim, neurônios topologicamente próximos tendem a
responder a padrões ou estímulos semelhantes. Isto só é possível devido ao
uso de uma função tipo �chapéu mexicano�.
Esta função divide o espaço em três regiões:
• Excitatória: quando os neurônios vizinhos estão dentro de um raio
R1.
• Inibitória: quando os vizinhos estão fora do raio R1, porém dentro
do raio R2 sendo R2 > R1.
• Levemente excitatória: neste caso os neurônios vizinhos estão
numa área superior ao raio R2, porém dentrode um raio R3.
Sendo R3>R2>R1.
Quando um padrão de entrada [p] é apresentado e uma unidade é muito
parecida com [p], a semelhança desta unidade e de seus vizinhos é aumentada
durante o treinamento. Em outras palavras, quando um nodo vence a
35
competição (produz a maior saída para uma dada entrada), ele e seus vizinhos
têm seus pesos ajustados.
Nota-se que nas redes SOM os nodos são localmente interconectadas, e
o processo de adaptação é restrito ao nodo vencedor e seus vizinhos.
Por se organizarem topologicamente, os padrões detectados por um
neurônio estão relacionados com as coordenadas da posição deste neurônio
dentro do reticulado.
Logo, as localizações espaciais guardam características dos padrões
classificados. Assim o estado de ativação de um nodo é determinado pela
distância entre seu peso e o vetor de entrada.
Figura 10 � Arquitetura de uma rede SOM (fonte:
<http://www.cies.staffs.ac.uk/somview/som-vect.gif>).
∑=
−=n
ijiij wxy
1
Onde yj é o valor de ativação do neurônio j.
O treinamento das redes SOM é competitivo. A cada novo padrão de
treinamento apresentado, os neurônios competem pelo maior valor de saída.
Aquele neurônio vencedor tem seu peso atualizado junto com seus vizinhos.
36
Durante o treinamento, a taxa de aprendizado o raio de vizinhança são
constantemente decrementados.
O treinamento das redes SOM ocorre em duas fases: ordenação e
convergência.
Na fase de ordenação busca-se agrupar os neurônios do reticulado em
clusters de modo a refletir a distribuição dos padrões de entrada. Ao final desta
fase a rede sabe quantos clusters identificar e onde no mapa eles se
encontram.
Numa segunda fase onde a taxa de treinamento é baixa assim como o
raio de vizinhança ocorre um refinamento do mapa, aprimorando o
agrupamento previamente realizado.
Os principais componentes das redes SOM são:
• Inicialização: todos os pesos são inicializados com pequenos
valores aleatórios.
• Competição: para cada padrão de entrada, os neurônios
computam o valor de ativação e aquele que apresentar o maior
valor é considerado o vencedor.
• Cooperação: o espaço de vizinhança do neurônio vencedor é
estabelecido.
• Adaptação: os neurônios excitados têm os valores de ativação
aumentados.
Os passos para se obter uma rede SOM ajustada são os seguintes
segundo Bullinaria [ca. 2000]:
1. Inicialização: atribuir valores aleatórios aos pesos.
2. Amostragem: escolher um vetor x do espaço de entrada.
3. Cálculo: encontrar o neurônio vencedor [I(x)] menor distância
euclidiana entre o vetor de entrada e o vetor de pesos.
4. Atualização:
37
( ) ( ) ( )( )jiixIjji wxttw −Τ=∆ ,η
5. Seqüência: retornar ao passo dois até o mapa não sofrer alterações.
As redes com treinamento não supervisionado aprendem a formar sua
própria classificação dos dados de treinamento sem ajuda externa.
Por serem geralmente construídas com um reticulado de duas
dimensões, as redes SOM também são muito usadas para transformar um
sinal de entrada multidimensional em um sinal de duas dimensões.
38
11. CONCLUSÕES
Como foi discutido ao longo desta monografia, o grande potencial das
redes neurais é devido a sua capacidade de aprender e de generalizar
informações. Tais características são muito interessantes no tratamento de
diversos problemas encontrados no cotidiano de diversas áreas do
conhecimento.
Diversos campos podem ser explorados para a aplicação de redes
neurais na engenharia florestal. Entre eles destaca-se a regulação florestal, o
controle de processos e ajuste de modelos não lineares normais.
Obter uma floresta regulada é produzir e utilizar a floresta e seus
produtos de forma contínua (Davis, 1966). Ainda sobre a regulação florestal,
que é um dos clássicos problemas do manejo florestal, pode-se encontrar em
Rodrigues (1997), que a produção florestal deve atender a especificações de
mercado, operacionais e de capital, garantindo o emprego da mão de obra,
minimizando o custo ou maximizar o lucro.
O uso de redes neurais no controle de processos consiste em treinar
uma rede de forma que ela saiba adaptar os parâmetros do sistema às
diferentes situações que possam ocorrer durante o funcionamento do mesmo.
No ajuste de modelos não lineares encontram-se muitas dificuldades,
pois as técnicas de ajuste são sensíveis a mínimos locais. É certo que entre os
inúmeros métodos existentes, uns são mais suscetíveis que outros. O uso de
redes neurais fornece formas alternativas de se evitar a ocorrência de mínimos
39
locais. Note que, mesmo apresentando suscetibilidade ao mínimo local, a rede
neural pode agregar qualidade no discernimento destes pontos indesejáveis.
Diante dos pontos aqui apresentados, nota-se que há um grande
potencial de aplicação desta técnica de inteligência artificial no tratamento de
problemas da engenharia florestal.
Não é interesse deste trabalho substituir as publicações já feitas. E sim,
fornecer aos pesquisadores, professores e estudantes uma síntese do
conhecimento existente atualmente, a fim de que os estudos e aplicações das
redes neurais passe a ser uma realidade, no setor florestal.
40
12. REFERÊNCIAS BIBLIOGRÁFICAS
BRAGA, A. de P.; CARVALHO, A. P. de L. F. de; LUDEMIR, T. B. Fundamentos de redes neurais artificiais. Rio de Janeiro: DCC/I,, COPPE/Sistemas, NCE/UFRJ, 1998. 246 p. il. BULLINARIA, J. A. Apresenta informações sobre Introduction to neural network. Disponível em <http://www.cs.bham.ac.uk/~jxb/inn.html>. Acesso em: [ca. 2000]. DAVIS, K.P. Forest management: regulation and valuation. 2. ed. New York: McGraw-Hill, 1996. 519 p. HAYKIN, S. Redes Neurais: princípios e prática. 2. ed. Porto Alegre: Bookman, 2001. 900 p. KOVÁCS, Z. L. Redes neurais artificiais: fundamentos e aplicações. 2. ed. Ver. e amp. São Paulo: Colledium cognitio, 1996. 174 p. NEURAL NETWORK FAQ: Introduction. Desenvolvido por Sarle, W. S., 1997-. Apresenta informações sobre Redes Neurais. Disponível em <tp://ftp.sas.com/pub/neural/FAQ.html> Acesso em 15 maio 2005. RODRIGUES, F. L. Regulação de florestas eqüiâneas utilizando programação linear. 1997. 117 f. Dissertação (Mestrado em Ciência Florestal) - Universidade Federal de Viçosa, Viçosa.
41
RODRIGUES, F. L. Metaheurística e sistema de suporte à decisão no gerenciamento de recursos florestais. 2001. 225 f. Tese (Doutorado em Ciência Florestal) - Universidade Federal de Viçosa, Viçosa. VON ZUBEN, F. J. Uma caricatura funcional de redes neurais artificiais. Learning and Nonlinear Models, Campinas, v. 1, n. 2, p. 77-87. 2003