2005 - Gorgens - Redes Neurais Uma Promissora Ferramenta Para o Gerenciamento Florestal

ERIC BASTOS GORGENS

REDES NEURAIS: UMA PROMISSORA FERRAMENTA PARA O GERENCIAMENTO FLORESTAL

Monografia apresentada ao Departamento de Engenharia Florestal, da Universidade Federal de Viçosa, como parte das exigências do curso de Engenharia Florestal.

VIÇOSA MINAS GERAIS – BRASIL

JUNHO – 2005

ERIC BASTOS GORGENS

REDES NEURAIS: UMA PROMISSORA FERRAMENTA PARA O GERENCIAMENTO FLORESTAL

Monografia apresentada ao Departamento de Engenharia Florestal, da Universidade Federal de Viçosa, como parte das exigências do curso de Engenharia Florestal.

APROVADA: Junho de 2005.

Prof. José Marinaldo Gleriani

(Orientador)

Prof. Helio Garcia Leite

(Co-Orientador)

ii

Aos meus pais. À Polly.

Aos meus amigos. Aos meus Mestres.

À minha família.

iii

AGRADECIMENTOS

À Universidade Federal de Viçosa e ao Departamento de Engenharia

Florestal pelo curso de Engenharia Florestal.

Aos Mestres Helio Garcia Leite e José Marinaldo Gleriani, pela amizade,

confiança e experiência.

Aos professores do Departamento de Engenharia Florestal, pelos

ensinamentos despendidos ao longo destes quatro anos e meio, em especial

ao professor Carlos Pedro Boechat Soares.

Aos meus amados pais, Robert e Jacy, pelas eternas lições de caráter e

amor.

À minha irmã Diana, pela convivência e paciência.

À Pollyanna, pela valorosa companhia e apoio nos melhores e piores

momentos.

Aos meus familiares, em especial à minha avó Josefina, e minhas tias

Iracema e Jandira.

À minha querida avó Antonie Gorgens, in memoriam.

Aos meus amigos, pelos bons momentos que foram e que virão.

A todos que por displicência minha, tenha esquecido de citar.

iv

BIOGRAFIA

Eric Bastos Gorgens, filho de Robert Gorgens e Jacy Bastos Gorgens,

nasceu na cidade de Belo Horizonte, Estado de Minas Gerais, em 05 de Junho

de 1983.

Concluiu em 2000 o ensino médio no Colégio Loyola, na cidade de Belo

Horizonte, Minas Gerais.

Em 2001, ingressou no Curso de Engenharia Florestal, da Universidade

Federal de Viçosa, em Viçosa, Minas Gerais graduando-se em julho de 2005.

Durante a graduação desenvolveu pesquisas nas áreas de manejo,

mensuração e estatística florestal. Foi bolsista CNPq/PIBIC no programa

2004/2005. Estagiou em grandes empresas como Suzano Papel e Celulose, e

CENIBRA.

V

CONTEÚDO

EXTRATO ......................................................................................................................VI 1. INTRODUÇÃO ............................................................................................................1 2. OBJETIVOS .................................................................................................................4 3. O NEURÔNIO BIOLÓGICO.......................................................................................5 4. NOÇÕES BÁSICAS DE MATEMÁTICA ..................................................................8 5. O PRIMEIRO NEURÔNIO ARTIFICIAL.................................................................13 6. O PROCESSO DE APRENDIZAGEM......................................................................15 7. A EVOLUÇÃO DAS REDES NEURAIS ARTIFICIAIS .........................................21 8. REDES DE PERCEPTRONS DE MÚLTIPLAS CAMADAS ..................................27 9. REDES RBF ...............................................................................................................32 10. REDES AUTO-ORGANIZÁVEIS...........................................................................34 11. CONCLUSÕES ........................................................................................................38 12. REFERÊNCIAS BIBLIOGRÁFICAS......................................................................40

VI

EXTRATO

GORGENS, Eric Bastos. Universidade Federal de Viçosa, julho de 2005. Redes neurais: Uma promissora ferramenta para o gerenciamento florestal. Orientador José Marinaldo Gleriani. Co-orientador Helio Garcia Leite.

RESUMO � As redes neurais artificiais, um campo da inteligência artificial, se desenvolveram a partir dos estudos sobre o funcionamento das redes biológicas como o cérebro humano. A partir de 1943, a pesquisa na área se desenvolveu com incrível intensidade, e diversos tipos de redes estão disponíveis. O grande valor das redes neurais artificiais é forma com que resolve problemas complexos. As características mais importantes são a capacidade de aprendizado, que pode ser supervisionado e não supervisionado e a capacidade de generalização para dados desconhecidos. Em razão da capacidade de solucionar tais tipos de problemas, redes neurais é uma ferramenta em potencial para lidar com problemas clássicos da engenharia florestal. Discutem-se os fundamentos biológicos que compõe a inspiração para o desenvolvimento das redes neurais. Em seguida dedicou-se ao aprendizado um capítulo exclusivo, que aborda os paradigmas fundamentais de aprendizado. As principais redes foram tratadas em capítulos a parte. São elas Perceptrons de Múltiplas Camadas, redes Auto-organizáveis e redes de Funções de Base Radial. Além destas, uma demonstração da evolução dos estudos sobre RNA´s é apresentada de forma a demonstrar as inúmeras alternativas existentes e as tendências de estudos da área. Por fim, os interessados podem consultar as literaturas citadas ao final das discussões caso desejem maior profundidade. Palavra-chave: Redes neurais artificiais, RNA, Aprendizagem.

1

1. INTRODUÇÃO

Redes neurais artificiais são sistemas paralelos distribuídos compostos

por unidades de processamento simples que computam determinadas funções

matemáticas (Braga et al., 1998).

As redes neurais surgiram de observações e pesquisas sobre o

funcionamento de redes biológicas e seus elementos fundamentais, os

neurônios, presentes no cérebro humano.

O trabalho que �inaugurou� a área de redes neurais foi o artigo de

McCulloch e Pitts de 1943, denominado de �A logical calculus of the ideas

immanent in nervous activity�. Embora alguns autores digam que foi

ingenuamente simples mesmo para a época, o neurônio proposto por

McCulloch e Pitts neste artigo foi de grande importância para o

desenvolvimento do conhecimento sobre redes neurais.

RNA´s podem ser incluídas em diversas categorias de conhecimento, mas

conforme Kovács, limitá-la a um contexto seria um tremendo desperdício.

Pode-se dizer que RNA´s constituem uma teoria para o estudo de fenômenos

complexos.

Tais tipos de fenômenos são muito comuns no cotidiano. Daí o grande

interesse que as RNA´s despertam na comunidade científica. No entanto sua

aplicação concreta é desproporcional ao nível da atividade científica, salvo para

algumas áreas do conhecimento.

2

Mesmo sua abordagem acadêmica é tímida. Apenas algumas áreas como

Engenharia de Produção, Ciência da Computação, entre outras.

As características que mais chamam a atenção nas RNA´s são a

capacidade de aprender e de generalizar informações. Em outras palavras, as

RNA´s são capazes de através de um pequeno exemplo aprendido, generalizar

o conhecimento assimilado para um conjunto de dados não conhecidos. Outra

característica interessante das RNA´s, é a capacidade de extrair características

não explícitas, de um conjunto de informações que lhe são fornecidas como

exemplos.

As redes neurais apresentam propriedades extremamente desejáveis. A

não-linearidade é uma propriedade particular de seus nodos, levando portanto,

a uma expressão desta característica pela rede.

A rede executa um mapeamento de entrada-saída de maneira não

paramétrica, uma vez que não são feitas suposições prévias sobre o modelo

estatístico dos dados de entrada.

Um ponto interessante da rede neural, é que ela deve ser estável o

suficiente para não captar alterações momentâneas dos dados, mas deve ser

suficientemente plástica para se adaptar às mudanças ao longo do tempo. Este

é o famoso dilema da estabilidade-plasticidade.

Através do aprendizado, a rede neural é capaz captar as evidências e

atribuir respostas sensatas para os problemas abordados. Além de que cada

neurônio é potencialmente afetado pela atividade de todos os neurônios da

rede, anteriores ou não a ele.

Assim como as redes biológicas, caso uma parte da rede sofra um dano, o

prejuízo ocorre, mas é pontual aos nodos afetados. Em outras palavras, a rede

continua funcionando, embora apresente uma degradação de sua função. Tal

característica é conhecida como tolerância às falhas.

As ligações paralelas permitem que certas operações sejam realizadas

com maior rapidez. Esta propriedade é fundamental na abordagem de

problemas complexos.

Embora seja uma ferramenta com uso potencial em diversas áreas, a

linguagem utilizada é sempre a mesma. Este é um fato de extrema importância

3

para a difusão do conhecimento, pois a uniformidade de linguagem, permite

que exemplos diversos possam ser adaptados para problema de diferentes

naturezas científicas.

A última propriedade consiste no fato da rede apresentar forte analogia

biológica. E o tratamento de problemas de natureza biológica com uma

ferramenta fundamentada na biologia, gera um conforto muito grande, já que

assegura um tratamento �natural�.

Antes do início das discussões sobre redes neurais artificiais, é

fundamental esclarecer os principais símbolos utilizados durante os próximos

capítulos:

jiw = peso da sinapse i pertencente ao neurônio j;

η = taxa de aprendizado;

t = tempo t.

4

2. OBJETIVOS

Fornecer um material de simples entendimento para a abordagem de

redes neurais artificiais na área florestal, com conteúdo de qualidade.

Apresentar um histórico do desenvolvimento e os fundamentos das RNA´s

visando futuros estudos e aplicação na ciência florestal.

5

3. O NEURÔNIO BIOLÓGICO

Cientificamente, o cérebro humano é o processador de carbono mais

fascinante que existe, sendo constituído por cerca de 10 bilhões de neurônios

(Braga et al., 1998). Esta pequena unidade fundamental conhecida por

neurônio é responsável pelo funcionamento de todo o organismo. Estas

pequenas células, os neurônios, também chamados de nodos, é que formam a

base para o estudo das redes neurais artificiais.

Basicamente, as redes neurais artificiais imitam, ou tentam imitar, o

funcionamento das redes biológicas. No entanto, esta semelhança é apenas

ideológica, pois na realidade, as diferenças ainda são imensas.

Para fundamentar a discussão sobre nodos e redes neurais artificiais, é

necessário conhecer o neurônio biológico.

O neurônio biológico pode ser dividido em três partes denominadas de

dendritos, soma e axônio. Os dendritos são responsáveis pela recepção dos

estímulos nervosos. O soma é o corpo da célula, responsável pelos processos

metabólicos da célula. Também no corpo celular, soma, o impulso é

processado e novos são gerados com destino ao exterior da célula. Sendo

estes enviados através do axônio, que pode atingir vários metros de

comprimento (Kovàcs, 1996).

6

Figura 1 � Neurônio bilógico (Fonte: Brown & Benchmark Introductory

Phychology Electronic Image Banck).

Quando o neurônio está inativo, ou seja, em repouso, seu interior se

encontra mais eletronegativo que seu exterior. Este estado é denominado de

potencial de repouso.

Quando a membrana se encontra menos eletronegativa (diferença

interno/externo menor) que o potencial de repouso, diz-se que ela está

depolarizada, e hiperpolarizada quando a membrana se encontra mais

eletronegativa (diferença interno/externo maior).

Segundo Braga et al. (1998) o impulso nervoso é uma onda de

depolarização de uma certa duração ao longo da membrana. Ou seja, durante

o impulso, a diferença entre o interior e exterior da membrana torna-se menor,

que o potencial de repouso.

No entanto, nem toda depolarização resulta numa transmissão de

impulso. Este só ocorre quando o limiar de disparo é atingido, resultando em

um potencial de ação.

Esta onda de depolarização é extremamente rápida. Após a transmissão

de um impulso, o neurônio entra num período de refração absoluta, que

consiste na incapacidade temporária de transmissão de novo impulso. Após

este período, ocorre uma recuperação assintótica de seu valor normal de

7

eletronegatividade. Este período de recuperação assintótica é denominado de

período de refração relativa (Kovàcs, 1996).

Alguns neurônios apresentam uma camada de mielina ao longo do

axônio. Esta camada tem a função de acelerar a transmissão do impulso.

A comunicação entre neurônios é de natureza química. Já no interior do

neurônio a comunicação é de natureza elétrica, como vimos anteriormente.

Embora os impulsos fluem através dos neurônios, estes jamais se tocam.

A comunicação entre os neurônios é feita através neurotransmissores nas

sinapses. É através das sinapses que o impulso é transmitido dos axônios aos

dendritos do neurônio subseqüente.

Os impulsos químicos podem ser de natureza excitatória ou inibitória,

dependendo do tipo de neurotransmissor. Quando a conexão é excitatória, ela

trabalha provocando uma alteração no potencial da membrana que favorece a

formação de um impulso nervoso. Já a conexão inibitória age no sentido oposto

(Kovàcs, 1996).

Assim podemos resumir que o sinal de polarização, inibitório ou

excitatório, é uma função do tipo de neurotransmissor. Já a magnitude de

polarização é uma função da concentração de neurotransmissores, da

dimensão da sinapse e do comprimento do neurônio.

8

4. NOÇÕES BÁSICAS DE MATEMÁTICA

Para desenvolver um trabalho de redes neurais artificiais, alguns

conceitos de matemática são fundamentais. Os leitores poderão perceber que

tais conceitos são aprendidos em disciplinas básicas dos cursos de

engenharia, como cálculo e álgebra linear.

Funções. Segue abaixo duas funções básicas utilizadas em redes

neurais:

Função sinal, representada por sgn(x) é definida como:

( )

<≥

=0001

sgnxsexse

x

Figura 2 � Função sinal ou degrau unitário.

Função sigmoidal, representada por sigmoid(x) é definida como:

9

xexSigmoid −+=

11)(

Figura 3 � Função sigmoidal

Função Tangente Hiperbolica, representada por tanh(x/2) é definida

como:

x

x

eex−

−

+−

=

11

2tanh

Figura 4 � Função Tangente Hiperbólica.

Função Piecewise é uma aproximação linear da função sigmoidal. Sua

representação é vista abaixo:

10

≤≤≤−+

≥

5,005,05,05,0

5,01)(

xsexsex

xsexf

Figura 5 � Função Piecewise ou função linear por partes.

Vetores. Note que:

),...,,(),...,,(

21

21

m

n

yyyyxxxx

==

, são vetores.

Algumas operações podem ser realizadas utilizando os vetores x e y:

( )( ) ∑

∑

=+++=+++=+

=+++=

iimn

mn

in

yxyxyxyxyxyxyxyxyx

xxxxs

....,...,,

...

2211

2211

21

Matriz. Uma matriz de dimensões mxn é formada por m linhas e n

colunas. Quando m=n, a matriz é considerada como uma matriz quadrada.

Uma matriz mxn pode ser multiplicada por outra nxp, resultando numa

matriz mxp.

Matrizes de mesma dimensão podem ser somadas ou subtraídas,

componente por componente.

Um vetor pode ser representado por uma matriz 1xm ou mx1.

11

Gradiente e derivadas. No cálculo diferencial, um dos objetivos é

computar gradientes. Sendo y = f(x), o gradiente de f(x) num particular valor de

x pode ser descrito como (Bullinaria, [ca. 2000]):

xxfxxfLim

xyLim

xxf

xx ∆−∆+

=∆∆

=∂

∂→∆→∆

)()()(00

Algumas derivadas importantes:

axfbaxxf =+= )(')(

axxfaxxf 2)(')( 2 ==

xxh

xxgxfxhxgxf

∂∂

+∂

∂=+=

)()()(')()()(

1)(')( −== nn naxxfaxxf

axax aexfexf == )(')(

xxfxxf e1)('log)( ==

)cos()(')sin()( xxfxxf ==

A regra da cadeia, também que será útil durante as explicações sobre os

algoritmos, é conhecida da seguinte forma:

)(*)(')(*)(')('))(()( xgxhxhxgxfxhgxf +==

Para maior detalhamento nos conceitos de cálculo recomenda-se a

consulta de livros de Cálculo I.

12

Para finalizar os conceitos básicos de matemática, aproveitar-se-á a

abordagem sobre derivação e demonstrar-se-à o fundamento do método do

gradiente.

Se tivermos uma função f(x) e quisermos mudar o valor de x visando

minimizar a f(x), então devemos analisar:

Se 0>∂∂xf , então f(x) diminui com a diminuição de x.

Se 0<∂∂xf , então f(x) diminui se x aumenta.

Se 0=∂∂xf , então f(x) está num ponto de máximo ou mínimo.

Logo podemos diminuir f(x) alterando x de acordo com:

xfxx velhonovo ∂∂

−= η

Na expressão acima, verifica-se que a derivação mostra a direção para

onde se deve ir, visando a minimização da função.

Este procedimento é conhecido como Método do Gradiente

Descendente.

13

5. O PRIMEIRO NEURÔNIO ARTIFICIAL

A primeira tentativa de explicar matematicamente o funcionamento de

um neurônio foi feita pelo fisiologista Warren McCulloch e pelo estatístico

Walter Pitts em 1943.

O artigo sob o título �A Logical Calculus of the Ideas Immanent in

Nervous Activity� pode ser considerado como o marco zero das RNA´s.

Segundo Kovàcs (1996), o artigo teve relevante importância acadêmica,

embora simples.

Basicamente, o funcionamento do neurônio de McCulloch e Pitts,

também conhecido como MCP, pode ser descrito da seguinte maneira: haverá

uma saída Y, se o somatório da entrada ponderada pelos seus respectivos

pesos, for superior ao limiar do neurônio (Figura 1).

Figura 6 - Neurônio MCP (fonte: http://www.din.uem.br/ia/neurais/).

14

O neurônio MCP é um discriminador linear de entradas binárias. Assim

um vetor x de componentes { }pxxx ,...,, 21 estará uma região do espaço

euclidiano dividido por um hiperplano, representado pela equação

( )Θ−=

Θ−= ∑

=

xwfxwHy tn

ppp

1

quando [ ]1;0∈y . Onde os componentes do

vetor w são os pesos associados às entradas xp, Θ é o valor do limiar, f(x) é a

função degrau unitário (função sinal).

De forma mais clara, este discriminador linear dirá que 1=y se Ax∈ e

0=y se Bx∈ .

Logicamente o neurônio MCP só seria útil nos casos em que os

conjuntos a serem separados estivessem aglomerados no espaço nℜ de tal

forma que fossem separáveis por um hiperplano.

15

6. O PROCESSO DE APRENDIZAGEM

O processo de aprendizagem, também conhecido como treinamento,

consiste no processo de modificação organizada dos pesos, visando a

minimização de uma função de custo (Haykin, 2001).

Todo o conhecimento adquirido pela rede fica acumulado nos pesos

sinápticos. Analogamente à sinapse no neurônio biológico, o peso é a

�memória� da rede.

Podemos dividir o processo de aprendizagem em três partes bem

distintas. Inicialmente a rede neural é estimulada pelo ambiente. Como

resultando desta estimulação, o segundo estágio consiste nas alterações dos

seus parâmetros livres. Por fim, a rede neural passa a responder de uma nova

maneira ao ambiente que a estimula (Haykin, 2001).

Diversas regras de aprendizado foram propostas, no entanto nesta

monografia trataremos apenas de quatro destas regras. São elas a

aprendizagem por correção de erros, baseada em memória, Hebbiana e

competitiva.

Como visto em Haykin (2001), Kovács (1996) e Braga, et al (1998), dois

paradigmas norteiam o desenvolvimento de regras de aprendizagem. O

primeiro diz que a rede aprende sob supervisão externa. Já para o segundo

paradigma, a rede aprende sem que haja a necessidade de supervisão

externa, ou seja, não é necessário a presença de um supervisor. Tais

16

paradigmas são conhecidos como aprendizagem supervisionada e

aprendizagem não supervisionada respectivamente.

Aprendizagem por correção de erros. A natureza desta aprendizagem

é local, ou seja, os ajustes sinápticos ocorrem em torno de cada neurônio K.

Tais correções se dão através da minimização de uma função de custo que

nada mais é que a metade do quadrado da diferença entre a saída atual e a

desejada. Neste tipo de aprendizagem, apresenta-se à rede um vetor de

entrada e um vetor de saída esperada. Assim, após o vetor de entrada ser

trabalhado pela rede, a saída é comparada através da função de custo. Assim,

deseja-se que esta comparação seja minimizada (Haykin, 2001 e Braga, et al,

1998).

( ) ( ) ( )( )221 tytdt kk −=ε

Note que tal procedimento ocorre para cada neurônio k.

Este procedimento de minimização da função de custo ( )tε descrito

acima é conhecido como regra delta, ou regra de Widrow-Hoff. Pode-se

escrevê-la também da seguinte maneira genérica:

( ) ( ) ( )txtetw kkkl η=∆ , onde ( ) ( ) ( )kytdte kkk −= .

Aprendizagem baseada em memória. Nesta regra de aprendizagem as

experiências são classificadas numa superfície de resposta. Assim, cria-se uma

memória da qual a rede classifica futuros padrões.

Para esta aprendizagem geralmente utiliza-se o método do vizinho mais

próximo ou a função base radial.

Os algoritmos de aprendizagem baseada em memória se baseiam em

dois fundamentos. O critério para definir a vizinhança local e a regra de

17

aprendizagem aplicada aos dados de treinamento na vizinhança primeiramente

definida (Haykin, 2001).

Aprendizagem Hebbiana. Hebb propôs em 1949 a primeira regra de

aprendizagem baseada na neurobiologia. Esta regra ficou conhecida como

postulado de Hebb, e foi publicada em seu livro �The Organization of Behavior”.

�Quando um axônio da célula A está perto o suficiente para excitar uma

célula B e participa do seu disparo repetida ou persistentemente, então algum

processo de crescimento ou modificação metabólica acontece em uma das

células ou em ambas, de tal forma que a eficiência de A como uma das células

que dispara B é aumentada�. Hebb (1949, p. 62, citado por Haykin, 2001).

Assim podemos concluir que uma sinapse hebbiana usa um mecanismo

dependente do tempo, altamente local e correlacionada com as atividades pré

e pós sinápticas (Haykin, 2001).

Matematicamente, o aprendizado hebbiano pode ser escrito da seguinte

maneira:

( ) ( ) ( )( )txtynw jkkj η=∆

onde ( ) ( )( )txty jk é uma relação das atividades pré e pós-sinápticas.

Aprendizagem competitiva. Nesta regra de aprendizagem os

neurônios de saída competem entre si para se tornarem ativos. Logo, apenas

um neurônio de saída pode estar ativo em um determinado instante. Assim,

esta forma de aprendizagem é adequada para descobrir características

estatisticamente salientes, levando a uma classificação do conjunto de padrões

de entrada.

Alguns princípios são fundamentais nesta regra de aprendizagem.

Inicialmente os neurônios devem ser iguais entre si, exceto pelos pesos

sinápticos que são distribuídos aleatoriamente quando a rede é inicializada.

18

O segundo princípio é que os neurônios devem estar limitados quanto a

força. Por fim, deve existir com mecanismo de competição entre os neurônios,

onde aquele que ganha leva o direito de responder.

A arquitetura mais simples para este tipo de aprendizagem é composta

de uma única camada de saída, onde cada neurônio da mesma está conectado

a todos os sensores de entrada. Há também ligações laterais, entre os

neurônios da camada de saída, que funcionam como inibidores laterais.

( )

−

=∆perdekse

venceksewxw kjj

kj0

η

Onde: k = k-ésimo neurônio.

Xj = padrão de entrada.

Wkj = vetor de peso sináptico.

Aprendizagem supervisionada. Este paradigma da aprendizagem

também é conhecido como aprendizado com professor. Conceitualmente o

professor possui conhecimento sobre o ambiente, e utiliza este conhecimento

para indicar à rede qual caminho seguir.

No entanto a rede desconhece tal ambiente. São oferecidos à rede

padrões de entrada e de saída. Os dados de entrada são processados pelos

nodos, e a saída atual é comparada com a saída desejada, oriunda do prévio

conhecimento do ambiente pelo professor. Esta comparação é feita através de

uma função de custo.

19

Figura 7 � Aprendizado supervisionado (Adaptado de Haykin, 2001).

Podemos visualizar a função de custo como uma superfície de erro,

sendo os parâmetros livres como coordenadas. Nesta superfície, o que se

deseja é que o aprendizado leve a rede para o local de mínimo global, onde o

erro tende a zero (vide pág. 30).

Aprendizagem não supervisionada. Neste paradigma de aprendizado,

não há conhecimento prévio do ambiente externo. Também podemos

denominá-lo de aprendizado sem professor.

São oferecidas à rede as condições necessárias para uma análise

independente do ambiente. Todo o processo é balizado por esta análise

independente.

Este análise independente é feita tomando por base as regularidades

apresentadas pelos dados.

Figura 8 � Aprendizado não supervisionado (Adaptado de Haykin, 2001).

M eio Externo RNA

Estado do meio externo Resposta

Professor

RNAΣ Erro

Entrada

SaídaSupervisor

20

Problema da atribuição de crédito. Este problema foi exposto

inicialmente por Minsky (1961). A grande questão era como atribuir crédito ou

culpa de um resultado global aos neurônios que compões a rede neural?

Este problema torna-se evidente quando aplicamos o aprendizado de

correção de erro em uma rede de múltiplas camadas. A solução só foi

encontrada com o algoritmo da retropropagação do erro, que será estuda no

capítulo dedicado às redes MLP.

21

7. A EVOLUÇÃO DAS REDES NEURAIS ARTIFICIAIS

Em 1958 Rosenblatt demonstrou que se fossem acrescidas de sinapses

ajustáveis, as redes de nodos MCP poderiam ser treinadas (Braga et al, 1998).

Note que nesta altura do acontecimento, finalmente o termo treinamento foi

introduzido.

De maneira geral, a rede proposta por Rosenblatt era composta por

neurônios MCP como unidade básica e uma regra de aprendizado. Esta regra

nada mais é do que uma forma ordenada de atualizar os pesos das conexões

sinápticas das redes artificiais.

A arquitetura do perceptron era composta por uma retina (camada de

entrada), uma camada de associação e uma camada de saída formada por

unidades de resposta. Embora a topologia possua três níveis, ela é conhecida

como rede de camada única, uma vez que somente o nível de saída possui

características adaptativas. A camada associativa possui pesos fixos, definidos

antes do período de treinamento (Kovács, 1996).

No treinamento deseja-se obter o valor ∆w a ser aplicado no vetor de

pesos w, para ao final obter uma solução w(t+1) melhor que w(t). O algoritmo

de treinamento do perceptron sempre chega a uma solução para o problema

de separação de duas classes linearmente separáveis em um tempo finito.

Braga et al (1998) nos apresenta uma rotina de treinamento para uma

rede perceptron:

22

1. Inicializar η, e o vetor de pesos w.

2. Para cada par do conjunto de treinamento ( ){ }p

iid

i yx 1, ==Γ.

a. Atualizar o vetor de pesos para cada um dos neurônios da

rede segundo a regra ( ) ( ) ( )nxnenw kkkl η=∆

.

3. Até 0=e para todos os p elementos do conjunto de treinamento

em todos os nodos da rede.

Lembrando que uma rede perceptron tem sempre { }1,0∈y e { }1,0∈d .

Onde y é a saída atual e d é a saída desejada, e yde −= .

Enquanto Rosenblatt desenvolvia o perceptron, Widrow e Hoff

desenvolviam o modelo ADALINE (Adaptive Linear Neuron). Ambos possuíam

a mesma essência: os elementos de processamento realizavam operações de

soma ponderada que posteriormente era comparada a um valor de limiar.

O algoritmo de treinamento proposto por Widrow e Hoff ficou conhecido

por regra Delta (para detalhes matemáticos vide capítulo 4).

Em 1969 Minsk e Papert publicaram um documento de impacto da

ciência que estuda as redes neurais artificiais. Como conseqüência desta

publicação a década de 70 foi de completo obscurantismo para as redes

neurais. Nesta publicação, Minsk e Papert apontavam os defeitos das redes

neurais artificiais existentes até então.

A década obscura (que ficou conhecida como a década perdida) só foi

superada com os trabalhos de Hopfield (1982) a respeito de memórias

associativas e com os trabalhos de Rummelhart, Hinton e Willians (1986).

Estes últimos foram responsáveis pela divulgação e popularização do algoritmo

de treinamento conhecido como backpropagation ou retropropagação do erro.

Este algoritmo permitiu o treinamento das redes de multicamadas (MLP).

Tais redes por serem as mais implementadas atualmente serão discutidas em

um capítulo à parte.

23

Hopfield trabalhou com redes associativas que buscavam armazenar um

conjunto de vetores { }p

pdpy

1==ψ , de tal forma que se for endereçada com um

vetor y, retornará como saída um vetor ψ∈dpy que se encontra mais próximo

de y (Kovàcs, 1996).

Podemos citar como exemplo os modelos de Willshaw (1969), Kohonen

(1970 e 1974), Anderson (1968), a OLAM (Optimal Linear Associative Memory)

de 1989 e o modelo de Hopfiel (1982 e 1984).

Outro grupo de interessantes propriedades são as redes Self-

Organising. Este grupo apresenta a característica marcante de não haver a

presença de um supervisor. Podemos citar como exemplos as redes SOM

(1989), ART (1988, 1987 e 1990). Dedicaremos um capítulo a parte para as

redes SOM, também conhecidas como redes Kohonen.

Uma promissora área de pesquisa segundo Braga et al (1998) é a

combinação de técnicas para solução de problemas que quando tratados

individualmente por uma das técnicas não apresenta solução satisfatória.

A idéia é justamente combinar técnicas com a finalidade de obter uma

solução mais robusta e eficiente. O que muitas vezes não ocorre.

Braga et al (1998) diz que um modelo de computação verdadeiramente

inteligente tem maiores chances de ser desenvolvido se conseguir aglutinar

potenciais de diferentes paradigmas da Inteligência Artificial.

Estuda-se a integração de RNA´s com:

• Lógica Fuzzy

• Algoritmos genéticos

• Raciocínio baseado em dados

• Sistemas tutores

• Agentes Inteligentes, e muitos outros.

Outros tipos de redes que tem apresentado excelentes resultados são as

redes RBF, as redes construtivas e de processamento temporal. Devido à sua

crescente aplicação, iremos tratar das redes RBF em um capítulo à parte.

24

Adaptou-se da homepage Neural Network FAQ (2005) um breve

histórico dos estudos sobre redes neurais:

1. Supervisionado

1. Feedforward

! Linear

! Hebbian - Hebb (1949), Fausett (1994)

! Perceptron - Rosenblatt (1958), Minsky and Papert

(1969/1988), Fausett (1994)

! Adaline - Widrow and Hoff (1960), Fausett (1994)

! Higher Order - Bishop (1995)

! Functional Link - Pao (1989)

! MLP: Multilayer perceptron - Bishop (1995), Reed and

Marks (1999), Fausett (1994)

! Backprop - Rumelhart, Hinton, and Williams (1986)

! Cascade Correlation - Fahlman and Lebiere (1990),

Fausett (1994)

! Quickprop - Fahlman (1989)

! RPROP - Riedmiller and Braun (1993)

! RBF - Bishop (1995), Moody and Darken (1989), Orr

(1996)

! OLS: Orthogonal Least Squares - Chen, Cowan and

Grant (1991)

! CMAC: Cerebellar Model Articulation Controller - Albus

(1975), Brown and Harris (1994)

! Somente classificação

! LVQ: Learning Vector Quantization - Kohonen

(1988), Fausett (1994)

! PNN: Probabilistic Neural Network - Specht (1990),

Masters (1993), Hand (1982), Fausett (1994)

! Somente regressão

! GNN: General Regression Neural Network - Specht

(1991), Nadaraya (1964), Watson (1964)

25

2. Feedback - Hertz, Krogh, and Palmer (1991), Medsker and Jain

(2000)

! BAM: Bidirectional Associative Memory - Kosko (1992),

Fausett (1994)

! Boltzman Machine - Ackley et al. (1985), Fausett (1994)

! Séries temporais recorrentes

! Backpropagation through time - Werbos (1990)

! Elman - Elman (1990)

! FIR: Finite Impulse Response - Wan (1990)

! Jordan - Jordan (1986)

! Real-time recurrent network - Williams and Zipser

(1989)

! Recurrent backpropagation - Pineda (1989), Fausett

(1994)

! TDNN: Time Delay NN - Lang, Waibel and Hinton

(1990)

3. Competitivos

! ARTMAP - Carpenter, Grossberg and Reynolds (1991)

! Fuzzy ARTMAP - Carpenter, Grossberg, Markuzon,

Reynolds and Rosen (1992), Kasuba (1993)

! Gaussian ARTMAP - Williamson (1995)

! Counterpropagation - Hecht-Nielsen (1987; 1988; 1990),

Fausett (1994)

! Neocognitron - Fukushima, Miyake, and Ito (1983),

Fukushima, (1988), Fausett (1994)

2. Não supervisionados - Hertz, Krogh, and Palmer (1991)

1. Competitivos

! Vector Quantization

! Grossberg - Grossberg (1976)

! Kohonen - Kohonen (1984)

! Conscience - Desieno (1988)

! Self-Organizing Map

26

! Kohonen - Kohonen (1995), Fausett (1994)

! GTM: - Bishop, Svensén and Williams (1997)

! Local Linear - Mulier and Cherkassky (1995)

! Teoria da resonância adaptativa

! ART 1 - Carpenter and Grossberg (1987a), Moore

(1988), Fausett (1994)

! ART 2 - Carpenter and Grossberg (1987b), Fausett

(1994)

! ART 2-A - Carpenter, Grossberg and Rosen (1991a)

! ART 3 - Carpenter and Grossberg (1990)

! Fuzzy ART - Carpenter, Grossberg and Rosen

(1991b)

! DCL: Differential Competitive Learning - Kosko (1992)

2. Redução dimensional - Diamantaras and Kung (1996)

! Hebbian - Hebb (1949), Fausett (1994)

! Oja - Oja (1989)

! Sanger - Sanger (1989)

! Differential Hebbian - Kosko (1992)

3. Auto associadores

! Linear autoassociator - Anderson et al. (1977), Fausett

(1994)

! BSB: Brain State in a Box - Anderson et al. (1977), Fausett

(1994)

! Hopfield - Hopfield (1982), Fausett (1994)

3. Redes sem pesos

1. Hopfield - Hertz, Krogh, and Palmer (1991)

2. various networks for optimization - Cichocki and Unbehauen

(1993)

27

8. REDES DE PERCEPTRONS DE MÚLTIPLAS CAMADAS

Na publicação de Minsk & Papert, duras críticas foram feitas à rede

perceptron de Rosenblatt. A mais importante destas críticas era o fato da rede

Perceptron resolver somente os problemas linearmente separáveis.

Os problemas não linearmente separáveis só foram devidamente

resolvidos com a proposição de redes neurais artificiais com uma ou mais

camadas intermediárias (ou ocultas) conhecidas como redes Multilayer

Perceptron (MLP).

O treinamento de redes com camadas ocultas não é uma tarefa simples.

O problema encontrado durante o aprendizado das redes MLP era de como

definir o erro dos neurônios das camadas intermediárias?

Percebe-se nos parágrafos anteriores, uma rede MLP é composta de

uma camada de entrada, uma ou mais camadas intermediárias (também

conhecidas como camadas ocultas) e uma camada de saída.

Cada neurônio de uma rede MLP possui uma função de ativação não

linear e diferenciável. Estas características são essenciais para que as redes

MLP possam ser treinadas. Sendo a função de ativação diferenciável, torna-se

possível calcular o gradiente. Sendo este responsável pela indicação da

direção de ajuste dos pesos. A função mais utilizada é a função sigmoidal

logística. Em alguns casos também se utiliza a função tangente hiperbólica

(vide capítulo 4).

28

Na medida que caminhamos em direção à saída da rede MLP, as

funções de ativação implementadas se tornam mais complexas. Esta

complexidade reflete a divisão do espaço de decisão.

Assim, em uma rede MLP, o processamento realizado por cada neurônio

é definido pela combinação dos processamentos dos neurônios da camada

anterior.

Qual o tamanho da camada intermediária? Esta não é uma pergunta de

simples resolução. Existem diversos métodos para dimensionar o número de

neurônios das camadas intermediárias, na maioria das vezes isto de dá de

forma empírica e deve-se levar em consideração diversos fatores como

(Bullinaria, 2003):

• Número de padrões de entrada.

• Número de unidades de entrada e saída.

• Intensidade de ruído presente nos dados.

• Complexidade das funções ou classificações a serem aprendidas.

• Tipo de função de ativação.

• Algoritmo de treinamento.

O excesso de neurônios pode levar ao overfitting (memorização e

conseqüentemente baixo poder de generalização). Já o baixo número de

neurônios pode levar a um custo temporal elevado (às vezes nunca chegando

a um resultado ótimo).

Existem alternativas ao dimensionamento empírico. Após o treinamento

da rede, aplica-se a técnica de pruning, onde os pesos e neurônios irrelevantes

são descartados (Braga et al., 1998). A maior crítica que pesa sobre a técnica

de pruning é a desconsideração da correlação existente entre os neurônios.

Backpropagation. O principal algoritmo utilizado para o treinamento de

redes MLP é o backpropagation, também conhecido como retropropagação do

erro. Este é um algoritmo que utiliza o paradigma do aprendizado

29

supervisionado. Através de pares de entrada e saída os pesos são ajustados

buscando minimizar o erro.

O treinamento ocorre em duas fases. Na fase forward (para frente) a

saída da rede é definida. Numa segunda fase, conhecida como backward (para

trás), a saída atual é comparada com a saída desejada e atualizam-se os

pesos das conexões (Bullinaria, [ca. 2000]).

Nota-se que como o erro é propagado da saída em direção à entrada,

quanto maior a quantidade de camadas intermediárias, menos preciso e útil o

erro se torna.

A grande contribuição deste algoritmo foi solucionar o problema da

definição do erro dos neurônios das camadas intermediárias, possibilitando

com isso a atualização dos pesos da rede MLP.

Assim como a regra delta, a derivação da retropropagação do erro é

bastante simples. A função de custo a ser minimizada também é a soma dos

erros quadráticos:

( ) ( ) ( )( )2

12

1 ∑=

−=k

iii tytdtε

Lembramos que o algoritmo da retropropagação do erro requer que as

funções de ativação sejam contínuas e diferenciáveis, pois a alteração dos

pesos é definida de acordo com o gradiente do erro em relação ao peso.

jiw∆ α jiw∂

∂−

ε

Ao final das operações teremos:

ijji xw ηδ=∆

onde

jδ é o erro do neurônio j.

30

O treinamento de uma rede MLP através do algoritmo da

retropropagação do erro pode ocorrer em duas periodicidades diferentes: on-

line (padrão) ou batch (cíclico).

Quando os pesos são atualizados após a apresentação de cada padrão

de treinamento, denominados aprendizado on-line. Quando os pesos são

atualizados após todos os padrões serem apresentados (ao fim de um ciclo),

denomina-se aprendizado cíclico ou batch.

Problemas no treinamento. O treinamento não implica na garantia de

implementação da função desejada. Há casos de convergência para mínimos

locais, de demora excessiva e de overfitting (a rede fica especializada para os

dados a qual foi treinada e tem uma generalização ruim para dados

desconhecidos).

Sem dúvida, o principal problema encontrado é a convergência para um

mínimo local. Embora seja uma solução estável, ela não é mínima.

Figura 09 � Mínimo local (resultado a ser evitado) e mínimo global

(resultado desejado), (Fonte: <www.inf.ufrgs.br/procpar/disc/cmp135/trabs/

rafael/T2/RNA1.ppt>).

As alternativas para reduzir a ocorrência de mínimos locais são (Braga

et al., 1998):

31

• Utilizar uma taxa de aprendizado decrescente.

• Acrescentar neurônios intermediários.

• Acrescentar o termo Momentum.

• Adicionar ruído aos dados.

Das alternativas apresentadas, a mais elegante e sem dúvida mais

utilizada é a adição do termo momentum, resultando na seguinte regra para

atualização dos pesos (Braga et al., 1998):

( ) ( ) ( ) ( ) ( )( )11 −−++=+ twtwtxtwtw ijijijjiji αηδ

Quanto ao overfitting, que é a perda de capacidade de generalização, as

alternativas apresentadas por Braga et al (1998) são:

• Encerrar o treinamento mais cedo.

• Aplicar a técnica de pruning.

Algumas variações do algoritmo backpropagation são encontradas na

literatura como o Quickprop (Fahlman, 1988) e o Rprop (Riedmiller, 1994).

32

9. REDES RBF

As redes RBF são redes multicamadas onde as camadas ocultas e de

saída possuem regras completamente diferentes, das MLP. Assim como os

pesos correspondentes têm propriedades e significados diferentes. Portanto

fica claro que a técnica de aprendizado para as redes RBF é diferente das

redes MLP.

Na maioria das redes multicamadas a função de ativação aplicada a

cada nodo utiliza como argumento o produto escalar do vetor de entrada (x) e

do vetor de peso (w) deste nodo. No caso das redes RBF, a função de ativação

leva como argumento a distância entre seus vetores de entrada e de peso.

Comparando as redes MLP com as redes RBF, nota-se que a primeira

utiliza-se nos nodos intermediários funções de base sigmoidal. No segundo tipo

de rede, os nodos intermediários utilizam funções de base radiais. A ativação

das unidades escondidas, numa rede RBF, resultam da função base radial

( )jjj v σµφ ,,= (Bullinaria, [ca. 2000]).

As redes RBF possuem uma arquitetura típica, sendo uma camada de

entrada, uma camada de saída e uma única camada intermediária. Como foi

dito no primeiro parágrafo, cada camada possui um papel específico.

A camada intermediária que possui os nodos com funções de ativação

de base radiais agrupa os dados em clusters. Nesta camada o problema passa

33

de não linearmente separável para linearmente separável. A camada de saída

classifica os padrões recebidos da camada anterior.

As funções de base radiais são ( )jjj v σµφ ,,= , onde v é a distância

euclidiana µ−x , µ é o centro e σ é a largura da função base radial.

A resposta yi de um nodo j é definido sendo:

( )∑=

+−=k

ijijij wxwy

10µφ

Cada nodo da camada intermediária agrupa os padrões em um cluster,

que é posteriormente utilizado pelos nodos da camada de saída.

Recomenda-se utilizar um número de funções radiais menor que o

número total de padrões de treinamento.

As funções de base radial comumente utilizadas são função gaussiana,

função multiquadrática e função thin-plate-spline (Haykin, 2001).

O treinamento é dividido em dois estágios. No primeiro o número de

funções radiais e seus parâmetros são determinados por métodos não

supervisionados.

Nesta primeira fase, diferentes abordagens podem ser adotadas como:

• Seleção aleatória dos centros das funções radiais.

• Utilizar técnicas de clusterização. Geralmente se aplica o

algoritmo k-means.

34

10. REDES AUTO-ORGANIZÁVEIS

As redes auto-organizáveis (do inglês self-organising - redes SOM) são

conhecidas também como redes SOFM (Self-organising Features Maps) ou

redes Kohonen.

Nas redes SOM os neurônios estão espacialmente organizados em

forma de um reticulado. Assim, neurônios topologicamente próximos tendem a

responder a padrões ou estímulos semelhantes. Isto só é possível devido ao

uso de uma função tipo �chapéu mexicano�.

Esta função divide o espaço em três regiões:

• Excitatória: quando os neurônios vizinhos estão dentro de um raio

R1.

• Inibitória: quando os vizinhos estão fora do raio R1, porém dentro

do raio R2 sendo R2 > R1.

• Levemente excitatória: neste caso os neurônios vizinhos estão

numa área superior ao raio R2, porém dentrode um raio R3.

Sendo R3>R2>R1.

Quando um padrão de entrada [p] é apresentado e uma unidade é muito

parecida com [p], a semelhança desta unidade e de seus vizinhos é aumentada

durante o treinamento. Em outras palavras, quando um nodo vence a

35

competição (produz a maior saída para uma dada entrada), ele e seus vizinhos

têm seus pesos ajustados.

Nota-se que nas redes SOM os nodos são localmente interconectadas, e

o processo de adaptação é restrito ao nodo vencedor e seus vizinhos.

Por se organizarem topologicamente, os padrões detectados por um

neurônio estão relacionados com as coordenadas da posição deste neurônio

dentro do reticulado.

Logo, as localizações espaciais guardam características dos padrões

classificados. Assim o estado de ativação de um nodo é determinado pela

distância entre seu peso e o vetor de entrada.

Figura 10 � Arquitetura de uma rede SOM (fonte:

<http://www.cies.staffs.ac.uk/somview/som-vect.gif>).

∑=

−=n

ijiij wxy

1

Onde yj é o valor de ativação do neurônio j.

O treinamento das redes SOM é competitivo. A cada novo padrão de

treinamento apresentado, os neurônios competem pelo maior valor de saída.

Aquele neurônio vencedor tem seu peso atualizado junto com seus vizinhos.

36

Durante o treinamento, a taxa de aprendizado o raio de vizinhança são

constantemente decrementados.

O treinamento das redes SOM ocorre em duas fases: ordenação e

convergência.

Na fase de ordenação busca-se agrupar os neurônios do reticulado em

clusters de modo a refletir a distribuição dos padrões de entrada. Ao final desta

fase a rede sabe quantos clusters identificar e onde no mapa eles se

encontram.

Numa segunda fase onde a taxa de treinamento é baixa assim como o

raio de vizinhança ocorre um refinamento do mapa, aprimorando o

agrupamento previamente realizado.

Os principais componentes das redes SOM são:

• Inicialização: todos os pesos são inicializados com pequenos

valores aleatórios.

• Competição: para cada padrão de entrada, os neurônios

computam o valor de ativação e aquele que apresentar o maior

valor é considerado o vencedor.

• Cooperação: o espaço de vizinhança do neurônio vencedor é

estabelecido.

• Adaptação: os neurônios excitados têm os valores de ativação

aumentados.

Os passos para se obter uma rede SOM ajustada são os seguintes

segundo Bullinaria [ca. 2000]:

1. Inicialização: atribuir valores aleatórios aos pesos.

2. Amostragem: escolher um vetor x do espaço de entrada.

3. Cálculo: encontrar o neurônio vencedor [I(x)] menor distância

euclidiana entre o vetor de entrada e o vetor de pesos.

4. Atualização:

37

( ) ( ) ( )( )jiixIjji wxttw −Τ=∆ ,η

5. Seqüência: retornar ao passo dois até o mapa não sofrer alterações.

As redes com treinamento não supervisionado aprendem a formar sua

própria classificação dos dados de treinamento sem ajuda externa.

Por serem geralmente construídas com um reticulado de duas

dimensões, as redes SOM também são muito usadas para transformar um

sinal de entrada multidimensional em um sinal de duas dimensões.

38

11. CONCLUSÕES

Como foi discutido ao longo desta monografia, o grande potencial das

redes neurais é devido a sua capacidade de aprender e de generalizar

informações. Tais características são muito interessantes no tratamento de

diversos problemas encontrados no cotidiano de diversas áreas do

conhecimento.

Diversos campos podem ser explorados para a aplicação de redes

neurais na engenharia florestal. Entre eles destaca-se a regulação florestal, o

controle de processos e ajuste de modelos não lineares normais.

Obter uma floresta regulada é produzir e utilizar a floresta e seus

produtos de forma contínua (Davis, 1966). Ainda sobre a regulação florestal,

que é um dos clássicos problemas do manejo florestal, pode-se encontrar em

Rodrigues (1997), que a produção florestal deve atender a especificações de

mercado, operacionais e de capital, garantindo o emprego da mão de obra,

minimizando o custo ou maximizar o lucro.

O uso de redes neurais no controle de processos consiste em treinar

uma rede de forma que ela saiba adaptar os parâmetros do sistema às

diferentes situações que possam ocorrer durante o funcionamento do mesmo.

No ajuste de modelos não lineares encontram-se muitas dificuldades,

pois as técnicas de ajuste são sensíveis a mínimos locais. É certo que entre os

inúmeros métodos existentes, uns são mais suscetíveis que outros. O uso de

redes neurais fornece formas alternativas de se evitar a ocorrência de mínimos

39

locais. Note que, mesmo apresentando suscetibilidade ao mínimo local, a rede

neural pode agregar qualidade no discernimento destes pontos indesejáveis.

Diante dos pontos aqui apresentados, nota-se que há um grande

potencial de aplicação desta técnica de inteligência artificial no tratamento de

problemas da engenharia florestal.

Não é interesse deste trabalho substituir as publicações já feitas. E sim,

fornecer aos pesquisadores, professores e estudantes uma síntese do

conhecimento existente atualmente, a fim de que os estudos e aplicações das

redes neurais passe a ser uma realidade, no setor florestal.

40

12. REFERÊNCIAS BIBLIOGRÁFICAS

BRAGA, A. de P.; CARVALHO, A. P. de L. F. de; LUDEMIR, T. B. Fundamentos de redes neurais artificiais. Rio de Janeiro: DCC/I,, COPPE/Sistemas, NCE/UFRJ, 1998. 246 p. il. BULLINARIA, J. A. Apresenta informações sobre Introduction to neural network. Disponível em <http://www.cs.bham.ac.uk/~jxb/inn.html>. Acesso em: [ca. 2000]. DAVIS, K.P. Forest management: regulation and valuation. 2. ed. New York: McGraw-Hill, 1996. 519 p. HAYKIN, S. Redes Neurais: princípios e prática. 2. ed. Porto Alegre: Bookman, 2001. 900 p. KOVÁCS, Z. L. Redes neurais artificiais: fundamentos e aplicações. 2. ed. Ver. e amp. São Paulo: Colledium cognitio, 1996. 174 p. NEURAL NETWORK FAQ: Introduction. Desenvolvido por Sarle, W. S., 1997-. Apresenta informações sobre Redes Neurais. Disponível em <tp://ftp.sas.com/pub/neural/FAQ.html> Acesso em 15 maio 2005. RODRIGUES, F. L. Regulação de florestas eqüiâneas utilizando programação linear. 1997. 117 f. Dissertação (Mestrado em Ciência Florestal) - Universidade Federal de Viçosa, Viçosa.

41

RODRIGUES, F. L. Metaheurística e sistema de suporte à decisão no gerenciamento de recursos florestais. 2001. 225 f. Tese (Doutorado em Ciência Florestal) - Universidade Federal de Viçosa, Viçosa. VON ZUBEN, F. J. Uma caricatura funcional de redes neurais artificiais. Learning and Nonlinear Models, Campinas, v. 1, n. 2, p. 77-87. 2003

2005 - Gorgens - Redes Neurais Uma Promissora Ferramenta Para o Gerenciamento Florestal

Documents

Transcript of 2005 - Gorgens - Redes Neurais Uma Promissora Ferramenta Para o Gerenciamento Florestal