Avaliação do Aprendizado de Caracteres em Redes …Avaliação do Aprendizado de Caracteres em...

Avaliação do Aprendizado de Caracteresem Redes Neurais sem Pesos

Cristiane A. Medeiros , Teresa B. Ludermir, -Wilson R. de Oliveir aDepartamento de Informát.ica <:

Universidade Federal de Pernambuco - CCENCaixa Postal 7851

50670-970 Recife - PEBrasil

[email protected] e.br e [email protected]

Abstract- One of the useful characteristsof neural networks is the capacity of recog-nizing patters from the knowledge of similarpatterns.In this work we analysed the performance ofweightless networks: RAM, PLN, MPLN eGSN, in the task of alphabet character recog-nition. We study the efecüof changing someof parameter which define the architectureand changing the training strategies.

Resumo - Uma das características úteisdas redes neurais é a capacidade de -recon-hecer padrões a partir do conhecimento depadrões semelhantes.Neste trabalho avaliamos o desempenho dasredes booleanas: RAM, PLN, MPLN e GSN,na tarefa de reconhecer caracteres do alfa-beto indu-arábico. São estudados os efeitosda mudança de alguns parâmetros que de-finem as arquiteturas e nrudanças na formade treinamento das redes.

1 Introdução

Podemos definir uma rede neural como sendo umconjunto de neurônios interconectados , de modoque a aç ão coletiva destes neurônios reproduz algu-mas habilidades humanas, tais como memória asso-ciativa em que estamos interessados.Uma rede neural é formada, basicamente, por tr escomponentes fundamentais: os neurônios - que sãoas unidades básicas de armazenamento de infor-mações, a arquitetura -. que armazena informações-relativas aos relacionamentos entre os neurônios eo algoritmo de aprendizagem - que é utilizado paramodificar o comportamento da rede com a intençãode adaptá-Ia a solucionar uma determinada tarefa .De uma maneira ampla, as pesquisas na área dedes Neurais Artificiais (RN.ç\.) se baseiam em doistipos de modelos de neurônios: Neurônios com Pe-sojl] e Neurônios sem Peso[2] . Os Neurônios comPeso, formados por neurônios do tipo McCulloch-

Pitts , se caracterizam -pe la existência de uma se-qüência de terminais de ent rada onde a cada te r-minaI está associado um peso. A adaptabilidad edo neur ônio é feita a través desses pesos que de-terminam o grau de influ encia que um a deter-minad a entrada possui na ativação do neuronio.Os Neurôni os sem Peso, tam b ém chamados debooleanos, são caracterizados po r não possuírem pe-sos va riados. Nestes mod elos , as informações sâoarmazenadas em div ersas posições de memória in-te rn as aos neur ónios, A ação que um dad o neurou ioexerce sobre outro é fun ção dos va lores armazena-dos em suas posi ções de memória.Podemos citar como vantagem das Red es Neuraissem Peso em rela ção as Redes Neurais com Pesoum ap rendizado consi deravelmente mai s rápid o e asua fa cilid ad e de implemen tação em hardware .

Exi stem várias generalizações das Redes Neura issem Peso, dentre as qu ais po demos c i t.ar: R.AM.PLN , MPLN e GSN.O neur ônio RAM [3], que recebe e pr oduz valoresbinários, é capaz de realizar qualquer fun ção lógic acom um dado número -de entrad as. O PLN [4] éuma ampliação do uso dos dispositivos RAM coma inclus ão de um terceiro valo r lógico - " u' (dontknow) - como conte údo a ser a rmazenado em seusneur ônios. No MPLN [5] cada neuronio armazenauma probabilidade (O >. 1) de responder comum dos valores booleanos predefinidos qu ando éacessada. O GSN [6] se asseme lha ao PLN pelofato de que ambos podem armazenar os tres va loresnas células, se diferenciando no fato de que é ca pazde receber e gerar os t r ês valor es, além de su a fasede aprendizado possuir um estágio onde a rede ver-ifica se o padrão pode ser aprendido sem esquece rinformaç ões aprendidas an teriormente.

Est e ar tigo tem como objetivo analisar. comparati-vamente, o desempenh o de redes formadas por ess-es quatro t ipos de neu roni os bo oleanos aplicados àtarefa de reconhecimen to de padrões . A utilizaçãodest es modelos em urn a determinada tarefa carac -teriza a contribu ição deste t rabalho para a sub-áreade aplicação , demonstrando uma aplicação possívelpara estes modelos , bem como a su a ad equação aesta tarefa .

388

2 Arquitetura das Redes

Uma arquitetura pode ser entendida como um con-j unto de parâm etros a respeito de como os neurôniosda rede se inter-relacionam : os tipos de conexõesent re os neur ônios , o agrupamento de neurônios emcamadas, a es tru tura organizacional destas cama-das e o número de conexões ent re os neurônios darede. Uma mesma arquitetura pode ser utilizadacom diferentes neurôn ios obtendo resultados distin-tos .

Ut ilizamos para os exp erimentos diversas arquite-t ura s, que podem ser separadas em dois conjuntos:um primeiro constituído por redes de uma únicapir âmide e um segundo form ado por redes de váriaspir âmides denominadas redes de discriminadores.Por pir âmide podemos entend er agru pamentos deneu ronios em camadas com um número progressi-varn ente menor de neurônios em cada camada. Onúmero de neurônios de um a camada é igual aon úmero de neurônios da camada anterior divididopelo número de ent.radas dos neurônios da camadaatual, como ilus tra a Figura 1. Em uma rede dediscr iminadores cada pirâmide, denominada discri-min ador. é t reinada par a responder a uma determi-nada classe de padrão.Os neurônios são conectados aos elementos da ma-tr iz de ent rada de maneir a aleatória , utilizando-se a

' regra do fan- out. As ligações intermediárias entre ascamadas também são geradas de maneira aleatória.As diversas a rquit.e turas mencionad as serão explici-t.adas ao se descrever os experimentos onde foramutili zadas.

saida

saida

piramide n

Figure 1: Rede de Discriminadores Piramidais

3 Análise do Desempenho

Par a avalia r o desempenho das 'redes RAM , PLN,lVl PLN e GSN , foi necessári o a escolha de uma ta-orefa a ser executada pelas redes, a saber - o reco-nh ecimento de padrões. Em seguida selecionamos

uma base de dados, onde estão contidos os padrõesa serem utilizados pelas redes . O conjunto de dadosescolhido era formado pelos caracteres digitalizadosdas letras do alfabeto, num total de 26 classes. Porclasse entenda-se um conjunto de padrões que cor-responde a um mesmo caracter . Cada classe contém300 padrões digitalizados em 384 pontos brancos epretos, numa matriz de 24 x 16. Temos na Figura2 um exemplo de um padrão pertencente a classeque reune os caracteres da letra "A" . Em [7] algu-mas característ icas das redes RAM, PLN e MPLNforam levantadas para um problema similar, porémde natureza distinta ao exposto neste artigo.O objetivo da análise é verificar, comparativam én-te, como as redes se comportam, quando ocorremvariações de alguns parâmetros, tais como: tipo dearquitetura, tamanho do conjunto de treinamento econect ividade dos neurônios.

Figure 2: Exemplo de Padrão

3.1 Primeira Simulação

O tamanho do conjunto de treinamento é a quan-tidade de padrões por class e apresentado a rede nafase de aprend izado. A escolha do tamanho idealpar a este conjunto é um fator fundamental parao desempenho das redes no pr ocesso de reconhe-cimento. Para avaliar como se comportam as redesquando variamos este parâmetro elaboramos umasimulação que estabelece a cur va Percentagem deReconhecimento versus Tamanho do Conjunto deTreinamento .Nesta simulação apenas uma class e de padrões foiprogressivamente ensinada para a rede e, a cadaN padrões ens inados, avaliamos a percentagem depadrões da mesma classe que a rede foi capaz dereconhecer.

389

o algo ritmo utilizado pode ser descrito como a se- em uma determinada camada.gu ir:

RAM

3 .2 Segunda Simulação

1.0ocQ)

E'0Q) 0.5..cc G-------0 Seq 1ooQ)a:

0.0O 100 200 300

Padroes Ensinados

1.00oCQl 0.98E·uQl0.96.cco G-8 Seq 1o

Ql 0.94 6-6 Seq2a:

0.92O 50 100 150

Padroes Ensinados

MPLN1.0

ocQl 0.8E'uQls:co 0.6oQla:

0.4O 50 100 150

Padroes Ensinados

Figure 3: Primeira Simulação

O número de entradas por neurônio , o número deneurônios por camada e o número de camadas sãofatores que afetam a propagação de informaçõesatravés das redes. No intuito de ava liar o efei-to da variação destes parâm etros , fizemos simu-lações onde est es parâmetros são variados . Os re-sultados são mostrados na Figura 4. Cada curvano gráfico corresponde a uma arquitetura distin-ta. Os parâmetros de cada uma das arquiteturasencontram-se definidos na Tabela 1.Observe que um aumento no número de entradas

Arq 1 2 3 4 5CMD 8 5 4 4 41 E 2 2 2 4 8

N 192 192 192 96 482 E 3 4 6 4 4

N 64 48 32 24 123 E 2 4 4 4 4

N 32 1 2 8 6 34 E 2 4 8 6 3

N 16 3 1 1 15 E 2 - 3 - - -

N 8 1 - - -6 E 2 - - - -

N 4 - - - -7 E 2 - - - -

N 2 - - - -8 E 2 - - - -

N 1 - - - -

Os parâmetros da arquitetura utilizada nestas simu-lações encontram-se especificados na Tabela 1 (Arq1). Foram testados a cada aprendizagem todos os300 padrões disponíveis na base de dados. O valorlimite para aprendizagem foi, também, o númeromáximo de padrões disponíveis.A Figura 3 mostra os resultados obtidos no aprendi-zado da letra" A" para cada uma das redes : RAM ,PLN e MPLN . Em cada um dos gráficos mostradostemos duas curvas correspondendo, cada uma delas ,a uma dada sequ ência de apresentação dos dados nafase de treinamento .Os gráficos do GSN não estão plotados por seremgráficos monótonos, indicando uma percentagem dereconhecimento de 100% desde o primeiro padrãoensinado, para ambas as sequ ências. Isto deve-seao fato do algoritmo de reconhecimento implemen-tado para é.3 redes GSN visar minimizar as respostasindefinidas procurando sempre por uma posição dememória que não armazene um valor indefinido.Observamos que todas as redes conseguem aprendera classe de padrões proposta.A ordem de apresentação dos padrões de ensino, defato , influencia na aprendizagem dos padrões , comopodemos notar nos gráficos.

1. Ens ine N padrões de uma det erm inada classe a rede.

2. Tes te P pad rões da mesma classe ensinada .

3 . Volte ao passo 1 enqua nto o número de padr ões ensi -nados for men or q ue um certo va lor limite estipuladoprevi amen te .

Onde: Arq é o número da arquitetura, CMD é. onúmero de camadas da rede , E é o número de entra-das utilizado na camada e N o número de neurônios

Tabela 1: Arquiteturas

390

RAM

implica em um número maior de padrões necessáriospara o recon hecimento total. Isto ocorre po rque ummaior número de ent radas implica em um maiornúmero de caminhos a serem adaptados ao reco-nhecimento do padrão.

1.0o0.8

E'u 0.6a>.c§ 0.4o0.20.0

O 100 200 300Padroes Ensinados

PLN

tes o Isto ocorre porque o caráter determ inístico doneurônio RAM define, desde a pr imeir a camada,qual o caminho a ser seguido pelo padrão de en-trada .Nas arquiteturas 4 e 5 mod ificamos o número de co-nexões das redes com a matri z de entrada, obtendoassim os resultados indicados no gráfico corres pon-dente a rede RAM . Concluímos que um aumentodo número de entradas na primeira camada para arede RAM afeta o aprendizado de maneira similaràs alterações das arquiteturas 2 e 3 sob re o PLN eo MPLN. As alte rações dos par âmetros na primeiracamada afetam, do mesmo modo já menci onado, asredes PLN e MPLN . As cur vas par a as arquitetu-ras 4 e 5 nas redes PLN e MPLN não são mostradospara não satura r a figur a.

3.3 Terceira Simulação

Figure 4: Segunda Simulação

A maioria dos pro blemas de reconhecimento de pa-drões necessita reconhecer uma determ inada quan-tidade de classes de padrões e não apenas uma ún icaclasse . Por estarmos tratando com redes booleanaspoderíamos tentar fazer com que cada rede, forma-da por um única pirâmide, fosse capaz de memori-zar duas classes de padrões distintas.Simulamos um rede onde dois padrões de classesdistintas são apresentados simultaneamente na fasede aprendizado, de maneira similar as simulaçõesanteriores , e então, na fase de teste , a percentagemde reconhecimento de cada um dos dois tipos declasses foi avaliado. Podemos descrever o algoritmout ilizado como a seguir:

1. Ensine N padrões da classe 1 a rede com resposta dese-jada 1.

2. Ensine N padrões da classe 2 a rede com resposta dese-jada O.

3. Teste P padrões de cada classe (1 e 2) .4. Volte ao passo 1 enquanto o número de padrões. ens i-

nados for menor que um certo valor limit e est ipuladopreviamente .

Na Figura 5 encontramos os resultados para t rêsdas redes .O gráfico do RAM não figura por seus resu ltadoster em sido monótonos, indicando 100% de reconhe-cimento para uma classe e 0% para a outra classe .O PLN event ualmente consegue reconhecer as du asclasses, entretanto estas regiões se mostram impre-visíveis, sendo muito sensível ao par de classes queestão sendo memorizados pela rede. No MPLN po-demos percebe r que os padrões de classes distintasapresentam interferência destrutiva, ou seja, a a-prendiz agem de uma classe, em geral, implica naperda de aprendizagem da outra. Assim concluímosque as redes RAM, PLN e MPLN não apresentamum desem penho adequado para memoriz ar as duasclasses distintas . O GSN apresentou um melhor de-sempenho, se o tamanho do conjunto de t reinamen-

G------€) Arq 1fr------f::. Arq 2G------EJ Arq 3

100 200 300Padroes Ensinados

100 200 300Padroes Ensinados

0.6

0.4O

0.4O

1.0oEa>E 0.8'ua>.ccoüa>a:

1.0o-ca>E 0.8 G--€) Arq 1'ua> fr------f::. Arq 2.cc

G---fJ Arq 3o 0.6oa>a:

Note que as arquiteturas com mais entradas paraa rede RAM (4 e 5) são distintas das arquiteturascom mais entradas para as redes PLN e MPLN (2 e3) . Para estas duas últimas mantivemos o númerode entradas da primeira camada igual ao da arqui-tetura 1 e aument amos o número de ent radas das·camadas pos teriores, obtendo assim uma sensívelmudança no desempenho das redes . Esta mesmamudança par a a rede RAM não produz absoluta-men te nenhuma alte ração na curva da arquite tura1, mostrando que par a esta rede as camadas in-termediárias não possuem qualquer efeito sobr e oaprendizado, como ficou evidenciado em out ros tes-

39 1

to não uItrapassar um determi nado valo r . a part irdo qual a rede satur a .

A rede de di scr irn inadores GSN , po r a.pr esent.ar ummelh or desempen ho no aprendizado de pares declasses de padrões. enco ntra-se ilust.rad a na Figu -ra 6.

Letra A.' Letra O

50 100 150 200 250 300Padroes Ensinados

1.00

o 0.95c11lE 0.90 ·'(311l..cc 0.85oo11la:

0.80

0.75 o

GSN

F igure (j: Qu arta Simulação

Notamos que o desempenho é se ns ive lm ente melh ordo que aque le apresentado por lima ún ica pir amide.não chegando a rede a sat u ra r .

Por fim resolvem os ava lia r o car;Í1.p r di scriminar ivodas redes. O expe r imento co ns ist iu em a presenta ràs redes pad rões progr essi vamen te m a is di st a nl.esdos pad rões ens inados . e então ava lia r a ca pac ida -de de reconhec ime nto das red es . Abaix o te rnos oalgor itmo qu e descreve este expe rime nto .

3 .5 Quinta Simula ção

1. Ensine N padrões de uma determinada classe a rede .

2. Faça D igual a zero.

3. Teste P padrões com distância de Hamm ing D.

4. Enquanto a distância de Hamming for menor que 1.incremen te-a e volte ao item ante rior.

300

300

300

G-------€) A

100 200Padroes Ensinados

G-------€) AMPLN

GSN


G---El A


"- -1. nA I A A I

A

( -

/\--A OA

A I I

l J6f'

{YJ

I

1.0oEQ)

E'(3Q) 0 .5.L::cooQ)a:0.0

O

oEQ)

E'(3

0.5cooQ)a:

1.0

1.0

0.0O

0.0O

oEQ)

E'(3

0.5coüQ)a:

Figure 5: Terceir a Simulação

3 .4 Quarta Simulação

Visando soluc ionar a deficiên cia de aprend izado dasred es com ape nas uma única pirâm ide , implem en-tamos redes de discriminad or es para os qu a tro tiposde red es . Tes tas redes cada pirâmide se especia lizano reconhecimento de uma certa classe. Vale fri sar ,que não se trata de pirâmides indepen dent es umadas outras , po is durante a fase de treinamento to-das as pirâmides receb em informações de que classenão devem aprende r.

O procedimento ac ima estabe lece cada um a das cur-vas que vemos na Figura 7 para a rede RA ;V!. ut i-lizando a Arquitetura 1 da Tabela. Cada uma dasseis curvas corresp onde a um dado valor de padr ôesna memóri a , conforme a legenda , apren sent.ados naseqü ência inversa (2) .

Observe que os valores obtidos para D=O est.áo de"acordo com os resu ltados mostrad os na Figu ra 3 pa-ra a red e RAM com Seq 2. Vem os que a medi da queos padrões são distor cidos a red e rapi d amen te deixade reconhecê-los. ev ide nciando o forte ca ráte r d is-cr im ina t. ivo dest a rede . como j á havia sido notadoem [7].As demais redes ap resentaram um reconhecim ent.oelevado mesmo para grandes distorções mostrandoum ca ráter discrimina tório não satisfa tó rio.

392

-- - ------- - - -

[2]RAM

Figure 7: Quarta Simulação

Ludermir, T .B. e De Oliveira, W.R.Weightless Neural ModelsComputer Standards & Interfaces,1994, vo1.16, pp . 253-263Aleksander, LEmergent Intelligent Progressivelytructerd Pattern Recgnition NetsPattern Recgnition Letters, volume 1,pp. 375-384, 1983 .

Kan, W . and Aleksander, I.RAM-Neurons for Adaptative ImageTransformations TasksIEEE Proceedings of InternationalConference on Neural NetworksSan Diego, pp. 541-548, 1988.Myers, C.E.Output Functions for ProbabilisticLogic NodesProceedings of IEEE 313 pp.310-314,1989.Carvalho Filho, E .C.B. , Fairhurst,M.C . and Bisset, D.LArchitectures for Goal-Seeking Neu-ronsJournal of Intelligent Systems, vol. 2,no.l,pp.95-120Medeiros, C.A . e Ludermir, T .b.Avaliação do Aprendizado de RedesNeurais sem PesosII Simpósio Brasileiro de Redes Neu-rais pp. 159-164, 1995.

[3]

[4]

[5]

[6]

[7]

0.20

G--0 20G----EJ 40,"- -<) 60l'r-----f:!. SO4-----<l 100'f-------'!i 120

/

2 ::r-ai iE 0.6 t.c§ 0.4U li

0.2

0.00.00 0.05 0.10 0.15

Distancia de Hamming

4 Considerações Finais

Nos experimentos realizados utilizamos diversasarquiteturas formadas por redes de uma únicapirâmide e por redes de discriminadores piramidais.A avaliação mostrou que os quatro tipos de redesapresentam desempenho distintos na aprendizagemde uma única classe de padrões e que, variações naarquitetura e na ordem de apresentação do conjun-to de treinamento influenciam no desempenho glo-bal das redes. Concluímos que, para a aprendiza-gem de mais de uma classe de padrões, arquiteturascom úni ca pirâmide não são suficientes e avaliamos,como alternativa, o desempenho de uma rede dediscriminadores. Observamos a necessidade de au-mentarmos a capacidade discriminativa das redesMPLN , PLN e GSN que por vezes generalizam maisque o desejável.O valor deste tipo de estudo comparativo chama anossa atenção para fatores de relevância na imple-mentação de sistemas práticos, como é o caso doreconhecimento de padrões .Possíveis extensões deste trabalho seriam: a ava-liação de uma possível determinação dos padrõesque contribuem de maneira construtiva ·e destruti-va - afim de estabelecer uma seqüência ótima. para aapresentação dos dados na fase de aprendizado, si-mulações com uma maior quantidade de classes depadrões e a implementação de outros tipos de al-goritmos de aprendizados , como por exemplo redesau to-organizadas.

References

[1] MaCulloch, W.S . and PittsA Logical Calculus of the Ideas Imma-nent in Nervous ActivityBulletin of Mathematícal Biophysics,1943, vol. 5, pp. 115-133

393

Avaliação do Aprendizado de Caracteres em Redes …Avaliação do Aprendizado de Caracteres em...

Documents

Transcript of Avaliação do Aprendizado de Caracteres em Redes …Avaliação do Aprendizado de Caracteres em...