Qualificação

1

Uso do Coeficiente de Correlação Linear de Pearson no Aprendizado via Backpropagation

Diego Santiago de Meneses Carvalho1, Areolino de Almeida Neto1

1Departamento de Informática – Universidade Federal do Maranhão (UFMA)São Luís – MA – Brasil

[email protected], [email protected]

Abstract. This paper proposes a variation to learning rate based on the Pearson correlation coefficient. The variation proposed is particular to each weight being determined during the backpropagation algorithm training, improving its convergence time and accuracy. The backpropagation algorithm is the most popular for training Multilayer Perceptron networks. However, often the time required to complete the training is extensive, thus aims to improve learning by applying this proposal.

Keywords: Backpropagation, Linear Correlation, Artificial Neural Networks.

Resumo. Este trabalho propõe uma variação para a taxa de aprendizado baseada no coeficiente de correlação de Pearson. A variação proposta é particular para cada peso, sendo determinada durante o treinamento do algoritmo backpropagation, melhorando seu tempo de convergência e sua acurácia. O algoritmo backpropagation é o mais popular para o treinamento de redes Perceptron de Múltiplas Camadas. Contudo, muitas vezes, o tempo requerido para completar o treinamento é extenso, assim pretende-se melhorar o aprendizado aplicando esta proposta.

Palavras-chave: Backpropagation, Correlação Linear, Redes Neurais Artificiais

1. Introdução

Sistemas dotados da característica de aprendizado são ditos inteligentes e podem mudar seu comportamento à medida que absorvem novos conhecimentos. Dentre as diversas técnicas de Inteligência Artificial que possuem essa característica, podem-se citar as Redes Neurais Artificiais (RNA), as quais imitam o funcionamento dos neurônios biológicos. Dessa forma, as RNA possuem o poder de identificar e absorver relações a partir do conhecimento dos dados de entrada e saída.

Dentre os vários tipos de RNA, este trabalho aborda o tipo Perceptron de Múltiplas Camadas (MLP). Quando este tipo de RNA apresenta função não linear em pelo menos uma de suas camadas intermediárias, pode aproximar qualquer função matemática. Para tanto, ela precisa passar por um processo de aprendizado, definido por HAYKIN em [1] como um processo pelo qual os parâmetros livres (pesos) de uma rede neural são adaptados através de um processo de estimulação pelo ambiente no qual a rede está inserida.

2

Para realizar o processo de aprendizado é escolhido um algoritmo iterativo, o mais conhecido para redes MLP é o denominado Backpropagation (BP). O objetivo do algoritmo é ajustar os pesos até os valores ideais. Contudo, por ser iterativo, ele apresenta algumas desvantagens que serão detalhadas na próxima seção.

Com o intuito de reduzir essas desvantagens, propõe-se uma abordagem baseada no coeficiente de correlação linear de Pearson.

2. O algoritmo backpropagation padrão

O algoritmo BP é responsável por minimizar o erro quadrático médio de saída. Ele é baseado no método do gradiente descendente e divide-se em duas fases: Forward e Backward, sendo a primeira responsável pela produção do sinal de saída da RNA, enquanto a segunda retropropaga o erro de saída da rede.

O algoritmo BP é muito utilizado devido sua simplicidade, baixa complexidade computacional e forte paralelismo no processamento. Apesar de muito utilizado, apresenta baixa velocidade de convergência e facilidade de cair em um mínimo local.

Sem dúvidas, o alto tempo de convergência é um dos maiores problemas do algoritmo BP. E o fator que mais contribui para isso é o valor definido para a taxa de aprendizado. Sabe-se que além de o valor dessa taxa ser definido aleatoriamente, valores muito altos podem causar oscilações do erro e valores muito baixos tornam o processo de aprendizado bastante lento. No BP padrão, a taxa de aprendizado é uma constante, mas na aplicação prática pode ser variável. Além disso, é difícil determinar seu melhor valor durante todo o processo.

Com o objetivo de reduzir o tempo de convergência, muitos trabalhos têm sido propostos, focando principalmente na diminuição do número de iterações. Por exemplo, Kim e Chien em [3] propõem um método de avaliação dos neurônios da camada escondida. O método analisa a saída da RNA sem o respectivo neurônio. Os neurônios considerados irrelevantes têm seus pesos congelados, ou seja, os pesos conectados a esses neurônios não sofrem mais atualizações, o que reduz o custo computacional e acelera o aprendizado dos pesos dos neurônios relevantes.

O trabalho de Qin, Liu e Xie [6] define o valor da taxa de aprendizado através de uma função que relaciona esta variável com o erro. De maneira que quando o erro diminui, a taxa aumenta proporcionalmente ao mesmo. Por outro lado, quando o erro aumenta, a taxa diminui proporcionalmente.

No trabalho de Xie et al [8] a ideia principal é multiplicar o termo de momentum pela função sigmóide ou tangente hiperbólica para alterar a direção de ajuste dos pesos. Dessa forma, se o ajuste dos pesos vai diminuir a função erro, a taxa de aprendizado aumenta, caso contrário, a taxa é reduzida. Isso diminui o problema da oscilação com taxas de aprendizado altas e reduz o tempo de treinamento para taxas de aprendizado baixas.

O que difere o trabalho de Qin, Liu e Xie [6] do trabalho de Xinbo e Lili [9] é que, neste último, os pesos são efetivamente atualizados apenas quando o erro diminui. Se o erro aumenta, a atualização dos pesos é cancelada e a taxa de aprendizado é reduzida.

3

Xiu e Cheng em [10] melhoram a convergência do algoritmo BP aumentando o sinal de erro através do aumento do termo de momentum e da taxa de aprendizagem autoadaptativa.

Xu e Zhang em [11] analisam as limitações do algoritmo BP e propõem um novo algoritmo que altera a função de ativação, regulando a taxa de aprendizado e definindo novos valores iniciais para os pesos.

Semelhante a esses trabalhos, este pretende melhorar a convergência do algoritmo BP. A metodologia utilizada é apresentada detalhadamente na seção seguinte.

3. Metodologia

A metodologia deste trabalho está dividida em três etapas: estudo, implementação e testes e validação. Cada uma delas é sucintamente apresentada a seguir:

3.1 Estudo

Para iniciar esta pesquisa, são necessários estudos referentes ao algoritmo BP, principalmente seus problemas e melhorias já sugeridas, bem como referentes ao uso do coeficiente de correlação de Pearson. Dessa forma, além de livros disponíveis na biblioteca da UFMA, estão sendo consultados artigos disponíveis na base do Instituto de Engenheiros e Eletricistas Eletrônicos (IEEE). Inclusive, alguns destes foram citados nas seções anteriores.

A revisão bibliográfica teve início em janeiro deste ano e se estenderá até o mês de maio, de acordo com o desenvolvimento da proposta. Com o material estudado sobre o algoritmo BP até o momento, sabe-se que cada conexão (peso) entre os neurônios atua de maneira diferente na mudança do erro, ou seja, alguns reduzem mais o erro durante uma determinada quantidade de iterações, outros reduzem menos e inclusive outros podem até contribuir para o aumento deste.

No intuito de medir a relevância de cada peso durante o treinamento de uma RNA, propõe-se o uso do coeficiente de correlação de Pearson (r).

Segundo Larson e Farber em [4], uma correlação é uma relação entre duas variáveis, onde os dados podem ser representados por pares ordenados (x,y), sendo x a variável independente (ou explanatória) e y a variável dependente (ou resposta).

O coeficiente de correlação linear é uma medida da força e direção da relação linear entre as duas variáveis acima. O símbolo r representa o coeficiente de correlação amostral. Uma formula para r é dada a seguir, onde n é o número de pares de dados:

(1)

O coeficiente r acima fornece valores entre -1 e 1, incluindo os extremos. Quando r = 1, significa uma correlação perfeita entre as duas variáveis, ou seja, quando uma variável cresce, a outra também cresce e vice-versa. Quando r = 0, significa que não há uma relação de dependência linear, no entanto, pode existir uma não linear,

4

logo, pode-se investigar por outros métodos. Quando r = -1, significa uma correlação negativa perfeita, ou seja, quando uma cresce a outra decresce.

Muitas pesquisas têm tido êxito com o auxílio deste coeficiente, nos mais variados temas. No trabalho de Iranmanesh et. al [2], por exemplo, o coeficiente de correlação de Pearson é utilizado na extração de características de assinaturas que são verificadas on-line. O coeficiente analisa a relação entre os pontos da assinatura e a pressão exercida pela caneta nesses pontos. Baseado nessa análise, as características marcantes da assinatura são passadas para uma RNA classificadora. Os resultados indicam boa precisão no reconhecimento das assinaturas.

Em [5], Neto et. al propõem uma abordagem para a economia de energia em um sistema robótico autônomo. O coeficiente analisa se alguns componentes lógicos podem ser desligados em tempo real, sem prejudicar o cumprimento das tarefas do robô.

Wu e Xu em [7] analisam a correlação entre a frequência e as funções dos verbos visuais chineses. Os resultados indicam que a frequência das palavras assume correlações positivas com as principais funções desta, embora com algumas diferenças no grau de correlação.

No trabalho [12], Zhang et. al propõem uma nova metodologia para a localização de dispositivos móveis. Neste, o coeficiente de correlação de Pearson é utilizado juntamente com o protocolo de Indicação de Força do Sinal Recebido (RSSI) e outras ferramentas.

Assim como esses trabalhos, este pretende analisar a relação entre duas variáveis distintas. Neste caso, um peso e o erro quadrático médio da RNA durante o treinamento via algoritmo BP. Baseada nessa relação, a abordagem proposta deve variar ou não a taxa de aprendizado referente a cada peso, melhorando o aprendizado.

Destaca-se o caráter altamente inovador do uso deste coeficiente na melhoria do algoritmo BP, haja vista essa abordagem não ter sido encontrada em nenhuma trabalho pesquisado.

As verificações que serão implementadas e investigadas são apresentadas na próxima seção.

3.2 Implementação

A solução proposta neste trabalho será confeccionada no software MATLAB, cuja realização será de forma centralizada, onde todos os programas serão executados na mesma máquina.

Um programa será desenvolvido para cada uma das investigações a seguir:

Congelar ou anular os pesos que apresentarem correlação baixa em módulo, variando ou não os demais pesos;

Variar inicialmente uma pequena quantidade de pesos, por exemplo, cinco a dez por cento do total, aumentando gradativamente mediante os resultados obtidos;

Atualizar a correlação a cada 1, 10, 50, 100, 1000 ou 10000 iterações, por exemplo;

5

Variar a taxa de aprendizado baseado no módulo da correlação ou não;

Variar a taxa de aprendizado baseado na variação do erro.

Como cada um dos programas será testado exaustivamente, modificando a quantidade de neurônios na camada escondida, valor da taxa de aprendizado, quantidade de pesos a variar, ser anulados ou congelados e a quantidade de iterações necessárias para atualizar o coeficiente de correlação, pretende-se criar interfaces gráficas para auxiliar no andamento da etapa de testes e validação.

3.3 Testes e Validação

Após a etapa de implementação será escolhida uma ou mais aplicações para realizar os testes e a validação da proposta. Em todas elas serão analisados a quantidade de iterações para atingir um determinado erro quadrático médio, a acurácia e o tempo gasto no treinamento, sempre comparando a nova abordagem ao BP tradicional. Vale destacar que para realizar a comparação do tempo de forma justa, todas as simulações serão realizadas na mesma máquina, preservando as mesmas configurações de máquina durante os testes.

4. Cronograma

Atividades2014 2015

jan fev mar abr mai junjul ago set out nov dez

Jan fev

Revisão Bibliográfica X X X X X Desenvolvimento da proposta X X X X X X X Pesquisar sobre eventos e revistas X X Preparar artigo X X Escrita da Dissertação X X Defesa da Dissertação X

5. Referências Bibliográficas

[1] Haykin, S. S. (2001). Redes neurais. Bookman.

[2] Iranmanesh, V., Mumtazah Syed Ahmad, S., Adnan, W., Adilah, W., Layth Malallah, F., & Yussof, S. (2013, December). Online signature verification using neural network and pearson correlation features. In Open Systems (ICOS), 2013 IEEE Conference on (pp. 18-21). IEEE.

[3] Kim, I. C., & Chien, S. I. (2002). Speed-up of error backpropagation algorithm with class-selective relevance. Neurocomputing, 48(1), 1009-1014.

[4] Larson, R., Farber, B., & Luciane; traducão técnica Vianna. (2010). Estatística aplicada. Pearson.

6

[5] Neto, A. M., Victorino, A. C., Fantoni, I., & Zampieri, D. E. (2011, June). Real-time dynamic power management based on Pearson's Correlation Coefficient. In Advanced Robotics (ICAR), 2011 15th International Conference on (pp. 304-309). IEEE.

[6] Qin, R., Liu, L. L., & Xie, J. (2010, January). An Application of Improved BP Neural Network in Personal Credit Scoring. In Computer Modeling and Simulation, 2010. ICCMS'10. Second International Conference on (Vol. 4, pp. 238-241). IEEE.

[7] Wu, W. J., & Xu, Y. (2010, July). Correlation analysis of visual verbs' subcategorization based on Pearson's correlation coefficient. In Machine Learning and Cybernetics (ICMLC), 2010 International Conference on (Vol. 4, pp. 2042-2046). IEEE.

[8] Xie, R., Wang, X., Li, Y., & Zhao, K. (2010, June). Research and application on improved BP neural network algorithm. In Industrial Electronics and Applications (ICIEA), 2010 the 5th IEEE Conference on (pp. 1462-1466). IEEE.

[9] Xinbo, Z., & Lili, W. (2010, December). Handwritten Digit Recognition Based on Improved Learning Rate BP Algorithm. In Information Engineering and Computer Science (ICIECS), 2010 2nd International Conference on (pp. 1-4). IEEE.

[10] Xiu-Juan, F., & Cheng-Guo, L. (2009, March). The Research in Yarn Quality Prediction Model Based on an Improved BP Algorithm. In Computer Science and Information Engineering, 2009 WRI World Congress on (Vol. 2, pp. 167-172). IEEE.

[11] Xu, Y., & Zhang, H. (2009, July). Study on the Improved BP Algorithm and Application. In Information Processing, 2009. APCIP 2009. Asia-Pacific Conference on (Vol. 1, pp. 7-10). IEEE.

[12] Zhang, Y., Liu, H., Fu, W., Zhou, A., & Mi, L. (2014, January). Localization algorithm for GSM mobiles based on RSSI and Pearson's correlation coefficient. In Consumer Electronics (ICCE), 2014 IEEE International Conference on (pp. 284-285). IEEE.

Qualificação

Documents

Transcript of Qualificação