Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do...

152
Pós-Graduação em Ciência da Computação “Auto-organização e Aprendizagem por Demonstração na Determinação de Marcha Robótica” Por Orivaldo Vieira de Santana Júnior Tese de Doutorado Universidade Federal de Pernambuco [email protected] www.cin.ufpe.br/~posgraduacao Recife/2015

Transcript of Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do...

Page 1: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

Pós-Graduação em Ciência da Computação

“Auto-organização e Aprendizagem porDemonstração na Determinação de Marcha

Robótica”

Por

Orivaldo Vieira de Santana Júnior

Tese de Doutorado

Universidade Federal de [email protected]

www.cin.ufpe.br/~posgraduacao

Recife/2015

Page 2: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

ORIVALDO VIEIRA DE SANTANA JÚNIOR

“Auto-organização e Aprendizagem por Demonstração naDeterminação de Marcha Robótica"

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EMCIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DAUNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITOPARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA DACOMPUTAÇÃO.

ORIENTADOR: Aluizio Fausto Ribeiro Araújo

Recife

2015

Page 3: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

Catalogação na fonteBibliotecária Alice Maria dos Santos Costa CRB4-711

S232a Santana Júnior, Orivaldo Vieira de. Auto-organização e aprendizagem por demonstração na determinação

de marcha robótica / Orivaldo Vieira de Santana Júnior. – Recife: O Autor,2015.

151 f.: il., fig., tab.

Orientador: Aluizio Fausto Ribeiro Araújo. Tese (Doutorado) – Universidade Federal de Pernambuco. CIN.

Ciência da Computação, 2015. Inclui referências e apêndices.

1. Inteligência artificial. 2. Redes neurais. 3. Mapas auto-organizáveis. 4. Robôs móveis. I. Araújo, Aluizio Fausto Ribeiro (Orientador). II. Titulo.

006.3 CDD (22. ed.) UFPE-MEI 2015-076

Page 4: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

Tese de Doutorado apresentada por Orivaldo Vieira de Santana Júnior à PósGraduação em Ciência da Computação do Centro de Informática da UniversidadeFederal de Pernambuco, sob o título “Auto-organização e Aprendizagem porDemonstração na Determinação de Marcha Robótica” orientada pelo Prof. AluizioFausto Ribeiro Araújo e aprovada pela Banca Examinadora formada pelosprofessores:

__________________________________________

Profa. Judith Kelner Centro de Informática / UFPE

___________________________________________ Prof. Germano Crispim Vasconcelos Centro de Informática / UFPE ___________________________________________ Prof. João Henrique Ranhel Ribeiro Departamento de Eletrônica e Sistemas / UFPE

___________________________________________ Prof. Felipe Maia Galvão França Programa de Engenharia de Sistemas e Computação / UFRJ

____________________________________________ Profa. Anna Helena Reali Costa Departamento de Engenharia de Computação e Sistemas Digitais / USP

Visto e permitida a impressão.Recife, 23 de abril de 2015.

___________________________________________________Profa. Edna Natividade da Silva BarrosCoordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

Page 5: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

Dedico esta tese a todos os meus familiares, amigos e

professores que me deram o apoio necessário para chegar

até aqui.

Page 6: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

AGRADECIMENTOS

Agradeço ao meu orientador, Aluízio Araújo, pela presença constante, pelo apoio, peloincentivo, por ter sido de fato um guia em todos os momentos da execução deste trabalho.

A minha mãe, Girlêde Santana, por ter me mostrado a importância da dedicação, docompromisso e da seriedade. Ao meu pai, Orivaldo Santana, por ter dado início ao meu processode formação educacional. A minha irmã, Sureia, por fazer parte da minha vida e do meu processode formação como pessoa.

A minha futura esposa, Jeanne, pelo companheirismo em todos as fases do doutorado.A minha nova família em Pernambuco, João Gouveia, Bernadete, Juanna, Júlia, todos os

Britos e Gouveias que me deram apoio durante esta jornada.Aos meus tios, José Maria, Orlando, Osvaldino, Olderico, aos meus primos Fabrício e

Aise Anne, aos membros da minha família aqui não citados por estarem dispostos a ajudar emqualquer momento.

Aos amigos de Pernambuco, André Tiba, Hansenclever, Flávia, Alex, Nilton e todos osoutros aqui não citados, pela horas compartilhadas de trabalho e diversão.

Aos professores do Centro de Informática que contribuíram para minha formação.A toda minha família e amigos que direta ou indiretamente contribuíram para a realização

deste trabalho.Aos membros da banca pelas contribuições na versão final desta tese.

Page 7: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

Existem muitas hipóteses em ciência que estão erradas. Isso é perfeitamente

aceitável, eles são a abertura para achar as que estão certas.

—CARL SAGAN

Page 8: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

RESUMO

Esta Tese apresenta uma abordagem para o problema de locomoção de robôs com patas. Estaabordagem tem como base aprendizagem, planejamento e controle da movimentação dos membroinferiores para deslocar um robô de um local para outro. O sistema construído com a abordagemproposta produz padrões de saída semelhantes àqueles gerados por um Gerador Central dePadrões (CPG) para controlar as articulações de um robô. Os algoritmos propostos são capazesde, com um comando simples, mudar a velocidade de deslocamento do robô e de gerar sinaissincronizados e rítmicos para as articulações. O processo de aprendizagem da movimentação dosmembros inferiores pode ser aplicado em diferentes robôs na aprendizagem de diversos modosde locomoção. Neste processo não é necessário determinar um conjunto de equações e seusparâmetros para cada robô. A informação necessária para a aprendizagem da movimentação daspernas de um robô é extraída dos dados observados e organizada em estados. O controle dasarticulações do robô é realizado com dados oriundos do conteúdo dos estados de uma trajetóriaatravés de Controle Guiado por Dados (DDC). Os dados contidos nos estados devem informardireta ou indiretamente a posição angular desejada para cada articulação. O agente aprendiz,implementado com a abordagem proposta, gera uma representação interna da movimentaçãodos membros através de um processo de auto-organização na qual conexões determinam atransição entre estados. Estas conexões são criadas entre estados próximos com o objetivo degerar uma trajetória cíclica. Dois Mapas Auto-organizáveis (SOMs) de topologia variante notempo foram implementados para o processo de aprendizagem da abordagem proposta: Geradorde Trajetória de Estados Auto-Organizável (SOM-STG) e Gerador de Trajetória de EstadosCíclica Auto-Organizável (SOM-CSTG). O mapa SOM-CSTG é uma evolução de SOM-STG esurgiu para superar algumas limitações do primeiro. O objetivo destes mapas é aprender posturase conectá-las para construir trajetórias usadas para controlar a marcha do robô. A aquisiçãode dados de treinamento das redes é baseada em aprendizagem por demonstração, na qual, osestados (posturas) são aprendidos a partir de um agente demonstrador. Estes mapas são capazesde aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre umagente demonstrador ou de observações externas ao agente demonstrador, como por imagensde vídeo. Uma trajetória cíclica de estados gerada por estes mapas, quando executada conduz omovimento dos membros do robô de maneira semelhante aos padrões de movimentação presentesnos dados de treinamento (marchas). Os testes de aprendizagem foram realizados com dados deum robô simulado de seis patas, de um animal de quatro patas e dados da locomoção humana.Os testes de planejamento e controle de movimentos foram realizados com um robô simulado deseis patas e um robô simulado de quatro patas.

Page 9: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

Palavras-chave: Rede Neural, Mapa Auto-Organizável, Marcha, Robô com Pernas, Geradorde Trajetória de Estados e Gerador Central de Padrões.

Page 10: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

ABSTRACT

This Thesis presents an approach to legged robot locomotion problem. This approach is basedon learning, planning and control of the movement of the lower member to move a robot fromone location to another. The system built with the proposed approach produces output patternssimilar to those generated by Central Pattern Generator (CPG) for controlling the joints of a robot.The proposed algorithms are able to, with a simple command, change displacement speed ofthe robot and to generate synchronizing signals and rhythmic to the joints. The learning processof the movement for inferior members can be applied to various robots in learning of manygaits. In this process it is not necessary to determine a set of equations and parameters for eachrobot. The substantial information for learning movement of the legs of a robot is extracted fromobserved data and organized in states. The control of the robot joints is carried out data from thecontent of the states of a trajectory through Data Driven Control (DDC). The data contained inthe states should inform directly or indirectly the desired angular position for each joint. Thelearner agent, implemented with the proposed approach, generates an internal representation ofthe movement of members through a process of self-organization in which connections determinethe transition between states. These connections are created between nearby states in order togenerate a cyclic trajectory. Two self-organizing maps (SOMs) with a time-varying structurewere implemented to the learning process of the proposed approach: Self-Organizing Map withState Trajectory Generator (SOM-STG) and Self-Organizing Map with Cyclic State TrajectoryGenerator (SOM-CSTG). SOM-CSTG is an evolution of SOM-STG and appeared to overcomesome limitations of the first one. The purpose of these maps is learn postures and connects themto build paths used to control the motion of the robot. The acquirement of training data for thenetworks is based on learning by demonstration, in which the states (postures) are learned froma demonstrator agent. These maps are able to learning from data collected from the output signalof a CPG, of sensor on a demonstrator agent or external observations to the demonstrator agentsuch as video images. A cyclic trajectory of states generated by these maps, when executed leadsthe movement of the robot members so similar to the movement patterns present in the trainingdata (gaits). The learning tests were performed with simulated data from a six-legged robot, afour-legged animal and data of human locomotion. Planning and control movements tests wereperformed with a simulated six-legged robot and a simulated four-legged robot.

Keywords: Neural Network, Self-Organizing Map, Gait, Legged Robot, State TrajectoryGenerator and Central Pattern Generator.

Page 11: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

LISTA DE FIGURAS

1.1 Rede com topologia cíclica ideal. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1 Robô móvel Sojourner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.2 Robô caminhante projetado pela ©Plustech. . . . . . . . . . . . . . . . . . . . . . 323.3 CPG da salamandra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.4 Uma CNN de dimensão MxN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.5 Célula autônoma da CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.1 Exemplo de uma rede SOM-STG. . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2 Processo de treinamento de SOM-STG. . . . . . . . . . . . . . . . . . . . . . . . 50

5.1 Diagrama de um controlador PID (Obtido na Wikipedia). . . . . . . . . . . . . . . 66

6.1 Os graus de liberdade da perna do robô hexápode. . . . . . . . . . . . . . . . . . . 706.2 Imagem do simulador Gazebo com o robô de quatro patas. . . . . . . . . . . . . . 716.3 Dados artificiais simples. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.4 Gráfico para taxa de geração de redes cíclicas. . . . . . . . . . . . . . . . . . . . . 736.5 Uma rede neural criada por SOM-STG para o modo de locomoção rápido. . . . . . 766.6 Crecimento típico da quantidade de nodos de SOM-STG. . . . . . . . . . . . . . . 776.7 Trajetória aprendida por SOM-STG com os dados obtidos de osciladores CNN. . . 786.8 Sequência de ângulos da articulação α . . . . . . . . . . . . . . . . . . . . . . . . . 806.9 Imagens extraídas do vídeo do cachorro caminhando. . . . . . . . . . . . . . . . . 816.10 Experimento com dados reais de um animal. . . . . . . . . . . . . . . . . . . . . . 846.11 Base de dados contendo os ângulos do lado esquerdo do cachorro real. . . . . . . . 856.12 Sequência de ângulos para as articulações β . . . . . . . . . . . . . . . . . . . . . . 866.13 Sequência de ângulos α para as transições entre marchas. . . . . . . . . . . . . . . 886.14 Esquema de controle para configuração circuito fechado. . . . . . . . . . . . . . . 886.15 Simulação com robô de seis patas. . . . . . . . . . . . . . . . . . . . . . . . . . . 906.16 Experimento com malha aberta e malha fechada. . . . . . . . . . . . . . . . . . . 916.17 Avaliação da criação de trajetórias contínuas . . . . . . . . . . . . . . . . . . . . . 926.18 Base de dados para a marcha caminhada. . . . . . . . . . . . . . . . . . . . . . . . 936.19 Base de dados para a marcha caminhada com passo largo. . . . . . . . . . . . . . 946.20 Base de dados para a marcha caminhada com passo muito largo. . . . . . . . . . . 956.21 Variações das trajetórias generalizadas por SOM-CSTG. . . . . . . . . . . . . . . 966.22 Comparação entre a marcha M2 (cor clara) e a melhor trajetória intermediária (cor

escura) gerada por SOM-CSTG. . . . . . . . . . . . . . . . . . . . . . . . . . . . 986.23 Variações entre o modo lento e médio para o ângulo α . . . . . . . . . . . . . . . . 99

Page 12: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.24 Variações entre o modo lento e médio para o ângulo β . . . . . . . . . . . . . . . . 1006.25 Variações entre o modo médio e rápido para o ângulo α . . . . . . . . . . . . . . . 1016.26 Variações entre o modo médio e rápido para o ângulo β . . . . . . . . . . . . . . . 102

Page 13: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

LISTA DE TABELAS

3.1 Template A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.1 Experimentos com o ajuste manual do Limiar de Atividade. . . . . . . . . . . . . . 746.2 Setup experimental para dados com ruído. . . . . . . . . . . . . . . . . . . . . . . . 796.3 Configuração de parâmetros de SOM-CSTG para dados com ruído. . . . . . . . . . 806.4 Setup experimental para as bases de dados do vídeo. . . . . . . . . . . . . . . . . . 836.5 Distâncias DTW entre os dados reais para a base D1. . . . . . . . . . . . . . . . . . 836.6 Distâncias DTW entre os dados reais para a base D2. . . . . . . . . . . . . . . . . . 836.7 Avaliação da criação de trajetórias continuas. . . . . . . . . . . . . . . . . . . . . . 926.8 Avaliação da generalização de aprendizagem de marcha de SOM-CSTG. . . . . . . 98

Page 14: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

LISTA DE ACRÔNIMOS

CNN Rede Neural Celular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

CPG Gerador Central de Padrões. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16

DDC Controle Guiado por Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

DTW Dynamic Time Warping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

LbD Aprendizagem por Demonstração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

MBC Controle Baseado em Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43

PID Proporcional Integral Derivativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

PSOM SOM Parametrizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

SOM Mapa Auto-Organizável . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

SOM-CSTG Gerador de Trajetória de Estados Cíclica Auto-Organizável . . . . . . . . . . . . . . . . . 20

SOM-STG Gerador de Trajetória de Estados Auto-Organizável . . . . . . . . . . . . . . . . . . . . . . . . . 18

SOM-TSP SOM para o Problema do Caixeiro Viajante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

STRAGIC Gerador de Trajetória de Estados com Interconexões . . . . . . . . . . . . . . . . . . . . . . . . 18

Page 15: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

SUMÁRIO

1 Introdução 16

2 SOM para o Planejamento e Controle em Robótica 24

3 Planejamento e Controle deMarcha Robótica (PCMR) 30

3.1 Marcha Robótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2 CPGs e Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2.1 CPG Biologicamente Inspirado . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.2 CPG Baseado em CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.3 Trajetória de Estados e Aprendizagem por Demonstração . . . . . . . . . . . . . 423.4 Controle de Locomoção com DDC . . . . . . . . . . . . . . . . . . . . . . . . . 433.4.1 DDC em um Bípede Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.5 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4 SOM-STG 474.1 Apresentação de SOM-STG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Processo de treinamento do SOM-STG . . . . . . . . . . . . . . . . . . . . . . . 494.2.1 Fase de Aprendizagem de Marcha . . . . . . . . . . . . . . . . . . . . . . . . . . 504.2.2 Fase de Aprendizagem de Mudança de Marcha . . . . . . . . . . . . . . . . . . . 534.3 Limitações e Possíveis Avanços . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.4 Variações de SOMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.4.1 Mapas com Interpolação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.4.2 Parameterised SOM(PSOM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5 SOM-CSTG 615.1 Aprendizagem de Marcha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.2 Gerenciamento de Marcha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.3 Controle de Postura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.4 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6 Experimentos 706.1 Dados Artificiais Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.2 Dados Artificiais de um CPG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766.2.1 Dados Ruidosos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.3 Dados de um Animal Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

Page 16: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

15

6.4 Avaliação de Aprendizagem com Sensores Sobre o Corpo . . . . . . . . . . . . . 856.4.1 Aprendizagem de Marcha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866.4.2 Transição entre Marchas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876.5 Avaliação de um Esquema DDC . . . . . . . . . . . . . . . . . . . . . . . . . . . 886.6 Avaliação de Aprendizagem Intra-Trajetória . . . . . . . . . . . . . . . . . . . . 906.7 Avaliação de Aprendizagem Inter-Trajetórias . . . . . . . . . . . . . . . . . . . . 936.7.1 Dados da Locomoção Humana . . . . . . . . . . . . . . . . . . . . . . . . . . . 936.7.2 Dados do CPG-CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 976.8 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7 Considerações Finais 1047.1 Contribuições e Análise da Modelagem Proposta . . . . . . . . . . . . . . . . . . 1047.2 Contribuição para a Ciência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1057.2.1 Trabalho Publicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1067.3 Limitações da Abordagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1067.4 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

REFERÊNCIAS 108

Apêndice 120

A SOM e Suas Variações 121A.1 SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121A.2 Estrutura Variante no Tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123A.3 Sequências Espaço-Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131A.4 Regra de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134A.5 Detecção de Contorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136A.6 Capacidade de Interpolação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137A.6.1 Mapas com Interpolação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137A.6.2 Parameterised SOM(PSOM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144A.7 Mapas para Dados Contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147A.8 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Page 17: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

161616

1Introdução

A locomoção com patas, presente em muitos animais, pode ser caracterizada como ágil,rápida e eficiente, capaz de levar um animal para diferentes ambientes passando por váriostipos de terrenos. Este tipo de locomoção, em variados ambientes, pode ser interessante para alocomoção de robôs. Duas vantagens do uso de patas em relação ao uso de rodas em robôs são aadaptabilidade e a capacidade de manobra em terrenos irregulares. Além disso, nem todas aspatas precisam estar em contato com o chão para manter o equilíbrio do corpo do robô durante alocomoção, apesar das irregularidades do terreno. Cada pata deve ser capaz de suportar parte dopeso do robô e quanto mais graus de liberdade em cada pata maior a sua capacidade de manobra(BEKEY, 2005).

Cada movimento de um passo de uma perna pode ser caracterizado por duas fases: umafase de apoio e outra de balanço. Durante a fase de balanço, a ponta do membro deixa o chão emovimenta-se livremente no ar ao longo da direção de locomoção, em seguida desce e alcança ochão. Na fase de apoio, a extremidade do membro está o tempo todo em contato com o chão.No decorrer da execução da marcha, algumas patas estarão na fase de apoio e outras na fase debalanço. As pernas de apoio conduzem o corpo para frente ao mesmo tempo que as outras pernasrealizam o movimento de balanço sincronizadamente (WANG et al., 2013). Um passo pode serentendido como uma sequência cíclica de posturas de uma perna, sendo que cada marcha possuiuma sequência própria de movimentos das pernas. De maneira resumida, uma marcha pode serdescrita como os movimentos coordenados das pernas para levar o corpo de um lugar para outro.Assim, uma marcha dita a velocidade e a direção do movimento do corpo do animal (BEKEY,2005).

As metodologias clássicas para tratar da locomoção de robôs com patas levam emconsideração um importante conceito da neurobiologia: o Gerador Central de Padrões (CPG)1

(BUCHLI; IJSPEERT, 2008). O CPG biológico de um animal é constituído de osciladoresneurais produtores de sinais elétricos enviados para ativar os músculos das patas gerando odeslocamento do corpo do animal. Estes sinais modificam o ângulo de cada articulação daspatas de modo sincronizado e gerando movimentos cíclicos. Em animais vertebrados, o CPG

1Em inglês Central Pattern Generator.

Page 18: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

17

está localizado na medula espinhal. Dependendo do padrão de ativação dos músculos, um CPGé capaz de determinar uma marcha específica e realizar a transição entre tipos diferentes demarchas (IJSPEERT, 2008; HOLMES et al., 2006; BEKEY, 2005).

Na linha do CPG, por exemplo, IJSPEERT et al. (2007) propuseram um modelo baseadoem osciladores neurais e ARENA et al. (2004) propuseram um outro modelo baseado em RedeNeural Celular (CNN). Os CPGs são aplicados em muitos tipos de robôs, como por exemplo,para o controle de locomoção de robô hexápode (CHEN et al., 2012), de robô quadrupede(SANTOS; MATOS, 2011) e de robô bípede (WANG et al., 2012). Existem abordagens paraaprendizagem de diferentes marchas para diferentes morfologias de robôs, como é o casode LI; LOWE; ZIEMKE (2014), que combina aprendizagem por reforço e CPGs. Existemestratégias alternativas à modelagem de CPGs com equações diferencias, mas que não levam emconsideração mecanismos de aprendizagem, como é o caso de YANG; FRANÇA (2003) quepropõe um modelo discreto generalizado para a produção de diferentes marchas pré-programadasintrinsecamente em CPGs. Entretanto, esta Tese ficará restrita ao estudo das limitações deCPGs e na proposição de uma abordagem baseada em aprendizagem por demonstração e mapasauto-organizáveis.

Normalmente, um CPG é modelado matematicamente por equações diferenciais (YUet al., 2014). Este tipo de modelagem requer ajustes de parâmetros nas equações ou até amodificação de equações para produzir um padrão locomotor específico. Geralmente o ajusteé realizado por tentativa e erro ou aplicando métodos de otimização e aprendizagem. Logo, oajuste de parâmetros de um CPG é uma tarefa bastante custosa e não trivial, principalmentepela necessidade de encontrar um padrão de saída que seja capaz de gerar a sincronização dosmovimentos das articulações (RIGHETTI; BUCHLI; IJSPEERT, 2009).

Esta Tese tem como principal objetivo apresentar uma abordagem como solução para oproblema de planejamento de movimentos dos membros inferiores de um robô durante a sualocomoção. Os objetivos secundários são:

� Apresentar uma alternativa que não possua as dificuldades presentes em modelagensde CPGs com equações diferenciais;

� Ter como base a aprendizagem e o planejamento da movimentação dos membrosinferiores para deslocar um robô de um local para outro;

� Produzir os mesmos padrões de saída semelhantes àqueles gerados por um CPG paracontrolar as articulações de um robô;

� Ser capaz de, com comando simples, mudar a velocidade de deslocamento do robô ede gerar sinais sincronizados e rítmicos para as articulações.

A abordagem proposta captura informações necessárias para determinar as posturasda locomoção organizando-as em estados. Cada postura descreve em um instante de tempoa posição de todas as articulações dos membros do robô envolvidos na locomoção. Na etapa

Page 19: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

18

de aprendizagem, os estados mais relevantes são aprendidos e transformados em nodos, emseguida, um processo de auto-organização cria conexões entre os nodos mais semelhantes. Aofinal da etapa de aprendizagem, a estrutura topológica da rede gerada deve ser capaz de produzirtrajetórias cíclicas de estados. A construção de trajetórias cíclicas é fundamental para abordagemproposta, pois a locomoção do robô é realizada através da execução de uma trajetória cíclica,onde comandos para posicionar as articulações são gerados a partir dos estados presentes natrajetória. A execução de um ciclo da trajetória está associada a realização de um passo do robô,assim a repetição cíclica da trajetória faz com que o robô realize vários passos em sequência.

A primeira versão desta abordagem, chamada de Gerador de Trajetória de Estados comInterconexões (STRAGIC)2, foi inicialmente proposta por SANTANA JR; ARAUJO (2010).Essa primeira versão era capaz de aprender sinais oscilatórios produzidos por um CPG e deaprender os movimentos de um animal real a partir do processamento de imagens de um vídeo.A robustez desta abordagem foi avaliada introduzindo ruído Gaussiano nas amostras coletadasdo CPG, mas com uma variação pequena do nível de ruído. Os resultados obtidos com dados deum animal real não foram satisfatórios, pois a rede não convergia em todas as execuções. Parao problema tratado nesta Tese, a convergência da rede acontece quando ao final do processode treinamento a topologia resultante forma um ciclo. Em uma topologia cíclica ideal todos osnodos possuem duas conexões, ver Figura 1.1. Para avaliar a capacidade de convergência darede a estratégia utilizada foi criar uma taxa para estimar a probabilidade da rede formar umatopologia cíclica no final de uma execução. O termo utilizado para representar essa probabilidadeé chamado de taxa de criação de redes cíclicas. Para a base de dados de um animal real, amelhor taxa de criação de redes cíclicas obtida não chegou em um valor satisfatório. Em qualquerexperimento nesta Tese, o desejável é que a rede sempre gere uma topologia cíclica para tornarviável a criação de trajetórias cíclicas.

A segunda versão da abordagem proposta nesta Tese, chamada de Gerador de Trajetóriade Estados Auto-Organizável (SOM-STG) e publicada por ARAúJO; SANTANA JR (2014) emum importante periódico de redes neurais, preserva algumas características da rede STRAGIC.A principal diferença entre SOM-STG e STRAGIC está na regra de eliminação de nodos da rede.Esta regra foi modificada com o objetivo de manter cada nodo da rede sempre com dois vizinhospara melhorar a taxa de criação de redes cíclicas. Outro avanço importante foi realizado noembasamento teórico desta segunda abordagem. Conceitualmente, STRAGIC não explica comoos dados para a aprendizagem são obtidos e nem como acontece o controle de cada articulação.Assim, dois conceitos fundamentais foram inseridos nesta segunda abordagem: Aprendizagempor Demonstração (LbD) e Controle Guiado por Dados (DDC).

Em LbD3, o robô aprende a caminhar a partir de movimentos executados por um agentedemonstrador, um ser vivo ou outro robô. Existem diferentes nomenclaturas para LbD, comopor exemplo aprendizagem por imitação, aprendizagem a partir de experiência, aprendizagem

2Em inglês State Trajectory Generator with Interconnections.3Em inglês Learning by Demonstration.

Page 20: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

19

4

1

15

3

2118

17

22

23

24

16

25

11

26

Figura 1.1: Rede com topologia cíclica ideal. Os números representam a ordem decriação dos nodos. Quanto mais próximos estão os nodos dentro da estrutura topológicamais similares são suas características.

a partir de observações, programação de robô por demonstração e aprendizagem a partir dedemonstração. Há muitas formas de demonstrar um comportamento para um robô, por exemplo,usando uma sequência de dados capturados de sensores sobre o agente demonstrador ou um vídeocom o agente demonstrador. Em aprendizagem por demonstração, o problema é normalmenteresolvido através do mapeamento de estados em ações (ARGALL et al., 2009; BILLING, 2010).No contexto desta Tese, cada estado contém informações de uma postura e as ligações entreestados determinam as ações. Uma postura pode ser descrita pelo conjunto de posições angularesdas articulações das pernas em um instante de tempo. Uma trajetória de controle é composta depares de estados formando uma sequência fechada de ações para movimentar as articulações dorobô de acordo com uma determinada marcha.

Segundo HOU; WANG (2013), o DDC4 inclui todas as teorias e métodos nos quaiso controlador é projetado diretamente pelo uso de dados de entrada/saída do sistema a sercontrolado. Na abordagem proposta, os dados de entrada/saída (ângulos das articulações) sãoobtidos com LbD através do agente demonstrador. Uma grande vantagem de DDC é queinformações explicitas do modelo matemático do processo controlado não são necessáriaspara a modelagem do sistema de controle. Assim, DDC se mostra como uma alternativa aocontrole clássico onde a modelagem matemática do sistema a ser controlado, cada articulação, éextremamente importante na definição do sistema de controle.

4Em inglês Data Driven Control.

Page 21: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

20

Os avanços realizados por ARAúJO; SANTANA JR (2014) com a rede SOM-STG nãoforam suficientes para garantir uma estrutura topológica cíclica em todas as execuções da rede.Outra limitação, de SOM-STG, está relacionada ao ajuste de seu parâmetro mais crítico, o limiarde atividade, por tentativa e erro para cada base de dados. Este processo é lento e não dá garantiasde que com limiar escolhido a rede aprende detalhes relevantes do espaço de entrada.

As principais limitações da segunda versão do sistema são tratadas no doutorado: o ajustepor tentativa e erro de um importante parâmetro da rede, o limiar de atividade; a imprevisibilidadeem gerar trajetórias cíclicas em algumas bases de dados; a alta dependência do valor escolhidopara o limiar de atividade para o sucesso da geração das trajetórias cíclicas; a dificuldade de gerarredes cíclicas em experimentos com dados obtidos com baixa taxa de amostragem; os pesos darede utilizados apenas como entrada; discretização da trajetória aprendida; e a impossibilidadede combinar as marchas aprendidas para gerar novas marchas intermediárias. Estas limitaçõesdiminuem o desempenho da rede SOM-STG, medido através da taxa de criação de redes cíclicase do grau de similaridade entre duas trajetórias. A taxa de criação de redes cíclicas é umindicativo da probabilidade da rede gerar uma trajetória cíclica. O grau de similaridade é medidocom Dynamic Time Warping (DTW), uma métrica de comparação de sinais (SENIN, 2008).

A terceira versão do sistema, no qual Gerador de Trajetória de Estados Cíclica Auto-Organizável (SOM-CSTG)5 está inserido, foi projetada considerando as características relevantesdo processo de aprendizagem da rede SOM-STG e suas limitações. A relevância de cada passo doprocesso de aprendizagem de SOM-STG foi avaliada considerando o problema de aprendizagemde marcha robótica, os passos mais significativos foram mantidos e os menos relevantes foramsubstituídos por passos presentes em redes derivadas de Mapa Auto-Organizável (SOM) comhabilidades interessantes para o problema tratado. Para escolher tais redes SOMs, uma amplapesquisa bibliográfica foi realizada com foco em compreender os seus avanços entre os anosde 1994 e 2013 com milhares de artigos encontrados. Cerca de 300 artigos foram avaliadosde modo mais profundo e os artigos que apresentaram contribuições mais apropriadas paramelhorar o desempenho de SOM-STG foram selecionados. As características mais interessantes,descritas nestes artigos, para o problema de criação de trajetórias cíclicas foram integradasao SOM-CSTG. As duas redes que mais contribuíram com SOM-CSTG foram: SOM para oProblema do Caixeiro Viajante (SOM-TSP)6 (ANGENIOL; LA CROIX VAUBOIS; LE TEXIER,1988) e SOM Parametrizada (PSOM)7(WALTER; RITTER, 1996).

A característica mais interessante de SOM-TSP é a sua capacidade de gerar uma traje-tória cíclica e de caminho mínimo independentemente da disposição dos dados. A principalcaracterística de PSOM é sua capacidade de aprendizagem com um número pequeno de amostrasde treinamento e criação de uma superfície de variedades possibilitando a obtenção de estadosem qualquer posição contínua desta superfície. Para realizar a integração de SOM-STG com

5Em inglês Self-Organizing Cyclic State Trajectory Generator.6Em inglês Travelling Salesman Problem.7Em inglês Parameterised SOM.

Page 22: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

21

SOM-TSP e PSOM com o objetivo de criar a nova rede SOM-CSTG, os passos mais relevantesde cada um dos modelos foram unidos de modo a resolver o problema de aprendizagem detrajetória cíclica de estados de forma mais eficaz e mais abrangente do que com a rede SOM-STG.Uma característica muito relevante e presente em SOM-STG é capacidade de determinar umaregião de atividade através do limiar de atividade. Esta região pode ser abstraída como o interiorde uma esfera onde o limiar de atividade determina o raio desta esfera. Para automatizar aescolha do valor do limiar de atividade, um mecanismo de auto-ajuste foi incorporado à redeSOM-CSTG.

Para atender os requisitos do problema de aprendizagem de marcha robótica, a arquiteturado sistema no qual a rede SOM-CSTG está inserida ficou organizada como a seguir: Módulo1, aprendizagem e gerenciamento de marchas; e Módulo 2, controle de posturas. O módulo deaprendizagem e gerenciamento está dividido em duas camadas: aprendizagem e gerenciamento.A camada de aprendizagem captura dados sobre a postura de um agente demonstrador, processae auto-organiza estes dados aprendendo os estados essenciais da trajetória para o controle delocomoção (planejamento de movimentos). A camada de gerenciamento de marchas determinao tipo de marcha executada pelo robô a partir de um sinal de controle simples. O módulo decontrole de postura obtém informações de um estado de uma trajetória de estados e gera o sinalde controle necessário para que o atuador alcance a posição angular desejada.

A camada de aprendizagem de marcha é composta basicamente de duas técnicas: aaprendizagem por demonstração e um mapa auto-organizável de topologia variante no tempo.A captura dos dados é realizada como na aprendizagem por demonstração. Na camada deaprendizagem, assim como em LbD, os estados são adquiridos a partir de um agente demons-trador. Os dados não são estruturados em pares de estado-ação ou estado-atual-próximo-estadocomo em LbD. Um agente robótico cria uma representação interna dos estados essenciais damovimentação dos membros inferiores através da auto-organização dos estados de entrada eda auto-seleção dos estados mais relevantes de uma trajetória de controle. As conexões sãocriadas entre estados semelhantes, consequentemente, conectando posturas do robô que aparecemdurante a locomoção em tempos próximos. Comparado com modelos de CPG, o processo deauto-organização pode aprender sequências de padrões para controlar as articulações do robô sema necessidade de determinar um conjunto de equações diferenciais e ajustar seus parâmetros paracada tipo de robô. Depois de aprender uma trajetória de estados, o robô pode autonomamentecontrolar o seu modo de locomoção sem necessariamente explicitar o mapeamento entre estadose ações como em LbD.

A camada de gerenciamento de marchas tem o objetivo de determinar a marcha atual dorobô através da ativação de diferentes padrões de locomoção recebendo como entrada um sinalsimples. Este sinal é um número real, cujos valores mais baixos ativam marchas de velocidadesmais lentas e os valores mais altos ativam marchas de velocidades mais rápidas. Esta camadade gerenciamento de marcha recebe redes cíclicas da camada de aprendizagem de trajetória.Estas redes de topologia em anel são alinhadas permitindo a criação de uma grade de nodos

Page 23: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

22

(semelhante a SOM original) onde cada coluna contêm os nodos de uma marcha aprendida. Aoadicionar a esta grade características presentes na rede PSOM é possível criar uma grade devariedades, uma abstração de uma superfície contínua estruturada em cima desta grade. Aonavegar com valores contínuos sobre esta superfície na dimensão das linhas (mantendo o valorda coluna constante) é possível avançar ou recuar continuamente sobre o espaço de posturas deuma marcha. Ao alterar o valor contínuo da posição da coluna é possível mudar suavementeos padrões de movimento da marcha. Assim o sinal contínuo utilizado para mudar a marcha éconectado ao sinal de navegação que determina a posição de navegação entre as colunas destasuperfície (grade de variedades).

O módulo de controle de postura é quem determina o sinal de controle para os atuadoresde acordo com a posição angular desejada. Este módulo é composto basicamente por um métodode DDC, o controlador Proporcional Integral Derivativo (PID)8.

Os experimentos estão organizados em dois grupos: o primeiro, apresenta comparaçõesentre as duas versões da abordagem (SOM-STG e SOM-CSTG); e o segundo grupo, apresentaavaliações da abordagem proposta. As comparações entre as versões da abordagem proposta sãorealizada em três cenários para avaliar a aprendizagem com o tipo de distribuição de dados maisdifícil, a aprendizagem a partir de dados gerados por um CPG artificial e aprendizagem a partirde dados coletados de um animal real. O segundo grupo avalia a capacidade de aprendizagem apartir de sensores sobre o corpo do agente demonstrador, uma aplicação em um esquema DDC,a capacidade de geração de trajetórias contínuas e a capacidade de generalização de marchas.

Um experimento com o robô de seis patas passando por um obstáculo foi elaborado parailustrar uma combinação de DDC e SOM-STG. Neste experimento, SOM-STG é inserido emum esquema de controle em malha fechada para avaliar a sua robustez ao executar uma trajetóriacíclica planejada em uma situação na qual a pata do robô colide com um obstáculo. O objetivodeste experimento é conduzir o robô à próxima postura com um erro dentro de uma faixa detolerância, mesmo que a postura atual do robô demore a alcançar a postura desejada.

Os experimentos com os valores dos ângulos coletados da locomoção de um robôhexápode simulado têm o objetivo de montar um cenário de aprendizagem mais realístico, jáque coletar os ângulos das articulações de um agente demonstrador é mais viável do que obteros sinais gerados por um GPG. Embora o ambiente destes experimentos seja simulado ele ébastante realístico, pois fatores como torque dos atuadores e o atrito das pernas do robô com ochão são levados em consideração e podem mudar a postura atual do robô quando comparadacom a postura desejada. Devido a estas imprecisões no posicionamento da postura desejada,a base de dados formada por estas posturas coletadas em um intervalo de tempo constante éconsiderada ruidosa.

O experimento com dados reais avalia a capacidade do sistema proposto em aprenderpor demonstração com dados capturados a partir da locomoção de um animal ou da locomoçãohumana. Os dados de um animal são obtidos a partir de um vídeo da locomoção de um cachorro

8Em inglês Proportional Integral Derivative.

Page 24: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

23

andando em uma calçada com as juntas marcadas com uma fita adesiva de cor verde. Paraa locomoção humana os dados são obtidos na base de dados de captura de movimentos daUniversidade Carnegie Mellon.

Essa Tese está dividida como a seguir, o Capítulo 2 apresenta algumas soluções de mapasauto-organizáveis para problemas relacionados com o planejamento e controle robótico. Adescrição do problema de Planejamento e Controle de Marcha Robótica é apresentada no Capítulo3. O Capítulo 4 apresenta a rede SOM-STG, suas principais limitações e as principais redesusadas para superar estas limitações. O Capítulo 5 apresenta a nova solução com embasamentoem mapas auto-organizáveis descritos no Apêndice A. Os experimentos são apresentados noCapítulo 6. As considerações finais são apresentadas no Capítulo 7. O Apêndice A mostra umavariedade de mapas auto-organizáveis e suas características que podem contribuir para o avançode abordagem proposta.

Page 25: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

242424

2SOM para o Planejamento e Controle emRobótica

Este Capítulo faz uma breve introdução sobre a rede Mapa Auto-Organizável (SOM) eapresenta alguns exemplos de como redes derivadas de SOM são aplicadas em diversas tarefasque envolvem o planejamento e controle de robôs. Para tanto uma breve revisão teórica érealizada, buscando elucidar as principais características apontadas pelos estudiosos da áreapara resolver tarefas relacionadas ao controle e planejamento de trajetória de manipuladoresrobóticos; controle de mão robótica; controle de robôs com membros; planejamento de trajetória;e a navegação robótica.

Os mapas auto-organizáveis, em essência, constroem um mapeamento de um espaço deentrada de alta dimensionalidade em um espaço de estruturas topológicas de baixa dimensão.Neste mapeamento, elementos vizinhos no espaço de entrada são mapeados em regiões vizinhasdeste espaço de estruturas topológicas. A rede SOM está estrutura topologicamente sobreuma grade retangular de nodos em duas dimensões. Sendo capaz de compactar informaçõespreservando os relacionamentos topológicos e as métricas mais importantes dos dados originais.Com base nestas características dois aspectos são evidenciados, o de abstração e exibiçãosimplificada da informação. Tradicionalmente, estes dois aspectos podem ser utilizados dediversas maneiras em uma variedade de aplicações práticas como em reconhecimento de voz,análise de imagem, processos industriais de controle, organização automática de documentos embibliotecas, e etc. (KOHONEN, 1998).

O funcionamento da rede SOM, em essência, ocorre da seguinte maneira, uma amostra éapresentada a rede e todos nodos (unidades) são estimulados, no entanto a unidade mais ativaé aquela cujo vetor de pesos é mais próximo ao padrão de entrada. Esta unidade chamadade vencedora, mantém-se ativa induzindo à ativação dos nodos vizinhos. Um requisito paraa auto-organização é: os pesos sinápticos de uma unidade devem ser modificados apenas navizinhança local da unidade vencedora e todos os pesos modificados devem ser mais semelhantesà amostra atual que no passado. Diferentes sinais de entrada (amostras) em diferentes temposafetam regiões diferentes na grade retangular de nodos. Deste modo, depois de muitos passos de

Page 26: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

25

aprendizagem, os pesos sinápticos começam a adquirir valores que relacionam-se suavementedentro desta grade de maneira equivalente aos estímulos do espaço de entrada (KOHONEN;HARI, 1999).

Um exemplo de aplicação de redes SOMs no controle e planejamento de trajetória demanipuladores é apresentado por BARRETO; ARAÚJO (2004) que propõem uma abordagempara a modelagem preditiva de trajetória de robôs articulados. Nesta abordagem, a rede aprendeautomaticamente a sequência temporal da trajetória de estados através de mecanismos de me-mória associativa. Os experimentos foram realizados com um robô PUMA 560 com 6 grausde liberdade. A rede por eles desenvolvida, representa a entrada como um conjunto de estados,contendo o próximo estado e os estados passados. A quantidade de estados associados a umnodo da rede pode ser ajustada por um parêmetro.

KOIKKALAINEN; VARSTA (1996) apresentaram um método para o planejamento detrajetória de manipuladores robóticos baseado em uma rede neural hierárquica chamada de SOMestruturada em árvore (tree structured SOM, TS-SOM). Cada nível da rede TS-SOM é uma redeSOM. Durante o treinamento, cada camada da rede é organizada uma por vez começando daraiz. Este método foi aplicado com sucesso em um robô manipulador na tarefa de pintar umasuperfície.

AHMAD; CHEN; MOHAMAD (2002) apresentaram um sistema baseado em uma redeSOM modificada para o controle da posição de um manipulador robótico simulado com trêsgraus de liberdade. Nesta abordagem, a força aplicada por cada atuador em cada articulaçãoé determinada por um controlador neural. A coordenada do efetuador1 é apresentada a cadacontrolador, e cada controlador determina a força em sua respectiva articulação. Cada controladoré uma rede SOM, cuja entrada é composta da posição atual e da posição anterior do efetuador.

Para o controle de robôs manipuladores na tarefa de pegar e colocar KUMAR; PATEL;BEHERA (2008); KUMAR et al. (2010) propuseram um sistema baseado na rede SOM. Orobô apresentado neste trabalho possui 7 graus de liberdade. O posicionamento do efetuador écapturado por um sistema estéreo de câmeras retornando quatro coordenadas, duas para cadacâmera. O sistema de controle aprende a mapear as 4 coordenadas das câmeras em um vetor deseis dimensões, contendo as posições angulares das articulações do manipulador robótico. Assim,uma rede SOM adaptada com estrutura topológica organizada em três dimensões é utilizadapara aprender tal mapeamento de modo que cada nodo da rede mapeia a cinemática inversa domanipulador.

A rede SOM foi aplicada por ASAMIZU; KOBAYASHI (2009) em um método decontrole de manipulador robótico. Este método extrai de modo autônomo uma representaçãopara o corpo do robô e outra para o objeto. Uma rede SOM de uma dimensão é usada paraaprender a representar a posição do objeto na imagem. Este sistema utiliza uma câmera fixa

1O efetuador pode ser definido como o componente que promove a interação entre a extremidade terminal domanipulador e o objeto a ser trabalhado. O tipo mais comum de efetuador é a garra, mas uma ferramenta de soldaou uma pistola de pintura também são efetuadores.

Page 27: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

26

posicionada de tal modo que possa capturar imagens do robô e do objeto ao mesmo tempo.As redes SOM também são utilizadas para reduzir a quantidade de estados de um espaço

de configurações ou posturas. HIRAOKA; AOYAGI (2010), por exemplo, propõem um métodopara o controle de movimento de um braço robótico capaz de desviar de obstáculos. O braçorobótico aprende a escolher melhor as transições entre estados utilizando aprendizagem porreforço. As aplicações de aprendizagem por reforço normalmente necessitam de muita memória.O uso da memória é influenciado pela forma em que o espaço de configurações é dividido emestados. Neste método, a rede SOM é utilizada para estruturar de maneira ótima os estadosdurante a aprendizagem por reforço. Para este fim, os estados presentes em áreas com poucainfluência no processo de aprendizagem são combinados, enquanto que os estados em áreas demaior influência são desmembrados.

Uma abordagem baseada em aprendizagem por demonstração para ensinar a tarefade pegar objetos para um robô com braço é proposta por HÜSER; ZHANG (2012). Nestaabordagem, o agente demonstrador através de uma câmera estereoscópica pega objetos com suamão. Para realizar o rastreamento da mão do demonstrador, algumas técnicas de processamentode imagens são utilizadas para segmentar a mão e encontrar o seu contorno. Estes dados sobre amão são processados e a coordenada da mão em um espaço 3D é usada para o treinamento deuma rede SOM de uma dimensão que cria uma generalização destes dados de entrada. Assim, arede SOM de topologia 1D aprende a trajetória de movimentação da mão do demonstrador paracontrolar a mão robótica.

ZHOU; DUDEK; SHI (2011) apresentam a rede self organizing neural population coding

(SONPC) para a aprendizagem da coordenação de um sistema visuomotor. Este sistema aprendecom uma câmera apontada para a movimentação aleatória de um braço robótico. O sistema visualé habilitado com ações de inclinar e girar semelhante a movimentação da cabeça humana. Arede foi avaliada com o braço robótico habilitado apenas para movimentar o ombro e o cotovelo.Um LED foi colocado na ponta do efetuador para simplificar a localização do braço. Comparadocom a rede SOM, a rede SONPC melhora a modelagem e o ajuste da curva de resposta do nodo.

BERGLUND et al. (2012) apresentam um modelo capaz de gerar um mapeamento entrea cinemática de uma mão humana e uma mão robótica. Este mapeamento é feito através deuma rede PLSOM2 (Parameter-Less Self-Organising Map 2). Os dados de treinamento da mãohumana são obtidos com o auxílio de uma luva dotada de sensores, CyberGlove2, para capturaros ângulos das articulações dos dedos. O principal problema é o mapeamento do polegar damão humana para a mão robótica (ShadowHand), pois o polegar humano tem quatro graus deliberdade enquanto o da mão robótica possui cinco. O treinamento deste modelo tem o objetivode diminuir o erro de posicionamento da ponta do polegar em relação ao resto da mão.

Um mapa auto-organizável gerador de trajetórias de estados aplicadas ao problema delocomoção de robôs com patas é apresentado por SANTANA JR; ARAUJO (2010). Este mapadetermina a sequência dos movimentos das patas de um robô hexápode através de trajetórias de

2http://goo.gl/cVWLNq

Page 28: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

27

estados. Cada estado de uma trajetória representa uma postura do robô. Os dados de treinamentoda rede são obtidos das articulações de um agente demonstrador. Estes dados podem ser osângulos das articulações ou os sinais de ativação dos atuadores. A capacidade de aprendizagemda rede tem a tendência de melhorar com o aumento do número de passos amostrados. Alémdisso, informações cronológicas não são necessárias para a aprendizagem da movimentação daspatas.

Uma abordagem distribuída de aprendizagem por reforço usada para aprender a controlarum robô hexápode e sua trajetória é apresentada em (YOUCEF; PIERRE, 2004). A rede SOM éempregada para decodificar e reduzir a dimensão da tabela de estados e ações da aprendizagempor reforço.

Um processo de aprendizagem auto-organizado baseado em ciclos de percepção e ação éapresentado por SRINIVASA; GROSSBERG (2007) para a aprendizagem da movimentação deum manipulador robótico e por SRINIVASA; GROSSBERG (2008) para a aprendizagem de umposicionador de câmera. As articulações destes robôs são perturbadas minimamente a partir deum determinado posicionamento. A aprendizagem mapeia essas perturbações em mudanças nasleituras dos sensores. Esta fase de balbuciamento motor3 fornece comandos de movimentaçãoque ativam informações sensoriais, espaciais e motoras correlacionadas. Estas informações sãousadas para aprender uma transformação interna de coordenadas entre sistemas sensoriais emotores. O posicionador da câmera age semelhante ao sistema cabeça-pescoço-olho humano.O processo de aprendizagem mapeia pequenas movimentações do posicionador em alteraçõesda posição de um alvo 3D dentro do campo de visão da câmera. Ao final do treinamento, oposicionador é capaz de direcionar a câmera para um alvo desejado.

FAIGL; PREUCIL (2011) aplicam uma rede SOM para o problema de planejamento deinspeção cuja informações sobre ambiente para o planejamento são obtidas pela visão do robô.Uma nova regra de adaptação é apresentada e comparada com a regra de adaptação utilizadano estado da arte por redes SOMs para o problema do caixeiro viajante (TSP). A comparação érealizada através de um conjunto de problemas gerados a partir de um mapa de um ambientereal. A principal contribuição deste trabalho é o seu esquema de adaptação para o problema deplanejamento de rotas multi-objetivo.

Um exemplo clássico de redes SOM utilizadas para resolver o TSP é apresentado porANGENIOL; LA CROIX VAUBOIS; LE TEXIER (1988). Neste mapa, a inicialização é feitacom um pequeno anel em torno de alguns pontos objetivos. A criação de nodos consiste emduplicar o nodo vencedor, mas apenas se o nodo vencedor possuir duas vitórias em uma época.O conceito de época é definido como a apresentação sem repetição de todas as amostras à redeneural. No contexto de TSP uma amostra equivale às coordenadas de uma cidade. O nodo criadoé inserido como um vizinho do nodo vencedor, e com as mesmas coordenadas do vencedor noplano. Tanto o vencedor quanto o nodo criado são inibidos. Eles são ativados novamente depoisde completar a apresentação de todas as cidades. Um nodo é deletado, se ele não tiver sido

3O balbuciamento motor é a realização de movimentos imperfeitos e sem domínio motor.

Page 29: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

28

escolhido como vencedor durante três épocas consecutivas.ISHII; YANO (2001); ISHII et al. (2002) aplicam a rede SOM ao problema de navegação

robótica. O papel fundamental de SOM em um problema de navegação robótica é a abstração doambiente através dos sensores presentes no robô. Esse processo de abstração é fundamental paraque o robô processe as informações obtidas pelos sensores e realize uma navegação autônoma.Assim, o vetor de características contém informações sobre os obstáculos à sua volta e sobre adireção que o robô deve seguir para desviar dos obstáculos. Os vetores são gerados para diversassituações de obstáculos no ambiente. Depois de finalizado o treinamento da rede, o robô é capazde desviar de obstáculos a partir do processamento das informações sensoriais.

NISHIDA; ISHII; FURUKAWA (2007a,b) descrevem um sistema de controle de na-vegação para veículos autônomos subaquáticos usando uma rede SOM modular (mnSOM) erecorrente. A rede mnSOM é uma extensão da rede SOM na qual cada unidade vetorial ésubstituída por módulos de funções, uma rede neural por exemplo. O processo de controle édividido em três etapas. Na primeira etapa, o mapa do modelo direto (MMD) é obtido utilizandoa rede mnSOM para processar dados em séries temporais contendo informações sobre o estadodo robô e seu sinal de controle. Ao final desta etapa o MMD aprende um mapeamento entre sinalde controle e estado do robô. Na segunda etapa, o mapa do controlador (MC) é obtido usando oestado desejado e o estado de referência. Nesta segunda etapa, o estado desejado é apresentadoao MC que gera uma força (sinal de controle). Esta força é enviada para o MMD que gera umestado de referência. Deste modo, o MC é otimizado utilizando o estado desejado e o estado dereferência obtido. A terceira etapa combina os módulos MMD e MC das etapas anteriores e apartir do estado atual do robô determina o seu sinal de controle.

BANERJEE (2007) propõe um modelo derivado do SOM, chamado string tightening

self-organizing neural network (STON) aplicável a problemas como caminhos mais curtos ecaminhos suaves, para evitar manobras curvilíneas fechadas. A ideia base do algoritmo STONpode ser ilustrada como uma corda em torno de obstáculos com dois pontos terminais. Aconfiguração mais curta pode ser obtida puxando os terminais da corda. O algoritmo STONmodela esse fenômeno através de um mapeamento auto-organizado entre os pontos da cordaformando a configuração mais curta possível para corda.

MALMSTROM; SITTE; ISKE (2001) descrevem um robô equipado com um sistemagenérico capaz de adaptar o seu comportamento motor de acordo com as entradas sensoriais. Arede SOM neste sistema gera um mapeamento das entradas sensoriais e por meio de aprendizagempor reforço cria uma relação entre os nodos da rede e os comandos para controlar os atuadores.O robô deste experimento é composto de sensores de distância e duas rodas que giram parafrente e para trás. Semelhante a esta abordagem, ARAI; HAKURA (2000) usam a rede SOMe aprendizagem por reforço para determinar o comportamento do robô durante a navegaçãorobótica. Os sensores usados na captura dos dados são um GPS e um giroscópio.

Como visto no decorrer deste Capítulo 2, as redes SOM e derivadas desempenhamdiferentes papeis em sistemas robóticos de controle e planejamento. Neste contexto, as principais

Page 30: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

29

funções destas redes são: criação de trajetórias de estados para manipuladores robóticos; controledo posicionamento de efetuador através de um mapeamento entre espaços, por exemplo, oespaço das posições do efetuador e o espaço de posturas do manipulador ou do torque em cadaarticulação; criação de trajetória de modo auto-organizável para resolver problemas de caminhomínimo; mapeamento entre percepção e ação em problemas de navegação e planejamento detrajetória.

Page 31: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

303030

3Planejamento e Controle deMarcha Robótica (PCMR)

Este Capítulo apresenta uma descrição do problema de locomoção de robôs com baseno planejamento e controle da movimentação das articulações das pernas de um robô paraproduzir uma marcha desejada. Assuntos importantes para compreensão e para a formalizaçãodo problema são abordados no decorrer deste Capítulo. A formalização do problema tem comobase os seguintes assuntos: robôs com pernas, marcha em animais, CPG, trajetória de estados,aprendizagem por demonstração e controle de locomoção com DDC. A Seção 3.1 apresentaalguns conceitos sobre marcha e robótica. A Seção 3.2 apresenta alguns modelos de redesneurais relevantes para o problema de locomoção. A descrição formal do problema tratado nestaTese está presente na Seção 3.3. Esta descrição tem como base a aprendizagem de estados maisrelevantes de uma marcha e a criação de trajetórias a partir destes estados para o controle damarcha robótica. A Seção 3.4 faz uma breve introdução sobre a teoria de Controle Guiado porDados apresentando a relação entre dados capturados e o controle dos atuadores.

3.1 Marcha Robótica

O termo robô é aplicado a uma grande variedade de dispositivos mecânicos possui-dores de algum grau de autonomia, podendo até ser teleoperados (SPONG; HUTCHINSON;VIDYASAGAR, 2006). Os robôs geralmente são projetados para realizar algum tipo de trabalhoprincipalmente na indústria. O uso da robótica oferece diversas vantagens como a diminuição docusto do trabalho, aumento da precisão e produtividade. Os robôs geralmente são utilizados emtrabalhos nos quais o ser humano é submetido a condições monótonas, repetitivas ou perigosas.

A robótica também é aplicada em ambientes ou em atividades muito perigosas para a vidahumana, como a exploração do fundo do mar, a exploração de outro planeta, o desarmamentode dispositivos explosivos e a navegação em ambientes radioativos (SPONG; HUTCHINSON;VIDYASAGAR, 2006). Nestes ambientes, onde o chão é bastante irregular, os robôs commembros são mais indicados do que os robôs com rodas.

Page 32: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.1. MARCHA ROBÓTICA 31

Figura 3.1: Robô móvel Sojourner usado pela ©NASA durante a missão de exploraçãode Marte em 1997.

Em ambientes hostis, perigosos ou inabitáveis, a aplicação de sistemas teleoperadostorna-se cada vez mais comum. Por exemplo, para explorar a superfície de Marte, a NASA1

utilizou um robô em modo teleoperado (Controlado a partir da Terra), Figura 3.1. A Plustech

desenvolveu um robô caminhante para carregar madeira para fora da floresta, ilustrado na Figura3.2, onde a navegação é feita por um operador dentro do robô e a coordenação entre pernas éautomática (SIEGWART; NOURBAKHSH, 2004). Um outro exemplo de robô semi-autônomocapaz de navegar de maneira independente ou teleoperada é o robô de seis membros propostopor SANTOS et al. (2007) para a detecção de minas terrestres.

Em robôs teleoperados, a complexidade por trás do mecanismo de controle de locomoçãogeralmente torna impossível para o operador humano controlar o deslocamento do robô. Ohomem executa as atividades cognitivas e de localização, mas depende inteiramente do esquemade controle de locomoção do robô para ir de um lugar para outro (SIEGWART; NOURBAKHSH,2004).

Segundo SPROEWITZ et al. (2008), o controle de locomoção, bem como a reprodução deum determinado modo de locomoção, em um robô cujos membros inferiores possuem múltiplosgraus de liberdade é um problema complexo e desafiador. Algumas das abordagens mais comuns(NAKAMURA et al., 2007; IJSPEERT et al., 2007; AYERS; WITTING, 2007; ARENA et al.,2004; RIGHETTI; IJSPEERT, 2006; IJSPEERT, 2008) para resolver o problema de locomoçãode robôs com membros inferiores estão relacionadas ao CPG (Central Pattern Generator). OCPG controla o movimento periódico executado por cada membro, bem como o sincronismoentre membros. Sob o ponto de vista da biologia, um CPG é um circuito neural constituído deosciladores neurais encontrado principalmente na medula espinhal de animais vertebrados, sendocapaz de produzir sinais neurais rítmicos sem receber estímulos rítmicos. Este circuito neuraldurante a locomoção produz descargas periódicas de impulsos nervosos. Estes impulsos ativamos motoneurônios produzindo sequências alternadas entre flexão e extensão em vários músculosde um membro.

As características dos sinais gerados pelo CPG influenciam o movimento de cada membro.

1Administração Nacional do Espaço e da Aeronáutica – National Aeronautics and Space Administration

Page 33: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.1. MARCHA ROBÓTICA 32

Figura 3.2: Robô caminhante projetado pela ©Plustech.

Considerando que o CPG é composto de osciladores e que o movimento de uma articulação écontrolado por um conjunto de osciladores, as oscilações geradas influenciam diretamente omovimento de cada articulação. Logo, características como, frequência, amplitude e formas dossinais gerados modulam o movimento das articulações, influenciam na eficiência do controlemotor e consequentemente, no modo de locomoção resultante (IJSPEERT, 2001).

Em animais, a locomoção é caracterizada por movimentos repetitivos das patas formandoos passos. Cada passo é dividido em duas fases: uma de apoio e outra de balanço. Na fase deapoio a pata está em contato com o chão e na fase de balanço a pata está livre no ar (RIGHETTI;IJSPEERT, 2006). A razão entre o tempo de duração da fase de apoio e o tempo total de um passoé conhecida como ciclo de trabalho. Outra característica importante da locomoção animal é adefasagem entre as patas. Um passo pode ser entendido como uma sequência cíclica de posturasda pata, sendo que cada modo de locomoção possui uma sequência própria de movimentos daspatas. De maneira resumida, uma marcha ou modo de locomoção é descrita como os movimentoscoordenados das patas para levar o corpo de um lugar para outro. Assim, um modo de locomoçãodetermina a velocidade e a direção do movimento do corpo do animal (BEKEY, 2005).

MCMAHON (1984) descreve alguns modos de locomoção de quadrúpedes da seguinteforma: (i) no modo de locomoção caminhada, cada membro atinge o chão um após o outro, eo intervalo entre cada descida é de 25% do tempo de duração de um passo; (ii) no modo trote,os membros nos cantos diagonais do corpo trabalham sincronizadamente; (iii) no galope leve,um pé frontal e um pé traseiro diagonal tocam o chão juntos; (iv) um galope é um modo de

Page 34: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 33

locomoção rápido no qual a sequência de passadas acontece em torno de um ciclo.A locomoção de robôs com pernas é caracterizada por uma sequência de pontos de

contato entre os membros do robô e chão. Durante a locomoção, uma parte dos membros estáem contato com o chão e a outra parte está livre no ar. A principal vantagem de um robô commembros é a adaptabilidade e a capacidade de manobra em terrenos irregulares. Pois, apenasum conjunto de pontos de contato é necessário para manter o robô equilibrado e deslocando-se,não importando as características do solo. O robô apenas precisa manter os membros livrese distantes do solo de maneira que não atrapalhe seu deslocamento. Além disso, um robôcaminhante é capaz de atravessar um buraco ou uma fenda enquanto seu corpo passa sobre oburaco (SIEGWART; NOURBAKHSH, 2004).

O controle de locomoção de um robô com patas com vários graus de liberdade é umproblema complexo (SPROEWITZ et al., 2008). As principais características que determinamo modo de locomoção de um animal são: a repetição constante de movimentos, a duração dotempo de apoio da pata em cada passo e o sincronismo entre os movimentos das patas. Assim, osinal de controle enviado para os atuadores de cada articulação deve levar em conta estas duascaracterísticas.

A principal desvantagem da locomoção de robôs com pernas inclui a complexidademecânica e energética. A perna, que pode possuir vários graus de liberdade, deve ser capaz desustentar uma parte do peso total do robô. Além disso, alta capacidade de manobra será viávelapenas se as pernas possuírem um número suficiente de graus de liberdade.

Outra abordagem para a aprendizagem da movimentação dos membros inferiores para alocomoção de um robô pode ser alcançada através da observação e reprodução dos movimentosde um ser vivo. Com esta abordagem, a aprendizagem da locomoção é realizada com informaçõesobservadas sobre a movimentação das articulações, ao invés da modelagem dos sinais de ativaçãodos músculos. A Aprendizagem por Demonstração é baseada nesta ideia e pode ser utilizada porum robô para aprender a marcha de um animal.

3.2 CPGs e Redes Neurais

Modelos matemáticos de CPGs foram construídos principalmente para insetos e verte-brados inferiores. Vários modelos são construídos inspirados no circuito neural responsável pelocomportamento de natação da lampreia, construídos a partir de redes não-lineares celulares ouconstruídos com sistemas de osciladores acoplados. Um CPG muito investigado é o da lampreiasendo modelado de várias maneiras: biofísica, conexionista, sistemas de osciladores acoplados esimulação neuromecânica (IJSPEERT, 2008).

O modelo de IJSPEERT (2008), biologicamente inspirado em um neurônio real, eo modelo de ARENA et al. (2004), baseado em uma rede não-linear celular (cellular non-

linear network, CNN), são duas abordagens relevantes para a modelagem de CPGs. O modelobiologicamente inspirado é baseado no modelo de EKEBERG (1993). Baseado em Ekeberg,

Page 35: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 34

IJSPEERT et al. (2007) propuseram um modelo para o controle de uma salamandra robótica. OCPG da salamandra é definido como um sistema de osciladores não-lineares acoplados baseadono modelo de Kuramoto (ACEBRóN et al., 2005), um oscilador simples constituído de umapopulação de N osciladores de fase acoplados com amplitude controlada.

O modelo de CPG de ARENA et al. (2004) é composto por CNNs que produzemdinâmicas não-lineares através de sistemas de osciladores acoplados. As células de uma CNNagem como processadores analógicos dinâmicos com capacidade de processamento paraleloe com interconexões locais (CHUA et al., 1995; CHUA; ROSKA, 1993). O restante destaseção apresenta alguns exemplos de como os sistemas de equações diferenciais são utilizadospara modelar um CPG. As abordagens de IJSPEERT (2008) e de ARENA et al. (2004) serãoapresentadas com um nível de detalhamento maior.

3.2.1 CPG Biologicamente Inspirado

EKEBERG (1993) inspirado na rede neural biológica responsável pelo movimento docorpo da lampreia, desenvolveu um modelo de controle neural com neurônios individualmentesimplificados, porém com conectividade semelhante ao modelo biológico. Neste modelo, cadaunidade representa uma população de neurônios reais que possuem funcionalidades semelhantes.Além disso, Ekeberg também descreveu como os sinais gerados pelo modelo de controle neuralsão transformados em movimentos.

O controlador neural proposto por EKEBERG (1993) biologicamente inspirado no CPGda lampreia é composto de 100 segmentos de rede interconectadas, ver Figura 3.3. Cada segmentode rede é um oscilador neural feito por dois motoneurônios (MN), dois interneurônios excitatórios(EIN), dois interneurônios inibitórios contralaterais (CIN) e dois interneurônios inibitórios laterais(LIN). A nomenclatura de cada neurônio descreve suas conexões eferentes. Cada neurônio,individualmente, representa uma população de neurônios funcionalmente similares na lampreiareal, que recebem sinais excitatórios do tronco cerebral. Uma interconexão é uma conexão entredois neurônios pertencentes a dois segmentos vizinhos na rede.

Um neurônio é modelado como um leaky-integrator, ver Equações 3.7. Sua saída u

equivale a frequência de disparo (∈ [0,1]) calculada como a seguir:

ξ+ =1

τD( ∑

i∈Ψ+

uiwi−ξ+)� �3.1

ξ− =1

τD( ∑

i∈Ψ−

uiwi−ξ−)� �3.2

ϑ =1τA

(u−ϑ)� �3.3

u =

{1− exp{(Θ−ξ+)Γ}−ξ−−µϑ (u > 0)0 (u≤ 0)

� �3.4

Page 36: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 35

Figura 3.3: 4 segmentos de rede do controlador biológico, onde cada segmento de redeé composto de 8 neurônios. Quatro tipos de neurônios estão presentes nos osciladores:três tipos de interneurônios (EIN, CIN e LIN) e os motoneurônios MN. Os controladorespodem receber realimentação das células excitatórias (EC). As linhas tracejadas mostramas interconexões entre segmentos vizinhos. Figura extraída de IJSPEERT; HALLAM;WILLSHAW (1999).

Page 37: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 36

onde wi é o peso sináptico, Ψ+ e Ψ− representam os grupos de neurônios pré-sinápticosexcitatórios e inibitórios respectivamente, ξ+ e ξ− são sinais atrasados para entradas excitatóriase inibitórias, e ϑ representa a adaptação da frequência observada em alguns neurônios reais(IJSPEERT; HALLAM; WILLSHAW, 1999). τD é um limiar para a ativação, Γ é uma constantede ganho, µ controla o nível de adaptação e Θ é um limiar (EKEBERG, 1993).

Prosseguindo os estudos sobre CPG, IJSPEERT (2001) desenvolveu um modelo deCPG biologicamente plausível2 da salamandra. O circuito neural controlador da locomoção dasalamandra é semelhante ao CPG da lampreia, mas incrementado com CPGs que controlam osmembros. Este modelo era composto de 14 articulações, 10 distribuídas pelo tronco e cauda,mais 1 para cada membro contabilizando 4 articulações nos membros. Os parâmetros destecircuito neural eram determinados por algoritmo genético. O modelo resultante simulava tanto ocorpo quanto o circuito locomotor da salamandra sendo capaz de fazer a transição do modo delocomoção aquático para o terrestre.

Ijspeert não se restringiu ao estudo da lampreia e da salamandra, desenvolvendo seus tra-balhos com outros tipos de robôs. RIGHETTI; IJSPEERT (2006) introduziram uma metodologiapara projetar controladores de robôs humanoides rastejantes, baseada no paradigma CPG. Assimcomo nos trabalhos anteriores, esta metodologia segue uma abordagem biologicamente inspiradae apresenta um modelo matemático de CPG baseado em osciladores não-lineares acoplados.

Alguns trabalhos projetam CPGs levando em conta as interações dos neurônios comos músculos das pernas como é o caso de MAUFROY; KIMURA; TAKASE (2008, 2010) quepropõem um modelo biologicamente inspirado na neurofisiologia da locomoção de gatos. Capazde controlar habilidosamente um robô quadrúpede em terrenos irregulares, fazer a transição entremodos de locomoção de maneira autônoma e compatível com a velocidade de deslocamento dorobô.

Alguns modelos matemáticos baseados no comportamento dos neurônios reais sãoutilizados para compor o CPG. Dentre eles está o famoso modelo H-H de HODGKIN; HUXLEY(1952), um modelo complexo e com muitos parâmetros (WU et al., 2009). Uma simplificaçãodo modelo H-H é o modelo FitzHugh-Nagumo (FITZHUGH, 1961; NAGUMO; ARIMOTO;YOSHIZAWA, 2007) definido por:

xi = c(

yi + xi +x3

i3+ fci

),

yi =−(xi−a+byi)/c,� �3.5

onde xi, é o potencial da membrana do i-ésimo neurônio; fci é um sinal de controle no neurônioi; a,b e c são constantes e não correspondem a nenhum parâmetro fisiológico. A notação xi éutilizada para descrever a primeira derivada de x em relação ao tempo.

Um modelo baseado no neurônio real e voltado para a produção de sinal oscilatório na

2A modelagem matemática do comportamento do sinal de saída do CPG corresponde ao comportamentoobservado no organismo biológico.

Page 38: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 37

saída é o modelo de STEIN et al. (1973), descrito matematicamente por:

xi = a(− xi +

11+ exp(− fci−byi +bzi)

),

yi = xi− pyi,

zi = xi−qzi,� �3.6

onde xi representa o potencial da membrana do i-ésimo oscilador; a é uma constante que afetaa frequência de oscilação; fci é um sinal de controle para o oscilador i; b permite ao modeloadaptar-se as mudanças de estímulos; q e p controlam a taxa de adaptação.

O modelo de MATSUOKA (1987) do tipo Leaky-Integrator definido matematicamentepela Equações 3.7, descreve o comportamento básico de neurônios reais:

Tru+ui =−n

∑j=1

wi jy j−βvi + si,

Tavi + vi = yi,

yi = g(ui) = max(ui,0),� �3.7

onde ui é o potencial da membrana do i-ésimo neurônio; vi é uma variável que representa ograu de adaptação do neurônio i; Tr e Ta são constantes do tempo de crescimento e do tempo deadaptação; wi j é o peso da sinapse inibitória da conexão que sai do neurônio j para o i; β é oparâmetro que determina a taxa de disparos; si é uma entrada externa, e yi é a saída do neurônio.

Um oscilador não-linear pode ser associado a um neurônio de um CPG, pois o papel doneurônio no CPG é justamente produzir periodicamente sinais oscilatórios. Entre os modelos deosciladores não-lineares estão o modelo de Kuramoto e o de Hopf (WU et al., 2009). O modelode Kuramoto (ACEBRóN et al., 2005) é um oscilador simples que consiste em uma populaçãode N osciladores de fase acoplados, descrito matematicamente por:

θi = wi +N

∑j=1

Ki j sin(θ j−θi), i = 1,2, ...,N,� �3.8

onde θi é a fase do i-ésimo oscilador; wi é a frequência natural do i-ésimo oscilador; Ki j > 0 é aforça do acoplamento do oscilador j para o oscilador i.

Observando as equações anteriores, podemos notar que não existe uma grande variedadede modelagens matemática para construção de CPGs (IJSPEERT, 2008; WU et al., 2009). Dife-rentes abordagens têm sido investigadas como osciladores não-lineares, modelagem biológicade neurônios, redes celulares não-lineares, etc. Para que o CPG construído com algumas destasabordagens comporte-se da maneira desejada é necessário que os parâmetros destes modelossejam configurados corretamente. Para chegar a estes parâmetros, algumas técnicas são utilizadas,como os algoritmos evolucionários (REEVE; HALLAM, 2005; IJSPEERT; KODJABACHIAN,

Page 39: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 38

1999; IJSPEERT; HALLAM; WILLSHAW, 1999), aprendizagem por reforço (NAKAMURAet al., 2007) ou até mesmo metodologias específicas para o ajuste destes parâmetros, como é ocaso de ARENA; FORTUNA; FRASCA (2002).

IJSPEERT (2008) define alguns itens presentes em um projeto de CPG:

� A arquitetura geral do CPG, incluindo o tipo e número de neurônios;

� As conexões entre neurônios, que determinam a sincronização entre os osciladores einfluencia no modo de locomoção resultante;

� As oscilações determinando as trajetórias executadas por cada junta durante um ciclo;

� O efeito dos sinais de entrada, isto é, como o controle de parâmetros modula afrequência, a amplitude, a fase de movimento das pernas ou as oscilações.

Para construir CPGs baseados em osciladores não-lineares ou até mesmo em modelosmatemáticos de neurônios reais é necessário conhecer diversos modelos para encontrar umque se comporte de maneira desejada. Caso tal modelo não seja encontrado, o modelo comcomportamento mais próximo do desejado é escolhido e adaptado. Para conseguir esta adaptação,parâmetros das equações que descrevem o modelo precisam ser modificados, adicionados ouretirados (WU et al., 2009).

3.2.2 CPG Baseado em CNN

As CNNs ( Cellular Nonlinear Networks – Redes Celulares Não-lineares) tornam possívelimplementar dinâmicas não-lineares através de sistemas de osciladores acoplados, fornecendocaracterísticas importantes na implementação de CPG para o controle de locomoção (ARENAet al., 2004). A célula ou neurônio artificial de uma CNN funciona como um processadoranalógico dinâmico. Duas características marcantes na CNN são: capacidade de processamentoparalelo e interconexões essencialmente locais entre células. No entanto, devido à sua dinâmicade propagação, toda a rede interage direta ou indiretamente. Esta é uma característica quedistingui a CNN das demais redes (CHUA et al., 1995; CHUA; ROSKA, 1993; CHUA; YANG,1988a). Uma CNN de duas dimensões e de tamanho MxN é mostrada na Figura 3.4. Embora aCNN possa assumir qualquer dimensão, o foco deste texto é em duas dimensões, pois a CNNutilizada para implementar o CPG para o controle de locomoção robótico possui tal dimensão.

Em vários trabalhos sobre CPGs baseados em osciladores acoplados, o neurônio re-presenta o oscilador e na CNN ele é definido como uma célula (ARENA et al., 2004). Naestrutura de uma CNN cada célula é um sistema dinâmico, conectada apenas à sua vizinhançasatisfazendo algumas propriedades: interações limitadas a uma vizinhança de raio finito; e todasas variáveis de estado são de valores contínuos (CHUA; YANG, 1988a; CHUA; ROSKA, 1993).A vizinhança de uma célula em uma CNN de tamanho MxN é expressa pela Equação 3.9:

Nr(i, j) = {C(k, l)|max{|k− i|, |l− j|}6 r,16 k 6M,16 l 6 N},� �3.9

Page 40: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 39

Figura 3.4: Uma CNN de dimensão MxN

onde C(i, j) denota a célula da i-ésima linha e j-ésima coluna. O raio r da CNN utilizada nestetrabalho tem tamanho 1, pois a relação de vizinhança está restrita ao vizinho imediato.

Segundo CHUA; YANG (1988b), uma CNN é caracterizada pelo conjunto de equaçõesdiferenciais a seguir:

Cdxi j(t)

dt=− 1

Rxxi j(t)+ ∑

C(k,l)∈Nr(i, j)A(i, j;k, l)ykl(t)+ ∑

C(k,l)∈Nr(i, j)B(i, j;k, l)ukl(t)+ zi j,

16 i6M;16 j 6 N� �3.10

yi j = f (xi j) =12(|xi j +1|− |xi j−1|), 16 i6M;16 j 6 N

� �3.11

ui j = Ei j, 16 i6M;16 j 6 N� �3.12

Algumas restrições:

|xi j(0)|6 1, 16 i6M;16 j 6 N� �3.13

|ui j|6 1, 16 i6M;16 j 6 N� �3.14

A célula básica CNN ni j possui um estado xi j, uma entrada ui j, um limiar zi j, umasaída yi j e uma corrente de entrada sináptica IN

i j . Esta corrente sináptica depende da entradaui+k, j+l(t) e do estado xi+k, j+l de todas as células localizadas na vizinhança de tamanho r deni j, caso r = 1, k e l ∈ {−1,0,1}. A contribuição vinda da entrada ui+k, j+l(t) de cada célulavizinha é modelada por uma fonte controlada do tipo linear bklui+k, j+l(t). A contribuição decada estado xi+k, j+l(t) de cada célula vizinha ni+k, j+l é modelada por um fonte controlada dotipo não-linear akl f (xi+k, j+l), onde f (·) descreve uma função escalar não-linear, ver Equação3.11. Os coeficientes akl pertencem ao template de retroalimentação A e os coeficientes bkl

Page 41: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 40

Tabela 3.1: Template A

a1,−1 a1,0 a1,1a0,−1 a0,0 a0,1

a−1,−1 a−1,0 a−1,1

pertencem ao template de entrada ou de controle B. O template aparece na forma A(i, j,k, l),onde: A é o nome do template; i e j identificam a célula; k e l identificam um elemento dentrodo template. Um template de realimentação A de tamanho 3x3 e com uma vizinhança de raio 1 émostrado na Tabela 3.1. O coeficiente central a0,0 do template A está relacionado à realimentaçãoda própria célula ni j. Uma célula CNN é dita autônoma quando não possui entradas externas ouseja ui j = ui+k, j+l = 0.

Figura 3.5: Célula autônoma CNN (ui j = ui+k, j+l = 0). Cada sinapse (fonte de correntecontrolada) é mostrada como uma função não-linear de seu estado atual xi j e seus estadosvizinhos xi+k, j+l .

A modelagem da corrente sináptica em uma célula CNN é semelhante ao comportamentobiológico onde cargas elétricas chegam aos dendritos de uma célula vindas dos axônios de outrascélulas, através da sinapse. Um ilustração de como uma célula ni j relaciona-se com suas vizinhasatravés da corrente sináptica IN

i j (t), é apresentada na Figura 3.5 e a definição matemática naEquação 3.15.

INi j = ∑

kl 6=0,0akl f (xi+k, j+l)+ ∑

kl 6=0,0bklui+k, j+l

� �3.15

De acordo com CHUA et al. (1995), a célula básica pode ser descrita utilizando uma

Page 42: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.2. CPGS E REDES NEURAIS 41

equação de estado de primeira ordem como a Equação 3.16:

xi j =−1C

[xi j

R−a00 f (xi j)−b00ui j− zi j− IN

i j

] � �3.16

Na modelagem de CPG proposta por ARENA et al. (2004), a CNN utilizada é dotipo Difusão de Reação. Esta CNN é uma rede simples de duas camadas capaz de gerarondas autônomas. Algumas características marcantes nas ondas autônomas são: possuir formaconstante durante a propagação; e não ser afetadas por interferências (ARENA; FORTUNA;BRANCIFORTE, 1999). As conexões entre as células são definidas por um template de difusãode reação e cada célula é um circuito não linear de segunda-ordem que independente de suavizinhança comporta-se como um oscilador não-linear (ARENA et al., 1997). A autonomia darede é devido ao fato de não existir sinais de entrada. Ela é chamada de difusão de reação porqueé descrita matematicamente por uma versão discretizada de um sistema de equações diferenciaisparciais não-lineares, geralmente referenciadas na literatura como equações de difusão de reação(CHUA et al., 1995).

Na RD-CNN, a geração de um determinado modo de locomoção depende de como arede está estruturada. O sincronismo entre células está relacionado à maneira como a célulassão conectadas. Considerando que cada célula está associada a uma perna então o sincronismoentre células determina a defasagem do movimento das pernas. Sabendo-se que um template

determina as conexões entre células da RD-CNN então indiretamente um template determina ummodo de locomoção. Embora escolher o template apropriado para obter um desejado modo delocomoção não seja uma tarefa trivial (ARENA; FORTUNA; FRASCA, 2002)

ARENA et al. (2004) combinou três modos básicos de locomoção para formar modos delocomoção intermediários. Os modos de locomoção básicos são andar, mover em velocidademoderada e correr. Através desta combinação como ilustra a Equação 3.17 foi possível realizaruma transição mais suave entre estes modos de locomoção básicos. Esta transição é alcançadaativando mais de um template ao mesmo tempo, já que cada template define um modo delocomoção. O modo de locomoção contínuo é definido através do template de realimentação Ar

como a seguir:Ar = αA f +βAm + γAw,

� �3.17

onde o primeiro termo da equação representa o modo de locomoção rápido A f , o segundorepresenta o modo de locomoção moderado Am e o terceiro, o modo de locomoção lento Aw. Osparâmetros α , β e γ variam entre 0 e 1 (ARENA et al., 2004), sendo o controle destes parâmetros(α , β e γ) feito por meio de um algoritmo de aprendizagem capaz de gerar um mapeamentoentre uma velocidade de referência e os respectivos valores de tais parâmetros.

Page 43: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.3. TRAJETÓRIA DE ESTADOS E APRENDIZAGEM POR DEMONSTRAÇÃO 42

3.3 Trajetória de Estados e Aprendizagem por Demonstra-ção

A locomoção de um robô com patas pode ser vista como um sequência de estadosrepetidos ciclicamente. Neste contexto, um estado s armazena informações que determinamexclusivamente a postura do robô. Assim, os estados de um sistema contêm exclusivamentea descrição deste sistema em um dado instante de tempo (BENANTE; ARAúJO, 2007). Nocontexto deste trabalho, os estados da locomoção de um agente são coletados levando em contaestratégias presentes em Aprendizagem por Demonstração (LbD). A LbD gera um mapeamentoentre estados e ações para reproduzir um dado comportamento observado por um robô, oaprendiz. Este robô pode usar duas estratégias de LbD para capturar informações usadas paraa aprendizagem chamadas de sensores sobre o agente demonstrador e observação externa. Naprimeira estratégia, os dados são coletados a partir de sensores instalados nas articulações doagente demonstrador. Na segunda estratégia, observação externa, uma câmera é direcionada parao agente demonstrador e um algoritmo detecta a posição angular de cada articulação (ARGALLet al., 2009).

O primeiro momento do processo de aprendizagem é a coleta de dados. Em seguidaestes dados são associados a estados para possibilitar a geração de trajetórias de estados. Ogerador de trajetórias de estados cria ligações entre pares de estados próximos para gerar astrajetórias. O cálculo de similaridade entre estados é realizado com a distância Euclidiana. Amodelagem do problema de locomoção de robôs com patas através de trajetórias de estados podeser formalmente definida por alguns componentes (BONET; GEFFNER, 2001):

� O estado inicial sstart descreve a posição inicial dos membros.

� O espaço de estado S inclui todos os estados possíveis para os membros do robô.Dois estados são vizinhos quando um pode alcançar o outro a partir de uma ação.

� A ação a ∈ A(si), é o conjunto de todas as possíveis ações dos membros do robô apartir de um dado si para um outro estado vizinho. No contexto deste trabalho, a açãoé uma simples movimentação do membro ou da postura do robô de um estado paraoutro.

� A trajetória é uma sequência de estados vizinhos partindo de uma configuraçãoinicial (sstart) para uma configuração alvo (starget). Deste modo, uma trajetória T édefinida como uma sequência finita de estados:

T = {sstart , ...,si, ...,starget},� �3.18

onde si ∈ RD é um estado do robô em um espaço de D-dimensional.

Page 44: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.4. CONTROLE DE LOCOMOÇÃO COM DDC 43

� O teste de objetivo identifica se o estado atual é o estado objetivo. Para um robôcaminhante, a locomoção consiste em um sequência cíclica de posturas dos membros.Em uma trajetória cíclica o estado final e o inicial devem ser o mesmo.

� A avaliação da trajetória gerada tem como objetivo estimar o seu grau de similaridadeem relação a uma trajetória desejada.

3.4 Controle de Locomoção com DDC

A teoria completa sobre métodos de controle moderno pode ser dividida em ControleBaseado em Modelos (MBC)3 e Controle Guiado por Dados (DDC). O processo de modelagemusando MBC consiste em modelar ou identificar a planta e em seguida projetar um controladorbaseado na modelagem da planta4. Normalmente não é possível realizar uma modelagem fielao sistema real, assim a modelagem da planta é uma aproximação, o aparecimento de erroé inevitável e a não modelagem de algumas dinâmicas do sistema inevitavelmente vai surgir.Devido a estas dinâmicas não modeladas, um sistema de controle em circuito fechado, projetadocom a abordagem MBC, é inerentemente menos seguro e menos robusto (HOU; WANG, 2013).

Normalmente, durante o processo de criação de um controlador para um sistema comincertezas é recomendável gerar primeiro a modelagem de um controlador robusto ao invés degastar um esforço significativo para obter um modelo muito preciso de um sistema desconhecido.Porém, existem obstáculos práticos e teóricos para alcançar um processo perfeito de modelagem.Por exemplo, dinâmicas não modeladas e robustez formam um par de problemas inevitáveis e quenão podem ser resolvidas simultaneamente utilizando o ferramental convencional teórico MBC.Alem disso, quanto mais preciso é o modelo, mais esforço ou custo deve ser gasto no projetodo sistema de controle. Uma modelagem precisa da planta pode ser mais difícil que projetar osistema de controle. Se a dinâmica do sistema é de uma ordem muito elevada, esta dinâmica nãopode ser usada como um modelo para projetar o sistema de controle, pois normalmente conduz aum controlador de ordem muito elevada. Este tipo de controlador não é apropriado para o usoprático (HOU; WANG, 2013).

O termo "data-driven"foi primeiro proposto na ciência da computação e absorvidodepois pela comunidade de controle. Até 2013, existiam poucos métodos DDC e com diferentesnomes, como Controle Guiado por Dados, Controle Baseado em Dados, Controle sem Modelo(Modeless Control), Model-Free Adaptive Control (MFAC), Iterative Feedback Tuning (IFT),virtual reference feedback tuning (VRFT), e iterative learning control (ILC). Existem algumasdiferenças entre os termos Controle Guiado por Dados e Controle Baseado em Dados. O ControleGuiado por Dados sugere que o processo é um controle de circuito fechado e seu ponto de partidae de destino são dados, enquanto controle baseado em dados significa que o processo é um

3Em inglês, Model-Based Control.4A planta de um sistema de controle é definida como sendo a parte do sistema a ser controlada.

Page 45: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.4. CONTROLE DE LOCOMOÇÃO COM DDC 44

controle em circuito aberto e seu ponto de partida e de destino usam dados.HOU; WANG (2013) apresentam a definição a seguir. O Controle Guiado por Dados

inclui todas as teorias e métodos nos quais o controlador é projetado diretamente com os dados deentrada/saída do sistema controlado ou com o conhecimento obtido do processamento dos dadosda planta. Nenhuma informação explícita sobre o modelo matemático do processo controladodeve ser utilizada. A estabilidade, a convergência e a robustez podem ser garantidas por meio deanálise matemática rigorosa sob certas suposições razoáveis.

Os sistemas de controle consistem principalmente de duas partes, o objeto controlado e ocontrolador. No mundo real, as plantas (objeto controlado) podem ser categorizadas em quatroclasses. Na classe C1, os modelos matemáticos são obtidos diretamente a partir de princípioselementares ou a partir da técnica de identificação. A classe C2 é semelhante a classe C1, mas osmodelos obtidos são aproximadamente precisos e embutidos de algum grau de incerteza. Naclasse C3, os princípios elementares ou os modelos matemáticos baseados em identificação sãocomplexos com ordem muito elevada e com não-linearidade, etc. Na classe C4, os modelosmatemáticos baseados em identificação são difíceis de determinar ou indisponíveis.

A teoria moderna de controle, MBC, oferece um bom tratamento para as classes C1e C2. Na classe C3, se o modelo for muito complexo, composto de centenas de equações evariáveis de estados, a teoria MBC não é indicada. Sistemas muito complexos da classe C3podem ser classificados como C4. Controladores muito complexos geralmente são custosos oudifíceis de usar e falhas podem ocorrer muito facilmente. Assim, para sistemas de controle destetipo, a redução do modelo ou do controlador é inevitável. Usualmente, modelos matemáticoscomplexos não são apropriados para o projeto de controladores, por causa da dificuldade deprojetar controladores e analisar as propriedades do sistema de controle (HOU; WANG, 2013).

Considerando as classes descritas acima, a teoria MBC resolve apenas os problemasquando modelos matemáticos estão disponíveis e as incertezas estão restritas a um limitemoderado. Neste sentido, apenas as classes C1 e C2 são mais apropriadas para a teoria MBC.Para as classes C3 e C4 é inevitável usar os métodos de controle DDC. Assim, uma completateoria de controle deve incluir todos os métodos capazes de tratar todas as quatro classes deobjetos controlados (HOU; WANG, 2013).

A principal diferença entre MBC e DDC é que a abordagem para projetar um sistemade controle baseado em modelo só é possível se um modelo estiver disponível. A abordagempara projetar um sistema de Controle Guiado por Dados é apropriada para a situação em que ummodelo matemático não está disponível. Levando em consideração esta importante diferença, aabordagem DDC apresenta as seguintes características:

1. O controlador não possui explicitamente qualquer parte do modelo da planta.

2. A estabilidade e convergência, de modo geral, não dependem da acurácia do modelo,que é o principal obstáculo para as aplicações da teoria MBC.

Page 46: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.4. CONTROLE DE LOCOMOÇÃO COM DDC 45

3. O ponto mais marcante nas abordagens DDC é que, diferente da teoria MBC, asdinâmicas não modeladas não estão diretamente relacionadas a robustez.

A principal forma de identificar se um controlador foi concebido com MBC ou DDC éverificar se o projeto foi baseado no modelo da dinâmica do sistema. Caso o modelo do sistemaesteja envolvido no controlador, então este controlador é um método MBC, caso contrárioeste controlador é um método DDC. A partir deste ponto de vista, alguns métodos de controlebaseados em rede neural, métodos de controle fuzzy, e muitos outros métodos de controleinteligente são métodos DDC (HOU; WANG, 2013).

Na teoria MBC, a robustez refere-se a habilidade de um sistema de controle em lidarcom incertezas ou dinâmicas não-modeladas. No entanto, não existem dinâmicas não-modeladasem métodos DDC, pois o comportamento dinâmico de um sistema está embutido implicitamentenos dados coletados deste sistema. Na prática, os dados podem ser contaminados por distúrbiosexternos ou perdas causadas por falhas em sensores, atuadores ou rede. Por isso, o estudo derobustez de métodos DDC devem focar na influência de dados ruidosos e dados ausentes (HOU;WANG, 2013).

3.4.1 DDC em um Bípede Simulado

Um exemplo de aplicação de um método DDC no controle de movimentação de umrobô humanóide é apresentado por LEE; KIM; LEE (2010). Os controladores de locomoção sãoprojetados para todas as partes do corpo com o objetivo de reproduzir a locomoção humana demodo natural e realístico. Estes controladores são guiados por dados obtidos em movimentaçõesde referência, como o movimento de rotação no próprio eixo, giro e locomoção para frenteem linha reta. O desafio principal desta abordagem é modular um fluxo contínuo de dados dereferência de maneira constante enquanto realiza a sincronização com simulação da dinâmicadireta do corpo simulado.

O controle interativo proposto por LEE; KIM; LEE (2010) consiste de três componentesprincipais: Motor de Animação, Controle Guiado por Dados e Controle com RastreamentoDinâmico. O motor de animação fornece ao usuário do sistema um controle de alto-nível paraselecionar os comportamentos do bípede através de uma interface interativa e de funcionamentocontínuo. Os padrões de movimento são selecionados em uma base de dados. O fluxo dospadrões gerados alimenta uma fila de movimentos de referência e depois são consumidos pelomecanismo de controle com rastreamento que conduz o bípede através de simulação da dinâmicadireta. O papel do DDC é manter o equilíbrio do bípede enquanto realiza a sincronização entreos dados de referência e a simulação.

O corpo do bípede simulado possui 13 partes rígidas (cabeça, tronco, pélvis, braços,antebraços, coxas, pernas e pés) e 12 articulações esféricas conectando as partes do corpo. Ototal de graus de liberdade para o modelo é 42. Os dados da captura dos movimentos formamconjuntos cujos dados são organizados em sequência levando em consideração o contato do pé

Page 47: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

3.5. DISCUSSÃO 46

com o chão. Cada conjunto de dados contém meio ciclo de locomoção, começando quando o pédireito toca o chão até o pé esquerdo tocar o chão e vice-versa. Os fragmentos de movimentaçãosão organizados em um grafo de modo a permitir a transição entre eles.

3.5 Discussão

Como visto neste Capítulo, um CPG é usualmente modelado por equações diferenciais.Uma desvantagem do controle baseado em CPG é que muitos parâmetros precisam ser ajustadospara alcançar um desejado padrão locomotor dentro de uma amplo espaço de busca. Geralmente,o esforço para obter um completo entendimento de como os parâmetros de controle modulam osinal de saída é muito grande. A modulação pode ocorrer nas seguintes características de umsinal de saída: frequência, amplitude, defasagem entre oscilações e forma de onda (YU et al.,2014).

Considerando as dificuldades presentes nas abordagens de CPG vistas nas seções anteri-ores, esta Tese propõe avançar em uma abordagem baseada em aprendizagem por demonstração,Controle Guiado por Dados e auto-organização para o planejamento e controle de locomoção derobôs com patas. Os dados são capturados a partir de um agente demonstrador e apresentado aorobô aprendiz, semelhante a LbD. Na abordagem em questão, os dados não precisam ser estrutu-rados em pares de estado-ação como em LbD. O agente aprendiz gera uma representação internada movimentação dos membros através de um processo de auto-organização na qual conexõesdeterminam a transição entre estados. Estas conexões são criadas entre estados próximos com oobjetivo de gerar uma trajetória cíclica.

Os Capítulos 4 e 5 apresentam mapas auto-organizáveis de topologia variante no tempodesenvolvidos de acordo com a abordagem proposta nesta Tese. Nestes mapas, o processode aprendizagem da movimentação dos membros inferiores pode ser aplicado em diferentesrobôs na aprendizagem de diversos modos de locomoção. Neste processo não é necessáriodeterminar um conjunto de equações e seus parâmetros para cada robô. A informação necessáriapara a aprendizagem da movimentação das pernas é extraída dos dados observados. O controledas articulações do robô é realizado com dados oriundos do conteúdo dos estados de umatrajetória através de uma técnica DDC. Os dados contidos nos estados devem informar direta ouindiretamente a posição angular desejada para cada articulação.

Page 48: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

474747

4SOM-STG

Este Capítulo apresenta a segunda abordagem para a solução do problema de locomoçãode robôs com patas, na qual Gerador de Trajetória de Estados Auto-Organizável (SOM-STG)(ARAúJO; SANTANA JR, 2014) é o seu principal elemento. Uma contribuição significativa noalgoritmo desta segunda abordagem está no passo de poda que foi modificado com o objetivo demanter cada nodo da rede sempre com dois vizinhos. O processo de validação desta segundaversão foi mais rigoroso e novos tipos de experimentos foram elaborados, ver Capítulo 6 paramais detalhes. Uma sugestão de como combinar controle guiado por dados e mapa auto-organizável de estrutura variante no tempo foi desenvolvida para esta segunda abordagem (Seção6.5). Além disso, conceitualmente STRAGIC não explica como os dados para a aprendizagemsão obtidos e nem como acontece o controle de cada articulação. Para melhorar o embasamentoteórico desta segunda abordagem, dois conceitos fundamentais foram incorporados a abordagem:Aprendizagem por Demonstração e Controle Guiado por Dados (Capítulo 3).

4.1 Apresentação de SOM-STG

SOM-STG é baseado no Gerador de Trajetória de Estados (State Trajectory Generator -STRAGEN) (BENANTE; ARAúJO, 2007), sendo uma segunda versão de um sistema baseadoem SOM para produção de marchas robóticas (SANTANA JR; ARAUJO, 2010). O processode aprendizagem de SOM-STG, autonomamente aprende os estados mais relevantes de umamarcha, sendo capaz de criar conexões entre estados de marchas diferentes para possibilitar umatransição suave entre marchas. Além disso, SOM-STG gera padrões locomotores rítmicos, alteraa velocidade de locomoção e mantém o sincronismo dos movimentos dos membros. Algumascaracterísticas importantes em CPGs também são encontradas no SOM-STG:

� Um CPG produz sinais de saída oscilatórios que quando amostrados podem sercompreendidos como uma sequência de estados. SOM-STG também gera sinaisoscilatórios a partir de suas trajetórias cíclicas de estados.

� Um estímulo elétrico simples vindo do tronco cerebral pode mudar o comportamento

Page 49: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.1. APRESENTAÇÃO DE SOM-STG 48

de saída de um CPG, consequentemente a marcha e a velocidade de deslocamento doanimal (IJSPEERT, 2008). SOM-STG pode aumentar ou diminuir a velocidade dorobô e alterar o modo de locomoção de acordo com um simples sinal de controle.

� O sincronismo entre osciladores é uma importante característica para determinarum modo de locomoção. SOM-STG decodifica um conjunto de posturas para osmembros e constrói uma trajetória de estados mantendo o mesmo sincronismo entremembros existente nas amostras originais.

Algumas características inerentes de SOM-STG são:

� O uso de diferentes critérios para a geração de trajetórias, levando em conta o mesmoconjunto de posturas;

� A presença de comandos para alternar entre modos de locomoção: aumentar a veloci-dade, diminuir a velocidade, aumentar ou diminuir a velocidade com o movimentomais suave possível;

� Produzir como saída: o próximo estado do robô em cada intervalo de tempo;

� Um conjunto de variáveis de estado para descrever a movimentação cíclica de cadamembro;

� Produção de trajetórias mesmo com amostras ruidosas;

� Manipulação de dados com informações heterogêneas. Assim, a dinâmica da redepode ser modificada pela escolha do critério de vizinhança desejado.

SOM-STG é dividido em sub-redes, cada uma codifica os estados mais relevantes deum modo de locomoção particular. As conexões em SOM-STG são de dois tipos: conexõesentre nodos de uma sub-rede e conexões entre nodos de duas sub-redes distintas. Dois nodos sãovizinhos em uma sub-rede quando eles representam dois estados consecutivos de um modo delocomoção. As ligações entre sub-redes distintas conectam os dois estados mais próximos dedois diferentes modos de locomoção.

A Figura 4.1 ilustra uma instância de SOM-STG com três sub-redes. As conexões dosnodos de uma sub-rede são organizados em um círculo enfatizando o comportamento cíclico.As conexões entre sub-redes ligam dois círculos diferentes. Todos os nodos de todas sub-redestêm pelo menos uma conexão para um nodo de outra sub-rede. Portanto, a mudança entremarchas é possível em qualquer instante de tempo. A trajetória cíclica criada por SOM-STGgera uma ativação cíclica de uma sequência de nodos vizinhos. SOM-STG em cada instante detempo determina a próxima postura do robô e recebe como entrada comandos para determinaro modo de locomoção do robô. Se não existe comando de entrada, o modo de locomoção dorobô não muda, os comandos disponíveis são: “DOWN”, “UP”, “BESTDOWN”, e “BESTUP”.

Page 50: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.2. PROCESSO DE TREINAMENTO DO SOM-STG 49

Figura 4.1: Exemplo de uma rede SOM-STG mostrando as conexões entre nodos deuma sub-rede (linha cinza) e entre nodos de duas sub-redes distintas (linha tracejada). Asconexões representam a relação de vizinhança entre nodos.

O comando “DOWN” altera a marcha de modo a diminuir a velocidade, enquanto o comando“UP” aumenta a velocidade. Os comandos “BESTDOWN” e “BESTUP” buscam nodos de umasub-rede que levam a transição mais suave entre dois modos de locomoção, com o objetivo dediminuir ou aumentar a velocidade do robô.

4.2 Processo de treinamento do SOM-STG

O processo de treinamento do SOM-STG é divido em duas fases (Figura 4.2) e compostopor cinco etapas. A primeira fase, Aprendizagem de Marcha tem duas etapas: a construção demapas topológicos (sub-redes) para aprender os modos de locomoção do robô; e a construção detrajetórias de estado para determinar os estados que levam o robô a locomover-se. A segunda fase,Aprendizagem de Mudança de Marcha tem o objetivo de gerar interconexões entre sub-redes parapermitir a mudança de marchas. Assim, a terceira etapa identifica a velocidade que cada sub-redegera e associa esta velocidade a uma marcha; a quarta etapa ordena a rede por velocidade; efinalmente, a quinta etapa gera interconexões que estabelecem as ligações entre os nodos maispróximos de duas sub-redes com velocidades vizinhas.

Os dados de treinamento devem conter informações sobre as posturas de locomoçãodo robô. Com tais dados, algumas sub-redes podem ser construídas, cada uma representandomovimentos cíclicos de um modo de locomoção. A construção de trajetórias de estados érealizada a partir de estados de referência obtidos a partir dos dados originais. Durante o processode treinamento, cada amostra é apresentada à rede aleatoriamente e os mapas topológicos (sub-redes) gerados determinam a sequência temporal das posturas que compõem os movimentos

Page 51: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.2. PROCESSO DE TREINAMENTO DO SOM-STG 50

Figura 4.2: Processo de treinamento de SOM-STG.

de uma marcha. Os nodos da rede gerada representam um conjunto de amostras semelhantes.Os nodos mais semelhantes são conectados para formar uma rede de topologia cíclica sem anecessidade de utilizar informação temporal sobre os dados durante o processo de treinamento.

Uma sub-rede é identificada por uma métrica fortemente relacionada com a velocidadede locomoção do agente demostrador. Um exemplo de tal métrica é o número de estado de umatrajetória; uma quantidade elevada de estados amostrados é obtida quando o agente demonstradormovimenta-se mais lentamente. As sub-redes são ordenadas pela velocidade de locomoçãoem ordem crescente. As interconexões são criadas entre pares de sub-redes com velocidadesvizinhas.

4.2.1 Fase de Aprendizagem de Marcha

A fase de aprendizagem de marcha começa com a etapa de criação de um mapa to-pológico. O algoritmo de aprendizagem aplicado nesta fase tem sua origem no STRAGEN(BENANTE; ARAúJO, 2007), um mapa auto-organizável com estrutura variante no tempo.STRAGEN foi originalmente projetado para gerar trajetórias de estados para representar um con-junto de possíveis estados e determinar um conjunto de transições válidas entre tais estados. Umaversão aprimorada do STRAGEN (STRAGIC1) foi aplicada com sucesso por SANTANA JR;ARAUJO (2010)(SANTANA JR, 2010) para a construção de trajetórias de estados para o controlede locomoção de robôs com membros.

1A rede STRAGIC é considerada a primeira versão na linha da abordagem proposta nesta Tese.

Page 52: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.2. PROCESSO DE TREINAMENTO DO SOM-STG 51

Para elaborar o SOM-STG, a segunda versão do mapa topológico aplicado em mar-cha robótica, a rede STRAGIC foi modificada nos seguintes pontos: o critério de poda e oprocedimento de poda. Na rede STRAGIC, o procedimento de poda é baseado em um limiardeterminado pelo desvio padrão da distância de um nodo para seus vizinhos. Na rede SOM-STG,a poda é realizada até que cada nodo da rede possua uma desejada quantidade de vizinhos, Np. Oprocedimento de poda calcula a média das distâncias entre um nodo e seus vizinhos, em seguida,ordena estas médias considerando o valor da diferença entre a média e a distância do nodo paracada vizinho. Este procedimento mantém os Np vizinhos que geram os menores valores paraestas diferenças.

Uma descrição geral da construção do mapa topológico é realizada a seguir. O algoritmoavalia se a amostra apresentada à rede está fora do campo de ativação do nodo vencedor (o maissemelhante a esta amostra), i. e., o valor de ativação do nodo deve ser menor que o limiar deatividade (o nodo não foi ativado). Se isto for verdadeiro, então um nodo é inserido na mesmaposição da amostra. Caso o nodo vencedor tenha sido ativado, ele é levemente empurrado emdireção à amostra. Este comportamento de inserção de nodos tem o objetivo de colocar nodos emáreas que não estão cobertas pelos campos de ativação dos nodos contidos na rede. O tamanhodo passo do vencedor em direção à amostra de entrada é controlado pela taxa de aprendizagemque diminui a medida que o contador de vitórias aumenta, para mais informações consultar(ARAúJO; SANTANA JR, 2014).

Para a construção do mapa topológico, considere C como sendo o conjunto de todas asconexões entre os nodos, ξξξ uma amostra de entrada, wni o vetor de pesos relacionado ao ni, ξξξ ewni são vetores D-dimensionais.

O conjunto de nodos, A, é inicializado com dois nodos n1 e n2 posicionados em wn1 e wn2

em RD representando dois padrões aleatórios. Assim, inicialmente A = {n1,n2} e C = {cn1n2}.O algoritmo de treinamento da rede SOM-STG é apresentado a seguir, dando mais ênfase àsprincipais modificações em relação a rede STRAGIC:

Repita todos os passos a seguir até um número máximo de iterações (k > kmax), ou atéque outro critério de parada tenha sido alcançado:

1) Apresente uma amostra ξξξ a rede;

2) Calcule a distância Euclidiana entre a amostra de entrada, ξξξ , e cada vetor de peso darede para encontrar o primeiro vencedor, s1, e o segundo vencedor, s2 (nodos maissemelhantes à ξξξ );

3) Atualize o número de vitórias de s1: σs1 = σs1 +1;

4) Insira uma nova conexão entre s1 e s2, se ainda não existir, C =C∪{cs1s2};

5) Calcule a atividade, αs1 , do nodo s1 usando os componentes de atividade de ξξξ e ws1 ;

Page 53: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.2. PROCESSO DE TREINAMENTO DO SOM-STG 52

6) Se αs1 for menor que um dado limiar de atividade, então adicione um novo nodo naposição da amostra de entrada:

6.1) Adicione um novo nodo r ao conjunto A;

6.2) Crie um novo vetor de pesos associados à r, i. e. wr = ξξξ ;

6.3) Remova a conexão entre s1 e s2;

6.4) Calcule as distâncias entre os três pares de nodos formados por r, s1 e s2

ordene-as;

6.5) Selecione as duas menores distâncias Dst1 and Dst2;

6.6) Insira duas novas conexões entre cada par de nodos relacionados a Dst1 eDst2;

7) Se um novo nodo não foi inserido no passo anterior, atualize todos os elementos dovetor de pesos do nodo vencedor;

8) Se s1 possuir mais que um dado número de conexões, Np, então

8.1) Calcule a média das distâncias entre s1 e seus vizinhos Ns1:

µs1 =∑|Ns1 |j=1 ‖ws1−wn j‖|Ns1|

;

onde |Ns1 | é o número de vizinhos de s1.

8.2) Ordene a diferença absoluta entre µs1 e as distâncias entre s1 e cadan j ∈ Ns1:

diff(µs1 ,n j) = |µs1−‖ws1−wn j‖|

8.3) Mantenha as Np conexões com os menores valores de diff(µ,n j), removaas conexões restantes de s1.

9) Incremente o número de iterações k.

A etapa de Construção de Trajetória de Estados combina dois procedimentos: o Geradorde Trajetória e o Montador de Trajetória Fechada. O primeiro cria uma trajetória entre doisestados e o segundo constrói trajetórias cíclicas a partir de um conjunto de trajetórias abertas. OMontador de Trajetória Fechada requisita trajetórias para o Gerador de Trajetórias juntando-as emuma trajetória cíclica. Quando uma trajetória é montada, a sua direção é aprendida e memorizadapelo SOM-STG.

O Procedimento Gerador de Trajetória cria um caminho entre dois estados levando emconta uma função de difusão, f (k,n), para a propagação de energia (Equação 4.1), onde k é aiteração e n é um nodo. Assim, o nodo alvo recebe 1.0 como valor de energia e todos os outros

Page 54: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.2. PROCESSO DE TREINAMENTO DO SOM-STG 53

nodos recebem o valor zero. A energia flui iterativamente através da rede, de vizinho em vizinhosaindo do nodo alvo ntarg até alcançar o nodo inicial ninit . O procedimento é descrito abaixo:

1) Inicialize a função de difusão f (0,ni) = 0,∀ni ∈ A|ni 6= ntarg e f (0,ntarg) = 1.0.

2) Repita para todos ni ∈ A até f (k,ninit) 6= 0

f (k+1,ni) =

{1 ∀k, se ni = ntarg

λ∑n j∈Nnif (k,n j) se ni 6= ntarg

� �4.1

onde Nni é o conjunto de todos os nodos vizinhos de ni, |Nni| é a quantidade de vizinhos,e λ = 1/(|Nni|+ 1). O nodo inicial ninit é o primeiro estado da trajetória. Ao final desteprocedimento, um caminho entre ninit e ntarg terá sido gerado.

O Procedimento Montador de Trajetória Fechada constrói uma trajetória cíclica a partirde um conjunto, CS = {cs1,cs2, ...,csm}, de m estados de controle. Os estados de controle sãoobtidos a partir dos dados originais e a posição de cada um no conjunto CS define a direção deexecução da sequência de estados que compõem uma trajetória. Cada par de estados de controleé enviado para o Procedimento Gerador de Trajetória que retorna uma sub-trajetória. Então,o Montador de Trajetória Fechada recebe e junta cada sub-trajetória de modo a formar umatrajetória cíclica. Este procedimento é descrito como:

1) Repita para i de 1 até m−1:

1.1) Crie uma trajetória entre um estado inicial csi e um estado final csi+1

usando o Procedimento Gerador de Trajetória.

1.2) Salve a trajetória entre csi e csi+1;

4.2.2 Fase de Aprendizagem de Mudança de Marcha

A primeira etapa da Fase de Aprendizagem de Mudança de Marcha é a Identificaçãode Sub-rede. Esta etapa identifica a marcha produzida por cada sub-rede: como cada marchatem uma velocidade diferente então, o processo de treinamento identifica a marcha levandoem consideração a velocidade de deslocamento associada a esta marcha. A identificação davelocidade da marcha gerada por uma sub-rede Si, segue uma das estratégias abaixo:

1. Identificação do número de estados de uma trajetória. Observe que os estados sãoamostrados em um intervalo constante de tempo, assim os valores mais elevadosde velocidade produzem menos estados amostrais em um determinado período detempo.

2. Identificação da velocidade angular das articulações dos membros:

ωωω l =Np

∑k=1

∆θθθ l(k)/Np,� �4.2

Page 55: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.3. LIMITAÇÕES E POSSÍVEIS AVANÇOS 54

onde ωωω l é o vetor de velocidade angular do membro l, Np é o número de estadosde uma trajetória, θθθ l é a posição angular do vetor de articulações dos membros. Ovalor Np pode ser determinando depois que o Procedimento Montador de trajetóriasconstrói a trajetória cíclica.

No passo de Ordenação de Sub-redes, as sub-redes são ordenadas em ordem crescentede velocidade, i. e., do maior para o menor número de estados ou da menor para a maiorvelocidade angular da marcha representada por cada sub-rede. Assim, a ordenação resultante éS = {S1,S2, ...,SNsub}, onde Nsub é o número de sub-redes Si.

O passo de Geração de Interconexões da fase Aprendizagem de Mudança de Marcha criaconexões entre nodos pertencentes a diferentes sub-redes, i. e., marchas distintas. Deste modo,vão existir conexões partindo de uma sub-rede de menor velocidade para uma sub-rede de maiorvelocidade e vice-versa. Os dois estados mais próximos em duas sub-redes consecutivas em S

produzem a transição mais suave entre duas marchas de velocidades vizinhas.O procedimento de criar as conexões entre duas sub-redes (trajetórias) e identificar a

conexão da transição mais suave é:

1) Dado duas sub-redes uma de partida Sa e uma alvo Sb;

2) Para cada nodo nai ∈ Sa, onde Sa = {na1, ...,nal} e l é número de estados de Sa:

2.1) Encontre o estado nb j mais próximo de nai , onde nb j ∈ Sb = {nb1, ...,nbm}e m é o número de nodos de Sb;

2.2) Crie a conexão entre nai e nb j ;

2.3) Se dois nodos (nai and nb j) tem a menor distância então salve-os comonaimin e nb jmin;

3) Crie a conexão entre naimin e nb jmin , e marque esta conexão como a transição maissuave entre Sa e Sb.

4.3 Limitações e Possíveis Avanços

As principais limitações presentes na rede STRAGIC (SANTANA JR, 2010) permanece-ram na rede SOM-STG e estão relacionadas aos cenários onde existem poucos dados coletados.A maior limitação é a dificuldade de criar redes com topologia cíclica, discutida em mais detalhesno decorrer desta seção, evidenciada por ARAúJO; SANTANA JR (2014) nos experimentoscom dados obtidos de um vídeo de um animal real. As outras limitações, discutidas na Seção4.4, estão vinculadas a discretização da trajetória gerada e a não generalização das marchasaprendidas.

A avaliação de SOM-STG foi realizada com experimentos contendo dados artificiaise com experimentos contendo dados reais. Também, foram executados testes para avaliar o

Page 56: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.3. LIMITAÇÕES E POSSÍVEIS AVANÇOS 55

controle de um robô simulado de quatro patas baseado na anatomia de um cachorro real. Oprocessamento de imagem e a extração de dados em um vídeo de um cachorro foram aprimorados.Antes, a extração de dados de um frame demorava alguns minutos e era muito imprecisa, naversão desenvolvida para esta Tese, este processo dura poucos segundos.

O baixo desempenho para tratar dados reais obtidos da locomoção de um cachorro estárelacionado principalmente ao algoritmo Construtor de Mapa Topológico (CMT) presente emSOM-STG. Estes dados reais possuem duas características que dificultam a geração de trajetóriascíclicas.

A primeira é que poucas amostras são coletadas em um passo do cachorro devido arelação entre a velocidade de movimentação do animal e a taxa de captura do vídeo (frames

por segundo). Uma forma de tratar esta dificuldade é coletar dados de mais de um passo doanimal, mas mesmo assim a taxa de sucesso do CMT não evoluiu para um nível satisfatório(acima de 90%) (ARAúJO; SANTANA JR, 2014). Os valores das melhores taxas de sucessoficaram próximas a 8%. Mesmo com este valor mais baixo da taxa de sucesso, a rede SOM-STGfoi capaz de gerar trajetórias para o controle dos movimentos das patas de modo que o robôpudesse locomover-se, o que não ocorreu com a rede STRAGIC, pois as trajetórias geradas nãopossibilitavam o deslocamento do robô.

A segunda característica é que as amostras ficam concentradas em algumas regiões doespaço de postura deixando outras regiões com poucas amostras. Isto acontece porque as patasdo robô movimentam-se em velocidades que variam com o tempo e a captura dos dados aconteceem um intervalo constante de tempo. O passo de inserção de nodos do CMT não funciona bemneste cenário pois ele adiciona um novo nodo na rede levando em consideração os dois nodosmais próximos. Assim, existe uma maior tendência em criar conexões entre nodos de regiõescom mais densidade de amostras do que regiões com poucas amostras prejudicando a formaçãode trajetórias cíclicas.

Considerando as limitações discutidas acima, uma das principais contribuições destatese é a proposição de um novo modelo capaz de gerar trajetórias de estados para o controle demarcha robótica em que a taxa de sucesso seja 100%. Além disso, a natureza discreta da estruturada rede SOM-STG exige que as bases de dados possuam grandes quantidades de amostras paragerar trajetórias mais suaves e mais semelhantes com a movimentação original. Outra limitaçãoimportante do modelo SOM-STG é que o mecanismo de transição de marcha só é possível dentreos estados aprendidos pela rede e não permite a generalização das marchas aprendidas paragerar padrões de movimentos intermediários. Para tratar estas limitações, a rede SOM-STGdeve ser remodelada ou reconstruída. A Seção 4.4, a seguir, apresenta alguns modelos de mapasauto-organizáveis derivados de SOM e suas contribuições que servirão de base para os avançossobre SOM-STG.

Page 57: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.4. VARIAÇÕES DE SOMS 56

4.4 Variações de SOMs

Está seção apresenta os principais modelos derivados das redes SOMs que embasam osavanços realizados em SOM-STG. Estas redes tratam o problema de discretização e a aprendiza-gem com poucas amostras.

Em muitas aplicações, os vetores de entrada e os vetores de saída podem assumir valorescontínuos, logo as chances destes vetores estarem localizados entre os nodos é muito maior doque estarem localizados exatamente sobre os nodos. Para manter uma coerência no mapeamentoentre entrada e saída, o posicionamento destes vetores deve ser similar tanto no espaço de entradaquanto no espaço de saída. Para este fim, a posição geométrica de um vetor de entrada deveser mapeada para o espaço de saída. A ideia de interpolação topológica é usar o neurôniovencedor e seus vizinhos topológicos para calcular valores de saída intermediários. O processode treinamento da rede SOM original discretiza os valores de saída da rede (LUDWIG et al.,1995).

4.4.1 Mapas com Interpolação

A introdução de técnicas de interpolação entre os neurônios de uma rede SOM permiteobter resultados satisfatórios mesmo com um número reduzido de neurônios e com um conjuntode dados de treinamento menor (WALTER; RITTER, 1996). Para redes SOM com interpo-lação adaptadas para regressão ou aproximação de função, duas técnicas de treinamento sãoencontradas na literatura. A primeira técnica é um treinamento não-supervisionado do MapaAuto-organizável para aproximar os vetores dos protótipos em direção aos vetores de entradacom o objetivo de encontrar a configuração de neurônios que minimiza a distância entre o vetorde entrada e seu correspondente neurônio vencedor (LUDWIG et al., 1995). Em seguida, ospesos outstar(GÖPPERT; ROSENSTIEL, 1993) são adaptados supervisionadamente com oobjetivo de produzir a saída desejada como na rede Counterpropagation (HECHT-NIELSEN,1987).

A segunda técnica combina o vetor de entrada n-dimensional com o vetor de saídam-dimensional para treinar a rede SOM com o vetor n+m-dimensional resultante. Este tipode treinamento realiza implicitamente uma associação de vetores de entrada com vetores desaída, converge rápido e fornece suporte ao mapa para auto-organização de acordo com orelacionamento entrada-saída (LUDWIG et al., 1995).

LUDWIG et al. (1995) combina as duas técnicas descritas acima para treinar uma redeSOM com capacidade de Interpolação (I-SOM). O treinamento da rede SOM é realizado noespaço de treinamento n+m-dimensional e depois os pesos de saída são utilizados para umajuste inicial dos pesos outstar antes do treinamento final. O treinamento dos pesos outstar ébaseado na rede Counterpropagation. Este treinamento outstar é supervisionado e guiado pelo

Page 58: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.4. VARIAÇÕES DE SOMS 57

vetor de saída desejado (Yd) de acordo com a Equação 4.3:

W(out)w (t +1) = W(out)

w (t)+ γ(Yd(t)−W(out)w (t))

� �4.3

A ideia da rede I-SOM é realizar uma interpolação k-dimensional encontrando múltiplosneurônios vencedores (k+1, o vencedor e seus vizinhos). Os k+1 vencedores são escolhidospara construir um sistema de coordenadas local, onde vencedor é o centro deste sistema decoordenadas e os vizinhos formam os eixos. O valor de k será igual a dimensão da grade da redeSOM, para uma rede SOM padrão com grade de dimensão 2, o valor de k será igual a 2. Duasdiferentes estratégias podem ser aplicadas para encontrar o conjunto de vencedores:

1. Selecionar os vizinhos mais próximos no espaço de entrada: os neurônios quepossuem a menor distância para o vetor de entrada.

2. Selecionar os vizinhos topológicos do neurônio vencedor: os neurônios que estãoposicionados nas adjacências do neurônio vencedor.

FLENTGE (2006) combina I-SOM e GNG para construir um aproximador de funçãoque mapeia dados de entradas com alta-dimensão para modelos locais de baixa dimensão. Estesmodelos locais são construídos interpolando os vetores dos neurônios e em seguida combinadosusando uma soma ponderada para produzir o resultado final de saída da rede.

A forma mais fácil de aproximar uma função f : Rd −→ R com uma SOM a partir deexemplos de treinamento (x,y) é associar cada neurônio ci com um valor vi ∈ R a uma aproxi-mação local. Esta aproximação local associa o mesmo valor vb para todas os vetores entradax com ‖x−wb‖ < ‖x−wi‖ para todo i 6= b. Esta rede pode ser facilmente treinada usando ogradiente-descendente comum. Esta aproximação pode ser aprimorada levando em consideraçãocertas condições na estrutura dos vizinhos do nodo vencedor. O caminho normalmente seguidopelas redes derivadas de SOM embutidas de interpolação é construir um sistema de coordenadaslocal com o vencedor wb no centro e usar algumas arestas conectadas aos vizinhos como eixosdas coordenadas. O vetor de entada x é expressado no novo sistema de coordenada cujo centro éwb e estas coordenadas são utilizadas para calcular a interpolação. FLENTGE (2006) segue estalinha para introduzir interpolação na rede GNG.

4.4.2 Parameterised SOM(PSOM)

A capacidade de aprendizagem é uma vantagem que as redes neurais possuem em relaçãoa outras técnicas de inteligência artificial. No campo de visão computacional e robótica, porexemplo, muitas tarefas possuem modelagem custosa quando realizada a partir de princípiosfundamentais ou heurísticas. Portanto, neste domínio um algoritmo de aprendizagem eficientepode ajudar significativamente a superar a dificuldade de coleta de dados e facilitar a construçãode um sistema mais robusto e mais flexível. Além disso, nem sempre dados para realização deum treinamento eficaz estão acessíveis (WALTER; RITTER, 1996).

Page 59: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.4. VARIAÇÕES DE SOMS 58

A rede Parametrized Self-Organizing Map (PSOM) foi proposta como um esquemapotencialmente útil para aprendizagem com um número pequeno de amostras de treinamento.A ideia básica de uma PSOM é construir um mapa de variedades manifold a partir de umquantidade restrita de variedades base. A escolha destas variedades base pode ser realizada comum conhecimento a priori do problema. Comparando com a rede SOM, o mapa de variedadesPSOM final pode ser descrito por um pequeno número de valores de parâmetros que podem serdeterminados a partir de um pequeno número de amostras de treinamento (WALTER; RITTER,1996).

A construção de uma base de dados com boa representação é frequentemente um passodecisivo para a solução do problema. Isto fica ainda mais evidente em tarefas de aprendizagem,onde a capacidade de generalização a partir de um conjunto limitado de exemplos para novasinstâncias é um objetivo central. Para dar suporte a este objetivo, uma boa representação deveseguir duas metas: prover um representação dos dados que mantenha os relacionamentos desimilaridade entre os elementos dos dados o mais fiel possível; proporcionar uma compreensãosobre as variáveis essenciais e separar informações falsas e sem importância.

Na rede SOM, o mapa de variedades não-linear é representado por uma aproximaçãodiscreta, usando uma grade A de dimensão m igual a 2. Porém, a natureza discreta da rede SOMpadrão pode ser uma limitação quando o objetivo for a construção de mapas com variedadessuaves. Como o número de nodos cresce exponencialmente com o número de dimensões domapa, em um mapa com três ou mais dimensões é esperado apenas poucos nodos ao longode cada eixo. Entretanto, essa quantidade de nodos não é suficientemente suave para muitospropósitos onde continuidade é muito importante, como por exemplo, em tarefas de controle ouem robótica.

A rede Parameterised SOM (PSOM) (RITTER, 1993) generaliza a grade A discreta darede SOM para um mapeamento M contínuo de variedades parametrizado por uma variávelcontínua s ∈ S ⊂ Rm e descrito por uma função de suavização w(s). Como consequência, aassociação discreta do vetor de referência wa com pontos da grade a é substituída por umaassociação contínua, uma função w(·) : s 7→w(s)∈M ⊂ X , onde s varia continuamente sobre umsubconjunto S⊆ Rm. Semelhante a wa,w(s) obtém seu valor em um espaço X ⊆ Rd , o mesmoespaço em que os vetores de entrada x são obtidos. A resposta de PSOM é determinada pelovalor de w(s∗), obtido na posição vencedora s∗, encontrado em um mapeamento de variedadescontínuo S definido pela Equação 4.4. A localização vencedora s∗ presente no mapeamento devariedades S é obtida através do mínimo valor calculado com a função dist(·).

s∗= argmim dist(w(s),x).� �4.4

onde dist é a norma Euclidiana e w(s) pode ser construída utilizando uma função H de base paracada neurônio multiplicada pelo vetor de peso wa do neurônio. No contexto da rede PSOM cadaneurônio é chamado de "knot". Um meio de obter a função H(a,s) é utilizando o polinômio

Page 60: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.4. VARIAÇÕES DE SOMS 59

interpolador de Lagrange aprimorado para valores multidimensionais, onde a é um rótulo paraum neurônio.

w(s) = ∑a∈A

H(a,s)wa� �4.5

A organização topológica dos dados de entrada é crucial para um bom comportamentode generalização. Para um conjunto de dados geral, a organização topológica de seus pontospode ser bastante irregular e um conjunto apropriado de funções base H(a,s) pode ser difícilde construir. As funções base podem ser construídas de muitas maneiras, mas duas condiçõesdevem ser consideradas: (i) H(a,s) deve ser ortonormal H(ai,aj) = δi j(∀ ai,a j ∈ A) para fazera variedade M passar por todos os knots de suporte; (ii) Divisão de unidade: ∑a∈A H(a,s) = 1,∀s(a soma de todas as contribuições ponderadas deve ser um).

A construção simples de funções base H(a,s) torna-se possível quando a topologia dospontos fornecidos é suficientemente regular. Uma situação conveniente aparece para o casode uma grade regular multidimensional. Neste caso, o conjunto de funções H(a,s) pode serconstruído a partir de produtos de interpolação polinomial de Lagrange de uma-dimensão.

Uma escolha favorável para H(a,s) é a extensão multidimensional do polinômio deLagrange. A fórmula de Lagrange descreve o polinômio único de grau n−1 passando pelos n

pontos de suporte (xi,yi), i ∈ {1, ...,n}

y(x) = l1(x)y1 + l2(x)y2 + ...+ ln(x)yn =n

∑k=1

lk(x)yk� �4.6

onde o fator de Lagrange li(x) é determinado por

li(x) =n

∏j=1, j 6=i

x− x j

xi− x j

� �4.7

A interpolação de Lagrange de uma-para-uma dimensão (x 7→ y ), Equação 4.6 podeser ampliada para um mapeamento S para X de m-para-n dimensões, usando um conjuntode knots de vetores de suporte wa sobre uma hiper-grade A retangular escolhida. Assim,s = (1s,2 s, ...,m s)T ∈ S ⊂ Rm equivale a x do polinômio interpolador de Lagrange básico daEquação 4.6 (o índice no canto superior esquerdo de s indica o número do componente deum vetor pertencente ao mapeamento manifold S). O ponto de suporte xi da Equação 4.7torna-se o vetor ai = (1ai1,

2 ai2, ...,m aim)

T ∈ A ∈ S. O conjunto de knots A = {1a1, ...,1 an1}×

{2a1, ...,2 an2}× · · ·×{ma1, ...,

m anm} contém n1×n2×· · ·×nm knots. Os valores de n1, n2, ...,nm expressão os tamanhos dos eixos da grade m-dimensional A.

O knot wa ∈ Rd é identificado por seu índice iv ∈ {1,2, ...,nv},wa = wi1i2...im , assim eEquação 4.5 pode ser expandida para

w(s) = ∑a∈A

waH(a,s) = ∑a∈A

wi1i2...im · li1(1s) · li2(

2s) · · · lim(ms)� �4.8

Page 61: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

4.4. VARIAÇÕES DE SOMS 60

com

liv(vs) =

nv

∏j=1, j 6=i

vs−v a jvaiv−v a j

� �4.9

A soma sobre a espalha pelo conjunto de todos os índices 1≤ i1≤ n1,1≤ i2≤ n2, ...,1≤ im≤ nm.O algoritmo PSOM é invariante a ajuste de escala dos eixos de S.

A busca pelo vencedor na grade discreta da rede SOM padrão, na PSOM, é substituídapela resolução do problema de minimização contínua para determinar s∗. A abordagem simplesé encontrar o vencedor sstart = a∗ na grade discreta (como em SOM) no conjunto A de knots.Em seguida, calcular iterativamente o gradiente descendente com a Equação 4.4.

Para aumentar a precisão do mapa, a primeira ideia que surge é aumentar o número depontos de treinamento. Entretanto, duas deficiências surgem: (i) os polinômios base apresentampropriedades de convergência não satisfatórias com o aumento de sua ordem. O mapeamentode funções acentuadamente pontiagudas pode forçar um alto grau de interpolação polinomialintroduzindo grandes oscilações espalhadas entre os pontos knots de suporte da variedade inteira.(ii) O esforço computacional por dimensão do mapeamento de variedades cresce para O(n2),onde n é o numero de pontos de treinamento em cada eixo. Mesmo com um número moderado depontos amostrados ao longo de cada eixo paramétrico, a inclusão de todos os nodos na Equação4.8 pode precisar de muito esforço computacional se cada dimensionalidade do mapeamento foralta (m > 4) (WALTER; RITTER, 1995).

As duas deficiências citadas acima motivam uma importante extensão da abordagempadrão de PSOM. A ideia básica é construir dinamicamente a rede PSOM sobre uma sub-gradecentralizada no vetor de referência wa∗ mais próximo da entrada atual x. O uso de sub-gradepermite polinômios de baixo-grau para as funções base e envolve um número consideravelmentepequeno de pontos no somatório da Equação 4.8. Assim, a PSOM local resultante (l-PSOM)fornece um esquema atrativo para superar ambas as deficiências descritas anteriormente.

Page 62: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

616161

5SOM-CSTG

O Gerador de Trajetória Cíclica de Estados Auto-Organizável (Self-Organizing Cyclic

State Trajectory Generator, SOM-CSTG), foi gerado a partir de uma avaliação completa deSOM-STG observando a relevância de cada um de seus passos e principalmente identificandosuas limitações. A partir destas limitações, os mapas auto-organizáveis com as característicasmais apropriadas para atacar essas limitações foram selecionados, SOM para o problema do cai-xeiro viajante, travelling salesman problem (SOM-TSP) (ANGENIOL; LA CROIX VAUBOIS;LE TEXIER, 1988) e SOM Parametrizada, Parameterised SOM (PSOM) (WALTER; RITTER,1996).

A característica mais interessante de SOM-TSP é a sua capacidade de gerar uma traje-tória cíclica e de caminho mínimo independentemente da disposição dos dados. A principalcaracterística de PSOM é sua capacidade de aprendizagem com um número pequeno de amostrasde treinamento e criação de uma superfície de variedades, possibilitando a obtenção de estadosem qualquer posição contínua desta superfície. Para realizar a integração de SOM-STG comSOM-TSP e PSOM com o objetivo de criar a rede SOM-CSTG, os passos mais relevantes decada um dos modelos foram preservados de modo a resolver o problema de aprendizagem detrajetória cíclica de estados de forma mais eficaz e mais abrangente do que SOM-STG.

As principais limitações de SOM-STG são: a dificuldade de gerar redes cíclicas emexperimentos com dados reais, com baixa taxa de amostragem; o ajuste por tentativa e erro dolimiar de atividade em cada novo experimento; os pesos da rede utilizados apenas como entrada;discretização da trajetória aprendida; e a impossibilidade de combinar as marchas aprendidaspara gerar novas marchas intermediárias. A forma como estas limitações são tratadas no novomodelo, SOM-CSTG, é explicada na Seção 5.1 e na Seção 5.2.

A arquitetura do sistema de controle e gerenciamento de locomoção no qual SOM-CSTGestá inserido está dividida basicamente em dois módulos: aprendizagem e gerenciamento demarchas; e controle de postura. O módulo de aprendizagem e gerenciamento está divididoem duas camadas: aprendizagem e gerenciamento. A camada de aprendizagem captura dadossobre a postura de um agente demonstrador, processa e auto-organiza estes dados aprendendoos estados essenciais da trajetória de controle de locomoção (planejamento de movimentos). A

Page 63: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

5.1. APRENDIZAGEM DE MARCHA 62

camada de gerenciamento de marchas determina o tipo de marcha executada pelo robô a partirde um sinal de controle simples. O módulo de controle de postura obtém informações de umestado de uma trajetória de controle e gera o sinal de controle necessário para que o atuadoralcance a posição angular desejada.

O mecanismo de gerenciamento de marcha, ver Seção 5.2, foi aprimorado baseado nofuncionamento da rede PSOM para realizar variação contínua entre marchas. A variação demarcha no sistema com SOM-STG era discreta e limitada à quantidade de marchas aprendidas.Com este aprimoramento no mecanismo de gerenciamento de marchas, a solução apresentadapelo novo sistema torna-se mais abrangente, pois permite a criação de trajetórias contínuas etambém variação contínua entre as marchas aprendidas. Por fim, o módulo de controle de posturaé apresentado na Seção 5.3.

5.1 Aprendizagem de Marcha

O processo de aprendizagem de marcha em SOM-CSTG é semelhante ao de SOM-STG.No qual, um agente demonstrador fornece dados das posturas de uma marcha qualquer e asposturas mais representativas são aprendidas autonomamente. O processo de aprendizageme auto-organização dos dados de entrada ocorre, em essência, da seguinte maneira: O nodovencedor e o segundo vencedor são encontrados. A atividade do nodo vencedor é calculadalevando em conta o padrão de entrada apresentado a rede. Se o vencedor atingir duas vitórias emuma mesma época1 e se sua atividade for menor que um limiar pré-estabelecido, então um nodoé adicionado a rede. Para manter a estrutura cíclica, a conexão entre o vencedor e o segundovencedor é removida e duas novas conexões são inseridas, uma entre o vencedor e o novo nodo eoutra entre o segundo vencedor e o novo nodo. Sempre que um novo nodo é inserido, este novonodo e o vencedor são desabilitados até o final de uma época. Caso contrário, quando nenhumnodo for inserido, a posição do nodo vencedor e de cada um dos seus vizinhos é atualizada emdireção à amostra de entrada. Esta atualização leva em conta uma função de vizinhança em queos vizinhos mais próximos são atualizados com mais intensidade, semelhante à atualização devizinhança da rede SOM original.

A relação de vizinhança pode ser determinada apenas com um grupo de elementos dovetor de pesos (grupo de vizinhança), mas a atualização de pesos da rede é realizada sobre ovetor inteiro. Assim, relações ajustáveis de vizinhanças podem ser consideradas sem prejudicaro processo aprendizagem ocorrido nos nodos da rede. Esta estratégia é semelhante ao conceitodo grupo de vizinhança da rede STRAGIC (BENANTE; ARAúJO, 2007).

Para melhor entendimento da descrição formal do algoritmo de aprendizagem do mapaauto-organizável de topologia cíclica, considere C como sendo o conjunto de todas as conexõesentre os nodos, ξξξ como uma amostra de entrada, wni o vetor de pesos relacionado ao nodo

1Uma época é a apresentação para a rede de todos os padrões da base de dados. O sorteio para a apresentaçãoocorre sem repetição.

Page 64: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

5.1. APRENDIZAGEM DE MARCHA 63

ni. ξξξ = {ξ1,ξ2, ...,ξD} e wni = {w1,w2, ...,wD} são vetores D-dimensionais. O vetor grupo devizinhança do nodo ni é definido como vni = {wi, ...,w j} para 1≤ i≤ j ≤ D e possui dimensãomenor ou igual a D. Essa definição de grupo de vizinhança também é aplicada na amostra deentrada ξξξ para o cálculo de distância com os nodos da rede e este grupo é identificado por ξξξ v.

O conjunto de nodos, A, é inicializado com três nodos n1, n2 e n3 posicionados em wn1 ,wn2 e wn3 ∈ RD. Assim, inicialmente A = {n1,n2,n3} e C = {cn1n2,cn2n3,cn3n1}, formando umciclo. O algoritmo de treinamento do mapa topológico é descrito a seguir:

Repita todos os passos a seguir até um número máximo de iterações (k = kmax), ou atéque outro critério de parada tenha sido alcançado:

1. Apresente uma amostra ξξξ a rede;

2. Calcule a distância entre a amostra de entrada e cada vetor de peso da rede, ‖ξξξ v−vni‖,para encontrar o primeiro vencedor, s1. A distância utilizada é a Euclidiana e o cálculoé realizado considerando ξξξ v e vni . O vencedor s1 é o nodo mais próximo de ξξξ .

‖ξξξ v−vs1‖ ≤ ‖ξξξ v−vni‖ (∀ni ∈ A)� �5.1

3. Encontre o segundo vencedor, s2, entre os vizinhos de s1.

4. Atualize o número de vitórias de s1: σs1 = σs1 +1;

5. Calcule a atividade, αs1 , do nodo s1 em relação ξξξ :

αs1 = exp(−‖ξξξ v−vs1‖).� �5.2

6. Se s1 estiver habilitado, αs1 for menor que um dado limiar de atividade e o númerode vitórias for igual a 2 (σs1 = 2), então adicione um novo nodo na posição de s1:

6.1) Remova a conexão entre s1 e s2;

6.2) Adicione um novo nodo r ao conjunto A, com os mesmos pesos de s1;

6.3) Desabilite r e s1;

6.4) Adicione uma nova conexão entre s1 e r;

6.5) Adicione uma nova conexão entre r e s2;

7. Se s1 estiver habilitado e um novo nodo não foi inserido no passo anterior, atualize ovetor de pesos do vencedor e o vetor de pesos de cada um de seus vizinhos:

7.1) Calcule o tamanho do passo de atualização, hn j , de acordo com a seguinteequação de vizinhança:

hn j = α exp(−

dist(n j,s1)

G2

),

� �5.3

Page 65: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

5.1. APRENDIZAGEM DE MARCHA 64

onde n j são todos os vizinhos de s1, α é a taxa de aprendizagem mantidafixa, dist(ni,s1) mede a distância entre n j e s1 dentro da topologia cíclicae G é um fator de ganho que influência o tamanho do passo de atualizaçãodos vizinhos. Valores menores de G geram atualizações menores nosvizinhos, para G = 0 apenas o vencedor é atualizado.

8. Se for o final de uma época:

8.1) Diminua o ganho G como a seguir:

G = (1−δG) ·G,� �5.4

onde δG é uma fator de aceleração, quanto maior o valor de δG, maisrápido o valor de G diminui;

8.2) Caso algum nodo, ni, não tenha vencido por três épocas consecutivas,então delete este nodo;

8.3) Aumente o tamanho do campo de ativação, diminuindo suavemente olimiar de atividade, at , levando em consideração o tamanho desejado darede, ts, e o tamanho atual, cs:

at = at +(ts− cs) ·δS,� �5.5

onde δS é o fator de crescimento do limiar de atividade;

8.4) Habilite todos os nodos desabilitados.

As contribuições herdadas do SOM-STG no algoritmo acima estão relacionadas aolimiar de atividade e são mais evidentes nos passo 5 e 6. Os passos iniciais do 1 ao 4 estãopresentes tanto no SOM-STG quanto no SOM-TSP. O passo 6 é muito semelhante a SOM-STGe a SOM-TSP, no entanto a inicialização dos valores dos pesos do novo nodo inserido é realizadacomo em SOM-TSP. O passo 7, herdado do SOM-TSP, é fundamental para o comportamentode auto-organização dos dados, pois a atualização dos pesos do vencedor e de seus vizinhos érealizada baseada na rede SOM original. Na rede SOM-STG, esta atualização está restrita aosdois vencedores, assim sua capacidade de adaptação aos dados de entrada é mais limitada do queem SOM-TSP que atualiza uma vizinhança maior (uma região maior do mapa). A estratégia deutilizar o final de uma época para atualizar as variáveis que mudam com o decorrer das iteraçõesfoi extraída do SOM-TSP.

A Equação 5.5 ajusta o limiar de atividade de acordo com o tamanho atual da rede e otamanho desejado. Caso o tamanho atual da rede seja menor que o tamanho desejado, o limiarde atividade será atualizado com um valor maior que o anterior fazendo com que a região deativação diminua aumentando as chances de inserção de nodos na rede. Caso o tamanho atual da

Page 66: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

5.2. GERENCIAMENTO DE MARCHA 65

rede seja maior que o desejado, a Equação 5.5 modifica o valor do limiar de atividade de modoque a região de ativação cresça e provoque uma redução no tamanho da rede. Essa relação entreaumento da região de ativação e redução do tamanho da rede pode ser evidenciada através doprocesso contínuo de remoção e inclusão de nodos. Um novo nodo será adicionado quando umaamostra de entrada estiver fora de cada região de ativação. Assim, a rede irá diminuir quandopossuir mais nodos do que o desejado ou irá aumentar quando tiver menos nodos do que odesejado. O fator de crescimento do limiar de atividade ajusta a velocidade de variação da regiãode ativação.

O algoritmo de treinamento de SOM-CSTG possui muitos parâmetros, entretanto, estesparâmetros podem ser ajustados de modo que a rede apresente um comportamento de apren-dizagem satisfatório para diferentes conjuntos de dados de treinamento. Assim, um conjuntode valores padrão de parâmetros pode ser utilizado em diversos cenários evitando um novoajuste paramétrico para novos conjuntos de dados. O tamanho desejado da rede é um parâmetroque depende da quantidade desejada de nodos para representar os padrões de entrada, logoeste parâmetro é um dos poucos que devem ser ajustados para cada novo conjunto de dados detreinamento. Em caso de dados ruidosos, por exemplo, é interessante ter poucos nodos na rede,para evitar que os nodos aprendam o comportamento do ruído.

5.2 Gerenciamento de Marcha

O papel da camada de gerenciamento de marchas é determinar a marcha atual do robôatravés da ativação de diferentes padrões de locomoção recebendo como entrada um sinal simples.Este sinal é um número real cujos valores mais baixos ativam marchas de velocidades mais lentase os valores mais altos ativam marchas de velocidades mais rápidas.

A camada de gerenciamento de marcha recebe da camada de aprendizagem de trajetóriaredes cíclicas. Estas redes de topologia em anel são alinhadas de modo que as trajetórias geradaspor cada uma fiquem o mais próximas possível usando como critério de proximidade o DTW(Dynamic Time Warping) (SENIN, 2008). Esse alinhamento permite a criação de uma grade denodos contendo em cada coluna os nodos que geram os padrões de locomoção de uma marchaaprendida. Assim, ao percorrer uma coluna passando por cada linha, os estados discretos dasequência de movimentos dos membros são recuperados. Partindo desta grade de nodos comestrutura cilíndrica (a última linha está conectada à primeira) e tomando como base conceitospresentes em PSOM, uma rede de variedades (manifolds) é construída permitindo uma transiçãocontínua entre nodos.

A aproximação discreta gerada por SOM-STG é uma limitação quando o objetivo éconstruir trajetórias suaves. Para melhorar a suavidade da trajetória gerada por SOM-STGé necessário aumentar o número de estados coletados para formar bases de dados maiores.Entretanto, a coleta de dados pode ser de difícil acesso. Assim, a introdução de uma grade devariedades na rede SOM-CSTG permite a geração de trajetórias contínuas possibilitando uma

Page 67: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

5.2. GERENCIAMENTO DE MARCHA 66

suavidade nas oscilações resultantes maior do que na rede SOM-STG. Além disso é possívelgerar padrões de marchas intermediárias o que não é possível em SOM-STG.

A construção da rede de variedades é descrita a seguir:

1. Insira a primeira rede obtida da camada de aprendizagem na primeira coluna da gradede nodos.

2. Para i indo de 2 até a quantidade de redes obtidas:

2.1) Compare utilizando DTW a rede i−1 com a rede i obtendo a posição j dealinhamento com o menor valor de DTW;

2.2) Insira a rede i a partir da posição i e j da grade. Como a grade possuiestrutura cilíndrica, os nodos que passarem do comprimento da grandeautomaticamente serão inseridos em ordem no início da grade;

A comparação de duas redes utilizando o DTW ocorre da seguinte maneira:

1. Obtenha duas redes A e B;

2. Inicialize a melhor distância md com o valor infinito e a posição pa de comparaçãopara rede A com o valor 1. A posição de comparação da rede B é sempre mantida em1;

3. Compare com a função DTW a rede A a partir da posição pa com B para obter adistância d;

4. Se d for menor que md então atualize o valor de md com o valor de d e atualize amelhor posição mp com o valor de pa;

5. Incremente o valor de pa, se pa for menor ou igual ao tamanho da rede A entãoretorne ao passo (3), caso contrário finalize o algoritmo retornado a melhor posiçãomp de alinhamento.

Figura 5.1: Diagrama de um controlador PID (Obtido na Wikipedia).

Page 68: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

5.3. CONTROLE DE POSTURA 67

Como visto acima, SOM-CSTG, assim como PSOM generaliza a grade discreta ouconjunto de nodos A para um mapeamento contínuo de variedades (manifold) M parametrizadopor uma variável contínua s ∈ S ⊂ Rm e descrito por uma função de suavização w(s). Comoconsequência, a associação discreta do vetor de pesos wa com pontos da grade a é substituídapor uma associação contínua, uma função w(·) : s 7→ w(s), onde s varia continuamente sobreum subconjunto S ⊆ Rm. Semelhante a wa,w(s) obtém seu valor em um espaço X ⊆ Rd , omesmo espaço em que os vetores de entrada x são obtidos. No algoritmo de aprendizagem deSOM-CSTG, x é denotado por ξξξ .

A variável contínua s na rede SOM-CSTG possui duas dimensões, a primeira paraacessar as linhas da grade de variedades (nodos) e a segunda para acessar as colunas. O valor daprimeira dimensão é variado automaticamente pela rede SOM-CSTG para gerar a sequência depadrões de uma trajetória. A segunda dimensão é conectada com o sinal de entrada da camadade gerenciamento de marcha, usado para escolher a marcha atual do robô.

A função w(s) pode ser construída utilizando uma função H para cada neurônio mul-tiplicada pelo vetor de peso wa do neurônio. A função H(a,s) da rede SOM-CSTG utiliza opolinômio interpolador de Lagrange aprimorado para valores multidimensionais, onde a é umrótulo para um neurônio.

w(s) = ∑a∈A

H(a,s)wa� �5.6

A função H da rede SOM-CSTG é ajustável para atuar em uma sub-grade centralizadano vetor de pesos mais próximo da entrada atual ξξξ . O uso de sub-grade permite polinômiosde baixo-grau e envolve um número consideravelmente pequeno de pontos no somatório daEquação 5.6, permitindo um desempenho computacional melhor do que utilizando a grade inteirapara o cálculo do polinômio interpolador como acontece na PSOM original. Este esquema comsub-grade é semelhante a uma rede PSOM local.

5.3 Controle de Postura

O módulo de controle de postura recebe um estado desejado e aciona os atuadores paraque as posições angulares contidas nos estados sejam alcançadas pelos atuadores. Este móduloé composto basicamente por um controlador PID (Proportional-Integral-Derivative) em cadaarticulação.

O controlador PID é método amplamente utilizado, até 2013 cerca de 95% dos métodosde controle aplicados em processos industriais eram PID, mesmo com a existência de centenas demétodos de controle publicados anualmente. Segundo HOU; WANG (2013) o controlador PIDe seu método de ajuste proposto por Ziegler e Nichols pode ser considerado um dos primeirosmétodos de controle dirigido a dados (DDC).

O algoritmo de controle PID possui três parâmetros importantes, P (valor proporcional),I (valor integral) e D (valor derivativo). Relacionando estes parâmetros com o tempo, P está

Page 69: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

5.4. DISCUSSÃO 68

associado a medida atual do erro2, I com o acúmulo de erros passados, e D com a tendência doerro (taxa de correção). O resultado da soma ponderada destes parâmetros e suas respectivasações é utilizado para gerar um sinal de controle para a planta (CAMPOS; TEIXEIRA, 2010). AFigura 5.1 apresenta um diagrama ilustrativo PID, onde e(t) é o erro, r(t) é o sinal de referência,y(t) é o sinal de saída da planta e u(t) é o sinal de controle.

Neste trabalho a planta é cada atuador do robô. O sinal de controle, u(t), enviado aoatuador é a força que deve ser aplicada pelo atuador. O erro, e(t) é medido considerando oângulo desejado, r(t) e o ângulo atual do atuador, y(t). Assim, o controlador é capaz de alcançarum ângulo desejado para um certo atuador através da ação do controlador PID.

5.4 Discussão

As principais contribuições desta nova abordagem são: (i) o desenvolvimento de um mapaauto-organizável de estrutura variante no tempo, projetado para construir trajetórias cíclicas;(ii) o ajuste automático do limiar de atividade; e (iii) a inserção do mecanismo de geração demarchas intermediárias e contínuas.

O SOM-STG para algumas bases de dados possui dificuldade em gerar trajetórias cíclicas,esta dificuldade fica mais evidente ao processar dados obtidos de um vídeo de um animal real,como relatado em (ARAúJO; SANTANA JR, 2014). A nova versão desta abordagem, SOM-CSTG, foi projetada para sempre gerar trajetórias cíclicas independente de quais são os dados deentrada.

O ajuste automático do limiar de atividade, um importante parâmetro de SOM-STG, éuma contribuição muito relevante, pois este parâmetro é decisivo para o sucesso do processode aprendizagem da rede. A rede SOM-STG pode não convergir para uma estrutura topológicacíclica caso o valor escolhido para o limiar de atividade não seja adequado. O Capítulo 6apresenta alguns experimentos ilustrando a importância deste ajuste automático.

A aprendizagem de trajetórias fica prejudicada em SOM-STG quando a quantidade dedados de treinamento é reduzida. Neste cenário, as trajetórias produzidas serão groseiras, pois apassagem entre estados distantes será realizada de forma instantânea e quanto menos estadosexistem na trajetória, maior a variação das posições angulares das articulações entre um estado eoutro. Para gerar trajetórias com transições mais suaves é necessário aumentar a quantidade deestados nas trajetórias. Isto implica em capturar mais estados e envolve o uso de sensores comuma taxa de amostragem maior, o que pode elevar o custo do projeto de captura. Uma alternativaé aumentar o tempo de captura de dados, mas não existem garantias de que o espaço de estadosde entrada será completamente coberto. Logo, a introdução da habilidade de gerar trajetóriascontínuas é uma importante característica para a abordagem, pois com poucos estados de entradaé possível realizar uma variação contínua e suave em qualquer ponto da trajetória. Além disso, a

2O erro neste sistema é a diferença entre o valor desejado na saída e o valor real (medido) na saída.

Page 70: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

5.4. DISCUSSÃO 69

habilidade de generalização de marchas a partir de marchas aprendidas para gerar novas marchasintermediárias é uma importante contribuição, pois esta habilidade não existia em SOM-STG.

Comparando SOM-STG com SOM-CSTG em relação ao problema de aprendizagem detrajetórias cíclicas, SOM-CSTG possui em seu algoritmo um embasamento mais sólido de suasespecificações e mantêm as características de SOM-STG mais interessantes para o problema degeração de trajetórias. A solidez das especificações de SOM-CSTG são embasadas em modelosde SOM que possuem características relevantes para o problema de geração de marcha, comopor exemplo SOM-TSP e PSOM, obtidos a partir de uma ampla pesquisa bibliográfica (vista noCapítulo A).

Page 71: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

707070

6Experimentos

Os experimentos avaliam a capacidade da abordagem proposta em gerar trajetórias de es-tados para o planejamento da movimentação das patas de robôs. Estas trajetórias são usadas paracontrolar diferentes tipos de marchas. Dois grupos de experimentos foram elaborados, o primeirogrupo compara os modelos SOM-STG e SOM-CSTG para evidenciar os avanços realizadosna abordagem proposta, apresentando as limitações de SOM-STG e como SOM-CSTG superaestas limitações. O segundo grupo avalia de forma qualitativa as funcionalidades relevantespresentes nos modelos SOM-STG e SOM-CSTG. Três tipos de fontes de dados foram utilizadasnos experimentos para o treinamento das redes: sinal de saída de um CPG, sensores sobre oagente demonstrador e observações externas ao agente demonstrador.

O primeiro grupo de experimentos contém três cenários: comparação no pior caso dedistribuição de dados ilustrados com dados artificiais simples; comparação de aprendizagemdos sinais extraídos de um CPG artificial; e comparação de aprendizagem de dados de umaanimal real. O segundo grupo avalia as seguintes funcionalidades dos modelos: capacidade deaprendizagem com sensores sobre o corpo do agente demonstrador; integração com um esquemaDDC; aprendizagem de marcha e geração de trajetórias contínuas; e generalização de marchas apartir de duas ou mais marchas aprendidas;

Figura 6.1: Os graus de liberdade da perna do robô hexápode.

Page 72: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

71

Figura 6.2: Imagem do simulador Gazebo com o robô de quatro patas.

O simulador usado nos experimentos é o Gazebo (KOENIG; HOWARD, 2004), umsimulador de alta fidelidade para ambientes dinâmicos ao ar livre. Cada objeto simulado possuimassa, velocidade, atrito e outros atributos que tornam o seu comportamento mais realísticoquando empurrado, puxado, em queda ou carregado. Os robôs são estruturas dinâmicas compostade corpos rígidos conectados através de articulações. O ambiente de simulação proporcionadopelo Gazebo pode conter paisagens, construções estruturadas e outros objetos criados pelousuário.

A modelagem 3D do robô é descrita por arquivos no formato XML carregados nomomento em que o simulador é executado. Estes arquivos descrevem todo o ambiente queenvolve o robô inclusive o próprio robô. O robô de seis patas é formado basicamente porparalelogramos de dimensões variadas. Este robô possui três articulações em cada membro,chamadas de α , β e γ , como visto na Figura 6.1. Ele contém um total de 18 articulações, 12graus de liberdade controlados pelos sistema e 6 articulações γ mantidas numa posição angularconstante de -100 graus (-1,4 radiano).

O robô de quatro patas simulado1, ver Figura 6.2, possui os seguintes parâmetros:

� Tamanhos e pesos para as pernas traseiras são: fêmur 17cm e 1.6kg; tíbia 18cm e0.4kg; e metatarso 10cm e 0.3kg;

� Tamanhos e pesos para as pernas frontais são: úmero 17cm e 1.2kg; rádio 17cm e0.3kg; e metacarpo 9cm e 0.2kg;

� Peso do corpo: 24kg;

� Coeficiente de atrito e coeficiente de amortecimento: valores padrão do simulador.

O algoritmo Dynamic Time Warping (DTW)(SENIN, 2008) é utilizado para comparar astrajetórias ou sinais provenientes de SOM-STG, SOM-CSTG ou dos dados originais. Quanto

1Arquivos da modelagem do robô usada no simulador Gazebo, http://goo.gl/8x2eJR

Page 73: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.1. DADOS ARTIFICIAIS SIMPLES 72

(a) (b)

Figura 6.3: (a) Disposição original dos dados artificiais em um plano 2D. (b) RedeSOM-CSTG gerada a partir destes dados artificiais.

mais próximo de zero for o resultado desta comparação, mais semelhante são as trajetóriascomparadas.

Os estados para formar a base de dados são coletados durante a locomoção do agentedemonstrador em intervalos regulares de tempo, i. e., em uma taxa de amostragem constantepara cada modo de locomoção. Informações referentes ao tempo do instante de captura não sãonecessárias para que os modelos SOM-STG ou SOM-CSTG aprendam trajetórias de estados.

6.1 Dados Artificiais Simples

O objetivo deste experimento é apresentar uma situação comum a dados capturados porsensores. A base de dados para este experimento contém 17 pontos espalhados em um plano 2D,ver Figura 6.3(a). Esta base de dados artificiais simples apresenta uma situação muito comum adados obtidos por sensores de posição onde a taxa de amostragem é fixa. Existem situações emque durante a captura os dados coletados ficam mais concentrados em algumas regiões do queem outras. Esse caso é fácil de perceber ao observar um objeto em aceleração, pois posições develocidades lentas possuirão mais pontos capturados do que posições de velocidades rápidas.O espalhamento destes dados é semelhante à disposição de posturas de um animal real quandorealizada a captura de dados por uma câmera de vídeo. A existência de regiões com maiordensidade de pontos do que outras dificulta a formação de trajetórias cíclicas por SOM-STG.Entretanto, como SOM-CSTG possui uma estrutura topológica cíclica as trajetórias geradasserão sempre cíclicas. Assim, a taxa de geração de redes cíclicas de SOM-CSTG é sempre 100%.

A configuração dos valores padrões para os parâmetros de SOM-STG é dada a seguir eserve para todos os experimentos, exceto quando explicitamente determinados:

Page 74: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.1. DADOS ARTIFICIAIS SIMPLES 73

(a)

(b)

Figura 6.4: (a)Variação do limiar de atividade versus taxa de geração de redes cíclicas.(b) Comparação entre número de nodos na rede e nodos com dois vizinhos

Page 75: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.1. DADOS ARTIFICIAIS SIMPLES 74

Tabela 6.1: Experimentos com o ajuste manual do Limiar de Atividade (LA). A segundacoluna é o tamanho médio das redes (TMR), a terceira coluna é a média de nodos comdois vizinhos (MNDV) em cada rede e a última coluna é taxa de criação de redes cíclicas(TCRC) para um experimento com 100 execuções.

LA TMR MNDV TCRC0,99 17,00 11,61 0,000,98 15,00 12,00 0,000,97 13,00 8,76 0,000,96 12,83 9,15 0,000,95 12,00 8,68 0,000,94 11,77 8,57 0,000,93 9,60 7,48 0,180,92 9,12 7,36 0,230,91 8,71 7,29 0,350,90 7,06 4,78 0,000,89 4,78 4,90 0,060,88 5,94 3,46 0,000,87 5,93 3,93 0,000,86 5,46 2,83 0,000,85 5,06 2,14 0,000,84 4,77 2,53 0,00

� O critério de parada: o número de conexões da rede não crescer por pelo menos 300iterações consecutivas;

� A taxa de aprendizagem inicial é 0.1 e a final é 0.001;

� O número de conexões por nodo, Np, é igual a 2. Caso um número maior que doisfor escolhido a rede pode gerar muitos nodos com mais de dois vizinhos provocandoum decaimento na taxa de geração de redes cíclicas;

O experimento com o SOM-STG foi organizado como ilustra a Tabela 6.1, onde cadalinha da tabela representa uma configuração do limiar de atividade. Para obter estes resultados,SOM-STG foi executado 100 vezes em cada configuração. Os resultados que geraram redesde topologia cíclica foram com limiar de atividade configurado entre 0,89 e 0,93 (Tabela 6.1).Apesar das 16 tentativas de ajuste do limiar de atividade, a melhor taxa de geração de redescíclicas foi de 0,35 (Figura 6.4(a)) obtida para o limiar de atividade em 0,91. Nesta configuração,o tamanho médio das redes obtida foi de 8,71 (Figura 6.4(b)) para uma base com 17 amostras.Essa quantidade reduzida de nodos indica que detalhes da movimentação dos membros foramperdidos. O menor valor do limiar de atividade avaliado foi o 0,84 pois a partir daí, as redesresultantes eram muito pequenas e a taxa de geração de redes cíclicas permaneceu em 0 (Figura6.4).

Apesar do SOM-STG gerar os resultados rapidamente, a escolha de vários limiares deatividade manualmente gera um trabalho considerável. Essa tarefa fica ainda mais trabalhosa

Page 76: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.1. DADOS ARTIFICIAIS SIMPLES 75

quando diversas bases de dados precisam ser avaliadas. Nesta situação o ajuste automático dolimiar de atividade torna-se muito útil.

A configuração dos parâmetros de SOM-CSTG comum a vários experimentos é dada aseguir:

� Critério de parada para o treinamento: o campo de ativação cobrir todas as amostrasde entrada ou atingir o número máximo de épocas. A quantidade de época estádefinida na descrição de cada experimento;

� Valor inicial do limiar de atividade: 0,99. Para este valor, o campo de ativação émuito pequeno.

� Taxa de atualização do limiar de atividade: 0,0005. Quanto menor este valor maislento é o decaimento do limiar de atividade e consequentemente mais lento é ocrescimento do campo de ativação do nodo.

� Ganho (G) da regra de atualização dos vizinhos em 0,1. Este ganho está relacionadoà desaceleração do movimento em direção ao padrão de entrada dos nodos vizinhosao vencedor. Quanto maior for este valor, maior é a desaceleração do movimento dosnodos, assim a movimentação de cada nodo vizinho diminui mais rapidamente.

O SOM-CSTG foi executado 30 vezes, o tamanho desejado da rede configurado em12, o valor máximo de nodos em 25 (cerca do dobro do tamanho desejado) e a quantidademáxima de épocas em 30. O experimento com SOM-CSTG foi executado apenas 30 vezes poisa convergência do limiar ajustado automaticamente é estável com baixo desvio padrão, o valormédio do limiar de atividade encontrado foi de 0,9596 e seu desvio padrão foi de 0,00682. Esteresultado indica que o ajuste automático do limiar de atividade tem um comportamento estávelnesta base de dados e que na primeira tentativa o seu resultado já foi satisfatório, pois a redeatinge um tamanho desejado e sua topologia permanece cíclica. O tamanho médio das redesobtidas foi de 12,7097 nodos com desvio padrão de 0,46141. Este é um resultado interessante,pois ilustra a capacidade de cobrir os dados de entrada sem precisar gerar um nodo para cadaamostra. Além disso, a rede espalha bem os seus nodos sobre os dados de entrada sem precisarsobrepor nodos em regiões com uma concentração maior de dados. A Figura 6.3(b) mostra arede formada pelo SOM-CSTG, onde as circunferências maiores são os campos de ativaçãodeterminados pelo limiar de atividade, as circunferências menores de cor escura são os nodos darede. É possível notar, observando a Figura 6.3, que a rede é capaz de adaptar a sua estrutura e otamanho do raio de ativação para aprender uma distribuição de dados que possui uma dispersãovariada de posições das amostras. Este comportamento de crescimento automático da rede éregulado com o número máximo de nodos desejados. Neste experimento o número final denodos na rede foi 13.

Page 77: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.2. DADOS ARTIFICIAIS DE UM CPG 76

6.2 Dados Artificiais de um CPG

Os experimentos desta seção realizam uma comparação dos modelos desenvolvidosdurante o doutorado utilizando dados de um CPG artificial. Os cenários de comparação englobama produção de diferentes marchas. A robustez de SOM-STG e de SOM-CSTG são comparadasao manipularem dados ruidosos com diferentes níveis de ruído. Os dados são capturados deum CPG utilizado no controle de um robô hexápode simulado com Gazebo. Este CPG foiimplementado com osciladores CNN (ARENA et al., 2004) que geram como saída os ângulospara as articulações α e β de cada membro. Os parâmetros de configuração da CNN foramobtidos em ARENA et al. (2004). Cada estado de uma trajetória consiste de valores α e β decada um dos seis membros do robô, deste modo, as entradas do SOM-STG para este experimentosão vetores de 12 posições, ξξξ ∈ R12. Para compor as bases de dados, três modos de locomoçãodiferentes foram amostrados: macha lenta, marcha média e marcha rápida. Todos os estados detodos os modos de locomoção foram armazenados sem nenhuma informação cronológica sobrea ordem de coleta dos estados.

Figura 6.5: Uma rede neural criada por SOM-STG para o modo de locomoção rápido.

Page 78: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.2. DADOS ARTIFICIAIS DE UM CPG 77

Figura 6.6: Crecimento típico da quantidade de nodos de SOM-STG.

Os valores dos parâmetros de SOM-STG foram ajustados por tentativa e erro. A estratégiausada para ajustar o limiar de atividade foi escolher um valor próximo a 1 e decrementar estevalor até a rede atingir um tamanho aproximado desejado pelo usuário de SOM-STG. O limiarde atividade pode determinar o sucesso do treinamento da rede, sendo necessário ajustá-lo paracada experimento. A taxa de aprendizagem inicial, a taxa de aprendizagem final, o númeromáximo de iterações e o número de vizinhos por nodo são normalmente mantidos com valoresconstantes. Para treinar SOM-STG para um novo modo de locomoção, geralmente, é precisoapenas ajustar o limiar de atividade. Por outro lado, para ajustar os parâmetros de um CPGmodelado matematicamente com sistemas de equações diferenciais, é preciso compreenderpelo menos como gerar um sinal, cuja forma da onda seja compatível com a articulação quese deseja controlar. Caso cada articulação tenha um padrão de movimento diferenciado, seránecessário projetar equações que produzam estas oscilações para cada articulação. Além disso, épreciso pelo menos manter o sincronismo entre os movimentos das articulações de uma pata,consequentemente mais parâmetros para serem ajustados no CPG.

O experimento desta seção, inicialmente, testa a capacidade de criação de uma trajetóriacíclica, por SOM-STG, para cada um dos modos de locomoção. Os resultados das comparaçõesdas trajetórias geradas com as trajetórias originais utilizando DTW mostram que SOM-STGpode produzir a sequência temporal exata presente nos dados originais, pois o valor do DTW foiexatamente igual a zero. Assim, mesmo sem apresentar a sequência temporal, a rede SOM-STGfoi capaz de relacionar estados semelhantes e interligá-los. Quatro bases de dados foramconcebidas para avaliar a capacidade de aprendizagem de SOM-STG inserido em um agenterobótico simulado. Cada uma das três primeiras bases de dados armazenam apenas estados deum dado modo de locomoção e o limiar de atividade foi configurado para 0,78, 0,55 e 0,7 paraa marcha lenta, média e rápida respectivamente. Entretanto, a quarta base de dados armazenatodos os estados de cada um dos três modos de locomoção. Para esta base de dados, o limiar deatividade foi configurado para 0,65, ajustado de modo a gerar o mesmo número de nodos emcada sub-rede igual ao número de estados em cada modo de locomoção original.

A Figura 6.5 mostra uma rede gerada por SOM-STG. O número contido em cada nodoexpressa a ordem de criação de cada nodo. As ligações entre diferentes nodos expressam aproximidade de tais nodos. A sequência de nodos, começando do padrão de número 4, porexemplo, seguindo no sentido horário, reproduz a mesma sequência de movimentos obtida

Page 79: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.2. DADOS ARTIFICIAIS DE UM CPG 78

0 50 100 150 200 250

0

10

20

30

40

amostras

be

ta

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(a)

0 50 100 150 200 250

0

10

20

30

40

amostras

alp

ha

(b)

Figura 6.7: Trajetória aprendida por SOM-STG com os dados obtidos de osciladoresCNN, onde L. L. significa perna esquerda e R. L. significa perna direita. As oscilaçõessão do modo de locomoção médio. Estas trajetórias são idênticas às originais (DTW = 0).Em (a) as oscilações nas articulações β e em (b) nas articulações α .

durante a amostragem da trajetória original. Para este exemplo, a Figura 6.6 mostra que ocrescimento da rede é rápido atingindo seu tamanho máximo com poucas iterações.

A Figura 6.7 apresenta o gráfico da trajetória de estados produzida por SOM-STG para omodo de locomoção médio. Os sinais apresentados nas Figuras 6.7(a) e 6.7(b) são idênticos aossinais produzidos pelos osciladores CNN. A mesma situação acontece para os outros dois modosde locomoção.

O SOM-CSTG também foi avaliado com os dados gerados pelos osciladores CNN e paracada base SOM-CSTG foi executado 30 vezes. Na base de dados com as amostras da marcharápida, SOM-CSTG foi configurado com tamanho desejado da rede em 36 e tamanho máximoem 72. O valor médio do DTW foi de 0.000162 e desvio padrão de 0.000137. Para a base dedados da marcha moderada, o tamanho desejado foi configurado em 37 e o tamanho máximo em74. O tamanho máximo é um parâmetro que influencia na etapa de eliminação de nodos, quantomaior a diferença entre o tamanho desejado e o tamanho máximo, maior é margem de nodosadicionados e removidos pela rede. Esse parâmetro é flexível, não atrapalha a convergência darede e é utilizado para refinar o resultado caso uma topologia ótima não seja encontrada. Oresultado obtido para esta base foi 0.000639 para o valor médio do DTW e 0.000620 para odesvio padrão. Para a base de dados da marcha lenta, o valor desejado para o tamanho da rede foiconfigurado em 55 e o tamanho máximo em 110. O resultado para a marcha lenta foi 0.000123para o valor médio do DTW e para o desvio padrão 0,000092. Estes valores de DTW muitopróximos de 0 indicam um alto grau de similaridade entre as curvas geradas pelo SOM-CSTG eos dados originados dos osciladores CNN. Visualmente, trajetórias produzidas por SOM-CSTGe por SOM-STG são idênticas. Outro resultado interessante de SOM-CSTG é a não necessidadede ajustar por tentativa e erro o valor do limiar de atividade, basta indicar o tamanho desejadoque automaticamente o limiar de atividade é ajustado. O tamanho máximo da rede serve paralimitar a etapa de criação de nodos do SOM-CSTG evitando a criação excessiva de nodos.

Page 80: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.2. DADOS ARTIFICIAIS DE UM CPG 79

Tabela 6.2: Setup experimental para dados com ruído e comparação dos resultados obtidoscom SOM-STG e SOM-CSTG. CF é a abreviação para configuração, VM é a velocidadeda marcha, NR é o nível de ruído, LA é o limiar de atividade, M. DTW é a média do DTWcalculado e Std é o desvio padrão para os valores do DTW.

SOM-STG SOM-CSTGCF VM NR LA M. DTW Std M. DTW Std1 Lenta 0,01 0,600 3,14×10−4 5,72×10−4 2,06×10−3 4,64×10−4

2 Lenta 0,10 0,500 2,60×10−1 4,42×10−2 1,09×100 4,35×10−1

3 Lenta 0,30 0,145 3,63×100 1,38×100 1,16×100 4,30×10−1

4 Lenta 0,50 0,030 9,68×100 2,84×101 1,35×100 6,61×10−1

5 Moderada 0,01 0,550 1,87×10−3 3,67×10−4 2,02×10−3 3,60×10−4

6 Moderada 0,10 0,500 1,83×10−1 3,92×10−1 4,65×10−1 1,86×10−1

7 Moderada 0,30 0,160 2,32×100 3,91×10−1 1,54×100 1,22×100

8 Moderada 0,50 0,050 7,29×100 4,08×100 2,12×100 1,37×100

9 Rápida 0,01 0,595 2,43×10−3 4,62×10−3 2,78×10−3 4,34×10−4

10 Rápida 0,10 0,500 1,75×10−1 5,03×10−1 3,22×10−1 1,03×10−1

11 Rápida 0,30 0,160 3,12×100 5,04×100 2,03×100 1,62×100

12 Rápida 0,50 0,060 9,34×100 1,11×101 2,76×100 1,22×100

6.2.1 Dados Ruidosos

Esta seção avalia a aprendizagem de SOM-STG e de SOM-CSTG com dados ruidosos.Doze novas bases de dados foram criadas levando em consideração as três bases de dados usadasna Seção 6.2, quatro para cada marcha. O ruído foi adicionado em cada dimensão de cadaamostra da base de dados, gerando novas amostras até formar uma quantidade 10 vezes maior doque o tamanho original da base de dados. O ruído foi introduzido aos dados através da adiçãode um número real obtido de uma distribuição Gaussiana com média (µ) igual a 0 e desviopadrão igual 0,01, 0,10, 0,30 ou 0,50, Tabela 6.2. Cada configuração foi executada 30 vezes.Os valores dos parâmetros de SOM-STG foram: três estados de controle escolhidos a cada 1/3do tamanho da base de dados original e um limiar de atividade para cada base de dados (Tabela6.2). A configuração paramétrica de SOM-CSTG está contida na Tabela 6.3, o valor máximode nodos permitidos é igual ao valor de nodos desejado para os níveis de ruído em 0,1, 0,3 e0,5. Esta limitação no número de nodos é importante, pois quanto maior o número de nodos narede, maior a sua tendência de aprender o comportamento do ruído. Assim, para conjuntos dedados ruidosos é indicado um tamanho desejado da rede menor do que sem ruído. De modogeral, o tamanho desejado da rede pode ser o tamanho do conjunto de dados de treinamento,para aproveitar o máximo de informação contida nestes dados.

A configuração do limiar de atividade de SOM-STG foi escolhida de modo a aumentar ocampo de ativação proporcionalmente ao nível de ruído. Um campo de ativação maior permiteque SOM-STG cubra uma quantidade maior de amostras. Assim, para valores mais elevados deσ , um maior campo de ativação era escolhido e consequentemente um limiar de atividade menor.Essa estratégia diminui as chances de um nodo ser ativado apenas por amostras muito ruidosas.

Page 81: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.2. DADOS ARTIFICIAIS DE UM CPG 80

Tabela 6.3: Setup experimental para dados com ruído processados por SOM-CSTG. CF éa abreviação para configuração, VM é a velocidade da marcha, NR é o nível de ruído, TDé o tamanho desejado da rede, ME é a máxima época alcançada no treinamento e TG é ataxa de ganho da regra de atualização dos vizinhos.

CF VM NR TD TG ME1 Lenta 0,01 55 0,10 252 Lenta 0,10 50 0,10 403 Lenta 0,30 50 0,01 404 Lenta 0,50 50 0,01 505 Moderada 0,01 34 0,10 306 Moderada 0,10 34 0,10 307 Moderada 0,30 34 0,01 408 Moderada 0,50 32 0,01 349 Rápida 0,01 33 0,10 33

10 Rápida 0,10 33 0,10 4011 Rápida 0,30 32 0,01 4012 Rápida 0,50 32 0,01 45

0 50 100 150 200 250

0

1

2

3

4

5

amostras

alp

ha

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(a)

0 50 100 150 200 250

0

1

2

3

4

5

amostras

alp

ha

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(b)

0 50 100 150 200 250

0

1

2

3

4

5

amostras

alp

ha

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(c)

Figura 6.8: Sequência de ângulos da articulação α para: (a) marcha lenta, (b) marchamédia e (c) marcha rápida, onde L. L. significa perna esquerda e R. L. perna direita.

Page 82: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.3. DADOS DE UM ANIMAL REAL 81

(a) (b)

Figura 6.9: Imagens extraídas do vídeo do cachorro caminhando. Em (a) as articulaçõesdo cachorro marcadas em verde e em (b) os ângulos das articulações.

A geração de trajetórias sofre com o ruído, valores mais elevados de ruído criam trajetóriasmais distantes das trajetórias obtidas com dados sem ruído. Em cada configuração da Tabela6.2, o limiar de atividade foi ajustado heuristicamente. Observe que existe uma tendência dedecrescimento do limiar de atividade quando o nível de ruído aumenta.

As trajetórias geradas por SOM-STG com a base de dados cujo ruído era inferior à 0,1eram semelhantes às originais, i. e., o valor resultante da comparação destas trajetórias era muitopequeno. Acima deste valor de ruído, a diferença entre a trajetória gerada e a original tende acrescer significativamente. Comparando os valores de SOM-STG com SOM-CSTG, os valoresproduzidos por SOM-CSTG tendem a sofrer menos com o aumento do ruído. Os valores dascomparações com DTW crescem mais com SOM-STG do que com SOM-CSTG. Deste modo, oSOM-CSTG possui a tendência de gerar trajetórias mais parecidas de acordo com o aumento donível de ruído.

Todas as configurações na Tabela 6.2 foram avaliadas com o simulador Gazebo como SOM-STG. O sincronismo, a direção e a velocidade de locomoção do robô foram afetadasproporcionalmente pelo nível de ruído. A marcha rápida foi escolhida para avaliar em qualnível de ruído a locomoção do robô é completamente prejudicada. Assim, o nível de ruído foigradualmente incrementado com valores de 0,1 até chegar em 1,2 quando o robô já não eracapaz de movimentar-se para frente.

6.3 Dados de um Animal Real

O experimento com dados reais avalia a capacidade de SOM-STG em aprender pordemonstração com dados capturados a partir da locomoção de um animal, um vídeo da locomoçãode um cachorro2. O vídeo mostra um cachorro andando em uma calçada com as juntas marcadas

2http://youtu.be/tl6X4GjPqcg

Page 83: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.3. DADOS DE UM ANIMAL REAL 82

com partes de uma fita adesiva verde, Figura 6.9. A base de dados foi gerada a partir da visãolateral esquerda do animal e cada quadro do vídeo equivale a uma amostra. Para extrair um vetorde características de um quadro, o primeiro passo é converter um trecho do vídeo em um conjuntode imagens jpeg. Em seguida, detectar automaticamente cada ponto verde na imagem e obter oângulo de cada articulação a partir do ponto da articulação e seus dois vizinhos. Para ilustrar esteprocesso de obtenção destes ângulos, a Figura 6.9(b) mostra os pontos verdes conectados porsegmentos de linha representando as ligações entre pares de pontos.

Duas bases de dados para armazenar os ângulos das articulações do cachorro foramcriadas. A primeira base de dados, D1 com 16 posturas, armazena um conjunto de posiçõesangulares (em radiano) de cada articulação para um único passo. A segunda base de dados,D2 com 93 posturas, armazena as posições angulares de cada articulação para seis passosaproximadamente. Os testes levam em consideração o número de posturas (quadros) de cadabase de dados, Tabela 6.4. O limiar de atividade foi ajustado por tentativa e erro para cada basede dados.

Para os experimentos com a base de dados D1, o limiar de atividade foi configuradopara 0,5, o treinamento parava quando a rede não crescia por 150 interações consecutiva, e aquantidade mínima de iterações era 300. A taxa de geração de redes cíclicas para este trabalho é aporcentagem das redes geradas por SOM-STG que possui topologia cíclica em um experimento.Uma rede de topologia cíclica possui no mínimo dois vizinhos para cada nodo e é capaz de geraruma trajetória igual ou semelhante àquela produzida pelo animal real. SOM-STG foi executado1.000 vezes e sua taxa de geração de redes cíclicas com a base de dados D1 foi 1,56% e asmaiores redes com topologia cíclica geradas possuíam nove nodos. A baixa taxa de amostragemprovavelmente foi a principal causa para este desempenho tão baixo. Considerando que cadaexperimento consiste em executar SOM-STG 1.000 vezes, um experimento dura em média3,3858 segundos com desvio padrão de 0,04037 para 10 experimentos. Todos os experimentosforam executados em um processador Intel® i5 2,60GHz com 4GB de RAM.

Nos experimentos com a base D2, o limiar de atividade do SOM-STG foi configuradopara 0,46. Este valor depende do número de amostras na base de dados, i. e., em uma base dedados com muitas amostras, um valor pequeno para o limiar de atividade pode ser escolhido. Ocritério de parada adotado foi o mesmo para D1. A taxa de geração de redes cíclicas aumentoupara 7,45%, o tempo médio de execução para este experimento foi 3,6491 com um desvio padrãode 0,039437.

A taxa de geração de redes cíclicas pode aumentar de duas maneiras: diminuindo o limiarde atividade ou aumentando a taxa de amostragem com o intuito de diminuir a distância entredois estados consecutivos. Na primeira opção, não é recomendado usar um limiar de atividademuito pequeno, pois a rede resultante pode não incluir estados importantes da trajetória original.Quando o limiar de atividade é significativamente pequeno, a rede perde a sua capacidade degeneralização. Entretanto, a recomendação é avaliar um valor alto do limiar de atividade edecrementar este valor até que a trajetória gerada possa reproduzir os dados originais, quando

Page 84: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.3. DADOS DE UM ANIMAL REAL 83

isto não for possível, a taxa de amostragem precisar ser reduzida.

Tabela 6.4: Setup experimental para as bases de dados do vídeo.

Base de Dados DescriçãoD1 16 quadros do vídeoD2 93 quadros do vídeo

As amostras contidas nas bases de dados (D1 e D2) possuem ângulos de todas asarticulações das patas do cachorro. Pois, para controlar a locomoção do robô é necessário osvalores dos ângulos das patas do lado direito e do esquerdo. Mas, a extração automática retornaapenas valores de um dos lados: no vídeo usado, o lado esquerdo do cachorro. Assim, o ladodireito foi considerado igual ao lado esquerdo com atraso de 8 quadros (metade de uma passo docachorro).

Tabela 6.5: Distâncias DTW entre os dados reais (cada ciclo) e a trajetória das articulaçõesdo robô (cada ciclo) produzidas com a base D1.

Joint Mean Stdalpha 1.7422 0.4216beta 1.1947 0.4096gamma 0.4990 0.0893delta 0.4573 0.1522epsilon 0.6391 0.2763zeta 0.6641 0.3218

Para executar a simulação do controle do robô de quatro patas, primeiro SOM-STG foiexecutado 1.000 vezes e em seguida a rede gerada com maior número de nodos foi selecionadapara controlar o robô. SOM-STG gerou uma rede com 9 nodos a partir da base D1 e uma redecom 9 nodos também para D2. Para controlar o robô, SOM-STG fornece uma postura alvo acada 0.06 segundos (um valor similar à taxa de amostragem do vídeo). Um controlador de baixonível (PID) recebe as posturas alvo e determina o torque de cada articulação (Figura 6.10). Osganhos do controlador PID foram configurados para 150, 1 e 25 para proporcional, integral ederivativo respectivamente. O torque máximo de saída do PID foi configurado para 200 N/m. A

Tabela 6.6: Distâncias DTW entre os dados reais (cada ciclo) e a trajetória das articulaçõesdo robô (cada ciclo) produzidas com a base D2.

Joint Mean Stdalpha 1.5367 0.3708beta 0.8996 0.2874gamma 0.3314 0.1316delta 0.2889 0.0796epsilon 0.3152 0.0919zeta 0.2415 0.0579

Page 85: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.3. DADOS DE UM ANIMAL REAL 84

0 50 100 150 200 250

-60-40-20

020406080

alpha

0 50 100 150 200 250

-60-40-20

020406080

beta

0 50 100 150 200 250

-60-40-20

020406080

gamma

0 50 100 150 200 250

-60-40-20

020406080

delta

0 50 100 150 200 250

-60-40-20

020406080

epsilon

0 50 100 150 200 250

-60-40-20

020406080

zeta

Figura 6.10: Comparação entre trajetórias para o experimento com dados reais de umanimal. As linhas pontilhadas representam os ângulos desejados determinados pelosSOM-STG, já as linhas preenchidas representam os ângulos medidos durante a simulaçãodo robô cachorro.

Page 86: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.4. AVALIAÇÃO DE APRENDIZAGEM COM SENSORES SOBRE O CORPO 85

0 20 40 60 80

-60-40-20

020406080

alpha

0 20 40 60 80

-60-40-20

020406080

beta

0 20 40 60 80

-60-40-20

020406080

gamma

0 20 40 60 80

-60-40-20

020406080

delta

0 20 40 60 80

-60-40-20

020406080

epsilon

0 20 40 60 80

-60-40-20

020406080

zeta

Figura 6.11: Base de dados contendo os ângulos do lado esquerdo do cachorro real.

Figura 6.10 mostra as posturas alvo (ângulos) geradas por SOM-STG com a base de dados D2 eos ângulos alcançados durante a simulação do robô cachorro.

A Tabela 6.6 apresenta a similaridade (calculada com DTW) entre os valores dos ângulosdas articulações dos dados reais e os ângulos das articulações do robô simulado quando contro-lado com SOM-STG treinado com D2 (SANTANA JR, 2014a). De acordo com os resultadosdas distâncias contidas nas Tabelas 6.5 e 6.6, é possível observar que as trajetórias obtidas apartir de D2 são mais semelhantes aos dados originais do que aquelas obtidas a partir de D1(SANTANA JR, 2014b). A Figura 6.11 apresenta os ângulos do lado esquerdo de todos os dadosde D2. Embora SOM-STG não tenha replicado a trajetória exata de posturas do cachorro real,ele foi capaz de gerar trajetórias de estados de pontos-guias (via-pontos) para controlar o robô. Opior valor de DTW da tabela 6.6 ocorre com a articulação α , provavelmente devido ao controlede baixo nível que não responde rápido o bastante às mudanças bruscas nos valores dos ângulosalvo.

6.4 Avaliação de Aprendizagem com Sensores Sobre o Corpo

O objetivo dos experimentos contidos nesta seção é avaliar com dados obtidos de sensoresde posição angular sobre as articulações do agente demonstrador a capacidade de aprendizagemdo modelo SOM-STG, projetado com base na abordagem proposta. Os dados de ângulos obtidos

Page 87: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.4. AVALIAÇÃO DE APRENDIZAGEM COM SENSORES SOBRE O CORPO 86

de um robô de seis patas simulado são utilizados para representar uma base de dados coletados apartir de sensores de posição angular nas articulações de um robô. Os experimentos com ângulosdas articulações têm o objetivo de montar um cenário de aprendizagem mais realístico, já quecoletar os ângulos de uma agente demonstrador é mais viável do que obter os sinais geradospor um CPG. Embora o ambiente destes experimentos seja simulado, ele é bastante realístico,pois fatores como torque dos atuadores e o atrito das pernas do robô com o chão são levados emconsideração e podem mudar a postura atual do robô quando comparada com a postura desejada.Devido a estas imprecisões no posicionamento da postura desejada, a base de dados formada porestas posturas coletadas em um intervalo de tempo constante é considerada ruidosa.

Os valores dos ângulos das articulações do robô simulado são amostrados em um intervalode tempo constante para formar três bases de dados DS1, DS2 e DS3, para as marchas lenta,média e rápida respectivamente. A base de dados DS1 possui 545 amostras, DS2 contém 371amostras e DS3 com 360 amostras.

Os parâmetros de SOM-STG foram mantidos constantes durante os experimentos destaseção, exceto o limar de atividade, o número máximo de iterações (10.000) e o número mínimode iterações (5.000). Os testes desta seção envolvem a aprendizagem de marchas e a transiçãoentre marchas.

6.4.1 Aprendizagem de Marcha

A quantidade de nodos na rede gerada por SOM-STG a partir de DS1 para aprender amarcha lenta com limiar de atividade configurado para 0,955 foi de 123 nodos. Para a marchamédia, aprendida a partir de DS2 e com limiar de atividade em 0,96, a quantidade de nodos narede gerada foi 76 nodos. Para marcha rápida com limiar de atividade em 0,955 a quantidade foi70 nodos. O número de nodos varia de acordo com o limiar de atividade e a ordem em que osnodos são apresentados durante a fase de aprendizagem de SOM-STG.

0 50 100 150 200 250 3000

1

2

3

4

5

amostras

beta

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(a) Trajetória original.

0 50 100 150 200 250 3000

1

2

3

4

5

amostras

beta

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(b) Trajetória obtida.

Figura 6.12: Sequência de ângulos para as articulações β para a marcha rápida, onde L.L. significa perna esquerda e R. L. perna direita.

Page 88: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.4. AVALIAÇÃO DE APRENDIZAGEM COM SENSORES SOBRE O CORPO 87

A Figura 6.8 mostra os ângulos das articulações α para as marchas lenta, média e rápidabem como os sincronismos entre os movimentos das patas. A marcha lenta, por exemplo, écaracterizada por uma constante defasagem entre os ângulos das patas (Figura 6.8(a)). Istoilustra que o sincronismo pode emergir em SOM-STG, mesmo que os dados de treinamento nãoapresentem este sincronismo explicitamente.

Com o intuito de obter resultados coerentes, a taxa de amostragem para os dados detreinamento de SOM-STG deve ser o maior possível. Uma baixa taxa de amostragem poderesultar em dados que não representem a trajetória original adequadamente. Assim, a estratégiaadotada para determinar a taxa de amostragem foi escolher um valor inicial pequeno e incrementá-lo até que SOM-STG fosse capaz de reproduzir a trajetória original a partir destes dados.

Neste experimento, a trajetória cíclica resultante não é exatamente igual a trajetóriaoriginal (ver Figura 6.12) devido ao fato de que um comando de movimentação enviado aum atuador não é executado perfeitamente. Fatores presentes na simulação como torque dosatuadores, peso do robô e atrito afetam a execução da trajetória de movimentos do robô. Porexemplo, a Figura 6.12(a) mostra os valores dos ângulos originais e a Figura 6.12(b) apresentaos ângulos da movimentação do robô durante a simulação.

6.4.2 Transição entre Marchas

As bases de dados (DS1, DS2 e DS3) foram colocadas juntas para formar uma novabase de dados com o objetivo de fazer SOM-STG aprender as três marchas e a transição entreelas. O limiar de atividade foi ajustado para 0,95. As transições entre as marchas lenta paramedia, rápida para média e média para lenta aconteceram sem falhas. Entretanto, este não foi ocaso para a transição da marcha média para rápida. No começo desta transição o robô parou poralguns ciclos.

Existe uma possível razão para o problema mencionado acima. O sinal enviado para orobô movimentar a perna para uma desejada posição não é executado imediatamente, provavel-mente devido ao torque dos atuadores. Assim, a sequência de ângulos na trajetória gerada pelarede é diferente da sequência de ângulos durante a locomoção do robô. Isto acontece porque ointervalo de tempo para receber um novo comando é menor do que o necessário para atingir aposição definida no comando anterior.

Os ângulos das articulações para as transições entre marchas são apresentados na Figura6.13. Particularmente, é possível notar na transição da marcha rápida para média, Figura 6.13(c),que a variação do ângulo α da sexta onda apresenta um pico imediatamente depois da transição.As outras transições acontecem visivelmente sem falhas.

Page 89: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.5. AVALIAÇÃO DE UM ESQUEMA DDC 88

0 50 100 150 200 250 300

0

1

2

3

4

5

amostras

alp

ha

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(a) Marcha lenta para média.

0 50 100 150 200 250 300

0

1

2

3

4

5

amostras

alp

ha

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(b) Marcha méida para rápida.

0 50 100 150 200 250 300

0

1

2

3

4

5

amostras

alp

ha

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(c) Marcha rápida para média.

0 50 100 150 200 250 300

0

1

2

3

4

5

amostras

alp

ha

L. L. 1

R. L. 2

L. L. 3

R. L. 1

L. L. 2

R. L. 3

(d) Marcha média para lenta.

Figura 6.13: Sequência de ângulos α para as transições entre marchas.

6.5 Avaliação de um Esquema DDC

Esta seção tem o objetivo de avaliar abordagem proposta, através de SOM-STG, inseridaem um sistema de controle com malha fechada, a Figura 6.14 mostra esta configuração. Éesperado que SOM-STG possa levar o robô à postura seguinte de uma trajetória cíclica sem queo erro seja maior que um valor desejado. Neste caso, o erro é a diferença entre a postura alvo e apostura atual. Assim, o robô só executa a próxima postura quando o erro for o mínimo desejado.

Figura 6.14: Esquema de controle para configuração circuito fechado.

O sistema de controle em malha-fechada proposto, no qual SOM-STG está inserido, éum exemplo de controle guiado por dados (data-driven control – DDC), uma alternativa aosmétodos tradicionais de controle baseado em modelos (model based control – MBC) (HOU;

Page 90: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.5. AVALIAÇÃO DE UM ESQUEMA DDC 89

WANG, 2013). A teoria sobre MBC necessita de um modelo preciso do comportamento daplanta para projetar adequadamente um controlador. Consequentemente, este controlador podenão ter um bom desempenho se a dinâmica da planta apresentar qualquer característica quenão tenha sido modelada. Em métodos DDC, o controlador é projetado diretamente a partirdos dados de entrada e saída de um sistema controlado (HOU; WANG, 2013). Por exemplo,LEE; KIM; LEE (2010) propuseram um modelo dirigido a dados para o controle de bípedes. Deacordo com os autores, este controlador emprega dados obtidos a partir de sistemas de capturapara simular uma locomoção humana realística. Tal controlador DDC modula uma trajetória dereferência enquanto um controlador simples de rastreamento faz o indivíduo simulado segui-la.Além disso, o uso de controle baseado em SOM foi anteriormente tratado, por exemplo, em umaversão temporal de SOM para um manipulador (BARRETO et al., 2002).

Para o modelo proposto, os dados de entrada/saída (E/S) podem ser fornecidos por umabase de dados construída com a captura de posturas geradas por um CPG, um robô ou um animalreal. Tal base de dados é usada por SOM-STG para gerar trajetórias cíclicas de referência usadaspara produzir pontos guias (via-points) a serem alcançados pelo sistema, o robô simulado. Umcontrolador (PID) é responsável pelo rastreamento de cada ponto guia produzido por SOM-STG(Figura 6.14). A postura do robô é retroalimentada em dois pontos diferentes. No laço externo,SOM-STG (atuando como controlador dirigido a dados) recebe a postura atual do robô e geraa próxima. A próxima postura alvo pode continuar sendo a mesma postura guia anterior, casoainda não tenha sido alcançada ou a próxima postura da trajetória caso contrário. SOM-STGsempre fornece um ponto pertencente a trajetória cíclica, o estado mais próximo da postura atualdo robô. Consequentemente, ele força o controlador PID a continuar a seguir o ponto-guia alvo.No laço mais interno, a postura atual do robô é usada para calcular o erro a partir da postura dereferência, erro este utilizado pelo controlador PID. A frequência de atualização do laço maisinterno é de 1kHz e do laço mais externo é de 10Hz. A configuração do laço mais externo emaberto é usada nos experimentos com dados reais. O esquema de controle em malha aberta parao laço mais externo é usado nos outros experimentos desta Tese.

Os experimentos desta seção estão configurados como a seguir:

� 1: Malha aberta e um ambiente sem obstáculos;

� 2: Malha aberta e um ambiente com um obstáculo;

� 3: Malha fechada e um ambiente sem obstáculos;

� 4: Malha fechada e um ambiente com um obstáculo.

Quando não existe obstáculos, configurações 1 e 3, o robô anda para frente sem problemas.Na configuração 2 (Figura 6.15), o obstáculo está na trajetória de movimento das pernas esquerdase uma das pernas colide com o obstáculo e muda a direção do movimento do robô levementepara a sua esquerda. Isto acontece porque com a malha aberta as posturas alvo são executadassem considerar a postura atual do robô e com um intervalo de tempo constante. Na configuração

Page 91: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.6. AVALIAÇÃO DE APRENDIZAGEM INTRA-TRAJETÓRIA 90

(a) (b)

(c) (d)

Figura 6.15: Simulação com robô de seis patas, em (a) e (b) o robô estava sendo contro-lado com realimentação. Em (c) e (d) o robô estava sem realimentação da posição atual.Em (b) e (d) o robô ficou temporariamente preso no obstáculo. Em (a) e (c) o robô passapelo obstáculo.

4, malha fechada, uma nova postura é executada apenas quando a postura atual está próximada postura alvo. Assim, a configuração em malha fechada corrige a perturbação causada peloobstáculo na postura atual do robô (Figura 6.16).

6.6 Avaliação de Aprendizagem Intra-Trajetória

Esta seção apresenta uma avaliação das trajetórias contínuas geradas por SOM-CSTGpara diferentes quantidades de posturas desejadas. A base de dados utilizada neste experimentocontém os sinais gerados pelo CPG-CNN para o modo de locomoção rápido do robô de seispatas. Esta base contém apenas os dados de um passo do robô com um total de 36 amostras. Osexperimentos desta seção e da próxima, serão realizados apenas com o modelo SOM-CSTG,pois avaliam funcionalidades existentes apenas neste modelo.

Os parâmetros de SOM-CSTG foram configurados com: o tamanho desejado da rede nofinal do treinamento ajustado para 36; o tamanho 5 para a sub-grade na camada de gerenciamentode marcha (quantidade de pontos utilizados na etapa de interpolação); e os outros parâmetrosajustados para seus valores padrões. SOM-CSTG foi configurado para gerar várias trajetóriascom quantidades variadas de posturas. A Tabela 6.7 mostra os valores da comparação DTWcom os dados originais para trajetórias geradas com 9, 18, 30, 36, 50 e 72 posturas. O melhorresultado foi para uma trajetória com 36 posturas, exatamente o tamanho da trajetória original.Como a distância DTW é indicada para comparações de sinais com taxas amostrais parecidas,

Page 92: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.6. AVALIAÇÃO DE APRENDIZAGEM INTRA-TRAJETÓRIA 91

0 50 100 150 200

-0.2

0

0.2

0.4

Unidade de Tempo

alp

ha

desejado

simulado

(a) Parte 1.

0 50 100 150 200 250 300

-0.2

0

0.2

0.4

Unidade de Tempo

alp

ha

desejado

simulado

(b) Parte 2.

0 50 100 150 200

-0.2

0

0.2

0.4

Unidade de Tempo

alp

ha

desejado

simulado

(c) Parte 3.

0 50 100 150 200 250 300

-0.2

0

0.2

0.4

Unidade de Tempo

alp

ha

desejado

simulado

(d) Parte 4.

Figura 6.16: Sequência de ângulos para articulação α para as quatro partes do expe-rimento com malha aberta e malha fechada: (a) um ambiente sem obstáculos e o robôconfigurado com malha aberta; (b) um ambiente com obstáculos e o robô configurado commalha aberta; (c) um ambiente sem obstáculos e o robô configurado com malha fechada;(d) uma ambiente com obstáculos e o robô com malha fechada.

taxas diferentes de discretização das trajetórias devem resultar em valores DTW mais distantes.Com uma rede SOM-CSTG treinada para aprender 20 nodos e para gerar uma trajetória

com 36 posturas, o resultado da comparação DTW com os dados originais foi de 0,612. Esteresultado é próximo de zero, mas mesmo utilizando uma taxa de amostragem igual a dos dadosoriginais, o valor DTW não foi exatamente zero, indicando que a redução na quantidade denodos na rede gera aproximações nas trajetórias resultantes. A Figura 6.17 mostra as trajetóriasusadas na Tabela 6.7. Visualmente as trajetórias são muito parecidas, mas trajetórias com menosposturas perdem detalhes da variação do sinal.

É importante notar que para este experimento, os únicos parâmetros que realmenteprecisaram ser modificados foram a quantidade de nodos desejados no final do treinamento e aquantidade de posturas desejadas nas trajetórias resultantes. Essa característica, quando compa-rada com SOM-STG, deixa evidente a facilidade de usar o SOM-CSTG e a não necessidade deajustar o limiar de atividade em cada novo experimento.

Page 93: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.6. AVALIAÇÃO DE APRENDIZAGEM INTRA-TRAJETÓRIA 92

0 2 4 6 8 10-3

-2

-1

0

1

2

3

9 pontos

0 5 10 15 20-3

-2

-1

0

1

2

3

18 pontos

0 5 10 15 20 25 30-3

-2

-1

0

1

2

3

30 pontos

0 10 20 30 40-3

-2

-1

0

1

2

3

36 pontos

0 10 20 30 40 50-3

-2

-1

0

1

2

3

50 pontos

0 20 40 60 80-3

-2

-1

0

1

2

3

72 pontos

Figura 6.17: Avaliação da criação de trajetórias contínuas com os valores da articulação β

de uma pata. Os títulos dos gráficos indicam a quantidade de pontos (posturas) desejadospara a saída de SOM-CSTG.

Tabela 6.7: Avaliação da trajetória β para diferentes quantidades de posturas desejadasna saída do SOM-CSTG.

Quantidade de Posturas DTW9 4,697

18 1,40030 0,48536 0,00050 0,38672 0,754

Page 94: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 93

0 100 200 300 400

0

200

400

600

amostras

art

icula

çõ

es

Perna Esquerda

0 100 200 300 400

0

200

400

600

amostras

art

icula

çõ

es

Perna Direita

0 100 200 300 400

0

200

400

600

amostras

art

icula

çõ

es

Braço Esquerdo

0 100 200 300 400

0

200

400

amostras

art

icula

çõ

es

Braço Direito

Figura 6.18: Base de dados para a marcha caminhada.

6.7 Avaliação de Aprendizagem Inter-Trajetórias

Esta Seção apresenta os resultados com SOM-CSTG sobre a aprendizagem de marchas,a generalização das marchas aprendidas e a geração de marchas intermediárias. Assim, oobjetivo desta Seção é avaliar a camada de gerenciamento de marchas de SOM-CSTG e mostrarsua capacidade de gerar uma transição contínua entre posturas de uma marcha e a construçãocontínua de marchas intermediárias. Na rede SOM-STG, a mudança de marcha está limitada aquantidade de marchas aprendidas e a suavidade das transições está limitada a quantidade denodos da rede, pois o funcionamento da rede SOM-STG é discreto. Dois cenários são avaliados:a aprendizagem de marchas com dados da locomoção humana e a aprendizagem de marchascom dados do CPG-CNN.

6.7.1 Dados da Locomoção Humana

Os dados da locomoção humana foram obtidos na base de dados de captura de movimen-tos da Universidade Carnegie Mellon3. Esta base contém vários indivíduos usando diferentes

3O site desta base é http://mocap.cs.cmu.edu/, criada com financiamento de NSF EIA-0196217.

Page 95: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 94

0 100 200 300 400

0

200

400

600

amostras

art

icula

çõ

es

Perna Esquerda

0 100 200 300 400

0

200

400

600

amostras

art

icula

çõ

es

Perna Direita

0 100 200 300 400

0

200

400

600

amostras

art

icula

çõ

es

Braço Esquerdo

0 100 200 300 400

0

200

400

amostras

art

icula

çõ

es

Braço Direito

Figura 6.19: Base de dados para a marcha caminhada com passo largo.

Page 96: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 95

0 100 200 300 400

0

200

400

600

amostras

art

icula

çõ

es

Perna Esquerda

0 100 200 300 400

0

200

400

600

amostras

art

icula

çõ

es

Perna Direita

0 100 200 300 400

0

200

400

amostras

art

icula

çõ

es

Braço Esquerdo

0 100 200 300 400

0

200

400

amostras

art

icula

çõ

es

Braço Direito

Figura 6.20: Base de dados para a marcha caminhada com passo muito largo.

Page 97: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 96

0 100 200 300 400

0

200

400

600

800

amostras

art

icula

ções

0 100 200 300 400

0

200

400

600

800

amostras

art

icula

çoes

0 100 200 300 400

0

200

400

600

800

amostras

art

icula

ções

0 100 200 300 400

0

200

400

600

800

amostras

art

iculç

aoes

0 100 200 300 400

0

200

400

600

800

amostras

art

icula

ções

0 100 200 300 400

0

200

400

600

800

amostras

art

icula

ções

s2 = 0,0

s2 = 0,4

s2 = 0,8

s2 = 0,2

s2 = 0,6

s2 = 1,0

Figura 6.21: Trajetórias generalizadas por SOM-CSTG entre as marchas caminhada(M1) e caminhada com passo muito largo (M3) utilizando o parâmetro s2 variando de 0,2,começando em 0 e terminando em 1 gerando seis gráficos respectivamente.

marchas, mas os experimentos desta seção utilizam apenas três marchas: caminhada (M1), cami-nhada a passo largo (M2) e caminhada a passo muito largo (M3). As marchas M1 e M3 foramutilizadas para treinar SOM-CSTG e a marcha M2 foi utilizada para validar o comportamento degeração de marchas intermediárias. A Figura 6.18 apresenta os dados da marcha M1, a Figura6.19 apresenta os dados da marcha M2 e a Figura 6.20 da marcha M3, cada gráfico contémoscilações das articulações dos membros esquerdos e direitos.

A configuração de SOM-CSTG utilizada:

� Duas sub-redes treinadas uma para marcha M1 e outra para marcha M3. O tamanhode cada sub-rede em 100, esse tamanho é utilizado para o tamanho da grade devariedades da camada de gerenciamento de SOM-CSTG. Assim, o tamanho da gradede variedades ficou com 2 colunas e 100 linhas.

� A faixa de vizinhança para os pesos da rede foi configurada entre 1 e 23. Esta faixacontém os sinais das articulações dos membros e a posição 0 contém a posiçãotemporal das amostras. É importante enfatizar que a posição 0 dos pesos da rede não

Page 98: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 97

é utilizada na criação das relações de vizinhança dos nodos da rede servindo apenaspara manter uma referência do tempo de ocorrência das amostras.

� A variável contínua s (ver Seção 5.2) da grade de variedades foi configurada paravariar em 1 para a primeira dimensão (linhas) e em 0,2 para a segunda dimensão(colunas) gerando 6 trajetórias uma para cada valor de s2 (0,0; 0,2; 0,4; 0,6; 0,8; e1,0), ver Figura 6.21.

� Para cada base de dados, apenas um ciclo (um passo) da marcha foi utilizado notreinamento.

Para identificar qual das trajetórias intermediárias geradas é a mais semelhante à marchaintermediária real (M2), o valor de s2 foi ajustado com variação de 0,05 gerando 20 trajetórias,18 delas intermediárias. A marcha M1 aprendida foi gerada para o parâmetro s2 = 0 e a marchaM3 foi gerada com s2 = 1. Todas estas trajetórias foram comparadas com a marcha M2 gerandoos resultados contidos na Tabela 6.8. As marchas intermediárias mais similares à marcha M2foram geradas com o valor de s2 em torno de 0,40. A Figura 6.22 sobrepõe a marcha M2 e atrajetória intermediária gerada por SOM-CSTG evidenciando que ambas são muito parecidas.

Avaliando os resultados ilustrados pela Figura 6.21 é possível afirmar que o SOM-CSTGé capaz de generalizar características intermediárias nos sinais, como por exemplo a forma dosinal e o tamanho do período. Por exemplo, a terceira oscilação da Figura 6.21 possui dois picosde alturas diferentes para M1, mas as alturas destes picos vão ficando iguais para as marchasgeradas mais próximas de M3.

6.7.2 Dados do CPG-CNN

Esta Seção apresenta as marchas intermediárias geradas por SOM-CSTG para as trêsbases de dados construídas com CPG-CNN, as mesmas utilizadas na Seção 6.2. A rede SOM-CSTG foi configurada com: grupo de vizinhança do vetor de peso entre as posições 1 e 13;tamanho para cada sub-rede em 30 nodos; e os outros parâmetros com seus valores padrões.

As trajetórias intermediárias entre a marcha lenta e marcha média foram geradas compoucas distorções. Das 72 oscilações geradas visivelmente 4 apresentaram pequenas distorçõespara as marchas intermediárias nas articulações α . Um resultado interessante é a variaçãodo período para os diferentes sinais intermediários (limitados pelas linhas verticais) gerandoperíodos de tamanhos intermediários, ver Figuras 6.23 e 6.24. A marchas intermediárias entrea marcha média e a rápida (Figuras 6.25 e 6.26) foram geradas com distorções mínimas paraas articulações β , mas para as articulações α , 8 oscilações apresentaram distorções moderadase 4 apresentaram distorções mais fortes. Este resultado indica que a generalização de marchafunciona melhor quando as marchas aprendidas são mais similares e também que o algoritmo dealinhamento, na camada de gerenciamento da rede SOM-CSTG, deve ser melhorado em umanova versão do mesmo através de novas estratégias de alinhamento.

Page 99: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 98

Tabela 6.8: Avaliação da generalização de aprendizagem de marcha de SOM-CSTG.

s2 fêmur 1 fêmur 2 fêmur 3 tíbia0,00 0,620 0,107 0,015 1,0670,05 0,444 0,104 0,014 0,8170,10 0,308 0,099 0,014 0,6100,15 0,203 0,095 0,014 0,4380,20 0,126 0,077 0,015 0,3050,25 0,073 0,061 0,016 0,2040,30 0,040 0,049 0,017 0,1270,35 0,028 0,041 0,020 0,0800,40 0,025 0,038 0,023 0,0590,45 0,025 0,039 0,027 0,0560,50 0,031 0,043 0,031 0,0600,55 0,048 0,049 0,036 0,0750,60 0,080 0,058 0,043 0,0930,65 0,123 0,070 0,051 0,1290,70 0,179 0,073 0,059 0,1830,75 0,256 0,064 0,068 0,2410,80 0,344 0,058 0,079 0,3110,85 0,458 0,056 0,091 0,3970,90 0,591 0,058 0,104 0,4990,95 0,747 0,061 0,119 0,6191,00 0,927 0,066 0,135 0,744

0 50 100 150 200 250-100

0

100

200

300

400

500

amostras

art

icula

çõ

es

Perna Esquerda

Figura 6.22: Comparação entre a marcha M2 (cor clara) e a melhor trajetória intermediá-ria (cor escura) gerada por SOM-CSTG.

Page 100: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 99

0 20 40 60 80 100

0

5

10

15

art

icula

ções

0 20 40 60 80 100

0

5

10

15

0 20 40 60 80 100

0

5

10

15

art

icula

çoes

0 20 40 60 80 100

0

5

10

15

0 20 40 60 80 100

0

5

10

15

amostras

art

icula

ções

0 20 40 60 80 100

0

5

10

15

amostras

s2 = 0,0 s2 = 0,2

s2 = 0,4 s2 = 0,6

s2 = 0,8 s2 = 1,0

Figura 6.23: Variações entre o modo lento e médio para o ângulo α . Os gráfico daesquerda para direita de cima para baixo foram gerados com o parâmetro s2 variando de0,2, começando em 0 e terminando em 1.

Page 101: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 100

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

art

icula

ções

art

icula

çoes

amostras

art

icula

ções

amostras

s2 = 0,0 s2 = 0,2

s2 = 0,4 s2 = 0,6

s2 = 0,8 s2 = 1,0

Figura 6.24: Variações entre o modo lento e médio para o ângulo β . Os gráfico daesquerda para direita de cima para baixo foram gerados com o parâmetro s2 variando de0,2, começando em 0 e terminando em 1.

Page 102: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 101

0 20 40 60 80 100

0

5

10

15

0 20 40 60 80 100

0

5

10

15

0 20 40 60 80 100

0

5

10

15

0 20 40 60 80 100

0

5

10

15

0 20 40 60 80 100

0

5

10

15

0 20 40 60 80 100

0

5

10

15

art

icula

ções

art

icula

çoes

amostras

art

icula

ções

amostras

s2 = 0,0 s2 = 0,2

s2 = 0,4 s2 = 0,6

s2 = 0,8 s2 = 1,0

Figura 6.25: Variações entre o modo médio e rápido para o ângulo α . Os gráfico daesquerda para direita de cima para baixo foram gerados com o parâmetro s2 variando de0,2, começando em 1 e terminando em 2.

Page 103: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.7. AVALIAÇÃO DE APRENDIZAGEM INTER-TRAJETÓRIAS 102

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

0 20 40 60 80 100

0

10

20

30

art

icula

ções

art

icula

çoes

amostras

art

icula

ções

amostras

s2 = 0,0 s2 = 0,2

s2 = 0,4 s2 = 0,6

s2 = 0,8 s2 = 1,0

Figura 6.26: Variações entre o modo médio e rápido para o ângulo β . Os gráfico daesquerda para direita de cima para baixo foram gerados com o parâmetro s2 variando de0,2, começando em 1 e terminando em 2.

Page 104: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

6.8. DISCUSSÃO 103

6.8 Discussão

Os experimentos presentes neste Capítulo avaliaram de forma mais ampla a rede SOM-STGfazendo uma comparação com a sua nova versão, SOM-CSTG, exceto para a transição de mar-chas pois as abordagens de cada rede são diferentes. Os resultados com dados artificiais simplesdeixam claro a limitação de SOM-STG em gerar trajetórias cíclicas e evidenciam que esteproblema foi resolvido em SOM-CSTG. Os dados extraídos do CPG-CNN mostram que tantoSOM-STG quanto SOM-CSTG são capazes de aprender as oscilações geradas por este CPGartificial. Este resultado é comprovado através das comparações com as trajetórias originaisrealizadas com DTW gerando valores abaixo de 0,001 para SOM-CSTG e 0 para SOM-STG. Ovalor exatamente 0 de SOM-STG é devido ao passo de inserção de nodos que adiciona um novonodo exatamente no local da amostra. Valores abaixo de 0,001 gerados por DTW sustentam aafirmação de que os sinais comparados são quase idênticos e visualmente não há como notardiferenças.

Os experimentos com dados ruidosos do CPG-CNN avaliaram vários níveis de ruídogaussiano. Nos níveis mais baixos de ruído, a rede SOM-STG apresentou resultados ligeiramentemelhores que SOM-CSTG, mas com valores maiores de ruído, o desempenho de SOM-STGdiminui de modo mais acentuado do que SOM-CSTG. É possível notar que o desempenho deSOM-CSTG sofre menos com o aumento do ruído do que SOM-STG. Este comportamento deSOM-STG é compatível com sua regra de adição de nodos no local exato da amostra ruidosa esua regra de movimentação de nodos projetada para adaptar minimamente a posição dos nodos.A regra de atualização de nodos de SOM-CSTG é mais flexível permitindo a influência dasamostras presentes em seu campo de ativação e também dos nodos vizinhos. Como neste ruídogaussiano a média é zero, a posição do nodo SOM-CSTG será empurrada para a região docampo de ativação com maior concentração de amostras ruidosa, consequentemente em umadireção mais provável da posição da amostra original sem ruído. Assim, os resultados comruído são compatíveis com as regras de inserção e atualização de nodos das redes, sendo a redeSOM-CSTG mais apropriada para dados com ruídos mais intensos.

Page 105: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

104104104

7Considerações Finais

Esta Tese apresentou uma abordagem para aprendizagem, planejamento e controle dosmovimentos de um robô com pernas durante a sua locomoção. A segunda versão da abordagemproposta, SOM-STG (ARAúJO; SANTANA JR, 2014), foi publicada em um periódico impor-tante na área de redes neurais e sistemas de aprendizagem. A terceira versão, SOM-CSTG aindanão publicada, apresenta avanços em relação a segunda versão. O sistema desenvolvido com essaterceira abordagem, possui dois módulos: aprendizagem e gerenciamento de marchas; e controlede movimentos. O principal foco desta Tese está no módulo de aprendizagem e gerenciamentode marchas. Com este módulo o robô é capaz de aprender por demonstração uma sequência demovimentos para suas pernas. O processo de aprendizagem recebe um conjunto de estados con-tendo informações apenas sobre o posicionamento das pernas sem a necessidade de informaçõestemporais. Em seguida as informações são auto-organizadas por um mapa de topologia varianteno tempo para gerar trajetórias de estados para o planejamento da movimentação das pernas dorobô.

7.1 Contribuições e Análise da Modelagem Proposta

Comparando qualitativamente modelos de CPGs, gerados com equações diferenciais, ea abordagem proposta, baseada em aprendizagem não-supervisionada, a abordagem propostapossui utilização mais flexível em uma variedade de tipos de robôs com patas. Entretanto asequações dos CPGs geralmente são direcionadas a robôs com uma determinada quantidade dearticulações. Na abordagem proposta, os padrões de locomoção para o treinamento são extraídosdiretamente dos dados de treinamento evitando a necessidade de modelagem matemática destespadrões de locomoção. Além disso, um sistema implementado com a abordagem proposta podeaprender os padrões de locomoção de uma variedade de agentes demonstradores, no caso deCPG os parâmetros ou até mesmos as equações precisam ser modificadas para gerar um desejadopadrão locomotor para cada novo tipo de robô.

A rede SOM-CSTG apresentou avanços significativos para a abordagem proposta, comoo ajuste automático do limiar de atividade, a estrutura topológica em anel, a criação de trajetórias

Page 106: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

7.2. CONTRIBUIÇÃO PARA A CIÊNCIA 105

contínuas e a generalização da aprendizagem de marchas. Antes, o ajuste do limiar era realizadode modo manual por tentativa e erro em um processo que consome tempo. Com a automatizaçãodo ajuste do limiar de atividade a rede converge na primeira execução, poupando o esforço denovas tentativas de ajuste. A estrutura topológica variante no tempo em formato de ciclo resolveo problema de criação de redes cíclicas e consequentemente a taxa de criação de redes cíclicasserá sempre 100%.

O problema de controle da movimentação foi resolvido com sucesso com uma abordagemde controle guiado por dados, o PID. Em essência, o módulo de controle recebe uma posturadesejada (posição angular de cada articulação das pernas), compara com a postura atual do robôe gera um sinal de controle para que o robô saia da postura atual e alcance a postura desejada.

Em experimentos com poucos dados de treinamento, como é o caso do experimento comdados de um animal real, a discretização presente em SOM-STG gera transições mais grosseirasentre os estados de uma trajetória. A habilidade de gerar trajetórias contínuas presente na terceiraversão, SOM-CSTG, resolve este problema pois permite transições mais suaves entre estados deuma mesma trajetória.

A introdução de um mecanismo de aprendizagem capaz de generalizar marchas a partirda aprendizagem de duas ou mais marchas, é uma novidade relevante para a abordagem proposta.As marchas aprendidas são auto-organizadas sobre uma grade de duas dimensões composta devariedades. Ao permitir a navegação na superfície desta grade através de coordenadas contínuasa rede é capaz de combinar variedades para gerar estados contínuos de uma trajetória.

7.2 Contribuição para a Ciência

O estudo apresentado nesta Tese pode ser considerado único, pois não foi encontradona literatura nenhum estudo sobre aprendizagem não-supervisionada, baseada em redes SOMs,para o problema de planejamento de movimentos dos membros de um robô durante a sualocomoção. As abordagem mais próximas trabalham com o problema de planejamento detrajetória de manipuladores robóticos, como por exemplo BARRETO; ARAÚJO (2004) eBENANTE; ARAúJO (2007). Além disso, a solução proposta é uma alternativa as abordagensclássicas de CPGs, como discutido no Capítulo 3.

Uma contribuição importante é o desenvolvimento de uma abordagem para aprendizagemde marcha robótica, humana ou animal cujo o principal objetivo é o controle de movimentosdas patas de um robô para a sua locomoção. O sistema de aprendizagem pode ser reguladopara aprender o nível desejado de detalhes dos movimento do agente demonstrador. Com oajuste automático do limiar de atividade, a configuração de parâmetros fica mais fácil pois oparâmetro mais crítico para a convergência da rede passar a ser ajustado automaticamente. Porfim, a terceira versão da abordagem proposta nesta Tese é uma contribuição bastante relevantecom todas as características discutidas anteriormente e com validações em uma variedade deexperimentos presentes no Capítulo 6.

Page 107: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

7.3. LIMITAÇÕES DA ABORDAGEM 106

7.2.1 Trabalho Publicado

O artigo abaixo é relativo a primeira versão da rede neural de topologia variante no tempodesenvolvida durante o doutorado, SOM-STG. A segunda versão desta rede neural, SOM-CSTGtambém desenvolvida durante o doutorado deverá ser publicada em breve:

� Araújo, A. F. R., Santana Jr, O. V., 2014. Self-organizing map with time-varyingstructure to plan and control artificial locomotion. IEEE Transactions on NeuralNetworks and Learning Systems.

7.3 Limitações da Abordagem

As limitações da abordagem dessa Tese indicam as direções para alguns trabalhosfuturos. A camada de gerenciamento utiliza conceitos embasados na rede PSOM para geraçãode diferentes marchas. Os experimentos realizados indicam que a generalização de marchas geraalgumas distorções quando os padrões oscilatórios das marchas são bem diferentes. Embora,apresente resultados satisfatórios quando os mas marchas possuem padrões oscilatórios parecidos.

A trajetória de estados aprendida por um mapa de topologia variante no tempo nemsempre gera uma movimentação ótima para o robô, embora a trajetória aprendida seja fiel atrajetória original quando comparadas com DTW. Esta limitação, voltada para a aplicação daabordagem, é mais evidente nos experimentos com o robô cachorro simulado. A modelagemdo robô de quatro patas foi criada com base na anatomia das patas de um cachorro, mas omapeamento das articulações do cachorro para as articulações do robô não é completamente fiel.As articulações do cachorro são ativadas por músculos possibilitando uma maior flexibilidade demovimentos, dois gruas de liberdade em algumas articulações e até o amortecimento dos passos.No entanto, as articulações do robô têm uma movimentação mais rígida, contendo no máximoum grau de liberdade e não possui amortecimento no contato com o chão.

Embora a abordagem proposta nessa Tese tenha amadurecido no decorrer dos últimosanos, ela não trata da interação com sensores. Informações sobre o terreno e sobre o corpo sãofundamentais para que o robô possa adaptar a postura atual de seu corpo às irregularidades deum terreno. No estado atual, a abordagem gera a mesmas sequência de movimentos cíclicos parao robô, não importando se ele está de pé, preso em um obstáculo ou caído no chão.

7.4 Trabalhos Futuros

A abordagem para resolver o problema de controle de locomoção em animais podeser hierárquica e modular. A estrutura geral de controle de locomoção, biologicamente, podeser dividida em três partes: sistema nervoso central de alto-nível, sistema nervoso central debaixo-nível (CPG) e realimentação. Este conhecimento biológico pode ser utilizado para guiar

Page 108: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

7.4. TRABALHOS FUTUROS 107

as novas direções de exploração do problema de controle de locomoção em robôs. O sistemanervoso central de alto-nível, por exemplo, determina o início da locomoção, a direção e avelocidade. O CPG controla as extensões, flexões e coordena todas as articulações (WU et al.,2009). Dois pontos importantes que devem ser aprimorados no trabalho desenvolvido nesta Tesesão: o gerenciamento de marchas; e a resposta aos sensores presentes no corpo do robô.

A camada de gerenciamento de marchas deve ser capaz de determinar a velocidade e adireção através da marcha atual do robô. Para tanto, um estudo mais profundo de mecanismos degeração de marchas e controle de direção deve ser realizado. Pois, mesmo com os avanços nométodo de aprendizagem e na generalização de marchas, esta Tese não apresentou nenhum estudosobre a aprendizagem de movimentos para o robô movimentar-se em uma direção qualquer.

A utilização de sensores é fundamental para manter o equilíbrio do corpo e a estabilidadedo deslocamento em diferentes tipos de terrenos. Um exemplo de grande sucesso na utilização desensores é o BigDog (RAIBERT et al., 2008), um robô de quatro patas com cerca de 50 sensorese com habilidade de equilíbrio surpreendente1. A elaboração de mecanismos para a integraçãoda abordagem proposta com sensores tem sido estudada. Neste sentido, o experimento commalha fechada pode ser aprimorado com a inclusão de sensores de toque ou pressão nos pés dorobô para identificar com precisão a fase de apoio e a fase de balanço. Uma nova abordagemproposta deverá ser capaz de identificar as fase de apoio e balanço durante a aprendizagem.Assim, aprimorando os mecanismos de auto-adaptação de SOM-CSTG, o robô deverá ser capazde adaptar melhor o movimento de suas pernas a diferentes terrenos irregulares.

1https://www.youtube.com/watch?v=W1czBcnX1Ww

Page 109: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

108108108

REFERÊNCIAS

ACEBRóN, J. A. et al. The Kuramoto model: a simple paradigm for synchronizationphenomena. Reviews of Modern Physics, [S.l.], v.77, n.1, p.137–185, Apr 2005.

AHMAD, A.; CHEN, L. I.; MOHAMAD, F. Simulation of stable-adaptive control of robot armusing self-organizing neural network. In: RESEARCH AND DEVELOPMENT, 2002.SCORED 2002. STUDENT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2002. p.162–164.

AMARASIRI, R.; ALAHAKOON, D.; SMITH, K. A. HDGSOM: a modified growingself-organizing map for high dimensional data clustering. In: HYBRID INTELLIGENTSYSTEMS, 2004. HIS’04. FOURTH INTERNATIONAL CONFERENCE ON. Anais. . .[S.l.: s.n.], 2004. p.216–221.

AMARASIRI, R. et al. HDGSOMr: a high dimensional growing self-organizing map usingrandomness for efficient web and text mining. In: WEB INTELLIGENCE, 2005.PROCEEDINGS. THE 2005 IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON.Anais. . . [S.l.: s.n.], 2005. p.215–221.

ANGENIOL, B.; LA CROIX VAUBOIS, G. de; LE TEXIER, J.-Y. Self-organizing feature mapsand the travelling salesman problem. Neural Networks, [S.l.], v.1, n.4, p.289–293, 1988.

AOKI, T.; AOYAGI, T. Self-organizing maps with asymmetric neighborhood function. Neuralcomputation, [S.l.], v.19, n.9, p.2515–2535, 2007.

ARAI, Y.; HAKURA, J. Teleoperation system for real world robots-adaptive robot navigationbased on sensor fusion. In: PARALLEL AND DISTRIBUTED SYSTEMS: WORKSHOPS,SEVENTH INTERNATIONAL CONFERENCE ON, 2000. Anais. . . [S.l.: s.n.], 2000.p.487–492.

ARAúJO, A. F. R.; SANTANA JR, O. V. Self-Organizing Map With Time-Varying Structure toPlan and Control Artificial Locomotion. Neural Networks and Learning Systems, IEEETransactions on, [S.l.], 2014.

ARENA, P. et al. Cellular neural networks to explore complexity. Soft Computing - A Fusionof Foundations, Methodologies and Applications, [S.l.], v.1, p.120 – 136, 09 1997.

ARENA, P. et al. An adaptive, self-organizing dynamical system for hierarchical control ofbio-inspired locomotion. Systems, Man, and Cybernetics, Part B, IEEE Transactions on,[S.l.], v.34, n.4, p.1823–1837, Aug. 2004.

ARENA, P.; FORTUNA, L.; BRANCIFORTE, M. Reaction-diffusion CNN algorithms togenerate and control artificial locomotion. IEEE Transactions on Circuits and Systems I:Fundamental Theory and Applications, [S.l.], v.46, n.2, p.253–260, Feb 1999.

ARENA, P.; FORTUNA, L.; FRASCA, M. Multi-template approach to realize central patterngenerators for artificial locomotion control. International Journal of Circuit Theory andApplications, [S.l.], v.30, p.441 – 458, 2002.

ARGALL, B. D. et al. A survey of robot learning from demonstration. Robotics andAutonomous Systems, [S.l.], v.57, n.5, p.469–483, May 2009.

Page 110: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 109

ASAMIZU, T.; KOBAYASHI, Y. Acquisition of Body and Object Representation Based onMotion Learning and Planning Framework. In: INTELLIGENT SYSTEMS DESIGN ANDAPPLICATIONS, 2009. ISDA’09. NINTH INTERNATIONAL CONFERENCE ON. Anais. . .[S.l.: s.n.], 2009. p.1312–1317.

AYERS, J.; WITTING, J. Biomimetic approaches to the control of underwater walkingmachines. Philosophical Transactions of the Royal Society A: Mathematical, Physical andEngineering Sciences, [S.l.], v.365, n.1850, p.273–295, 2007.

BANERJEE, B. String tightening as a self-organizing phenomenon. Neural Networks, IEEETransactions on, [S.l.], v.18, n.5, p.1463–1471, 2007.

BARRETO, G. A.; ARAÚJO, A. F. Predictive modeling and planning of robot trajectories usingthe self-organizing map. In: Innovations in Applied Artificial Intelligence. [S.l.]: Springer,2004. p.1156–1165.

BARRETO, G. A.; ARAUJO, A. F. R. A self-organizing NARX network and its application toprediction of chaotic time series. In: INTERNATIONAL JOINT CONFERENCE ON NEURALNETWORKS. Proceedings. . . [S.l.: s.n.], 2001. v.3, p.2144–2149.

BARRETO, G. A. et al. A distributed robotic control system based on a temporal self-organizingneural network. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEETransactions on, [S.l.], v.32, n.4, p.347–357, 2002.

PRESS, M. (Ed.). Autonomous Robots From Biological Inspiration to Implementation andControl. [S.l.]: Massachusetts Institute of Technology, 2005.

BENANTE, R. C.; ARAúJO, A. F. R. Self-organizing maps to generate state trajectories ofmanipulators. IEEE International Conference on Systems, Man and Cybernetics, ISIC.,[S.l.], v.1, p.1590–1595, Oct. 2007.

BERGLUND, E. et al. Mapping between different kinematic structures without absolutepositioning during operation. Electronics letters, [S.l.], v.48, n.18, p.1110–1112, 2012.

BERGLUND, E.; SITTE, J. The parameterless self-organizing map algorithm. IEEETransactions on Neural Networks, [S.l.], v.17, n.2, p.305–316, 2006.

BILLING, E. A. A Formalism for Learning from Demonstration. Journal of BehavioralRobotics, [S.l.], v.1, n.1, p.1–13, 2010.

BLACKMORE, J.; MIIKKULAINEN, R. Incremental grid growing: encoding high-dimensionalstructure into a two-dimensional feature map. In: NEURAL NETWORKS, 1993., IEEEINTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 1993. p.450–455.

BONET, B.; GEFFNER, H. Planning as Heuristic Search. Artificial Intelligence, [S.l.], v.129,p.5–33, 2001.

BUCHLI, J.; IJSPEERT, A. J. Self-organized adaptive legged locomotion in a compliantquadruped robot. Autonomous Robots, [S.l.], v.25, n.4, p.331–347, July 2008.

BLUCHER, E. (Ed.). Controles Típicos de Equipamentos e Processos Industriais. [S.l.]:Edgard Blucher, 2010.

Page 111: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 110

CHAPPELIER, J. C.; GRUMBACH, A. A Kohonen map for temporal sequences. In: NeuralNetworks and Their Applications. Conference Proceedings. Marseille, France: DomaineUniv. Saint-Jerome, 1996. p.104–110.

CHAPPELL, G. J.; TAYLOR, J. G. The temporal Kohønen map. Neural networks, [S.l.], v.6,n.3, p.441–445, 1993.

CHEN, W. et al. Smooth transition between different gaits of a hexapod robot via a centralpattern generators algorithm. Journal of Intelligent & Robotic Systems, [S.l.], v.67, n.3-4,p.255–270, Mar. 2012.

CHENG, G.; ZELL, A. Externally Growing Cell Structures for Pattern Classification. In:PROCEEDING OF THE ICSC SYMPOSIA ON NEURAL COMPUTATION (NC’2000) MAY23-26, 2000 IN BERLIN, GERMANY. Anais. . . ICSC Academic Press, 2000.

CHEUNG, Y.-M.; LAW, L. Rival-Model Penalized Self-Organizing Map. Neural Networks,IEEE Transactions on, [S.l.], v.18, n.1, p.289–295, 2007.

CHOW, C. K.; YUEN, S. Y. Signal self organizing map. In: NEURAL NETWORKS, 2007.IJCNN 2007. INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2007.p.213–218.

CHOW, T. W. S.; WU, S. T. Cell-splitting grid: a self-creating and self-organizing neuralnetwork. Neurocomputing, [S.l.], v.57, p.373–387, Mar. 2004.

CHUA, L. et al. Autonomous cellular neural networks: a unified paradigm for pattern formationand active wave propagation. IEEE Transactions on Circuits and Systems I: FundamentalTheory and Applications,, [S.l.], v.42, n.10, p.559–577, Oct 1995.

CHUA, L.; ROSKA, T. The CNN paradigm. IEEE Transactions on Circuits and Systems I:Fundamental Theory and Applications,, [S.l.], v.40, n.3, p.147–156, Mar 1993.

CHUA, L.; YANG, L. Cellular neural networks: theory. Circuits and Systems, IEEETransactions on, [S.l.], v.35, n.10, p.1257–1272, Oct 1988.

CHUA, L.; YANG, L. Cellular neural networks: applications. Circuits and Systems, IEEETransactions on, [S.l.], v.35, n.10, p.1273–1290, Oct 1988.

CORCHADO, E.; BARUQUE, B. WeVoS-ViSOM: an ensemble summarization algorithm forenhanced data visualization. Neurocomputing, [S.l.], v.75, n.1, p.171–184, 2012.

DALLE MOLE, V. L.; ARAÚJO, A. F. R. Growing self-organizing surface map: learning asurface topology from a point cloud. Neural computation, [S.l.], v.22, n.3, p.689–729, 2010.

DALLEMOLE, V. L.; ARAÚJO, A. The growing self-organizing surface map. In: NEURALNETWORKS, 2008. IJCNN 2008.(IEEE WORLD CONGRESS ON COMPUTATIONALINTELLIGENCE). IEEE INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.],2008. p.2061–2068.

DATTA, A.; PAL, T.; PARUI, S. K. A modified self-organizing neural net for shape extraction.Neurocomputing, [S.l.], v.14, n.1, p.3–14, 1997.

EKEBERG Örjan. A combined neuronal and mechanical model of fish swimming. BiologicalCybernetics, [S.l.], v.69, p.363 – 374, 1993.

Page 112: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 111

EULIANO, N. R.; PRINCIPE, J. C. Spatio-temporal self-organizing feature maps. In: ICNN 96.The 1996 IEEE International Conference on Neural Networks. New York, NY, USA: IEEE,1996. v.4, p.1900–1905.

EULIANO, N. R.; PRINCIPE, J. C. A Spatio-Temporal Memory Based on SOMs with ActivityDiffusion. In: OJA, E.; KASKI, S. (Ed.). Kohonen Maps. Amsterdam: Elsevier, 1999.p.253–266.

FAIGL, J.; PREUCIL, L. Inspection planning in the polygonal domain by Self-Organizing Map.Applied Soft Computing, [S.l.], v.11, n.8, p.5028–5041, 2011.

FITZHUGH, R. Impulses and Physiological States in Theoretical Models of Nerve Membrane.Biophysical Journal, [S.l.], v.1, p.445 – 466, 1961.

FLENTGE, F. Locally Weighted Interpolating Growing Neural Gas. Neural Networks, IEEETransactions on, [S.l.], v.17, n.6, p.1382–1393, 2006.

FRITZKE, B. Growing cell structures–A self-organizing network for unsupervised andsupervised learning. Neural Networks, [S.l.], v.7, n.9, p.1441 – 1460, 1994.

FRITZKE, B. A Growing Neural Gas Network Learns Topologies. In: ADVANCES INNEURAL INFORMATION PROCESSING SYSTEMS 7. Anais. . . MIT Press, 1995.p.625–632.

FRITZKE, B. Growing grid a self-organizing network with constant neighbourhood range andadaptation strength. Neural Processing Letters, [S.l.], v.2, n.5, p.9–13, Sept. 1995.

GÖPPERT, J.; ROSENSTIEL, W. Interpolation in SOM: improved generalization by iterativemethods. Int. Conf. on Artificial Neural Networks, [S.l.], 1995.

GOPPERT, J.; ROSENSTIEL, W. The continuous interpolating self-organizing map. NeuralProcessing Letters, [S.l.], v.5, n.3, p.185–192, 1997.

GRAHAM, J.; STARZYK, J. A. A hybrid self-organizing Neural Gas based network. In: IJCNN2008. Anais. . . [S.l.: s.n.], 2008. p.3806–3813.

HADZIC, F.; DILLON, T. S. CSOM: self-organizing map for continuous data. In: {IEEE}INTERNATIONAL CONFERENCE ON INDUSTRIAL INFORMATICS {INDIN}, 3. Anais. . .IEEE: Piscataway: NJ: USA, 2005. p.740–745.

HADZIC, F.; DILLON, T. S. CSOM for Mixed Data Types. In: Advances in NeuralNetworks–ISNN 2007. [S.l.]: Springer, 2007. p.965–978.

HAESE, K. Self-organizing feature maps with self-adjusting learning parameters. IEEETransactions on Neural Networks, [S.l.], v.9, n.6, p.1270–1278, 1998.

HAESE, K. Kalman filter implementation of self-organizing feature maps. NeuralComputation, [S.l.], v.11, p.1211–1233, 1999.

HAGIWARA, M. Self-organizing feature map with a momentum term. Neurocomputing, [S.l.],v.10, n.1, p.71–81, Jan. 1996.

Page 113: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 112

HE, Y.; XU, S.; MIRANKER, W. L. A Force Field Driven SOM for boundary detection. In:NEURAL NETWORKS (IJCNN), THE 2010 INTERNATIONAL JOINT CONFERENCE ON.Anais. . . [S.l.: s.n.], 2010. p.1–7.

HECHT-NIELSEN, R. Counterpropagation networks. Applied optics, [S.l.], v.26, n.23,p.4979–4983, 1987.

HIRAOKA, K.; AOYAGI, S. Path Searching of a Robot Manipulator Using ReinforcementLearning and Self-Organizing Maps. In: Service Robotics and Mechatronics. [S.l.]: Springer,2010. p.341–346.

HIROSE, A.; NAGASHIMA, T. Predictive self-organizing map for vector quantization ofmigratory signals and its application to mobile communications. Neural Networks, IEEETransactions on, [S.l.], v.14, n.6, p.1532–1540, 2003.

HODGKIN, A. L.; HUXLEY, A. F. A quantitative description of membrane current and itsapplication to conduction and excitation in nerve. Journal of Physiology, [S.l.], v.117, p.500 –544, 1952.

HOLMES, P. et al. The Dynamics of Legged Locomotion: models, analyses, and challenges.SIAM Review, [S.l.], v.48, n.2, p.207–304, 2006.

HORIO, K.; YAMAKAWA, T. Adaptive Self-Organizing Relationship Network and ItsApplication to Adaptive Control. In: INTERNATIONAL CONFERENCE ON SOFTCOMPUTING, IIZUKA2000, IIZUKA, FUKUOKA, JAPAN, OCTOBER 1–4, 2000, 6.Anais. . . [S.l.: s.n.], 2000. p.299–304.

HORIO, K.; YAMAKAWA, T. Feedback self-organizing map and its application tospatio-temporal pattern classification.International-Journal-of-Computational-Intelligence-and-Applications, [S.l.], v.1, p.1–18,2001.

HOU, Z.-S.; WANG, Z. From model-based control to data-driven control: survey, classificationand perspective. Information Sciences, [S.l.], v.235, p.3–35, 2013.

HU, Y. C. et al. Grey self-organizing feature maps. Neurocomputing, [S.l.], v.48, Oct. 2002.

HUANG, D.; YI, Z. Shape recovery by a generalized topology preserving SOM.Neurocomputing, [S.l.], v.72, n.1-3, p.573–580, 2008.

HÜSER, M.; ZHANG, J. Visual programming by demonstration of grasping skills in the contextof a mobile service robot using 1D-topology based self-organizing-maps. Robotics andAutonomous Systems, [S.l.], v.60, n.3, p.463–472, 2012.

IGLESIAS, R.; BARRO, S. SOAN: self-organizing with adaptive neighborhood neural network.In: FOUNDATIONS AND TOOLS FOR NEURAL MODELING. INTERNATIONALWORK-CONFERENCE ON ARTIFICIAL AND NATURAL NEURAL NETWORKS,IWANN’99. PROCEEDINGS, (LECTURE NOTES IN COMPUTER SCIENCE VOL.1606),Berlin, Germany. Anais. . . Springer-Verlag, 1999. v.1, p.591–600.

IJSPEERT, A. A connectionist central pattern generator for the aquatic and terrestrial gaits of asimulated salamander. Biological Cybernetics, [S.l.], v.84, n.5, p.331–348, 2001.

Page 114: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 113

IJSPEERT, A. et al. From swimming to walking with a salamander robot driven by a spinal cordmodel. Science, [S.l.], v.315, n.5817, p.1416–1420, 2007.

IJSPEERT, A.; HALLAM, J.; WILLSHAW, D. Evolving swimming controllers for a simulatedlamprey with inspiration from Neurobiology. Adaptive Behavior, [S.l.], v.7, n.2, p.151–172,1999.

IJSPEERT, A. J. Central pattern generators for locomotion control in animals and robots: areview. Neural Networks, Oxford, UK, UK, v.21, n.4, p.642–653, 2008.

IJSPEERT, A. J.; KODJABACHIAN, J. Evolution and development of a central patterngenerator for the swimming of a Lamprey. Artitifical Life, Cambridge, MA, USA, v.5, n.3,p.247–269, 1999.

ISHII, K. et al. A navigation system for an underwater vehicle using the self-organizing map. In:INTERNATIONAL OFFSHORE AND POLAR ENGINEERING CONFERENCE.Proceedings. . . [S.l.: s.n.], 2002. p.284–289.

ISHII, K.; YANO, K. Path planning system for a mobile robot using self-organizing map. In:INFO-TECH AND INFO-NET, 2001. PROCEEDINGS. ICII 2001-BEIJING. 2001INTERNATIONAL CONFERENCES ON. Anais. . . [S.l.: s.n.], 2001. v.4, p.32–37.

KOENIG, N.; HOWARD, A. Design and use paradigms for Gazebo, an open-source multi-robotsimulator. In: IN IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTSAND SYSTEMS. Anais. . . [S.l.: s.n.], 2004. v.3, p.2149–2154.

KOHONEN, T. Self-organized formation of topologically correct feature maps. BiologicalCybernetics, [S.l.], v.43, p.59–69, 1982.

KOHONEN, T. The self-organizing map. Neurocomputing, [S.l.], v.21, n.1-3, p.1 – 6, 1998.

KOHONEN, T. Fast evolutionary learning with batch-type self-organizing maps. NeuralProcessing Letters, [S.l.], v.9, p.153–162, 1999.

KOHONEN, T.; HARI, R. Where the abstract feature maps of the brain might come from.Trends in Neurosciences, [S.l.], v.22, p.135–139, 1999.

KOIKKALAINEN, P.; VARSTA, M. Robot path generation for surface processingapplications via neural. 1996. 228–238p. v.2904.

KOUTNÍK, J.; ŠNOREK, M. Temporal hebbian self-organizing map for sequences. In:Artificial Neural Networks-ICANN 2008. [S.l.]: Springer, 2008. p.632–641.

KUMAR, S. et al. Visual motor control of a 7DOF redundant manipulator using redundancypreserving learning network. Robotica, [S.l.], v.28, p.795–810, 2010.

KUMAR, S.; PATEL, N.; BEHERA, L. Visual motor control of a 7 DOF robot manipulatorusing function decomposition and sub-clustering in configuration space. Neural ProcessingLetters, [S.l.], v.28, n.1, p.17–33, 2008.

Kwong-Sak-Leung, Hui-Dong-Jin, Z.-B.-X. An expanding self-organizing neural network forthe traveling salesman problem. Theoretical Computer Science. 29 Nov. 2004; 328(1–2):267–92, [S.l.], 2004.

Page 115: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 114

LANG, R.; WARWICK, K. The plastic self organising map. In: NEURAL NETWORKS, 2002.IJCNN’02. PROCEEDINGS OF THE 2002 INTERNATIONAL JOINT CONFERENCE ON.Anais. . . [S.l.: s.n.], 2002. v.1, p.727–732.

LEE, J. A.; VERLEYSEN, M. Self-organizing maps with recursive neighborhood adaptation.Neural networks : the official Journal of the International Neural Network Society, [S.l.],2002.

LEE, Y.; KIM, S.; LEE, J. Data-driven biped control. ACM Transactions on Graphics (TOG),[S.l.], v.29, n.4, p.129, 2010.

LI, C.; LOWE, R.; ZIEMKE, T. A Novel Approach to Locomotion Learning: actor-criticarchitecture using central pattern generators and dynamic motor primitives. Frontiers inNeurorobotics, [S.l.], v.8, n.23, 2014.

LIOU, C. Y.; KUO, Y. T. Conformal self-organizing map for a genus-zero manifold. VisualComputer, [S.l.], v.21, n.5, p.340–353, June 2005.

LIOU, C.-Y.; KUO, Y.-T.; HUANG, J.-C. Conformal self-organizing map on curved seamlesssurface. Neurocomputing, [S.l.], v.71, n.16-18, p.3140–3149, 2008.

LIOU, C. Y.; TAI, W. P. Conformal self-organization for continuity on a feature map. NeuralNetworks, [S.l.], v.12, n.6, p.893–905, 1999.

LUDWIG, L. et al. SOM with topological interpolation for the prediction of interferencespectra. [S.l.]: Finnsh Arti cial Intelligence Society., 1995.

MALMSTROM, K.; SITTE, J.; ISKE, B. Perception-stimulated generation of simple robotnavigation behavior. In: INTELLIGENT SYSTEMS AND SMART MANUFACTURING.Anais. . . [S.l.: s.n.], 2001. p.228–239.

MARSLAND, S.; SHAPIRO, J.; NEHMZOW, U. A self-organising network that grows whenrequired. Neural Netw., Oxford, UK, UK, v.15, n.8-9, p.1041–1058, 2002.

MASUTTI, T. A. S.; CASTRO, L. N. de. Neuro-immune approach to solve routing problems.Neurocomputing, [S.l.], v.72, n.10-12, p.2189–2197, 2009.

MATSUOKA, K. Mechanisms of frequency and pattern control in the neural rhythm generators.Biological Cybernetics, [S.l.], v.56, p.345 – 353, 1987.

MATTONE, R. The growing neural map: an on-line competitive clustering algorithm. In:ROBOTICS AND AUTOMATION, 2002. PROCEEDINGS. ICRA’02. IEEEINTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2002. v.4, p.3888–3893.

MAUFROY, C.; KIMURA, H.; TAKASE, K. Towards a general neural controller forquadrupedal locomotion. Neural Networks, [S.l.], v.21, p.667 – 681, 2008.

MAUFROY, C.; KIMURA, H.; TAKASE, K. Integration of posture and rhythmic motioncontrols in quadrupedal dynamic walking using phase modulations based on legloading/unloading. Autonomous Robots, [S.l.], v.28, p.331 – 353, 2010.

UNIVERSITY, P. (Ed.). Muscles, Reflexes, and Locomotion. [S.l.]: Princeton UniversityPress, 1984.

Page 116: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 115

NAGUMO, J.; ARIMOTO, S.; YOSHIZAWA, S. An Active Pulse Transmission Line SimulatingNerve Axon. Proceedings of the IRE, [S.l.], v.50, p.2061 – 2070, 2007.

NAKAMURA, Y. et al. Reinforcement learning for a biped robot based on a CPG-actor-criticmethod. Neural Networks, Oxford, UK, UK, v.20, n.6, p.723–735, 2007.

NEME, A. et al. Self-Organizing Maps with Non-cooperative Strategies (SOM-NC). In:Advances in Self-Organizing Maps. [S.l.]: Springer, 2009. p.200–208.

NI, H.; YIN, H. A self-organising mixture autoregressive network for FX time series modellingand prediction. Neurocomputing, [S.l.], v.72, n.16 - 18, p.3529–3537, 2009.

NISHIDA, S.; ISHII, K.; FURUKAWA, T. Self-organizing decision-making system for AUV. In:UNDERWATER TECHNOLOGY AND WORKSHOP ON SCIENTIFIC USE OFSUBMARINE CABLES AND RELATED TECHNOLOGIES, 2007. SYMPOSIUM ON.Anais. . . [S.l.: s.n.], 2007. p.506–511.

NISHIDA, S.; ISHII, K.; FURUKAWA, T. An adaptive neural network control system usingmnSOM. In: OCEANS 2006-ASIA PACIFIC. Anais. . . [S.l.: s.n.], 2007. p.1–6.

NISSINEN, A. S.; HYöTYNIEMI, H. Evolutionary self-organizing map. In: EUROPEANCONGRESS ON INTELLIGENT TECHNIQUES AND SOFT COMPUTING. EUFIT ’98, 6.,Aachen, Germany. Anais. . . Verlag Mainz, 1998. v.3, p.1596–1600.

OCSA, A.; BEDREGAL, C.; CUADROS-VARGAS, E. DB-GNG: a constructiveself-organizing map based on densilty. In: NEURAL NETWORKS, 2007. IJCNN 2007.INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2007. p.1953–1958.

OHTA, R.; SAITO, T. A Growing Self-Organizing Algorithm for Dynamic Clustering. In:INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, WASHINGTON, DC,USA, JULY 15–19. Anais. . . [S.l.: s.n.], 2001.

OHTSUKA, A. et al. Self-organizing map based on block learning. IEICE Transactions onFundamentals of Electronics Communications and Computer Sciences, [S.l.], v.E88A,n.11, p.3151–3160, Nov. 2005.

PADOAN JUNIOR, A. C.; BARRETO, G. D. A.; ARAUJO, A. F. R. Modeling and productionof robot trajectories using the Temporal Parametrized Self Organizing Maps. InternationalJournal of Neural Systems, [S.l.], v.13, n.2, p.119–127, Apr. 2003.

RAIBERT, M. et al. Bigdog, the rough-terrain quadruped robot. In: IFAC WORLDCONGRESS, 2008, 17. Proceedings. . . [S.l.: s.n.], 2008. v.17, n.1, p.10822–10825.

REEVE, R.; HALLAM, J. An analysis of neural models for walking control. Neural Networks,IEEE Transactions on, [S.l.], v.16, n.3, p.733–742, May 2005.

REGO, R. do; ARAÚJO, A. F.; LIMA NETO, F. B. de. Growing self-organizing maps forsurface reconstruction from unstructured point clouds. In: NEURAL NETWORKS, 2007.IJCNN 2007. INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2007.p.1900–1905.

REGO, R. L. do; ARAÚJO, A. F. A surface reconstruction method based on self-organizingmaps and intrinsic delaunay triangulation. In: NEURAL NETWORKS (IJCNN), THE 2010INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2010. p.1–8.

Page 117: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 116

REGO, R. M. E.; ARAUJO, A. F. R.; LIMA NETO, F. de. Growing Self-Reconstruction Maps.Neural Networks, IEEE Transactions on, [S.l.], v.21, n.2, p.211–223, 2010.

RESSOM, H.; WANG, D.; NATARAJAN, P. Adaptive double self-organizing map and itsapplication in gene expression data. In: NEURAL NETWORKS, 2003. PROCEEDINGS OFTHE INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2003. v.1, p.39–44.

RIGHETTI, L.; BUCHLI, J.; IJSPEERT, A. J. Adaptive Frequency Oscillators and Applications.The Open Cybernetics & Systemics Journal, [S.l.], v.3, n.2, p.64–69, Oct. 2009.

RIGHETTI, L.; IJSPEERT, A. Design methodologies for central pattern generators: anapplication to crawling humanoids. In: PROCEEDINGS OF ROBOTICS: SCIENCE ANDSYSTEMS, Philadelphia, USA. conference. . . [S.l.: s.n.], 2006. p.191–198.

RITTER, H. Parametrized self-organizing maps. In: ICANN’93. [S.l.]: Springer, 1993.p.568–575.

SAAVEDRA, C. et al. Fusion of self organizing maps. In: Computational and AmbientIntelligence. [S.l.]: Springer, 2007. p.227–234.

SAKURAI, N.; HATTORI, M.; ITO, H. SOM associative memory for temporal sequences. In:NEURAL NETWORKS, 2002. IJCNN’02. PROCEEDINGS OF THE 2002 INTERNATIONALJOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2002. v.1, p.950–955.

SALEM, Z. N. B.; MOURIA-BEJI, F.; KAMOUN, F. Spatio-temporal organization map: aspeech recognition application. In: ARTIFICIAL NEURAL NETWORKS: BIOLOGICALINSPIRATIONS - {ICANN} 2005, PT. 1, PROCEEDINGS, LECTURE NOTES INCOMPUTER SCIENCE. Anais. . . [S.l.: s.n.], 2005. p.371–378.

SANTANA JR, O. V. Mapa Auto-Organizável para Controle e Gerenciamento deLocomoção Artificial. 2010. Dissertação (Mestrado em Ciência da Computação) — UFPE.

SANTANA JR, O. V. Vídeo da Simulação do Robô Cachorro com Dados D2. 2014.

SANTANA JR, O. V. Vídeo da Simulação do Robô Cachorro com Dados D1. 2014.

SANTANA JR, O. V.; ARAUJO, A. F. R. A Self-Organizing Map for Controlling ArtificialLocomotion. In: DIAMANTARAS, K.; DUCH, W.; ILIADIS, L. (Ed.). Artificial NeuralNetworks - ICANN 2010. [S.l.]: Springer Berlin Heidelberg, 2010. p.420–425. (Lecture Notesin Computer Science, v.6353).

SANTOS, C. P.; MATOS, V. Gait transition and modulation in a quadruped robot: abrainstem-like modulation approach. Robotics and Autonomous Systems, [S.l.], v.59, n.9,p.620–634, Sept. 2011.

SANTOS, P. G. D. et al. A six-legged robot-based system for humanitarian demining missions.Mechatronics, [S.l.], v.17, n.8, p.417 – 430, 2007.

SENIN, P. Dynamic Time Warping Algorithm Review. [S.l.]: Information and ComputerScience Department - University of Hawaii at Manoa, 2008.

SHAH-HOSSEINI, H. Binary tree time adaptive self-organizing map. Neurocomputing, [S.l.],v.74, n.11, p.1823–1839, 2011.

Page 118: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 117

SHAH-HOSSEINI, H.; SAFABAKHSH, R. TASOM: the time adaptive self-organizing map. In:INFORMATION TECHNOLOGY CODING AND COMPUTING 2000 PROCEEDINGSINTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2000. p.422–427.

SHAH-HOSSEINI, H.; SAFABAKHSH, R. Automatic multilevel thresholding for imagesegmentation by the growing time adaptive self-organizing map. {IEEE} Transactions onPattern Analysis and Machine Intelligence, [S.l.], v.24, n.10, p.1388–1393, Oct. 2002.

SHAH-HOSSEINI, H.; SAFABAKHSH, R. Tasom: a new time adaptive self-organizing map.{IEEE} Transactions on Systems Man and Cybernetics, Part B: Cybernetics, [S.l.], v.33,n.2, p.271–282, Apr. 2003.

SHIMADA, A. et al. Robust estimation of human posture using incremental learnableSelf-Organizing Map. In: NEURAL NETWORKS, 2008. IJCNN 2008.(IEEE WORLDCONGRESS ON COMPUTATIONAL INTELLIGENCE). IEEE INTERNATIONAL JOINTCONFERENCE ON. Anais. . . [S.l.: s.n.], 2008. p.939–946.

PRESS, T. M. (Ed.). Introduction to Autonomous Mobile Robots. [S.l.]: The MIT Press,2004.

SONS, J. W. . (Ed.). Robot Modeling and Control. 1.ed. [S.l.]: John Wiley & Sons, 2006.

SPROEWITZ, A. et al. Learning to Move in Modular Robots using Central Pattern Generatorsand Online Optimization. International Journal of Robotics Research, Thousand Oaks, CA,USA, v.27, n.3-4, p.423–443, 2008.

SRINIVASA, N.; GROSSBERG, S. A self-organizing neural model for fault-tolerant control ofredundant robots. In: NEURAL NETWORKS, 2007. IJCNN 2007. INTERNATIONAL JOINTCONFERENCE ON. Anais. . . [S.l.: s.n.], 2007. p.483–488.

SRINIVASA, N.; GROSSBERG, S. A head-neck-eye system that learns fault-tolerant saccadesto 3-D targets using a self-organizing neural model. Neural Netw., Oxford, UK, UK, v.21, n.9,p.1380–1391, nov 2008.

STEIN, R. B. et al. Improved neuronal models for studying neural networks. BiologicalCybernetics, [S.l.], v.15, p.1–9, 1973.

STRICKERT, M.; HAMMER, B. Merge SOM for temporal data. Neurocomputing, [S.l.], v.64,p.39–71, Mar. 2005.

SU, M.-C.; CHANG, H.-T. New model of self-organizing neural networks and its application indata projection. IEEE Transactions on Neural Networks, Piscataway, NJ, v.12, n.1,p.153–158, Jan. 2001.

TOKUNAGA, K.; KAWABATA, N.; FURUKAWA, T. Self Evolving Modular Network. IEICETRANSACTIONS on Information and Systems, [S.l.], v.95, n.5, p.1506–1518, 2012.

TOPOLOGY-PRESERVING INTERPOLATION IN SELF-ORGANIZING MAPS, Nanterre,France, 10 1993. EC2. Anais. . . Neuro Nimes, 1993.

VARSTA, M. et al. Temporal Kohonen map and the recurrent self-organizing map: analyticaland experimental comparison. Neural Processing Letters, [S.l.], v.13, n.3, p.237–251,June 2001.

Page 119: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 118

VENKATESH, Y.-V.; KUMAR RAJA, S.; RAMYA, N. Multiple contour extraction fromgraylevel images using an artificial neural network. Image Processing, IEEE Transactions on,[S.l.], v.15, n.4, p.892–899, 2006.

VOEGTLIN, T. Context quantization and Contextual Self-Organizing Maps. In:INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, Piscataway, NJ.Proceedings. . . IEEE, 2000. v.6, p.20–25.

VOEGTLIN, T. Recursive self-organizing maps. Neural Networks, [S.l.], v.15, n.8-9,p.979–991, 2002.

VOEGTLIN, T.; DOMINEY, P. F. Recursive self-organising maps. In: ADVANCES INSELF-ORGANISING MAPS. Anais. . . Springer, 2001. p.210–215.

WALTER, J.; RITTER, H. Local PSOMs and Chebyshev PSOMs Improving the ParametrisedSelf-Organizing Maps. In: ICANN’95, INTERNATIONAL CONFERENCE ON ARTIFICIALNEURAL NETWORKS, Nanterre, France. Proceedings. . . EC2, 1995. v.I, p.95–102.

WALTER, J.; RITTER, H. Rapid learning with parametrized self-organizing maps.Neurocomputing, [S.l.], v.12, n.2, p.131–153, 1996.

WANG, J. et al. A gait generating algorithm with smooth speed transition for the locomotion oflegged robots. Transactions of the Institute of Measurement and Control, [S.l.], 2013.

WANG, J.; MA, L. Text clustering based on LSA-HGSOM. In: Web Information Systemsand Mining. [S.l.]: Springer, 2011. p.1–10.

WANG, T. et al. CPG Control for Biped Hopping Robot in Unpredictable Environment. Journalof Bionic Engineering, [S.l.], v.9, n.1, p.29–38, Mar. 2012.

WIEMER, J. C. The time-organized map algorithm: extending the self-organizing map tospatiotemporal signals. Neural Computation, [S.l.], v.15, n.5, p.1143–1171, May 2003.

WU, Q. D. et al. Survey of locomotion control of legged robots inspired by biological concept.Science in China Series, [S.l.], v.52, p.1715 – 1729, 2009.

WU, S. T.; CHOW, T. W. S. Prsom: a new visualization method by hybridizingmultidimensional scaling and self-organizing map. IEEE Transactions on Neural Networks,[S.l.], v.16, n.6, p.1362–1380, Nov. 2005.

XU, L.; SHING, T. Self-Organizing Potential Field Network: a new optimization algorithm.Neural Networks, IEEE Transactions on, [S.l.], v.21, n.9, p.1482–1495, 2010.

YANG, Z.; FRANÇA, F. M. A generalized locomotion CPG architecture based on oscillatorybuilding blocks. Biological cybernetics, [S.l.], v.89, n.1, p.34–42, 2003.

YIN, H. On multidimensional scaling and the embedding of self-organising maps. NeuralNetworks, [S.l.], v.21, n.2, p.160–169, 2008.

YIN, H. J. ViSOM - A novel method for multivariate data projection and structure visualization.IEEE Transactions on Neural Networks, [S.l.], v.13, n.1, p.237–243, Jan. 2002.

YIN, H.; NI, H. Generalized self-organizing mixture autoregressive model. In: Advances inSelf-Organizing Maps. [S.l.]: Springer, 2009. p.353–361.

Page 120: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

REFERÊNCIAS 119

YOUCEF, Z.; PIERRE, C. Control of the trajectory of a hexapod robot based on distributedQ-learning. In: INDUSTRIAL ELECTRONICS, 2004 IEEE INTERNATIONAL SYMPOSIUMON. Anais. . . [S.l.: s.n.], 2004. v.1, p.277–282.

YU, J. et al. A Survey on CPG-Inspired Control Models and System Implementation. NeuralNetworks and Learning Systems, IEEE Transactions on, [S.l.], v.25, n.3, p.441–456,March 2014.

ZEHRAOUI, F.; BENNANI, Y. M-SOM: matricial self organizing map for sequences clusteringand classification. In: {IJCNN}’04, INTERNATIONAL JOINT CONFERENCE ON NEURALNETWORK, Budapest, Hungary. Proceedings. . . [S.l.: s.n.], 2004.

ZHAI, Y. Z.; HSU, A.; HALGAMUGE, S. K. Scalable dynamic self-organising maps for miningmassive textual data. In: NEURAL INFORMATION PROCESSING. Anais. . . [S.l.: s.n.], 2006.p.260–267.

ZHANG, J. et al. An overall-regional competitive self-organizing map neural network for theEuclidean traveling salesman problem. Neurocomputing, [S.l.], v.89, p.1–11, 2012.

ZHOU, T.; DUDEK, P.; SHI, B. E. Self-Organizing Neural Population Coding for improvingrobotic visuomotor coordination. In: NEURAL NETWORKS (IJCNN), THE 2011INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2011. p.1437–1444.

ZHU, A.; YANG, S. X. An improved self-organizing map approach to traveling salesmanproblem. In: {IEEE} INTERNATIONAL CONFERENCE ON ROBOTICS, INTELLIGENTSYSTEMS AND SIGNAL PROCESSING {IEEE} VOL. 1, 2003. Proceedings. . . IEEE:Piscataway: NJ: USA, 2003. p.1454.

Page 121: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

Apêndice

Page 122: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

121121121

ASOM e Suas Variações

Este Capítulo apresenta as principais contribuições dos mapas auto-organizáveis deriva-dos do modelo de Kohonen. Os mapas auto-organizáveis em essência constroem um mapeamentode um espaço de entrada de alta dimensionalidade em um espaço de estruturas topológicas debaixa dimensão. Neste mapeamento, elementos vizinhos no espaço de entrada são mapeados emregiões vizinhas deste espaço de estruturas topológicas.

Uma busca abrangente por contribuições foi realizada entre artigos publicados nos anosde 1994 até 2013. O principal objetivo desta busca foi observar como as modificações propostasnos artigos influenciam o comportamento do modelo gerado. A partir destas observações escolheras características daquele modelo que possui o comportamento mais adequado para resolver aslimitações do SOM-STG.

O conteúdo do restante deste Capítulo está organizado da seguinte maneira, a Seção A.1apresenta o algoritmo SOM. A Seção A.2 mostra diferentes mapas com estrutura variante notempo. Seção A.3, os mapas para criação de sequências espaço-temporais. Algumas contribui-ções em regras de aprendizagem na Seção A.4, mapas dotados de capacidade de interpolação naSeção A.6 e uma discussão sobre a relevância destes mapas para este trabalho na Seção A.8.

A.1 SOM

Antes de mostrar os modelos de mapas auto-organizáveis e suas contribuições, algumasdefinições precisam ser levadas em consideração (KOHONEN, 1982, 1998; KOHONEN; HARI,1999; FRITZKE, 1994, 1995a):

� Estímulo de entrada, sinal de entrada, ou apenas entrada da rede é um vetor de dadosn-dimensional, ξξξ = [ξ1ξ2...,ξn], isto é, uma lista de números que representam osvalores do estímulo em cada dimensão;

� Neurônio, unidade, nó, nodo ou célula ni possui um conjunto de valores numéricosou pesos sinápticos, wi. O vetor wi = [wi1,wi2, ...,win] possui a mesma dimensão deξξξ e pode ser considerado uma posição no espaço de entrada;

Page 123: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.1. SOM 122

� O neurônio vencedor s possui vetor sináptico ws, também conhecido como neurôniomais adaptado, é aquele que possui o maior grau de semelhança com o estímulo deentrada;

� Vértice ou conexão, um conceito comum aos mapas auto-organizáveis de topologiavariante no tempo, unem neurônios para formar vizinhanças;

Segundo KOHONEN (1998), um Mapa Auto-Organizável (Self-Organizing Map, SOM)é uma ferramenta matemática para visualização de dados de alta-dimensionalidade. Ele cria ummapeamento de uma distribuição de alta-dimensão em uma grade regular de baixa-dimensão.Sendo capaz de compactar informações preservando os relacionamentos topológicos e as mé-tricas mais importantes dos dados originais. Com base nestas características, dois aspectos sãoevidenciados, o de abstração e exibição simplificada da informação. Estes dois aspectos podemser utilizados de diversas maneiras em uma variedade de aplicações práticas como em reconheci-mento de voz, análise de imagem, processos industriais de controle, organização automática dedocumentos em bibliotecas, e etc..

Os estímulos chegam para todas as unidades na rede, no entanto a unidade mais ativa éaquela cujo vetor de pesos wi é mais próximo ao estímulo de entrada. Esta unidade chamadade vencedora ws, mantém-se ativa induzindo à ativação dos neurônios vizinhos. Um requisitopara a auto-organização é: os pesos sinápticos de uma unidade devem ser modificados apenas navizinhança local da unidade vencedora e todos os pesos modificados devem ser mais semelhantesao estímulo atual que no passado. Diferentes sinais de entrada em diferentes tempos afetamregiões diferentes na grade retangular de unidades. Deste modo, depois de muitos passosde aprendizagem, os pesos sinápticos (wi) começam a adquirir valores que relacionam-sesuavemente dentro desta grade de maneira equivalente aos estímulos do espaço de entrada (ξξξ )(KOHONEN; HARI, 1999).

O vetor de pesos da unidade vencedora ws possui o maior grau de semelhança com oestímulo de entrada. A equação A.1 descreve o processo de comparação:

∀i,‖ξξξ (t)−ws(t)‖ ≤ ‖ξξξ (t)−wi(t)‖.� �A.1

A métrica de comparação normalmente escolhida é a distância Euclidiana (KOHONEN, 1982,1998; KOHONEN; HARI, 1999).

O algoritmo SOM modifica os pesos sinápticos das unidades vizinhas da unidade vence-dora de modo a aumentar o grau de semelhança entre estas unidades e o estímulo de entrada. Avizinhança do neurônio vencedor pode ser descrita pala função de vizinhança hsi na equação A.2,que atinge seu máximo para o vencedor, isto é i = s. Esta função hsi é normalmente descrita pelacurva Gaussiana e retorna um valor escalar:

hsi = α(t)exp(−‖ri− rs‖

2σ2(t)

),

� �A.2

Page 124: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.2. ESTRUTURA VARIANTE NO TEMPO 123

onde 0 < α(t) < 1 é a taxa de aprendizagem, ri ∈ R2 e rs ∈ R2 são as posições vetoriaisdos elementos na grade, e σ(t) corresponde a largura ou raio da função de vizinhança. Osparâmetros σ(t) e α(t) decrescem monotonicamente com o decorrer tempo t (KOHONEN,1998; KOHONEN; HARI, 1999).

Na etapa de aprendizagem, um estímulo de entrada ξξξ (t) modifica os valores dos pesossinápticos wi(t) para novos valores wi(t +1), t indica a iteração atual. A Equação A.3 mostracomo a atualização dos pesos sinápticos da unidade vencedora e de suas vizinhas dependemdos estímulos de entrada: quanto maior a diferença entre o estímulo e os pesos sinápticosde uma unidade, maior será o salto em direção ao vetor que representa o estímulo de estrada(KOHONEN; HARI, 1999).

wi(t +1) = wi(t)+hsi(t)(ξξξ (t)−wi(t)).� �A.3

A.2 Estrutura Variante no Tempo

Uma limitação muito estudada na rede SOM é sua estrutura fixa. Existem muitos modelosque são projetados para resolver esta limitação. O modelo Growing Grid de FRITZKE (1995b),por exemplo, varia o seu tamanho durante o treinamento, embora tenha uma arquitetura muitoparecida com SOM. Nele, novas linhas ou colunas podem ser inseridas de acordo com medidasestatísticas acumuladas localmente. CHOW; WU (2004) propõem a rede Cell-Splitting Grid

(CSG) com uma abordagem biologicamente mais plausível que a rede SOM. Os nodos e asconexões de CSG são criados e organizados sobre um plano 2D. Neste mapa, o espaço ocupadopor uma célula pode ser dividido para quatro novas células de acordo com um limiar de ativação.

A rede Growing Cell Structures (GCS), FRITZKE (1994), automaticamente encontrao seu tamanho e a sua estrutura. Além disso, todos os parâmetros deste modelo são fixos, nãosendo necessário definir uma taxa de decaimento. Assim como nas redes SOM, o problematratado por muitas redes de estrutura variável é a criação de um mapeamento entre o espaço deentrada V com amostras n-dimensionais e uma estrutura topológica A discreta k-dimensional.Este mapeamento deve possuir as seguintes propriedades:

1) Sinais de entrada similares são mapeados em elementos topológicos vizinhos em A.

2) Elementos topologicamente vizinhos em A devem possuir amostras similares mapeadaspara estes elementos.

3) Regiões de V onde a densidade de probabilidade da distribuição do vetor de entrada é altadevem ser representadas por regiões de A com maior concentração de elementos.

A estrutura topológica inicial da rede GCS é um simplex k-dimensional. Para k = 1 a estruturaserá um segmento de linha, para k = 2 um triângulo, e para k = 3 ou maior a estrutura será umtetraedro ou um hipertetraedro. Durante o processo de auto-organização novas células serãoadicionadas e células irrelevantes serão removidas. O passo de adaptação no GCS é descrito

Page 125: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.2. ESTRUTURA VARIANTE NO TEMPO 124

abaixo:

1) Escolha um sinal de entrada ξ de acordo com a distribuição de probabilidade P(ξ ) dosdados de entrada.

2) Localize o nodo vencedor s.

3) Aproxime para ξ o nodo s e seus vizinhos topológicos diretos

∆ws = εb(ξ −ws)� �A.4

∆wc = εn(ξ −wc)( para cada c ∈ Ns)� �A.5

4) Aumente o contador de sinal de s:∆τs = 1;

� �A.6

5) Decremente todos os contadores de sinais por uma fração α:

∆τc =−ατc (para cada i ∈ A)� �A.7

εb e εn são taxas de aprendizagem para o vencedor e para os vizinhos respectivamente.A rede Externally Growing Cell Structures (EGCS) (CHENG; ZELL, 2000) foi projetada

para melhorar a velocidade de convergência e aumentar generalização em relação a rede GCS.A ideia de células de crescimento externo presente na EGCS foi extraída da rede Incemental

Grid Growing (IGG). Redes de crescimento dinâmico baseadas em grafos como a GCS não sãotão apropriadas para visualização de dados quanto uma rede de estrutura bidimensional como aIGG. Uma outra vantagem da rede IGG em relação a redes de estrutura baseada em grafos é asimplicidade do seu algoritmo de treinamento (BLACKMORE; MIIKKULAINEN, 1993)

A rede GNG (Growing Neural Gas) (FRITZKE, 1995a) é um outro modelo de topologiavariável muito semelhante ao GCS e caracterizado da seguinte maneira:

� Um conjunto A de nodos, em que cada nodo i ∈ A tem um vetor sináptico associadowi ∈ Rn.

� Um conjunto N de conexões entre pares de nodos. Estas conexões não ponderadastêm o propósito de definir a estrutura topológica da rede.

� O estímulo de entrada ξξξ obedece a alguma função de densidade de probabilidadeP(ξξξ ) desconhecida

O crescimento de GNG ocorre levando em conta uma avaliação local com medidasestatísticas obtidas em iterações passadas, como acontece no modelo GCS de FRITZKE (1995a).O algoritmo GNG é apresentado a seguir:

1) Inicie com duas unidades a e b em posições aleatórias wa e wb em Rn.

Page 126: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.2. ESTRUTURA VARIANTE NO TEMPO 125

2) Obtenha um estímulo de entrada ξξξ ;

3) Encontre a unidade vencedora s1 e a segunda unidade vencedora s2.

4) Incremente a idade de todas as conexões de s1.

5) Acumule o erro local de s1:

∆error(s1) = ‖ws1−ξξξ‖2� �A.8

6) Mova s1 e seu vizinhos topologicamente diretos em direção a ξξξ proporcionalmente astaxas de aprendizagem εs e εn, respectivamente, segundo:

∆ws1 = εs(ξξξ −ws1)� �A.9

∆wn = εn(ξξξ −wn), ∀n ∈ Ns1

� �A.10

7) Se s1 e s2 possui uma conexão, atribua o valor zero a esta conexão. Se tal conexão nãoexiste, crie.

8) Remova conexões com idade maior que amax. Se resultar em nodos desconexos, remova-os.

9) Se o número de estímulos de entrada apresentados a rede até o momento for um múltiplode um parâmetro λ , insira um novo nodo como a seguir:

� Determine o nodo q com o máximo erro acumulado;

� Insira um novo nodo r na metade da distância entre q e seu vizinho f com omaior erro:

wr = 0.5(wq +w f ).� �A.11

� Insira conexões entre novo nodo r e os nodos q e f , e remova a conexão originalentre q e f ;

� Decremente a variável de erro de q e f multiplicando por uma constante α .Inicialize a variável de erro de r com o mesmo valor da variável de erro de q.

10) Decremente todas as variáveis de erro, multiplicando-as por uma constante d.

11) Se nenhum critério de parada (exemplo, tamanho da rede ou alguma medida de desempe-nho) for atingido retorne ao passo 1.

A rede Growing Neural Map (MATTONE, 2002), criada a partir da GNG, trata a questãodo acumulo de nodos em regiões de alta densidade em problemas de agrupamento. Um modelohíbrido desenvolvido a partir da rede GNG e a da rede SOM para gerar uma abordagem maisplausível biologicamente é apresentado por GRAHAM; STARZYK (2008). Um outro modelo,Growing Self-Reconstruction Meshes (GSRM), baseado em mapas de topologia dinâmica como

Page 127: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.2. ESTRUTURA VARIANTE NO TEMPO 126

o GNG é apresentado por REGO; ARAÚJO; LIMA NETO (2007). Este modelo aprende ascoordenadas 3D de vértices pertencentes a uma malha e a topologia da superfície presente nosdados de entrada. A rede GSRM é aplicada por REGO; ARAUJO; LIMA NETO (2010) aoproblema de reconstrução de superfície. Uma característica importante de GSRM é a criaçãode uma triangulação satisfazendo o critério de triangulação de Delaunay (REGO; ARAÚJO,2010). Uma rede SOM de crescimento incremental baseada na GNG é a Density Based Growing

Neural Gas (DB-GNG) (OCSA; BEDREGAL; CUADROS-VARGAS, 2007). Ela cria novasunidades levando em consideração a densidade dos dados produzindo uma melhor representaçãodo espaço de dados e com um custo computacional menor.

DALLEMOLE; ARAÚJO (2008) reconstroem superfícies 3D a partir de pontos amostra-dos da superfície do objeto com a rede Growing self-organizing surface map (GSOSM). Estarede reconstrói uma superfície como uma malha incremental composta de triângulos aproximada-mente equiláteros. Em (DALLE MOLE; ARAÚJO, 2010), a rede GSOSM aprende a reconstruiruma superfície dobrada imersa em um espaço 3D.

A rede Conformal Self-Organizing Map (CSM) (LIOU; KUO, 2005; LIOU; TAI, 1999)a partir de uma malha de nodos molda a superfície de entrada. Uma extensão desta rede éConformal Spherical Self-Organizing Map (CSSM) que molda um objeto 3D partindo de umamalha esférica. LIOU; KUO; HUANG (2008) apresentam um método de construção de redeSOM sobre uma superfície curva. O mapeamento da rede é criado sobre uma superfície detriângulos planares.

A estratégia de crescimento da Grows When Required (GWR), proposta por MARS-LAND; SHAPIRO; NEHMZOW (2002), acrescenta novos nodos sempre que o nodo vencedornão representa satisfatoriamente a entrada. Assim, a rede cresce muito rápido quando novosdados são apresentados, mas para de crescer quando os dados de entrada estão bem representadospela a rede.

A rede GWR tem dois componentes importantes, os nodos e as conexões. Tanto osnodos quanto as conexões podem ser criados e destruídos durante o processo de aprendizagem.Diferente de GNG, que adiciona um nodo a cada λ iterações, o GWR adiciona um nodo aqualquer momento. O posicionamento de um novo nodo depende da entrada e do nodo vencedor,ao invés de adicionar onde o erro acumulado é maior, como GNG faz. Um novo nodo éadicionado quando a atividade do nodo vencedor não é alta o suficiente. A atividade de um nodo(neurônio) é calculada através da função de distância Euclidiana entre seu vetor de pesos e ovetor de entrada. Cada nodo é equipado com uma variável para registrar a sua frequência devitórias (MARSLAND; SHAPIRO; NEHMZOW, 2002).

Uma maneira de registrar a frequência de vitórias é armazenar o valor 1 em uma variávele fazer o valor desta variável decrescer exponencialmente de 1 para 0 a medida que o nodo vávencendo. Deste modo, um novo nodo terá o valor 1 e os nodos que disparam frequentementeterão valores próximos a 0.

Ao apresentar uma entrada à rede GWR, a atividade de cada neurônio (nodo) no mapa

Page 128: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.2. ESTRUTURA VARIANTE NO TEMPO 127

é calculada e o vencedor é escolhido. Se este nodo vencedor representar bem a entrada entãoa atividade deste nodo será próxima a 1. Neste caso, o nível de adaptação aplicado ao nodovencedor bem como sua vizinhança é pequeno. Entretanto, se a atividade da rede é menor que olimiar de inserção e a quantidade de ativações for alta então um novo nodo deverá ser adicionado

Um limiar de ativação identifica quando o estímulo de entrada já foi aprendido pela rede,caso o estímulo de entrada provoque uma atividade na rede menor que o limiar estabelecido, entãoeste estímulo deve ser aprendido pela rede. Assim, baixa atividade significa pouca semelhançaentre a rede e a entrada. O valor do limiar de inserção aT exerce grande influência na quantidadede nodos inseridos na rede. Se o valor é configurado bem próximo a 1 então mais nodos serãoproduzidos e a entrada será bem representada. Para valores pequenos de aT poucos nodos sãoadicionados.

Para o algoritmo GWR descrito a seguir, considere A o conjunto de todos os nós domapa e C ∈ A×A o conjunto de conexões entre nós contidos no mapa. A distribuição dos dadosde entrada representada por P(ξξξ ), e a entrada por ξξξ . O vetor de pesos do nodo ni como wi

(MARSLAND; SHAPIRO; NEHMZOW, 2002).Inicialização, coloque dois nós no conjunto A

A = {n1,n2},� �A.12

com n1 e n2 inicializados randomicamente. O conjunto de conexões C é inicializado vazio

C = /0.� �A.13

O algoritmo é apresentado a seguir:

1) Apresente para a rede uma amostra ξξξ dos dados de entrada;

2) Para cada nó i da rede, calcule a distância para amostra de entrada ‖ξξξ −wi‖.

3) Selecione o nó mais semelhante e o segundo mais semelhante ao padrão de entrada, isto é,os nós s1,s2 ∈ A tal que

s1 = argminn∈A‖ξξξ −wn‖

� �A.14

es2 = arg min

n∈A/{s1}‖ξξξ −wn‖

� �A.15

onde wn é o vetor de pesos do nó n.

4) Caso não exista uma conexão entre s1 e s2, crie

C =C∪{(s1,s2)},� �A.16

caso exista, atribua o valor 0 para a idade da conexão.

Page 129: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.2. ESTRUTURA VARIANTE NO TEMPO 128

5) Calcule a atividade da unidade mais semelhante

a = exp(−‖ξξξ −ws1‖).� �A.17

6) Se a atividade a for menor que o limiar de atividade aT e a quantidade de ativações donodo for alta (o valor presente na variável que registra os disparos é menor que o limiarhT ), então um novo nodo deve ser adicionado entre os dois nodos mais semelhantes (s1 es2) ao padrão de entrada

� Adicione um novo nodo, r

A = ∪{r}.� �A.18

� Crie o novo vetor de pesos, atribuindo aos pesos a média entre pesos do nodovencedor e o vetor de entrada

wr = (ws1 +ξξξ )/2.� �A.19

� Insira conexões entre r e s1, e entre r e s2

C =C∪{(r,s1),(r,s2)}.� �A.20

� Remova a conexão entre s1 e s2

C =C−{(s1,s2)}.� �A.21

7) Se um novo nodo não for adicionado, ajuste a posição do nodo vencedor e dos nodosconectados a ele,

∆ws1 = εb×hs1× (ξξξ −ws1)� �A.22

∆wi = εn×hi× (ξξξ −wi), ∀i ∈ Ns1

� �A.23

onde 0 < εn < εb < 1 e hs1 é o valor do registrador de disparos do nó s1.

8) Incremente a idade das conexões que chegam ao nodo s1

age(s1,i) = age(s1,i)+1� �A.24

9) Reduza o registrador de vitórias do nodo s1 de acordo com

hs1(t) = h0−S(t)αb

(1− e(−αbt/τb))� �A.25

Page 130: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.2. ESTRUTURA VARIANTE NO TEMPO 129

e de seus vizinhos, identificados por i

hi(t) = h0−S(t)αn

(1− e(−αnt/τn))� �A.26

onde hi(t) é o valor do registrador de disparos do nodo i, h0 é o valor inicial para oregistrador de vitórias, e S(t) é a força do estímulo, normalmente 1. As constantes αn,αb, τn, e τb controlam o comportamento da curva. O registrador de disparos do vencedorreduz mais rapidamente que o registrador de disparos dos seus vizinhos. A equação A.25é a solução da seguinte equação diferencial

τbdhs1(t)

dt= αb[h0−hs1(t)]−S(t),

� �A.27

que é o modelo de redução da eficácia da sinapse com o passar do tempo.

10) Verifique se existe qualquer nodo ou conexão a ser deletada, isto é, se existe qualquer nodoque não possui mais nenhum vizinho, ou conexão que é mais velha que o maior valorpermitido, então delete.

11) Retorne ao passo 1 se nenhum critério de parada for alcançado.

Growing Self-Organizing Map GSOM (OHTA; SAITO, 2001) é uma rede de topologiavariável que mede e controla o espalhamento da rede através de um fator de espalhamento.O seu algoritmo de treinamento elimina nodos indesejados de acordo com um contador desinal presente em cada célula. Uma aplicação de categorização de palavras usando GSOM éapresentado por ZHAI; HSU; HALGAMUGE (2006). A rede LSA-HGSOM (WANG; MA,2011), baseado em GSOM hierárquica e em análise semântica latente foi projetada para a criaçãode agrupamentos hierárquicos de texto.

O crescimento da rede GSOM pode ter um baixo desempenho com dados de alta dimen-são como sequência de DNA. A rede High Dimensional GSOM (HDGSOM) (AMARASIRI;ALAHAKOON; SMITH, 2004), uma versão modificada da GSOM, foi proposta para tratar estetipo problema. Outra variáção da GSOM é a High Dimensional Growing Self-organizing Map

using randomness (HDGSOMr) (AMARASIRI et al., 2005) projetada para mineração de dadosno formato de texto web. Esta rede introduz aleatoriedade ao processo de auto-organização paraproduzir agrupamentos de maior qualidade com poucas épocas e utilizando vizinhanças menores,reduzindo assim, o tempo de processamento global.

A rede Double Self-Organizing Map (DSOM) (SU; CHANG, 2001) ajusta adaptativa-mente a sua estrutura durante a fase de aprendizagem fazendo os nodos que possuem vetorde pesos similares responderem a estímulos similares. A sua estrutura final permite visualizardados de alta-dimensão como um gráfico de dispersão em duas dimensões. DSOM é aplicadaprincipalmente a duas tarefas: quantização vetorial dos dados de entrada através da atualizaçãodos pesos sinápticos e projeção linear de seus protótipos em direção ao espaço contínuo de saída.

Page 131: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.2. ESTRUTURA VARIANTE NO TEMPO 130

A rede Adaptative Double Self-Organizing (ADSOM) (RESSOM; WANG; NATARA-JAN, 2003), uma extensão da DSOM, possui um a topologia flexível capaz de encontrar comprecisão o número de agrupamentos presente nos dados de entrada. Os parâmetros livres deADSOM são ajustados automaticamente durante o treinamento. Estes parâmetros incluemtaxa de aprendizagem, função de vizinhança e taxas de decaimento exponencial da função devizinhança.

SHIMADA et al. (2008) mostram um mapa para aprendizagem incremental, Variable

Density SOM (VDSOM), cujo crescimento do número de nodos ocorre autonomamente. Estemapa resolve problemas relacionados ao número de amostras de treinamento, amostras malrepresentadas pelos nodos da rede e a quantidade insuficiente de nodos.

A rede Plastic Self Organizing Map (PSOM) (LANG; WARWICK, 2002) usa umaestrutura em grafo onde cada nodo representa uma amostra de entrada e o valor contido numaconexão entre dois nodos representa o grau de similaridade entre eles. A rede pode adicionar eremover nodos para aprender um conjunto de padrões não estacionários e dinâmicos. PSOM édiferente das outras redes porque possui apenas uma fase de operação de aprendizagem contínua,não passando por ciclos de treinamento e teste.

A rede modular, Self-Evolving Modular Network (SEMN), possui uma arquitetura mo-dular estruturada em grafos e possui duas vantagens: (1) novos módulos são adicionados demaneira incremental, permitindo a rede adaptar-se de modo auto-organizável, e (2) os caminhosem grafos são formados baseados na relação entre os modelos representados pelos módulos(TOKUNAGA; KAWABATA; FURUKAWA, 2012).

A rede Visualization-induced SOM (ViSOM) (YIN, 2002) utiliza uma estrutura em gradesemelhante a rede SOM. Embora, a rede ViSOM obtenha uma equivalência entre distância denodos e distância de dados de entrada maior que a rede SOM. Deste modo, tornando a redeViSOM mais apropriada para visualização de dados do que a rede SOM. A distâncias entre osnodos da rede ViSOM é adaptada de acordo com um parâmetro de controle da resolução do mapa.ViSOM é capaz de aprender novos dados mesmo depois de treinada com uma complexidadecomputacional baixa. Uma variante da rede ViSOM com estrutura variável no tempo é a redegrowing ViSOM (gViSOM) (YIN, 2008). A rede Probabilistic Regularized SOM (PRSOM) (WU;CHOW, 2005) projetada para a visualização de dados, proporciona um efeito visual melhorque a rede ViSOM. PRSOM combina SOM e MDS (Multidimensional Scaling) de modo queo custo computacional é reduzido com o uso de SOM e a equivalência entre a distância dosdados de entrada e a distância dos nodos da rede é preservada. O modelo Weighted Voting

Superposition Visualization-induced SOM (WeVoS-ViSOM) (CORCHADO; BARUQUE, 2012)é uma evolução da ViSOM cujo objetivo principal é encontrar a melhor posição para umaunidade e seus vizinhos. HUANG; YI (2008) propõem um modelo adaptável, generalized

topology preserving self-organizing map (gTPSOM), para detecção da forma de um objeto emuma imagem. Inspirado na rede ViSOM e em contorno ativo, este modelo recebe como entradaum mapa de bordas da imagem. A rede gTPSOM é composta por uma cadeia generalizada de

Page 132: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.3. SEQUÊNCIAS ESPAÇO-TEMPORAIS 131

SOM combinada com um campo de força adaptativo.Kwong-Sak-Leung, Hui-Dong-Jin (2004) apresentam a rede expanding self-organizing

map (ESOM) com uma estrutura variante para tratar o problema do caixeiro viajante. Quandouma rede SOM é aplicada ao TSP, normalmente esta rede é composta por um anel de neurônios desaída e vários neurônios de entrada. Os neurônios de entrada recebem os valores das coordenadasde uma cidade. A quantidade de neurônios de entrada para um plano 2D é 2. Os neurôniosde entrada são completamente conectados a cada neurônio de saída. Estes neurônios de saídaestão compreendidos em dois espaços topológicos. No primeiro, os neurônios de saída sãoorganizados para refletir a ordem linear de passagem por cada cidade. No segundo, o espaçop-dimensional (p=2) onde as coordenadas de cada neurônio de saída é indicada por um vetorde pesos sinápticos. Assim, a ideia básica de uma SOM aplicada ao TSP é construir um mapade preservação de topologia a partir de um espaço de pesos sinápticos de alta dimensionalidadepara um espaço em anel de uma dimensão e então realizar o percurso neste anel.

ZHU; YANG (2003) também apresentam uma SOM aprimorada e aplicada à solução doproblema do caixeiro viajante. Nesta rede o número de nodos na camada de saída é fixo e sãoestruturados em forma de anel. A função de vizinhança e a regra de atualização dos pesos sãomodificadas em relação a rede SOM.

RABNET-TSP (Real-Valued Antibody Network to solve the TSP) é um algoritmo quecombina características do SOM e de sistemas imuno-artificiais para resolver o TSP. O objetivodo RABNET-TSP é posicionar um neurônio em cada cidade do TSP. A distância entre cadaneurônio é baseada em uma vizinhança circular (MASUTTI; CASTRO, 2009).

A.3 Sequências Espaço-Temporais

CHAPPELL; TAYLOR (1993) propuseram um modelo simples baseado em SOM,chamado de TKM (Temporal Kohonen Map) e que leva em consideração o contexto temporaldo padrão de entrada. Este modelo é inspirado biologicamente no comportamento de neurôniosque mantêm a superfície de suas membranas em atividade por um período de tempo. Levandoem conta este comportamento biológico, TKM inclui integradores leaky para representar odecaimento da atividade elétrica na superfície da membrana que é definida especificamente poruma constante de tempo. Esta constante deve ser grande o bastante para que padrões passadosexerçam influência no processamento de uma sequência de padrões.

Para ajudar a manter uma relação mais próxima entre os neurônios biológicos e osmodelos matemáticos, cada neurônio TKM é descrito em termos de seu potencial elétrico:

Vi(t) =−(1/2)∑(Iα(t)−wiα(t))2� �A.28

onde Iα(t) são os componentes da entrada recebidos no tempo t por cada neurônio na rede ewiα(t) são os pesos de cada neurônio i.

Page 133: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.3. SEQUÊNCIAS ESPAÇO-TEMPORAIS 132

O potencial elétrico, como visto acima, depende dos pesos da rede e da entrada atual.Esta dependência causa instabilidade na classificação de sequências de entrada. Os neurôniosreais retêm um potencial elétrico sobre suas membranas, mas com decaimento. Isto indicaque a equação A.28 seja substituída por uma equação diferencial que possibilite a retenção e odecaimento do potencial elétrico. Uma forma de levar em consideração a entrada amostrada emintervalos discretos é:

Vi(t) = dVi(t−1)− (1/2)∑(Iα(t)−wiα(t))2� �A.29

onde 0 < d < 1. A Equação A.29 tem uma solução geral

Vi(t) =−(1/2)n−1

∑r=0

dr∑α

[Iα(t− r)−wiα(t− r)]2 +dnVi(t−n)� �A.30

agora está explícita a relação com as entradas passadas. A regra de atualização dos pesos da redeSOM original é combinada com a Equação A.30 para que os pesos sejam atualizados levandoem conta as entradas passadas. A Equação A.30 é conhecida como potencial de integradoresleaky. Uma rede TKM modificada é proposta por VARSTA et al. (2001) com o objetivo de obteruma resposta com resolução melhor.

Uma outra abordagem para tratar sequências temporais é adicionar realimentação narede SOM. Estas redes com realimentação com atraso no tempo, em geral, representam o tempoimplicitamente combinando entrada atuais com atividades passadas. Esta abordagem é de difícilincorporação na rede SOM, pois a realimentação gera instabilidade durante o treinamento darede. Alguns exemplos de redes com esta abordagem são: A rede recorrente Contextual Self-

Organizing Map (VOEGTLIN, 2000), que gera representações de contexto quase ótimas; Arede proposta por VOEGTLIN; DOMINEY (2001) e VOEGTLIN (2002) com o objetivo derepresentar sequências de entradas; A rede Temporal Hebbian Self-organizing Map (THSOM)de KOUTNÍK; ŠNOREK (2008) que adiciona uma camada de conexões recorrentes entre osneurônios; e o modelo Feedback Self-Organizing Map (FSOM) (HORIO; YAMAKAWA, 2001)que introduz à rede SOM laços de realimentação da camada competitiva para camada de entrada.Na FSOM, o nodo vencedor na camada competitiva não é associado apenas apenas ao vetor deentrada atual, mas também a nodos vencedores anteriores.

CHAPPELIER; GRUMBACH (1996) apresentam uma abordagem para o processamentode sequências temporais onde os dados são transformados para um espaço de funções antes deserem aplicados na entrada da rede. EULIANO; PRINCIPE (1996) adicionam um acoplamentoespaço-temporal a rede SOM para a criação de vizinhos temporalmente e espacialmente loca-lizados sobre o mesmo mapa. Em (EULIANO; PRINCIPE, 1999), eles discutem o uso de umconceito biologicamente inspirado de difusão de atividade para gerar memória espaço-temporalna SOM e na Neural Gas. Este conceito, difusão de atividade, cria um sistema que é sensível apadrões temporais viabilizando a previsão de entradas futuras.

Page 134: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.3. SEQUÊNCIAS ESPAÇO-TEMPORAIS 133

A rede Predictive Self-Organizing Map (P-SOM) (HIROSE; NAGASHIMA, 2003) écapaz de realizar quantização vetorial de sinais com sequências temporais migratórias. Nestemodelo, todos os pesos são auto-organizados para prever apropriadamente o vetor de referênciafuturo. Esta predição, utiliza pesos derivados no tempo e possibilita a remoção de ruídos.

A rede Merge SOM (MSOM) (STRICKERT; HAMMER, 2005), baseada em um modelode contexto, pode ter uma estrutura em grade de tamanho variável. O contexto temporal deMSOM combina o padrão temporal atual com a sequência passada de maneira intuitiva de modoa misturar as propriedades dos neurônios.

A rede Matricial Self-Organizing Map (M-SOM) (ZEHRAOUI; BENNANI, 2004)modela a entrada levando em conta a informação e a correlação dos padrões contidos numasequência. Nesta rede os dados de entrada são representados por uma matriz de covariância pararepresentar a correlação entre os componentes de uma sequência.

A taxa de aprendizagem decaindo no tempo e a função de vizinhança na rede SOM redu-zem sua capacidade de adaptar os pesos em ambientes dinâmicos. A rede Time Adaptative SOM

(TASOM) (SHAH-HOSSEINI; SAFABAKHSH, 2000, 2003) foi desenvolvida para tratar estaslimitações. TASOM automaticamente ajusta a taxa de aprendizagem e o tamanho da vizinhançapara cada neurônio individualmente. Uma derivação da rede TASOM é a rede Growing TASOM(GTASOM) SHAH-HOSSEINI; SAFABAKHSH (2002) projetada para encontrar múltiplos limi-ares automaticamente em aplicações de segmentação de imagens. A rede Binary Tree TASOM

(BTASOM) SHAH-HOSSEINI (2011) possui uma estrutura em árvore binária onde cada nodo éuma rede TASOM.

BARRETO; ARAUJO (2001) apresentam o conceito de manifold com dinâmica incor-porada (DEM) para possibilitar a aprendizagem de um mapeamento não linear entre entrada esaída. A combinação do conceito DEM com SOM resulta em uma nova técnica de modelagemchamada de memória associativa temporal com quantização-vetorial (VQTAM) utilizada naproposição da rede não supervisionada Self-Organizing NARX (SONARX). O modelo Temporal

Parametrized Self Organizing Map (TEPSOM) (PADOAN JUNIOR; BARRETO; ARAUJO,2003) combina a rede SONARX com a rede Parametrized Self-Organizing Map para aprendera reproduzir trajetórias robóticas. SAKURAI; HATTORI; ITO (2002), baseados em uma redeSOM, propõem uma memória associativa capaz de armazenar e recuperar sequências temporais.

A rede Time-Organized Map (TOM) (WIEMER, 2003) é apresentada como um modelopara estudar e aprimorar o conhecimento sobre a auto-organização e as estruturas associadas aossinais do córtex. A principal contribuição do TOM é a transferência funcionalmente razoável dedistância temporal de sinais em distância espacial para gerar representações neurais topográficas.Um extensão desta é a rede Spatio-Temporel Organization Map (STOM) de SALEM; MOURIA-BEJI; KAMOUN (2005).

A rede Self-Organizing Mixture Autoregressive (SOMAR) (NI; YIN, 2009; YIN; NI,2009) tem como base uma mistura de modelos autorregressivos e adaptativos. SOMAR pode serusada para descrever e modelar séries temporais não-lineares e não-estacionárias por meio de

Page 135: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.4. REGRA DE APRENDIZAGEM 134

modelos regressivos locais. Uma medida baseada em coeficiente de autocorrelação é apresentadacomo medida de similaridade para associar amostras de entrada aos modelos locais.

A.4 Regra de Aprendizagem

Diferentes são as motivações que levam à criação de novas regras de aprendizagem pararedes SOM. Desde a flexibilização da aprendizagem, aceleração do processo de aprendizagem,simplificação do ajuste dos parâmetros até a fusão com outras técnicas de aprendizagem. Estaseção apresenta alguns mapas com diferentes regras de aprendizagem.

A rede Self Organizing with Adaptative Neigborhood (SOAN) (IGLESIAS; BARRO,1999) apresenta uma função de vizinhança adaptativa. Esta função possui uma maior flexibilidadede aprendizagem na adaptação do raio de interação entre neurônios. O processo de vizinhançaadaptativa vai reduzindo o erro de quantificação no decorrer do processo de aprendizagem. Cadaneurônio em SOAN armazena um número real que representa seu raio de vizinhança. O valor doraio irá determinar o conjunto de neurônios vizinhos em relação a um padrão de entrada X . Umcritério para obtenção do conjunto de neurônios vizinhos deve ser estabelecido para determinar otamanho da vizinhança, os vizinhos de primeira ordem e de ordens sucessivas. O cálculo dosneurônios vizinhos é realizado baseado em regiões de Voronoi. Um neurônio ni é considerado deprimeira ordem em relação a X quando o vetor de força

−→FX ,i, estabelecida entre X e o neurônio ni,

não atravessa nenhuma região de Voronoi associada a um outro neurônio n j 6= ni. Este critériopode ser generalizado para uma vizinhança de ordem k, assim a força

−→FX ,i cruzará as regiões de

Voronoi associadas aos neurônios n j, cuja ordem de vizinhança em relação a X seja menor que k.Durante o treinamento de SOAN todos os padrões são apresentados para a rede de modo

cíclico. O seguinte processo é executado para cada um destes padrões:

1) Dado um padrão de entrada X , determine o neurônio vencedor nc;

2) Atualize o vetor de referência mi usando a seguinte regra de aprendizagem:

mi(t +1) = mi(t)+θ(Ni,x,Rc)(εα(t)(1+ cos(ϕ(t))

2+(1− ε)α(t))(X−mi(t))

� �A.31

onde Ni,X representa a ordem da vizinhança do neurônio ni em relação ao padrão de entradaX , α(t) é o coeficiente de aprendizagem e θ(Ni,x,Rc) é dado por:

θ(Ni,x,Rc) =

1 Si Ni,X ≤ Ent(Rc)

Rc−Ent(Rc) Si Ni,X = Ent(Rc)+1

0 Si Ni,X > Ent(Rc)+1

� �A.32

Page 136: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.4. REGRA DE APRENDIZAGEM 135

3) Atualize o parâmetro de erro do neurônio vencedor:

Wc(t +1) =Wc(t)+d(X ,mc),� �A.33

DATTA; PAL; PARUI (1997) propõem uma regra de atualização dos pesos e dos vizinhospara acelerar a convergência do processo de aprendizagem na SOM. Com o mesmo intuito,HAGIWARA (1996) adiciona um termo de momento (momentum). Para acelerar o processo deauto-organização AOKI; AOYAGI (2007) apresentam uma função de vizinhança assimétricapara rede SOM.

Um mecanismo de ajuste automático de parâmetros é apresentado por HAESE (1998).BERGLUND; SITTE (2006) propõem a rede Parameterless Self-Organizing Map (PLSOM) queelimina a necessidade de uma taxa de aprendizagem e esquemas de decaimentos para o tamanhoda vizinhança.

HU et al. (2002) modificam a regra de atualização dos pesos incorporando um coeficientede relação gray criando a rede Grey Self-Organizing Feature Maps (GSOFM). Este coeficienterepresenta o nível de relação entre os dados de entrada e os nodos da rede. LEE; VERLEYSEN(2002) apresentam modificações sobre a regra de aprendizagem baseadas em consideraçõesgeométricas.

OHTSUKA et al. (2005), com a rede Block-Matching-based Self-Organizing Map (BM-SOM), a busca pelo vencedor e realizada em blocos. A regra de aprendizagem atualiza os vetoresde referência de todos os neurônios que pertencem ao bloco vencedor. Assim, as modificaçõessão controladas, pois acontecem dentro de uma área de tamanho predeterminado.

No algoritmo de aprendizagem Rival-model Penalized SOM (CHEUNG; LAW, 2007) aregra de aprendizagem escolhe adaptativamente neurônios rivais levando em conta a unidadevencedora. Os pesos destes nodos rivais são atualizados de modo a afastá-los suavemente dopadrão de entrada.

O modelo Fusion-SOM de SAAVEDRA et al. (2007) realiza a fusão em um aglomeradode redes SOM. O processo de fusão é realizado pela junção de nodos com características similarese as conexões resultantes ligam apenas nodos com um certo grau de similaridade. A arquiteturaresultante melhora a representação topológica da entrada e pode obter uma estrutura em gradediferente da SOM original.

NEME et al. (2009) apresenta o modelo Non-cooperative Strategies (SOM-NC) com oobjetivo de estudar a relevância da etapa de cooperação da rede SOM. Neste modelo os nodosnão são obrigados a cooperar entre eles, mas sim seguir uma estratégia de cooperação. Estaestratégia é baseada na teoria dos jogos e estabelece uma heurística de quando os pesos dasunidades vizinhas serão atualizados.

A rede self-organizing potential field network (SOFN) (XU; SHING, 2010) é baseada naideia de campos potencias vetoriais. Nesta rede, o neurônio com o melhor peso é consideradocomo o alvo da força atrativa, enquanto o neurônio com pior peso é considerado como obstáculo

Page 137: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.5. DETECÇÃO DE CONTORNO 136

com força repulsiva.NISSINEN; HYöTYNIEMI (1998) apresentam o Evolutionary Self-Organizing Map,

uma estrutura espacial em grade composta por vários indivíduos cujo treinamento é realizado porum algoritmo evolucionário. A competição e evolução destes indivíduos é guiada à localidade.KOHONEN (1999) também desenvolve um trabalho com o objetivo de implementar uma redeSOM usando operações de aprendizagem evolucionárias e seus resultados indicam que esteprocesso pode convergir mais rapidamente.

HAESE (1999) descreve um processo de aprendizagem com um algoritmo de treinamentocontendo um filtro de Kalman linear. Durante o treinamento, as equações de filtro de Kalmansão utilizadas para calcular coeficientes de aprendizagem, enquanto a largura da função devizinhança é estimada por um outro filtro de Kalman estendido.

A.5 Detecção de Contorno

O problema de detecção de contorno é semelhante ao problema de gerar trajetórias deestados. Nestes dois problemas o objetivo é encontrar um conjunto de nodos cuja a topologiapossa representar em essência a distribuição dos dados. O modelo Force Field Driven SOM(FFDSOM) proposto por HE; XU; MIRANKER (2010) é um exemplo de rede neural para trataro problema de detectar um objeto e sua topologia ao final do treinamento deve ser equivalente aorganização dos pontos do objeto em um plano. A entrada deste modelo deve ser uma mapa debordas extraído de uma imagem. Este mapa deve ter maior intensidade nas bordas do objeto.Para o caso de uma imagem preto e branca, a saída da rede será um contorno, extraído dasbordas, conectado pelos nodos rearranjados. A rede SOM tradicional atualiza sequencialmenteos nodos da rede conduzindo alguns neurônios em direção às bordas mais rápidos que outroscausando uma distorção na representação da forma da borda. Para contornar este dificuldade arede FFDSOM atualiza em lote os pesos de todos os nodos simultaneamente. Os neurônio sãotratados como cargas de valores positivos e os dados de entrada como cargas negativas. A forçade atualização do nodo k é dada como a seguir:

Fu =−N

∑i=1

f (ri)wk− ri

|wk− ri|1+α ′

� �A.34

O valor de α vai determinar o quão rápido a força de atualização vai diminuir quando a distânciaentre o neurônio k e o ponto ri no espaço de característica aumenta. A equação de atualização dovetor de pesos w do neurônio k é dado por:

wk(n+1) = wk(n)+η(Fu)� �A.35

Esta força de atualização pode não criar contornos em pequenas concavidades, principalmentequando a entrada da concavidade é menor que a distância entre neurônios. Isto acontece por

Page 138: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 137

que os nodos aderem as bordas mais próximas. Uma solução é mudar a quantidade de nodos deacordo com a distribuição. Isto acontece avaliando a distância entre neurônios, caso esteja baixode um limiar um nodo é deletado e caso esteja acima de um limar um nodo é adicionado.

VENKATESH; KUMAR RAJA; RAMYA (2006) propõem uma abordagem para tratar oproblema de modelagem de contornos ativos (ACM), chamada de Batch-SOM (BSOM). Estemodelo incorpora as vantagens de modelos clássicos para ACM e modelos SOM para ACM. Ovetor de características é formado por pontos da borda do objeto na imagem detectados utilizandoum algoritmo de detecção de borda. Além disso, BSOM utiliza a variação da intensidade e ogradiente da informação numa região local para guiar o movimento do contorno.

A.6 Capacidade de Interpolação

As redes derivadas de SOM geralmente são destinadas a realizar agrupamento de dados,mas existem modelos baseados em SOM empregados em tarefas de aproximação de função ouregressão (GOPPERT; ROSENSTIEL, 1997). Em muitas aplicações, os vetores de entrada eos vetores de saída podem assumir valores contínuos, logo as chances destes vetores estaremlocalizados entre os nodos é muito maior do que estarem localizados exatamente sobre os nodos.Para manter uma coerência no mapeamento entre entrada e saída, o posicionamento destesvetores deve ser similar tanto no espaço de entrada quanto no espaço de saída. Para este fim, aposição geométrica de um vetor de entrada deve ser mapeada para o espaço de saída. A ideia deinterpolação topológica é usar o neurônio vencedor e seus vizinhos topológicos para calcularvalores de saída intermediários. O processo de treinamento da rede SOM original discretiza osvalores de saída da rede (LUDWIG et al., 1995).

A.6.1 Mapas com Interpolação

A introdução de técnicas de interpolação entre os neurônios de uma rede SOM permiteobter resultados satisfatórios mesmo com um número reduzido de neurônios e com um conjuntode dados de treinamento menor (WALTER; RITTER, 1996). Para redes SOM com interpo-lação adaptadas para regressão ou aproximação de função, duas técnicas de treinamento sãoencontradas na literatura. A primeira técnica é um treinamento não-supervisionado do MapaAuto-organizável para aproximar os vetores dos protótipos em direção aos vetores de entradacom o objetivo de encontrar a configuração de neurônios que minimiza a distância entre o vetorde entrada e seu correspondente neurônio vencedor, semelhante ao treinamento da rede SOMoriginal (LUDWIG et al., 1995). Depois, os pesos outstar(GÖPPERT; ROSENSTIEL, 1993)são adaptados supervisionadamente com o objetivo de produzir a saída desejada como na redeCounterpropagation (HECHT-NIELSEN, 1987).

A segunda técnica combina o vetor de entrada n-dimensional com o vetor de saídam-dimensional de saída para treinar a rede SOM com o vetor n+m-dimensional resultante. Este

Page 139: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 138

tipo de treinamento realiza implicitamente uma associação de vetores de entrada com vetoresde saída, converge rápido e fornece suporte ao mapa para auto-organização de acordo com orelacionamento entrada-saída (LUDWIG et al., 1995).

LUDWIG et al. (1995) combina, em uma rede I-SOM, as duas técnicas descritas acimapara treinar uma rede SOM com capacidade de interpolação. O treinamento da rede SOM érealizado no espaço de treinamento n+m-dimensional e depois os pesos de saída são utilizadospara um ajuste inicial dos pesos outstar antes do treinamento final. O treinamento dos pesosoutstar é baseado na rede Counterpropagation. Este treinamento outstar é supervisionado eguiado pelo vetor de saída desejado (Yd) de acordo com a Equação A.36:

W(out)w (t +1) = W(out)

w (t)+ γ(Yd(t)−W(out)w (t))

� �A.36

A ideia da rede I-SOM é realizar uma interpolação k-dimensional encontrando múltiplosneurônios vencedores (k+1, o vencedor e seus vizinhos). Os k+1 vencedores são escolhidospara construir um sistema de coordenadas local, onde vencedor é o centro deste sistema decoordenadas e os vizinhos formam os eixos. O valor de k será igual a dimensão da grade da redeSOM, para uma rede SOM padrão com grade de dimensão 2, o valor de k será igual a 2. Duasdiferentes estratégias podem ser aplicadas para encontrar o conjunto de vencedores:

1) Selecionar os vizinhos mais próximos no espaço de entrada: os neurônios que possuem amenor distância para o vetor de entrada.

2) Selecionar os vizinhos topológicos do neurônio vencedor: os neurônios que estão posicio-nados nas adjacências do neurônio vencedor.

A escolha pelo vizinho topológico é mais vantajosa, porque a estrutura da interpolaçãopode ser pré-definida. Por outro lado, defeitos topológicos levam a erros elevados na interpolação.GÖPPERT; ROSENSTIEL (1995) propuseram três métodos para encontrar os parâmetros deinterpolação na rede Interpolated Self-Organizing Map (I-SOM): por projeção, inversão dematriz e por iterações.

Os parâmetros de interpolação por projeção são obtidos iterativamente utilizando umconjunto de vencedores. O vetor de pesos de entrada de cada vencedor é representado por W(in)

wi .O processo iterativo começa no vencedor de índice i = 1 até o vencedor de índice i = k. Cadaiteração calcula a projeção ortogonal de um vetor de erro sobre um vetor de distância. O erro écalculado entre o vetor de entrada X e a aproximação atual do vetor de entrada Xi−1. O vetor dedistância é calculado com o vetor de pesos de entrada de um vencedor W(in)

wi e a aproximaçãoatual do vetor de entrada Xi−1. A aproximação inicial do vetor de entrada X0 é inicializadacom os pesos W(in)

w0 do vencedor de índice 0 (o nodo de maior semelhança com a entrada). Aaproximação inicial da saída Y0 é inicializada com os pesos W(out)

w0 de saída do vencedor deíndice 0. O resultado da projeção α∗i para cada neurônio i é calculado de acordo com a Equação

Page 140: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 139

A.37:

α∗i =

(X− Xi−1)T (W(in)

wi − Xi−1)

(W(in)wi − Xi−1)T (W(in)

wi − Xi−1)

� �A.37

A próxima aproximação do vetor de entrada Xi e do vetor de saída Yi são calculadasrespectivamente pelas Equações A.38 e A.39:

Xi = Xi−1 +α∗i (W

(in)wi − Xi−1)

� �A.38

Yi = Yi−1 +α∗i (W

(out)wi − Yi−1)

� �A.39

A aplicação destes parâmetros de interpolação no espaço de entrada levam a uma apro-ximação do vetor de entrada em um espaço de entrada na iteração k (X = Xk) e também a umvetor de saída interpolado no espaço de saída (Y(out) = Yk).

Os vetores de distância, de modo geral, não são ortogonais e, portanto, o método deprojeção pode não encontrar a interpolação ótima dos k+1 vencedores. Neste caso, os parâmetrosde interpolação ótima no espaço de entrada são encontrados através de inversão de matriz. Poresse motivo, um sistema local de coordenada L(in) é definido através de vetores de distância I(in)i

entre o primeiro vencedor (w0) e os vencedores seguintes (wi).

I(in)i = W(in)wi −W(in)

w0 i = 1...k� �A.40

Xl(in) = X−W(in)w0

� �A.41

L(in) = [I(in)1 I(in)2 ...I(in)k ]� �A.42

O sistema local no espaço de saída (L(out)) é calculado como a seguir:

I(out)i = W(out)

wi −W(out)w0 i = 1...k

� �A.43

Xl(out) = X−W(out)w0

� �A.44

L(out) = [I(out)1 I(out)

2 ...I(out)k ]

� �A.45

Os vetores que formam a base de coordenadas do sistema são linearmente independente,mas não são ortogonais. Assim, as coordenadas afim são obtidas por uma matriz T pseudo-inversa:

T = (L(in)T L(in))−1L(in)T� �A.46

αi =n

∑j=1

Ti jxlj; α0 = 1−

k

∑i=1

αi i = 1...k� �A.47

Xl(in) =k

∑i=1

αiI(in)wi

� �A.48

Page 141: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 140

X(in) = W(in)w0 + Xl(in) =

k

∑i=0

αiW(in)wi

� �A.49

Y(out) = W(out)w0 + Yl(out) =

k

∑i=0

αiW(out)wi

� �A.50

O método de projeção foi a primeira abordagem, mas ele não leva a um resultado ótimo.A matriz de inversão alcança melhores resultados, mas é altamente sensível a ruídos. A terceiraabordagem, descrita a seguir, utiliza um método iterativo para calcular os parâmetros. O processoiterativo é inicializado com a posição do vencedor (origem do sistema local; α0 = 1;αi = 0; i ∈{1, ...,k}). Como no método de projeção, o vetor de entrada local Xl é projetado sobre os eixosI(in)i do sistema local. A regra de atualização iterativa é definida pela minimização de uma funçãode erro através de gradiente descendente e normalização dos passos:

E =12

m

∑j=1

(x(in)j − x(in)j )2 =12|Xl(in)− Xl(in)|2

� �A.51

∆αi = γ(Xl(in)− Xl(in))T I(in)wi

I(in)Twi I(in)wi

i ∈ 1...k� �A.52

Onde m é o número de componentes do vetor de entrada. A aproximação local é calculada deacordo com a Equação A.48, a aproximação da entrada e da saída interpolada de acordo com asEquações A.49 e A.50 respectivamente. Este procedimento é inspirado na regra delta de Widrowe Hoff. Valores pequenos de (γ < 1), esta regra minimiza a função de erro e converge semprepara o ponto de erro mínimo.

O método iterativo é menos sensível a ruído que o método de matriz, especialmente seos vetores da base do sistema local são quase linearmente independente. Através do cálculoiterativo, estes efeitos podem ser reduzidos se o processo iterativo para depois que a posiçãoótima for alcançada ou se o valor α for limitado a uma faixa.

A rede continuous interpolating self-organizing map (CI-SOM) (GOPPERT; ROSENS-TIEL, 1997) é baseada na I-SOM. Cada neurônio está associado um vetor de pesos que relacionauma posição do espaço de entrada com uma posição do espaço de saída. A função de interpolaçãopassa exatamente através destas posições (pontos de suporte). I-SOM pode gerar descontinui-dade quando passa de um neurônio para outro. Esta descontinuidade pode ser evitada com umatransição mais contínua entre diferentes configurações (conjuntos de vencedores) através daponderação de esquemas de interpolação linear de acordo com estratégias predefinidas. O princí-pio básico desta ponderação é baseado em na Fórmula de Shepard (FS) projetada para suavizarinterpolação de dados dispersos. Partindo deste princípio, s pontos de suporte com entrada e saídaconhecidas são interpolados. Este método de interpolação é baseado no conjunto de distâncias

Page 142: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 141

Euclidiana entre o vetor de entrada e os neurônios da rede ({d j|d2j = ∑

ni=1(w

(in)i j − xi)

2}):

φFS({d j}) =1

i

∑d j∈{d j}1

j

� �A.53

φLR−FS({d j}) =

[(R−di)+

Rdi

∑d j∈{d j}

[(R−di)+

Rdi

� �A.54

Um valor típico para o expoente µ é 2. Como visto anteriormente, existem duas versõesdiferentes para a Fórmula de Shepard, Equações A.53 e A.54. A primeira, Equação A.53, é umafunção de interpolação global influenciada por todos os pontos de suporte. A segunda versão,Equação A.54, é influenciada por pontos de suporte próximos (φLR−FS();(R−di)+ = R−di sedi ≤ R e (R−di)+ = 0 caso contrário).

A rede CI-SOM (GOPPERT; ROSENSTIEL, 1997) precisa de um sistema de coordenadaslocal em cada neurônio i. Este sistema pode ser definido em cada dimensão (d ∈ 1...D) tantopara o vizinho da esquerda (i(d−)) ou para os vizinhos da direita (i(d+)), normalmente D = k.Uma mudança de vizinhos cria descontinuidade. Uma versão contínua de Shepard é baseada nadistância para estes dois vizinhos ({di(d±)}= {di(d+),di(d−)}) e a Equação A.43 (o mesmo paraL(out)):

I(in)i,d = φ1FS({di(d±)}

)(W(in)

i(d+)−W(in)

i

)−φ2FS

({di(d±)}

)(W(in)

i(d−)−W(in)i

) � �A.55

O segundo termo é subtraído porque considera-se que os dois vizinhos do neurônio i

estão em lados opostos. A saída (YiI−SOM) corresponde à aproximação da entrada no sistemalocal do neurônio i e, cujo cálculo é realizado de acordo com as Equações A.56 e A.57 a seguir:

α = (L(in)T L(in)+λ I)−1L(in)T (X−W(in)w0 )

� �A.56

YI−SOM = W(out)w0 +L(out)

α

� �A.57

Este princípio garante uma aproximação contínua para cado nodo SOM. O próximo passo é subs-tituir a estratégia vencedor-leva-tudo por uma superposição ponderada Shepard das aproximaçõeslocais de modo a suprimir as descontinuidades nas boradas dos polígonos de Voronoi:

YCF−SOM =s

∑i=1

φiFS({d j})YiI−SOM� �A.58

Uma versão mais local de CI-SOM (YCRI−SOM) é obtida através do uso da função de ponderaçãolocal φLR−FS(). Na maioria das aplicações uma versão local alcança uma aproximação melhorque a global. Um bom valor de R (Equação A.54) é em torno de duas vezes a distância médiados neurônios vizinhos.

Page 143: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 142

FLENTGE (2006) combina I-SOM e GNG para construir um aproximador de funçãoque mapeia dados de entradas com alta-dimensão para modelos locais de baixa dimensão. Estesmodelos locais são construídos interpolando os vetores dos neurônios e em seguida combinadosusando uma soma ponderada para produzir o resultado final de saída da rede.

A forma mais fácil de aproximar uma função f : Rd −→ R com uma SOM a partir deexemplos de treinamento (x,y) é associar cada neurônio ci com um valor vi ∈ R a uma aproxi-mação local. Esta aproximação local associa o mesmo valor vb para todas os vetores entradax com ‖x−wb‖ < ‖x−wi‖ para todo i 6= b. Esta rede pode ser facilmente treinada usando ogradiente-descendente comum. Esta aproximação pode ser aprimorada levando em consideraçãocertas condições na estrutura dos vizinhos do nodo vencedor. O caminho normalmente seguidopelas redes derivadas de SOM embutidas de interpolação é construir um sistema de coordenadaslocal com o vencedor wb no centro e usar algumas arestas conectadas aos vizinhos como eixosdas coordenadas. O vetor de entada x é expressado no novo sistema de coordenada cujo centroé wb e estas coordenadas são utilizadas para calcular a interpolação. FLENTGE (2006) segueesta linha para introduzir interpolação na rede GNG. Esta abordagem é ampliada e generalizadacomo descrito a seguir. O vetor de entrada atual x deve ser representado como uma combinaçãolinear do vetor posição wb do nodo vencedor cb e os vetores diferença normalizados lb,i geradosa partir do neurônios vizinhos cb,i

x = wb +Nb

∑i=1

ailb,i� �A.59

comlb,i =

(wb,i−wb)

‖wb,i−wb‖.

� �A.60

Dependendo do número de vizinhos Nb, a dimensão d e a posição destes vizinhos, esta equaçãopode não ter solução, ter solução única ou muitas soluções (os vetores diferença podem serlinearmente dependentes). Assim, este problema pode ser formulado como um sistema linear

Da = xrel� �A.61

comD = (lb,1...lb,Nb) a = (a1...aNb)

T e xrel = x−wb.� �A.62

Esse sistema pode ser resolvido com uso de mínimos quadrados regularizados (regularizaçãode Tikhonov). O método de mínimos quadrados regularizados determina a para minimizar aseguinte soma:

‖xrel−Da‖2 +µ‖a‖2.� �A.63

Esse é o erro mínimo quadrado comum com um termo de regularização que adiciona umapenalidade extra para valores grandes |ai| (ponderado por µ). Já que a solução depende dodimensionamento da entrada, é importante normalizar os vetores diferença para os vizinhos;caso contrário, um peso elevado pode resultar em vetores diferença grandes. A solução com

Page 144: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 143

mínimos quadrados regularizados resulta em:

a = (DT D+µI)−1DT xrel� �A.64

para 0 < µ � 1 e I a matriz identidade. Para sistemas com menos vetores diferença que aquantidade de dimensões (sistema sem solução real), a solução com mínimos quadrados é obtidaaproximadamente. Para sistemas com mais vetores diferença que a quantidade de dimensões(sistema com várias soluções geralmente), a solução de norma mínima é obtida aproximadamente.

Para evitar uma extrapolação excessiva, é assegurado que não existe vetores ailb,i maioresque os vetores diferença (vetores calculados a partir dos vizinhos do vencedor) na combinaçãolinear para aproximar o vetor de entrada x. Se esta condição não for atendida, é usado umaheurística simples para remover vetores diferença (colunas de D) e recalcular ai de acordo coma Equação A.64 até que a condição seja alcançada. Esta heurística remove o vetor diferençaque preserve, no sistema de coordenadas local, o máximo possível de vetores com diferentesdireções.

A saída do modelo local Mb(x) é calculada como uma interpolação linear entre o valordo neurônio vencedor vb e os valores de seus vizinhos vb,i cujo vetor diferença lb,i não tenha sidoremovido de D. Para simplificar a notação, considera-se que ab, j = 0 se o seu vetor diferençalb, j correspondente foi removido de D e ab, j = ai com ai o coeficiente associado a coluna i de D

se o seu vetor diferença lb, j correspondente não foi removido para j = 1, ...,Nb. A ideia geral éaproximar a função na posição de um neurônio usando o valor contido no neurônio e obter umaaproximação quase linear entre as posições dos neurônios

Mb(x) = vb +Nb

∑i=1

ab,i(vb,i− vb)

‖wb,i−wb‖.

� �A.65

A regra de aprendizagem IGNG leva em consideração um método de gradiente descen-dente baseado no erro quadrático médio (MSE). O calculo do gradiente descendente é realizadosobre a função de custo E(x) = (1/2)(y−Mb(x))2 para atualizar o valor vb do neurônio vencedore os valores vb,p dos seus vizinhos com taxa de aprendizagem αv de acordo com:

∆vb = αv

(1−

Nb

∑i=1

ab,i

‖wb,i−wb‖

)(y− Mb(x)

) � �A.66

∆vb,p = αvab,p

‖wb,p−wb‖(y− Mb(x)

).

� �A.67

Um aprimoramento da rede IGNG para gerar uma aproximação mais precisa é a redeIGNG ponderada localmente, LWIGNG. A interpolação Mb(x) é calculada para o vencedor comona IGNG e também calculada para o seus vizinhos Mb,p(x), k = 1, ...,Nb. O resultado de todasestas interpolações são combinados para gerar uma interpolação final. Estes Mb,p(x) são calcula-

Page 145: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 144

dos como na IGNG e cada vizinho torna-se um centro. Um parâmetro λi, j é adicionado em cadaaresta ei, j para determinar o alcance do modelo local na direção desta aresta. Adicionalmente,cada neurônio ci recebe um parâmetro λi,0. O λi, j é usado para calcular os pesos normalizadosque dependem da distância entre o vetor de entrada e a posição do centro de um determinadoneurônio. Isto assemelha-se a ponderação realizada em redes RBF. Ao contrário das redes RBF,não é necessário calcular a ativação de cada neurônio, mas apenas a ativação dos modelos locaisrelativos ao neurônio vencedor e seus vizinhos. A aresta entre o neurônio vencedor cb e seuvizinho cb,p é denotada por eb,(b,p) com seus respectivos parâmetros λb,(b,0) = λb,0 e λb,(b,p). Ospesos mb,p, p = 0, ...,Nb para os modelos locais são calculados de acordo com:

mb,p(x) =e−λb,(b,p)‖x−wb,p‖

∑Nbj=0 e−λb,(b, j)‖x−wb, j‖

, p = 0, ...,Nb.� �A.68

Os modelos locais são combinados com estes pesos para produzir a aproximação finalF(x):

F(x) =Nb

∑p=0

mb,p(x)Mb,p(x).� �A.69

O treinamento de LWIGNG pode ser realizado semelhante ao treinamento de IGNG como uso de gradiente descendente, mas levando em conta os pesos mb,p(x) e a aproximação finalF(x). O ajuste deve ser realizado em cada modelo local Mb,p, p = 0, ...,Nb:

∆vb,p = αvmb,p(x)

(1−

s

∑j=1

a(b,p), j‖w(b,p), j−wb,p‖

)×(y− F(x)

) � �A.70

∆v(b,p), j = αvmb,p(x)a(b,p), j

‖w(b,p), j−wb,p‖(y− F(x)

),

� �A.71

para todos os vizinhos c(b,p), j, j = 1, ...,Nb,p de cb,p.

A.6.2 Parameterised SOM(PSOM)

A capacidade de aprendizagem é uma vantagem que as redes neurais possuem em relaçãoa outras técnicas de inteligência artificial. No campo de visão computacional e robótica, porexemplo, muitas tarefas possuem modelagem custosa quando realizada a partir de princípiosfundamentais ou heurísticas. Portanto, neste domínio um algoritmo de aprendizagem eficientepode ajudar significativamente a superar a dificuldade de coleta de dados e facilitar a construçãode um sistema mais robusto e mais flexível. Além disso, nem sempre dados para realização deum treinamento eficaz estão acessíveis (WALTER; RITTER, 1996).

A rede Parametrized Self-Organizing Map (PSOM) foi proposta como um esquemapotencialmente útil para aprendizagem com um número pequeno de amostras de treinamento.A ideia básica de uma PSOM é construir um mapa manifold a partir de um quantidade restrita

Page 146: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 145

de manifolds base. A escolha destes manifolds base pode ser realizada com um conhecimentoa priori do problema. Comparando com a rede SOM, o mapa PSOM manifold final pode serdescrito por um pequeno número de valores de parâmetros que podem ser determinados a partirde um pequeno número de amostras de treinamento (WALTER; RITTER, 1996).

A construção de uma base de dados com boa representação é frequentemente um passodecisivo para a solução do problema. Isto fica ainda mais evidente em tarefas de aprendizagem,onde a capacidade de generalização a partir de um conjunto limitado de exemplos para novasinstâncias é um objetivo central. Para dar suporte a este objetivo, uma boa representação deveseguir duas metas: prover um representação dos dados que mantenha os relacionamentos desimilaridade entre os elementos dos dados o mais fiel possível; proporcionar uma compreensãosobre as variáveis essenciais e separar informações falsas e sem importância.

Na rede SOM, o mapa manifold não-linear é representado por uma aproximação discreta,usando uma grade A (m dimensional, o valor padrão de m é 2). Porém, a natureza discreta darede SOM padrão pode ser uma limitação quando o objetivo for a construção de mapas manifolds

suaves. Como o número de nodos cresce exponencialmente com o número de dimensões domapa, em um mapa com três ou mais dimensões, é esperado apenas poucos nodos ao longode cada eixo. Entretanto, essa quantidade de nodos não é suficientemente suave para muitospropósitos onde continuidade é muito importante, como por exemplo, em tarefas de controle ouem robótica.

A rede Parameterised SOM (PSOM) (RITTER, 1993) generaliza a grade A discretada rede SOM para um mapeamento continuo manifold M parametrizado por uma variávelcontínua s ∈ S ⊂ Rm e descrito por uma função de suavização w(s). Como consequência, aassociação discreta do vetor de referência wa com pontos da grade a é substituída por umaassociação contínua, uma função w(·) : s 7→ w(s) ∈M ⊂ X , onde s varia continuamente sobreum subconjunto S ⊆ Rm. Semelhante a wa,w(s) obtém seu valor em um espaço X ⊆ Rd , omesmo espaço em que os vetores de entrada x são obtidos. A resposta de PSOM é determinadapelo valor de w(s∗), obtido na posição vencedora s∗, encontrado em um mapeamento manifold

contínuo S definido pela equação A.72. A localização vencedora s∗ presente no mapeamentomanifold S, semelhante a rede SOM, é obtida com o mínimo valor fornecido pela função dist(·).

s∗= argmim dist(w(s),x).� �A.72

onde dist é a norma Euclidiana e w(s) pode ser construída semelhante a rede SOM utilizandouma função H de base para cada neurônio multiplicada pelo vetor de peso wa do neurônio. Nocontexto da rede PSOM cada neurônio é chamado de "knot". Um meio de obter a função H(a,s)é utilizando o polinômio interpolador de Lagrange aprimorado para valores multidimensionais,onde a é um rótulo para um neurônio.

w(s) = ∑a∈A

H(a,s)wa� �A.73

Page 147: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.6. CAPACIDADE DE INTERPOLAÇÃO 146

A organização topológica dos dados de entrada é crucial para um bom comportamento degeneralização. Para um conjunto de dados geral, a organização topológica de seus pontos pode serbastante irregular e um conjunto apropriado de funções base H(a,s) pode ser difícil de construir.Um conjunto apropriado de funções base pode ser construído de muitas maneiras, mas deveconsiderar duas condições: (i) H(a,s) deve ser ortonormal H(ai,aj)= δi j(∀ ai,a j ∈A) para fazero manifold M passar por todos os knots de suporte; (ii) Divisão de unidade: ∑a∈A H(a,s) = 1,∀s(a soma de todas as contribuições ponderadas deve ser um).

A construção simples de funções base H(a,s) torna-se possível quando a topologia dospontos fornecidos é suficientemente regular. Uma situação conveniente aparece para o casode uma grade regular multidimensional. Neste caso, o conjunto de funções H(a,s) pode serconstruído a partir de produtos de interpolação polinomial de Lagrange de uma-dimensão.

Uma escolha favorável para H(a,s) é a extensão multidimensional do polinômio deLagrange. A fórmula de Lagrange descreve o polinômio único de grau n−1 passando pelos n

pontos de suporte (xi,yi), i ∈ {1, ...,n}

y(x) = l1(x)y1 + l2(x)y2 + ...+ ln(x)yn =n

∑k=1

lk(x)yk� �A.74

onde o fator de Lagrange li(x) é determinado por

li(x) =n

∏j=1, j 6=i

x− x j

xi− x j

� �A.75

A interpolação de Lagrange de uma-para-uma dimensão (x 7→ y ), Equação A.74 podeser ampliada para um mapeamento S para X de m-para-n dimensões, usando um conjuntode knots de vetores de suporte wa sobre uma hiper-grade A retangular escolhida. Assim,s = (1s,2 s, ...,m s)T ∈ S ⊂ Rm equivale a x do polinômio interpolador de Lagrange básico daEquação A.74 (o índice no canto superior esquerdo de s indica o número do componente deum vetor pertencente ao mapeamento manifold S). O ponto de suporte xi da Equação A.75torna-se o vetor ai = (1ai1,

2 ai2, ...,m aim)

T ∈ A ∈ S. O conjunto de knots A = {1a1, ...,1 an1}×

{2a1, ...,2 an2}× · · ·×{ma1, ...,

m anm} contém n1×n2×· · ·×nm knots. Os valores de n1, n2, ...,nm expressão os tamanhos dos eixos da grade m-dimensional A.

O knot wa ∈ Rd é identificado por seu índice iv ∈ {1,2, ...,nv},wa = wi1i2...im , assim eEquação A.73 pode ser expandida para

w(s) = ∑a∈A

waH(a,s) = ∑a∈A

wi1i2...im · li1(1s) · li2(

2s) · · · lim(ms)� �A.76

com

liv(vs) =

nv

∏j=1, j 6=i

vs−v a jvaiv−v a j

� �A.77

A soma sobre a espalha pelo conjunto de todos os índices 1≤ i1≤ n1,1≤ i2≤ n2, ...,1≤ im≤ nm.

Page 148: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.7. MAPAS PARA DADOS CONTÍNUOS 147

O algoritmo PSOM é invariante a ajuste de escala dos eixos de S.A busca pelo vencedor na grade discreta da SOM padrão, na PSOM, é substituída pela

resolução do problema de minimização contínua para determinar s∗. A abordagem simples éencontrar o vencedor sstart = a∗ na grade discreta (como SOM) no conjunto A de knots. Emseguida, calcular iterativamente o gradiente descendente com a Equação A.72.

Para aumentar a precisão do mapa, a primeira ideia que surge é aumentar o número depontos de treinamento. Entretanto, duas deficiências surgem: (i) os polinômios base apresentampropriedades de convergência não satisfatórias com o aumento de sua ordem. O mapeamentode funções acentuadamente pontiagudas pode forçar um alto grau de interpolação polinomialintroduzindo grandes oscilações espalhadas entre os pontos knots de suporte do manifold inteiro.(ii) O esforço computacional por dimensão do mapeamento manifold cresce por O(n2) parao numero de n pontos de treinamento em cada eixo. Mesmo como um número moderado depontos amostrados a longo de cada eixo paramétrico, a inclusão de todos os nodos na EquaçãoA.76 pode precisar de muito esforço computacional se cada dimensionalidade do mapeamentomanifold m é alta (m > 4) (WALTER; RITTER, 1995).

As duas deficiências citadas acima motivam uma importante extensão da abordagempadrão de PSOM. A ideia básica é construir dinamicamente a rede PSOM em uma sub-grade doconjunto de treinamento. Esta sub-grade é (no caso mais simples) sempre centralizada no vetorde referência wa∗ mais próximo da entrada atual x. O uso de sub-grade permite polinômios debaixo-grau para as funções base e envolve um número consideravelmente pequeno de pontos nosomatório da Equação A.73. Assim, a PSOM local resultante (l-PSOM) fornece um esquemaatrativo para superar ambas as deficiências descritas anteriormente.

A.7 Mapas para Dados Contínuos

O agrupamento de dados com características contínuas em redes SOM é tratado por doismapas encontrados na literatura. Hadzic e Dillon (HADZIC; DILLON, 2005, 2007) propõemuma rede para a extração de regras em dados com características contínuas, chamada de self-

organizing map for continuous data (CSOM). A rede Signal SOM (SSOM) é uma rede projetadapara gerar agrupamentos de dados no domínio contínuo CHOW; YUEN (2007).

A principal diferença entre o algoritmo de treinamento da rede SOM tradicional e oalgoritmo de treinamento da rede CSOM ((HADZIC; DILLON, 2005, 2007)) é que os pesossão substituídos por faixas de valores. Esta diferença provoca uma modificação na regra deatualização dos neurônios e na forma como a competição entre neurônios ocorre. A introdução defaixa de valores nos neurônios da rede possibilita a criação de regras associadas aos agrupamentosde neurônios.

A criação de regras para tarefas de classificação facilita o entendimento do processo declassificação quando comparado com o processo de armazenar conhecimento indiretamente nospesos de uma rede neural. O problema mais comum com classificação de dados contínuos é

Page 149: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.7. MAPAS PARA DADOS CONTÍNUOS 148

encontrar uma faixa de valores válidos para um regra particular. O processo de extração de regrasna rede CSOM combina a aprendizagem não supervisionada da rede SOM com aprendizagemsupervisionada que associa classes aos agrupamentos gerados pela rede SOM. As classes sãootimizadas supervisionadamente, uma amostra é apresentada à rede e o agrupamento com menordistância euclidiana para a amostra é ativado. Caso um agrupamento ativado esteja associadoa duas classes, um procedimento de validação é chamado para gerar dois novos agrupamentos(uma sub-regra para cada sub-agrupamento).

O algoritmo de treinamento não supervisionado da rede CSOM é descrito a seguir:

1. Normalize os dados de entrada;

2. Determine a dimensão e inicialize a rede;

3. Defina o tamanho máximo da vizinhança e o fator de decrescimento;

4. Mecanismo de aprendizagem:

5. Passos iniciais antes de inicializar os limites dos pesos:

5.1 Estimule a rede com um dado vetor de entrada;

5.2 Determine o nodo vencedor baseado na menor distância Euclidiana entreo vetor de entrada os pesos dos nodos;

5.3 Atualize os pesos para o nodo vencedor e seus vizinhos:

5.3.1 Salve os valores inciais como limites superiores e inferiores deuma faixa baseada no valor do vetor de entrada se é maior oumenor que o valor inicial, respectivamente. O valor de entradaserá o outro limite não preenchido anteriormente;

6. Depois da inicialização das faixas de valores dos pesos associados aos neurônios oseguinte procedimento é realizado:

6.1 Escolhida o vencedor com base na fórmula da distância Euclidiana modifi-cada;

6.2 Ajuste os pesos do vencedor e seus vizinhos:

6.2.1 Se o valor da entrada cai fora da faixa, o limite superior ouinferior é ajustado de modo a ficar mais próximo do valor deentrada.

6.3 Iniba os nodos mais distantes do vencedor;

A rede CSOM é testada com a base de dados pública Iris do repositório de aprendizagemde máquina UCI. Todos os valores dos atributos de entrada são contínuos. A tarefa de classi-ficação para esta base consistem em determinar qual é o tipo de flor de Iris (setosa, virginica

Page 150: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.8. DISCUSSÃO 149

ou versicolo) avaliando os atributos: tamanho da sépala, largura da sépala, tamanho da pétala elargura da pétala. Esta base possui 150 amostras e 100 foram usadas no treinamento e 50 parateste.

Na rede SOM original, as amostras de entrada são estruturadas em vetores de caracte-rísticas. Esta representação simplifica o treinamento da rede SOM, mas não é adequada pararepresentar um padrão de sinal cujo comprimento e a amplitude não são exatos, pois estascaracterísticas devem mudar a cada nova observação.

A rede Signal SOM (SSOM) é uma rede projetada para gerar agrupamentos de dadosno domínio contínuo CHOW; YUEN (2007). A estrutura da SSOM é semelhante a redeSOM contendo um conjunto de neurônios interconectados e alinhados a uma grade de baixadimensão. Os pesos de um neurônio são representados por um sinal contínuo no lugar do vetorde características. Dado um conjunto de sinais contínuos T = { fi(x ∈Rn)}, o objetivo de SSOMé alinhar cada sinal do conjunto T para uma grade de baixa dimensão baseado em sua função dedistância. Na SSOM a distância Euclidiana é aprimorada para o domínio contínuo para medir asimilaridade entre duas funções representadas por uma derivação de GMM (Gaussian Mixture

Model).A ideia básica de SSOM é similar ao modelo de expansão da série de Volterra introduzido

na literatura em 1959 por Vito Volterra. A série de Volterra descreve a saída y(t) de um sistemanão linear de x(t) como uma soma de respostas de operadores de primeira ordem, segunda ordem,terceira ordem e assim sucessivamente. Cada operado é descrito no domínio da frequência ou dotempo com uma função de transferência chamada de núcleo de Volterra.

O desempenho de SSOM é avaliado em um problema de agrupamento de sinais. Ospadrões dos sinais são obtidos de três grupos de funções F = {Pii=1,2,3 incluindo funções do tipoplanar, oscilatória e impulso:

P1 = {p1(x) = wexp(−(x−µ)2

)}

� �A.78

P2 = {p2(x) = 0.25sin(2π(x+θ))}� �A.79

P3 = {p3(x) = x(Dh−Dl)+Dl}� �A.80

onde x∈ [0;1],w∈ [0,5;1],σ ∈ [0,1;0,2],µ ∈ [0,35;0,75],θ ∈ [0;1],Dl ∈ [0,5;2] e Dh ∈ [0;0,5].O conjunto de treinamento 300 sinais gerados com parâmetros aleatórios das funções de T.

A.8 Discussão

Algumas características presentes em redes derivadas de SOM devem ser analisadase incorporadas no modelo proposto quando convenientes. Estas características geralmente,resolvem limitações da rede SOM e/ou melhoram seu desempenho. A rede ADSOM (RESSOM;WANG; NATARAJAN, 2003), por exemplo, ajusta automaticamente a taxa de aprendizagem,

Page 151: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.8. DISCUSSÃO 150

função de vizinhança e taxas de decaimento exponencial. HAESE (1998) apresenta um outroalgoritmo para o ajuste automático dos parâmetros de aprendizagem. Redes de estruturasvariantes no tempo como GCS (FRITZKE, 1994), GNG (FRITZKE, 1995a), CSG (CHOW; WU,2004), GSOM (OHTA; SAITO, 2001), GWR (MARSLAND; SHAPIRO; NEHMZOW, 2002)formam estruturas topológicas com maior capacidade de adaptação aos dados de entrada quandocomparadas com SOM. Outra característica interessante é adaptação individual do tamanho davizinhança de cada neurônio como na SOAN (IGLESIAS; BARRO, 1999) e ASOR (HORIO;YAMAKAWA, 2000). O ajuste individual do tamanho pode tratar a limitação que o SOM-STGpossui de não representar bem a velocidade de deslocamento do padrão de entrada.

Na abordagem de aprendizagem da locomoção de um robô a partir de um agente demons-trador usada pelo SOM-STG os dados são gerados a partir de posturas do agente demonstrador.Estas posturas são coletadas a partir da locomoção do agente demonstrador e em intervalosregulares de tempo sem armazenar informações cronológicas. Observando o espaço de posturas,todas as posturas deverão estar próximas a um ciclo que representa a trajetória de locomoção doagente demonstrador. O objetivo de um sistema de controle de locomoção, baseado nestes dados,é justamente criar uma trajetória de locomoção no espaço de posturas para o robô.

As limitações do modelo SOM-STG visto no Capítulo 4 para a geração de trajetóriade posturas com dados reais devem ser resolvidas absorvendo características presentes nosmodelos vistos neste Capítulo A. Alguns problemas tratados por estes modelos são semelhantesao problema de geração de trajetória de posturas robóticas. Como por exemplo, o problemade detectar o contorno de um objeto em imagens digitais, o problema do caixeiro viajante, oproblema de interpolação e o problema de criar sequência de padrões que variam no tempo.

No problema de detectar o contorno de um objeto em imagens digitais, o algoritmode detecção de contorno recebe como entrada um mapa de bordas da imagem. Entre estesalgoritmos estão o Force Field Driven SOM (FFDSOM) (HE; XU; MIRANKER, 2010) eBatch-SOM (BSOM) (VENKATESH; KUMAR RAJA; RAMYA, 2006). Cada ponto de bordana imagem é uma amostra e a solução para este problema deve montar uma trajetória quepassa por entre os pontos da borda. Levando em conta as semelhanças dos problemas tratados,os algoritmos baseados em SOM projetados para detecção de contorno devem contribuir namodelagem de algoritmos para a criação de trajetória para o controle de locomoção do robô.

O problema do caixeiro viajante também é semelhante ao problema de geração detrajetórias cíclicas para o controle de locomoção do robô. Os requisitos mais importantes de umarede SOM projetada para resolver problemas deste tipo são: Primeiro, a estrutura topológica nofinal do treinamento seja circular; Segundo, cada nodo deve ser visitado pelo menos uma vez etodos nodos devem ser visitados para gerar uma trajetória cíclica; Por último, a distância totalpercorrida para gerar uma trajetória cíclica deve ser mínima. Já existem muitas redes derivadasde SOM para o problema do caixeiro viajante entre elas estão ESOM (Kwong-Sak-Leung,Hui-Dong-Jin, 2004), RABNET-TSP (MASUTTI; CASTRO, 2009), ORC-SOM (ZHANG et al.,2012) e o trabalho de ZHU; YANG (2003). Uma característica muito interessante destes modelos

Page 152: Rise Thesis Template (ABNT) - repositorio.ufpe.br · de aprender com dados coletados a partir do sinal de saída de um CPG, de sensores sobre um agente demonstrador ou de observações

A.8. DISCUSSÃO 151

é a criação de redes em que cada nodo possui apenas dois vizinhos e que a trajetória gerada éfechada.

Uma das características de um CPG é a geração de uma sequência de padrões que variamno tempo. No CPG, uma padrão em um instante de tempo ti é normalmente muito semelhante aopadrão um instante de tempo seguinte ti+1. A Seção A.3 apresentou mapas auto-organizáveisque aprendem a relacionar padrões que são temporalmente próximos. A rede TKM (VARSTAet al., 2001; CHAPPELL; TAYLOR, 1993) por exemplo, é baseada na rede SOM e acrescidade uma camada para relacionar padrões temporalmente próximos. Nesta rede, o nodo vencedortem uma ativação máxima e esta ativação vai decaindo no decorrer do tempo. Deste modo oneurônio vencedor seguinte levara em conta o padrão de entrada e a atividade do neurônio ativono instante anterior.

A capacidade de interpolação permite que SOM-CSTG seja treinado com uma quantidademenor de amostra e ainda obter um estado pertencente a uma posição contínua da trajetóriagerada por SOM-CSTG. Sem interpolação, apenas os estados aprendidos pelas redes podemser enviados para o módulo de controle de postura. Assim para gerar uma trajetória com umavariação mais suave entre seus estados é necessário uma base de dados para treinamento commais amostras, mas a obtenção de mais amostras pode não ser viável.

A rede com maior capacidade de contribuição para inserção de interpolação na rede SOM-CSTG foi a PSOM local. Embora a rede I-SOM e suas derivadas também possam contribuir comSOM-CSTG, elas foram projetadas basadas na rede Counterpropagation cujo objetivo é geraruma camada supervisionada a partir da rede SOM original para aproximação de função. Já amotivação para inserir interpolação na rede PSOM é semelhante ao da SOM-CSTG, resumida naseguinte maneira: acessar estados intermediários aos estados discretos aprendidos no processode auto-organização. Outro ponto importante é que a rede PSOM foi projetada para tratar umproblema semelhante ao SOM-CSTG, o planejamento de movimentos dos dedos de uma mãorobótica. No caso do SOM-CSTG o planejamento é realizado para a movimentação de todas aspatas de um robô caminhante.