SERVIÇO PÚBLICO FEDERAL Instituto Federal de Alagoas ... · avaliado enquanto realiza a...

SERVIÇO PÚBLICO FEDERALInstituto Federal de Alagoas – IFAL

ReitoriaPró-Reitoria de Pesquisa e Inovação

PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA E EMDESENVOLVIMENTO TECNOLÓGICO E INOVAÇÃO

IFAL/CNPq/FAPEAL

EDITAL No 03 PRPI/IFAL, DE 11 DE MAIO 2017

ANEXO 1 – MODELO PIBIC

TITULO DO PROJETO

SISTEMA DE NAVEGAÇÃO AUTÔNOMA POR MEIO DE MODELO DE REDE NEURALCRESCENTE DE APRENDIZAGEM POR REFORÇO

RESUMO DO PROJETO

Os algoritmos da Aprendizagem por Reforço (AR) têm sido amplamente utilizados para a construção deagentes autônomos. Inspirada no comportamento da aprendizagem animal, a AR é um paradigma queserve como base para algoritmos que aprendem por tentativa e erro. Apesar da sua popularidade e suasólida base matemática e garantia teórica de convergência para uma solução ótima, a AR apresentarestrições de aplicação em tarefas onde o espaço de estados é muito grande.

Por meio do agrupamento de estados similares é possível reduzir o tamanho do espaço de estados. Umavez reduzido, o problema pode ser resolvido utilizando os algoritmos tradicionais da AR. A principalquestão que se coloca aqui é como efetuar a agregação, de tal modo que, por um lado, se possa obteruma “boa” representação do espaço de estados, e pelo outro lado, o desempenho do modelo não degrade.Este é um dos grandes desafios da AR.

O presente trabalho propõe agrupar estados similares por meio do uso da rede GNG para reduzir otamanho do espaço de estados e o algoritmo n-Step Temporal Difference with Elegibility Traces para aaprendizagem do agente. O produto final deste trabalho será um algoritmo adaptativo de aprendizagempor reforço capaz de resolver problemas de controle que necessitem do raciocínio lógico. Para validar econsolidar o algoritmo proposto como uma abordagem viável e eficiente, seu comportamento seráavaliado enquanto realiza a navegação de um veículo não-tripulado em um ambiente desconhecido.

INTRODUÇÃO

À medida que a tecnologia evolui, o ser humano se torna cada vez mais dependente dos computadores.Tarefas consideradas complexas serão comumente realizadas por sistemas dotados de “inteligência”.Carros serão capazes de navegar sozinhos e de escolher a melhor rota em função do nível decongestionamento das ruas. Robôs navegarão em ambientes complexos, explorando áreas consideradasde alto risco para os seres humanos. Sistemas inteligentes realizarão diagnósticos e oferecerão o melhortratamento para determinadas doenças. Em todos estes exemplos, existem situações imprevistas e deincertezas que exigem destes sistemas a capacidade de adaptar seu conhecimento automaticamente.Desta forma, ações poderão ser tomadas em situações que nunca foram vistas anteriormente. Ao tentarcodificar este tipo de comportamento à mão, o desenvolvedor esbarra em um grande obstáculo: adificuldade de formalizar o conhecimento humano em forma de algoritmo.

A Aprendizagem de Máquina (AM) é um campo da Inteligência Artificial (IA) que busca desenvolver

_____________________________________________________________________________

Rua Dr. Odilon Vasconcelos, 103, Jatiúca – Maceió/AL. CEP: 57035-350.Telefone: (82) 3194-1199. www2.ifal.edu.br

algoritmos que possam aprender pela experiência (Russel; Norvig, 2003). Esta característica oferece umasolução para problemas que exigem o conhecimento humano. Após a modelagem do problema comouma tarefa de aprendizagem, os algoritmos AM possibilitam a elaboração de agentes que podemaprender pela interação com o ambiente ou por intermédio de exemplos (Russel; Norvig, 2003). Estesagentes são entidades autônomas capazes de sentir e atuar no ambiente em que se situam por meio desensores e atuadores (Russell; Norvig, 2003).

A Aprendizagem por Reforço (AR) é uma classe de algoritmos AM que busca desenvolver agentes queaprendem com o efeito de suas ações. Imersos em um ambiente inicialmente desconhecido, estes agentessão capazes de aprender uma sequência de ações que possibilite resolver uma determinada tarefa (Crites;Barto, 1996; Singh; Bertsekas, 1997; Tesauro, 1994). A possibilidade de aprender através da interaçãocom o ambiente torna a AR atrativa em tarefas onde o comportamento esperado não é conhecido. Estetipo de aprendizagem é diferente de outros paradigmas, tais como o não-supervisionado (Russel; Norvig,2003). Neste último, o processo consiste em encontrar semelhanças entre os dados separando-os emgrupos para posteriormente serem rotulados. Este é um importante tipo de aprendizagem, mas sozinhonão é adequado para aprender pela interação com o ambiente. Na maioria dos casos é impraticável obterexemplos de todos os comportamentos desejados que sejam ao mesmo tempo corretos e representativospara todas as situações em que o agente deve agir (Sutton; Barto, 1998).

A maldição da dimensionalidade (Bellman, 1952) é um dos principais problemas que afetam osalgoritmos AR. O número de possíveis soluções cresce exponencialmente à medida que o número deestados (situações do problema) e ações cresce. Consequentemente, o tempo de aprendizagem tambémcrescerá. Esta característica pode se tornar uma restrição para o uso da AR em problemas onde o númerode estados é muito grande. Nestes ambientes, é importante que o espaço de estados seja generalizado.

A generalização permite reduzir o tempo de aprendizagem com o compartilhamento da experiênciaganha em um estado com outros que nunca foram vistos (Sutton; Barto, 1998). Assim, o agente nãoprecisa aprender uma sequência de ações para cada situação que possa ocorrer. Isto pode ser obtido como agrupamento dos estados similares (Bertsekas; Tsitsiklis, 1996). Os estados que se enquadram em umamesma região, de acordo com alguma métrica de distância, são considerados similares e são agrupados.Desta forma, os efeitos da maldição da dimensionalidade são reduzidos e o problema pode ser resolvidoutilizando os algoritmos AR.

Para obter a generalização desejada, o presente projeto planeja utilizar o algoritmo Growing Neural Gas(GNG) (Fritzke, 1995) para agrupar os estados similares do ambiente e, o algoritmo n-Step TemporalDifference with Elegibility Traces (TD(nλ)) (Vieira, 2013) para a aprendizagem do agente. O produtofinal deste trabalho será um algoritmo adaptativo de aprendizagem por reforço capaz de resolverproblemas de controle que necessitem do raciocínio lógico. Para validar e consolidar o algoritmoproposto como uma abordagem viável e eficiente, seu comportamento é avaliado enquanto realiza anavegação de um veículo não-tripulado. Neste problema, o agente deve ser capaz de determinar comprecisão a posição que se encontra e planejar com eficiência a trajetória a ser realizada para alcançar umdeterminado local do ambiente. Além disto, situações imprevistas podem ocorrer, tais como obstáculosque podem aparecer durante o percurso que devem ser desviados ou evitados.

JUSTIFICATIVA

Grande parte das pesquisas que envolvem AR buscam meios de utilizá-la em ambientes com variáveis deestado contínuas. Isto se deve ao fato dos problemas do mundo real possuírem esta característica. Nestesambientes, a quantidade de estados é infinita para uma aplicação direta dos algoritmos AR.

Outra dificuldade se deve à condição exigida para convergência destes algoritmos. Para que alcancemuma solução, os estados precisam ser revisitados. Isto significa que o agente deve passar pelo mesmoestado mais de uma vez (Sutton, 1988). Contudo, em grande parte dos problemas do mundo real, algunsestados nunca serão vivenciados exatamente como antes. Estes problemas incluem sensores complexos,como os de uma imagem visual. Duas fotos tiradas em instantes de tempo diferentes podem apresentarvariações nas tonalidades da cor dos pontos que formam a imagem (Bradski; Kaehler, 2008). Emproblemas deste tipo, a generalização do espaço de estados torna-se indispensável para a convergênciade qualquer solução.

Modelos que aproximam funções ou que realizam algum tipo de agregação dos estados podem sercombinados com os algoritmos AR para reduzir os efeitos da maldição da dimensionalidade. Enquantoos algoritmos AR estimam a recompensa a ser recebida, modelos como as redes neurais Multilayer_____________________________________________________________________________


Perceptron (MLP) (Rumelhart et al., 1988) ou os Self-Organized Map (SOM) (Kohonen et al., 2001)generalizam o espaço de entrada e realizam o mapeamento destas estimativas nos estados (Bertsekas;Tsitsiklis, 1996). A ideia por trás deste processo é que as ações possuem um comportamento semelhantequando realizadas em estados similares, assim, o tempo de aprendizagem pode ser reduzido se aexperiência é compartilhada entre eles. O desempenho do agente dependerá da qualidade com que estesmodelos generalizam o espaço de estados.

A rede GNG é um algoritmo não-supervisionado da classe dos Self-Organizing Maps ou Mapas Auto-organizáveis (SOM) que tem sido estudado no âmbito da AR (Baumann; Kleine büning, 2014; Montazeriet al., 2011; Whiteson et al., 2007; Handa, 2004). O objetivo destes estudos consistiu nodesenvolvimento de algoritmos adaptativos que dispensam a necessidade de um designer humano para oseu ajuste estrutural. Esta é uma importante característica, pois na maioria dos problemas pouco se sabea respeito da dinâmica do ambiente. Uma representação fraca pode reduzir drasticamente o desempenhodo algoritmo ou, no pior caso, impossibilitar a convergência de uma solução (Bertsekas; Tsitsiklis,1996). A segunda vantagem deve-se à sua capacidade de adaptação a pequenas mudanças do ambiente(Montazeri et al., 2011). Estas variações incluem ruídos nos sensores que podem mudar a forma como oagente percebe o ambiente.

Uma desvantagem quando se utiliza a rede GNG é a necessidade de se determinar o critério de paradapara o crescimento da rede. Enquanto uma quantidade muito grande de nós pode tornar a aprendizagemlenta, uma quantidade muito pequena pode ser insuficiente para encontrar uma solução (Lampton et al.,2010). O ideal é ter novos nós sendo adicionados no curso da aprendizagem até que uma solução sejaencontrada. Este problema está presente em qualquer algoritmo que inicie com uma representação maisgeral e passe, no decorrer da aprendizagem, para uma representação mais específica do espaço deestados (Sherstov; Stone, 2005). As dificuldades enfrentadas ao tornar este processo automáticoconsistem em determinar o momento para a adição de novos nós, o local onde eles devem serposicionados e quando o crescimento da rede deve parar.

OBJETIVOS GERAIS

Desenvolver um algoritmo adaptativo de aprendizagem por reforço capaz de resolver problemas decontrole que necessitem do raciocínio lógico.

OBJETIVOS ESPECÍFICOS

Desenvolver estratégia para o crescimento da rede; Desenvolver estratégia para o movimento dos neurônios; Desenvolver sistema de navegação autônoma; Validar o modelo em ambiente simulado e real.

METODOLOGIA

O problema da navegação autônoma pode ser definida como uma tarefa direcionada a meta. O objetivodo agente neste tipo de tarefa é encontrar um caminho curto entre o estado inicial e o meta (Riedmiller,2005; Koenig; Simmons, 1996). Em outras palavras, o agente deve buscar uma sequência mínima deações que o conduza para o estado meta em uma quantidade menor de passos.

Neste tipo de tarefa, será preciso programar uma componente para recompensar o agente de acordo como número de estados visitados de tal forma, que a soma das recompensas recebidas diminua com o tem-po. Para isto, uma recompensa (r) negativa será associada a todos os estados que não seja o meta. Ao al -cançar o estado meta, o agente pode: 1) continuar a receber uma recompensa negativa com mesma inten-sidade que as anteriores, 2) nula (r = 0) ou 3) positiva (r > 0). Desta forma, o retorno será maior se o nú-mero de estados visitados até o estado meta for menor. Uma vez que o objetivo é maximizar as recom-pensas recebidas, esta estratégia incentiva a busca por caminhos que sejam mais curtos (Sutton; Barto,1998).

Modelagem do ambiente

Modelado o problema como uma tarefa de aprendizagem, o próximo passo consiste na modelagem doambiente. O presente trabalho pretende utilizar o algoritmo proposto em um ambiente simulado e outroreal. Ambientes simulados são interessantes para o teste de novos algoritmos AR, pois eliminam a com-plexidade de implementação do hardware e mantém muitas das características dos problemas do mundoreal. Além disto, nos ambientes simulados é possível avançar o tempo de execução para acelerar a obten-

_____________________________________________________________________________


ção dos resultados. Para a construção do ambiente simulado será utilizado uma ferramenta de modela-gem 3D e prototipação chamada V-REP (ver Figura 1).

Figura 1: V-REP.

No ambiente real será utilizado parte da residência de um dos colaboradores do presente projeto e o pro-tótipo do veículo não-tripulado apresentado na Figura 2. Os dados obtidos dos sensores de distância eencoder serão processados para gerar informações de alto nível para o agente, tais como: orientação, es-timativa da posição atual e, o ângulo e distância relativa do obstáculo mais próximo e do estado meta.Para isto, pode-se fazer necessário o uso de algoritmos como Occupancy Grid Mapping (Thrun, 2005) eFiltro de Partículas (Arulampalam et al., 2002) para realizar o mapeamento do ambiente e estimar a po-sição do agente, respectivamente.

Figura 2: Protótipo do veículo não-tripulado.

Ajuste dos parâmetros

Após a modelagem do ambiente, a próxima etapa busca definir quais serão os valores dos parâmetros doalgoritmo. Estes valores devem ser escolhidos cuidadosamente, pois influenciam diretamente no seu de-sempenho. Como não há formas teóricas para determinar qual o melhor ajuste, deve-se ajustar seus valo-res experimentalmente, por meio de um projeto experimental (Jain, 1991). Para acelerar este processo,optou-se pelo projeto experimental linear e a sua execução apenas no ambiente simulado, iniciando abusca com valores que são frequentemente encontrados na literatura. Os parâmetros obtidos no ambientesimulado serão utilizados posteriormente no ambiente real.

A condução dos experimentos para o ajuste dos parâmetros do modelo se dará da seguinte forma. Com oobjetivo de determinar os melhores parâmetros, seus valores são fixados e cada parâmetro será variadoindividualmente. O desempenho de cada variação será obtida calculando a média da soma do número depassos realizados durante os 40 episódios iniciais de cada uma das 30 repetições realizadas. Os númerosaleatórios utilizados para determinar os estados iniciais ou para determinar uma ação exploratória foramgerados igualmente para todas as variações dos parâmetros. Desta forma, será possível obter uma esti-mativa mais confiável do desempenho para um determinado parâmetro. Todo este processo foi repetidoenquanto as variações gerassem melhores resultados.

Treinamento e teste

Para o treinamento, a experiência do agente será dividida em episódios. Um episódio refere-se a uma se-quência finita de estados e ações que inicia em um estado inicial e termina ao alcançar um estado final(meta). A cada novo episódio, o posicionamento do agente e do estado meta serão definidos aleatoria-

_____________________________________________________________________________


mente e uma nova tentativa será realizada. Para avaliar o desempenho do algoritmo será utilizado comomedida de desempenho, o número de passos utilizado pelo agente para alcançar o estado meta durante1000 episódios. O processo será repetido 10 vezes e os resultados serão gerados pela média das execu -ções. O resultado será um gráfico de convergência demonstrando o tempo de aprendizagem utilizadopelo agente para aprender a desempenhar a tarefa designada.

Após a fase de treinamento, o conhecimento adquirido é testado em 100 novos episódios que não foramapresentados para o agente durante a aprendizagem. Isto é repetido para cada um dos 10 treinamentosrealizados totalizando 1000 episódios de teste. O desempenho é obtido com a média da quantidade depassos utilizados para concluir estes episódios.

Desenvolvimento do algoritmo de aprendizagem

Conforme descrito anteriormente, o algoritmo proposto utiliza os algoritmos GNG e TD(nλ) para gene-ralizar o espaço de estados e realizar a aprendizagem do agente, respectivamente. No entanto, as estraté-gias utilizadas pelo algoritmo GNG para crescimento da rede e movimento dos neurônios não são ade-quadas para o uso em ambientes AR. Sendo assim, ficará a cargo do presente trabalho propor estratégiaseficientes para este fim. Para isto, pretende-se i) iniciar com estratégias já existentes na literatura (Bau-mann; Kleine büning, 2014; Montazeri et al., 2011; Whiteson et al., 2007; Handa, 2004), ii) identificaros prós e contras de cada uma destas estratégias para, posteriormente, iii) sugerir uma nova estratégia.Para cada nova solução desenvolvida, as etapas de ajuste dos parâmetros e de treinamento e teste deve -rão ser repetidas para comparação de desempenho.

RESULTADOS ESPERADOS (METAS)

Algoritmo adaptativo de aprendizagem por reforço capaz de generalizar e de encontrar uma soluçãoem problemas de controle que necessitem do raciocínio lógico;

Sistema para navegação autônoma em ambientes desconhecidos; Escrita de artigo científico.

PLANO DE TRABALHO DO BOLSISTA

Simulação do ambiente Treinamento, teste e ajuste (ambiente simulado) Treinamento, teste e ajuste (ambiente real) Escrita do artigo

PLANO DE TRABALHO DO VOLUNTÁRIO

Implementação do algoritmo de aprendizagem AR Acompanhamento, coleta, análise e discussão dos resultados Escrita do artigo

CRONOGRAMA

2017 2018

Atividade 08 09 10 11 12 01 02 03 04 05 06 07

Modelagem do ambiente x x x x x

Treinamento, teste e ajuste (ambiente simulado) x x

Estudo e implementação dos algoritmos AR relacionados

x x x

Implementação do algoritmo proposto x x

Treinamento, teste e ajuste (ambiente real) x x

Acompanhamento, coleta, análise e discussão dos resultados

x x x x

Escrita do artigo x x x x x

_____________________________________________________________________________


COLABORAÇÕES E PARCERIAS COM OUTRAS INSTITUIÇÕES

Não haverá colaborações com outras instituições.

DISPONIBILIDADE EFETIVA DE INFRAESTRUTURA E APOIO TÉCNICO PARA ODESENVOLVIMENTO DO PROJETO NO CAMPUS

Não será necessário utilizar a infraestrutura ou apoio técnico do campus.

CONTRAPARTIDA E RESPONSABILIDADE DO CAMPUS

Não existem contrapartidas do campus.

REFERÊNCIAS BIBLIOGRÁFICAS

Arulampalam, M. S.; Maskell, S.; Gordon, N.; Clapp, T. A Tutorial on Particle Filters for OnlineNonlinear/Non-Gaussian Bayesian Tracking. IEEE TRANSACTIONS ON SIGNAL PROCESSING,v.50, n.2, p.174-188, 2002.

Bellman, R. On the Theory of Dynamic Programming. Proceedings of the National Academy ofSciences of the United States of America, [S.l.], v.38, n.8, p.716–719, 1952.

Bertsekas, D. P.; Tsitsiklis, J. N. Neuro-Dynamic Programming. Belmont, MA: Athena Scientific, 1996.

Bradski, D. G. R.; Kaehler, A. Learning Opencv. 1.ed. [S.l.]: O’Reilly Media Inc., 2008.

Crites, R.; Barto, A. Improving Elevator Performance Using Reinforcement Learning. In:ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 8. Anais... MIT Press, 1996.p.1017–1023.

Fritzke, B. A Growing Neural Gas Network Learns Topologies. In: ADVANCES IN NEURALINFORMATION PROCESSING SYSTEMS 7. Anais... MIT Press, 1995. p.625–632.

Jain, R. The art of computer systems performance analysis - techniques for experimental design,measurement, simulation, and modeling. [S.l.]: Wiley, 1991. I-XXVII, 1-685p. (Wiley professionalcomputing).

Kaelbling, L. P.; Littman, M. L.; Moore, A. P. Reinforcement Learning: a survey. Journal of ArtificialIntelligence Research, [S.l.], v.4, p.237–285, 1996.

Kohonen, T.; Schroeder, M. R.; Huang, T. S. (Ed.). Self-Organizing Maps. 3.ed. Secaucus, NJ, USA:Springer-Verlag New York Inc., 2001.

Otterlo, M. van; Wiering, M. Reinforcement Learning and Markov Decision Processes. In: Wiering,M.; Otterlo, M. van (Ed.). Reinforcement Learning. [S.l.]: Springer Berlin Heidelberg, 2012. p.3–42.(Adaptation, Learning, and Optimization, v.12).

Ribeiro, C. Reinforcement Learning Agents. Artificial Intelligence Review, [S.l.], v.17, n.3, p.223–250,2002.

Rumelhart, D. E.; Hinton, G. E.; Williams, R. J. Neurocomputing: foundations of research. In:Anderson, J. A.; Rosenfeld, E. (Ed.). Cambridge, MA, USA: MIT Press, 1988. p.673–695.

Russell, S. J.; Norvig, P. Artificial Intelligence: a modern approach. 2.ed. [S.l.]: Pearson Education,2003.

Sherstov, A. A.; Stone, P. Function Approximation via Tile Coding: automating parameter choice. In:Zucker, J.-D.; Saitta, L. (Ed.). SARA. [S.l.]: Springer, 2005. p.194–205. (Lecture Notes in ComputerScience, v.3607).

Singh, S.; Bertsekas, D. Reinforcement Learning for Dynamic Channel Allocation in CellularTelephone Systems. In: IN ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS:PROCEEDINGS OF THE 1996 CONFERENCE. Anais... MIT Press, 1997. p.974–980.

Sutton, R. S. Learning to Predict by the Methods of Temporal Differences. Machine Learning,Hingham, MA, USA, v.3, n.1, p.9–44, Aug. 1988.

Sutton, R. S.; Barto, A. G. Introduction to Reinforcement Learning. 1.ed. Cambridge, MA, USA: MITPress, 1998.

_____________________________________________________________________________


Tesauro, G.; Touretzky, D.; Leen, T. (Ed.). Advances in Neural Information Processing Systems 7.[S.l.]: MIT Press, 1995. p.361–368.

Thrun, S.; Burgard W.; Fox, D. Probabilistic Robotics. Cambridge, Mass: MIT Press, 2005.

Vieira, D.; Adeodato, P.; Gonçalves, P. A Temporal Difference GNG-Based Approach for the StateSpace Quantization in Reinforcement Learning Environments. In: INTERNATIONALCONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI), 25. Anais... [S.l.: s.n.],2013. p.561–568.

Widrow, B.; Gupta, N. K.; Maitra, S. Punish/Reward: learning with a critic in adaptive thresholdsystems. IEEE Transactions on Systems, Man and Cybernetics, [S.l.], v.3, n.5, p.455–465, Sept 1973.

_____________________________________________________________________________


SERVIÇO PÚBLICO FEDERAL Instituto Federal de Alagoas ... · avaliado enquanto realiza a...

Documents

Transcript of SERVIÇO PÚBLICO FEDERAL Instituto Federal de Alagoas ... · avaliado enquanto realiza a...