Download - Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Transcript

Pós-Graduação em Ciência da Computação

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA

REDUZIR A DIMENSÃO DO ESPAÇO DE

CARACTERÍSTICAS E AÇÕES EM

APRENDIZAGEM POR REFORÇO: CENÁRIO DO

DRIBLE DA ROBOCUP

Por

DAVI CARNAÚBA DE LIMA VIEIRA

Dissertação de Mestrado

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE, 09/2010

Page 2: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

DAVI CARNAÚBA DE LIMA VIEIRA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA REDUZIR A DIMENSÃO DO ESPAÇO DE CARACTERÍSTICAS E AÇÕES EM APRENDIZAGEM POR REFORÇO: CENÁRIO DO DRIBLE DA

ROBOCUP

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA DA COMPUTAÇÃO.

ORIENTADOR(A): Paulo Jorge Leitão Adeodato

Recife, SETEMBRO/2010

Page 3: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Vieira, Davi Carnaúba de Lima

Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup / Davi Carnaúba de Lima Vieira - Recife: O Autor, 2010.

xix, 125 folhas : il., fig., tab.

Dissertação (mestrado) Universidade Federal de Pernambuco. CIn. Ciência da computação, 2010.

Inclui bibliografia e apêndice.

1. Inteligência artificial. 2. Mineração de dados. 3. Aprendizagem por reforço. I. Título.

006.3 CDD (22. ed.) MEI2010 – 0172

Page 4: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Page 5: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Aos meus pais, José Antonio Cruz Vieira e

Maria Nazaré Carnaúba de Lima Vieira

Page 6: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Agradecimentos

Primeiramente a Deus por ter me concedido inteligência suficiente para finalizar es-

se trabalho.

A todos os membros da banca. É uma grande honra poder contar com a con-

tribuição de todos.

Aos professores Aluízio Araújo, Flávia Barros, Francisco Carvalho, Patrícia

Tedesco, Paulo Adeodato e Teresa Ludermir. Foi muito prazeroso estar em contato

com professores tão dedicados.

Novamente ao professor Paulo Adeodato pela orientação e confiança deposi-

tada no meu trabalho de dissertação.

Aos meus pais pelo apoio incondicional e pelo exemplo de força e determina-

ção.

A minha esposa Carine, companheira de todas as horas, por tudo que tem fei-

to por mim.

Aos meus amigos Antonio Zarth, Daniel Melo, Eric Rommel, Orivaldo Vieira,

Paulemir Campos, Paulo Gonçalves e Rubens Bernante, por me fazerem sentir em

casa mesmo estando longe dela. Sentirei saudades dos nossos debates intelectuais

que aconteciam nos botecos da Várzea.

Ao meu professor e agora amigo, Ulisses Dias, pelo incentivo e orientação pa-

ra continuar minha vida acadêmica.

Ao Centro de Informática pela ótima estrutura e a FACEPE pelo apoio finan-

ceiro.

Page 7: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

“History has proven that human predictive

powers have never been good beyond a decade. A

few examples are in place here. On the 17th of De-

cember 1903, Orville Wright made the first man-

carrying powered flight in an aircraft built by himself

and his brother Wilbur Wright. The flight covered

about 120 feet and lasted for 12 seconds. If at that

point someone would have claimed that roughly 66

years later the first man would set foot on the moon,

he would surely have been diagnosed as mentally

insane. However, on the 20th of July 1969, Neil

Armstrong stepped out of the Apollo-11 Lunar Mod-

ule and onto the surface of the moon.”

(Boer & Kok, 2002)

Page 8: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Resumo A aprendizagem por reforço é usada em cenários nos quais não se dispõe de um

resultado associado a cada estado nem a cada ação tomada por um agente

inteligente. Essa forma de aprendizagem; portanto, mantém uma forte dependência

da exploração dos espaços de estados e de ações que produz uma explosão de

dados cujo armazenamento se torna um problema em muitas situações. Por outro

lado, tem-se a mineração de dados como uma área da inteligência artificial que

busca extrair informações ou padrões de grandes quantidades de dados, ou

armazenados em um banco de dados ou trafegando em um fluxo contínuo de dados.

A principal contribuição deste trabalho é mostrar como as técnicas de

mineração de dados podem ser utilizadas para selecionar as variáveis e ações mais

relevantes dos ambientes da aprendizagem por reforço. O objetivo desta seleção é

reduzir a complexidade do problema e a quantidade de memória usada pelo agente,

que podem acelerar a convergência da aprendizagem. A dificuldade em utilizar as

técnicas de mineração de dados em ambientes da aprendizagem por reforço deve-

se ao não armazenamento dos dados provenientes da exploração dos espaços de

estados e de ações em um banco de dados. Este trabalho também contribui

propondo um esquema de armazenamento para os estados visitados e as ações

executadas pelo agente.

Neste estudo, o método de seleção de atributos e de ações foi validado

experimentalmente em um problema no qual a aprendizagem por reforço é a

abordagem mais adequada; o drible no futebol de robôs – RoboCup-2D. Este

problema é composto de 23 variáveis contínuas e 113 ações disponíveis para o

agente que consome cerca de 18MB de memória quando utilizado o algoritmo

combinado com a técnica de tile-coding. Os resultados dos experimentos

mostraram que a quantidade de variáveis do ambiente pode ser reduzida em até

56% e a quantidade de ações em até 85%, com uma redução do uso da memória de

95% e um aumento no desempenho de aproximadamente 10% de acordo com a

Page 9: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

distribuição da freqüência relativa de sucesso do agente. A abordagem proposta é

simples de usar e eficiente.

Palavras-chave: Aprendizagem por Reforço, Agentes Inteligentes, RoboCup, Mine-

ração de Dados, Seleção de Atributos e Ações.

Page 10: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Abstract Reinforcement learning is used in scenarios when there is no outcome associated

with the states or actions taken by an intelligent agent. Therefore, this form of learn-

ing keeps it as a strong dependence of the operation of state spaces and actions that

produce an explosion on data which becomes a problem in many situations. On the

other hand, we have the Data mining which can be seen as an area of artificial intel-

ligence that seeks to extract information or patterns from large amounts of data either

stored in databases or flowing in streams.

The main contribution of this work is to show how the techniques of data min-

ing can be used to select the most relevant features and actions from reinforcement

learning environments. The objective of this selection is to reduce the complexity of

the problem and the amount of memory used by the agent thus leading to faster con-

vergence. The difficulty in using data mining techniques in reinforcement learning

environments is due to the lack of states and actions explored by the agent stored in

a database. This work also contributes by proposing a storage schema for the visited

states and actions performed by the agent.

In this study, the method of selection of attributes and actions was validated

experimentally on an issue where the reinforcement learning is the most appropriate

approach; the dribble in robot soccer - RoboCup 2D. This problem is composed of 23

continuous variables and 113 actions available to the agent which results in a memo-

ry consumption of approximately 18MB when the traditional is used com-

bined with the tile-coding technique. The experiments’ results show that the amount

of variables in the environment were reduced by 56% and the amount of actions by

85%, which resulted in a reduction in memory consumption of 95% and an increase

in performance of up to 10% according to the relative frequency distribution of

agents’ success. The approach proposed here is both easy to use and efficient.

Keywords: Reinforcement Learning, Intelligent Agents, RoboCup, Data Mining, Fea-

ture and Action Selection.

Page 11: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Sumário

CAPÍTULO 1 INTRODUÇÃO ............................................................................................................................... 1

1.1 APRENDIZAGEM POR REFORÇO E A ROBOCUP............................................................................... 1

1.2 MOTIVAÇÃO ................................................................................................................................... 3

1.3 CONTEXTUALIZAÇÃO ...................................................................................................................... 5

1.4 OBJETIVOS..................................................................................................................................... 7

1.5 CONTRIBUIÇÕES ............................................................................................................................ 8

1.6 DESCRIÇÃO DA DISSERTAÇÃO ....................................................................................................... 9

1.7 ORGANIZAÇÃO DA DISSERTAÇÃO ................................................................................................... 9

CAPÍTULO 2 MODELO COMPUTACIONAL ........................................................................................................11

2.1 APRENDIZADO POR DIFERENÇA TEMPORAL...................................................................................12

2.1.1 Rastro de Elegibilidade ..........................................................................................................13

2.1.1.1 Sarsa( ) .............................................................................................................................................. 14

2.1.1.2 Método Q( )........................................................................................................................................ 16

2.2 CONTROLE COM APROXIMADOR DE FUNÇÕES ...............................................................................17

2.3 TILE CODING (CMAC) ..................................................................................................................19

CAPÍTULO 3 AMBIENTE DE TESTE ....................................................................................................................23

3.1 VISÃO GERAL DO SIMULADOR .......................................................................................................23

3.2 VISÃO GERAL DO AGENTE.............................................................................................................25

3.2.1 Sensor Visual .........................................................................................................................26

3.2.2 Sensores Auditivos ................................................................................................................28

3.2.3 Sensores Corporais ...............................................................................................................29

3.3 MODELAGEM DO AMBIENTE DO DRIBLE .........................................................................................30

3.3.1 Treinador ................................................................................................................................34

3.3.2 Comportamento dos Oponentes ...........................................................................................34

3.3.2.1 Time UvA Trilearn .............................................................................................................................. 35

3.3.3 Implementação do Agente ....................................................................................................36

Page 12: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

xii

CAPÍTULO 4 MINERAÇÃO DE DADOS NA APRENDIZAGEM POR REFORÇO .......................................................39

4.1 SELEÇÃO DE ATRIBUTOS ...............................................................................................................40

4.1.1 LVF - Las Vegas Filter ...........................................................................................................42

4.1.2 Taxa de Ganho.......................................................................................................................45

4.1.3 Regressão Linear e o Coeficiente de Correlação................................................................46

4.2 SELEÇÃO DE AÇÕES .....................................................................................................................47

4.3 APRENDIZAGEM POR REFORÇO E A MINERAÇÃO DE DADOS ..........................................................48

4.3.1 Armazenamento e Seleção dos dados ................................................................................50

CAPÍTULO 5 EXPERIMENTOS E ANÁLISE ESTATÍSTICA DOS DADOS ..................................................................52

5.1 TREINAMENTO DO AGENTE ...........................................................................................................52

5.2 SELEÇÃO DE ATRIBUTOS ...............................................................................................................55

5.2.1 Treinamento com Todos os Atributos...................................................................................56

5.2.1.1 Análise da Correlação dos Atributos ................................................................................................. 61

5.2.2 Taxa de Ganho.......................................................................................................................63

5.2.3 Las Vegas Filter .....................................................................................................................68

5.3 SELEÇÃO DE AÇÕES .....................................................................................................................72

5.3.1 Análise das Ações com Todos os Atributos .........................................................................73

5.3.2 Análise das Ações com Atributos Eliminados por Taxa de Ganho ....................................75

5.3.3 Análise das Ações com Atributos Eliminados por LVF .......................................................76

5.3.4 Remoção das Ações nos Modelos Discutidos .....................................................................77

5.4 COMPARAÇÃO DOS MODELOS .......................................................................................................80

5.4.1 Teste do Desempenho ..........................................................................................................80

5.4.2 Uso da Memória .....................................................................................................................82

5.5 QUALIDADE DO DRIBLE .................................................................................................................84

CAPÍTULO 6 CONCLUSÃO ................................................................................................................................86

6.1 RESULTADOS E DISCUSSÕES ........................................................................................................87

6.2 CONTRIBUIÇÕES E RELEVÂNCIA ....................................................................................................90

6.3 TRABALHOS FUTUROS ..................................................................................................................91

APÊNDICE A APRENDIZAGEM POR REFORÇO ..................................................................................................93

A.1 INTRODUÇÃO .................................................................................................................................93

A.1.1 Política Ótima .........................................................................................................................96

A.2 PROGRAMAÇÃO DINÂMICA ............................................................................................................97

A.2.1 Processo de Aprendizagem ..................................................................................................98

A.2.1.1 Policy Evaluation ....................................................................................................................98

A.2.1.2 Policy Improvement ................................................................................................................99

A.2.1.3 Policy Iteration ...................................................................................................................... 100

Page 13: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

xiii

A.2.1.4 Value Iteration ....................................................................................................................... 102

A.3 ALGORITMOS DA APRENDIZAGEM POR REFORÇO ........................................................................ 103

A.3.1 Monte Carlo .......................................................................................................................... 104

A.3.1.1 Monte Carlo On-Policy ......................................................................................................... 105

A.3.1.2 Monte Carlo Off-Policy ......................................................................................................... 107

APÊNDICE B MODELOS BASEADOS NO GRADIENTE DESCENDENTE ............................................................... 110

B.1 INTRODUÇÃO ............................................................................................................................... 110

B.1.1 Algoritmo do Mínimo Quadrado Médio ............................................................................... 112

B.2 REDES NEURAIS MULTILAYER PERCEPTRON .............................................................................. 114

REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................................................................... 118

Page 14: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

xiv

Lista de Figuras

Visão mecânica da técnica de elegibility traces. Fonte: (Sutton & Barto, 1998) .................... 14

Alguns tilings sobrepostos. Nesta figura cada tile é endereçado por duas variáveis, e . A

generalização é obtida entre as regiões sobrepostas. A sobreposição dos tiles torna possível

a experiência obtida em uma região ser compartilhada entre seus vizinhos. ....................... 21

Monitor. .............................................................................................................................. 24

Estrutura do Agente. ............................................................................................................ 25

Posições de todas as linhas e bandeiras do campo. .............................................................. 25

Campo de visão do agente. Os objetos são representados pelos círculos pretos, onde a, e, c,

d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos pelo agente se estiverem

dentro do seu ângulo de visão determinado por view_angle, o jogador a, no entanto, pode

ser sentido pelo agente. O goleiro g e a bola b não são vistos pelo agente. Unum_far_length,

unum_too_far_length, team_far_length e team_too_far_length são constantes que

representam a distância de um objeto e, por padrão, são definidos como 20, 30, 40 e 60

(metros), respectivamente. Fonte: (Stone, 1998). ................................................................ 27

Estados finais de um episódio. (a) Agente passou o oponente, mas o estado final não

aparenta ser um drible. (b) Agente passou o oponente deixando-o atrás do seu corpo. Neste

caso, o estado final aparenta mais ser um drible. ................................................................. 31

Ambiente de treinamento .................................................................................................... 32

Busca exaustiva pelo espaço de atributos. O ponto de partida pode iniciar sem nenhum

atributo (visualização top-down) ou com todos atributos (visualização bottom-up). ............ 40

Esquema Snowflake de armazenamento do treinamento do agente. Os Dados de

treinamento estão armazenados em duas tabelas principais: Resultado e ResultadoTemAção.

............................................................................................................................................ 51

Page 15: Pós-Graduação em Ciência da Computação · Paulemir Campos, Paulo Gonçalves e Rubens Bernante, ... d e f são jogadores, g é o goleiro e b é a bola. Os objetos são vistos

Decaimento exponencial da taxa de aprendizado. ............................................................... 56

Curvas de desempenho (média de dez execuções) do agente com todas as variáveis,

mudando apenas o parâmetro alpha (taxa de aprendizado). ............................................... 57

Curvas de desempenho (média de dez execuções) do agente com todas as variáveis,

mudando apenas o parâmetro E. ......................................................................................... 58

Curvas de desempenho (média de dez execuções) do agente com todas as variáveis,

mudando apenas o parâmetro lambda (elegibility traces).................................................... 59

Curvas de desempenho (média de dez execuções) do agente com todas as variáveis,

mudando apenas a quantidade de tilings. ............................................................................ 59

Curvas de desempenho (média de dez execuções) do agente com todas as variáveis e com a

combinação dos melhores valores para os parâmetros gamma, alpha, E, lambda e

quantidade de tilings. .......................................................................................................... 60

Correlação entre as variáveis com coeficiente maior que sete décimos. Dados retirados do

treinamento com todas as variáveis. .................................................................................... 62