Diagrams Gabriel Detoni. Levels of Responsability Estratégia Previsão de Estados Histórico de...

Post on 07-Apr-2016

217 views 1 download

Transcript of Diagrams Gabriel Detoni. Levels of Responsability Estratégia Previsão de Estados Histórico de...

Diagrams

Gabriel Detoni

Levels of Responsability

Estratégia

Previsão de Estados

Histórico de Estados

Leitura de Estados

Aglomeração

Jogada

Atividade

Ação

Movimento

Tática

Operação

Interface

Levels of Responsability

Estratégia

Leitura de Dados

Divisão de Grupos

Jogada

Atividade

Ação

Movimento

Organização

Coordenação

Execução

Visão geral das interconexões

Estratégia

Leitura de Dados

Divisão de Grupos

Jogada

Atividade

Ação

Movimento

Message Passing

Entities

Entidade

W

W

W

Entities

Atividade

Atividade

Atividade

Ação Jogada

Leitura de

Estado

Movimento

Módulo de Movimento

Módulo de Visão

Estratégia

Grupo

Lista de receptores

Thread

R1

Rn...

Lista de receptores.

T1

T3

T2

Esquemático de uma TC

Tarefa Conexionista (TC)

netT2

netT3

netT1

a =

F(a, netT1, netT2, netT3)

o = f(a)

Regra de propagação

A. B.

T1

T3

T2

TC

T1

T3

T2

TC

m1

m2

m3

m4

m5

Thread Conexionista

Função de ativação

Pontos de extensão de uma TC

Lista de TCs à qual esta TC se conecta

Tipos de estímulo aceitos

Variáveis de instância

Padrão deconectividade

Regra de ativação

Estado de ativação

Função de saídaFunção de Ativação

Workflow de uma TC

Estímulo recebido

Atualização do estado de ativação

Envio de estímulos às

TCs conectadas

Produção de novos

estímulos

Estímulo válido?

S

N

Padrão de conectividade

T1

T3

T2

TC

T5

T4

TC

T1

T3

TC

T6

TC

TS

TS

TS

TC

Regra de propagação

netT2

netT1

Stimulus Datagram

Estímulo

DadosRótulo In

(x, ix)

Processamento paralelo

Computador Serial

Tarefa 1 Tarefa 2

Computador Paralelo

Tarefa 1

Tarefa 2

Tempo

Attack

Position

Defense

Strategy: instabilitySt

rate

gy R

ecom

men

datio

n

Time

Strategy Recomm

endation Thresholds

Position

Attack

Defense

Strategy: stableSt

rate

gy R

ecom

men

datio

n

Time

Strategy Recomm

endation Thresholds

P1 P2 P3 P4

Starting-up Entities

Entidade A

W

W

WEntidade B

...

W

W

...

...

...

Application Entities

Evitar Obstáculo

Ir Para

Conduzir Bola

Chutar

Aglomeração

Movimento

Mover

Driblar

Receber Passe

Cruzar Bola

Ficar Entre

Passar Bola

Ataque Individual

Cruzamento

Suporte Ataque

Cobrar Falta

Posicionar para

PenaltyPosicionar para Inicio

Defesa Individual

Ler Estado

Atividades

Ações

Instanciação de TCs

Conduz... BolaChutarIr Para Receb...

Bola Chutar

Cruzamento

Receb... Cruza...

Cruzar Bola

Jogada instancia

Atividades

Atividade

Topologia de uma Jogada

Cond. BolaChutar

Aglomeração

Movimento

Receb. Cruz.

Cruzar Bola

Cruzamento

Estratégia

Ler Estado

Ir Para Receb.Bola Chutar

...

Simulator

Interface Gráfica

Sistema de Controle

Simulador

API de movimento

API de visão

Arquiteturas de HW

Memória

SIMD

UP M

M

M

UP

UP

...UC

...

FI

FD

FD

FD

FI

FI

FI

Memória

MIMD

M

M

M

...

UP

UP

UP

...

FD

FD

FD

FI

FI

FI

UC

UC

UC

...

FI

FI

FI

...

Shared Memory

Processador Processador Memória

Distributed Memory

Processador

Memória

Processador

Memória

Processador

Memória

Tests

h i j

k l

m

L1

L2

L3

h2 i2 j2

k2 l2

m2

n

L4

Tests Topology

I JH

K L

M

E/S

L1

L2

L3

a, b

c

h i j

f, gd, e

k l

I2 J2H2

K2 L2

M2

a2,b2

c2

h2 i2 j2

f2, g2

d2, e2

k2 l2

NL4m2m

Balanço de carga 6:6

hij

kl

m

hij

123456

klhij

mklhij

mklhij

mklhij

mklhij

mklhij

mkl

m

CPU

Tempo

Balanço de carga 6:3

hij

kl

mhij

123

kl

hij

mkl

m

CPU

Tempo

kl

hij

m

TempoTotal = TempoMédio * NumTarefas / NumCpuNumCpu = 3NumTarefas = 6

TempoTotal = 2 (por tarefa)

Sem balanço de carga 6:6

hij

kl

m

ij

123456

kl

ij

m

ij

CPU

Tempo

h h

kl

m

h

kl

m

Sem balanço de carga 6:3

hij

kl m

ij

123

kl

i jm

ij

CPU

Tempo

h hkl m

hkl m

d = desbalanceamento tg = tempo da maior tarefa = 2tm = tempo médio = 1tp = tempo perdidotu = tempo útiltt = tempo total nt = numero de tarefas = 6c = numero de cpus = 3d = tg – tm = 1tp = d / c * tm = 1/6tu = 1 – tp = 5/6tt = tu * tm * nt / c = 5/3

h hi j k

l mi

jkl m

hi j k

l m

hi

jkl m

Sem balanço de carga 6:3

hij

kl m

ij

123

kl

ijm

ij

CPU

Tempo

h hkl m

hkl m

d = desbalanceamento tg = tempo da maior tarefa = 2tm = tempo médio = 1tp = tempo perdidotu = tempo útiltt = tempo total nt = numero de tarefas = 6c = numero de cpus = 3d = tg – tm = 1tp = d / c * tm = 1/6tu = 1 – tp = 5/6tt = tu * tm * nt / c = 5/3

Observable/Observer

Observable

Observer

Observer

Wumpus

Ir Para Cima

Ir Para Baixo

Ir Para Direita

Leitura de

Estado

Movimento

Módulo de Visão

Ir Para Esquerda

Caçar Recompe

nsa

Atividade

Ação Estratégia

Fugir de Ameaça

Estratégia

Como aprender novas atividades?

Ir Para Cima

Ir Para Baixo

Ir Para Direita

Movimento

Ir Para Esquerda

Atividades conhecidas Ações Conhecidas

?

O que é uma ação?

Ir Para Cima

Ir Para Baixo

Ir Para Direita

Movimento

Ir Para Esquerda

Atividades conhecidas Ações Conhecidas

?

Uma ação é um mapeamento. Dado um estado atual, quais atividades me levam mais próximo a

um objetivo.

O que é uma ação?

Ir Para Baixo

Ir Para Esquerda

Ação ?

+ =

+ =

Estado Feedback

Exemplo: maximize a função y = 20 - x²

Incrementar

Função

Estado

Decrementar y

xx

Agente reativo

Rpt

Rcp

Ambiente

Ini

Iniciativa RepetiçãoRecompensa

Ações

Vazio Brisa Fosso

Apenas recebe um estímulo e repete a ação anterior se a recompensa for positiva, ou realiza uma outra ação aleatória caso seja negativa.

Agente com memória

RptRcpIni

A entidade associativa recebe um movimento e o combina com uma sensação, gerando uma nova entidade que associa ambas.

Ass

Associação

Agente com memória

RptRcpIni

1. Sensação 1 é recebida

2. Comando é enviado

3. Sensação 2 é recebida

4. Associação criada

Ass

1

2

Ciclo reativo realiza os

movimentos

3

Agente com memória

RptRcpIni

1. Sensação 1 é recebida

2. Comando é enviado

3. Sensação 2 é recebida

4. Associação criada

Ass

Ciclo reativo realiza os

movimentos

4

M1

Agente com memóriaRcp

1. Comando C é enviado

2. Sensação S1 é recebida

3. Recompensa R é recebida (-)

4. Associação criada pela regra:

1. R ├ S1 = C2. ¬R ├ S1 = ¬C

Ass

1

2

3

Agente com memóriaRcp

Ass

4

M1

1. Comando C é enviado

2. Sensação S1 é recebida

3. Recompensa R é recebida

4. Associação criada pela regra:

1. R ├ C Λ S1 = C

2. ¬R ├ C Λ S1 = ¬C

Conexão inibitória

Agente com memória (2)Rcp

Ass

M1

1. Comando C é enviado

2. Sensação S1 é recebida

3. Memória M1 é disparada inibindo Ass1

Agente com memória (2)Rcp

Ass

M1

1. Comando C é enviado

2. Sensação S1 é recebida

3. Recompensa R é recebida (+)

4. M2 é gerada

1

M2

Agente com memória (2)Rcp

Ass

M1

1. Comando C é enviado

2. Sensação S1 é recebida

3. Recompensa R é recebida (+)

4. M2 é gerada1

M2

Modelo proposto

xor

0

1

1

1

XOR A B0 0 01 0 11 1 00 1 1

A or B 0

1

1

1

not(A and B)

xor

1

1

-1

-1

1

1

-1

2

0

Modelo proposto

xor

0

1

1

1

XOR A B0 0 01 0 11 1 00 1 1

A or B 0

1

0

1

not(A and B)

xor

1

1

-1

-1

1

1

-1

2

0

Agente com memória: Posição/Sensação

M1

1. Comando C é enviado

2. Sensação S1 é recebida

3. Recompensa R é recebida (+)

4. M2 é gerada1

S1 S2 S3 S4

Agente com memória: Sensações/Comando1. Comando C é

enviado2. Sensação S1 é

recebida3. Recompensa R é

recebida (+)4. M2 é gerada

S1 S2 S3 S4

Memória associativa normal: Sensações/Comando

? ?Sensações da posição atual, bem como das

imediatamente vizinhas, são providas.

Sensações da posição atual, bem como das

imediatamente vizinhas, são providas.

R

Recompensa ajusta pesos de neurônios ativados

simultaneamente.

Memória associativa TC: Sensações/Comando

S

As sensações para cada

posição são enviadas

O comando executado é

enviado

M

C

S1S2S3

R

A recompensa é enviada.

Memória associativa TC: Sensações/Comando

S(p): sensação para posição pC: comandoR: recompensa

S(p)

C

R

S(p)

S(p)S(p)

S1

?

1 .1 .3

.2 .3 .4

.2 .1 .1

.2 .4 .2

S

C

R

Sistema de controle

Visão

Rádio

Sistema de Controle

Grupos

Campos potenciais 1

Campos potenciais 2

Campos potenciais 3

Receber passe

Aprendizado

Ch1

Ch2

Ch3

WrA

WrB

A

AAo receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.

Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.

H

K

Out

AHKHK

AH

K

BFG

Aprendizado

Ch1

Ch2

Ch3

WrA

WrB

A

A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.

Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.

H

K

Out

AHK

-

Aprendizado

Ch1

Ch2

Ch3

WrA

WrB

A

A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.

Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.

H

K

Out

AHK

-

Aprendizado

Ch1

Ch2

Ch3

WrA

WrB

A

A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.

Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.

H

K

Out

AHK

-

Aprendizado

Ch1

Ch2

Ch3

WrA

WrB

A

A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.

Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.

H

K

Out

AHK

-

Aprendizado

Ch1

Ch2

Ch3

WrA

WrB

A

A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.

Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.

H

K

Out

AHK

-