ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode...
Transcript of ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode...
![Page 1: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/1.jpg)
lnteligência Artificial
Introdução ao Processo
Decisório de Markov
![Page 2: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/2.jpg)
Aprendizado - paradigmas
� Aprendizado supervisionado
� O crítico comunica a EA o erro relativo entre a ação que deve ser tomada idealmente pelo EE e a ação efetivamente escolhida pelo agente. Pares (corretos) de entrada/saída podem ser observados (ou demonstrados por um supervisor).
� Aprendizado por reforço
� O crítico comunica apenas uma indicação de desempenho (indicação
Inteligência Artificial CTC-17
� O crítico comunica apenas uma indicação de desempenho (indicação de quão bom ou ruim é o estado resultante), por vezes de modo intermitente e apenas quando situações dramáticas são atingidas (feedback indireto, com retardo).
� Aprendizado não-supervisionado
� O crítico não envia nenhum tipo de informação ao EA, não há “pistas” sobre as saídas corretas (geralmente utiliza-se regularidades, propriedades estatísticas dos dados sensoriais)� Busca-se encontrar padrões ou estruturas / agrupamentos nos dados. Inclui por exemplo
técnicas de clusterização
![Page 3: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/3.jpg)
Aprendendo em Ambientes Estocásticos
� O resultado (próximo estado) não depende apenas do estado atual e da ação do agente (estocástico)
� Outros fatores influenciam de modo não plenamente conhecido e por isso não diretamente modeláveis
Inteligência Artificial CTC-17
� o estado atual e a ação tomada definem um conjunto de possíveis estados sucessores com as respectivas probabilidades
![Page 4: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/4.jpg)
Problema de Decisão Sequencial� O problema de decisão sequencial ocorre quando a cada passo o
agente deve:
1. Observar o estado do sistema;
2. Escolher e realizar uma ação;
(Sistema evolui para um novo estado)
3. Observa um reforço imediato
Inteligência Artificial CTC-17
4. Repetir os passos 1 – 3
� Assume-se tempo discreto
![Page 5: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/5.jpg)
Exemplo
Inteligência Artificial CTC-17
![Page 6: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/6.jpg)
Exemplo - 2
Inteligência Artificial CTC-17
![Page 7: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/7.jpg)
Processo Decisório de Markov
� Método de decisão para problema de decisão sequencial com modelo de transição Markoviano e reforços aditivos
� O qualificador Markov significa que as transições dependem de um subconjunto dos últimos estados e da ação selecionada.
Inteligência Artificial CTC-17
ação selecionada.
![Page 8: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/8.jpg)
Definição formal de um PDM
Inteligência Artificial CTC-17
![Page 9: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/9.jpg)
Definição formal de um PDM - 2
Inteligência Artificial CTC-17
![Page 10: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/10.jpg)
Definição formal de um PDM - 3
Inteligência Artificial CTC-17
![Page 11: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/11.jpg)
Exemplo 1: Controle de Inventário� Problema: comprar uma quantidade de um certo
produto a intervalos regulares (em um total de N intervalos) de modo a satisfazer uma certa demanda
� Estado: sk = estoque no começo do período k� Ação: ak = compra feita no começo do período k� Uma perturbação aleatória w = demanda no período k,
Inteligência Artificial CTC-1711
� Uma perturbação aleatória wk = demanda no período k, respeitando uma certa distribuição de probabilidade
� Reforço rk = r(sk) + cak, onde r(sk) é o custo de estocar sk unidades do produto no período k e c é o custo unitário do produto comprado.
![Page 12: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/12.jpg)
Exemplo 1: Controle de Inventário� Evolução do estado: sk+1 = sk + ak - wk
� Função de custo a ser minimizada:
( ) ( ) ( )( )∑
−1N
Inteligência Artificial CTC-17
( ) ( ) ( )( )
++= ∑−
=
1N
0k
kkNocasrsrEsV
![Page 13: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/13.jpg)
Exemplo 2: Pêndulo Invertido
+F -F
Inteligência Artificial CTC-1713
� Problema: controlar um pêndulo invertido exercendo forças +F ou -F sobre a base do carrinho (controle bang-bang). “Controlar” significa não permitir que a barra caia ou que o carrinho choque-se com as paredes.
![Page 14: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/14.jpg)
Exemplo 2: Pêndulo Invertido
� Estado: quádrupla� Ação: +F ou -F� Reforço: -1 em caso de falha, senão 0.� Evolução do estado: sk+1 = f(sk , ak) (?)
( )tttt
xx θθ ∂∂ ,,,
Inteligência Artificial CTC-17
� Evolução do estado: sk+1 = f(sk , ak) (?)� Possível função de custo a ser minimizada:
desconto temporal γ < 1: POR QUÊ?
( )
= ∑∞
=0
Et
t
k
orsV γ
![Page 15: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/15.jpg)
O que é uma solução para um Problema de Markov?
� Uma sequencia de ações (plano) pode resolver um ambiente Estocástico?
Inteligência Artificial CTC-17
� Políticas (ou Estratégia) versus Planos…Formalização
![Page 16: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/16.jpg)
Exemplo MDP
� Descrição: Controle de Movimentação de robô modelado como um PDM� No início, robô está em l1� Objetivo é levar o robô até l4� Robô pode “deslizar” ao tentar se mover de uma posição
para outra
Inteligência Artificial CTC-17
para outra
![Page 17: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/17.jpg)
Exemplo MDP
Inteligência Artificial CTC-17
![Page 18: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/18.jpg)
Exemplo MDP - 2
Inteligência Artificial CTC-17
![Page 19: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/19.jpg)
Exemplo MDP - 3
Inteligência Artificial CTC-17
![Page 20: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/20.jpg)
Exemplo MDP - 4
Inteligência Artificial CTC-17
![Page 21: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/21.jpg)
O que é uma solução para o problema?
� Uma sequencia fixa de ações ou plano NÃO é capaz de resolver o problema de modo confiável…
� É necessário uma função que mapeie estados
Inteligência Artificial CTC-17
� É necessário uma função que mapeie estados para ações. Esta função geralmente é chamada de estratégia ou politica
![Page 22: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/22.jpg)
Exemplos de Políticas – Problema 1
Inteligência Artificial CTC-17
![Page 23: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/23.jpg)
Exemplos de Políticas – Problema 2
Inteligência Artificial CTC-17
![Page 24: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/24.jpg)
Estado inicial� Para cada estado s, há um
probabidade P(s) do sistema iniciar no estado s
� Por simplicidade, vamos considerar que existe um
Inteligência Artificial CTC-17
considerar que existe um estado inicial s onde:
![Page 25: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/25.jpg)
Histórico de Estados
Inteligência Artificial CTC-17
![Page 26: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/26.jpg)
Exemplo – Histórico de Estados
Inteligência Artificial CTC-17
![Page 27: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/27.jpg)
Exemplo – Histórico de Estados - 2
Inteligência Artificial CTC-17
![Page 28: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/28.jpg)
Exemplo – Histórico de Estados - 3
Inteligência Artificial CTC-17
![Page 29: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/29.jpg)
Qualidade de Políticas
� Em um PDM com transicões não deterministicas, Uma política pode garantir alcançar sempre o estado objetivo em um determinado número de passos ou custo ?
� Como definir quando uma política é melhor que outra? Chegar ao estado objetivo é o bastante?
Inteligência Artificial CTC-17
Chegar ao estado objetivo é o bastante?
� É necessário uma forma de medir a qualidade de uma dada política. Como ?
![Page 30: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/30.jpg)
Qualidade de Políticas - 2
� Qual o valor de uma política? Valores são na verdade associados a históricos…
� Mas como vimos, políticas induzem uma distribuição de probabilidades sobre históricos. Assim…
Inteligência Artificial CTC-17
� Essa qualidade (ou utilidade) pode ser medida através do valor esperado da adoção de uma política.
![Page 31: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/31.jpg)
Política Ótima
� Pode-se definir política ótima (π*) como a política com o maior valor esperado.
Inteligência Artificial CTC-17
� Pergunta: Pode-se afirmar que ao adotar um política ótima um agente A sempre obterá maior valor que outro agente B com uma política não ótima em um dado período de tempo?
![Page 32: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/32.jpg)
Funções de Utilidade podem incluir retornos negativos (Custo) e positivos (retorno)
Inteligência Artificial CTC-17
![Page 33: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/33.jpg)
Exemplo
Inteligência Artificial CTC-17
� Algum problema com recompensa infinita?
![Page 34: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/34.jpg)
Recompensa descontada� O tempo deveria influenciar o valor de recompensa?.....
� Uma recompensa de 100 dolares hoje é tão boa, quanto uma recompensa de 100 dólares daqui a seis meses?
� Para problemas com tempo infinito, é fundamental ter recompensas descontadas…. Porquê?
Inteligência Artificial CTC-17
![Page 35: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/35.jpg)
Fator de Desconto
Inteligência Artificial CTC-17
![Page 36: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/36.jpg)
Otimalidade de Políticas e Horizonte
� A maximização do valor esperado é o critério mais utilizado para determinar otimização de políticas.� Entretanto, isso é dependente do número de passos
(decisões) que o agente dispõe para agir. Isto é comumente chamado de horizonte de tomada de decisão.
Inteligência Artificial CTC-17
decisão.� O horizonte pode ser finito ou infinito
![Page 37: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/37.jpg)
MDP de Horizonte Finito e Políticas Estacionárias
Inteligência Artificial CTC-17
![Page 38: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/38.jpg)
Políticas Estacionárias e Horizonte Infinito
Inteligência Artificial CTC-17
![Page 39: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/39.jpg)
Comparação de políticas em Horizontes Infinitos
� Há, na verdade, três possibilidades:
Inteligência Artificial CTC-17
![Page 40: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/40.jpg)
Política Ótima� Então já sabemos o que é uma política ótima...
Inteligência Artificial CTC-17
� Como encontrar uma politica ótima dado um MDP ?
![Page 41: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/41.jpg)
Algoritmo para cálculo de política ótima
Inteligência Artificial CTC-17
![Page 42: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/42.jpg)
Algoritmo: Iteração de valor (Value Iteration)
Inteligência Artificial CTC-17
![Page 43: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/43.jpg)
Algoritmo: Iteração de valor (Value Iteration) - 2
Inteligência Artificial CTC-17
![Page 44: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/44.jpg)
Exemplo Deterministico – Função de Valor
Inteligência Artificial CTC-17
![Page 45: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/45.jpg)
Exemplo - 2
Inteligência Artificial CTC-17
![Page 46: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/46.jpg)
Calculando V(s)
� Início com valores nulos
Inteligência Artificial CTC-17
![Page 47: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/47.jpg)
Discussão da Iteração de Valor� Algoritmo de Iteração de valor computa um novo valor a cada
iteração e escolhe a política baseado nesses valores� Este algoritmo converge em número de iterações em tempo
polinomial do número de estados
� O número de estados geralmente é muito grande em problemas reais
É necessário examinar o espaço inteiro em cada iteração
Inteligência Artificial CTC-17
� É necessário examinar o espaço inteiro em cada iteração
� Por tal razão, o algoritmo demanda significativa quantidade de tempo e espaço para problemas com grande número de de estados
� Além disso, a função de transição propabilística p e os retornos devem ser conhecidos, mas muitas vezes não é este o caso!
![Page 48: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/48.jpg)
A equação de Bellman e o algoritmo de Iteração de Valor
� Vimos que uma política ótima é aquela que maximiza o valor esperado de seguir de tal política a partir de um estado inicial. Formalmente:
Inteligência Artificial CTC-17
![Page 49: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/49.jpg)
Equações de Otimalidade de Bellman
� Uma política ótima é uma política, logo:
� Para reforços determinísticos, fica:
Inteligência Artificial CTC-17
� Considere os seguintes operadores de Programação Dinâmica
![Page 50: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/50.jpg)
Teoremas de Programação Dinâmica
Inteligência Artificial CTC-17
� É possível demonstrar que a função V* é o ponto fixo do operador T (Equação de otimalidade de Bellman), ou
� Também é possível demonstrar que para uma dada política µ, a função Vµ é a única função limitada que satisfaz
![Page 51: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/51.jpg)
Algoritmos para MDP
� O algoritmo de Iteração de valor, nada mais é do que a aplicação recursiva do operador T, a uma aproximação inicial arbitrária V0
Inteligência Artificial CTC-17
![Page 52: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/52.jpg)
Outro algoritmo para MDP: Iteração de Política
Inteligência Artificial CTC-17
![Page 53: ctc17 cap5.2 IntroMDP.ppt [Modo de Compatibilidade]pauloac/ctc17/ctc17_cap4.3.pdfO horizonte pode ser finito ou infinito. MDP de Horizonte Finito e Políticas Estacionárias Inteligência](https://reader035.fdocumentos.tips/reader035/viewer/2022071604/614076d01664f1518558c599/html5/thumbnails/53.jpg)
Outro Exemplo Gridworld
Inteligência Artificial CTC-17