Aplicando iteração de política para encontrar a política ótima
A iteração de política é uma técnica fundamental em RL para encontrar uma política ótima. Ela envolve duas etapas principais: avaliação de política, em que você calcula a função de valor de estado para uma política dada, e melhoria de política, em que você atualiza a política com base nesses valores. Você vai aplicar essas etapas de forma iterativa até convergir para a política ótima no ambiente personalizado MyGridWorld.
A função render_policy() será usada para mostrar os passos dados por um agente de acordo com uma política.
As funções compute_state_value(state, policy) e compute_q_value(state, action, policy) já foram carregadas para você.
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Complete the policy evaluation function
def policy_evaluation(policy):
V = {____: ____ for ____ in range(____)}
return V