Aplicar iteración de políticas para obtener la política óptima
La iteración de políticas es una técnica fundamental en RL para encontrar una política óptima. Consta de dos pasos principales: la evaluación de la política, donde calculas la función de valor de estado para una política dada, y la mejora de la política, donde actualizas la política basándote en esos valores. Aplicarás estos pasos de forma iterativa hasta converger a la política óptima en el entorno personalizado MyGridWorld.
La función render_policy() se usará para mostrar los pasos que sigue un agente según una política.
Las funciones compute_state_value(state, policy) y compute_q_value(state, action, policy) ya están precargadas para ti.
Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Complete the policy evaluation function
def policy_evaluation(policy):
V = {____: ____ for ____ in range(____)}
return V