ComenzarEmpieza gratis

Aplicar iteración de políticas para obtener la política óptima

La iteración de políticas es una técnica fundamental en RL para encontrar una política óptima. Consta de dos pasos principales: la evaluación de la política, donde calculas la función de valor de estado para una política dada, y la mejora de la política, donde actualizas la política basándote en esos valores. Aplicarás estos pasos de forma iterativa hasta converger a la política óptima en el entorno personalizado MyGridWorld.

La función render_policy() se usará para mostrar los pasos que sigue un agente según una política.

Las funciones compute_state_value(state, policy) y compute_q_value(state, action, policy) ya están precargadas para ti.

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Editar y ejecutar código