ComenzarEmpieza gratis

Definir una política determinista

En este ejercicio, trabajarás con un entorno personalizado llamado MyGridWorld, el mismo que has visto en el vídeo. Este entorno es un grid world donde el objetivo del agente es llegar al diamante lo antes posible. Tu tarea es definir una política que guíe el comportamiento del agente según se indica en la figura de abajo.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Las acciones se representan como: (0 → left, 1 → down, 2 → right, 3 → up).

La biblioteca gymnasium ya se ha importado como gym, junto con la función render().

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Editar y ejecutar código