Definir una política determinista
En este ejercicio, trabajarás con un entorno personalizado llamado MyGridWorld, el mismo que has visto en el vídeo. Este entorno es un grid world donde el objetivo del agente es llegar al diamante lo antes posible. Tu tarea es definir una política que guíe el comportamiento del agente según se indica en la figura de abajo.

Las acciones se representan como: (0 → left, 1 → down, 2 → right, 3 → up).
La biblioteca gymnasium ya se ha importado como gym, junto con la función render().
Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____