Definire una policy deterministica
In questo esercizio lavorerai con un ambiente personalizzato chiamato MyGridWorld, lo stesso che hai visto nel video. Questo ambiente è una griglia in cui l'obiettivo dell'agente è raggiungere il diamante il più rapidamente possibile. Il tuo compito è definire una policy che guidi il comportamento dell'agente come mostrato nella figura qui sotto.

Le azioni sono rappresentate così: (0 → sinistra, 1 → giù, 2 → destra, 3 → su).
La libreria gymnasium è stata importata per te come gym, insieme alla funzione render().
Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
esercizio interattivo pratico
Prova questo esercizio completando questo codice di esempio.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____