Definire una policy deterministica
In questo esercizio lavorerai con un ambiente personalizzato chiamato MyGridWorld, lo stesso che hai visto nel video. Questo ambiente è una griglia in cui l'obiettivo dell'agente è raggiungere il diamante il più rapidamente possibile. Il tuo compito è definire una policy che guidi il comportamento dell'agente come mostrato nella figura qui sotto.

Le azioni sono rappresentate così: (0 → sinistra, 1 → giù, 2 → destra, 3 → su).
La libreria gymnasium è stata importata per te come gym, insieme alla funzione render().
Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____