IniziaInizia gratis

Definire una policy deterministica

In questo esercizio lavorerai con un ambiente personalizzato chiamato MyGridWorld, lo stesso che hai visto nel video. Questo ambiente è una griglia in cui l'obiettivo dell'agente è raggiungere il diamante il più rapidamente possibile. Il tuo compito è definire una policy che guidi il comportamento dell'agente come mostrato nella figura qui sotto.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Le azioni sono rappresentate così: (0 → sinistra, 1 → giù, 2 → destra, 3 → su).

La libreria gymnasium è stata importata per te come gym, insieme alla funzione render().

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Modifica ed esegui il codice