Inizia subitoInizia gratis

Definire una policy deterministica

In questo esercizio lavorerai con un ambiente personalizzato chiamato MyGridWorld, lo stesso che hai visto nel video. Questo ambiente è una griglia in cui l'obiettivo dell'agente è raggiungere il diamante il più rapidamente possibile. Il tuo compito è definire una policy che guidi il comportamento dell'agente come mostrato nella figura qui sotto.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Le azioni sono rappresentate così: (0 → sinistra, 1 → giù, 2 → destra, 3 → su).

La libreria gymnasium è stata importata per te come gym, insieme alla funzione render().

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Modifica ed esegui il codice