Aan de slagGa gratis aan de slag

Een deterministisch beleid definiëren

In deze oefening werk je met een aangepaste omgeving genaamd MyGridWorld, dezelfde als in de video. Deze omgeving is een grid world waarin het doel van de agent is om zo snel mogelijk de diamant te bereiken. Jij definieert een beleid dat het gedrag van de agent stuurt, zoals aangegeven in de onderstaande figuur.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Acties worden weergegeven als: (0 → links, 1 → omlaag, 2 → rechts, 3 → omhoog).

De gymnasium-bibliotheek is al voor je geïmporteerd als gym, samen met de functie render().

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Code bewerken en uitvoeren