Een deterministisch beleid definiëren
In deze oefening werk je met een aangepaste omgeving genaamd MyGridWorld, dezelfde als in de video. Deze omgeving is een grid world waarin het doel van de agent is om zo snel mogelijk de diamant te bereiken. Jij definieert een beleid dat het gedrag van de agent stuurt, zoals aangegeven in de onderstaande figuur.

Acties worden weergegeven als: (0 → links, 1 → omlaag, 2 → rechts, 3 → omhoog).
De gymnasium-bibliotheek is al voor je geïmporteerd als gym, samen met de functie render().
Deze oefening maakt deel uit van de cursus
Reinforcement Learning met Gymnasium in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____