Eine deterministische Policy definieren
In dieser Übung arbeitest du mit einer benutzerdefinierten Umgebung namens MyGridWorld, derselben wie im Video. Diese Umgebung ist eine Gridworld, in der das Ziel des Agenten darin besteht, so schnell wie möglich den Diamanten zu erreichen. Deine Aufgabe ist es, eine Policy zu definieren, die das Verhalten des Agenten wie in der Abbildung unten vorgibt.

Aktionen sind wie folgt kodiert: (0 → links, 1 → runter, 2 → rechts, 3 → hoch).
Die Bibliothek gymnasium wurde für dich als gym importiert, ebenso die Funktion render().
Diese Übung ist Teil des Kurses
Reinforcement Learning mit Gymnasium in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____