LoslegenKostenlos starten

Eine deterministische Policy definieren

In dieser Übung arbeitest du mit einer benutzerdefinierten Umgebung namens MyGridWorld, derselben wie im Video. Diese Umgebung ist eine Gridworld, in der das Ziel des Agenten darin besteht, so schnell wie möglich den Diamanten zu erreichen. Deine Aufgabe ist es, eine Policy zu definieren, die das Verhalten des Agenten wie in der Abbildung unten vorgibt.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Aktionen sind wie folgt kodiert: (0 → links, 1 → runter, 2 → rechts, 3 → hoch).

Die Bibliothek gymnasium wurde für dich als gym importiert, ebenso die Funktion render().

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Code bearbeiten und ausführen