LoslegenKostenlos loslegen

Eine deterministische Policy definieren

In dieser Übung arbeitest du mit einer benutzerdefinierten Umgebung namens MyGridWorld, derselben wie im Video. Diese Umgebung ist eine Gridworld, in der das Ziel des Agenten darin besteht, so schnell wie möglich den Diamanten zu erreichen. Deine Aufgabe ist es, eine Policy zu definieren, die das Verhalten des Agenten wie in der Abbildung unten vorgibt.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Aktionen sind wie folgt kodiert: (0 → links, 1 → runter, 2 → rechts, 3 → hoch).

Die Bibliothek gymnasium wurde für dich als gym importiert, ebenso die Funktion render().

Diese Übung ist Teil des Kurses

Reinforcement Learning mit Gymnasium in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Code bearbeiten und ausführen