LoslegenKostenlos loslegen

Übergangswahrscheinlichkeiten und Belohnungen

Die Cliff-Walking-Umgebung hat 48 Zustände, von 0 bis 47 durchnummeriert, Zeile für Zeile, von der linken oberen Ecke (0) bis zur rechten unteren Ecke (47). Dein Ziel ist es, die Struktur der Übergangswahrscheinlichkeiten und Belohnungen in diesem Setup zu untersuchen. Auffällig ist, dass alle Belohnungen, einschließlich der Belohnung für das Erreichen des Ziels, in dieser Umgebung negativ sind. Diese Designentscheidung betont, dass die Anzahl der Schritte minimiert werden soll, da jeder Schritt eine Strafe verursacht – Effizienz ist also ein Schlüsselaspekt beim Entwerfen effektiver Lernalgorithmen.

Die gymnasium-Bibliothek wurde als gym und die Umgebung als env importiert. Außerdem wurden num_states und num_actions aus der vorherigen Übung importiert.

Image showing the cliff walking environment.

Diese Übung ist Teil des Kurses

Reinforcement Learning mit Gymnasium in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Code bearbeiten und ausführen