LoslegenKostenlos starten

Übergangswahrscheinlichkeiten und Belohnungen

Die Cliff-Walking-Umgebung hat 48 Zustände, von 0 bis 47 durchnummeriert, Zeile für Zeile, von der linken oberen Ecke (0) bis zur rechten unteren Ecke (47). Dein Ziel ist es, die Struktur der Übergangswahrscheinlichkeiten und Belohnungen in diesem Setup zu untersuchen. Auffällig ist, dass alle Belohnungen, einschließlich der Belohnung für das Erreichen des Ziels, in dieser Umgebung negativ sind. Diese Designentscheidung betont, dass die Anzahl der Schritte minimiert werden soll, da jeder Schritt eine Strafe verursacht – Effizienz ist also ein Schlüsselaspekt beim Entwerfen effektiver Lernalgorithmen.

Die gymnasium-Bibliothek wurde als gym und die Umgebung als env importiert. Außerdem wurden num_states und num_actions aus der vorherigen Übung importiert.

Image showing the cliff walking environment.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Code bearbeiten und ausführen