Zustandswerte für eine Policy berechnen

Verwende erneut die deterministische Umgebung MyGridWorld. Jetzt sollst du die Wirksamkeit der Policy bewerten, die du in der vorherigen Übung definiert hast. Das machst du, indem du für jeden Zustand unter dieser Policy die Zustandswertfunktion berechnest.

Die Umgebung wurde als env importiert, zusammen mit den benötigten Variablen (terminal_state, num_states, policy, gamma).

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Übungsanweisungen

Vervollständige die Funktion compute_state_value(), um den Wert für jeden Zustand unter der gegebenen Policy zu berechnen.
Erstelle ein Dictionary state_values, in dem jeder Schlüssel der state ist und jeder Wert der dazugehörige Zustandswert.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Complete the function
def compute_state_value(state):
    if state == terminal_state:
        return ____
    action = ____
    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return ____

# Compute all state values 
state_values = {____: ____ for ____ in range(____)}

print(state_values)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Tauche ein in die spannende Welt des Reinforcement Learning (RL) und erkunde grundlegende Konzepte, Rollen und Anwendungsfälle. Navigiere durch das RL-Framework und entdecke die Interaktion zwischen Agent und Umgebung. Außerdem lernst du, wie du die Gymnasium-Bibliothek nutzt, um Umgebungen zu erstellen, Zustände zu visualisieren und Aktionen auszuführen – so baust du ein praktisches Fundament für RL-Konzepte und -Anwendungen auf.

Exercise 1: Grundlagen des Reinforcement Learning Exercise 2: Was ist Reinforcement Learning?Exercise 3: RL vs. andere ML-Teildisziplinen Exercise 4: Szenarien für den Einsatz von RL Exercise 5: Das RL-Framework verstehen und anwenden Exercise 6: RL-Interaktionsschleife Exercise 7: Episodische und kontinuierliche RL‑Aufgaben Exercise 8: Abgezinste Returns für Agentenstrategien berechnen Exercise 9: Mit Gymnasium-Umgebungen interagieren Exercise 10: Eine Mountain-Car-Umgebung einrichten Exercise 11: Das Mountain-Car-Environment visualisieren Exercise 12: Interaktion mit der Frozen-Lake-Umgebung

Vertiefe dein Wissen im Bereich RL mit Fokus auf modellbasiertes Lernen. Entschlüssele die Komplexität von Markov-Entscheidungsprozessen (MDPs) und verstehe ihre wesentlichen Bestandteile. Erweitere deinen Werkzeugkasten mit Policies und Wertfunktionen. Sammle Erfahrung in der Policy-Optimierung mithilfe von Policy Iteration und Value Iteration.

Exercise 1: Markow-Entscheidungsprozesse Exercise 2: Eigene MDP-Komponenten für Frozen Lake Exercise 3: Zustands- und Aktionsräume erkunden Exercise 4: Übergangswahrscheinlichkeiten und Belohnungen Exercise 5: Policies und Zustandswertfunktionen Exercise 6: Eine deterministische Policy definieren Exercise 7: Zustandswerte für eine Policy berechnen

Aktuelle Übung

Exercise 8: Policies vergleichen Exercise 9: Aktionswertfunktionen Exercise 10: Q-Werte berechnen Exercise 11: Eine Policy verbessern Exercise 12: Policy Iteration und Value Iteration Exercise 13: Policy Iteration für die optimale Policy anwenden Exercise 14: Value Iteration implementieren

Begib dich auf eine Reise durch die dynamische Welt des modellfreien Lernens im RL. Lerne die grundlegenden Monte-Carlo-Methoden kennen und wende First-Visit- und Every-Visit-Monte-Carlo-Vorhersageverfahren an. Wechsle anschließend zum Temporal-Difference-Lernen und erkunde den SARSA-Algorithmus. Zum Schluss tauchst du in Q-Learning ein und analysierst seine Konvergenz in anspruchsvollen Umgebungen.

Exercise 1: Monte-Carlo-Methoden Exercise 2: Episodenerzeugung für Monte-Carlo-Methoden Exercise 3: First-Visit Monte Carlo implementieren Exercise 4: Every-Visit Monte Carlo implementieren Exercise 5: Temporal-Differenzen-Lernen Exercise 6: Die SARSA-Aktualisierungsregel implementieren Exercise 7: 8x8 Frozen Lake mit SARSA lösen Exercise 8: Q-Learning Exercise 9: Q-Learning-Aktualisierungsregel implementieren Exercise 10: 8x8 Frozen Lake mit Q-Learning lösen Exercise 11: Richtlinie auf einem rutschigen Frozen Lake evaluieren

Tauche ein in fortgeschrittene Strategien im modellfreien RL, mit Fokus auf die Verbesserung von Entscheidungsalgorithmen. Lerne Expected SARSA für genauere Policy-Updates kennen und Double Q-Learning, um Überschätzungstendenzen zu reduzieren. Erkunde den Trade-off zwischen Exploration und Exploitation und beherrsche epsilon-greedy- sowie epsilon-decay-Strategien für optimale Aktionswahl. Stelle dich dem Multi-Armed-Bandit-Problem und wende Strategien an, um Entscheidungsprobleme unter Unsicherheit zu lösen.

Exercise 1: Expected SARSA Exercise 2: Expected-SARSA-Aktualisierungsregel Exercise 3: Expected SARSA anwenden Exercise 4: Double Q-Learning Exercise 5: Implementiere die Double-Q-Learning-Aktualisierungsregel Exercise 6: Double Q-learning anwenden Exercise 7: Exploration und Exploitation ausbalancieren Exercise 8: Epsilon-greedy-Funktion definieren Exercise 9: CliffWalking mit epsilon-gieriger Strategie lösen Exercise 10: CliffWalking mit abgeklungener Epsilon-greedy-Strategie lösen Exercise 11: Multi-armed Bandits Exercise 12: Einen Multi-Armed-Bandit erstellen Exercise 13: Einen Multi-Armed Bandit lösen Exercise 14: Konvergenz in einem Multi-Armed-Bandit beurteilen Exercise 15: Glückwunsch!