Policies vergleichen

Du bekommst zwei Zustandswertfunktionen (value_function_1 und value_function_2), die zwei unterschiedlichen Policies in der Umgebung MyGridWorld entsprechen. Deine Aufgabe ist es, diese Zustandswertfunktionen zustandsweise zu vergleichen, um zu bestimmen, welche Policy effektiver ist.

Die Variable num_states steht dir zur Verfügung.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Übungsanweisungen

Erstelle eine Liste one_is_better mit booleschen Werten, in der jedes Element prüft, ob der Zustandswert in value_function_1 größer oder gleich dem Zustandswert in value_function_2 ist.
Erstelle eine Liste two_is_better mit booleschen Werten, in der jedes Element prüft, ob der Zustandswert in value_function_2 größer oder gleich dem Zustandswert in value_function_1 ist.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

value_function_1 = {0: 1, 1: 2, 2: 3, 3: 7, 4: 6, 5: 4, 6: 8, 7: 10, 8: 0}
value_function_2 = {0: 7, 1: 8, 2: 9, 3: 7, 4: 9, 5: 10, 6: 8, 7: 10, 8: 0}

# Check for each value in policy 1 if it is better than policy 2
one_is_better = [____ >= ____ for state in range(num_states)]

# Check for each value in policy 2 if it is better than policy 1
two_is_better = [____ >= ____ for state in range(num_states)]

if all(one_is_better):
  print("Policy 1 is better.")
elif all(two_is_better):
  print("Policy 2 is better.")
else:
  print("Neither policy is uniformly better across all states.")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Tauche ein in die spannende Welt des Reinforcement Learning (RL) und erkunde grundlegende Konzepte, Rollen und Anwendungsfälle. Navigiere durch das RL-Framework und entdecke die Interaktion zwischen Agent und Umgebung. Außerdem lernst du, wie du die Gymnasium-Bibliothek nutzt, um Umgebungen zu erstellen, Zustände zu visualisieren und Aktionen auszuführen – so baust du ein praktisches Fundament für RL-Konzepte und -Anwendungen auf.

Exercise 1: Grundlagen des Reinforcement Learning Exercise 2: Was ist Reinforcement Learning?Exercise 3: RL vs. andere ML-Teildisziplinen Exercise 4: Szenarien für den Einsatz von RL Exercise 5: Das RL-Framework verstehen und anwenden Exercise 6: RL-Interaktionsschleife Exercise 7: Episodische und kontinuierliche RL‑Aufgaben Exercise 8: Abgezinste Returns für Agentenstrategien berechnen Exercise 9: Mit Gymnasium-Umgebungen interagieren Exercise 10: Eine Mountain-Car-Umgebung einrichten Exercise 11: Das Mountain-Car-Environment visualisieren Exercise 12: Interaktion mit der Frozen-Lake-Umgebung

Vertiefe dein Wissen im Bereich RL mit Fokus auf modellbasiertes Lernen. Entschlüssele die Komplexität von Markov-Entscheidungsprozessen (MDPs) und verstehe ihre wesentlichen Bestandteile. Erweitere deinen Werkzeugkasten mit Policies und Wertfunktionen. Sammle Erfahrung in der Policy-Optimierung mithilfe von Policy Iteration und Value Iteration.

Exercise 1: Markow-Entscheidungsprozesse Exercise 2: Eigene MDP-Komponenten für Frozen Lake Exercise 3: Zustands- und Aktionsräume erkunden Exercise 4: Übergangswahrscheinlichkeiten und Belohnungen Exercise 5: Policies und Zustandswertfunktionen Exercise 6: Eine deterministische Policy definieren Exercise 7: Zustandswerte für eine Policy berechnen Exercise 8: Policies vergleichen

Aktuelle Übung

Exercise 9: Aktionswertfunktionen Exercise 10: Q-Werte berechnen Exercise 11: Eine Policy verbessern Exercise 12: Policy Iteration und Value Iteration Exercise 13: Policy Iteration für die optimale Policy anwenden Exercise 14: Value Iteration implementieren

Begib dich auf eine Reise durch die dynamische Welt des modellfreien Lernens im RL. Lerne die grundlegenden Monte-Carlo-Methoden kennen und wende First-Visit- und Every-Visit-Monte-Carlo-Vorhersageverfahren an. Wechsle anschließend zum Temporal-Difference-Lernen und erkunde den SARSA-Algorithmus. Zum Schluss tauchst du in Q-Learning ein und analysierst seine Konvergenz in anspruchsvollen Umgebungen.

Exercise 1: Monte-Carlo-Methoden Exercise 2: Episodenerzeugung für Monte-Carlo-Methoden Exercise 3: First-Visit Monte Carlo implementieren Exercise 4: Every-Visit Monte Carlo implementieren Exercise 5: Temporal-Differenzen-Lernen Exercise 6: Die SARSA-Aktualisierungsregel implementieren Exercise 7: 8x8 Frozen Lake mit SARSA lösen Exercise 8: Q-Learning Exercise 9: Q-Learning-Aktualisierungsregel implementieren Exercise 10: 8x8 Frozen Lake mit Q-Learning lösen Exercise 11: Richtlinie auf einem rutschigen Frozen Lake evaluieren

Tauche ein in fortgeschrittene Strategien im modellfreien RL, mit Fokus auf die Verbesserung von Entscheidungsalgorithmen. Lerne Expected SARSA für genauere Policy-Updates kennen und Double Q-Learning, um Überschätzungstendenzen zu reduzieren. Erkunde den Trade-off zwischen Exploration und Exploitation und beherrsche epsilon-greedy- sowie epsilon-decay-Strategien für optimale Aktionswahl. Stelle dich dem Multi-Armed-Bandit-Problem und wende Strategien an, um Entscheidungsprobleme unter Unsicherheit zu lösen.

Exercise 1: Expected SARSA Exercise 2: Expected-SARSA-Aktualisierungsregel Exercise 3: Expected SARSA anwenden Exercise 4: Double Q-Learning Exercise 5: Implementiere die Double-Q-Learning-Aktualisierungsregel Exercise 6: Double Q-learning anwenden Exercise 7: Exploration und Exploitation ausbalancieren Exercise 8: Epsilon-greedy-Funktion definieren Exercise 9: CliffWalking mit epsilon-gieriger Strategie lösen Exercise 10: CliffWalking mit abgeklungener Epsilon-greedy-Strategie lösen Exercise 11: Multi-armed Bandits Exercise 12: Einen Multi-Armed-Bandit erstellen Exercise 13: Einen Multi-Armed Bandit lösen Exercise 14: Konvergenz in einem Multi-Armed-Bandit beurteilen Exercise 15: Glückwunsch!