Interaktion mit der Frozen-Lake-Umgebung

Jetzt navigierst du die Frozen-Lake-Umgebung, eine rasterbasierte Welt, in der Aktionen den Agenten in bestimmte Richtungen bewegen. Deine Aufgabe ist es, dir die Umgebung genau anzuschauen und manuell eine Liste von actions zu definieren, die den Agenten vom Start (oben links) bis zum Ziel (unten rechts) führt, ohne in Löcher zu fallen. In der Frozen-Lake-Umgebung werden Aktionen typischerweise wie folgt dargestellt:

0: links
1: unten
2: rechts
3: oben

Nachdem du deinen Code ausgeführt hast, navigiere unbedingt durch deine Plots, um den zurückgelegten Pfad zu sehen, indem du die Buttons "Previous Plot" und "Next Plot" verwendest. So verstehst du die Abfolge der Aktionen und ihre Ergebnisse besser.

gym und plt wurden zusammen mit der Funktion render() und der Variable env importiert.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Übungsanweisungen

Beobachte die Position des Agenten rechts und definiere eine Liste von actions, um den Agenten über den See bis zum Ziel zu navigieren.
Führe jede Aktion in der Liste über die for-Schleife aus.
Render die Umgebung nach jeder Aktion, um den Pfad des Agenten zu beobachten.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Define the sequence of actions
actions = [____]

for action in actions:
  # Execute each action
  state, reward, terminated, _, _ = ____
  # Render the environment
  ____
  if terminated:
  	print("You reached the goal!")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Tauche ein in die spannende Welt des Reinforcement Learning (RL) und erkunde grundlegende Konzepte, Rollen und Anwendungsfälle. Navigiere durch das RL-Framework und entdecke die Interaktion zwischen Agent und Umgebung. Außerdem lernst du, wie du die Gymnasium-Bibliothek nutzt, um Umgebungen zu erstellen, Zustände zu visualisieren und Aktionen auszuführen – so baust du ein praktisches Fundament für RL-Konzepte und -Anwendungen auf.

Exercise 1: Grundlagen des Reinforcement Learning Exercise 2: Was ist Reinforcement Learning?Exercise 3: RL vs. andere ML-Teildisziplinen Exercise 4: Szenarien für den Einsatz von RL Exercise 5: Das RL-Framework verstehen und anwenden Exercise 6: RL-Interaktionsschleife Exercise 7: Episodische und kontinuierliche RL‑Aufgaben Exercise 8: Abgezinste Returns für Agentenstrategien berechnen Exercise 9: Mit Gymnasium-Umgebungen interagieren Exercise 10: Eine Mountain-Car-Umgebung einrichten Exercise 11: Das Mountain-Car-Environment visualisieren Exercise 12: Interaktion mit der Frozen-Lake-Umgebung

Aktuelle Übung

Vertiefe dein Wissen im Bereich RL mit Fokus auf modellbasiertes Lernen. Entschlüssele die Komplexität von Markov-Entscheidungsprozessen (MDPs) und verstehe ihre wesentlichen Bestandteile. Erweitere deinen Werkzeugkasten mit Policies und Wertfunktionen. Sammle Erfahrung in der Policy-Optimierung mithilfe von Policy Iteration und Value Iteration.

Exercise 1: Markow-Entscheidungsprozesse Exercise 2: Eigene MDP-Komponenten für Frozen Lake Exercise 3: Zustands- und Aktionsräume erkunden Exercise 4: Übergangswahrscheinlichkeiten und Belohnungen Exercise 5: Policies und Zustandswertfunktionen Exercise 6: Eine deterministische Policy definieren Exercise 7: Zustandswerte für eine Policy berechnen Exercise 8: Policies vergleichen Exercise 9: Aktionswertfunktionen Exercise 10: Q-Werte berechnen Exercise 11: Eine Policy verbessern Exercise 12: Policy Iteration und Value Iteration Exercise 13: Policy Iteration für die optimale Policy anwenden Exercise 14: Value Iteration implementieren

Begib dich auf eine Reise durch die dynamische Welt des modellfreien Lernens im RL. Lerne die grundlegenden Monte-Carlo-Methoden kennen und wende First-Visit- und Every-Visit-Monte-Carlo-Vorhersageverfahren an. Wechsle anschließend zum Temporal-Difference-Lernen und erkunde den SARSA-Algorithmus. Zum Schluss tauchst du in Q-Learning ein und analysierst seine Konvergenz in anspruchsvollen Umgebungen.

Exercise 1: Monte-Carlo-Methoden Exercise 2: Episodenerzeugung für Monte-Carlo-Methoden Exercise 3: First-Visit Monte Carlo implementieren Exercise 4: Every-Visit Monte Carlo implementieren Exercise 5: Temporal-Differenzen-Lernen Exercise 6: Die SARSA-Aktualisierungsregel implementieren Exercise 7: 8x8 Frozen Lake mit SARSA lösen Exercise 8: Q-Learning Exercise 9: Q-Learning-Aktualisierungsregel implementieren Exercise 10: 8x8 Frozen Lake mit Q-Learning lösen Exercise 11: Richtlinie auf einem rutschigen Frozen Lake evaluieren

Tauche ein in fortgeschrittene Strategien im modellfreien RL, mit Fokus auf die Verbesserung von Entscheidungsalgorithmen. Lerne Expected SARSA für genauere Policy-Updates kennen und Double Q-Learning, um Überschätzungstendenzen zu reduzieren. Erkunde den Trade-off zwischen Exploration und Exploitation und beherrsche epsilon-greedy- sowie epsilon-decay-Strategien für optimale Aktionswahl. Stelle dich dem Multi-Armed-Bandit-Problem und wende Strategien an, um Entscheidungsprobleme unter Unsicherheit zu lösen.

Exercise 1: Expected SARSA Exercise 2: Expected-SARSA-Aktualisierungsregel Exercise 3: Expected SARSA anwenden Exercise 4: Double Q-Learning Exercise 5: Implementiere die Double-Q-Learning-Aktualisierungsregel Exercise 6: Double Q-learning anwenden Exercise 7: Exploration und Exploitation ausbalancieren Exercise 8: Epsilon-greedy-Funktion definieren Exercise 9: CliffWalking mit epsilon-gieriger Strategie lösen Exercise 10: CliffWalking mit abgeklungener Epsilon-greedy-Strategie lösen Exercise 11: Multi-armed Bandits Exercise 12: Einen Multi-Armed-Bandit erstellen Exercise 13: Einen Multi-Armed Bandit lösen Exercise 14: Konvergenz in einem Multi-Armed-Bandit beurteilen Exercise 15: Glückwunsch!