Policy Iteration für die optimale Policy anwenden

Policy Iteration ist eine grundlegende Technik im RL, um eine optimale Policy zu finden. Sie besteht aus zwei Schritten: der Policy-Bewertung, bei der du die Zustandswertfunktion für eine gegebene Policy berechnest, und der Policy-Verbesserung, bei der du die Policy auf Basis dieser Werte aktualisierst. Du wendest diese Schritte iterativ an, um im benutzerdefinierten MyGridWorld-Environment zur optimalen Policy zu konvergieren.

Die Funktion render_policy() zeigt die Schritte, die ein Agent gemäß einer Policy ausführt.

Die Funktionen compute_state_value(state, policy) und compute_q_value(state, action, policy) wurden für dich vorab geladen.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Tauche ein in die spannende Welt des Reinforcement Learning (RL) und erkunde grundlegende Konzepte, Rollen und Anwendungsfälle. Navigiere durch das RL-Framework und entdecke die Interaktion zwischen Agent und Umgebung. Außerdem lernst du, wie du die Gymnasium-Bibliothek nutzt, um Umgebungen zu erstellen, Zustände zu visualisieren und Aktionen auszuführen – so baust du ein praktisches Fundament für RL-Konzepte und -Anwendungen auf.

Exercise 1: Grundlagen des Reinforcement Learning Exercise 2: Was ist Reinforcement Learning?Exercise 3: RL vs. andere ML-Teildisziplinen Exercise 4: Szenarien für den Einsatz von RL Exercise 5: Das RL-Framework verstehen und anwenden Exercise 6: RL-Interaktionsschleife Exercise 7: Episodische und kontinuierliche RL‑Aufgaben Exercise 8: Abgezinste Returns für Agentenstrategien berechnen Exercise 9: Mit Gymnasium-Umgebungen interagieren Exercise 10: Eine Mountain-Car-Umgebung einrichten Exercise 11: Das Mountain-Car-Environment visualisieren Exercise 12: Interaktion mit der Frozen-Lake-Umgebung

Vertiefe dein Wissen im Bereich RL mit Fokus auf modellbasiertes Lernen. Entschlüssele die Komplexität von Markov-Entscheidungsprozessen (MDPs) und verstehe ihre wesentlichen Bestandteile. Erweitere deinen Werkzeugkasten mit Policies und Wertfunktionen. Sammle Erfahrung in der Policy-Optimierung mithilfe von Policy Iteration und Value Iteration.

Exercise 1: Markow-Entscheidungsprozesse Exercise 2: Eigene MDP-Komponenten für Frozen Lake Exercise 3: Zustands- und Aktionsräume erkunden Exercise 4: Übergangswahrscheinlichkeiten und Belohnungen Exercise 5: Policies und Zustandswertfunktionen Exercise 6: Eine deterministische Policy definieren Exercise 7: Zustandswerte für eine Policy berechnen Exercise 8: Policies vergleichen Exercise 9: Aktionswertfunktionen Exercise 10: Q-Werte berechnen Exercise 11: Eine Policy verbessern Exercise 12: Policy Iteration und Value Iteration Exercise 13: Policy Iteration für die optimale Policy anwenden

Aktuelle Übung

Exercise 14: Value Iteration implementieren

Begib dich auf eine Reise durch die dynamische Welt des modellfreien Lernens im RL. Lerne die grundlegenden Monte-Carlo-Methoden kennen und wende First-Visit- und Every-Visit-Monte-Carlo-Vorhersageverfahren an. Wechsle anschließend zum Temporal-Difference-Lernen und erkunde den SARSA-Algorithmus. Zum Schluss tauchst du in Q-Learning ein und analysierst seine Konvergenz in anspruchsvollen Umgebungen.

Exercise 1: Monte-Carlo-Methoden Exercise 2: Episodenerzeugung für Monte-Carlo-Methoden Exercise 3: First-Visit Monte Carlo implementieren Exercise 4: Every-Visit Monte Carlo implementieren Exercise 5: Temporal-Differenzen-Lernen Exercise 6: Die SARSA-Aktualisierungsregel implementieren Exercise 7: 8x8 Frozen Lake mit SARSA lösen Exercise 8: Q-Learning Exercise 9: Q-Learning-Aktualisierungsregel implementieren Exercise 10: 8x8 Frozen Lake mit Q-Learning lösen Exercise 11: Richtlinie auf einem rutschigen Frozen Lake evaluieren

Tauche ein in fortgeschrittene Strategien im modellfreien RL, mit Fokus auf die Verbesserung von Entscheidungsalgorithmen. Lerne Expected SARSA für genauere Policy-Updates kennen und Double Q-Learning, um Überschätzungstendenzen zu reduzieren. Erkunde den Trade-off zwischen Exploration und Exploitation und beherrsche epsilon-greedy- sowie epsilon-decay-Strategien für optimale Aktionswahl. Stelle dich dem Multi-Armed-Bandit-Problem und wende Strategien an, um Entscheidungsprobleme unter Unsicherheit zu lösen.

Exercise 1: Expected SARSA Exercise 2: Expected-SARSA-Aktualisierungsregel Exercise 3: Expected SARSA anwenden Exercise 4: Double Q-Learning Exercise 5: Implementiere die Double-Q-Learning-Aktualisierungsregel Exercise 6: Double Q-learning anwenden Exercise 7: Exploration und Exploitation ausbalancieren Exercise 8: Epsilon-greedy-Funktion definieren Exercise 9: CliffWalking mit epsilon-gieriger Strategie lösen Exercise 10: CliffWalking mit abgeklungener Epsilon-greedy-Strategie lösen Exercise 11: Multi-armed Bandits Exercise 12: Einen Multi-Armed-Bandit erstellen Exercise 13: Einen Multi-Armed Bandit lösen Exercise 14: Konvergenz in einem Multi-Armed-Bandit beurteilen Exercise 15: Glückwunsch!