Abgezinste Returns für Agentenstrategien berechnen

Abgezinste Returns helfen dabei, die Gesamtmenge an Belohnungen zu bewerten, die ein Agent im Laufe der Zeit voraussichtlich ansammelt — unter Berücksichtigung, dass zukünftige Belohnungen weniger wert sind als sofortige. Du bekommst die erwarteten Belohnungen für zwei verschiedene Strategien (exp_rewards_strategy_1 und exp_rewards_strategy_2) eines RL-Agenten. Deine Aufgabe ist es, den abgezinsten Return für jede Strategie zu berechnen und festzustellen, welche den höheren Return liefert.

Die Bibliothek numpy wurde bereits als np importiert.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Tauche ein in die spannende Welt des Reinforcement Learning (RL) und erkunde grundlegende Konzepte, Rollen und Anwendungsfälle. Navigiere durch das RL-Framework und entdecke die Interaktion zwischen Agent und Umgebung. Außerdem lernst du, wie du die Gymnasium-Bibliothek nutzt, um Umgebungen zu erstellen, Zustände zu visualisieren und Aktionen auszuführen – so baust du ein praktisches Fundament für RL-Konzepte und -Anwendungen auf.

Exercise 1: Grundlagen des Reinforcement Learning Exercise 2: Was ist Reinforcement Learning?Exercise 3: RL vs. andere ML-Teildisziplinen Exercise 4: Szenarien für den Einsatz von RL Exercise 5: Das RL-Framework verstehen und anwenden Exercise 6: RL-Interaktionsschleife Exercise 7: Episodische und kontinuierliche RL‑Aufgaben Exercise 8: Abgezinste Returns für Agentenstrategien berechnen

Aktuelle Übung

Exercise 9: Mit Gymnasium-Umgebungen interagieren Exercise 10: Eine Mountain-Car-Umgebung einrichten Exercise 11: Das Mountain-Car-Environment visualisieren Exercise 12: Interaktion mit der Frozen-Lake-Umgebung

Vertiefe dein Wissen im Bereich RL mit Fokus auf modellbasiertes Lernen. Entschlüssele die Komplexität von Markov-Entscheidungsprozessen (MDPs) und verstehe ihre wesentlichen Bestandteile. Erweitere deinen Werkzeugkasten mit Policies und Wertfunktionen. Sammle Erfahrung in der Policy-Optimierung mithilfe von Policy Iteration und Value Iteration.

Exercise 1: Markow-Entscheidungsprozesse Exercise 2: Eigene MDP-Komponenten für Frozen Lake Exercise 3: Zustands- und Aktionsräume erkunden Exercise 4: Übergangswahrscheinlichkeiten und Belohnungen Exercise 5: Policies und Zustandswertfunktionen Exercise 6: Eine deterministische Policy definieren Exercise 7: Zustandswerte für eine Policy berechnen Exercise 8: Policies vergleichen Exercise 9: Aktionswertfunktionen Exercise 10: Q-Werte berechnen Exercise 11: Eine Policy verbessern Exercise 12: Policy Iteration und Value Iteration Exercise 13: Policy Iteration für die optimale Policy anwenden Exercise 14: Value Iteration implementieren

Begib dich auf eine Reise durch die dynamische Welt des modellfreien Lernens im RL. Lerne die grundlegenden Monte-Carlo-Methoden kennen und wende First-Visit- und Every-Visit-Monte-Carlo-Vorhersageverfahren an. Wechsle anschließend zum Temporal-Difference-Lernen und erkunde den SARSA-Algorithmus. Zum Schluss tauchst du in Q-Learning ein und analysierst seine Konvergenz in anspruchsvollen Umgebungen.

Exercise 1: Monte-Carlo-Methoden Exercise 2: Episodenerzeugung für Monte-Carlo-Methoden Exercise 3: First-Visit Monte Carlo implementieren Exercise 4: Every-Visit Monte Carlo implementieren Exercise 5: Temporal-Differenzen-Lernen Exercise 6: Die SARSA-Aktualisierungsregel implementieren Exercise 7: 8x8 Frozen Lake mit SARSA lösen Exercise 8: Q-Learning Exercise 9: Q-Learning-Aktualisierungsregel implementieren Exercise 10: 8x8 Frozen Lake mit Q-Learning lösen Exercise 11: Richtlinie auf einem rutschigen Frozen Lake evaluieren

Tauche ein in fortgeschrittene Strategien im modellfreien RL, mit Fokus auf die Verbesserung von Entscheidungsalgorithmen. Lerne Expected SARSA für genauere Policy-Updates kennen und Double Q-Learning, um Überschätzungstendenzen zu reduzieren. Erkunde den Trade-off zwischen Exploration und Exploitation und beherrsche epsilon-greedy- sowie epsilon-decay-Strategien für optimale Aktionswahl. Stelle dich dem Multi-Armed-Bandit-Problem und wende Strategien an, um Entscheidungsprobleme unter Unsicherheit zu lösen.

Exercise 1: Expected SARSA Exercise 2: Expected-SARSA-Aktualisierungsregel Exercise 3: Expected SARSA anwenden Exercise 4: Double Q-Learning Exercise 5: Implementiere die Double-Q-Learning-Aktualisierungsregel Exercise 6: Double Q-learning anwenden Exercise 7: Exploration und Exploitation ausbalancieren Exercise 8: Epsilon-greedy-Funktion definieren Exercise 9: CliffWalking mit epsilon-gieriger Strategie lösen Exercise 10: CliffWalking mit abgeklungener Epsilon-greedy-Strategie lösen Exercise 11: Multi-armed Bandits Exercise 12: Einen Multi-Armed-Bandit erstellen Exercise 13: Einen Multi-Armed Bandit lösen Exercise 14: Konvergenz in einem Multi-Armed-Bandit beurteilen Exercise 15: Glückwunsch!