LoslegenKostenlos loslegen

Abgezinste Returns für Agentenstrategien berechnen

Abgezinste Returns helfen dabei, die Gesamtmenge an Belohnungen zu bewerten, die ein Agent im Laufe der Zeit voraussichtlich ansammelt — unter Berücksichtigung, dass zukünftige Belohnungen weniger wert sind als sofortige. Du bekommst die erwarteten Belohnungen für zwei verschiedene Strategien (exp_rewards_strategy_1 und exp_rewards_strategy_2) eines RL-Agenten. Deine Aufgabe ist es, den abgezinsten Return für jede Strategie zu berechnen und festzustellen, welche den höheren Return liefert.

Die Bibliothek numpy wurde bereits als np importiert.

Diese Übung ist Teil des Kurses

Reinforcement Learning mit Gymnasium in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")
Code bearbeiten und ausführen