Calcul du retour actualisé pour des stratégies d’agent
Les retours actualisés permettent d’évaluer le total des récompenses qu’un agent peut espérer accumuler au fil du temps, en tenant compte du fait que les récompenses futures valent moins que les récompenses immédiates. On vous fournit les récompenses attendues pour deux stratégies différentes (exp_rewards_strategy_1 et exp_rewards_strategy_2) d’un agent en RL. Votre tâche est de calculer le retour actualisé pour chaque stratégie et de déterminer laquelle offre le retour le plus élevé.
La bibliothèque numpy a été importée pour vous sous le nom np.
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
exp_rewards_strategy_1 = np.array([3, 2, -1, 5])
discount_factor = 0.9
# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])
# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)
print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")