Calcolare i ritorni scontati per le strategie dell'agente
I ritorni scontati aiutano a valutare il totale delle ricompense che un agente può aspettarsi di accumulare nel tempo, tenendo conto che le ricompense future valgono meno di quelle immediate. Ti vengono forniti i valori attesi delle ricompense per due strategie diverse (exp_rewards_strategy_1 e exp_rewards_strategy_2) di un agente RL. Il tuo compito è calcolare il ritorno scontato per ciascuna strategia e determinare quale produce il ritorno più alto.
La libreria numpy è già stata importata come np.
Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
exp_rewards_strategy_1 = np.array([3, 2, -1, 5])
discount_factor = 0.9
# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])
# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)
print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")