IniziaInizia gratis

Calcolare i ritorni scontati per le strategie dell'agente

I ritorni scontati aiutano a valutare il totale delle ricompense che un agente può aspettarsi di accumulare nel tempo, tenendo conto che le ricompense future valgono meno di quelle immediate. Ti vengono forniti i valori attesi delle ricompense per due strategie diverse (exp_rewards_strategy_1 e exp_rewards_strategy_2) di un agente RL. Il tuo compito è calcolare il ritorno scontato per ciascuna strategia e determinare quale produce il ritorno più alto.

La libreria numpy è già stata importata come np.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")
Modifica ed esegui il codice