Inizia subitoInizia gratis

Calcolare i ritorni scontati per le strategie dell'agente

I ritorni scontati aiutano a valutare il totale delle ricompense che un agente può aspettarsi di accumulare nel tempo, tenendo conto che le ricompense future valgono meno di quelle immediate. Ti vengono forniti i valori attesi delle ricompense per due strategie diverse (exp_rewards_strategy_1 e exp_rewards_strategy_2) di un agente RL. Il tuo compito è calcolare il ritorno scontato per ciascuna strategia e determinare quale produce il ritorno più alto.

La libreria numpy è già stata importata come np.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")
Modifica ed esegui il codice