Gedisconteerde returns berekenen voor agentstrategieën
Gedisconteerde returns helpen je om de totale hoeveelheid beloningen te beoordelen die een agent in de loop van de tijd kan verwachten, waarbij je rekening houdt met het feit dat toekomstige beloningen minder waard zijn dan directe beloningen. Je krijgt de verwachte beloningen voor twee verschillende strategieën (exp_rewards_strategy_1 en exp_rewards_strategy_2) van een RL-agent. Aan jou de taak om voor elke strategie de gedisconteerde return te berekenen en te bepalen welke de hoogste return oplevert.
De bibliotheek numpy is al voor je geïmporteerd als np.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning met Gymnasium in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
exp_rewards_strategy_1 = np.array([3, 2, -1, 5])
discount_factor = 0.9
# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])
# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)
print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")