Calculando retornos descontados para estratégias do agente
Retornos descontados ajudam a avaliar o total de recompensas que um agente pode esperar acumular ao longo do tempo, considerando que recompensas futuras valem menos do que recompensas imediatas. Você recebeu as recompensas esperadas para duas estratégias diferentes (exp_rewards_strategy_1 e exp_rewards_strategy_2) de um agente de RL. Sua tarefa é calcular o retorno descontado para cada estratégia e determinar qual delas gera o maior retorno.
A biblioteca numpy já foi importada como np.
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
exp_rewards_strategy_1 = np.array([3, 2, -1, 5])
discount_factor = 0.9
# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])
# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)
print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")