ComenzarEmpieza gratis

Calcular retornos descontados para estrategias del agente

Los retornos descontados ayudan a evaluar la cantidad total de recompensas que un agente puede esperar acumular a lo largo del tiempo, teniendo en cuenta que las recompensas futuras valen menos que las inmediatas. Se te proporcionan las recompensas esperadas de dos estrategias diferentes (exp_rewards_strategy_1 y exp_rewards_strategy_2) de un agente de RL. Tu tarea es calcular el retorno descontado de cada estrategia y determinar cuál ofrece el mayor retorno.

La librería numpy ya se ha importado como np.

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")
Editar y ejecutar código