ComeçarComece de graça

Calculando retornos descontados para estratégias do agente

Retornos descontados ajudam a avaliar o total de recompensas que um agente pode esperar acumular ao longo do tempo, considerando que recompensas futuras valem menos do que recompensas imediatas. Você recebeu as recompensas esperadas para duas estratégias diferentes (exp_rewards_strategy_1 e exp_rewards_strategy_2) de um agente de RL. Sua tarefa é calcular o retorno descontado para cada estratégia e determinar qual delas gera o maior retorno.

A biblioteca numpy já foi importada como np.

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")
Editar e executar o código