Comece agoraComece grátis

Calculando retornos descontados para estratégias do agente

Retornos descontados ajudam a avaliar o total de recompensas que um agente pode esperar acumular ao longo do tempo, considerando que recompensas futuras valem menos do que recompensas imediatas. Você recebeu as recompensas esperadas para duas estratégias diferentes (exp_rewards_strategy_1 e exp_rewards_strategy_2) de um agente de RL. Sua tarefa é calcular o retorno descontado para cada estratégia e determinar qual delas gera o maior retorno.

A biblioteca numpy já foi importada como np.

Este exercicio faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")
Editar e Executar Código