MulaiMulai sekarang secara gratis

Menghitung discounted returns untuk strategi agen

Discounted return membantu mengevaluasi total imbalan yang dapat diharapkan agen akumulasi dari waktu ke waktu, dengan mempertimbangkan bahwa imbalan di masa depan kurang bernilai dibandingkan imbalan segera. Anda diberikan ekspektasi imbalan untuk dua strategi berbeda (exp_rewards_strategy_1 dan exp_rewards_strategy_2) dari sebuah agen RL. Tugas Anda adalah menghitung discounted return untuk masing-masing strategi dan menentukan mana yang menghasilkan return lebih tinggi.

Pustaka numpy telah diimpor untuk Anda sebagai np.

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")
Edit dan Jalankan Kode