BaşlayınÜcretsiz Başlayın

Ajan stratejileri için iskonto edilmiş getirileri hesaplama

İskonto edilmiş getiriler, gelecekteki ödüllerin anlık ödüllere göre daha az değerli olduğunu dikkate alarak bir ajanın zaman içinde biriktirmeyi bekleyebileceği toplam ödül miktarını değerlendirmeye yardımcı olur. Bir RL ajanının iki farklı stratejisine (exp_rewards_strategy_1 ve exp_rewards_strategy_2) ait beklenen ödüller veriliyor. Görevin, her strateji için iskonto edilmiş getiriyi hesaplamak ve hangisinin daha yüksek getiri sağladığını belirlemek.

numpy kütüphanesi senin için np kısaltmasıyla içe aktarıldı.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")
Kodu Düzenle ve Çalıştır