1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

エージェントの戦略に対する割引リターンを計算する

割引リターンは、将来の報酬は即時の報酬より価値が低いことを考慮しつつ、エージェントが時間とともに得られる総報酬の見込みを評価するために使います。ここでは、あるRLエージェントの2つの異なる戦略(exp_rewards_strategy_1 と exp_rewards_strategy_2)に対する期待報酬が与えられています。各戦略の割引リターンを計算し、どちらの戦略がより高いリターンをもたらすかを判断してください。

numpy ライブラリは np としてインポート済みです。

指示1 / 2

undefined XP
  • 1
    • 最初の戦略について、割引の配列 discounts_strategy_1 を計算します。
    • discounted_return_strategy_1 を計算します。
  • 2
    • 2つ目の戦略について、割引の配列 discounts_strategy_2 を計算します。
    • discounted_return_strategy_2 を計算します。