1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

REINFORCE アルゴリズムの学習

いよいよ REINFORCE を使って Lunar Lander を学習させます!必要なのは、REINFORCE のトレーニングループを実装し、REINFORCE の損失計算を含めることです。

今回は、損失計算の手順が内側と外側の両方のループにまたがるため、calculate_loss() 関数は使いません。

エピソードが完了したら、これらの量を用いて損失を計算できます。

参考として、REINFORCE の損失関数は次の式です。

各エピソードでエージェントの状況を表示するために、今回も describe_episode() 関数を使います。

指示

100 XP
  • 選択した行動の対数確率を、エピソードのログ確率に追加します。
  • 現在のステップの割引報酬を用いて、エピソードのリターンを更新します。
  • REINFORCE のエピソード損失を計算します。