1. Lära sig
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

exercise

バッチ更新付きのA2C

これまで本コースでは、同じコアとなるDRLの学習ループのバリエーションを使ってきました。実務では、この構造を拡張する方法がいくつもあり、たとえばバッチ更新に対応させることができます。

ここではLunar Lander環境でA2Cの学習ループを再度扱いますが、毎ステップでネットワークを更新するのではなく、10ステップ経過するまで待ってから勾配降下を実行します。10ステップ分の損失を平均することで、更新がやや安定します。

Instruktioner

100 XP
  • 各ステップの損失を、現在のバッチ用の損失テンソルに追加します。
  • バッチ損失を計算します。
  • 損失テンソルを再初期化します。