バッチ更新付きのA2C

これまで本コースでは、同じコアとなるDRLの学習ループのバリエーションを使ってきました。実務では、この構造を拡張する方法がいくつもあり、たとえばバッチ更新に対応させることができます。

ここではLunar Lander環境でA2Cの学習ループを再度扱いますが、毎ステップでネットワークを更新するのではなく、10ステップ経過するまで待ってから勾配降下を実行します。10ステップ分の損失を平均することで、更新がやや安定します。