1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

PPOアルゴリズムの学習

ここでは、これまで親しんできた A2C のトレーニングループを使って、PPO アルゴリズムを学習させます。

このトレーニングループは、クリップ付き代替目的関数の利点を十分には活用していないため、A2C と比べて大きく性能が向上するわけではありません。ここでは、クリップ付き代替目的とエントロピーボーナスに関する概念を示すことを目的としています。

指示

100 XP
  • アクター損失からエントロピーボーナスを取り除き、\(c_{entropy}\) パラメータには 0.01 を使用します。