学ぶ

/

コース

/

Pythonで学ぶDeep Reinforcement Learning

Connected

演習

PPOアルゴリズムの学習

ここでは、これまで親しんできた A2C のトレーニングループを使って、PPO アルゴリズムを学習させます。

このトレーニングループは、クリップ付き代替目的関数の利点を十分には活用していないため、A2C と比べて大きく性能が向上するわけではありません。ここでは、クリップ付き代替目的とエントロピーボーナスに関する概念を示すことを目的としています。

指示

100 XP

アクター損失からエントロピーボーナスを取り除き、\(c_{entropy}\) パラメータには 0.01 を使用します。