1. 学习
  2. /
  3. 课程
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

练习

PPOアルゴリズムの学習

ここでは、これまで親しんできた A2C のトレーニングループを使って、PPO アルゴリズムを学習させます。

このトレーニングループは、クリップ付き代替目的関数の利点を十分には活用していないため、A2C と比べて大きく性能が向上するわけではありません。ここでは、クリップ付き代替目的とエントロピーボーナスに関する概念を示すことを目的としています。

说明

100 XP
  • アクター損失からエントロピーボーナスを取り除き、\(c_{entropy}\) パラメータには 0.01 を使用します。