1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

クリップ付き代理目的関数

PPO 用の calculate_loss() 関数を実装します。ここでは、PPO の中核となる工夫である「クリップ付き代理損失関数」をコード化します。各ステップで方策が以前の方策から大きく乖離しないよう、更新量を抑制する役割があります。

クリップ付き代理目的関数の数式は次のとおりです。

この環境では、クリップのハイパーパラメータ epsilon は 0.2 に設定されています。

指示

100 XP
  • \pi_\theta と \pi_{\theta_{old}} の間の確率比(切り詰めなし版とクリップ版)を取得します。
  • 代理目的(切り詰めなし版とクリップ版)を計算します。
  • PPO のクリップ付き代理目的を計算します。
  • Actor の損失を計算します。