クリップ付き代理目的関数

PPO 用の calculate_loss() 関数を実装します。ここでは、PPO の中核となる工夫である「クリップ付き代理損失関数」をコード化します。各ステップで方策が以前の方策から大きく乖離しないよう、更新量を抑制する役割があります。

クリップ付き代理目的関数の数式は次のとおりです。