1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

Actor-Critic の損失計算

A2Cでエージェントを学習させる前の最後のステップとして、両ネットワークの損失を返す calculate_losses() 関数を実装してください。

参考として、アクター損失とクリティック損失の式はそれぞれ次のとおりです。

指示

100 XP
  • TDターゲットを計算します。
  • アクターネットワークの損失を計算します。
  • クリティックネットワークの損失を計算します。