学ぶ

/

コース

/

Pythonで学ぶDeep Reinforcement Learning

Connected

演習

Actor-Critic の損失計算

A2Cでエージェントを学習させる前の最後のステップとして、両ネットワークの損失を返す calculate_losses() 関数を実装してください。

参考として、アクター損失とクリティック損失の式はそれぞれ次のとおりです。

指示

100 XP

TDターゲットを計算します。
アクターネットワークの損失を計算します。
クリティックネットワークの損失を計算します。