1. Учиться
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

Exercise

Critic ネットワーク

Actor-Critic 法では、性質の異なる2つのニューラルネットワークが必要です。

Actor ネットワークのアーキテクチャは、REINFORCE で使用したポリシーネットワークと同一なので、PolicyNetwork クラスを再利用できます。

一方、Critic ネットワークはまだ実装していません。Critic は、Q-Network が近似する行動価値関数 \(Q(s_t, a_t)\) ではなく、状態価値関数 \(V(s_t)\) を近似することを目的とします。

ここでは、A2C で使用する Critic ネットワークモジュールを実装します。

Инструкции

100 XP
  • 第2の全結合層が状態価値を1つ出力するように、希望する出力次元を指定してください。
  • Critic ネットワークで順伝播を行い、返される価値を取得してください。