Critic ネットワーク

Actor-Critic 法では、性質の異なる2つのニューラルネットワークが必要です。

Actor ネットワークのアーキテクチャは、REINFORCE で使用したポリシーネットワークと同一なので、PolicyNetwork クラスを再利用できます。

一方、Critic ネットワークはまだ実装していません。Critic は、Q-Network が近似する行動価値関数 \(Q(s_t, a_t)\) ではなく、状態価値関数 \(V(s_t)\) を近似することを目的とします。