크리틱 네트워크

Actor-Critic 방법에는 서로 매우 다른 두 개의 신경망이 필요해요.

Actor 네트워크의 아키텍처는 REINFORCE에서 사용했던 정책 네트워크와 동일하므로, PolicyNetwork 클래스를 재사용할 수 있어요.

하지만 크리틱 네트워크는 아직 구현하지 않았어요. 크리틱의 목표는 Q-Networks가 근사하는 행동 가치 함수 $Q(s_t, a_t)$가 아니라, 상태 가치 함수 $V(s_t)$를 근사하는 것이에요.