연습 문제

REINFORCE에서의 행동 선택

REINFORCE 에이전트가 매 스텝에서 행동을 고를 때 사용할 select_action 함수를 작성하세요.

DQN에서는 네트워크의 순전파가 Q-값을 반환했지만, REINFORCE에서는 행동 확률을 반환하며, 이 확률에서 바로 행동을 샘플링할 수 있어요.

정책 네트워크와 상태가 이미 환경에 로드되어 있어요.

torch.distributions.Categorical은 Categorical로 임포트되어 있어요.

100 XP