학습

/

강의

/

Python으로 배우는 Deep Reinforcement Learning

Connected

연습 문제

정책 네트워크 아키텍처

나중에 policy gradient 에이전트를 학습시키는 데 사용할 정책 네트워크(Policy Network) 아키텍처를 구축하세요.

정책 네트워크는 상태를 입력으로 받아, 행동 공간에서의 확률을 출력해요. Lunar Lander 환경에서는 네 가지 이산형 행동을 사용하므로, 네트워크가 각 행동에 대한 확률을 하나씩 출력하도록 해야 해요.

지침

100 XP

정책 네트워크의 출력층 크기를 지정하세요. 유연성을 위해 실제 숫자 대신 변수 이름을 사용하세요.
마지막 층이 확률을 반환하도록 하세요.