1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Deep Reinforcement Learning

Connected

연습 문제

배치 업데이트가 있는 A2C

지금까지 이 강의에서는 동일한 핵심 DRL 학습 루프를 약간씩 변형해 사용해 왔습니다. 실제로는 이 구조를 확장하는 여러 방법이 있는데, 예를 들어 배치 업데이트를 적용할 수 있습니다.

이제 Lunar Lander 환경에서 A2C 학습 루프를 다시 살펴보되, 매 스텝마다 네트워크를 업데이트하는 대신 10스텝이 지나면 경사 하강을 수행하겠습니다. 10스텝 동안의 손실을 평균 내어 업데이트하면 학습이 조금 더 안정적으로 진행됩니다.

지침

100 XP
  • 각 스텝에서 나온 손실을 현재 배치의 손실 텐서에 이어서 추가하세요.
  • 배치 손실을 계산하세요.
  • 손실 텐서를 다시 초기화하세요.