배치 업데이트가 있는 A2C

지금까지 이 강의에서는 동일한 핵심 DRL 학습 루프를 약간씩 변형해 사용해 왔습니다. 실제로는 이 구조를 확장하는 여러 방법이 있는데, 예를 들어 배치 업데이트를 적용할 수 있습니다.

이제 Lunar Lander 환경에서 A2C 학습 루프를 다시 살펴보되, 매 스텝마다 네트워크를 업데이트하는 대신 10스텝이 지나면 경사 하강을 수행하겠습니다. 10스텝 동안의 손실을 평균 내어 업데이트하면 학습이 조금 더 안정적으로 진행됩니다.