경험 재현을 활용한 DQN

이제 Experience Replay를 도입해 Deep Q Network로 에이전트를 학습해 보겠습니다. 이전에 Barebone DQN을 만들 때와 같은 Lunar Lander 환경을 사용합니다.

각 단계에서 가장 최근 전이로부터의 학습만으로 네트워크를 업데이트하는 대신, Experience Replay 버퍼를 사용하면 최근 경험에서 무작위 배치를 뽑아 학습할 수 있습니다. 이는 환경을 학습하는 능력을 크게 향상시킵니다.

이전 연습에서 사용한 QNetwork와 ReplayBuffer 클래스가 다음과 같이 인스턴스화되어 제공됩니다: