학습

/

강의

/

Python으로 배우는 Deep Reinforcement Learning

Connected

연습 문제

Double DQN 학습

이제 DQN 코드를 수정해 Double DQN을 구현해 보겠습니다.

Double DQN은 DQN 알고리즘에 아주 작은 수정만 필요하지만, Q-value 과대평가 문제를 해결하는 데 큰 도움을 주며 종종 DQN보다 더 좋은 성능을 보입니다.

지침

100 XP

Q-target 계산을 위해 online_network()를 사용해 다음 행동을 계산하고, 올바른 행동과 텐서 형태를 얻었는지 확인하세요.
target_network()로 해당 행동의 Q-value를 추정하고, 역시 올바른 값과 텐서 형태를 얻었는지 확인하세요.