고정 Q-타깃

고정 Q-타깃으로 Lunar Lander를 학습할 준비를 하려고 합니다. 그에 앞서, 행동을 선택하는 온라인 네트워크와 TD-타깃 계산에 사용하는 타깃 네트워크를 모두 인스턴스화해야 해요.

또한 매 학습 단계에서 사용할 수 있는 update_target_network 함수를 구현해야 합니다. 타깃 네트워크는 경사하강법으로 직접 업데이트하지 않고, 대신 update_target_network가 가중치를 Q-네트워크 쪽으로 조금씩 이동시켜 시간이 지나도 비교적 안정적으로 유지되도록 해요.

참고로, 이 연습 문제에서는 상태 딕셔너리를 쉽게 출력하고 확인할 수 있도록 아주 작은 네트워크를 사용합니다. 은닉층은 크기 2인 층 하나뿐이며, 행동 공간과 상태 공간의 차원도 각각 2입니다.