연습 문제

Q-Network 인스턴스화하기

이제 네트워크 구조를 정의했으니, 에이전트가 실제로 사용할 네트워크와 그 옵티마이저를 인스턴스화할 차례예요. Lunar Lander 환경의 상태 공간 차원은 8이고, 행동 공간 차원은 4입니다(0: 아무것도 하지 않음, 1: 왼쪽 보조 추진기, 2: 메인 엔진, 3: 오른쪽 보조 추진기).

이전 연습 문제에서 만든 QNetwork 클래스가 제공됩니다.

지침

100 XP

Lunar Lander 환경을 위한 Q Network를 인스턴스화하세요.
신경망에 대해 Adam 옵티마이저를 정의하고, 학습률을 0.0001로 지정하세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제