1. Учиться
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Deep Reinforcement Learning

Connected

Exercise

Q-Network 인스턴스화하기

이제 네트워크 구조를 정의했으니, 에이전트가 실제로 사용할 네트워크와 그 옵티마이저를 인스턴스화할 차례예요. Lunar Lander 환경의 상태 공간 차원은 8이고, 행동 공간 차원은 4입니다(0: 아무것도 하지 않음, 1: 왼쪽 보조 추진기, 2: 메인 엔진, 3: 오른쪽 보조 추진기).

이전 연습 문제에서 만든 QNetwork 클래스가 제공됩니다.

Инструкции

100 XP
  • Lunar Lander 환경을 위한 Q Network를 인스턴스화하세요.
  • 신경망에 대해 Adam 옵티마이저를 정의하고, 학습률을 0.0001로 지정하세요.