1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

Q-Network のインスタンス化

ネットワークのアーキテクチャを定義できたので、エージェントが実際に使用するネットワーク本体と、そのオプティマイザを作成します。Lunar Lander 環境の状態空間の次元は 8、行動空間の次元は 4 です(0: 何もしない、1: 左スラスター、2: メインエンジン、3: 右スラスター に対応)。

前の演習で作成した QNetwork クラスが利用できます。

指示

100 XP
  • Lunar Lander 環境向けに Q Network をインスタンス化します。
  • ニューラルネットワーク用に Adam オプティマイザを定義し、学習率 0.0001 を指定します。