演習

Q-Network のインスタンス化

ネットワークのアーキテクチャを定義できたので、エージェントが実際に使用するネットワーク本体と、そのオプティマイザを作成します。Lunar Lander 環境の状態空間の次元は 8、行動空間の次元は 4 です（0: 何もしない、1: 左スラスター、2: メインエンジン、3: 右スラスター に対応）。

前の演習で作成した QNetwork クラスが利用できます。

指示

100 XP

Lunar Lander 環境向けに Q Network をインスタンス化します。
ニューラルネットワーク用に Adam オプティマイザを定義し、学習率 0.0001 を指定します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習