1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

環境とニューラルネットワークのセットアップ

このコースを通して使用する環境をまずはセットアップします。Lunar Lander 環境では、エージェントがスラスターを制御して月面着陸を目指します。

torch、torch.nn、torch.optim、gym は演習内でインポート済みです。

指示

100 XP
  • gym で Lunar Lander 環境(LunarLander-v2)を初期化します。
  • 入力次元を dim_inputs、出力次元を dim_outputs とする単一の線形変換レイヤーを定義します。
  • 入力次元 8、出力次元 4 でニューラルネットワークを作成します。
  • Adam オプティマイザにパラメータを渡します。