1. 学习
  2. /
  3. 课程
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

练习

環境とニューラルネットワークのセットアップ

このコースを通して使用する環境をまずはセットアップします。Lunar Lander 環境では、エージェントがスラスターを制御して月面着陸を目指します。

torch、torch.nn、torch.optim、gym は演習内でインポート済みです。

说明

100 XP
  • gym で Lunar Lander 環境(LunarLander-v2)を初期化します。
  • 入力次元を dim_inputs、出力次元を dim_outputs とする単一の線形変換レイヤーを定義します。
  • 入力次元 8、出力次元 4 でニューラルネットワークを作成します。
  • Adam オプティマイザにパラメータを渡します。