学ぶ

/

コース

/

Pythonで学ぶDeep Reinforcement Learning

Connected

演習

環境とニューラルネットワークのセットアップ

このコースを通して使用する環境をまずはセットアップします。Lunar Lander 環境では、エージェントがスラスターを制御して月面着陸を目指します。

torch、torch.nn、torch.optim、gym は演習内でインポート済みです。

指示

100 XP

gym で Lunar Lander 環境（LunarLander-v2）を初期化します。
入力次元を dim_inputs、出力次元を dim_outputs とする単一の線形変換レイヤーを定義します。
入力次元 8、出力次元 4 でニューラルネットワークを作成します。
Adam オプティマイザにパラメータを渡します。