1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

素のDQNの学習

Lunar Lander 環境で Barebone DQN アルゴリズムを学習させましょう。これはまだ素のアルゴリズムなので性能は高くありませんが、後で改良していきます。

月面着陸に向けて Lunar Lander を着地させるための最初の一歩だと考えてください!

先ほど定義した q_network インスタンスは利用可能です。

このコースの演習全体を通して、各エピソードの最後にエージェントの成績を表示するための describe_episode() 関数も Python 環境に用意されています。

指示

100 XP
  • 内側のループでエージェントの行動を選択します。
  • 損失を計算します。
  • 勾配降下ステップを実行してネットワークの重みを更新します。