1. Учиться
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

Exercise

Experience Replay を用いた DQN

ここでは、Experience Replay を導入して Deep Q Network を用いたエージェントの学習を行います。環境は、Barebone DQN を作成したときと同じ Lunar Lander を使います。

各ステップで、直近の遷移だけから学習してネットワークを更新するのではなく、Experience Replay バッファを使って、直近の経験からランダムに抽出したバッチで学習します。これにより、環境について学習する能力が大きく向上します。

前の演習で使った QNetwork と ReplayBuffer クラスは次のようにインスタンス化済みです。

  • q_network = QNetwork(8, 4)
  • replay_buffer = ReplayBuffer(10000)

各エピソードの最後に指標を表示するための describe_episode() 関数も引き続き利用できます。

Инструкции 1 / 2

undefined XP
    1
    2
  • 直近の経験を Replay Buffer に追加します。