1. Învăţa
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

exercise

DRL のトレーニングループ

エージェントが環境を繰り返し体験できるように、トレーニングループを構築します。

多くの DRL アルゴリズムに共通する基本構造は次のとおりです。

  1. エピソードをループする
  2. 各エピソード内でステップをループする
  3. 各ステップで、行動を選択し、損失を計算し、ネットワークを更新する

コードが動作するように、プレースホルダーの select_action() と calculate_loss() 関数が用意されています。前の演習で定義した Network と optimizer も利用できます。

Instrucţiuni

100 XP
  • 外側のループ(エピソード単位)が 10 エピソード実行されるようにしてください。
  • 内側のループ(ステップ単位)は、そのエピソードが完了するまで実行されるようにしてください。
  • select_action() で選択した行動を、env 環境で実行します。
  • 内側のループの各反復の最後で、次のステップを始める前に状態を更新してください。