1. Учиться
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

Exercise

A2C アルゴリズムの学習

A2C アルゴリズムで Lunar Lander を学習させましょう。必要な部品はそろっているので、あとは組み合わせるだけです。

アクターとクリティックのネットワークはそれぞれ actor と critic として、またそれらのオプティマイザは actor_optimizer と critic_optimizer として用意されています。

REINFORCE の select_action() 関数と、前の演習で作成した calculate_losses() 関数も利用できます。

Инструкции

100 XP
  • 状態に基づいて、アクターに行動を選択させます。
  • アクターとクリティックの損失をそれぞれ計算します。