学ぶ

/

コース

/

Pythonで学ぶDeep Reinforcement Learning

Connected

演習

A2C アルゴリズムの学習

A2C アルゴリズムで Lunar Lander を学習させましょう。必要な部品はそろっているので、あとは組み合わせるだけです。

アクターとクリティックのネットワークはそれぞれ actor と critic として、またそれらのオプティマイザは actor_optimizer と critic_optimizer として用意されています。

REINFORCE の select_action() 関数と、前の演習で作成した calculate_losses() 関数も利用できます。

指示

100 XP

状態に基づいて、アクターに行動を選択させます。
アクターとクリティックの損失をそれぞれ計算します。