学ぶ

/

コース

/

Pythonで学ぶDeep Reinforcement Learning

Connected

演習

ポリシーネットワークのアーキテクチャ

後でポリシー勾配エージェントの学習に使える、Policy Network のアーキテクチャを構築しましょう。

ポリシーネットワークは状態を入力として受け取り、アクション空間における確率を出力します。Lunar Lander 環境では離散アクションが4つあるため、各アクションに対応する確率をそれぞれ出力する必要があります。

指示

100 XP

ポリシーネットワークの出力層のサイズを指定してください。柔軟性のため、実数値ではなく変数名を使用しましょう。
最終層が確率を返すようにしてください。