1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

ポリシーネットワークのアーキテクチャ

後でポリシー勾配エージェントの学習に使える、Policy Network のアーキテクチャを構築しましょう。

ポリシーネットワークは状態を入力として受け取り、アクション空間における確率を出力します。Lunar Lander 環境では離散アクションが4つあるため、各アクションに対応する確率をそれぞれ出力する必要があります。

指示

100 XP
  • ポリシーネットワークの出力層のサイズを指定してください。柔軟性のため、実数値ではなく変数名を使用しましょう。
  • 最終層が確率を返すようにしてください。