1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

Exercise

REINFORCE における行動選択

REINFORCE エージェントが各ステップで行動を選択するために使う、REINFORCE の select_action 関数を実装してください。

DQN ではネットワークの順伝播は Q 値を返しましたが、REINFORCE では行動の確率を返し、その確率から直接サンプリングして行動を選びます。

ポリシーネットワークと状態は、すでに環境に読み込まれています。

torch.distributions.Categorical は Categorical としてインポート済みです。

Instrukcje

100 XP
  • 行動確率を torch のテンソルとして取得します。
  • 行動確率に対応する torch の Distribution を取得します。
  • その分布から行動をサンプリングします。