REINFORCE における行動選択

REINFORCE エージェントが各ステップで行動を選択するために使う、REINFORCE の select_action 関数を実装してください。

DQN ではネットワークの順伝播は Q 値を返しましたが、REINFORCE では行動の確率を返し、その確率から直接サンプリングして行動を選びます。

ポリシーネットワークと状態は、すでに環境に読み込まれています。