1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

Expected SARSA の更新則

この演習では、時相差学習に基づく Model-Free RL アルゴリズムである Expected SARSA の更新則を実装します。Expected SARSA は、取りうるすべての行動にわたって平均をとることで現在のポリシーの期待値を推定し、SARSA と比べてより安定した更新ターゲットを提供します。Expected SARSA で用いる数式は以下を参照してください。

Image showing the mathematical formula of the expected SARSA update rule.

numpy ライブラリは np としてインポート済みです。

指示

100 XP
  • next_state に対する期待Q値を計算します。
  • Expected SARSA の数式を用いて、現在の state と action のQ値を更新します。
  • エージェントが状態 2 で行動 1 を取り、状態 3 に遷移して報酬 5 を受け取ったと仮定して、Qテーブル Q を更新します。