1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

SARSAの更新則を実装する

SARSAは、次の状態で実際に選択した行動に基づいて行動価値関数を更新するオンポリシーのアルゴリズムです。この方法により、現在の状態–行動の組だけでなく、その直後の組の価値も学習でき、将来の行動を考慮した方策を学ぶことができます。以下にSARSAの更新則を示します。あなたの課題は、この則に基づいてQテーブルを更新する関数を実装することです。

NumPyライブラリは np としてインポート済みです。

Image showing the mathematical formula of the SARSA update rule.

指示

100 XP
  • 指定された状態–行動の組の現在のQ値を取得します。
  • 次の状態–行動の組のQ値を取得します。
  • SARSAの式を用いて、現在の状態–行動の組のQ値を更新します。
  • エージェントが状態 0 で行動 0 を取り、報酬 5 を受け取り、状態 1 に遷移して行動 1 を行うとき、Qテーブル Q を更新します。