SARSAの更新則を実装する

SARSAは、次の状態で実際に選択した行動に基づいて行動価値関数を更新するオンポリシーのアルゴリズムです。この方法により、現在の状態–行動の組だけでなく、その直後の組の価値も学習でき、将来の行動を考慮した方策を学ぶことができます。以下にSARSAの更新則を示します。あなたの課題は、この則に基づいてQテーブルを更新する関数を実装することです。

NumPyライブラリは np としてインポート済みです。

Image showing the mathematical formula of the SARSA update rule.