Q-learning の更新則を実装する

Q-learning は強化学習（RL）のオフポリシーなアルゴリズムで、現在の状態で取るべき最良の行動を見つけることを目的とします。実際に次に取った行動を考慮する SARSA と異なり、Q-learning は実際の行動に関わらず将来の最大全報酬（最大Q値）を用いてQ値を更新します。この違いにより、Q-learning は探索的なポリシーやランダムなポリシーに従いながらも最適ポリシーを学習できます。ここでは、Q-learning の規則に基づいて Q-table を更新する関数を実装します。以下に Q-learning の更新則を示します。これに基づいて Q-table を更新する関数を実装してください。

NumPy ライブラリは np としてインポート済みです。

Image showing the mathematical formula of the Q-learning update rule.