1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

Double Q-learning の更新則を実装する

Double Q-learning は、2 つの別々の Q テーブルを保持・更新することで行動価値の過大評価を抑える、Q-learning アルゴリズムの拡張手法です。行動の選択と評価を切り離すことで、Q 値の推定をより正確にします。この演習では、Double Q-learning の更新則を実装します。2 つの Q テーブルを含むリスト Q が用意されています。

numpy ライブラリは np としてインポート済みで、gamma と alpha の値も事前に読み込まれています。更新式は以下の画像のとおりです。

Image showing the update rule of Q1.

Image showing the update rule of Q2.

指示

100 XP
  • Q 内のどちらの Q テーブルで行動価値の推定を更新するか、インデックス i をランダムに決めてください。
  • Q[i] を更新するために必要な手順を実行してください。