Double Q-learning の更新則を実装する

Double Q-learning は、2 つの別々の Q テーブルを保持・更新することで行動価値の過大評価を抑える、Q-learning アルゴリズムの拡張手法です。行動の選択と評価を切り離すことで、Q 値の推定をより正確にします。この演習では、Double Q-learning の更新則を実装します。2 つの Q テーブルを含むリスト Q が用意されています。

numpy ライブラリは np としてインポート済みで、gamma と alpha の値も事前に読み込まれています。更新式は以下の画像のとおりです。

Image showing the update rule of Q1.