学ぶ

/

コース

/

Pythonで学ぶDeep Reinforcement Learning

Connected

演習

Double DQN の学習

これから、DQN のコードを修正して Double DQN を実装します。

Double DQN は DQN アルゴリズムへの最小限の変更だけで実現できますが、Q値の過大評価問題の解消に大きく貢献し、しばしば DQN より良い性能を示します。

指示

100 XP

Qターゲット計算に用いる次の行動を online_network() で計算し、正しい行動と形状を取得してください。
その行動に対するQ値を target_network() で見積もり、こちらも正しい値と形状になるようにしてください。