1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

減衰付きepsilon-greedy戦略でCliffWalkingを解く

epsilon-greedy 戦略を強化するために、エージェントが環境について学ぶにつれて探索率 epsilon を徐々に下げる減衰係数を導入します。この方法は、学習初期の探索を促し、環境に慣れてきた段階では学習済みの知識の活用(exploitation)を促進します。では、この戦略を用いて CliffWalking 環境に取り組みましょう。

環境は初期化済みで、変数 env からアクセスできます。変数 epsilon、min_epsilon、epsilon_decay はあらかじめ定義されています。関数 epsilon_greedy() と update_q_table() はインポート済みです。

指示

100 XP
  • action を選び、それを実行し、受け取った reward を episode_reward に加算し、Qテーブルを更新して、完全な学習ループを実装します。
  • epsilon_decay の率で epsilon を減らし、min_epsilon を下回らないようにしてください。