1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

epsilon-greedy 戦略で CliffWalking を解く

CliffWalking 環境は、RL アルゴリズムの標準的なテストベッドです。これはグリッドワールドで、エージェントはスタートからゴールまで崖を避けて進む経路を見つけます。epsilon-greedy 戦略を使うと、エージェントは探索を進めながら崖を避ける行動を学習でき、累積報酬を最大化できます。あなたの課題は、この環境を epsilon-greedy 戦略で解き、各学習エピソードで得られた報酬を計算し、rewards_eps_greedy リストに保存することです。

指示

100 XP
  • 各エピソード内で、epsilon_greedy() 関数を使って action を選択します。
  • 受け取った reward を episode_reward に加算します。
  • 各エピソード終了後、合計の episode_reward を後で分析できるよう rewards_eps_greedy リストに追加します。