1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

Exercise

マルチアーム・バンディットにおける収束の評価

マルチアーム・バンディット問題における各戦略の性能と収束を評価することは、その有効性を理解するうえで重要です。時間の経過とともに各アームがどのくらいの頻度で選ばれているかを分析することで、学習の進み方や最良のアームを見つけて活用できているかを推測できます。この演習では、各イテレーションにおける各アームの選択割合を可視化し、epsilon-greedy 戦略の収束状況を評価します。

各イテレーションでどのアームを引いたかを示す selected_arms 配列は、あらかじめ読み込まれています。

Instructions

100 XP
  • 各バンディットの選択割合を時間とともに追跡できるよう、ゼロで初期化した配列 selections_percentage を作成します。
  • 各バンディットについて、イテレーションごとの選択の累積和を計算し、イテレーション番号で割って、時間経過に伴う selections_percentage を求めます。
  • 各バンディットの累積選択割合をプロットし、イテレーションにわたってどのくらいの頻度で選ばれたかを可視化します。