マルチアーム・バンディットにおける収束の評価

マルチアーム・バンディット問題における各戦略の性能と収束を評価することは、その有効性を理解するうえで重要です。時間の経過とともに各アームがどのくらいの頻度で選ばれているかを分析することで、学習の進み方や最良のアームを見つけて活用できているかを推測できます。この演習では、各イテレーションにおける各アームの選択割合を可視化し、epsilon-greedy 戦略の収束状況を評価します。

各イテレーションでどのアームを引いたかを示す selected_arms 配列は、あらかじめ読み込まれています。