1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

マルチアーム・バンディットの作成

マルチアーム・バンディット問題は、強化学習でよく使われる古典的な例で、エージェントが各アーム(行動)の期待報酬を知らないまま複数の選択肢から選ぶ状況を表します。時間の経過とともに、エージェントは各選択肢を探索し、どのアームが最も高い報酬をもたらすかを学習します。この演習では、マルチアーム・バンディット問題をシミュレーションするための基本的な構造を準備します。

numpy ライブラリは np としてインポート済みです。

指示

100 XP
  • 各バンディットの真の成功確率を表す乱数の配列 true_bandit_probs を生成します。
  • 2つの配列 counts と values をゼロで初期化します。counts は各バンディットが選ばれた回数を、values は各バンディットの勝率推定値を表します。
  • 各反復で得られた報酬と選択したアームを保存するために、rewards と selected_arms の配列を作成します。