1. Învăţa
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

exercise

マルチアーム・バンディットを解く

この演習では、epsilon 値を時間とともに減衰させて探索から活用へと切り替える、epsilon-greedy 戦略を実装して、10 本腕のバンディット問題を解きます。

epsilon、min_epsilon、epsilon_decay はあらかじめ定義されています。epsilon_greedy() 関数もインポート済みです。

Instrucţiuni

100 XP
  • create_multi_armed_bandit() 関数を使って 10 本腕のバンディット問題を初期化し、true_bandit_probs、counts、values、rewards、selected_arms を取得します。
  • epsilon_greedy() 関数を用いて引くアームを選択します。
  • 真のバンディット確率に基づいて reward をシミュレートします。
  • epsilon 値を減衰させ、min_epsilon を下回らないようにします。