マルチアーム・バンディットを解く

この演習では、epsilon 値を時間とともに減衰させて探索から活用へと切り替える、epsilon-greedy 戦略を実装して、10 本腕のバンディット問題を解きます。

epsilon、min_epsilon、epsilon_decay はあらかじめ定義されています。epsilon_greedy() 関数もインポート済みです。

create_multi_armed_bandit() 関数を使って 10 本腕のバンディット問題を初期化し、true_bandit_probs、counts、values、rewards、selected_arms を取得します。
epsilon_greedy() 関数を用いて引くアームを選択します。
真のバンディット確率に基づいて reward をシミュレートします。
epsilon 値を減衰させ、min_epsilon を下回らないようにします。