マルチアーム・バンディットの作成

マルチアーム・バンディット問題は、強化学習でよく使われる古典的な例で、エージェントが各アーム（行動）の期待報酬を知らないまま複数の選択肢から選ぶ状況を表します。時間の経過とともに、エージェントは各選択肢を探索し、どのアームが最も高い報酬をもたらすかを学習します。この演習では、マルチアーム・バンディット問題をシミュレーションするための基本的な構造を準備します。

numpy ライブラリは np としてインポート済みです。