first-visit Monte Carlo の実装

Monte Carlo アルゴリズムの目的は、最適方策を導くために Q テーブルを推定することです。この演習では、First-Visit Monte Carlo 法を実装して行動価値関数 Q を推定し、前の演習で扱ったカスタム環境を解くための最適方策を計算します。リターンを計算する際は、割引率を 1 と仮定してください。

各状態–行動ペアに対する Q 値、報酬の累積和、訪問回数をそれぞれ保持する numpy 配列 Q、returns_sum、returns_count は、すでに初期化済みで読み込まれています。