Q-learning で 8x8 Frozen Lake を攻略する

この演習では、Q-learning アルゴリズムを用いて、8x8 の Frozen Lake 環境で最適な方策を学習します。今回は "slippery"（滑りやすい）設定が有効になっています。この条件により遷移が確率的になり、エージェントの動きが予測しにくくなるため、より現実に近い状況を再現できます。

あらかじめ初期化済みの Q-table Q と、前の演習で使った update_q_table() 関数、そして各エピソードで得られた合計報酬を格納する空のリスト rewards_per_episode が読み込まれています。