滑りやすい Frozen Lake での方策評価

滑りやすい Frozen Lake 環境では、学習済みのQテーブルから方策を導くことだけでは、その有効性を十分に評価できません。学習した方策の適切さを正しく評価するには、複数のエピソードを実行し、得られた平均報酬を観察する必要があります。本演習では、学習した方策の有効性を、学習時にランダム方策に従った場合に確立したベースラインと比較します。あなたの課題は、学習済み方策を複数エピソードで実行し、収集した平均報酬にもとづいてその性能を分析し、ランダム方策フェーズで得られた平均報酬と対比することです。

Qテーブル Q、num_states、num_actions、および avg_reward_per_random_episode はあらかじめ読み込まれています。 NumPy ライブラリは np としてインポート済みです。