遷移確率と報酬

Cliff Walking 環境には 48 個の状態があり、左上（0）から右下（47）へと、行ごとに 0 から 47 の番号が割り当てられています。ここでは、この設定における遷移確率と報酬の構造を調べます。特に、この環境ではゴール到達時の報酬を含め、すべての報酬が負になります。これは各ステップにペナルティがあるため、手数を最小限に抑えること、つまり効率性が有効な学習アルゴリズム設計の鍵であることを強調するための設計です。

gymnasium ライブラリは gym として、環境は env としてインポート済みです。前の演習で定義した num_states と num_actions もインポートされています。

Image showing the cliff walking environment.