1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

遷移確率と報酬

Cliff Walking 環境には 48 個の状態があり、左上(0)から右下(47)へと、行ごとに 0 から 47 の番号が割り当てられています。ここでは、この設定における遷移確率と報酬の構造を調べます。特に、この環境ではゴール到達時の報酬を含め、すべての報酬が負になります。これは各ステップにペナルティがあるため、手数を最小限に抑えること、つまり効率性が有効な学習アルゴリズム設計の鍵であることを強調するための設計です。

gymnasium ライブラリは gym として、環境は env としてインポート済みです。前の演習で定義した num_states と num_actions もインポートされています。

Image showing the cliff walking environment.

指示1 / 2

undefined XP
    1
    2
  • ゴール状態の上に位置する状態を選びます。
  • 選んだ状態について、各アクションごとに遷移タプルの一覧を取り出し、transitions に保存します。
  • 各 transition から、probability、next_state、reward、done フラグを取り出します。