1. Lära sig
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

exercise

決定的ポリシーを定義する

この演習では、動画で扱ったものと同じカスタム環境 MyGridWorld を使います。これはグリッドワールド環境で、エージェントの目標はできるだけ早くダイヤに到達することです。下図で指定されたとおりに、エージェントの行動を導くポリシーを定義してください。

Image showing the policy:  states 0, 1, 6, 7 - action right.  states 2, 3 - action down.  states 4, 5 - action left.

アクションの表現は次のとおりです: (0 → left、1 → down、2 → right、3 → up)。

gymnasium ライブラリは gym として、render() 関数とあわせてインポート済みです。

Instruktioner 1 / 2

undefined XP
    1
    2
  • 環境IDに MyGridWorld、render_mode に 'rgb_array' を指定して、環境インスタンス env を作成します。
  • 図のとおりの policy を Python の辞書として定義します。