1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

연습 문제

決定的ポリシーを定義する

この演習では、動画で扱ったものと同じカスタム環境 MyGridWorld を使います。これはグリッドワールド環境で、エージェントの目標はできるだけ早くダイヤに到達することです。下図で指定されたとおりに、エージェントの行動を導くポリシーを定義してください。

Image showing the policy:  states 0, 1, 6, 7 - action right.  states 2, 3 - action down.  states 4, 5 - action left.

アクションの表現は次のとおりです: (0 → left、1 → down、2 → right、3 → up)。

gymnasium ライブラリは gym として、render() 関数とあわせてインポート済みです。

지침 1/2

undefined XP
    1
    2
  • 環境IDに MyGridWorld、render_mode に 'rgb_array' を指定して、環境インスタンス env を作成します。
  • 図のとおりの policy を Python の辞書として定義します。