1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Python 中的 Gymnasium 强化学习

Connected

Bài tập

定义一个确定性策略

在本练习中,您将使用一个名为 MyGridWorld 的自定义环境(与视频中相同)。这是一个网格世界,智能体的目标是尽快到达钻石。您的任务是按照下图所示为智能体定义一个指导其行为的策略。

Image showing the policy:  states 0, 1, 6, 7 - action right.  states 2, 3 - action down.  states 4, 5 - action left.

动作表示为: (0 → 向左,1 → 向下,2 → 向右,3 → 向上)。

已为您导入 gymnasium 库为 gym,并提供了 render() 函数。

Hướng dẫn 1/2

undefined XP
    1
    2
  • 使用 MyGridWorld 作为环境 ID,'rgb_array' 作为 render_mode,创建环境实例 env。
  • 将图中的策略定义为一个 Python 字典 policy。