1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Định nghĩa một policy tất định

Trong bài tập này, bạn sẽ làm việc với một môi trường tùy chỉnh tên là MyGridWorld, đúng như trong video. Đây là một grid world nơi mục tiêu của tác nhân là đến ô kim cương nhanh nhất có thể. Nhiệm vụ của bạn là định nghĩa một policy điều khiển hành vi của tác nhân như trong hình dưới đây.

Image showing the policy:  states 0, 1, 6, 7 - action right.  states 2, 3 - action down.  states 4, 5 - action left.

Các hành động được mã hóa như sau: (0 → sang trái, 1 → đi xuống, 2 → sang phải, 3 → đi lên).

Thư viện gymnasium đã được nhập sẵn là gym cùng với hàm render().

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo một instance env cho môi trường sử dụng MyGridWorld làm ID môi trường và 'rgb_array' làm render_mode.
  • Định nghĩa policy như trong hình, dưới dạng một dictionary của Python.