1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Cải thiện policy

Trong bài trước, bạn đã tính các giá trị Q cho từng cặp trạng thái–hành động trong môi trường MyGridWorld. Bây giờ, bạn sẽ dùng các giá trị Q này để cải thiện policy hiện có. Cải thiện policy là bước quan trọng trong reinforcement learning, nơi bạn nâng chất lượng policy bằng cách chọn các hành động tối đa hóa lợi ích kỳ vọng (Q-value) ở mỗi trạng thái. Sau khi cải thiện policy, bạn sẽ hiển thị các bước di chuyển mới theo policy đã cải thiện này.

Môi trường đã được nhập là env, cùng với các giá trị Q là Q, và hàm render().

Hướng dẫn

100 XP
  • Tìm hành động tốt nhất cho mỗi trạng thái dựa trên các Q-value.
  • Chọn action đúng dựa trên improved_policy.
  • Thực thi action đã chọn để quan sát kết quả.