1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Áp dụng lặp chính sách để tìm chính sách tối ưu

Policy iteration là một kỹ thuật nền tảng trong RL để tìm ra chính sách tối ưu. Quy trình gồm hai bước chính: đánh giá chính sách, nơi bạn tính hàm giá trị trạng thái cho một chính sách đã cho, và cải thiện chính sách, nơi bạn cập nhật chính sách dựa trên các giá trị này. Bạn sẽ lặp lại hai bước này cho đến khi hội tụ về chính sách tối ưu trong môi trường tùy chỉnh MyGridWorld.

Hàm render_policy() sẽ được dùng để hiển thị các bước mà tác nhân thực hiện theo một chính sách.

Các hàm compute_state_value(state, policy) và compute_q_value(state, action, policy) đã được nạp sẵn cho bạn.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Hoàn thiện hàm policy_evaluation() để tính hàm giá trị trạng thái V cho một policy đã cho.