1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Triển khai value iteration

Value iteration là một phương pháp quan trọng trong RL để tìm chính sách tối ưu. Phương pháp này cải thiện dần hàm giá trị cho mỗi trạng thái cho đến khi hội tụ, từ đó tìm ra chính sách tối ưu. Bạn sẽ bắt đầu với hàm giá trị V và policy đã được khởi tạo sẵn. Sau đó, bạn sẽ cập nhật chúng trong một vòng lặp cho đến khi hàm giá trị hội tụ và quan sát chính sách hoạt động.

Hàm get_max_action_and_value(state, V) đã được tải sẵn cho bạn.

Hướng dẫn

100 XP
  • Với mỗi trạng thái, tìm hành động có Q-value lớn nhất (max_action) và giá trị tương ứng (max_q_value).
  • Cập nhật từ điển new_V và policy dựa trên max_action và max_q_value.
  • Kiểm tra hội tụ bằng cách xem chênh lệch giữa new_v và V ở mọi trạng thái có nhỏ hơn threshold hay không.