1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Exercise

Giải bài toán Frozen Lake 8x8 với SARSA

Trong bài tập này, bạn sẽ áp dụng thuật toán SARSA, kết hợp với hàm update_q_table() mà bạn đã triển khai trước đó, để học một chính sách tối ưu cho môi trường Frozen Lake 8x8. Môi trường này giống hệt phiên bản kinh điển 4x4, chỉ khác là kích thước lớn hơn. Bạn sẽ dùng SARSA để lặp lại và cải thiện dần chính sách của tác tử dựa trên phần thưởng nhận được từ môi trường.

Một Q-table Q đã được khởi tạo và nạp sẵn cho bạn, cùng với hàm update_q_table() từ bài tập trước.

Instructions

100 XP
  • Với mỗi tập (episode) trong quá trình huấn luyện, hãy thực thi action đã chọn.
  • Chọn next_action ngẫu nhiên.
  • Cập nhật Q-table cho state và action đã cho.