1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Exercise

Cài đặt quy tắc cập nhật SARSA

SARSA là một thuật toán on-policy trong RL, cập nhật hàm giá trị hành động dựa trên hành động đã thực hiện và hành động được chọn ở trạng thái kế tiếp. Cách này giúp học không chỉ giá trị của cặp trạng thái–hành động hiện tại mà còn của cặp liền sau, từ đó học được các chính sách tính đến những hành động tương lai. Quy tắc cập nhật SARSA được nêu bên dưới, và nhiệm vụ của bạn là cài đặt một hàm cập nhật Q-table dựa trên quy tắc này.

Thư viện NumPy đã được nhập sẵn với bí danh np.

Image showing the mathematical formula of the SARSA update rule.

Instructions

100 XP
  • Lấy giá trị Q hiện tại cho cặp trạng thái–hành động được cho.
  • Tìm giá trị Q cho cặp trạng thái–hành động kế tiếp.
  • Cập nhật giá trị Q cho cặp trạng thái–hành động hiện tại bằng công thức SARSA.
  • Cập nhật Q-table Q, giả sử tác tử thực hiện hành động 0 ở trạng thái 0, nhận phần thưởng 5, chuyển sang trạng thái 1, và thực hiện hành động 1.