1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Quy tắc cập nhật Expected SARSA

Trong bài tập này, bạn sẽ hiện thực quy tắc cập nhật Expected SARSA, một thuật toán model-free RL dựa trên sai khác theo thời gian (temporal difference). Expected SARSA ước lượng giá trị kỳ vọng của chính sách hiện tại bằng cách lấy trung bình trên tất cả các hành động có thể, nhờ đó cung cấp mục tiêu cập nhật ổn định hơn so với SARSA. Các công thức dùng trong Expected SARSA được hiển thị bên dưới.

Image showing the mathematical formula of the expected SARSA update rule.

Thư viện numpy đã được import với tên np.

Hướng dẫn

100 XP
  • Tính Q-value kỳ vọng cho next_state.
  • Cập nhật Q-value cho state và action hiện tại bằng công thức Expected SARSA.
  • Cập nhật Q-table Q giả sử tác tử thực hiện hành động 1 ở trạng thái 2 và chuyển sang trạng thái 3, nhận phần thưởng là 5.