1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Áp dụng Expected SARSA

Bây giờ bạn sẽ áp dụng thuật toán Expected SARSA trong một môi trường tùy chỉnh như dưới đây, nơi mục tiêu là cho một agent di chuyển trên lưới, cố gắng đạt tới đích nhanh nhất có thể. Các quy tắc vẫn giữ nguyên như trước: agent nhận phần thưởng +10 khi chạm tới viên kim cương, -2 khi đi qua núi, và -1 cho mọi trạng thái còn lại.

new_cust_env.png

Môi trường đã được import là env.

Hướng dẫn

100 XP
  • Khởi tạo bảng Q Q với giá trị 0 cho mọi cặp trạng thái-hành động.
  • Cập nhật bảng Q bằng hàm update_q_table().
  • Trích xuất policy dưới dạng một dictionary từ bảng Q đã học.