1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Cài đặt Monte Carlo lần đầu ghé thăm

Mục tiêu của các thuật toán Monte Carlo là ước lượng Q-table để suy ra một chính sách tối ưu. Trong bài tập này, bạn sẽ cài đặt phương pháp Monte Carlo lần đầu ghé thăm để ước lượng hàm giá trị hành động Q, sau đó tính chính sách tối ưu để giải bài toán trong môi trường tùy biến bạn đã thấy ở bài trước. Khi tính return, giả sử hệ số chiết khấu bằng 1.

Các mảng numpy Q, returns_sum và returns_count, lần lượt lưu trữ các Q-value, tổng phần thưởng tích lũy và số lần ghé thăm cho mỗi cặp trạng thái–hành động, đã được khởi tạo và nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Xác định điều kiện if cần kiểm tra trong thuật toán Monte Carlo lần đầu ghé thăm.
  • Cập nhật các return (returns_sum), số đếm của chúng (returns_count) và visited_states.