1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Tạo multi-armed bandit

Bài toán multi-armed bandit là ví dụ kinh điển trong reinforcement learning mô tả tình huống một tác tử phải chọn giữa nhiều hành động (hay "cần gạt"/"arm") mà không biết trước kỳ vọng phần thưởng của từng cái. Theo thời gian, tác tử học được arm nào mang lại phần thưởng cao nhất bằng cách thử nghiệm các lựa chọn. Bài tập này yêu cầu bạn thiết lập cấu trúc nền tảng để mô phỏng một bài toán multi-armed bandit.

Thư viện numpy đã được nhập với bí danh np.

Hướng dẫn

100 XP
  • Tạo mảng true_bandit_probs với các xác suất ngẫu nhiên biểu diễn tỷ lệ thành công thực sự của mỗi bandit.
  • Khởi tạo hai mảng counts và values với các giá trị 0; counts theo dõi số lần mỗi bandit được chọn, còn values biểu diễn xác suất thắng ước lượng của mỗi bandit.
  • Tạo các mảng rewards và selected_arms để lưu phần thưởng nhận được và arm được chọn ở mỗi vòng lặp.