1. 学ぶ
  2. /
  3. コース
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

演習

Đánh giá hội tụ trong bài toán multi-armed bandit

Đánh giá hiệu suất và mức độ hội tụ của các chiến lược trong bài toán multi-armed bandit là chìa khóa để hiểu hiệu quả của chúng. Bằng cách phân tích tần suất mỗi tay gạt được chọn theo thời gian, bạn có thể suy luận quá trình học và khả năng của chiến lược trong việc nhận diện và khai thác tay gạt tốt nhất. Bài tập này yêu cầu trực quan hóa tỷ lệ lựa chọn của từng tay gạt qua các vòng lặp để đánh giá sự hội tụ của chiến lược epsilon-greedy.

Mảng selected_arms cho biết tay gạt nào được kéo ở mỗi vòng lặp đã được nạp sẵn cho bạn.

指示

100 XP
  • Khởi tạo một mảng selections_percentage toàn số 0, với kích thước để theo dõi tỷ lệ lựa chọn của từng bandit theo thời gian.
  • Tính selections_percentage theo thời gian bằng cách lấy tổng tích lũy số lần chọn cho mỗi bandit qua các vòng lặp và chia cho số vòng lặp tương ứng.
  • Vẽ biểu đồ tỷ lệ lựa chọn tích lũy cho từng bandit để trực quan hóa tần suất mỗi bandit được chọn qua các vòng lặp.