1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Giải bài toán multi-armed bandit

Bài tập này yêu cầu bạn triển khai chiến lược epsilon-greedy để giải bài toán bandit 10 cánh tay, trong đó giá trị epsilon sẽ giảm dần theo thời gian để chuyển dần từ khám phá sang khai thác.

epsilon, min_epsilon, và epsilon_decay đã được định nghĩa sẵn cho bạn. Hàm epsilon_greedy() cũng đã được nhập sẵn.

Hướng dẫn

100 XP
  • Dùng hàm create_multi_armed_bandit() để khởi tạo bài toán bandit 10 cánh tay; hàm sẽ trả về true_bandit_probs, counts, values, rewards, và selected_arms.
  • Chọn một cánh tay để kéo bằng hàm epsilon_greedy().
  • Mô phỏng reward dựa trên các xác suất thật của bandit.
  • Giảm dần giá trị epsilon và đảm bảo nó không giảm xuống dưới min_epsilon.