1. Learn
  2. /
  3. Courses
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Exercise

Lấy mẫu từ bộ đệm PER

Trước khi bạn có thể dùng lớp Prioritized Experience Buffer để huấn luyện agent, bạn vẫn cần triển khai phương thức .sample(). Phương thức này nhận vào kích thước mẫu bạn muốn rút và trả về các chuyển tiếp đã lấy mẫu dưới dạng tensors, kèm theo chỉ số của chúng trong bộ đệm nhớ và trọng số tầm quan trọng.

Một bộ đệm với sức chứa 10 đã được nạp sẵn trong môi trường của bạn để bạn thực hiện lấy mẫu.

Instructions

100 XP
  • Tính xác suất lấy mẫu tương ứng với mỗi chuyển tiếp.
  • Rút các chỉ số tương ứng với các chuyển tiếp trong mẫu; np.random.choice(a, s, p=p) lấy một mẫu kích thước s có hoàn lại từ mảng a, dựa trên mảng xác suất p.
  • Tính trọng số tầm quan trọng tương ứng với mỗi chuyển tiếp.