Lấy mẫu từ bộ đệm PER

Trước khi bạn có thể dùng lớp Prioritized Experience Buffer để huấn luyện agent, bạn vẫn cần triển khai phương thức .sample(). Phương thức này nhận vào kích thước mẫu bạn muốn rút và trả về các chuyển tiếp đã lấy mẫu dưới dạng tensors, kèm theo chỉ số của chúng trong bộ đệm nhớ và trọng số tầm quan trọng.

Một bộ đệm với sức chứa 10 đã được nạp sẵn trong môi trường của bạn để bạn thực hiện lấy mẫu.