1. Learn
  2. /
  3. Courses
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Exercise

Bộ đệm experience replay

Bây giờ bạn sẽ tạo cấu trúc dữ liệu để hỗ trợ Experience Replay, giúp agent học hiệu quả hơn rất nhiều.

Bộ đệm replay này cần hỗ trợ hai thao tác:

  • Lưu trữ các trải nghiệm vào bộ nhớ để lấy mẫu trong tương lai.
  • "Phát lại" một lô ngẫu nhiên các trải nghiệm trong quá khứ từ bộ nhớ của nó.

Vì dữ liệu được lấy mẫu từ bộ đệm sẽ được đưa vào một neural network, bộ đệm nên trả về các Tensor của torch cho tiện lợi.

Các module torch và random cùng lớp deque đã được import vào môi trường bài tập của bạn.

Instructions

100 XP
  • Hoàn thiện phương thức push() của ReplayBuffer bằng cách thêm experience_tuple vào bộ nhớ của buffer.
  • Trong phương thức sample(), rút một mẫu ngẫu nhiên kích thước batch_size từ self.memory.
  • Vẫn trong sample(), mẫu ban đầu là danh sách các bộ; đảm bảo chuyển nó thành một bộ các danh sách.
  • Chuyển actions_tensor về dạng (batch_size, 1) thay vì (batch_size).