1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

DQN với prioritized experience replay

Trong bài tập này, bạn sẽ đưa Prioritized Experience Replay (PER) vào để cải thiện thuật toán DQN. Mục tiêu của PER là tối ưu hóa lô các chuyển tiếp được chọn để cập nhật mạng tại mỗi bước.

Tham khảo lại, các tên phương thức bạn đã khai báo cho PrioritizedReplayBuffer gồm:

  • push() (để đưa các chuyển tiếp vào bộ đệm)
  • sample() (để lấy mẫu một lô chuyển tiếp từ bộ đệm)
  • increase_beta() (để tăng mức trọng số của importance sampling)
  • update_priorities() (để cập nhật độ ưu tiên đã lấy mẫu)

Hàm describe_episode() tiếp tục được dùng để mô tả mỗi episode.

Hướng dẫn

100 XP
  • Khởi tạo một Prioritized Experience Replay buffer với dung lượng 10000 chuyển tiếp.
  • Tăng dần ảnh hưởng của importance sampling theo thời gian bằng cách cập nhật tham số beta.
  • Cập nhật độ ưu tiên của các trải nghiệm đã lấy mẫu dựa trên sai số TD mới nhất của chúng.