1. 학습
  2. /
  3. 강의
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

연습 문제

DQN với experience replay

Bây giờ bạn sẽ thêm Experience Replay để huấn luyện một agent dùng Deep Q Network. Bạn sẽ tiếp tục sử dụng môi trường Lunar Lander như khi xây dựng Barebone DQN trước đó.

Ở mỗi bước, thay vì chỉ dùng kiến thức từ lần chuyển trạng thái mới nhất để cập nhật mạng, bộ đệm Experience Replay cho phép agent học từ một lô (batch) ngẫu nhiên các trải nghiệm gần đây. Điều này cải thiện đáng kể khả năng học về môi trường.

Các lớp QNetwork và ReplayBuffer từ các bài trước đã có sẵn và được khởi tạo như sau:

  • q_network = QNetwork(8, 4)
  • replay_buffer = ReplayBuffer(10000)

Hàm describe_episode() cũng có sẵn để mô tả các chỉ số ở cuối mỗi episode.

지침 1/2

undefined XP
    1
    2
  • Đẩy trải nghiệm mới nhất vào Replay Buffer.