1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Vòng lặp huấn luyện DRL

Để cho agent trải nghiệm môi trường lặp đi lặp lại, bạn cần thiết lập một vòng lặp huấn luyện.

Nhiều thuật toán DRL có chung cấu trúc lõi như sau:

  1. Lặp qua các episode
  2. Lặp qua các bước trong mỗi episode
  3. Ở mỗi bước, chọn một hành động, tính loss, và cập nhật mạng

Bạn được cung cấp các hàm khung select_action() và calculate_loss() để mã có thể chạy. Network và optimizer được định nghĩa từ bài trước cũng đã sẵn sàng cho bạn sử dụng.

Hướng dẫn

100 XP
  • Đảm bảo vòng lặp ngoài (qua các episode) chạy trong mười episode.
  • Đảm bảo vòng lặp trong (qua các bước) chạy cho đến khi episode kết thúc.
  • Thực hiện hành động do select_action() chọn trong môi trường env.
  • Ở cuối mỗi lần lặp của vòng trong, cập nhật state trước khi bắt đầu bước tiếp theo.