1. 学ぶ
  2. /
  3. コース
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

演習

A2C với cập nhật theo batch

Cho đến lúc này trong khóa học, bạn đã dùng nhiều biến thể xoay quanh cùng một vòng lặp huấn luyện DRL cốt lõi. Thực tế có nhiều cách mở rộng cấu trúc này, ví dụ để hỗ trợ cập nhật theo batch.

Giờ bạn sẽ xem lại vòng lặp huấn luyện A2C trên môi trường Lunar Lander, nhưng thay vì cập nhật mạng ở mỗi bước, bạn sẽ đợi cho đến khi trôi qua 10 bước rồi mới thực hiện bước hạ gradient. Bằng cách lấy trung bình loss trong 10 bước, bạn sẽ có các cập nhật ổn định hơn một chút.

指示

100 XP
  • Nối các loss từ mỗi bước vào các tensor loss cho batch hiện tại.
  • Tính batch loss.
  • Khởi tạo lại các tensor loss.