1. Learn
  2. /
  3. Courses
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Exercise

Tính toán loss của Actor–Critic

Bước cuối trước khi bạn có thể huấn luyện agent với A2C: viết hàm calculate_losses() trả về loss cho cả hai mạng.

Tham khảo, đây là biểu thức cho hàm loss của actor và critic tương ứng:

Instructions

100 XP
  • Tính TD target.
  • Tính loss cho mạng Actor.
  • Tính loss cho mạng Critic.