Học hỏi

/

Khoa Học

/

Deep Reinforcement Learning bằng Python

Connected

Bài tập

Tính toán loss của Actor–Critic

Bước cuối trước khi bạn có thể huấn luyện agent với A2C: viết hàm calculate_losses() trả về loss cho cả hai mạng.

Tham khảo, đây là biểu thức cho hàm loss của actor và critic tương ứng:

Hướng dẫn

100 XP

Tính TD target.
Tính loss cho mạng Actor.
Tính loss cho mạng Critic.