1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Hàm mục tiêu surrogate có clip

Cài đặt hàm calculate_loss() cho PPO. Nhiệm vụ này yêu cầu bạn hiện thực hóa đổi mới cốt lõi của PPO — hàm loss surrogate có clip. Cách làm này giúp ràng buộc cập nhật policy để tránh đi quá xa so với policy trước đó ở mỗi bước.

Công thức cho mục tiêu surrogate có clip là

Trong môi trường của bạn, siêu tham số clipping epsilon được đặt là 0.2.

Hướng dẫn

100 XP
  • Tính tỷ lệ xác suất giữa \pi_\theta và \pi_{\theta_{old}} (bản chưa clip và đã clip).
  • Tính các mục tiêu surrogate (bản chưa clip và đã clip).
  • Tính mục tiêu surrogate có clip của PPO.
  • Tính actor loss.