Exercise

Hàm mục tiêu surrogate có clip

Cài đặt hàm calculate_loss() cho PPO. Nhiệm vụ này yêu cầu bạn hiện thực hóa đổi mới cốt lõi của PPO — hàm loss surrogate có clip. Cách làm này giúp ràng buộc cập nhật policy để tránh đi quá xa so với policy trước đó ở mỗi bước.

Công thức cho mục tiêu surrogate có clip là

Trong môi trường của bạn, siêu tham số clipping epsilon được đặt là 0.2.

Instructions

100 XP

Tính tỷ lệ xác suất giữa \pi_\theta và \pi_{\theta_{old}} (bản chưa clip và đã clip).
Tính các mục tiêu surrogate (bản chưa clip và đã clip).
Tính mục tiêu surrogate có clip của PPO.
Tính actor loss.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise