1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Tỷ lệ xác suất đã được kẹp (clipped)

Bạn sẽ hiện thực tỷ lệ xác suất đã được kẹp (clipped probability ratio), một thành phần cốt lõi của hàm mục tiêu PPO.

Tham chiếu: tỷ lệ xác suất được định nghĩa là: $$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$

Và tỷ lệ xác suất đã được kẹp là: \(\mathrm{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\).

Hướng dẫn

100 XP
  • Lấy xác suất hành động prob từ action_log_prob, và prob_old từ action_log_prob_old.
  • Tách log prob hành động cũ khỏi đồ thị gradient của torch.
  • Tính tỷ lệ xác suất.
  • Kẹp (clip) mục tiêu thay thế (surrogate objective).