Uczyć się

/

Courses

/

Python으로 배우는 Deep Reinforcement Learning

Connected

Exercise

클리핑된 확률 비율

이제 PPO 목적 함수의 핵심 구성 요소인 클리핑된 확률 비율을 구현해 보겠습니다.

참고로, 확률 비율은 다음과 같이 정의됩니다: $$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$

그리고 클리핑된 확률 비율은 $\mathrm{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)$입니다.

Instrukcje

100 XP

action_log_prob에서 행동 확률 prob을, action_log_prob_old에서 prob_old를 얻으세요.
이전 행동 로그 확률을 torch의 기울기 계산 그래프에서 분리하세요.
확률 비율을 계산하세요.
대리 목적 함수를 클리핑하세요.