1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Deep Reinforcement Learning

Connected

연습 문제

클리핑된 대리 목적 함수

PPO용 calculate_loss() 함수를 구현하세요. 이는 PPO의 핵심 혁신인 클리핑된 대리 손실 함수를 코드로 작성하는 작업이에요. 이 손실은 각 단계에서 정책이 이전 정책에서 너무 멀리 벗어나지 않도록 정책 업데이트를 제한해 줍니다.

클리핑된 대리 목적 함수의 수식은 다음과 같습니다.

이 환경에서는 클리핑 하이퍼파라미터 epsilon이 0.2로 설정되어 있어요.

지침

100 XP
  • \pi_\theta와 \pi_{\theta_{old}} 사이의 확률 비율을 구하세요(클리핑 전/후 버전 모두).
  • 대리 목적 함수를 계산하세요(클리핑 전/후 버전 모두).
  • PPO 클리핑된 대리 목적 함수를 계산하세요.
  • actor 손실을 계산하세요.