클리핑된 대리 목적 함수

PPO용 calculate_loss() 함수를 구현하세요. 이는 PPO의 핵심 혁신인 클리핑된 대리 손실 함수를 코드로 작성하는 작업이에요. 이 손실은 각 단계에서 정책이 이전 정책에서 너무 멀리 벗어나지 않도록 정책 업데이트를 제한해 줍니다.

클리핑된 대리 목적 함수의 수식은 다음과 같습니다.