연습 문제

Actor-Critic 손실 계산

A2C로 에이전트를 학습하기 전 마지막 단계로, 두 네트워크의 손실을 반환하는 calculate_losses() 함수를 작성하세요.

참고로, 아래는 각각 Actor와 Critic 손실 함수의 식입니다:

100 XP