1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Deep Reinforcement Learning

Connected

연습 문제

Actor-Critic 손실 계산

A2C로 에이전트를 학습하기 전 마지막 단계로, 두 네트워크의 손실을 반환하는 calculate_losses() 함수를 작성하세요.

참고로, 아래는 각각 Actor와 Critic 손실 함수의 식입니다:

지침

100 XP
  • TD 타깃을 계산하세요.
  • Actor 네트워크의 손실을 계산하세요.
  • Critic 네트워크의 손실을 계산하세요.