기본 DQN 손실 함수

이제 select_action() 함수를 준비했으니, 에이전트를 학습시키기까지 마지막 한 단계만 남았어요. 바로 calculate_loss()를 구현하는 것입니다.

calculate_loss()는 에피소드의 임의의 단계에 대해 네트워크 손실을 반환합니다.

참고로, 손실은 다음과 같이 주어집니다:

다음 예시 데이터가 연습 문제에 로드되어 있습니다:

state = torch.rand(8)
next_state = torch.rand(8)
action = select_action(q_network, state)
reward = 1
gamma = .99
done = False

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제