REINFORCE 알고리즘 학습시키기

이제 REINFORCE로 Lunar Lander를 학습시킬 준비가 되었어요! 해야 할 일은 REINFORCE 학습 루프를 구현하는 것과 REINFORCE 손실 계산을 포함하는 것입니다.

손실 계산 단계가 내부 루프와 외부 루프 전반에 걸쳐 이루어지므로, 이번에는 calculate_loss() 함수를 사용하지 않습니다.

에피소드가 완료되면, 그 두 값을 사용해 손실을 계산할 수 있습니다.