REINFORCE アルゴリズムの学習

いよいよ REINFORCE を使って Lunar Lander を学習させます！必要なのは、REINFORCE のトレーニングループを実装し、REINFORCE の損失計算を含めることです。

今回は、損失計算の手順が内側と外側の両方のループにまたがるため、calculate_loss() 関数は使いません。

エピソードが完了したら、これらの量を用いて損失を計算できます。