DRL のトレーニングループ

エージェントが環境を繰り返し体験できるように、トレーニングループを構築します。

多くの DRL アルゴリズムに共通する基本構造は次のとおりです。

エピソードをループする
各エピソード内でステップをループする
各ステップで、行動を選択し、損失を計算し、ネットワークを更新する

コードが動作するように、プレースホルダーの select_action() と calculate_loss() 関数が用意されています。前の演習で定義した Network と optimizer も利用できます。

外側のループ（エピソード単位）が 10 エピソード実行されるようにしてください。
内側のループ（ステップ単位）は、そのエピソードが完了するまで実行されるようにしてください。
select_action() で選択した行動を、env 環境で実行します。
内側のループの各反復の最後で、次のステップを始める前に状態を更新してください。