Monte Carlo 法のためのエピソード生成

Monte Carlo 法では、価値関数を求めるためにエピソードを生成する必要があります。そこで、エピソードが終了するまでランダムに行動を選び続けてエピソードを生成する関数を実装します。以降の演習では、この関数を呼び出して、事前に読み込まれているカスタム環境 env に Monte Carlo 法を適用します。

render() 関数はあらかじめ読み込まれています。