1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

연습 문제

Monte Carlo 法のためのエピソード生成

Monte Carlo 法では、価値関数を求めるためにエピソードを生成する必要があります。そこで、エピソードが終了するまでランダムに行動を選び続けてエピソードを生成する関数を実装します。以降の演習では、この関数を呼び出して、事前に読み込まれているカスタム環境 env に Monte Carlo 法を適用します。

render() 関数はあらかじめ読み込まれています。

지침

100 XP
  • seed に 42 を指定して環境をリセットします。
  • エピソードのループ内では、各反復でランダムな action を選びます。
  • 反復が終わったら、タプル (state, action, reward) を追加して episode データを更新します。