Mulai sekarangMulai gratis

Pembuatan episode untuk metode Monte Carlo

Metode Monte Carlo memerlukan episode yang dihasilkan untuk menurunkan fungsi nilai. Karena itu, sekarang Anda akan mengimplementasikan sebuah fungsi yang menghasilkan episode dengan memilih aksi secara acak hingga episode berakhir. Pada latihan-latihan berikutnya, Anda akan memanggil fungsi ini untuk menerapkan metode Monte Carlo pada environment kustom env yang telah dimuat untuk Anda.

Fungsi render() telah dimuat untuk Anda.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Instruksi latihan

  • Reset environment menggunakan seed bernilai 42.
  • Dalam loop episode, pilih action acak pada setiap iterasi.
  • Setelah sebuah iterasi berakhir, perbarui data episode dengan menambahkan tuple (state, action, reward).

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

def generate_episode():
    episode = []
    # Reset the environment
    state, info = ____
    terminated = False
    while not terminated:
      # Select a random action
      action = ____
      next_state, reward, terminated, truncated, info = env.step(action)
      render()
      # Update episode data
      episode.____(____)
      state = next_state
    return episode
print(generate_episode())
Edit dan Jalankan Kode