MulaiMulai sekarang secara gratis

Pembuatan episode untuk metode Monte Carlo

Metode Monte Carlo memerlukan episode yang dihasilkan untuk menurunkan fungsi nilai. Karena itu, sekarang Anda akan mengimplementasikan sebuah fungsi yang menghasilkan episode dengan memilih aksi secara acak hingga episode berakhir. Pada latihan-latihan berikutnya, Anda akan memanggil fungsi ini untuk menerapkan metode Monte Carlo pada environment kustom env yang telah dimuat untuk Anda.

Fungsi render() telah dimuat untuk Anda.

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Petunjuk latihan

  • Reset environment menggunakan seed bernilai 42.
  • Dalam loop episode, pilih action acak pada setiap iterasi.
  • Setelah sebuah iterasi berakhir, perbarui data episode dengan menambahkan tuple (state, action, reward).

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

def generate_episode():
    episode = []
    # Reset the environment
    state, info = ____
    terminated = False
    while not terminated:
      # Select a random action
      action = ____
      next_state, reward, terminated, truncated, info = env.step(action)
      render()
      # Update episode data
      episode.____(____)
      state = next_state
    return episode
print(generate_episode())
Edit dan Jalankan Kode