Pembuatan episode untuk metode Monte Carlo
Metode Monte Carlo memerlukan episode yang dihasilkan untuk menurunkan fungsi nilai. Karena itu, sekarang Anda akan mengimplementasikan sebuah fungsi yang menghasilkan episode dengan memilih aksi secara acak hingga episode berakhir. Pada latihan-latihan berikutnya, Anda akan memanggil fungsi ini untuk menerapkan metode Monte Carlo pada environment kustom env yang telah dimuat untuk Anda.
Fungsi render() telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Petunjuk latihan
- Reset environment menggunakan
seedbernilai 42. - Dalam loop episode, pilih
actionacak pada setiap iterasi. - Setelah sebuah iterasi berakhir, perbarui data
episodedengan menambahkan tuple(state, action, reward).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
def generate_episode():
episode = []
# Reset the environment
state, info = ____
terminated = False
while not terminated:
# Select a random action
action = ____
next_state, reward, terminated, truncated, info = env.step(action)
render()
# Update episode data
episode.____(____)
state = next_state
return episode
print(generate_episode())