Menyelesaikan Frozen Lake 8x8 dengan SARSA
Dalam latihan ini, Anda akan menerapkan algoritma SARSA, menggabungkan fungsi update_q_table() yang sebelumnya Anda implementasikan, untuk mempelajari kebijakan optimal pada lingkungan Frozen Lake 8x8. Lingkungan ini identik dengan versi klasik 4x4, dengan satu-satunya perbedaan yaitu ukurannya lebih besar. Anda akan menggunakan algoritma SARSA untuk secara iteratif meningkatkan kebijakan agen berdasarkan reward yang diterima dari lingkungan.
Sebuah Q-table Q telah diinisialisasi dan dimuat untuk Anda, bersama dengan fungsi update_q_table() dari latihan sebelumnya.
Latihan ini adalah bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Petunjuk latihan
- Untuk setiap episode dalam proses pelatihan, eksekusi
actionyang dipilih. - Pilih
next_actionsecara acak. - Perbarui Q-table untuk
statedanactionyang diberikan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
for episode in range(num_episodes):
state, info = env.reset()
action = env.action_space.sample()
terminated = False
while not terminated:
# Execute the action
next_state, reward, terminated, truncated, info = ____
# Choose the next action randomly
next_action = ____
# Update the Q-table
____
state, action = next_state, next_action
render_policy(get_policy())