MulaiMulai sekarang secara gratis

Menyelesaikan Frozen Lake 8x8 dengan SARSA

Dalam latihan ini, Anda akan menerapkan algoritma SARSA, menggabungkan fungsi update_q_table() yang sebelumnya Anda implementasikan, untuk mempelajari kebijakan optimal pada lingkungan Frozen Lake 8x8. Lingkungan ini identik dengan versi klasik 4x4, dengan satu-satunya perbedaan yaitu ukurannya lebih besar. Anda akan menggunakan algoritma SARSA untuk secara iteratif meningkatkan kebijakan agen berdasarkan reward yang diterima dari lingkungan.

Sebuah Q-table Q telah diinisialisasi dan dimuat untuk Anda, bersama dengan fungsi update_q_table() dari latihan sebelumnya.

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Petunjuk latihan

  • Untuk setiap episode dalam proses pelatihan, eksekusi action yang dipilih.
  • Pilih next_action secara acak.
  • Perbarui Q-table untuk state dan action yang diberikan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())
Edit dan Jalankan Kode