Menyelesaikan CliffWalking dengan strategi epsilon-greedy
Lingkungan CliffWalking adalah testbed standar untuk algoritma RL. Ini adalah dunia kisi (grid world) di mana agen harus menemukan jalur dari state awal ke state tujuan sambil menghindari tebing di sepanjang jalan. Menggunakan strategi epsilon-greedy memungkinkan agen menjelajahi lingkungan secara efektif sembari belajar menghindari tebing, sehingga memaksimalkan hadiah kumulatif. Tugas Anda adalah menyelesaikan lingkungan ini menggunakan strategi epsilon-greedy, menghitung hadiah yang diperoleh di setiap episode pelatihan, dan menyimpannya ke dalam list rewards_eps_greedy.
Latihan ini adalah bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Petunjuk latihan
- Di dalam suatu episode, pilih
actionmenggunakan fungsiepsilon_greedy(). - Akumulasikan
rewardyang diterima ke dalamepisode_reward. - Setelah setiap episode, tambahkan total
episode_rewardke listrewards_eps_greedyuntuk analisis selanjutnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
rewards_eps_greedy = []
for episode in range(total_episodes):
state, info = env.reset()
episode_reward = 0
for i in range(max_steps):
# Select action with epsilon-greedy strategy
action = ____
next_state, reward, terminated, truncated, info = env.step(action)
# Accumulate reward
____
update_q_table(state, action, reward, next_state)
state = next_state
# Append the toal reward to the rewards list
____
print("Average reward per episode: ", np.mean(rewards_eps_greedy))