MulaiMulai sekarang secara gratis

Menyelesaikan CliffWalking dengan strategi epsilon-greedy

Lingkungan CliffWalking adalah testbed standar untuk algoritma RL. Ini adalah dunia kisi (grid world) di mana agen harus menemukan jalur dari state awal ke state tujuan sambil menghindari tebing di sepanjang jalan. Menggunakan strategi epsilon-greedy memungkinkan agen menjelajahi lingkungan secara efektif sembari belajar menghindari tebing, sehingga memaksimalkan hadiah kumulatif. Tugas Anda adalah menyelesaikan lingkungan ini menggunakan strategi epsilon-greedy, menghitung hadiah yang diperoleh di setiap episode pelatihan, dan menyimpannya ke dalam list rewards_eps_greedy.

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Petunjuk latihan

  • Di dalam suatu episode, pilih action menggunakan fungsi epsilon_greedy().
  • Akumulasikan reward yang diterima ke dalam episode_reward.
  • Setelah setiap episode, tambahkan total episode_reward ke list rewards_eps_greedy untuk analisis selanjutnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

rewards_eps_greedy = []
for episode in range(total_episodes):
    state, info = env.reset()
    episode_reward = 0
    for i in range(max_steps):
      	# Select action with epsilon-greedy strategy
        action = ____
        next_state, reward, terminated, truncated, info = env.step(action)
        # Accumulate reward
        ____        
        update_q_table(state, action, reward, next_state)      
        state = next_state
    # Append the toal reward to the rewards list 
    ____
print("Average reward per episode: ", np.mean(rewards_eps_greedy))
Edit dan Jalankan Kode