MulaiMulai sekarang secara gratis

Mendefinisikan kebijakan deterministik

Dalam latihan ini, Anda akan bekerja dengan lingkungan kustom bernama MyGridWorld, sama seperti yang Anda lihat di video. Lingkungan ini adalah grid world di mana tujuan agen adalah mencapai berlian secepat mungkin. Tugas Anda adalah mendefinisikan sebuah kebijakan yang mengarahkan perilaku agen seperti yang ditunjukkan pada gambar di bawah.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Aksi direpresentasikan sebagai: (0 → left/kiri, 1 → down/bawah, 2 → right/kanan, 3 → up/atas).

Pustaka gymnasium telah diimpor untuk Anda sebagai gym beserta fungsi render().

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Edit dan Jalankan Kode