MulaiMulai sekarang secara gratis

Menerapkan policy iteration untuk kebijakan optimal

Policy iteration adalah teknik mendasar dalam RL untuk menemukan kebijakan (policy) yang optimal. Prosedurnya terdiri dari dua langkah utama: evaluasi kebijakan (policy evaluation), yaitu menghitung fungsi nilai status untuk kebijakan tertentu, dan perbaikan kebijakan (policy improvement), yaitu memperbarui kebijakan berdasarkan nilai-nilai tersebut. Anda akan menerapkan langkah-langkah ini secara berulang hingga mencapai kebijakan optimal di lingkungan kustom MyGridWorld.

Fungsi render_policy() akan digunakan untuk menampilkan langkah-langkah yang diambil oleh agen sesuai dengan suatu kebijakan.

Fungsi compute_state_value(state, policy) dan compute_q_value(state, action, policy) telah dimuat untuk Anda.

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Edit dan Jalankan Kode