MulaiMulai sekarang secara gratis

Menghitung nilai-keadaan untuk sebuah kebijakan

Dengan menggunakan lingkungan deterministik yang sama, MyGridWorld, kini Anda perlu mengevaluasi efektivitas kebijakan yang Anda definisikan pada latihan sebelumnya. Anda akan melakukannya dengan menghitung fungsi nilai-keadaan untuk setiap state di bawah kebijakan ini.

Lingkungan telah diimpor sebagai env bersama variabel-variabel yang diperlukan (terminal_state, num_states, policy, gamma).

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Petunjuk latihan

  • Lengkapi fungsi compute_state_value() untuk menghitung nilai bagi setiap state di bawah kebijakan yang diberikan.
  • Buat kamus state_values di mana setiap kuncinya adalah state, dan setiap nilainya adalah nilai-keadaan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Complete the function
def compute_state_value(state):
    if state == terminal_state:
        return ____
    action = ____
    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return ____

# Compute all state values 
state_values = {____: ____ for ____ in range(____)}

print(state_values)
Edit dan Jalankan Kode