Menghitung nilai-keadaan untuk sebuah kebijakan
Dengan menggunakan lingkungan deterministik yang sama, MyGridWorld, kini Anda perlu mengevaluasi efektivitas kebijakan yang Anda definisikan pada latihan sebelumnya. Anda akan melakukannya dengan menghitung fungsi nilai-keadaan untuk setiap state di bawah kebijakan ini.
Lingkungan telah diimpor sebagai env bersama variabel-variabel yang diperlukan (terminal_state, num_states, policy, gamma).
Latihan ini adalah bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Petunjuk latihan
- Lengkapi fungsi
compute_state_value()untuk menghitung nilai bagi setiap state di bawah kebijakan yang diberikan. - Buat kamus
state_valuesdi mana setiap kuncinya adalahstate, dan setiap nilainya adalah nilai-keadaan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Complete the function
def compute_state_value(state):
if state == terminal_state:
return ____
action = ____
_, next_state, reward, _ = env.unwrapped.P[state][action][0]
return ____
# Compute all state values
state_values = {____: ____ for ____ in range(____)}
print(state_values)