Menghitung Nilai Q
Tujuan Anda adalah menghitung nilai aksi, atau Q-value, untuk setiap pasangan state-action pada lingkungan kustom MyGridWorld saat mengikuti kebijakan berikut. Dalam RL, Q-value penting karena merepresentasikan utilitas yang diharapkan dari mengeksekusi suatu aksi tertentu pada state tertentu, kemudian mengikuti kebijakan tersebut.

Lingkungan telah diimpor sebagai env bersama fungsi compute_state_value() dan variabel yang diperlukan (terminal_state, num_states, num_actions, policy, gamma).
Latihan ini adalah bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Petunjuk latihan
- Lengkapi fungsi
compute_q_value()untuk menghitung nilai aksi untukstatedanactiontertentu. - Buat dictionary
Qdi mana setiap key merepresentasikan pasangan state-action, dan value yang sesuai adalah Q-value untuk pasangan tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
if state == terminal_state:
return None
probability, next_state, reward, done = ____
return ____
# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}
print(Q)