MulaiMulai sekarang secara gratis

Menghitung Nilai Q

Tujuan Anda adalah menghitung nilai aksi, atau Q-value, untuk setiap pasangan state-action pada lingkungan kustom MyGridWorld saat mengikuti kebijakan berikut. Dalam RL, Q-value penting karena merepresentasikan utilitas yang diharapkan dari mengeksekusi suatu aksi tertentu pada state tertentu, kemudian mengikuti kebijakan tersebut.

exercise_policy.png

Lingkungan telah diimpor sebagai env bersama fungsi compute_state_value() dan variabel yang diperlukan (terminal_state, num_states, num_actions, policy, gamma).

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Petunjuk latihan

  • Lengkapi fungsi compute_q_value() untuk menghitung nilai aksi untuk state dan action tertentu.
  • Buat dictionary Q di mana setiap key merepresentasikan pasangan state-action, dan value yang sesuai adalah Q-value untuk pasangan tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
    if state == terminal_state:
        return None   
    probability, next_state, reward, done = ____
    return ____

# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}

print(Q)
Edit dan Jalankan Kode