1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Tính Q-value

Mục tiêu của bạn là tính action-value, còn gọi là Q-value, cho từng cặp state-action trong môi trường MyGridWorld tùy chỉnh khi làm theo chính sách dưới đây. Trong RL, Q-value rất quan trọng vì chúng biểu diễn lợi ích kỳ vọng khi thực hiện một hành động cụ thể ở một trạng thái nhất định, rồi tiếp tục tuân theo chính sách đó.

exercise_policy.png

Môi trường đã được import dưới tên env cùng với hàm compute_state_value() và các biến cần thiết (terminal_state, num_states, num_actions, policy, gamma).

Hướng dẫn

100 XP
  • Hoàn thiện hàm compute_q_value() để tính action-value cho state và action được cho.
  • Tạo một dictionary Q trong đó mỗi khóa là một cặp state-action, và giá trị tương ứng là Q-value của cặp đó.