1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Tính giá trị-trạng-thái cho một policy

Vẫn với môi trường xác định MyGridWorld, giờ bạn cần đánh giá mức độ hiệu quả của policy bạn đã định nghĩa ở bài trước. Bạn sẽ thực hiện điều này bằng cách tính hàm giá trị-trạng-thái cho từng trạng thái dưới policy này.

Môi trường đã được nhập là env cùng với các biến cần thiết (terminal_state, num_states, policy, gamma).

Hướng dẫn

100 XP
  • Hoàn thiện hàm compute_state_value() để tính giá trị cho mỗi trạng thái theo policy đã cho.
  • Tạo một dictionary state_values trong đó mỗi khóa là state, và mỗi giá trị là giá trị-trạng-thái tương ứng.