Exercise

Tính giá trị-trạng-thái cho một policy

Vẫn với môi trường xác định MyGridWorld, giờ bạn cần đánh giá mức độ hiệu quả của policy bạn đã định nghĩa ở bài trước. Bạn sẽ thực hiện điều này bằng cách tính hàm giá trị-trạng-thái cho từng trạng thái dưới policy này.

Môi trường đã được nhập là env cùng với các biến cần thiết (terminal_state, num_states, policy, gamma).

Instructions

100 XP

Hoàn thiện hàm compute_state_value() để tính giá trị cho mỗi trạng thái theo policy đã cho.
Tạo một dictionary state_values trong đó mỗi khóa là state, và mỗi giá trị là giá trị-trạng-thái tương ứng.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise