1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Exercise

So sánh các policy

Bạn được cung cấp hai hàm giá trị trạng thái (value_function_1 và value_function_2) tương ứng với hai policy khác nhau trong môi trường MyGridWorld. Nhiệm vụ của bạn là so sánh hai hàm giá trị trạng thái này theo từng trạng thái để xác định policy nào hiệu quả hơn.

Biến num_states đã được cung cấp để bạn sử dụng.

Instructions

100 XP
  • Tạo danh sách one_is_better gồm các giá trị boolean, trong đó mỗi phần tử kiểm tra xem giá trị của trạng thái trong value_function_1 có lớn hơn hoặc bằng giá trị của trạng thái trong value_function_2 hay không.
  • Tạo danh sách two_is_better gồm các giá trị boolean, trong đó mỗi phần tử kiểm tra xem giá trị của trạng thái trong value_function_2 có lớn hơn hoặc bằng giá trị của trạng thái trong value_function_1 hay không.