1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Xác suất chuyển trạng thái và phần thưởng

Môi trường Cliff Walking có 48 trạng thái, được đánh số từ 0 đến 47, theo từng dòng, từ góc trên bên trái (0) đến góc dưới bên phải (47). Mục tiêu của bạn là khám phá cấu trúc của xác suất chuyển trạng thái và phần thưởng trong thiết lập này. Đáng chú ý, tất cả phần thưởng — bao gồm cả phần thưởng khi đến đích — đều là số âm trong môi trường này. Thiết kế này nhấn mạnh việc giảm thiểu số bước đi, vì mỗi bước đều bị phạt, khiến hiệu quả trở thành yếu tố then chốt để thiết kế các thuật toán học hiệu quả.

Thư viện gymnasium đã được nhập với tên gym và môi trường là env. Ngoài ra, num_states và num_actions từ bài trước cũng đã được nhập.

Image showing the cliff walking environment.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Chọn trạng thái nằm phía trên trạng thái đích.
  • Với mỗi hành động, trích xuất danh sách các tuple chuyển trạng thái cho trạng thái đã chọn và lưu vào transitions.
  • Với mỗi transition, trích xuất các trường probability, next_state, reward và cờ done.