1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Kiến trúc mạng policy

Xây dựng kiến trúc cho một Policy Network để bạn có thể dùng sau này khi huấn luyện agent theo phương pháp policy gradient.

Mạng policy nhận trạng thái làm đầu vào và xuất ra phân phối xác suất trên không gian hành động. Với môi trường Lunar Lander, bạn làm việc với bốn hành động rời rạc, nên bạn muốn mạng xuất ra một xác suất cho từng hành động đó.

Hướng dẫn

100 XP
  • Chỉ định kích thước cho tầng đầu ra của mạng policy; để linh hoạt, hãy dùng tên biến thay vì con số cụ thể.
  • Đảm bảo tầng cuối cùng trả về các xác suất.