1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Mạng Critic

Các phương pháp Actor-Critic cần hai mạng nơ-ron rất khác nhau.

Kiến trúc cho mạng actor giống hệt với mạng policy bạn đã dùng trong REINFORCE, vì vậy bạn có thể tái sử dụng lớp PolicyNetwork.

Tuy nhiên, mạng critic là phần bạn chưa triển khai trước đó. Mục tiêu của critic là xấp xỉ hàm giá trị trạng thái \(V(s_t)\), thay vì hàm giá trị hành động \(Q(s_t, a_t)\) được Q-Networks xấp xỉ.

Bây giờ bạn sẽ triển khai mô-đun mạng Critic để dùng trong A2C.

Hướng dẫn

100 XP
  • Điền kích thước mong muốn cho tầng kết nối đầy đủ thứ hai để nó xuất ra một giá trị trạng thái duy nhất.
  • Lấy giá trị được trả về từ lượt truyền xuôi qua mạng critic.