Bài tập

Huấn luyện thuật toán PPO

Bây giờ bạn sẽ dùng vòng lặp huấn luyện A2C quen thuộc để huấn luyện thuật toán PPO.

Vòng lặp này chưa khai thác hết lợi thế của hàm mục tiêu thay thế có cắt (clipped surrogate objective), nên hiệu quả sẽ khó vượt trội A2C; mục tiêu chính là minh họa các khái niệm về hàm mục tiêu thay thế có cắt và entropy bonus mà bạn đã học.

Hướng dẫn

100 XP

Loại bỏ entropy bonus khỏi hàm mất mát của actor, dùng giá trị 0.01 cho tham số \(c_{entropy}\).

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập