Huấn luyện thuật toán REINFORCE

Bạn đã sẵn sàng huấn luyện Lunar Lander bằng REINFORCE! Việc bạn cần làm là triển khai vòng lặp huấn luyện REINFORCE, bao gồm cả bước tính hàm mất mát REINFORCE.

Vì các bước tính mất mát trải dài ở cả vòng lặp trong và ngoài, lần này bạn sẽ không dùng hàm calculate_loss().

Khi episode kết thúc, bạn có thể dùng cả hai đại lượng đó để tính mất mát.

Tham khảo, đây là biểu thức của hàm mất mát REINFORCE:

Bạn sẽ tiếp tục dùng hàm describe_episode() để in ra tiến độ của tác tử sau mỗi episode.

Thêm log xác suất của hành động đã chọn vào danh sách log xác suất của episode.
Cộng dồn tổng phần thưởng của episode với phần thưởng đã chiết khấu tại bước hiện tại.
Tính hàm mất mát REINFORCE cho episode.

Bài tập

Huấn luyện thuật toán REINFORCE

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập