Huấn luyện DQN bản tối giản

Đến lúc huấn luyện thuật toán DQN bản tối giản trong môi trường Lunar Lander. Hãy nhớ rằng đây vẫn chỉ là phiên bản cơ bản, nên hiệu suất sẽ chưa cao — nhưng bạn sẽ cải thiện dần ở phần sau.

Hãy coi đây là bước khởi đầu để đưa tàu Lunar Lander hạ cánh lên Mặt Trăng!

Thực thể q_network mà bạn đã định nghĩa trước đó hiện có sẵn để sử dụng.

Xuyên suốt các bài tập trong khóa học, môi trường Python của bạn cũng kèm theo hàm describe_episode() để in ra một số thông tin ở cuối mỗi episode về mức độ hoạt động của agent.

Chọn hành động của agent trong vòng lặp bên trong.
Tính toán loss.
Thực hiện một bước gradient descent để cập nhật trọng số của mạng.

Bài tập

Huấn luyện DQN bản tối giản

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập