Bài tập

Huấn luyện Double DQN

Bây giờ bạn sẽ chỉnh sửa mã DQN của mình để triển khai Double DQN.

Double DQN chỉ cần điều chỉnh rất nhỏ so với thuật toán DQN, nhưng giúp giải quyết đáng kể vấn đề ước lượng quá cao Q-value và thường cho hiệu năng tốt hơn DQN.

Hướng dẫn

100 XP

Tính các hành động tiếp theo phục vụ phép tính Q-target bằng online_network(), đảm bảo chọn đúng hành động và đúng hình dạng dữ liệu.
Ước lượng các Q-value ứng với các hành động này bằng target_network(), và một lần nữa, đảm bảo lấy đúng giá trị và đúng hình dạng.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập