Áp dụng Double Q-learning

Bài tập này yêu cầu bạn áp dụng thuật toán Double Q-learning trong cùng môi trường tùy chỉnh mà bạn đã giải bằng Expected SARSA để so sánh sự khác biệt. Double Q-learning, bằng cách sử dụng hai Q-table, giúp giảm thiên lệch đánh giá cao vốn có trong thuật toán Q-learning truyền thống và mang lại sự ổn định cao hơn trong quá trình học so với các phương pháp sai biệt theo thời gian khác. Bạn sẽ dùng phương pháp này để di chuyển trong môi trường dạng lưới, nhắm tới phần thưởng cao nhất trong khi tránh núi để đến đích nhanh nhất có thể.

Cập nhật các Q-table bằng hàm update_q_tables() bạn đã viết ở bài trước.
Kết hợp các Q-table bằng cách cộng chúng lại.

Exercise

Áp dụng Double Q-learning

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise