1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Cài đặt quy tắc cập nhật Double Q-learning

Double Q-learning là phần mở rộng của thuật toán Q-learning giúp giảm hiện tượng đánh giá cao quá mức giá trị hành động bằng cách duy trì và cập nhật hai bảng Q riêng biệt. Bằng việc tách rời bước chọn hành động khỏi bước đánh giá hành động, Double Q-learning cung cấp ước lượng giá trị Q chính xác hơn. Bài tập này sẽ hướng dẫn bạn triển khai quy tắc cập nhật Double Q-learning. Danh sách Q chứa hai bảng Q đã được tạo sẵn.

Thư viện numpy đã được import dưới tên np, và các giá trị gamma và alpha đã được nạp trước. Các công thức cập nhật ở bên dưới:

Image showing the update rule of Q1.

Image showing the update rule of Q2.

Hướng dẫn

100 XP
  • Ngẫu nhiên quyết định Q-table nào trong Q sẽ được cập nhật cho việc ước tính giá trị hành động bằng cách tính chỉ số của nó i.
  • Thực hiện các bước cần thiết để cập nhật Q[i].