1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Chọn hành động với DQN tối giản

Hàm select_action() cho phép agent chọn hành động có Q-value cao nhất ở mỗi bước.

Hàm nhận Q-network và trạng thái hiện tại làm đối số, và trả về chỉ số của hành động có Q-value cao nhất.

Q-network đã được khởi tạo là q_network, và một trạng thái ngẫu nhiên đã được nạp trong môi trường của bạn với state = torch.rand(8) để cung cấp dữ liệu ví dụ cho bạn thực hành.

Hướng dẫn

100 XP
  • Tính các Q-value tương ứng với mỗi hành động trong trạng thái được truyền vào làm đối số.
  • Lấy chỉ số tương ứng với hành động có Q-value cao nhất.