1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Hàm mất mát DQN bản tối giản

Với hàm select_action() đã sẵn sàng, bạn chỉ còn một bước nữa là có thể huấn luyện agent: bây giờ bạn sẽ hiện thực calculate_loss().

Hàm calculate_loss() trả về giá trị mất mát của mạng tại một bước bất kỳ trong episode.

Tham khảo, công thức mất mát được cho bởi:

Ví dụ dữ liệu sau đã được nạp sẵn trong bài tập:

state = torch.rand(8)
next_state = torch.rand(8)
action = select_action(q_network, state)
reward = 1
gamma = .99
done = False

Hướng dẫn

100 XP
  • Lấy Q-value của trạng thái hiện tại.
  • Lấy Q-value của trạng thái kế tiếp.
  • Tính Q-value mục tiêu (TD-target).
  • Tính hàm mất mát, tức là Sai số Bellman bình phương.