1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Chọn hành động trong REINFORCE

Viết hàm select_action cho REINFORCE, hàm này sẽ được tác tử REINFORCE của bạn dùng để chọn hành động ở mỗi bước.

Trong DQN, lượt truyền xuôi của mạng trả về các giá trị Q; trong REINFORCE, nó trả về xác suất hành động, từ đó có thể lấy mẫu trực tiếp một hành động.

Một policy network và một state đã được nạp sẵn trong môi trường của bạn.

torch.distributions.Categorical đã được import với tên Categorical.

Hướng dẫn

100 XP
  • Lấy xác suất hành động dưới dạng một tensor của torch.
  • Tạo đối tượng torch Distribution tương ứng với các xác suất hành động.
  • Lấy mẫu một hành động từ phân phối đó.