1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Làm việc với phân phối rời rạc

Bạn sắp làm việc với các policy ngẫu nhiên: policy mô tả hành vi của agent ở một trạng thái nhất định dưới dạng một phân phối xác suất trên các hành động.

PyTorch có thể biểu diễn các phân phối rời rạc bằng lớp torch.distributions.Categorical, và bạn sẽ thực hành với nó ngay bây giờ.

Bạn sẽ thấy rằng thực ra các số dùng làm đầu vào không nhất thiết phải cộng lại thành 1 như xác suất; chúng sẽ được chuẩn hóa tự động.

Hướng dẫn

100 XP
  • Khởi tạo phân phối xác suất dạng categorical.
  • Lấy một mẫu từ phân phối.
  • Chỉ định 3 số dương có tổng bằng 1 để dùng làm xác suất.
  • Chỉ định 5 số dương; Categorical sẽ âm thầm chuẩn hóa chúng để thu được các xác suất.