1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Khởi tạo Q-Network

Bây giờ bạn đã định nghĩa kiến trúc, hãy khởi tạo mạng thực tế mà agent sẽ sử dụng, cùng với bộ tối ưu của nó. Môi trường Lunar Lander có không gian trạng thái có chiều là 8 và không gian hành động có 4 lựa chọn (tương ứng với 0: không làm gì, 1: động cơ đẩy trái, 2: động cơ chính, 3: động cơ đẩy phải).

Lớp QNetwork từ bài tập trước đã sẵn sàng để bạn sử dụng.

Hướng dẫn

100 XP
  • Khởi tạo một Q Network cho môi trường Lunar Lander.
  • Định nghĩa bộ tối ưu Adam cho mạng nơ-ron, với tốc độ học là 0.0001.