1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Tạo tập (episode) cho các phương pháp Monte Carlo

Các phương pháp Monte Carlo cần tạo ra các tập (episode) để suy ra hàm giá trị. Vì vậy, giờ bạn sẽ triển khai một hàm tạo episode bằng cách chọn hành động ngẫu nhiên cho đến khi episode kết thúc. Ở các bài tập sau, bạn sẽ gọi hàm này để áp dụng các phương pháp Monte Carlo trên môi trường tùy chỉnh env đã được nạp sẵn cho bạn.

Hàm render() đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Đặt lại môi trường với seed bằng 42.
  • Trong vòng lặp của episode, chọn một action ngẫu nhiên ở mỗi lần lặp.
  • Khi một lần lặp kết thúc, cập nhật dữ liệu episode bằng cách thêm bộ ba (state, action, reward).