1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Giải CliffWalking với chiến lược epsilon-greedy

Môi trường CliffWalking là một testbed chuẩn để đánh giá các thuật toán RL. Đây là một grid world nơi agent phải tìm đường từ trạng thái bắt đầu đến trạng thái đích, đồng thời tránh các vách đá trên đường đi. Sử dụng chiến lược epsilon-greedy giúp agent khám phá môi trường hiệu quả trong khi học cách tránh vách đá, tối đa hóa tổng phần thưởng. Nhiệm vụ của bạn là giải môi trường này bằng chiến lược epsilon-greedy, tính phần thưởng đạt được ở mỗi episode huấn luyện và lưu chúng vào danh sách rewards_eps_greedy.

Hướng dẫn

100 XP
  • Trong mỗi episode, chọn một action bằng hàm epsilon_greedy().
  • Cộng dồn reward nhận được vào episode_reward.
  • Sau mỗi episode, thêm tổng episode_reward vào danh sách rewards_eps_greedy để phân tích sau.