1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Bài tập

Định nghĩa hàm epsilon-greedy

Trong RL, chiến lược epsilon-greedy là cách cân bằng giữa khám phá và khai thác. Phương pháp này chọn một hành động ngẫu nhiên với xác suất epsilon và chọn hành động tốt nhất đã biết với xác suất 1-epsilon. Việc hiện thực hàm epsilon_greedy() là rất quan trọng cho các thuật toán như Q-learning và SARSA, giúp quá trình học của agent bằng cách vừa đảm bảo khám phá môi trường vừa khai thác các phần thưởng đã biết, và đó sẽ là mục tiêu của bài tập này.

Thư viện numpy đã được import với tên np.

Hướng dẫn

100 XP
  • Bên trong hàm, viết điều kiện phù hợp để agent đi khám phá môi trường.
  • Chọn một action ngẫu nhiên khi khám phá.
  • Chọn action tốt nhất theo q_table khi khai thác.