1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Reinforcement Learning bằng Python

Connected

Bài tập

Epsilon-greediness

Trong bài tập này, bạn sẽ hiện thực hàm select_action() áp dụng epsilon-greediness có suy giảm theo thời gian.

Epsilon-greediness sẽ khuyến khích agent của bạn khám phá môi trường, từ đó cải thiện việc học!

Lịch epsilon-greediness xác định một ngưỡng \(\varepsilon\) cho mỗi step, theo công thức: $$\varepsilon = end + (start-end) \cdot e^{-\frac{step}{decay}}$$

select_action() nên trả về một hành động ngẫu nhiên với xác suất \(\varepsilon\), và hành động có Q-value cao nhất với xác suất \(1-\varepsilon\).

Hướng dẫn

100 XP
  • Tính ngưỡng epsilon cho giá trị step đã cho.
  • Lấy một số ngẫu nhiên trong khoảng từ 0 đến 1.
  • Với xác suất epsilon, trả về một hành động ngẫu nhiên.
  • Với xác suất 1-epsilon, trả về hành động có Q-value cao nhất.