Giải CliffWalking với chiến lược epsilon-greedy suy giảm

Để tăng cường chiến lược epsilon-greedy, một hệ số suy giảm được đưa vào để giảm dần tỷ lệ khám phá, epsilon, khi agent học nhiều hơn về môi trường. Cách tiếp cận này khuyến khích khám phá ở giai đoạn đầu và khai thác kiến thức đã học khi agent ngày càng quen thuộc với môi trường. Bây giờ, bạn sẽ áp dụng chiến lược này để giải bài toán CliffWalking.

Môi trường đã được khởi tạo và có thể truy cập qua biến env. Các biến epsilon, min_epsilon, và epsilon_decay đã được định nghĩa sẵn cho bạn. Các hàm epsilon_greedy() và update_q_table() đã được nhập sẵn.

Triển khai vòng lặp huấn luyện đầy đủ bằng cách chọn action, thực thi nó, cộng dồn reward nhận được vào episode_reward, và cập nhật Q-table.
Giảm epsilon theo tỷ lệ epsilon_decay, đảm bảo nó không giảm xuống dưới min_epsilon.

Bài tập

Giải CliffWalking với chiến lược epsilon-greedy suy giảm

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập