Đánh giá chính sách trên Frozen Lake trơn trượt

Trong môi trường Frozen Lake trơn trượt, chỉ suy luận chính sách từ Q-table đã học là không đủ để đánh giá mức độ hiệu quả. Để đánh giá chính xác mức phù hợp của một chính sách đã học, bạn phải chơi nhiều tập và quan sát phần thưởng trung bình đạt được. Bài tập này so sánh hiệu quả của chính sách đã học với một chuẩn tham chiếu được thiết lập bằng cách theo chính sách ngẫu nhiên trong quá trình huấn luyện. Nhiệm vụ của bạn là chạy chính sách đã học qua nhiều tập và phân tích hiệu suất của nó dựa trên phần thưởng trung bình thu thập được, đối chiếu với phần thưởng trung bình thu thập trong giai đoạn chính sách ngẫu nhiên.

Q-table Q, num_states, num_actions, và avg_reward_per_random_episode đã được nạp sẵn cho bạn. Thư viện NumPy đã được nhập dưới tên np.

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

Xem khóa học

Hướng dẫn bài tập

Ở mỗi vòng lặp, chọn hành động tốt nhất cần thực hiện dựa trên Q-table Q đã học.
Tính phần thưởng trung bình mỗi tập đã học avg_reward_per_learned_episode.

Bài tập tương tác thực hành trực tiếp

Hãy thử làm bài tập này bằng cách hoàn thành đoạn mã mẫu này.

for episode in range(10000):
    state, info = env.reset()
    terminated = False
    episode_reward = 0
    while not terminated:
        # Select the best action based on learned Q-table
        action = ____
        new_state, reward, terminated, truncated, info = env.step(action)
        state = new_state
        episode_reward += reward
    reward_per_learned_episode.append(episode_reward)
# Compute and print the average reward per learned episode
avg_reward_per_learned_episode = ____
print("Average reward per learned episode: ", avg_reward_per_learned_episode)
print("Average reward per random episode: ", ____)

Chỉnh sửa và Chạy Mã

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

SkillTag.level.advancedSkillTag.label

4.8+

Bắt đầu khóa học miễn phí

Bước vào thế giới Reinforcement Learning (RL) đầy thú vị bằng cách khám phá các khái niệm nền tảng, vai trò và ứng dụng của nó. Tìm hiểu khung RL và cách agent tương tác với môi trường. Bạn cũng sẽ học cách dùng thư viện Gymnasium để tạo môi trường, trực quan hóa trạng thái và thực hiện hành động, từ đó xây dựng nền tảng thực hành vững chắc cho các khái niệm và ứng dụng RL.

Exercise 1: Những điều căn bản về reinforcement learning Exercise 2: Reinforcement Learning là gì?Exercise 3: RL so với các phân nhánh ML khác Exercise 4: Kịch bản áp dụng RL Exercise 5: Khám phá khung Reinforcement Learning (RL)Exercise 6: Vòng lặp tương tác RL Exercise 7: Nhiệm vụ RL dạng tập và liên tục Exercise 8: Tính lợi ích chiết khấu cho các chiến lược của agent Exercise 9: Tương tác với các môi trường Gymnasium Exercise 10: Thiết lập môi trường Mountain Car Exercise 11: Trực quan hóa môi trường Mountain Car Exercise 12: Tương tác với môi trường Frozen Lake

Đi sâu hơn vào RL với trọng tâm là học dựa trên mô hình. Tháo gỡ sự phức tạp của Markov Decision Processes (MDP) và hiểu các thành phần cốt lõi của chúng. Nâng cao kỹ năng bằng cách tìm hiểu về policy và hàm giá trị. Thành thạo tối ưu hóa policy với các kỹ thuật lặp policy (policy iteration) và lặp giá trị (value iteration).

Exercise 1: Quá trình Quyết định Markov Exercise 2: Các thành phần MDP của Frozen Lake tùy chỉnh Exercise 3: Khám phá không gian trạng thái và hành động Exercise 4: Xác suất chuyển trạng thái và phần thưởng Exercise 5: Chính sách và hàm giá trị trạng thái Exercise 6: Định nghĩa một policy tất định Exercise 7: Tính giá trị-trạng-thái cho một policy Exercise 8: So sánh các policy Exercise 9: Hàm giá trị hành động Exercise 10: Tính Q-value Exercise 11: Cải thiện policy Exercise 12: Lặp chính sách và lặp giá trị Exercise 13: Áp dụng lặp chính sách để tìm chính sách tối ưu Exercise 14: Triển khai value iteration

Khởi hành qua lĩnh vực năng động của Học không dựa trên mô hình trong RL. Làm quen với các phương pháp Monte Carlo nền tảng, và áp dụng thuật toán dự đoán Monte Carlo lần đầu ghé thăm (first-visit) và mọi lần ghé thăm (every-visit). Chuyển sang Học Chênh lệch Thời gian (Temporal Difference Learning), khám phá thuật toán SARSA. Cuối cùng, tìm hiểu sâu về Q-Learning và phân tích sự hội tụ của nó trong các môi trường đầy thách thức.

Exercise 1: Các phương pháp Monte Carlo Exercise 2: Tạo tập (episode) cho các phương pháp Monte Carlo Exercise 3: Cài đặt Monte Carlo lần đầu ghé thăm Exercise 4: Cài đặt every-visit Monte Carlo Exercise 5: Học theo sai khác thời gian (Temporal Difference)Exercise 6: Cài đặt quy tắc cập nhật SARSA Exercise 7: Giải bài toán Frozen Lake 8x8 với SARSA Exercise 8: Q-learning Exercise 9: Cài đặt quy tắc cập nhật Q-learning Exercise 10: Giải bài toán Frozen Lake 8x8 với Q-learning Exercise 11: Đánh giá chính sách trên Frozen Lake trơn trượt

Bài tập hiện tại

Khám phá các chiến lược nâng cao trong Model-Free RL, tập trung vào cải thiện thuật toán ra quyết định. Tìm hiểu Expected SARSA để cập nhật policy chính xác hơn và Double Q-learning nhằm giảm thiên lệch đánh giá quá cao. Khai thác cân bằng Khám phá - Khai thác (Exploration-Exploitation Tradeoff), nắm vững chiến lược epsilon-greedy và epsilon-decay để chọn hành động tối ưu. Giải quyết Bài toán Máy đánh bạc nhiều tay (Multi-Armed Bandit), áp dụng các chiến lược để xử lý bài toán ra quyết định trong điều kiện bất định.

Exercise 1: Expected SARSA Exercise 2: Quy tắc cập nhật Expected SARSA Exercise 3: Áp dụng Expected SARSA Exercise 4: Double Q-learning Exercise 5: Cài đặt quy tắc cập nhật Double Q-learning Exercise 6: Áp dụng Double Q-learning Exercise 7: Cân bằng khám phá và khai thác Exercise 8: Định nghĩa hàm epsilon-greedy Exercise 9: Giải CliffWalking với chiến lược epsilon-greedy Exercise 10: Giải CliffWalking với chiến lược epsilon-greedy suy giảm Exercise 11: Bài toán multi-armed bandit Exercise 12: Tạo multi-armed bandit Exercise 13: Giải bài toán multi-armed bandit Exercise 14: Đánh giá hội tụ trong bài toán multi-armed bandit Exercise 15: Chúc mừng bạn!