Giải bài toán Frozen Lake 8x8 với SARSA

Trong bài tập này, bạn sẽ áp dụng thuật toán SARSA, kết hợp với hàm update_q_table() mà bạn đã triển khai trước đó, để học một chính sách tối ưu cho môi trường Frozen Lake 8x8. Môi trường này giống hệt phiên bản kinh điển 4x4, chỉ khác là kích thước lớn hơn. Bạn sẽ dùng SARSA để lặp lại và cải thiện dần chính sách của tác tử dựa trên phần thưởng nhận được từ môi trường.

Một Q-table Q đã được khởi tạo và nạp sẵn cho bạn, cùng với hàm update_q_table() từ bài tập trước.

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

Xem khóa học

Hướng dẫn bài tập

Với mỗi tập (episode) trong quá trình huấn luyện, hãy thực thi action đã chọn.
Chọn next_action ngẫu nhiên.
Cập nhật Q-table cho state và action đã cho.

Bài tập tương tác thực hành trực tiếp

Hãy thử làm bài tập này bằng cách hoàn thành đoạn mã mẫu này.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())

Chỉnh sửa và Chạy Mã

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

SkillTag.level.advancedSkillTag.label

4.8+

Bắt đầu khóa học miễn phí

Bước vào thế giới Reinforcement Learning (RL) đầy thú vị bằng cách khám phá các khái niệm nền tảng, vai trò và ứng dụng của nó. Tìm hiểu khung RL và cách agent tương tác với môi trường. Bạn cũng sẽ học cách dùng thư viện Gymnasium để tạo môi trường, trực quan hóa trạng thái và thực hiện hành động, từ đó xây dựng nền tảng thực hành vững chắc cho các khái niệm và ứng dụng RL.

Exercise 1: Những điều căn bản về reinforcement learning Exercise 2: Reinforcement Learning là gì?Exercise 3: RL so với các phân nhánh ML khác Exercise 4: Kịch bản áp dụng RL Exercise 5: Khám phá khung Reinforcement Learning (RL)Exercise 6: Vòng lặp tương tác RL Exercise 7: Nhiệm vụ RL dạng tập và liên tục Exercise 8: Tính lợi ích chiết khấu cho các chiến lược của agent Exercise 9: Tương tác với các môi trường Gymnasium Exercise 10: Thiết lập môi trường Mountain Car Exercise 11: Trực quan hóa môi trường Mountain Car Exercise 12: Tương tác với môi trường Frozen Lake

Đi sâu hơn vào RL với trọng tâm là học dựa trên mô hình. Tháo gỡ sự phức tạp của Markov Decision Processes (MDP) và hiểu các thành phần cốt lõi của chúng. Nâng cao kỹ năng bằng cách tìm hiểu về policy và hàm giá trị. Thành thạo tối ưu hóa policy với các kỹ thuật lặp policy (policy iteration) và lặp giá trị (value iteration).

Exercise 1: Quá trình Quyết định Markov Exercise 2: Các thành phần MDP của Frozen Lake tùy chỉnh Exercise 3: Khám phá không gian trạng thái và hành động Exercise 4: Xác suất chuyển trạng thái và phần thưởng Exercise 5: Chính sách và hàm giá trị trạng thái Exercise 6: Định nghĩa một policy tất định Exercise 7: Tính giá trị-trạng-thái cho một policy Exercise 8: So sánh các policy Exercise 9: Hàm giá trị hành động Exercise 10: Tính Q-value Exercise 11: Cải thiện policy Exercise 12: Lặp chính sách và lặp giá trị Exercise 13: Áp dụng lặp chính sách để tìm chính sách tối ưu Exercise 14: Triển khai value iteration

Khởi hành qua lĩnh vực năng động của Học không dựa trên mô hình trong RL. Làm quen với các phương pháp Monte Carlo nền tảng, và áp dụng thuật toán dự đoán Monte Carlo lần đầu ghé thăm (first-visit) và mọi lần ghé thăm (every-visit). Chuyển sang Học Chênh lệch Thời gian (Temporal Difference Learning), khám phá thuật toán SARSA. Cuối cùng, tìm hiểu sâu về Q-Learning và phân tích sự hội tụ của nó trong các môi trường đầy thách thức.

Exercise 1: Các phương pháp Monte Carlo Exercise 2: Tạo tập (episode) cho các phương pháp Monte Carlo Exercise 3: Cài đặt Monte Carlo lần đầu ghé thăm Exercise 4: Cài đặt every-visit Monte Carlo Exercise 5: Học theo sai khác thời gian (Temporal Difference)Exercise 6: Cài đặt quy tắc cập nhật SARSA Exercise 7: Giải bài toán Frozen Lake 8x8 với SARSA

Bài tập hiện tại

Exercise 8: Q-learning Exercise 9: Cài đặt quy tắc cập nhật Q-learning Exercise 10: Giải bài toán Frozen Lake 8x8 với Q-learning Exercise 11: Đánh giá chính sách trên Frozen Lake trơn trượt

Khám phá các chiến lược nâng cao trong Model-Free RL, tập trung vào cải thiện thuật toán ra quyết định. Tìm hiểu Expected SARSA để cập nhật policy chính xác hơn và Double Q-learning nhằm giảm thiên lệch đánh giá quá cao. Khai thác cân bằng Khám phá - Khai thác (Exploration-Exploitation Tradeoff), nắm vững chiến lược epsilon-greedy và epsilon-decay để chọn hành động tối ưu. Giải quyết Bài toán Máy đánh bạc nhiều tay (Multi-Armed Bandit), áp dụng các chiến lược để xử lý bài toán ra quyết định trong điều kiện bất định.

Exercise 1: Expected SARSA Exercise 2: Quy tắc cập nhật Expected SARSA Exercise 3: Áp dụng Expected SARSA Exercise 4: Double Q-learning Exercise 5: Cài đặt quy tắc cập nhật Double Q-learning Exercise 6: Áp dụng Double Q-learning Exercise 7: Cân bằng khám phá và khai thác Exercise 8: Định nghĩa hàm epsilon-greedy Exercise 9: Giải CliffWalking với chiến lược epsilon-greedy Exercise 10: Giải CliffWalking với chiến lược epsilon-greedy suy giảm Exercise 11: Bài toán multi-armed bandit Exercise 12: Tạo multi-armed bandit Exercise 13: Giải bài toán multi-armed bandit Exercise 14: Đánh giá hội tụ trong bài toán multi-armed bandit Exercise 15: Chúc mừng bạn!