Áp dụng lặp chính sách để tìm chính sách tối ưu

Policy iteration là một kỹ thuật nền tảng trong RL để tìm ra chính sách tối ưu. Quy trình gồm hai bước chính: đánh giá chính sách, nơi bạn tính hàm giá trị trạng thái cho một chính sách đã cho, và cải thiện chính sách, nơi bạn cập nhật chính sách dựa trên các giá trị này. Bạn sẽ lặp lại hai bước này cho đến khi hội tụ về chính sách tối ưu trong môi trường tùy chỉnh MyGridWorld.

Hàm render_policy() sẽ được dùng để hiển thị các bước mà tác nhân thực hiện theo một chính sách.

Các hàm compute_state_value(state, policy) và compute_q_value(state, action, policy) đã được nạp sẵn cho bạn.

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

Xem khóa học

Bài tập tương tác thực hành trực tiếp

Hãy thử làm bài tập này bằng cách hoàn thành đoạn mã mẫu này.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V

Chỉnh sửa và Chạy Mã

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

SkillTag.level.advancedSkillTag.label

4.8+

Bắt đầu khóa học miễn phí

Bước vào thế giới Reinforcement Learning (RL) đầy thú vị bằng cách khám phá các khái niệm nền tảng, vai trò và ứng dụng của nó. Tìm hiểu khung RL và cách agent tương tác với môi trường. Bạn cũng sẽ học cách dùng thư viện Gymnasium để tạo môi trường, trực quan hóa trạng thái và thực hiện hành động, từ đó xây dựng nền tảng thực hành vững chắc cho các khái niệm và ứng dụng RL.

Exercise 1: Những điều căn bản về reinforcement learning Exercise 2: Reinforcement Learning là gì?Exercise 3: RL so với các phân nhánh ML khác Exercise 4: Kịch bản áp dụng RL Exercise 5: Khám phá khung Reinforcement Learning (RL)Exercise 6: Vòng lặp tương tác RL Exercise 7: Nhiệm vụ RL dạng tập và liên tục Exercise 8: Tính lợi ích chiết khấu cho các chiến lược của agent Exercise 9: Tương tác với các môi trường Gymnasium Exercise 10: Thiết lập môi trường Mountain Car Exercise 11: Trực quan hóa môi trường Mountain Car Exercise 12: Tương tác với môi trường Frozen Lake

Đi sâu hơn vào RL với trọng tâm là học dựa trên mô hình. Tháo gỡ sự phức tạp của Markov Decision Processes (MDP) và hiểu các thành phần cốt lõi của chúng. Nâng cao kỹ năng bằng cách tìm hiểu về policy và hàm giá trị. Thành thạo tối ưu hóa policy với các kỹ thuật lặp policy (policy iteration) và lặp giá trị (value iteration).

Exercise 1: Quá trình Quyết định Markov Exercise 2: Các thành phần MDP của Frozen Lake tùy chỉnh Exercise 3: Khám phá không gian trạng thái và hành động Exercise 4: Xác suất chuyển trạng thái và phần thưởng Exercise 5: Chính sách và hàm giá trị trạng thái Exercise 6: Định nghĩa một policy tất định Exercise 7: Tính giá trị-trạng-thái cho một policy Exercise 8: So sánh các policy Exercise 9: Hàm giá trị hành động Exercise 10: Tính Q-value Exercise 11: Cải thiện policy Exercise 12: Lặp chính sách và lặp giá trị Exercise 13: Áp dụng lặp chính sách để tìm chính sách tối ưu

Bài tập hiện tại

Exercise 14: Triển khai value iteration

Khởi hành qua lĩnh vực năng động của Học không dựa trên mô hình trong RL. Làm quen với các phương pháp Monte Carlo nền tảng, và áp dụng thuật toán dự đoán Monte Carlo lần đầu ghé thăm (first-visit) và mọi lần ghé thăm (every-visit). Chuyển sang Học Chênh lệch Thời gian (Temporal Difference Learning), khám phá thuật toán SARSA. Cuối cùng, tìm hiểu sâu về Q-Learning và phân tích sự hội tụ của nó trong các môi trường đầy thách thức.

Exercise 1: Các phương pháp Monte Carlo Exercise 2: Tạo tập (episode) cho các phương pháp Monte Carlo Exercise 3: Cài đặt Monte Carlo lần đầu ghé thăm Exercise 4: Cài đặt every-visit Monte Carlo Exercise 5: Học theo sai khác thời gian (Temporal Difference)Exercise 6: Cài đặt quy tắc cập nhật SARSA Exercise 7: Giải bài toán Frozen Lake 8x8 với SARSA Exercise 8: Q-learning Exercise 9: Cài đặt quy tắc cập nhật Q-learning Exercise 10: Giải bài toán Frozen Lake 8x8 với Q-learning Exercise 11: Đánh giá chính sách trên Frozen Lake trơn trượt

Khám phá các chiến lược nâng cao trong Model-Free RL, tập trung vào cải thiện thuật toán ra quyết định. Tìm hiểu Expected SARSA để cập nhật policy chính xác hơn và Double Q-learning nhằm giảm thiên lệch đánh giá quá cao. Khai thác cân bằng Khám phá - Khai thác (Exploration-Exploitation Tradeoff), nắm vững chiến lược epsilon-greedy và epsilon-decay để chọn hành động tối ưu. Giải quyết Bài toán Máy đánh bạc nhiều tay (Multi-Armed Bandit), áp dụng các chiến lược để xử lý bài toán ra quyết định trong điều kiện bất định.

Exercise 1: Expected SARSA Exercise 2: Quy tắc cập nhật Expected SARSA Exercise 3: Áp dụng Expected SARSA Exercise 4: Double Q-learning Exercise 5: Cài đặt quy tắc cập nhật Double Q-learning Exercise 6: Áp dụng Double Q-learning Exercise 7: Cân bằng khám phá và khai thác Exercise 8: Định nghĩa hàm epsilon-greedy Exercise 9: Giải CliffWalking với chiến lược epsilon-greedy Exercise 10: Giải CliffWalking với chiến lược epsilon-greedy suy giảm Exercise 11: Bài toán multi-armed bandit Exercise 12: Tạo multi-armed bandit Exercise 13: Giải bài toán multi-armed bandit Exercise 14: Đánh giá hội tụ trong bài toán multi-armed bandit Exercise 15: Chúc mừng bạn!