Cài đặt every-visit Monte Carlo

Phương pháp Every-Visit Monte Carlo khác với biến thể First-Visit ở chỗ cập nhật giá trị mỗi lần một cặp trạng thái–hành động xuất hiện, thay vì chỉ lần gặp đầu tiên. Cách tiếp cận này cho phép đánh giá toàn diện chính sách bằng cách tận dụng mọi thông tin sẵn có từ các tập, nhưng cũng có thể làm tăng phương sai của ước lượng giá trị vì bao gồm tất cả mẫu, bất kể chúng xuất hiện khi nào trong tập. Nhiệm vụ của bạn là hoàn thiện hàm every_visit_mc() để ước lượng hàm giá trị hành động Q qua num_episodes tập.

Các từ điển returns_sum và returns_count (dùng cặp trạng thái–hành động làm khóa) đã được khởi tạo và nạp sẵn cho bạn, cùng với hàm generate_episode().

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

Xem khóa học

Hướng dẫn bài tập

Tạo một tập bằng hàm generate_episode().
Cập nhật tổng return và số lần đếm cho mỗi cặp trạng thái–hành động trong tập.
Tính các Q-value ước lượng.

Bài tập tương tác thực hành trực tiếp

Hãy thử làm bài tập này bằng cách hoàn thành đoạn mã mẫu này.

Q = np.zeros((num_states, num_actions))
for i in range(100):
  # Generate an episode
  episode = ____
  # Update the returns and their counts
  for j, (state, action, reward) in ____:
    returns_sum[(state,  action)] += sum(____)
    returns_count[(state,  action)] += ____

# Update the Q-values for visited state-action pairs 
nonzero_counts = ____
Q[nonzero_counts] = ____
    
render_policy(get_policy())

Chỉnh sửa và Chạy Mã

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

SkillTag.level.advancedSkillTag.label

4.8+

Bắt đầu khóa học miễn phí

Bước vào thế giới Reinforcement Learning (RL) đầy thú vị bằng cách khám phá các khái niệm nền tảng, vai trò và ứng dụng của nó. Tìm hiểu khung RL và cách agent tương tác với môi trường. Bạn cũng sẽ học cách dùng thư viện Gymnasium để tạo môi trường, trực quan hóa trạng thái và thực hiện hành động, từ đó xây dựng nền tảng thực hành vững chắc cho các khái niệm và ứng dụng RL.

Exercise 1: Những điều căn bản về reinforcement learning Exercise 2: Reinforcement Learning là gì?Exercise 3: RL so với các phân nhánh ML khác Exercise 4: Kịch bản áp dụng RL Exercise 5: Khám phá khung Reinforcement Learning (RL)Exercise 6: Vòng lặp tương tác RL Exercise 7: Nhiệm vụ RL dạng tập và liên tục Exercise 8: Tính lợi ích chiết khấu cho các chiến lược của agent Exercise 9: Tương tác với các môi trường Gymnasium Exercise 10: Thiết lập môi trường Mountain Car Exercise 11: Trực quan hóa môi trường Mountain Car Exercise 12: Tương tác với môi trường Frozen Lake

Đi sâu hơn vào RL với trọng tâm là học dựa trên mô hình. Tháo gỡ sự phức tạp của Markov Decision Processes (MDP) và hiểu các thành phần cốt lõi của chúng. Nâng cao kỹ năng bằng cách tìm hiểu về policy và hàm giá trị. Thành thạo tối ưu hóa policy với các kỹ thuật lặp policy (policy iteration) và lặp giá trị (value iteration).

Exercise 1: Quá trình Quyết định Markov Exercise 2: Các thành phần MDP của Frozen Lake tùy chỉnh Exercise 3: Khám phá không gian trạng thái và hành động Exercise 4: Xác suất chuyển trạng thái và phần thưởng Exercise 5: Chính sách và hàm giá trị trạng thái Exercise 6: Định nghĩa một policy tất định Exercise 7: Tính giá trị-trạng-thái cho một policy Exercise 8: So sánh các policy Exercise 9: Hàm giá trị hành động Exercise 10: Tính Q-value Exercise 11: Cải thiện policy Exercise 12: Lặp chính sách và lặp giá trị Exercise 13: Áp dụng lặp chính sách để tìm chính sách tối ưu Exercise 14: Triển khai value iteration

Khởi hành qua lĩnh vực năng động của Học không dựa trên mô hình trong RL. Làm quen với các phương pháp Monte Carlo nền tảng, và áp dụng thuật toán dự đoán Monte Carlo lần đầu ghé thăm (first-visit) và mọi lần ghé thăm (every-visit). Chuyển sang Học Chênh lệch Thời gian (Temporal Difference Learning), khám phá thuật toán SARSA. Cuối cùng, tìm hiểu sâu về Q-Learning và phân tích sự hội tụ của nó trong các môi trường đầy thách thức.

Exercise 1: Các phương pháp Monte Carlo Exercise 2: Tạo tập (episode) cho các phương pháp Monte Carlo Exercise 3: Cài đặt Monte Carlo lần đầu ghé thăm Exercise 4: Cài đặt every-visit Monte Carlo

Bài tập hiện tại

Exercise 5: Học theo sai khác thời gian (Temporal Difference)Exercise 6: Cài đặt quy tắc cập nhật SARSA Exercise 7: Giải bài toán Frozen Lake 8x8 với SARSA Exercise 8: Q-learning Exercise 9: Cài đặt quy tắc cập nhật Q-learning Exercise 10: Giải bài toán Frozen Lake 8x8 với Q-learning Exercise 11: Đánh giá chính sách trên Frozen Lake trơn trượt

Khám phá các chiến lược nâng cao trong Model-Free RL, tập trung vào cải thiện thuật toán ra quyết định. Tìm hiểu Expected SARSA để cập nhật policy chính xác hơn và Double Q-learning nhằm giảm thiên lệch đánh giá quá cao. Khai thác cân bằng Khám phá - Khai thác (Exploration-Exploitation Tradeoff), nắm vững chiến lược epsilon-greedy và epsilon-decay để chọn hành động tối ưu. Giải quyết Bài toán Máy đánh bạc nhiều tay (Multi-Armed Bandit), áp dụng các chiến lược để xử lý bài toán ra quyết định trong điều kiện bất định.

Exercise 1: Expected SARSA Exercise 2: Quy tắc cập nhật Expected SARSA Exercise 3: Áp dụng Expected SARSA Exercise 4: Double Q-learning Exercise 5: Cài đặt quy tắc cập nhật Double Q-learning Exercise 6: Áp dụng Double Q-learning Exercise 7: Cân bằng khám phá và khai thác Exercise 8: Định nghĩa hàm epsilon-greedy Exercise 9: Giải CliffWalking với chiến lược epsilon-greedy Exercise 10: Giải CliffWalking với chiến lược epsilon-greedy suy giảm Exercise 11: Bài toán multi-armed bandit Exercise 12: Tạo multi-armed bandit Exercise 13: Giải bài toán multi-armed bandit Exercise 14: Đánh giá hội tụ trong bài toán multi-armed bandit Exercise 15: Chúc mừng bạn!