Cài đặt quy tắc cập nhật Q-learning

Q-learning là một thuật toán off-policy trong reinforcement learning (RL) nhằm tìm hành động tốt nhất cần thực hiện tại trạng thái hiện tại. Khác với SARSA, vốn xét đến hành động tiếp theo thực sự được thực hiện, Q-learning cập nhật các giá trị Q bằng phần thưởng tương lai lớn nhất, không phụ thuộc vào hành động đã chọn. Sự khác biệt này cho phép Q-learning học được chính sách tối ưu ngay cả khi đang theo một chính sách khám phá, thậm chí ngẫu nhiên. Nhiệm vụ của bạn là cài đặt một hàm cập nhật Q-table theo quy tắc Q-learning dưới đây.

Thư viện NumPy đã được nhập với bí danh np.

Image showing the mathematical formula of the Q-learning update rule.

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

Xem khóa học

Hướng dẫn bài tập

Lấy giá trị Q hiện tại cho cặp trạng thái–hành động đã cho.
Xác định giá trị Q lớn nhất cho trạng thái tiếp theo trên tất cả các hành động khả dĩ trong actions.
Cập nhật giá trị Q cho cặp trạng thái–hành động hiện tại bằng công thức Q-learning.
Cập nhật Q-table Q, giả sử agent thực hiện hành động 0 ở trạng thái 0, nhận phần thưởng 5, và chuyển sang trạng thái 1.

Bài tập tương tác thực hành trực tiếp

Hãy thử làm bài tập này bằng cách hoàn thành đoạn mã mẫu này.

actions = ['action1', 'action2'] 
def update_q_table(state, action, reward, next_state):
  	# Get the old value of the current state-action pair
    old_value = ____
    # Determine the maximum Q-value for the next state
    next_max = ____
    # Compute the new value of the current state-action pair
    Q[state, action] = ____

alpha = 0.1
gamma = 0.95
Q = np.array([[10, 8], [20, 15]], dtype='float32')
# Update the Q-table
____
print(Q)

Chỉnh sửa và Chạy Mã

Bài tập này là một phần của khóa học

Reinforcement Learning với Gymnasium trong Python

SkillTag.level.advancedSkillTag.label

4.8+

Bắt đầu khóa học miễn phí

Bước vào thế giới Reinforcement Learning (RL) đầy thú vị bằng cách khám phá các khái niệm nền tảng, vai trò và ứng dụng của nó. Tìm hiểu khung RL và cách agent tương tác với môi trường. Bạn cũng sẽ học cách dùng thư viện Gymnasium để tạo môi trường, trực quan hóa trạng thái và thực hiện hành động, từ đó xây dựng nền tảng thực hành vững chắc cho các khái niệm và ứng dụng RL.

Exercise 1: Những điều căn bản về reinforcement learning Exercise 2: Reinforcement Learning là gì?Exercise 3: RL so với các phân nhánh ML khác Exercise 4: Kịch bản áp dụng RL Exercise 5: Khám phá khung Reinforcement Learning (RL)Exercise 6: Vòng lặp tương tác RL Exercise 7: Nhiệm vụ RL dạng tập và liên tục Exercise 8: Tính lợi ích chiết khấu cho các chiến lược của agent Exercise 9: Tương tác với các môi trường Gymnasium Exercise 10: Thiết lập môi trường Mountain Car Exercise 11: Trực quan hóa môi trường Mountain Car Exercise 12: Tương tác với môi trường Frozen Lake

Đi sâu hơn vào RL với trọng tâm là học dựa trên mô hình. Tháo gỡ sự phức tạp của Markov Decision Processes (MDP) và hiểu các thành phần cốt lõi của chúng. Nâng cao kỹ năng bằng cách tìm hiểu về policy và hàm giá trị. Thành thạo tối ưu hóa policy với các kỹ thuật lặp policy (policy iteration) và lặp giá trị (value iteration).

Exercise 1: Quá trình Quyết định Markov Exercise 2: Các thành phần MDP của Frozen Lake tùy chỉnh Exercise 3: Khám phá không gian trạng thái và hành động Exercise 4: Xác suất chuyển trạng thái và phần thưởng Exercise 5: Chính sách và hàm giá trị trạng thái Exercise 6: Định nghĩa một policy tất định Exercise 7: Tính giá trị-trạng-thái cho một policy Exercise 8: So sánh các policy Exercise 9: Hàm giá trị hành động Exercise 10: Tính Q-value Exercise 11: Cải thiện policy Exercise 12: Lặp chính sách và lặp giá trị Exercise 13: Áp dụng lặp chính sách để tìm chính sách tối ưu Exercise 14: Triển khai value iteration

Khởi hành qua lĩnh vực năng động của Học không dựa trên mô hình trong RL. Làm quen với các phương pháp Monte Carlo nền tảng, và áp dụng thuật toán dự đoán Monte Carlo lần đầu ghé thăm (first-visit) và mọi lần ghé thăm (every-visit). Chuyển sang Học Chênh lệch Thời gian (Temporal Difference Learning), khám phá thuật toán SARSA. Cuối cùng, tìm hiểu sâu về Q-Learning và phân tích sự hội tụ của nó trong các môi trường đầy thách thức.

Exercise 1: Các phương pháp Monte Carlo Exercise 2: Tạo tập (episode) cho các phương pháp Monte Carlo Exercise 3: Cài đặt Monte Carlo lần đầu ghé thăm Exercise 4: Cài đặt every-visit Monte Carlo Exercise 5: Học theo sai khác thời gian (Temporal Difference)Exercise 6: Cài đặt quy tắc cập nhật SARSA Exercise 7: Giải bài toán Frozen Lake 8x8 với SARSA Exercise 8: Q-learning Exercise 9: Cài đặt quy tắc cập nhật Q-learning

Bài tập hiện tại

Exercise 10: Giải bài toán Frozen Lake 8x8 với Q-learning Exercise 11: Đánh giá chính sách trên Frozen Lake trơn trượt

Khám phá các chiến lược nâng cao trong Model-Free RL, tập trung vào cải thiện thuật toán ra quyết định. Tìm hiểu Expected SARSA để cập nhật policy chính xác hơn và Double Q-learning nhằm giảm thiên lệch đánh giá quá cao. Khai thác cân bằng Khám phá - Khai thác (Exploration-Exploitation Tradeoff), nắm vững chiến lược epsilon-greedy và epsilon-decay để chọn hành động tối ưu. Giải quyết Bài toán Máy đánh bạc nhiều tay (Multi-Armed Bandit), áp dụng các chiến lược để xử lý bài toán ra quyết định trong điều kiện bất định.

Exercise 1: Expected SARSA Exercise 2: Quy tắc cập nhật Expected SARSA Exercise 3: Áp dụng Expected SARSA Exercise 4: Double Q-learning Exercise 5: Cài đặt quy tắc cập nhật Double Q-learning Exercise 6: Áp dụng Double Q-learning Exercise 7: Cân bằng khám phá và khai thác Exercise 8: Định nghĩa hàm epsilon-greedy Exercise 9: Giải CliffWalking với chiến lược epsilon-greedy Exercise 10: Giải CliffWalking với chiến lược epsilon-greedy suy giảm Exercise 11: Bài toán multi-armed bandit Exercise 12: Tạo multi-armed bandit Exercise 13: Giải bài toán multi-armed bandit Exercise 14: Đánh giá hội tụ trong bài toán multi-armed bandit Exercise 15: Chúc mừng bạn!