1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Vòng lặp active learning

Giờ bạn đã thiết lập xong active learner, hãy bắt tay vào sử dụng! Trong bài tập này, bạn sẽ triển khai một vòng lặp cho phép liên tục cải thiện việc phân loại dữ liệu.

Bộ dữ liệu đã được nạp với X_labeled cho dữ liệu huấn luyện có nhãn, X_unlabeled cho dữ liệu huấn luyện chưa có nhãn, và y_labeled cho các nhãn.

Đối tượng learner đã được nhập sẵn.

Hướng dẫn

100 XP
  • Triển khai một vòng lặp sẽ chạy 10 truy vấn.
  • Mỗi vòng lặp, để learner tự huấn luyện bằng dữ liệu có nhãn hiện tại.
  • Dùng learner để truy vấn các điểm dữ liệu không chắc chắn nhất từ dữ liệu chưa có nhãn, đặt số lượng mẫu là 5.
  • Cập nhật lại tập dữ liệu chưa có nhãn tương ứng.