1. 学ぶ
  2. /
  3. コース
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

演習

Active learning 루프

이제 Active learning을 설정했으니 활용해 볼 차례예요! 이 연습 문제에서는 데이터를 지속적으로 더 잘 분류할 수 있도록 루프를 구현해 보겠습니다.

데이터셋은 이미 로드되어 있으며, 라벨이 있는 학습 데이터는 X_labeled, 라벨이 없는 학습 데이터는 X_unlabeled, 라벨은 y_labeled에 저장되어 있어요.

learner 객체는 미리 임포트해 두었습니다.

指示

100 XP
  • 10번의 쿼리를 실행하는 루프를 구현하세요.
  • 각 반복에서, 현재 라벨이 있는 데이터로 학습자가 스스로 학습하도록 하세요.
  • 라벨이 없는 데이터에서 가장 불확실한 데이터 포인트를 조회하도록 학습자를 사용하고, 인스턴스 개수는 5로 설정하세요.
  • 그에 맞게 라벨이 없는 데이터셋을 업데이트하세요.