1. Learn
  2. /
  3. คอร์ส
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

แบบฝึกหัด

Smyčka aktivního učení

Teď, když máš aktivního učitele nastaveného, je čas ho využít! V tomto cvičení implementuješ smyčku, která umožní průběžně zlepšovat kategorizaci dat.

Dataset je načtený s X_labeled pro označená trénovací data, X_unlabeled pro neoznačená trénovací data a y_labeled pro štítky.

Objekt learner je předem naimportován.

คำแนะนำ

100 XP
  • Implementuj smyčku, která provede 10 dotazů.
  • V každé iteraci nech učitele natrénovat se na aktuálních označených datech.
  • Pomocí učitele vyber nejistější datové body z neoznačených dat a nastav počet instancí na 5.
  • Podle toho aktualizuj neoznačený dataset.