1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Nastavení reward traineru

Projekt pokračuje a teď máš připravené objekty model a config, takže můžeš začít trénovat reward model.

Trénovací a evaluační datasety jsou předem načteny jako train_data a eval_data. RewardTrainer byl importován z knihovny trl.

Pokyny

100 XP
  • Inicializuj RewardTrainer() tak, že jeho atributům přiřadíš model, tokenizer, trénovací dataset, evaluační dataset a konfiguraci odměny.