Učit se

/

Kurzy

/

Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Nastavení reward traineru

Projekt pokračuje a teď máš připravené objekty model a config, takže můžeš začít trénovat reward model.

Trénovací a evaluační datasety jsou předem načteny jako train_data a eval_data. RewardTrainer byl importován z knihovny trl.

Pokyny

100 XP

Inicializuj RewardTrainer() tak, že jeho atributům přiřadíš model, tokenizer, trénovací dataset, evaluační dataset a konfiguraci odměny.