1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

ćwiczenie

Konfiguracja trenera nagród

Projekt jest kontynuowany – masz już gotowe obiekty model i config, które pozwolą ci rozpocząć trenowanie modelu nagród.

Zbiory danych do trenowania i ewaluacji zostały wstępnie załadowane jako train_data i eval_data. Klasa RewardTrainer została zaimportowana z biblioteki trl.

Instrukcje

100 XP
  • Zainicjalizuj RewardTrainer(), przypisując do jego atrybutów: model, tokenizer, zbiór treningowy, zbiór ewaluacyjny oraz konfigurację nagrody.