ćwiczenie

Konfiguracja trenera nagród

Projekt jest kontynuowany – masz już gotowe obiekty model i config, które pozwolą ci rozpocząć trenowanie modelu nagród.

Zbiory danych do trenowania i ewaluacji zostały wstępnie załadowane jako train_data i eval_data. Klasa RewardTrainer została zaimportowana z biblioteki trl.

Instrukcje

100 XP

Zainicjalizuj RewardTrainer(), przypisując do jego atrybutów: model, tokenizer, zbiór treningowy, zbiór ewaluacyjny oraz konfigurację nagrody.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie