Den Reward Trainer einrichten
Dein Projekt geht weiter und du hast jetzt die Objekte model und config bereit, um mit dem Training des Reward-Modells zu starten.
Die Trainings- und Evaluationsdatensätze wurden als train_data und eval_data vorab geladen. Der RewardTrainer wurde aus trl importiert.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Initialisiere den
RewardTrainer()und weise seinem Modell, Tokenizer, Trainingsdatensatz, Evaluationsdatensatz und der Belohnungskonfiguration die entsprechenden Werte zu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____