LoslegenKostenlos loslegen

Den Reward Trainer einrichten

Dein Projekt geht weiter und du hast jetzt die Objekte model und config bereit, um mit dem Training des Reward-Modells zu starten.

Die Trainings- und Evaluationsdatensätze wurden als train_data und eval_data vorab geladen. Der RewardTrainer wurde aus trl importiert.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Initialisiere den RewardTrainer() und weise seinem Modell, Tokenizer, Trainingsdatensatz, Evaluationsdatensatz und der Belohnungskonfiguration die entsprechenden Werte zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Code bearbeiten und ausführen