LoslegenKostenlos starten

Den Reward Trainer einrichten

Dein Projekt geht weiter und du hast jetzt die Objekte model und config bereit, um mit dem Training des Reward-Modells zu starten.

Die Trainings- und Evaluationsdatensätze wurden als train_data und eval_data vorab geladen. Der RewardTrainer wurde aus trl importiert.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning aus menschlichem Feedback (RLHF)</Kurs>
Kurs ansehen

Übungsanweisungen

  • Initialisiere den RewardTrainer() und weise seinem Modell, Tokenizer, Trainingsdatensatz, Evaluationsdatensatz und der Belohnungskonfiguration die entsprechenden Werte zu.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Code bearbeiten und ausführen