Aan de slagGa gratis aan de slag

De reward trainer instellen

Je project gaat verder en je hebt nu de objecten model en config klaar om te beginnen met het trainen van het rewardmodel.

De trainings- en evaluatiegegevenssets zijn vooraf geladen als train_data en eval_data. De RewardTrainer is geïmporteerd uit trl.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Initialiseer de RewardTrainer() door het model, de tokenizer, de trainingsgegevensset, de evaluatiegegevensset en de beloningsconfiguratie aan de bijbehorende parameters toe te wijzen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Code bewerken en uitvoeren