Aan de slagBegin gratis

De reward trainer instellen

Je project gaat verder en je hebt nu de objecten model en config klaar om te beginnen met het trainen van het rewardmodel.

De trainings- en evaluatiegegevenssets zijn vooraf geladen als train_data en eval_data. De RewardTrainer is geïmporteerd uit trl.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Bekijk cursus

Oefeninstructies

  • Initialiseer de RewardTrainer() door het model, de tokenizer, de trainingsgegevensset, de evaluatiegegevensset en de beloningsconfiguratie aan de bijbehorende parameters toe te wijzen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Code bewerken en uitvoeren