Ödül eğitmenini ayarlama
Projen devam ediyor ve artık ödül modelini eğitmeye başlamak için hazır model ve config nesnelerin var.
Eğitim ve değerlendirme veri kümeleri sırasıyla train_data ve eval_data olarak önceden yüklendi. RewardTrainer ise trl içinden içe aktarıldı.
Bu egzersiz
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
kursunun bir parçasıdırEgzersiz talimatları
- Modeli, belirteçleyiciyi (tokenizer), eğitim veri setini, değerlendirme veri setini ve ödül yapılandırmasını özniteliklerine atayarak
RewardTrainer()'ı başlat.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____