Ödül eğitmenini ayarlama
Projen devam ediyor ve artık ödül modelini eğitmeye başlamak için hazır model ve config nesnelerin var.
Eğitim ve değerlendirme veri kümeleri sırasıyla train_data ve eval_data olarak önceden yüklendi. RewardTrainer ise trl içinden içe aktarıldı.
Bu egzersiz, kursun bir parçasıdır
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
Egzersiz talimatları
- Modeli, belirteçleyiciyi (tokenizer), eğitim veri setini, değerlendirme veri setini ve ödül yapılandırmasını özniteliklerine atayarak
RewardTrainer()'ı başlat.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____