BaşlayınÜcretsiz Başlayın

Ödül eğitmenini ayarlama

Projen devam ediyor ve artık ödül modelini eğitmeye başlamak için hazır model ve config nesnelerin var.

Eğitim ve değerlendirme veri kümeleri sırasıyla train_data ve eval_data olarak önceden yüklendi. RewardTrainer ise trl içinden içe aktarıldı.

Bu egzersiz

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Modeli, belirteçleyiciyi (tokenizer), eğitim veri setini, değerlendirme veri setini ve ödül yapılandırmasını özniteliklerine atayarak RewardTrainer()'ı başlat.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Kodu Düzenle ve Çalıştır