Ödülü başlatma
Kişiselleştirilmiş öneriler sunmak için tasarlanmış bir üretici modeli çevrimiye alma sürecinin son aşamasındasın. Bu modeli insanların tercih ettiği önerilerle hizalamak için, topladığın tercih verilerini kullanarak bir ödül modeli eğitmen gerekiyor. İlk adım, modeli ve yapılandırma parametrelerini başlatmak.
AutoTokenizer ve AutoModelForSequenceClassification transformers paketinden, RewardConfig ise trl paketinden önceden yüklendi.
Bu egzersiz
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
kursunun bir parçasıdırEgzersiz talimatları
- Hugging Face'in
AutoModelForSequenceClassificationsınıfını kullanarak dizi sınıflandırma görevi için GPT-1 modelini,"openai-gpt", yükle. - Ödül yapılandırmasını
"output_dir"çıktılar dizini olacak şekilde başlat ve belirteç maksimum uzunluğunu60olarak ayarla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)