BaşlayınÜcretsiz Başlayın

Ödülü başlatma

Kişiselleştirilmiş öneriler sunmak için tasarlanmış bir üretici modeli çevrimiye alma sürecinin son aşamasındasın. Bu modeli insanların tercih ettiği önerilerle hizalamak için, topladığın tercih verilerini kullanarak bir ödül modeli eğitmen gerekiyor. İlk adım, modeli ve yapılandırma parametrelerini başlatmak.

AutoTokenizer ve AutoModelForSequenceClassification transformers paketinden, RewardConfig ise trl paketinden önceden yüklendi.

Bu egzersiz

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Hugging Face'in AutoModelForSequenceClassification sınıfını kullanarak dizi sınıflandırma görevi için GPT-1 modelini, "openai-gpt", yükle.
  • Ödül yapılandırmasını "output_dir" çıktılar dizini olacak şekilde başlat ve belirteç maksimum uzunluğunu 60 olarak ayarla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load the pre-trained GPT-1 model for text classification
model = ____

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)
Kodu Düzenle ve Çalıştır