MulaiMulai sekarang secara gratis

Menginisialisasi reward

Anda berada pada tahap akhir penerapan model generatif yang dirancang untuk memberikan rekomendasi personal di sebuah toko buku daring. Untuk menyelaraskan model ini dengan rekomendasi yang disukai manusia, Anda perlu melatih model reward menggunakan beberapa data preferensi yang telah dikumpulkan. Langkah pertama adalah menginisialisasi parameter model dan konfigurasinya.

AutoTokenizer dan AutoModelForSequenceClassification sudah dimuat sebelumnya dari transformers. RewardConfig sudah dimuat sebelumnya dari trl.

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Petunjuk latihan

  • Muat model GPT-1, "openai-gpt", untuk tugas klasifikasi urutan menggunakan AutoModelForSequenceClassification dari Hugging Face.
  • Inisialisasi konfigurasi reward dengan "output_dir" sebagai direktori keluaran, dan atur panjang token maksimum menjadi 60.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load the pre-trained GPT-1 model for text classification
model = ____

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)
Edit dan Jalankan Kode