Menginisialisasi reward
Anda berada pada tahap akhir penerapan model generatif yang dirancang untuk memberikan rekomendasi personal di sebuah toko buku daring. Untuk menyelaraskan model ini dengan rekomendasi yang disukai manusia, Anda perlu melatih model reward menggunakan beberapa data preferensi yang telah dikumpulkan. Langkah pertama adalah menginisialisasi parameter model dan konfigurasinya.
AutoTokenizer dan AutoModelForSequenceClassification sudah dimuat sebelumnya dari transformers. RewardConfig sudah dimuat sebelumnya dari trl.
Latihan ini adalah bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Petunjuk latihan
- Muat model GPT-1,
"openai-gpt", untuk tugas klasifikasi urutan menggunakanAutoModelForSequenceClassificationdari Hugging Face. - Inisialisasi konfigurasi reward dengan
"output_dir"sebagai direktori keluaran, dan atur panjang token maksimum menjadi60.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)