MulaiMulai sekarang secara gratis

Inisialisasi pelatih PPO

Anda bekerja di sebuah perusahaan layanan pelanggan yang menggunakan chatbot untuk menangani pertanyaan pelanggan. Chatbot tersebut memberikan respons yang membantu, tetapi Anda baru-baru ini menerima masukan bahwa responsnya kurang mendalam. Anda perlu melakukan fine-tuning pada model di balik chatbot tersebut, dan Anda mulai dengan membuat instance pelatih PPO.

dataset_cs telah dimuat sebelumnya.

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Petunjuk latihan

  • Inisialisasi konfigurasi PPO dengan nama model "gpt2" dan laju pembelajaran 1.2e-5.
  • Muat AutoModelForCausalLMWithValueHead, model bahasa kausal dengan value head.
  • Buat PPOTrainer() menggunakan model, konfigurasi, dan tokenizer yang baru Anda definisikan, serta dengan himpunan data yang telah dimuat.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer

# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)

# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)

# Initialize PPO Trainer
ppo_trainer = ____
Edit dan Jalankan Kode