PPO eğitmenini başlat
Bir müşteri hizmetleri şirketinde çalışıyorsun ve müşteri sorularını yanıtlamak için bir chatbot kullanıyorsunuz. Chatbot yardımcı yanıtlar veriyor, ancak son dönemde bu yanıtların derinlikten yoksun olduğuna dair geri bildirim aldın. Chatbot'un arkasındaki modeli ince ayar yapman gerekiyor ve bir PPO eğitmen örneği oluşturarak başlıyorsun.
dataset_cs zaten yüklendi.
Bu egzersiz
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
kursunun bir parçasıdırEgzersiz talimatları
"gpt2"model adı ve1.2e-5öğrenme oranıyla PPO yapılandırmasını başlat.- Değer başlığına sahip nedensel dil modeli olan
AutoModelForCausalLMWithValueHead'i yükle. - Az önce tanımladığın model, yapılandırma ve belirteçleyiciyi (tokenizer) ve önceden yüklenmiş veri kümesini kullanarak
PPOTrainer()oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer
# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)
# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)
# Initialize PPO Trainer
ppo_trainer = ____