LoRA ile eğit
RLHF ile ince ayara başlamak istedin ama sürekli bellek yetersizliği hataları aldın. Modeli 8-bit duyarlılıkla yüklemeye geçmene rağmen hata devam etti. Bunu çözmek için bir sonraki adıma geçip daha verimli ince ayar için LoRA uygulamaya karar verdin.
Aşağıdakiler önceden içe aktarıldı:
- 8-bit duyarlılıkla yüklenmiş model:
pretrained_model_8bit peftiçindenLoraConfigveget_peft_modeltrliçindenAutoModelForCausalLMWithValueHead
Bu egzersiz
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
kursunun bir parçasıdırEgzersiz talimatları
- LoRA dropout değerini
0.1yap ve bias türünü yalnızca lora olacak şekilde ayarla. - LoRA yapılandırmasını modele ekle.
- PPO eğitimi için modeli value head ile kur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Set the configuration parameters
config = LoraConfig(
r=32,
lora_alpha=32,
lora_dropout=____,
bias=____)
# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)