MulaiMulai sekarang secara gratis

Latih dengan LoRA

Anda ingin memulai fine-tuning RLHF tetapi terus mengalami error kehabisan memori. Meskipun Anda beralih memuat model dalam presisi 8-bit, error tersebut tetap muncul. Untuk mengatasinya, Anda memutuskan melangkah lebih jauh dan menerapkan LoRA agar fine-tuning lebih efisien.

Berikut ini sudah diimpor sebelumnya:

  • Model yang dimuat dalam presisi 8-bit sebagai pretrained_model_8bit
  • LoraConfig dan get_peft_model dari peft
  • AutoModelForCausalLMWithValueHead dari trl

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Petunjuk latihan

  • Atur dropout LoRA ke 0.1 dan tipe bias menjadi lora-only.
  • Tambahkan konfigurasi LoRA ke model.
  • Siapkan model dengan value head untuk pelatihan PPO.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)
Edit dan Jalankan Kode