1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Huấn luyện với LoRA

Bạn muốn bắt đầu fine-tuning RLHF nhưng liên tục gặp lỗi tràn bộ nhớ (out-of-memory). Dù đã chuyển sang tải mô hình ở độ chính xác 8-bit, lỗi vẫn còn. Để khắc phục, bạn quyết định tiến thêm một bước và áp dụng LoRA để fine-tuning hiệu quả hơn.

Những thành phần sau đã được nhập sẵn:

  • Mô hình tải ở độ chính xác 8-bit dưới tên pretrained_model_8bit
  • LoraConfig và get_peft_model từ peft
  • AutoModelForCausalLMWithValueHead từ trl

Hướng dẫn

100 XP
  • Đặt LoRA dropout thành 0.1 và kiểu bias là lora-only.
  • Thêm cấu hình LoRA vào mô hình.
  • Thiết lập mô hình với value head để huấn luyện PPO.