1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Chuẩn bị cho huấn luyện 8-bit

Bạn muốn bắt đầu tinh chỉnh RLHF, nhưng liên tục gặp lỗi thiếu bộ nhớ. Để khắc phục, bạn quyết định chuyển sang độ chính xác 8-bit để tinh chỉnh hiệu quả hơn, tận dụng thư viện peft của Hugging Face.

Các mục sau đã được import sẵn:

  • AutoModelForCausalLM từ transformers
  • prepare_model_for_int8_training từ peft
  • AutoModelForCausalLMWithValueHead từ trl

Hướng dẫn

100 XP
  • Tải mô hình đã huấn luyện sẵn và nhớ thêm tham số cho độ chính xác 8-bit.
  • Dùng hàm prepare_model_for_int8_training để chuẩn bị mô hình cho tinh chỉnh dựa trên LoRA.
  • Tải mô hình với value head để huấn luyện PPO.