1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Fine-Tuning với Llama 3

Connected

Bài tập

Tăng tốc suy luận trên các mô hình đã lượng tử hóa

Công ty bạn đã dùng một mô hình Llama cho chatbot hỗ trợ khách hàng một thời gian với lượng tử hóa. Một trong những phàn nàn lớn nhất từ khách hàng là bot trả lời rất chậm và đôi khi tạo ra câu trả lời kỳ lạ.

Bạn nghi ngờ điều này có thể do lượng tử hóa xuống 4-bit mà không chuẩn hóa. Trong quá trình điều tra, bạn cũng nghi ngờ đánh đổi về tốc độ đến từ các phép tính suy luận đang dùng số thực 32-bit.

Bạn muốn điều chỉnh cấu hình lượng tử hóa để cải thiện tốc độ suy luận của mô hình. Các import sau đã được tải sẵn: AutoModelForCausalLM, AutoTokenizer, và BitsAndBytesConfig.

Hướng dẫn

100 XP
  • Đặt kiểu lượng tử hóa thành 4-bit đã chuẩn hóa để giảm outlier, nhờ đó giảm các câu trả lời vô nghĩa.
  • Đặt kiểu tính toán thành bfloat16 để tăng tốc độ tính toán khi suy luận.