Tải mô hình 8-bit

Công ty bạn đã dùng một mô hình Llama cho chatbot chăm sóc khách hàng được một thời gian. Bạn được giao nhiệm vụ tìm cách giảm mức dùng bộ nhớ GPU của mô hình mà không ảnh hưởng đáng kể đến hiệu năng. Việc này sẽ cho phép nhóm chuyển sang cụm tính toán rẻ hơn và tiết kiệm nhiều chi phí cho công ty.

Bạn quyết định thử tải mô hình với lượng tử hóa 8-bit và xem liệu có thể giữ hiệu năng ở mức chấp nhận được không.

Bạn được cung cấp mô hình trong model_name. AutoModelForCausalLM và AutoTokenizer đã được nhập sẵn cho bạn.

Import lớp cấu hình để bật khả năng tải mô hình với lượng tử hóa.
Khởi tạo đối tượng cấu hình lượng tử hóa.
Thiết lập tham số lượng tử hóa để tải mô hình ở dạng 8-bit.
Truyền cấu hình lượng tử hóa vào AutoModelForCausalLM để tải mô hình đã được lượng tử hóa.

Bài tập

Tải mô hình 8-bit

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập