Memuat model 8-bit
Perusahaan Anda telah menggunakan model Llama untuk chatbot layanan pelanggan selama beberapa waktu. Anda ditugaskan mencari cara mengurangi penggunaan memori GPU model tanpa memengaruhi kinerja secara signifikan. Ini akan memungkinkan tim beralih ke klaster komputasi yang lebih murah dan menghemat banyak biaya bagi perusahaan.
Anda memutuskan untuk menguji apakah Anda dapat memuat model dengan kuantisasi 8-bit sambil mempertahankan kinerja yang wajar.
Model disediakan dalam model_name. AutoModelForCausalLM dan AutoTokenizer sudah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Fine-Tuning dengan Llama 3
Petunjuk latihan
- Impor kelas konfigurasi untuk mengaktifkan pemuatan model dengan kuantisasi.
- Instansiasikan kelas konfigurasi kuantisasi.
- Atur parameter kuantisasi untuk memuat model dalam 8-bit.
- Teruskan konfigurasi kuantisasi ke
AutoModelForCausalLMuntuk memuat model yang sudah dikuantisasi.
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga