MulaiMulai sekarang secara gratis

Mempercepat inferensi pada model terkuantisasi

Perusahaan Anda telah menggunakan model Llama untuk chatbot layanan pelanggan selama beberapa waktu dengan kuantisasi. Salah satu keluhan terbesar dari pelanggan adalah bot menjawab pertanyaan dengan sangat lambat dan terkadang menghasilkan jawaban yang aneh.

Anda menduga hal ini mungkin terkait dengan kuantisasi ke 4-bit tanpa normalisasi. Dalam investigasi Anda, Anda juga mencurigai bahwa kompromi kecepatan berasal dari perhitungan inferensi yang menggunakan float 32-bit.

Anda ingin menyesuaikan konfigurasi kuantisasi untuk meningkatkan kecepatan inferensi model Anda. Impor berikut sudah dimuat: AutoModelForCausalLM, AutoTokenizer, dan BitsAndBytesConfig.

Latihan ini adalah bagian dari kursus

Fine-Tuning dengan Llama 3

Lihat Kursus

Petunjuk latihan

  • Atur tipe kuantisasi ke 4-bit ternormalisasi untuk mengurangi outlier, sehingga menghasilkan jawaban yang tidak masuk akal lebih sedikit.
  • Atur tipe komputasi ke bfloat16 untuk meningkatkan kecepatan perhitungan inferensi.

Latihan interaktif praktis

Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.

Mulai berolahraga