Kuantize modellerde çıkarımı hızlandırma
Şirketin bir süredir müşteri hizmetleri sohbet botu için kuantizasyonla birlikte bir Llama modeli kullanıyor. Aldığın en büyük müşteri şikayetlerinden biri, botun soruları çok yavaş yanıtlaması ve bazen garip cevaplar üretmesi.
Bunun normalleştirme yapmadan 4 bit’e kuantize etmekle ilgili olabileceğinden şüpheleniyorsun. İncelemende, hızdaki ödünleşmenin 32 bit float kullanan çıkarım hesaplamalarından kaynaklandığını da düşünüyorsun.
Modelinin çıkarım hızını artırmak için kuantizasyon yapılandırmalarını ayarlamak istiyorsun. Aşağıdaki içe aktarmalar zaten yüklendi: AutoModelForCausalLM, AutoTokenizer ve BitsAndBytesConfig.
Bu egzersiz
Llama 3 ile İnce Ayar (Fine-Tuning)
kursunun bir parçasıdırEgzersiz talimatları
- Aykırı değerleri azaltmak ve böylece daha az anlamsız yanıt üretmek için kuantizasyon türünü normalize edilmiş 4 bit olarak ayarla.
- Çıkarım hesaplama hızlarını artırmak için compute türünü bfloat16 olarak ayarla.
Uygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat