8 bit modelleri yükleme
Şirketin, bir süredir müşteri hizmetleri sohbet botu için bir Llama modeli kullanıyor. Modelin GPU bellek kullanımını, performansı önemli ölçüde etkilemeden nasıl azaltabileceğini araştırma görevi sana verildi. Bu sayede ekip daha ucuz bir hesaplama kümesine geçip şirkete ciddi tasarruf sağlayabilecek.
Modelini 8 bit quantization ile yükleyip makul bir performansı koruyup koruyamayacağını test etmeye karar verdin.
Model adı model_name içinde veriliyor. AutoModelForCausalLM ve AutoTokenizer senin için zaten içe aktarıldı.
Bu egzersiz
Llama 3 ile İnce Ayar (Fine-Tuning)
kursunun bir parçasıdırEgzersiz talimatları
- Quantization ile modelleri yüklemeyi etkinleştiren yapılandırma sınıfını içe aktar.
- Quantization yapılandırma sınıfından bir örnek oluştur.
- Modeli 8 bit olarak yüklemek için quantization parametrelerini ayarla.
- Quantized modeli yüklemek için quantization yapılandırmasını
AutoModelForCausalLM'e geçir.
Uygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat