8 bit modelleri yükleme
Şirketin, bir süredir müşteri hizmetleri sohbet botu için bir Llama modeli kullanıyor. Modelin GPU bellek kullanımını, performansı önemli ölçüde etkilemeden nasıl azaltabileceğini araştırma görevi sana verildi. Bu sayede ekip daha ucuz bir hesaplama kümesine geçip şirkete ciddi tasarruf sağlayabilecek.
Modelini 8 bit quantization ile yükleyip makul bir performansı koruyup koruyamayacağını test etmeye karar verdin.
Model adı model_name içinde veriliyor. AutoModelForCausalLM ve AutoTokenizer senin için zaten içe aktarıldı.
Bu egzersiz, kursun bir parçasıdır
Llama 3 ile İnce Ayar (Fine-Tuning)
Egzersiz talimatları
- Quantization ile modelleri yüklemeyi etkinleştiren yapılandırma sınıfını içe aktar.
- Quantization yapılandırma sınıfından bir örnek oluştur.
- Modeli 8 bit olarak yüklemek için quantization parametrelerini ayarla.
- Quantized modeli yüklemek için quantization yapılandırmasını
AutoModelForCausalLM'e geçir.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import quantization configuration class
from ____ import ____
# Instantiate quantization configuration
bnb_config = ____(
# Set 8-bit loading
____=True,
)
model = AutoModelForCausalLM.from_pretrained(
"Maykeye/TinyLLama-v0",
# Set quantization parameters to load quantized model
____=bnb_config,
low_cpu_mem_usage=True
)