BaşlayınÜcretsiz Başlayın

8 bit modelleri yükleme

Şirketin, bir süredir müşteri hizmetleri sohbet botu için bir Llama modeli kullanıyor. Modelin GPU bellek kullanımını, performansı önemli ölçüde etkilemeden nasıl azaltabileceğini araştırma görevi sana verildi. Bu sayede ekip daha ucuz bir hesaplama kümesine geçip şirkete ciddi tasarruf sağlayabilecek.

Modelini 8 bit quantization ile yükleyip makul bir performansı koruyup koruyamayacağını test etmeye karar verdin.

Model adı model_name içinde veriliyor. AutoModelForCausalLM ve AutoTokenizer senin için zaten içe aktarıldı.

Bu egzersiz

Llama 3 ile İnce Ayar (Fine-Tuning)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Quantization ile modelleri yüklemeyi etkinleştiren yapılandırma sınıfını içe aktar.
  • Quantization yapılandırma sınıfından bir örnek oluştur.
  • Modeli 8 bit olarak yüklemek için quantization parametrelerini ayarla.
  • Quantized modeli yüklemek için quantization yapılandırmasını AutoModelForCausalLM'e geçir.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import quantization configuration class
from ____ import ____
# Instantiate quantization configuration
bnb_config = ____(
	# Set 8-bit loading
	____=True,
)
model = AutoModelForCausalLM.from_pretrained(
    "Maykeye/TinyLLama-v0",
  	# Set quantization parameters to load quantized model
    ____=bnb_config,
    low_cpu_mem_usage=True
)
Kodu Düzenle ve Çalıştır