IniziaInizia gratis

Caricare modelli a 8 bit

La tua azienda usa da un po' un modello Llama per il chatbot del servizio clienti. Ti è stato chiesto di capire come ridurre l'uso di memoria GPU del modello senza compromettere troppo le prestazioni. Questo permetterà al team di passare a un cluster di calcolo più economico e far risparmiare molto all'azienda.

Decidi di testare se puoi caricare il modello con quantizzazione a 8 bit mantenendo prestazioni accettabili.

Ti viene fornito il modello in model_name. AutoModelForCausalLM e AutoTokenizer sono già importati per te.

Questo esercizio fa parte del corso

Fine-tuning con Llama 3

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe di configurazione per abilitare il caricamento dei modelli con quantizzazione.
  • Istanzia la classe di configurazione della quantizzazione.
  • Imposta i parametri di quantizzazione per caricare il modello a 8 bit.
  • Passa la configurazione di quantizzazione a AutoModelForCausalLM per caricare il modello quantizzato.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import quantization configuration class
from ____ import ____
# Instantiate quantization configuration
bnb_config = ____(
	# Set 8-bit loading
	____=True,
)
model = AutoModelForCausalLM.from_pretrained(
    "Maykeye/TinyLLama-v0",
  	# Set quantization parameters to load quantized model
    ____=bnb_config,
    low_cpu_mem_usage=True
)
Modifica ed esegui il codice