Caricare modelli a 8 bit
La tua azienda usa da un po' un modello Llama per il chatbot del servizio clienti. Ti è stato chiesto di capire come ridurre l'uso di memoria GPU del modello senza compromettere troppo le prestazioni. Questo permetterà al team di passare a un cluster di calcolo più economico e far risparmiare molto all'azienda.
Decidi di testare se puoi caricare il modello con quantizzazione a 8 bit mantenendo prestazioni accettabili.
Ti viene fornito il modello in model_name. AutoModelForCausalLM e AutoTokenizer sono già importati per te.
Questo esercizio fa parte del corso
Fine-tuning con Llama 3
Istruzioni dell'esercizio
- Importa la classe di configurazione per abilitare il caricamento dei modelli con quantizzazione.
- Istanzia la classe di configurazione della quantizzazione.
- Imposta i parametri di quantizzazione per caricare il modello a 8 bit.
- Passa la configurazione di quantizzazione a
AutoModelForCausalLMper caricare il modello quantizzato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import quantization configuration class
from ____ import ____
# Instantiate quantization configuration
bnb_config = ____(
# Set 8-bit loading
____=True,
)
model = AutoModelForCausalLM.from_pretrained(
"Maykeye/TinyLLama-v0",
# Set quantization parameters to load quantized model
____=bnb_config,
low_cpu_mem_usage=True
)