CommencerCommencer gratuitement

Charger des modèles en 8 bits

Votre entreprise utilise un modèle Llama pour son chatbot de service client depuis un certain temps. Votre mission est de réduire l’utilisation de la mémoire GPU du modèle sans dégrader significativement les performances. Cela permettra à l’équipe de passer sur un cluster de calcul moins coûteux et de faire économiser beaucoup d’argent à l’entreprise.

Vous décidez de tester si vous pouvez charger votre modèle avec une quantification en 8 bits tout en conservant des performances acceptables.

Le modèle vous est fourni dans model_name. AutoModelForCausalLM et AutoTokenizer sont déjà importés pour vous.

Cet exercice fait partie du cours

Ajustement fin avec Llama 3

Afficher le cours

Instructions

  • Importez la classe de configuration pour activer le chargement de modèles avec quantification.
  • Instanciez la classe de configuration de quantification.
  • Paramétrez la quantification pour charger le modèle en 8 bits.
  • Passez la configuration de quantification à AutoModelForCausalLM pour charger le modèle quantifié.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import quantization configuration class
from ____ import ____
# Instantiate quantization configuration
bnb_config = ____(
	# Set 8-bit loading
	____=True,
)
model = AutoModelForCausalLM.from_pretrained(
    "Maykeye/TinyLLama-v0",
  	# Set quantization parameters to load quantized model
    ____=bnb_config,
    low_cpu_mem_usage=True
)
Modifier et exécuter le code