Charger des modèles en 8 bits
Votre entreprise utilise un modèle Llama pour son chatbot de service client depuis un certain temps. Votre mission est de réduire l’utilisation de la mémoire GPU du modèle sans dégrader significativement les performances. Cela permettra à l’équipe de passer sur un cluster de calcul moins coûteux et de faire économiser beaucoup d’argent à l’entreprise.
Vous décidez de tester si vous pouvez charger votre modèle avec une quantification en 8 bits tout en conservant des performances acceptables.
Le modèle vous est fourni dans model_name. AutoModelForCausalLM et AutoTokenizer sont déjà importés pour vous.
Cet exercice fait partie du cours
Ajustement fin avec Llama 3
Instructions
- Importez la classe de configuration pour activer le chargement de modèles avec quantification.
- Instanciez la classe de configuration de quantification.
- Paramétrez la quantification pour charger le modèle en 8 bits.
- Passez la configuration de quantification à
AutoModelForCausalLMpour charger le modèle quantifié.
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice