CommencerCommencer gratuitement

Charger des modèles en 8 bits

Votre entreprise utilise un modèle Llama pour son chatbot de service client depuis un certain temps. Votre mission est de réduire l’utilisation de la mémoire GPU du modèle sans dégrader significativement les performances. Cela permettra à l’équipe de passer sur un cluster de calcul moins coûteux et de faire économiser beaucoup d’argent à l’entreprise.

Vous décidez de tester si vous pouvez charger votre modèle avec une quantification en 8 bits tout en conservant des performances acceptables.

Le modèle vous est fourni dans model_name. AutoModelForCausalLM et AutoTokenizer sont déjà importés pour vous.

Cet exercice fait partie du cours

Ajustement fin avec Llama 3

Afficher le cours

Instructions

  • Importez la classe de configuration pour activer le chargement de modèles avec quantification.
  • Instanciez la classe de configuration de quantification.
  • Paramétrez la quantification pour charger le modèle en 8 bits.
  • Passez la configuration de quantification à AutoModelForCausalLM pour charger le modèle quantifié.

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice