CommencerCommencer gratuitement

Accélérer l’inférence dans des modèles quantifiés

Votre entreprise utilise depuis quelque temps un modèle Llama pour son chatbot de support client, avec quantification. L’une des principales plaintes des utilisateurs est que le bot répond très lentement et produit parfois des réponses étranges.

Vous soupçonnez que cela pourrait venir d’une quantification en 4 bits sans normalisation. Dans votre enquête, vous pensez aussi que le compromis de vitesse vient des calculs d’inférence, qui utilisent des flottants 32 bits.

Vous souhaitez ajuster la configuration de quantification pour améliorer la vitesse d’inférence de votre modèle. Les imports suivants ont déjà été chargés : AutoModelForCausalLM, AutoTokenizer et BitsAndBytesConfig.

Cet exercice fait partie du cours

Ajustement fin avec Llama 3

Afficher le cours

Instructions

  • Définissez le type de quantification en 4 bits normalisé pour réduire les valeurs aberrantes et ainsi limiter les réponses incohérentes.
  • Définissez le type de calcul sur bfloat16 afin d’accélérer les calculs d’inférence.

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice