Accélérer l’inférence dans des modèles quantifiés
Votre entreprise utilise depuis quelque temps un modèle Llama pour son chatbot de support client, avec quantification. L’une des principales plaintes des utilisateurs est que le bot répond très lentement et produit parfois des réponses étranges.
Vous soupçonnez que cela pourrait venir d’une quantification en 4 bits sans normalisation. Dans votre enquête, vous pensez aussi que le compromis de vitesse vient des calculs d’inférence, qui utilisent des flottants 32 bits.
Vous souhaitez ajuster la configuration de quantification pour améliorer la vitesse d’inférence de votre modèle. Les imports suivants ont déjà été chargés : AutoModelForCausalLM, AutoTokenizer et BitsAndBytesConfig.
Cet exercice fait partie du cours
Ajustement fin avec Llama 3
Instructions
- Définissez le type de quantification en 4 bits normalisé pour réduire les valeurs aberrantes et ainsi limiter les réponses incohérentes.
- Définissez le type de calcul sur bfloat16 afin d’accélérer les calculs d’inférence.
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice