ComenzarEmpieza gratis

Acelerar la inferencia en modelos cuantizados

Tu empresa lleva un tiempo usando un modelo Llama con cuantización para su chatbot de atención al cliente. Una de las quejas más frecuentes es que el bot responde muy despacio y, a veces, genera respuestas extrañas.

Sospechas que esto puede deberse a la cuantización a 4 bits sin normalizar. En tu investigación, también intuyes que la penalización en velocidad viene de los cálculos de inferencia, que están usando floats de 32 bits.

Quieres ajustar la configuración de cuantización para mejorar la velocidad de inferencia del modelo. Ya se han cargado las siguientes importaciones: AutoModelForCausalLM, AutoTokenizer y BitsAndBytesConfig.

Este ejercicio forma parte del curso

Ajuste fino con Llama 3

Ver curso

Instrucciones del ejercicio

  • Establece el tipo de cuantización en 4 bits normalizados para reducir valores atípicos y así evitar respuestas sin sentido.
  • Configura el tipo de cómputo en bfloat16 para acelerar los cálculos de inferencia.

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio