Cargar modelos en 8 bits
Tu empresa lleva un tiempo usando un modelo Llama para su chatbot de atención al cliente. Te han encargado descubrir cómo reducir el uso de memoria de la GPU del modelo sin afectar demasiado al rendimiento. Esto permitirá al equipo pasar a un clúster de cómputo más barato y ahorrar mucho dinero a la empresa.
Decides probar si puedes cargar el modelo con cuantización a 8 bits manteniendo un rendimiento razonable.
Se te proporciona el modelo en model_name. AutoModelForCausalLM y AutoTokenizer ya están importados para ti.
Este ejercicio forma parte del curso
Ajuste fino con Llama 3
Instrucciones del ejercicio
- Importa la clase de configuración para habilitar la carga de modelos con cuantización.
- Instancia la clase de configuración de cuantización.
- Configura los parámetros de cuantización para cargar el modelo en 8 bits.
- Pasa la configuración de cuantización a
AutoModelForCausalLMpara cargar el modelo cuantizado.
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
Empezar ejercicio