ComenzarEmpieza gratis

Cargar modelos en 8 bits

Tu empresa lleva un tiempo usando un modelo Llama para su chatbot de atención al cliente. Te han encargado descubrir cómo reducir el uso de memoria de la GPU del modelo sin afectar demasiado al rendimiento. Esto permitirá al equipo pasar a un clúster de cómputo más barato y ahorrar mucho dinero a la empresa.

Decides probar si puedes cargar el modelo con cuantización a 8 bits manteniendo un rendimiento razonable.

Se te proporciona el modelo en model_name. AutoModelForCausalLM y AutoTokenizer ya están importados para ti.

Este ejercicio forma parte del curso

Ajuste fino con Llama 3

Ver curso

Instrucciones del ejercicio

  • Importa la clase de configuración para habilitar la carga de modelos con cuantización.
  • Instancia la clase de configuración de cuantización.
  • Configura los parámetros de cuantización para cargar el modelo en 8 bits.
  • Pasa la configuración de cuantización a AutoModelForCausalLM para cargar el modelo cuantizado.

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio