IniziaInizia gratis

Velocizzare l'inferenza nei modelli quantizzati

La tua azienda utilizza da un po' un modello Llama per il chatbot di assistenza clienti con quantizzazione. Una delle lamentele più frequenti è che il bot risponde molto lentamente e a volte genera risposte strane.

Sospetti che ciò possa dipendere dalla quantizzazione a 4 bit senza normalizzazione. Dall’analisi, pensi anche che il compromesso in termini di velocità derivi dai calcoli in inferenza, che usano float a 32 bit.

Vuoi regolare le configurazioni di quantizzazione per migliorare la velocità di inferenza del modello. I seguenti import sono già stati caricati: AutoModelForCausalLM, AutoTokenizer e BitsAndBytesConfig.

Questo esercizio fa parte del corso

Fine-tuning con Llama 3

Visualizza il corso

Istruzioni dell'esercizio

  • Imposta il tipo di quantizzazione a 4 bit normalizzato per ridurre gli outlier e ottenere meno risposte senza senso.
  • Imposta il tipo di calcolo su bfloat16 per aumentare la velocità dei calcoli in inferenza.

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio