Confrontare le prestazioni del modello quantizzato
Capire i miglioramenti delle prestazioni non riguarda solo l'accuratezza. I modelli quantizzati spesso offrono tempi di inferenza più rapidi, un vantaggio chiave negli scenari di deploy. Misurerai quanto tempo impiegano sia il modello originale sia quello quantizzato a elaborare il set di test.
La funzione measure_time() è stata predefinita. Imposta il modello in modalità di valutazione, esegue una passata forward su tutti i batch nel dataloader e restituisce il tempo trascorso.
Sia model (il modello originale) sia model_quantized (la versione quantizzata) sono già caricati insieme a test_loader.
Questo esercizio fa parte del corso
Modelli di AI scalabili con PyTorch Lightning
Istruzioni dell'esercizio
- Calcola il tempo di inferenza per il modello originale e quello quantizzato.
- Stampa entrambi i tempi arrotondati a due decimali.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Measure inference time of the original model
original_time = measure_time(____)
# Measure inference time of the quantized model
quant_time = measure_time(____)
# Print results
print(f"Original Model Time: {____}s")
print(f"Quantized Model Time: {____}s")