Aan de slagGa gratis aan de slag

Prestaties van het gequantiseerde model vergelijken

Prestaties gaan niet alleen over nauwkeurigheid. Gequantiseerde modellen leveren vaak snellere inferentietijden—een belangrijk voordeel bij productie. Je gaat meten hoe lang het duurt voordat zowel het originele als het gequantiseerde model de testset verwerkt.

De functie measure_time() is al gedefinieerd. Deze zet het model in evaluatiemodus, voert een forward pass uit over alle batches in de dataloader en geeft de verstreken tijd terug.

Zowel model (het originele model) als model_quantized (de gequantiseerde versie) zijn vooraf geladen, net als test_loader.

Deze oefening maakt deel uit van de cursus

Schaalbare AI-modellen met PyTorch Lightning

Cursus bekijken

Oefeninstructies

  • Bereken de inferentietijd voor het originele en het gequantiseerde model.
  • Print beide tijden, afgerond op twee decimalen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Measure inference time of the original model
original_time = measure_time(____)

# Measure inference time of the quantized model
quant_time = measure_time(____)

# Print results
print(f"Original Model Time: {____}s")
print(f"Quantized Model Time: {____}s")
Code bewerken en uitvoeren