LoslegenKostenlos loslegen

Vergleich der Leistung quantisierter Modelle

Leistungsverbesserungen sind nicht nur eine Frage der Genauigkeit. Quantisierte Modelle sind oft schneller bei der Inferenz – ein wichtiger Vorteil, wenn es um den Einsatz geht. Du misst, wie lange es dauert, bis sowohl das Originalmodell als auch das quantisierte Modell den Testsatz verarbeitet haben.

Die Funktion „ measure_time() “ ist schon fertig. Das Modell wird in den Auswertungsmodus versetzt, ein Vorwärtsdurchlauf für alle Batches im Datenlader wird ausgeführt und die verstrichene Zeit wird zurückgegeben.

Sowohl „ model “ (das Originalmodell) als auch „ model_quantized “ (die quantisierte Version) sind zusammen mit „ test_loader “ vorinstalliert.

Diese Übung ist Teil des Kurses

Skalierbare KI-Modelle mit PyTorch Lightning

Kurs anzeigen

Anleitung zur Übung

  • Berechne die Inferenzzeit für die ursprünglichen und quantisierten Modelle.
  • Beide Werte auf zwei Dezimalstellen runden und ausdrucken.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Measure inference time of the original model
original_time = measure_time(____)

# Measure inference time of the quantized model
quant_time = measure_time(____)

# Print results
print(f"Original Model Time: {____}s")
print(f"Quantized Model Time: {____}s")
Code bearbeiten und ausführen