Vergleich der Leistung quantisierter Modelle
Leistungsverbesserungen sind nicht nur eine Frage der Genauigkeit. Quantisierte Modelle sind oft schneller bei der Inferenz – ein wichtiger Vorteil, wenn es um den Einsatz geht. Du misst, wie lange es dauert, bis sowohl das Originalmodell als auch das quantisierte Modell den Testsatz verarbeitet haben.
Die Funktion „ measure_time()
“ ist schon fertig. Das Modell wird in den Auswertungsmodus versetzt, ein Vorwärtsdurchlauf für alle Batches im Datenlader wird ausgeführt und die verstrichene Zeit wird zurückgegeben.
Sowohl „ model
“ (das Originalmodell) als auch „ model_quantized
“ (die quantisierte Version) sind zusammen mit „ test_loader
“ vorinstalliert.
Diese Übung ist Teil des Kurses
Skalierbare KI-Modelle mit PyTorch Lightning
Anleitung zur Übung
- Berechne die Inferenzzeit für die ursprünglichen und quantisierten Modelle.
- Beide Werte auf zwei Dezimalstellen runden und ausdrucken.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Measure inference time of the original model
original_time = measure_time(____)
# Measure inference time of the quantized model
quant_time = measure_time(____)
# Print results
print(f"Original Model Time: {____}s")
print(f"Quantized Model Time: {____}s")