Comparando o desempenho do modelo quantizado
Entender as melhorias de desempenho não é só uma questão de precisão. Os modelos quantizados geralmente oferecem tempos de inferência mais rápidos — uma grande vantagem em cenários de implantação. Você vai ver quanto tempo leva para os modelos original e quantizado processarem o conjunto de testes.
A função “ measure_time()
” já está pronta pra usar. Isso coloca o modelo no modo de avaliação, faz uma passagem direta em todos os lotes no carregador de dados e mostra o tempo que levou.
Tanto o model
(o modelo original) quanto o model_quantized
(a versão quantizada) já vêm pré-carregados junto com o test_loader
.
Este exercício faz parte do curso
Modelos de IA escaláveis com PyTorch Lightning
Instruções do exercício
- Calcule o tempo de inferência para os modelos originais e quantizados.
- Imprima ambas as vezes arredondadas para duas casas decimais.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Measure inference time of the original model
original_time = measure_time(____)
# Measure inference time of the quantized model
quant_time = measure_time(____)
# Print results
print(f"Original Model Time: {____}s")
print(f"Quantized Model Time: {____}s")