ComeçarComece de graça

Comparando o desempenho do modelo quantizado

Entender as melhorias de desempenho não é só uma questão de precisão. Os modelos quantizados geralmente oferecem tempos de inferência mais rápidos — uma grande vantagem em cenários de implantação. Você vai ver quanto tempo leva para os modelos original e quantizado processarem o conjunto de testes.

A função “ measure_time() ” já está pronta pra usar. Isso coloca o modelo no modo de avaliação, faz uma passagem direta em todos os lotes no carregador de dados e mostra o tempo que levou.

Tanto o model (o modelo original) quanto o model_quantized (a versão quantizada) já vêm pré-carregados junto com o test_loader.

Este exercício faz parte do curso

Modelos de IA escaláveis com PyTorch Lightning

Ver curso

Instruções do exercício

  • Calcule o tempo de inferência para os modelos originais e quantizados.
  • Imprima ambas as vezes arredondadas para duas casas decimais.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Measure inference time of the original model
original_time = measure_time(____)

# Measure inference time of the quantized model
quant_time = measure_time(____)

# Print results
print(f"Original Model Time: {____}s")
print(f"Quantized Model Time: {____}s")
Editar e executar o código