ComeçarComece de graça

Drift no conjunto de dados de reservas de hotel

No capítulo anterior, você calculou o valor de negócio e a métrica ROC AUC para um modelo que prevê cancelamentos de reserva. Você notou alguns alertas nos gráficos gerados, por isso é preciso investigar a presença de drift nos dados de análise.

Neste exercício, você vai inicializar o método de detecção de drift multivariado e comparar seus resultados com os resultados de performance calculados no capítulo anterior.

StandardDeviationThreshold já está importado, assim como os resultados de valor de negócio e ROC AUC armazenados na variável perf_results, e feature_column_names já está definido.

Este exercício faz parte do curso

Monitoramento de Machine Learning em Python

Ver curso

Instruções do exercício

  • Inicialize o método StandardDeviationThreshold e defina std_lower_multiplier como 2 e std_upper_multiplier como 1.
  • Adicione os seguintes nomes de features: country, lead_time, parking_spaces e hotel. Mantenha essa ordem.
  • Passe os thresholds previamente definidos e os nomes das features para o DataReconstructionDriftCalculator.
  • Mostre o gráfico de comparação com os resultados da detecção de drift multivariado (mv_results) e os resultados de performance (perf_results).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)

# Define feature columns
feature_column_names = [____, ____, ____, ____]

# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
    column_names=____,
	threshold = ____,
    timestamp_column_name='timestamp',
    chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()
Editar e executar o código