Drift no conjunto de dados de reservas de hotel
No capítulo anterior, você calculou o valor de negócio e a métrica ROC AUC para um modelo que prevê cancelamentos de reserva. Você notou alguns alertas nos gráficos gerados, por isso é preciso investigar a presença de drift nos dados de análise.
Neste exercício, você vai inicializar o método de detecção de drift multivariado e comparar seus resultados com os resultados de performance calculados no capítulo anterior.
StandardDeviationThreshold já está importado, assim como os resultados de valor de negócio e ROC AUC armazenados na variável perf_results, e feature_column_names já está definido.
Este exercício faz parte do curso
Monitoramento de Machine Learning em Python
Instruções do exercício
- Inicialize o método
StandardDeviationThresholde definastd_lower_multipliercomo2estd_upper_multipliercomo1. - Adicione os seguintes nomes de features:
country,lead_time,parking_spacesehotel. Mantenha essa ordem. - Passe os thresholds previamente definidos e os nomes das features para o
DataReconstructionDriftCalculator. - Mostre o gráfico de comparação com os resultados da detecção de drift multivariado (
mv_results) e os resultados de performance (perf_results).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)
# Define feature columns
feature_column_names = [____, ____, ____, ____]
# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
column_names=____,
threshold = ____,
timestamp_column_name='timestamp',
chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()