Deriva en el conjunto de datos de reservas de hotel
En el capítulo anterior, calculaste el valor de negocio y el rendimiento ROC AUC para un modelo que predice cancelaciones de reservas. Observaste algunas alertas en los gráficos resultantes, por lo que necesitas investigar la presencia de deriva en los datos de análisis.
En este ejercicio, inicializarás el método de detección de deriva multivariante y compararás sus resultados con los resultados de rendimiento calculados en el capítulo anterior.
StandardDeviationThreshold ya está importado junto con el valor de negocio, y los resultados de ROC AUC almacenados en la variable perf_results, y feature_column_names ya está definido.
Este ejercicio forma parte del curso
Monitorización de Machine Learning en Python
Instrucciones del ejercicio
- Inicializa el método
StandardDeviationThresholdy establecestd_lower_multiplieren2y el parámetrostd_upper_multiplieren1. - Añade los siguientes nombres de variables:
country,lead_time,parking_spacesyhotel. Conserva ese orden. - Pasa los umbrales definidos anteriormente y los nombres de variables al
DataReconstructionDriftCalculator. - Muestra el gráfico comparativo con los resultados de detección de deriva multivariante (
mv_results) y los resultados de rendimiento (perf_results).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)
# Define feature columns
feature_column_names = [____, ____, ____, ____]
# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
column_names=____,
threshold = ____,
timestamp_column_name='timestamp',
chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()