ComenzarEmpieza gratis

Deriva en el conjunto de datos de reservas de hotel

En el capítulo anterior, calculaste el valor de negocio y el rendimiento ROC AUC para un modelo que predice cancelaciones de reservas. Observaste algunas alertas en los gráficos resultantes, por lo que necesitas investigar la presencia de deriva en los datos de análisis.

En este ejercicio, inicializarás el método de detección de deriva multivariante y compararás sus resultados con los resultados de rendimiento calculados en el capítulo anterior.

StandardDeviationThreshold ya está importado junto con el valor de negocio, y los resultados de ROC AUC almacenados en la variable perf_results, y feature_column_names ya está definido.

Este ejercicio forma parte del curso

Monitorización de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Inicializa el método StandardDeviationThreshold y establece std_lower_multiplier en 2 y el parámetro std_upper_multiplier en 1.
  • Añade los siguientes nombres de variables: country, lead_time, parking_spaces y hotel. Conserva ese orden.
  • Pasa los umbrales definidos anteriormente y los nombres de variables al DataReconstructionDriftCalculator.
  • Muestra el gráfico comparativo con los resultados de detección de deriva multivariante (mv_results) y los resultados de rendimiento (perf_results).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)

# Define feature columns
feature_column_names = [____, ____, ____, ____]

# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
    column_names=____,
	threshold = ____,
    timestamp_column_name='timestamp',
    chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()
Editar y ejecutar código