Detección de data drift con la prueba de Kolmogorov-Smirnov

Después de desplegar con éxito tu modelo de predicción de enfermedades cardiacas, has estado monitorizando su rendimiento y los datos de entrada. Has notado que la distribución de algunas variables clave en los datos recientes recogidos en febrero se ve algo diferente a la de los datos con los que entrenaste en enero. Estas discrepancias pueden afectar al rendimiento del modelo, por lo que es fundamental detectarlas y abordarlas.

En este ejercicio, usarás la prueba de Kolmogorov-Smirnov (K-S) para detectar un posible data drift entre los conjuntos de datos de enero y febrero. Los conjuntos de datos de ejemplo llamados january_data y february_data ya están cargados para ti.

Este ejercicio forma parte del curso

Machine Learning de extremo a extremo

Ver curso

Instrucciones del ejercicio

Importa la función ks_2samp del módulo scipy.stats.
Usa los conjuntos de datos de ejemplo january_data y february_data para realizar la prueba de Kolmogorov-Smirnov; calcula el estadístico de prueba y el p-value.
Comprueba si el p-value es menor que 0.05, lo que indicaría data drift; si se detecta data drift, imprime "Data drift detected.", en caso contrario imprime "No data drift detected."

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the ks_2samp function
from ____.____ import ____

# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)

# Check the p-value and print the detection result
if ____:
	print("Data drift detected.")
else:
	print("No data drift detected.")

Editar y ejecutar código