Detección de data drift con la prueba de Kolmogorov-Smirnov
Después de desplegar con éxito tu modelo de predicción de enfermedades cardiacas, has estado monitorizando su rendimiento y los datos de entrada. Has notado que la distribución de algunas variables clave en los datos recientes recogidos en febrero se ve algo diferente a la de los datos con los que entrenaste en enero. Estas discrepancias pueden afectar al rendimiento del modelo, por lo que es fundamental detectarlas y abordarlas.
En este ejercicio, usarás la prueba de Kolmogorov-Smirnov (K-S) para detectar un posible data drift entre los conjuntos de datos de enero y febrero. Los conjuntos de datos de ejemplo llamados january_data y february_data ya están cargados para ti.
Este ejercicio forma parte del curso
Machine Learning de extremo a extremo
Instrucciones del ejercicio
- Importa la función
ks_2sampdel móduloscipy.stats. - Usa los conjuntos de datos de ejemplo
january_datayfebruary_datapara realizar la prueba de Kolmogorov-Smirnov; calcula el estadístico de prueba y el p-value. - Comprueba si el p-value es menor que 0.05, lo que indicaría data drift; si se detecta data drift, imprime
"Data drift detected.", en caso contrario imprime"No data drift detected."
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the ks_2samp function
from ____.____ import ____
# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)
# Check the p-value and print the detection result
if ____:
print("Data drift detected.")
else:
print("No data drift detected.")