Détecter le data drift avec le test de Kolmogorov-Smirnov
Après avoir déployé avec succès votre modèle de prédiction des maladies cardiaques, vous surveillez ses performances ainsi que ses données d’entrée. Vous avez remarqué que la distribution de certaines variables clés dans les données récentes collectées en février semble un peu différente de celle des données utilisées pour l’entraînement en janvier. De tels écarts peuvent affecter les performances du modèle ; il est donc essentiel de les détecter et de les corriger.
Dans cet exercice, vous utiliserez le test de Kolmogorov-Smirnov (K-S) pour détecter un éventuel data drift entre les jeux de données de janvier et de février. Des jeux d’exemples nommés january_data et february_data sont déjà chargés pour vous.
Cet exercice fait partie du cours
Machine Learning de bout en bout
Instructions
- Importez la fonction
ks_2sampdepuis le modulescipy.stats. - Utilisez les jeux d’exemples
january_dataetfebruary_datafournis pour réaliser le test de Kolmogorov-Smirnov ; calculez la statistique de test et la p-value. - Vérifiez si la p-value est inférieure à 0.05, ce qui indiquerait un data drift ; si un data drift est détecté, affichez
"Data drift detected.", sinon affichez"No data drift detected."
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the ks_2samp function
from ____.____ import ____
# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)
# Check the p-value and print the detection result
if ____:
print("Data drift detected.")
else:
print("No data drift detected.")