Détecter le data drift avec le test de Kolmogorov-Smirnov

Après avoir déployé avec succès votre modèle de prédiction des maladies cardiaques, vous surveillez ses performances ainsi que ses données d’entrée. Vous avez remarqué que la distribution de certaines variables clés dans les données récentes collectées en février semble un peu différente de celle des données utilisées pour l’entraînement en janvier. De tels écarts peuvent affecter les performances du modèle ; il est donc essentiel de les détecter et de les corriger.

Dans cet exercice, vous utiliserez le test de Kolmogorov-Smirnov (K-S) pour détecter un éventuel data drift entre les jeux de données de janvier et de février. Des jeux d’exemples nommés january_data et february_data sont déjà chargés pour vous.

Cet exercice fait partie du cours

Machine Learning de bout en bout

Afficher le cours

Instructions

Importez la fonction ks_2samp depuis le module scipy.stats.
Utilisez les jeux d’exemples january_data et february_data fournis pour réaliser le test de Kolmogorov-Smirnov ; calculez la statistique de test et la p-value.
Vérifiez si la p-value est inférieure à 0.05, ce qui indiquerait un data drift ; si un data drift est détecté, affichez "Data drift detected.", sinon affichez "No data drift detected."

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the ks_2samp function
from ____.____ import ____

# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)

# Check the p-value and print the detection result
if ____:
	print("Data drift detected.")
else:
	print("No data drift detected.")

Modifier et exécuter le code