Data Drift mit dem Kolmogorov-Smirnov-Test erkennen
Nachdem du dein Modell zur Vorhersage von Herzkrankheiten erfolgreich bereitgestellt hast, überwachst du seine Leistung und die Eingabedaten. Dir ist aufgefallen, dass sich die Verteilung einiger Schlüsselfeatures in den im Februar erhobenen Daten etwas von den Daten unterscheidet, auf denen du im Januar trainiert hast. Solche Abweichungen können die Modellleistung beeinflussen, daher ist es wichtig, sie zu erkennen und zu adressieren.
In dieser Übung verwendest du den Kolmogorov-Smirnov-(K-S)-Test, um möglichen Data Drift zwischen den Datensätzen aus Januar und Februar zu erkennen. Beispieldatensätze namens january_data und february_data sind bereits für dich geladen.
Diese Übung ist Teil des Kurses
End-to-End Machine Learning
Anleitung zur Übung
- Importiere die Funktion
ks_2sampaus dem Modulscipy.stats. - Verwende die bereitgestellten Beispieldatensätze
january_dataundfebruary_data, um den Kolmogorov-Smirnov-Test durchzuführen; berechne die Teststatistik und den p-Wert. - Prüfe, ob der p-Wert kleiner als 0,05 ist, was auf Data Drift hinweist; wenn Data Drift erkannt wurde, gib
"Data drift detected."aus, andernfalls gib"No data drift detected."aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the ks_2samp function
from ____.____ import ____
# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)
# Check the p-value and print the detection result
if ____:
print("Data drift detected.")
else:
print("No data drift detected.")