LoslegenKostenlos loslegen

Data Drift mit dem Kolmogorov-Smirnov-Test erkennen

Nachdem du dein Modell zur Vorhersage von Herzkrankheiten erfolgreich bereitgestellt hast, überwachst du seine Leistung und die Eingabedaten. Dir ist aufgefallen, dass sich die Verteilung einiger Schlüsselfeatures in den im Februar erhobenen Daten etwas von den Daten unterscheidet, auf denen du im Januar trainiert hast. Solche Abweichungen können die Modellleistung beeinflussen, daher ist es wichtig, sie zu erkennen und zu adressieren.

In dieser Übung verwendest du den Kolmogorov-Smirnov-(K-S)-Test, um möglichen Data Drift zwischen den Datensätzen aus Januar und Februar zu erkennen. Beispieldatensätze namens january_data und february_data sind bereits für dich geladen.

Diese Übung ist Teil des Kurses

End-to-End Machine Learning

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Funktion ks_2samp aus dem Modul scipy.stats.
  • Verwende die bereitgestellten Beispieldatensätze january_data und february_data, um den Kolmogorov-Smirnov-Test durchzuführen; berechne die Teststatistik und den p-Wert.
  • Prüfe, ob der p-Wert kleiner als 0,05 ist, was auf Data Drift hinweist; wenn Data Drift erkannt wurde, gib "Data drift detected." aus, andernfalls gib "No data drift detected." aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the ks_2samp function
from ____.____ import ____

# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)

# Check the p-value and print the detection result
if ____:
	print("Data drift detected.")
else:
	print("No data drift detected.")
Code bearbeiten und ausführen