Aan de slagGa gratis aan de slag

Data drift detecteren met de Kolmogorov-Smirnovtest

Na het succesvol uitrollen van je model voor het voorspellen van hartziekten, houd je de prestaties en de invoergegevens in de gaten. Je hebt gemerkt dat de verdeling van enkele belangrijke features in de recente gegevens die in februari zijn verzameld, iets anders lijkt dan in de gegevens waarop je in januari hebt getraind. Zulke verschillen kunnen de prestaties van het model beïnvloeden, dus het is belangrijk om ze te detecteren en aan te pakken.

In deze oefening gebruik je de Kolmogorov-Smirnov (K-S)-test om mogelijke data drift tussen de gegevenssets van januari en februari te detecteren. Voorbeedgegevens met de namen january_data en february_data zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

End-to-End Machine Learning

Cursus bekijken

Oefeninstructies

  • Importeer de functie ks_2samp uit de module scipy.stats.
  • Gebruik de meegeleverde voorbeedgegevens january_data en february_data om de Kolmogorov-Smirnovtest uit te voeren; bereken de teststatistiek en de p-waarde.
  • Controleer of de p-waarde kleiner is dan 0.05, wat duidt op data drift; als er data drift is gedetecteerd, print "Data drift detected.", anders print je "No data drift detected."

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the ks_2samp function
from ____.____ import ____

# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)

# Check the p-value and print the detection result
if ____:
	print("Data drift detected.")
else:
	print("No data drift detected.")
Code bewerken en uitvoeren