Kolmogorov-Smirnov testi ile veri sapmasını tespit etme
Kalp hastalığı tahmin modelini başarıyla üretime aldıktan sonra, performansını ve giriş verilerini izliyorsun. Şubat ayında toplanan güncel verilerdeki bazı önemli özelliklerin dağılımının, Ocak ayında eğitim için kullandığın verilerden biraz farklı göründüğünü fark ettin. Bu tür farklılıklar model performansını etkileyebilir; bu nedenle bunları tespit etmek ve ele almak kritik önem taşır.
Bu egzersizde, Ocak ve Şubat veri kümeleri arasındaki olası veri sapmasını tespit etmek için Kolmogorov-Smirnov (K-S) testini kullanacaksın. january_data ve february_data adlı örnek veri kümeleri senin için önceden yüklendi.
Bu egzersiz
Uçtan Uca Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
scipy.statsmodülündenks_2sampfonksiyonunu içe aktar.- Verilen
january_datavefebruary_dataörnek veri kümelerini kullanarak Kolmogorov-Smirnov testini uygula; test istatistiğini ve p-değerini hesapla. - p-değerinin 0.05’ten küçük olup olmadığını kontrol et; küçükse veri sapması vardır. Veri sapması tespit edilirse
"Data drift detected.", aksi halde"No data drift detected."yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the ks_2samp function
from ____.____ import ____
# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)
# Check the p-value and print the detection result
if ____:
print("Data drift detected.")
else:
print("No data drift detected.")