Mendeteksi data drift menggunakan uji Kolmogorov–Smirnov

Setelah berhasil menerapkan model prediksi penyakit jantung, Anda memantau performa dan data masukannya. Anda melihat bahwa sebaran beberapa fitur kunci pada data terbaru yang dikumpulkan di bulan Februari tampak agak berbeda dari data yang digunakan untuk melatih model pada bulan Januari. Perbedaan seperti ini dapat memengaruhi performa model, sehingga penting untuk mendeteksi dan menanganinya.

Dalam latihan ini, Anda akan menggunakan uji Kolmogorov–Smirnov (K-S) untuk mendeteksi potensi data drift antara himpunan data Januari dan Februari. Himpunan data contoh bernama january_data dan february_data sudah dimuat untuk Anda.

Latihan ini merupakan bagian dari kursus

Machine Learning Ujung ke Ujung

Lihat Kursus

Instruksi latihan

Impor fungsi ks_2samp dari modul scipy.stats.
Gunakan himpunan data contoh january_data dan february_data yang disediakan untuk menjalankan uji Kolmogorov–Smirnov; hitung statistik uji dan p-value.
Periksa apakah p-value kurang dari 0.05 yang menandakan adanya data drift; jika data drift terdeteksi, cetak "Data drift detected.", jika tidak, cetak "No data drift detected."

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the ks_2samp function
from ____.____ import ____

# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)

# Check the p-value and print the detection result
if ____:
	print("Data drift detected.")
else:
	print("No data drift detected.")

Edit dan Jalankan Kode