MulaiMulai sekarang secara gratis

Drift pada himpunan data pemesanan hotel

Pada bab sebelumnya, Anda menghitung nilai bisnis dan performa ROC AUC untuk model yang memprediksi pembatalan pemesanan. Anda melihat beberapa peringatan pada plot yang dihasilkan, sehingga Anda perlu menyelidiki keberadaan drift pada data analisis.

Dalam latihan ini, Anda akan menginisialisasi metode deteksi drift multivariat dan membandingkan hasilnya dengan hasil performa yang dihitung pada bab sebelumnya.

StandardDeviationThreshold sudah diimpor bersama dengan nilai bisnis, dan hasil ROC AUC yang disimpan dalam variabel perf_results, serta feature_column_names sudah didefinisikan.

Latihan ini adalah bagian dari kursus

Pemantauan Machine Learning dengan Python

Lihat Kursus

Petunjuk latihan

  • Inisialisasi metode StandardDeviationThreshold dan setel parameter std_lower_multiplier menjadi 2 dan std_upper_multiplier menjadi 1.
  • Tambahkan nama fitur berikut: country, lead_time, parking_spaces, dan hotel. Pertahankan urutannya.
  • Teruskan ambang batas dan nama fitur yang telah didefinisikan sebelumnya ke DataReconstructionDriftCalculator.
  • Tampilkan plot perbandingan yang menampilkan hasil deteksi drift multivariat (mv_results) dan hasil performa (perf_results).

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)

# Define feature columns
feature_column_names = [____, ____, ____, ____]

# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
    column_names=____,
	threshold = ____,
    timestamp_column_name='timestamp',
    chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()
Edit dan Jalankan Kode