Drift pada himpunan data pemesanan hotel
Pada bab sebelumnya, Anda menghitung nilai bisnis dan performa ROC AUC untuk model yang memprediksi pembatalan pemesanan. Anda melihat beberapa peringatan pada plot yang dihasilkan, sehingga Anda perlu menyelidiki keberadaan drift pada data analisis.
Dalam latihan ini, Anda akan menginisialisasi metode deteksi drift multivariat dan membandingkan hasilnya dengan hasil performa yang dihitung pada bab sebelumnya.
StandardDeviationThreshold sudah diimpor bersama dengan nilai bisnis, dan hasil ROC AUC yang disimpan dalam variabel perf_results, serta feature_column_names sudah didefinisikan.
Latihan ini adalah bagian dari kursus
Pemantauan Machine Learning dengan Python
Petunjuk latihan
- Inisialisasi metode
StandardDeviationThresholddan setel parameterstd_lower_multipliermenjadi2danstd_upper_multipliermenjadi1. - Tambahkan nama fitur berikut:
country,lead_time,parking_spaces, danhotel. Pertahankan urutannya. - Teruskan ambang batas dan nama fitur yang telah didefinisikan sebelumnya ke
DataReconstructionDriftCalculator. - Tampilkan plot perbandingan yang menampilkan hasil deteksi drift multivariat (
mv_results) dan hasil performa (perf_results).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)
# Define feature columns
feature_column_names = [____, ____, ____, ____]
# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
column_names=____,
threshold = ____,
timestamp_column_name='timestamp',
chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()