Otel rezervasyonu veri kümesinde kayma (drift)
Önceki bölümde, iptal edilecek rezervasyonları tahmin eden bir model için iş değeri ve ROC AUC performansını hesapladın. Ortaya çıkan grafiklerde birkaç uyarı fark ettin; bu yüzden analiz verilerinde drift olup olmadığını araştırman gerekiyor.
Bu egzersizde, çok değişkenli drift tespit yöntemini başlatacak ve sonuçlarını önceki bölümde hesaplanan performans sonuçlarıyla karşılaştıracaksın.
StandardDeviationThreshold zaten içe aktarılmış durumda; iş değeri ve ROC AUC sonuçları perf_results değişkeninde tutuluyor ve feature_column_names önceden tanımlandı.
Bu egzersiz
Python ile Machine Learning İzleme
kursunun bir parçasıdırEgzersiz talimatları
StandardDeviationThresholdyöntemini başlat vestd_lower_multiplierdeğerini2,std_upper_multiplierparametresini1olarak ayarla.- Şu özellik adlarını ekle:
country,lead_time,parking_spacesvehotel. Sıralarını koru. - Önceden tanımlanmış eşik değerlerini ve özellik adlarını
DataReconstructionDriftCalculatoriçine geçir. - Hem çok değişkenli drift tespit sonuçlarını (
mv_results) hem de performans sonuçlarını (perf_results) içeren karşılaştırma grafiğini göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)
# Define feature columns
feature_column_names = [____, ____, ____, ____]
# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
column_names=____,
threshold = ____,
timestamp_column_name='timestamp',
chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()