Sınıflandırma model performansını görselleştirme
Bu egzersizde, music_df veri kümesindeki "popularity" sütununun ikili değerlere dönüştürüldüğü bir sınıflandırma problemi çözeceksin. Buna göre 1, "popularity" sütununun medyanına eşit veya daha yüksek popülerliği; 0 ise medyanın altındaki popülerliği temsil eder.
Görevin, bir şarkının popüler olup olmadığını sınıflandırmak için üç farklı modelin sonuçlarını oluşturup görselleştirmek.
Veriler senin için X_train_scaled, X_test_scaled, y_train ve y_test olarak bölünmüş, ölçeklenmiş ve önceden yüklenmiştir. Ayrıca KNeighborsClassifier, DecisionTreeClassifier ve LogisticRegression içe aktarılmıştır.
Bu egzersiz
scikit-learn ile Supervised Learning
kursunun bir parçasıdırEgzersiz talimatları
"Logistic Regression","KNN"ve"Decision Tree Classifier"anahtarlarından oluşan bir sözlük oluştur ve sözlüğün değerlerini her modelin çağrısına ayarla.modelsiçindeki değerlere döngü kur.- 6 parçalı bölme yapmak için bir
KFoldnesnesi başlat;shuffledeğeriniTrue,random_statedeğerini12olarak ayarla. - Modeli, ölçeklenmiş eğitim özniteliklerini, hedef eğitim kümesini kullanarak ve
cv’yikf’ye eşitleyerek çapraz doğrulama yap.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create models dictionary
models = {"____": ____(), "____": ____(), "____": ____()}
results = []
# Loop through the models' values
for model in ____.____():
# Instantiate a KFold object
kf = ____(n_splits=____, random_state=____, shuffle=____)
# Perform cross-validation
cv_results = ____(____, ____, ____, cv=____)
results.append(cv_results)
plt.boxplot(results, labels=models.keys())
plt.show()