Memvisualisasikan kinerja model klasifikasi

Dalam latihan ini, Anda akan menyelesaikan masalah klasifikasi di mana kolom "popularity" dalam himpunan data music_df telah diubah menjadi nilai biner, dengan 1 merepresentasikan popularitas lebih dari atau sama dengan median untuk kolom "popularity", dan 0 menunjukkan popularitas di bawah median.

Tugas Anda adalah membangun dan memvisualisasikan hasil dari tiga model berbeda untuk mengklasifikasikan apakah sebuah lagu populer atau tidak.

Data telah di-split, di-scale, dan dimuat sebelumnya untuk Anda sebagai X_train_scaled, X_test_scaled, y_train, dan y_test. Selain itu, KNeighborsClassifier, DecisionTreeClassifier, dan LogisticRegression telah diimpor.

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

Instruksi latihan

Buat sebuah dictionary berisi "Logistic Regression", "KNN", dan "Decision Tree Classifier", dengan nilai dictionary diisi pemanggilan masing-masing model.
Lakukan loop melalui nilai-nilai dalam models.
Instansiasi objek KFold untuk melakukan 6 split, set shuffle ke True dan random_state ke 12.
Lakukan cross-validation menggunakan model, fitur pelatihan yang telah diskalakan, himpunan target pelatihan, dan set cv sama dengan kf.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create models dictionary
models = {"____": ____(), "____": ____(), "____": ____()}
results = []

# Loop through the models' values
for model in ____.____():
  
  # Instantiate a KFold object
  kf = ____(n_splits=____, random_state=____, shuffle=____)
  
  # Perform cross-validation
  cv_results = ____(____, ____, ____, cv=____)
  results.append(cv_results)
plt.boxplot(results, labels=models.keys())
plt.show()

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab ini, Anda akan diperkenalkan pada masalah klasifikasi dan mempelajari cara menyelesaikannya menggunakan teknik supervised learning. Anda akan belajar membagi data menjadi himpunan latih dan uji, memasangkan model, membuat prediksi, dan mengevaluasi akurasi. Anda juga akan mempelajari hubungan antara kompleksitas model dan kinerja, lalu menerapkannya pada himpunan data churn untuk mengklasifikasikan status churn pelanggan sebuah perusahaan telekomunikasi.

Exercise 1: Machine Learning dengan scikit-learn Exercise 2: Klasifikasi biner Exercise 3: Alur kerja supervised learning Exercise 4: Tantangan klasifikasi Exercise 5: k-Nearest Neighbors: Pemodelan (Fit)Exercise 6: k-Nearest Neighbors: Prediksi Exercise 7: Mengukur kinerja model Exercise 8: Pembagian train/test + menghitung akurasi Exercise 9: Overfitting dan underfitting Exercise 10: Memvisualisasikan kompleksitas model

Pada bab ini, Anda akan diperkenalkan pada regresi, dan membangun model untuk memprediksi nilai penjualan menggunakan himpunan data pengeluaran iklan. Anda akan mempelajari mekanisme regresi linear dan metrik kinerja umum seperti R-squared dan root mean squared error. Anda akan melakukan cross-validation k-fold, serta menerapkan regularisasi pada model regresi untuk mengurangi risiko overfitting.

Exercise 1: Pengantar regresi Exercise 2: Membuat fitur Exercise 3: Membangun model regresi linear Exercise 4: Memvisualisasikan model regresi linear Exercise 5: Dasar-dasar regresi linear Exercise 6: Fit dan prediksi untuk regresi Exercise 7: Kinerja regresi Exercise 8: Validasi silang Exercise 9: Cross-validation untuk R-squared Exercise 10: Menganalisis metrik cross-validation Exercise 11: Regresi teratur Exercise 12: Regularized regression: Ridge Exercise 13: Regresi lasso untuk pentingnya fitur

Setelah melatih model, kini Anda akan belajar cara mengevaluasinya. Pada bab ini, Anda akan diperkenalkan pada beberapa metrik beserta teknik visualisasi untuk menganalisis kinerja model klasifikasi menggunakan scikit-learn. Anda juga akan mempelajari cara mengoptimalkan model klasifikasi dan regresi melalui penyetelan hyperparameter.

Exercise 1: Seberapa baik model Anda?Exercise 2: Menentukan metrik utama Exercise 3: Menilai pengklasifikasi prediksi diabetes Exercise 4: Regresi logistik dan kurva ROC Exercise 5: Membangun model logistic regression Exercise 6: Kurva ROC Exercise 7: ROC AUC Exercise 8: Penyetelan hiperparameter Exercise 9: Penyetelan hyperparameter dengan GridSearchCV Exercise 10: Hyperparameter tuning dengan RandomizedSearchCV

Pelajari cara mengimputasi nilai yang hilang, mengonversi data kategorikal menjadi numerik, men-skala data, mengevaluasi beberapa model supervised learning secara bersamaan, dan membangun pipeline untuk menyederhanakan alur kerja Anda!

Exercise 1: Praproses data Exercise 2: Membuat variabel dummy Exercise 3: Regresi dengan fitur kategorikal Exercise 4: Menangani data hilang Exercise 5: Menghapus data hilang Exercise 6: Pipeline untuk prediksi genre lagu: I Exercise 7: Pipeline untuk prediksi genre lagu: II Exercise 8: Pemusatan dan penskalaan Exercise 9: Pemusatan dan penskalaan untuk regresi Exercise 10: Pemusatan dan penskalaan untuk klasifikasi Exercise 11: Mengevaluasi beberapa model Exercise 12: Memvisualisasikan kinerja model regresi Exercise 13: Memprediksi pada himpunan uji Exercise 14: Memvisualisasikan kinerja model klasifikasi

Latihan Saat Ini

Exercise 15: Pipeline untuk memprediksi popularitas lagu Exercise 16: Selamat