Overfitting dan underfitting

Menafsirkan kompleksitas model adalah cara yang sangat baik untuk mengevaluasi kinerja supervised learning. Tujuan Anda adalah menghasilkan model yang dapat menangkap hubungan antara fitur dan variabel target, sekaligus melakukan generalisasi dengan baik saat dihadapkan pada observasi baru.

Himpunan latih dan uji telah dibuat dari himpunan data churn_df dan dimuat sebagai X_train, X_test, y_train, dan y_test.

Selain itu, KNeighborsClassifier telah diimpor untuk Anda bersama numpy sebagai np.

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

Instruksi latihan

Buat neighbors sebagai array numpy berisi nilai dari 1 hingga 12 (inklusif).
Instansiasi KNeighborsClassifier dengan jumlah tetangga sama dengan iterator neighbor.
Latih model pada data latih.
Hitung skor akurasi untuk himpunan latih dan himpunan uji secara terpisah menggunakan metode .score(), lalu tetapkan hasilnya ke kamus train_accuracies dan test_accuracies, masing-masing menggunakan iterator neighbor sebagai indeks.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create neighbors
neighbors = np.arange(____, ____)
train_accuracies = {}
test_accuracies = {}

for neighbor in neighbors:
  
	# Set up a KNN Classifier
	knn = ____(____=____)
  
	# Fit the model
	knn.____(____, ____)
  
	# Compute accuracy
	train_accuracies[____] = knn.____(____, ____)
	test_accuracies[____] = knn.____(____, ____)
print(neighbors, '\n', train_accuracies, '\n', test_accuracies)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab ini, Anda akan diperkenalkan pada masalah klasifikasi dan mempelajari cara menyelesaikannya menggunakan teknik supervised learning. Anda akan belajar membagi data menjadi himpunan latih dan uji, memasangkan model, membuat prediksi, dan mengevaluasi akurasi. Anda juga akan mempelajari hubungan antara kompleksitas model dan kinerja, lalu menerapkannya pada himpunan data churn untuk mengklasifikasikan status churn pelanggan sebuah perusahaan telekomunikasi.

Exercise 1: Machine Learning dengan scikit-learn Exercise 2: Klasifikasi biner Exercise 3: Alur kerja supervised learning Exercise 4: Tantangan klasifikasi Exercise 5: k-Nearest Neighbors: Pemodelan (Fit)Exercise 6: k-Nearest Neighbors: Prediksi Exercise 7: Mengukur kinerja model Exercise 8: Pembagian train/test + menghitung akurasi Exercise 9: Overfitting dan underfitting

Latihan Saat Ini

Exercise 10: Memvisualisasikan kompleksitas model

Pada bab ini, Anda akan diperkenalkan pada regresi, dan membangun model untuk memprediksi nilai penjualan menggunakan himpunan data pengeluaran iklan. Anda akan mempelajari mekanisme regresi linear dan metrik kinerja umum seperti R-squared dan root mean squared error. Anda akan melakukan cross-validation k-fold, serta menerapkan regularisasi pada model regresi untuk mengurangi risiko overfitting.

Exercise 1: Pengantar regresi Exercise 2: Membuat fitur Exercise 3: Membangun model regresi linear Exercise 4: Memvisualisasikan model regresi linear Exercise 5: Dasar-dasar regresi linear Exercise 6: Fit dan prediksi untuk regresi Exercise 7: Kinerja regresi Exercise 8: Validasi silang Exercise 9: Cross-validation untuk R-squared Exercise 10: Menganalisis metrik cross-validation Exercise 11: Regresi teratur Exercise 12: Regularized regression: Ridge Exercise 13: Regresi lasso untuk pentingnya fitur

Setelah melatih model, kini Anda akan belajar cara mengevaluasinya. Pada bab ini, Anda akan diperkenalkan pada beberapa metrik beserta teknik visualisasi untuk menganalisis kinerja model klasifikasi menggunakan scikit-learn. Anda juga akan mempelajari cara mengoptimalkan model klasifikasi dan regresi melalui penyetelan hyperparameter.

Exercise 1: Seberapa baik model Anda?Exercise 2: Menentukan metrik utama Exercise 3: Menilai pengklasifikasi prediksi diabetes Exercise 4: Regresi logistik dan kurva ROC Exercise 5: Membangun model logistic regression Exercise 6: Kurva ROC Exercise 7: ROC AUC Exercise 8: Penyetelan hiperparameter Exercise 9: Penyetelan hyperparameter dengan GridSearchCV Exercise 10: Hyperparameter tuning dengan RandomizedSearchCV

Pelajari cara mengimputasi nilai yang hilang, mengonversi data kategorikal menjadi numerik, men-skala data, mengevaluasi beberapa model supervised learning secara bersamaan, dan membangun pipeline untuk menyederhanakan alur kerja Anda!

Exercise 1: Praproses data Exercise 2: Membuat variabel dummy Exercise 3: Regresi dengan fitur kategorikal Exercise 4: Menangani data hilang Exercise 5: Menghapus data hilang Exercise 6: Pipeline untuk prediksi genre lagu: I Exercise 7: Pipeline untuk prediksi genre lagu: II Exercise 8: Pemusatan dan penskalaan Exercise 9: Pemusatan dan penskalaan untuk regresi Exercise 10: Pemusatan dan penskalaan untuk klasifikasi Exercise 11: Mengevaluasi beberapa model Exercise 12: Memvisualisasikan kinerja model regresi Exercise 13: Memprediksi pada himpunan uji Exercise 14: Memvisualisasikan kinerja model klasifikasi Exercise 15: Pipeline untuk memprediksi popularitas lagu Exercise 16: Selamat