Pemusatan dan penskalaan untuk klasifikasi

Sekarang Anda akan menggabungkan penskalaan dan pembuatan model ke dalam sebuah pipeline untuk cross-validation.

Tugas Anda adalah membangun pipeline untuk men-skala fitur dalam himpunan data music_df dan melakukan grid search cross-validation menggunakan model logistic regression dengan berbagai nilai untuk hyperparameter C. Variabel target di sini adalah "genre", yang berisi nilai biner untuk rock sebagai 1 dan genre lainnya sebagai 0.

StandardScaler, LogisticRegression, dan GridSearchCV telah diimpor untuk Anda.

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

Instruksi latihan

Bangun langkah-langkah untuk pipeline: sebuah objek StandardScaler() bernama "scaler", dan model logistic regression bernama "logreg".
Buat parameters, dengan mencari 20 nilai float berjarak sama dari 0.001 hingga 1.0 untuk hyperparameter C model logistic regression di dalam pipeline.
Buat instance objek grid search.
Fit objek grid search ke data latih.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Build the steps
steps = [("____", ____()),
         ("____", ____())]
pipeline = Pipeline(steps)

# Create the parameter space
parameters = {"____": np.____(____, ____, 20)}
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
                                                    random_state=21)

# Instantiate the grid search object
cv = ____(____, param_grid=____)

# Fit to the training data
cv.____(____, ____)
print(cv.best_score_, "\n", cv.best_params_)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab ini, Anda akan diperkenalkan pada masalah klasifikasi dan mempelajari cara menyelesaikannya menggunakan teknik supervised learning. Anda akan belajar membagi data menjadi himpunan latih dan uji, memasangkan model, membuat prediksi, dan mengevaluasi akurasi. Anda juga akan mempelajari hubungan antara kompleksitas model dan kinerja, lalu menerapkannya pada himpunan data churn untuk mengklasifikasikan status churn pelanggan sebuah perusahaan telekomunikasi.

Exercise 1: Machine Learning dengan scikit-learn Exercise 2: Klasifikasi biner Exercise 3: Alur kerja supervised learning Exercise 4: Tantangan klasifikasi Exercise 5: k-Nearest Neighbors: Pemodelan (Fit)Exercise 6: k-Nearest Neighbors: Prediksi Exercise 7: Mengukur kinerja model Exercise 8: Pembagian train/test + menghitung akurasi Exercise 9: Overfitting dan underfitting Exercise 10: Memvisualisasikan kompleksitas model

Pada bab ini, Anda akan diperkenalkan pada regresi, dan membangun model untuk memprediksi nilai penjualan menggunakan himpunan data pengeluaran iklan. Anda akan mempelajari mekanisme regresi linear dan metrik kinerja umum seperti R-squared dan root mean squared error. Anda akan melakukan cross-validation k-fold, serta menerapkan regularisasi pada model regresi untuk mengurangi risiko overfitting.

Exercise 1: Pengantar regresi Exercise 2: Membuat fitur Exercise 3: Membangun model regresi linear Exercise 4: Memvisualisasikan model regresi linear Exercise 5: Dasar-dasar regresi linear Exercise 6: Fit dan prediksi untuk regresi Exercise 7: Kinerja regresi Exercise 8: Validasi silang Exercise 9: Cross-validation untuk R-squared Exercise 10: Menganalisis metrik cross-validation Exercise 11: Regresi teratur Exercise 12: Regularized regression: Ridge Exercise 13: Regresi lasso untuk pentingnya fitur

Setelah melatih model, kini Anda akan belajar cara mengevaluasinya. Pada bab ini, Anda akan diperkenalkan pada beberapa metrik beserta teknik visualisasi untuk menganalisis kinerja model klasifikasi menggunakan scikit-learn. Anda juga akan mempelajari cara mengoptimalkan model klasifikasi dan regresi melalui penyetelan hyperparameter.

Exercise 1: Seberapa baik model Anda?Exercise 2: Menentukan metrik utama Exercise 3: Menilai pengklasifikasi prediksi diabetes Exercise 4: Regresi logistik dan kurva ROC Exercise 5: Membangun model logistic regression Exercise 6: Kurva ROC Exercise 7: ROC AUC Exercise 8: Penyetelan hiperparameter Exercise 9: Penyetelan hyperparameter dengan GridSearchCV Exercise 10: Hyperparameter tuning dengan RandomizedSearchCV

Pelajari cara mengimputasi nilai yang hilang, mengonversi data kategorikal menjadi numerik, men-skala data, mengevaluasi beberapa model supervised learning secara bersamaan, dan membangun pipeline untuk menyederhanakan alur kerja Anda!

Exercise 1: Praproses data Exercise 2: Membuat variabel dummy Exercise 3: Regresi dengan fitur kategorikal Exercise 4: Menangani data hilang Exercise 5: Menghapus data hilang Exercise 6: Pipeline untuk prediksi genre lagu: I Exercise 7: Pipeline untuk prediksi genre lagu: II Exercise 8: Pemusatan dan penskalaan Exercise 9: Pemusatan dan penskalaan untuk regresi Exercise 10: Pemusatan dan penskalaan untuk klasifikasi

Latihan Saat Ini

Exercise 11: Mengevaluasi beberapa model Exercise 12: Memvisualisasikan kinerja model regresi Exercise 13: Memprediksi pada himpunan uji Exercise 14: Memvisualisasikan kinerja model klasifikasi Exercise 15: Pipeline untuk memprediksi popularitas lagu Exercise 16: Selamat