Pemusatan dan penskalaan untuk regresi

Sekarang Anda telah melihat manfaat penskalaan data, Anda akan menggunakan pipeline untuk praproses fitur music_df dan membangun model regresi lasso untuk memprediksi tingkat kebisingan (loudness) lagu.

X_train, X_test, y_train, dan y_test telah dibuat dari himpunan data music_df, dengan target "loudness" dan fitur adalah semua kolom lainnya dalam himpunan data. Lasso dan Pipeline juga telah diimpor untuk Anda.

Perhatikan bahwa "genre" telah dikonversi menjadi fitur biner, di mana 1 menunjukkan lagu rock, dan 0 mewakili genre lainnya.

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

Instruksi latihan

Impor StandardScaler.
Buat langkah-langkah untuk objek pipeline: sebuah objek StandardScaler bernama "scaler", dan model lasso bernama "lasso" dengan alpha disetel ke 0.5.
Buat instance pipeline dengan langkah-langkah untuk melakukan penskalaan dan membangun model regresi lasso.
Hitung nilai R-squared pada data uji.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import StandardScaler
____

# Create pipeline steps
steps = [("____", ____()),
         ("____", ____(alpha=____))]

# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)

# Calculate and print R-squared
print(____.____(____, ____))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab ini, Anda akan diperkenalkan pada masalah klasifikasi dan mempelajari cara menyelesaikannya menggunakan teknik supervised learning. Anda akan belajar membagi data menjadi himpunan latih dan uji, memasangkan model, membuat prediksi, dan mengevaluasi akurasi. Anda juga akan mempelajari hubungan antara kompleksitas model dan kinerja, lalu menerapkannya pada himpunan data churn untuk mengklasifikasikan status churn pelanggan sebuah perusahaan telekomunikasi.

Exercise 1: Machine Learning dengan scikit-learn Exercise 2: Klasifikasi biner Exercise 3: Alur kerja supervised learning Exercise 4: Tantangan klasifikasi Exercise 5: k-Nearest Neighbors: Pemodelan (Fit)Exercise 6: k-Nearest Neighbors: Prediksi Exercise 7: Mengukur kinerja model Exercise 8: Pembagian train/test + menghitung akurasi Exercise 9: Overfitting dan underfitting Exercise 10: Memvisualisasikan kompleksitas model

Pada bab ini, Anda akan diperkenalkan pada regresi, dan membangun model untuk memprediksi nilai penjualan menggunakan himpunan data pengeluaran iklan. Anda akan mempelajari mekanisme regresi linear dan metrik kinerja umum seperti R-squared dan root mean squared error. Anda akan melakukan cross-validation k-fold, serta menerapkan regularisasi pada model regresi untuk mengurangi risiko overfitting.

Exercise 1: Pengantar regresi Exercise 2: Membuat fitur Exercise 3: Membangun model regresi linear Exercise 4: Memvisualisasikan model regresi linear Exercise 5: Dasar-dasar regresi linear Exercise 6: Fit dan prediksi untuk regresi Exercise 7: Kinerja regresi Exercise 8: Validasi silang Exercise 9: Cross-validation untuk R-squared Exercise 10: Menganalisis metrik cross-validation Exercise 11: Regresi teratur Exercise 12: Regularized regression: Ridge Exercise 13: Regresi lasso untuk pentingnya fitur

Setelah melatih model, kini Anda akan belajar cara mengevaluasinya. Pada bab ini, Anda akan diperkenalkan pada beberapa metrik beserta teknik visualisasi untuk menganalisis kinerja model klasifikasi menggunakan scikit-learn. Anda juga akan mempelajari cara mengoptimalkan model klasifikasi dan regresi melalui penyetelan hyperparameter.

Exercise 1: Seberapa baik model Anda?Exercise 2: Menentukan metrik utama Exercise 3: Menilai pengklasifikasi prediksi diabetes Exercise 4: Regresi logistik dan kurva ROC Exercise 5: Membangun model logistic regression Exercise 6: Kurva ROC Exercise 7: ROC AUC Exercise 8: Penyetelan hiperparameter Exercise 9: Penyetelan hyperparameter dengan GridSearchCV Exercise 10: Hyperparameter tuning dengan RandomizedSearchCV

Pelajari cara mengimputasi nilai yang hilang, mengonversi data kategorikal menjadi numerik, men-skala data, mengevaluasi beberapa model supervised learning secara bersamaan, dan membangun pipeline untuk menyederhanakan alur kerja Anda!

Exercise 1: Praproses data Exercise 2: Membuat variabel dummy Exercise 3: Regresi dengan fitur kategorikal Exercise 4: Menangani data hilang Exercise 5: Menghapus data hilang Exercise 6: Pipeline untuk prediksi genre lagu: I Exercise 7: Pipeline untuk prediksi genre lagu: II Exercise 8: Pemusatan dan penskalaan Exercise 9: Pemusatan dan penskalaan untuk regresi

Latihan Saat Ini

Exercise 10: Pemusatan dan penskalaan untuk klasifikasi Exercise 11: Mengevaluasi beberapa model Exercise 12: Memvisualisasikan kinerja model regresi Exercise 13: Memprediksi pada himpunan uji Exercise 14: Memvisualisasikan kinerja model klasifikasi Exercise 15: Pipeline untuk memprediksi popularitas lagu Exercise 16: Selamat