Eliminasi Fitur Rekursif Secara Manual

Sekarang setelah kita membuat pengklasifikasi diabetes, mari kita lihat apakah kita dapat mengurangi jumlah fitur tanpa terlalu menurunkan akurasi model.

Pada baris kode kedua, fitur dipilih dari DataFrame asli. Sesuaikan pemilihan ini.

Sebuah instance StandardScaler() telah didefinisikan sebelumnya sebagai scaler dan LogisticRegression() sebagai lr.

Semua fungsi dan paket yang diperlukan juga telah dimuat sebelumnya.

Latihan ini merupakan bagian dari kursus

Pengurangan Dimensi dengan Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Remove the feature with the lowest model coefficient
X = diabetes_df[['pregnant', 'glucose', 'diastolic', 'triceps', 'insulin', 'bmi', 'family', 'age']]

# Performs a 25-75% train test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

# Scales features and fits the logistic regression model
lr.fit(scaler.fit_transform(X_train), y_train)

# Calculates the accuracy on the test set and prints coefficients
acc = accuracy_score(y_test, lr.predict(scaler.transform(X_test)))
print(f"{acc:.1%} accuracy on test set.") 
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengurangan Dimensi dengan Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Anda akan diperkenalkan pada konsep pengurangan dimensi dan mempelajari kapan serta mengapa hal ini penting. Anda akan mempelajari perbedaan antara seleksi fitur dan ekstraksi fitur serta menerapkan kedua teknik tersebut untuk penjelajahan data. Bab ini diakhiri dengan pelajaran tentang t-SNE, sebuah teknik ekstraksi fitur yang kuat yang memungkinkan Anda memvisualisasikan himpunan data berdimensi tinggi.

Exercise 1: Pendahuluan Exercise 2: Menemukan jumlah dimensi dalam sebuah himpunan data Exercise 3: Menghapus fitur tanpa varians Exercise 4: Seleksi fitur vs. ekstraksi fitur Exercise 5: Mendeteksi fitur redundan secara visual Exercise 6: Keunggulan feature selection Exercise 7: Visualisasi t-SNE untuk data berdimensi tinggi Exercise 8: Intuisi t-SNE Exercise 9: Menerapkan t-SNE pada data ANSUR Exercise 10: Visualisasi t-SNE atas dimensi

Dalam bab pertama dari dua bab tentang seleksi fitur ini, Anda akan mempelajari tentang kutukan dimensi dan bagaimana pengurangan dimensi dapat membantu Anda mengatasinya. Anda akan diperkenalkan pada sejumlah teknik untuk mendeteksi dan menghapus fitur yang memberi nilai tambah kecil pada himpunan data. Baik karena variansnya kecil, terlalu banyak nilai hilang, atau karena sangat berkorelasi dengan fitur lain.

Exercise 1: Kutukan Dimensionalitas Exercise 2: Train - test split Exercise 3: Melatih dan menguji model Exercise 4: Akurasi setelah reduksi dimensi Exercise 5: Fitur dengan nilai hilang atau varians kecil Exercise 6: Menentukan ambang varians yang tepat Exercise 7: Fitur dengan varians rendah Exercise 8: Menghapus fitur dengan banyak nilai hilang Exercise 9: Korelasi berpasangan Exercise 10: Intuisi korelasi Exercise 11: Memeriksa matriks korelasi Exercise 12: Memvisualisasikan matriks korelasi Exercise 13: Menghapus fitur yang sangat berkorelasi Exercise 14: Menyaring fitur yang sangat berkorelasi Exercise 15: Energi nuklir dan tenggelam di kolam renang

Dalam bab kedua tentang seleksi fitur, Anda akan mempelajari bagaimana memanfaatkan model untuk membantu menemukan fitur paling penting dalam sebuah himpunan data untuk memprediksi fitur target tertentu. Pada pelajaran terakhir bab ini, Anda akan menggabungkan saran dari beberapa model yang berbeda untuk memutuskan fitur mana yang layak dipertahankan.

Exercise 1: Memilih fitur untuk kinerja model Exercise 2: Membangun pengklasifikasi diabetes Exercise 3: Eliminasi Fitur Rekursif Secara Manual

Latihan Saat Ini

Exercise 4: Eliminasi Fitur Rekursif Otomatis Exercise 5: Seleksi fitur berbasis pohon Exercise 6: Membangun model random forest Exercise 7: Random forest untuk seleksi fitur Exercise 8: Eliminasi Fitur Rekursif dengan random forests Exercise 9: Regresi linear teratur Exercise 10: Membuat regressor LASSO Exercise 11: Hasil model Lasso Exercise 12: Menyesuaikan kekuatan regularisasi Exercise 13: Mengombinasikan pemilih fitur Exercise 14: Membuat regressor LassoCV Exercise 15: Model ensemble untuk suara tambahan Exercise 16: Menggabungkan 3 pemilih fitur

Bab ini membahas secara mendalam algoritma pengurangan dimensi yang paling sering digunakan, Principal Component Analysis (PCA). Anda akan membangun intuisi tentang bagaimana dan mengapa algoritma ini begitu kuat dan akan menerapkannya baik untuk penjelajahan data maupun pra-pemrosesan data dalam sebuah pipeline pemodelan. Anda akan menutupnya dengan studi kasus kompresi gambar yang menarik.

Exercise 1: Ekstraksi fitur Exercise 2: Ekstraksi fitur manual I Exercise 3: Ekstraksi fitur manual II Exercise 4: Intuisi komponen utama Exercise 5: Analisis komponen utama Exercise 6: Menghitung Komponen Utama Exercise 7: PCA pada himpunan data yang lebih besar Exercise 8: Varians yang dijelaskan PCA Exercise 9: Aplikasi PCA Exercise 10: Memahami komponen Exercise 11: PCA untuk eksplorasi fitur Exercise 12: PCA dalam pipeline model Exercise 13: Pemilihan Principal Component Exercise 14: Memilih proporsi varians yang dipertahankan Exercise 15: Memilih jumlah komponen Exercise 16: PCA untuk kompresi gambar Exercise 17: Selamat!