PCA dalam pipeline model

Kita baru melihat bahwa Pokemon legendaris cenderung memiliki statistik keseluruhan yang lebih tinggi. Mari kita coba menambahkan sebuah classifier ke pipeline kita yang mendeteksi Pokemon legendaris versus non-legendaris berdasarkan principal component.

Data telah dimuat sebelumnya untuk Anda dan dibagi menjadi himpunan data pelatihan dan pengujian: X_train, X_test, y_train, y_test.

Hal yang sama berlaku untuk semua paket dan kelas yang relevan (Pipeline(), StandardScaler(), PCA(), RandomForestClassifier()).

Latihan ini merupakan bagian dari kursus

Pengurangan Dimensi dengan Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Build the pipeline
pipe = Pipeline([
        ('scaler', ____),
        ('reducer', ____),
        ('classifier', ____)])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengurangan Dimensi dengan Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Anda akan diperkenalkan pada konsep pengurangan dimensi dan mempelajari kapan serta mengapa hal ini penting. Anda akan mempelajari perbedaan antara seleksi fitur dan ekstraksi fitur serta menerapkan kedua teknik tersebut untuk penjelajahan data. Bab ini diakhiri dengan pelajaran tentang t-SNE, sebuah teknik ekstraksi fitur yang kuat yang memungkinkan Anda memvisualisasikan himpunan data berdimensi tinggi.

Exercise 1: Pendahuluan Exercise 2: Menemukan jumlah dimensi dalam sebuah himpunan data Exercise 3: Menghapus fitur tanpa varians Exercise 4: Seleksi fitur vs. ekstraksi fitur Exercise 5: Mendeteksi fitur redundan secara visual Exercise 6: Keunggulan feature selection Exercise 7: Visualisasi t-SNE untuk data berdimensi tinggi Exercise 8: Intuisi t-SNE Exercise 9: Menerapkan t-SNE pada data ANSUR Exercise 10: Visualisasi t-SNE atas dimensi

Dalam bab pertama dari dua bab tentang seleksi fitur ini, Anda akan mempelajari tentang kutukan dimensi dan bagaimana pengurangan dimensi dapat membantu Anda mengatasinya. Anda akan diperkenalkan pada sejumlah teknik untuk mendeteksi dan menghapus fitur yang memberi nilai tambah kecil pada himpunan data. Baik karena variansnya kecil, terlalu banyak nilai hilang, atau karena sangat berkorelasi dengan fitur lain.

Exercise 1: Kutukan Dimensionalitas Exercise 2: Train - test split Exercise 3: Melatih dan menguji model Exercise 4: Akurasi setelah reduksi dimensi Exercise 5: Fitur dengan nilai hilang atau varians kecil Exercise 6: Menentukan ambang varians yang tepat Exercise 7: Fitur dengan varians rendah Exercise 8: Menghapus fitur dengan banyak nilai hilang Exercise 9: Korelasi berpasangan Exercise 10: Intuisi korelasi Exercise 11: Memeriksa matriks korelasi Exercise 12: Memvisualisasikan matriks korelasi Exercise 13: Menghapus fitur yang sangat berkorelasi Exercise 14: Menyaring fitur yang sangat berkorelasi Exercise 15: Energi nuklir dan tenggelam di kolam renang

Dalam bab kedua tentang seleksi fitur, Anda akan mempelajari bagaimana memanfaatkan model untuk membantu menemukan fitur paling penting dalam sebuah himpunan data untuk memprediksi fitur target tertentu. Pada pelajaran terakhir bab ini, Anda akan menggabungkan saran dari beberapa model yang berbeda untuk memutuskan fitur mana yang layak dipertahankan.

Exercise 1: Memilih fitur untuk kinerja model Exercise 2: Membangun pengklasifikasi diabetes Exercise 3: Eliminasi Fitur Rekursif Secara Manual Exercise 4: Eliminasi Fitur Rekursif Otomatis Exercise 5: Seleksi fitur berbasis pohon Exercise 6: Membangun model random forest Exercise 7: Random forest untuk seleksi fitur Exercise 8: Eliminasi Fitur Rekursif dengan random forests Exercise 9: Regresi linear teratur Exercise 10: Membuat regressor LASSO Exercise 11: Hasil model Lasso Exercise 12: Menyesuaikan kekuatan regularisasi Exercise 13: Mengombinasikan pemilih fitur Exercise 14: Membuat regressor LassoCV Exercise 15: Model ensemble untuk suara tambahan Exercise 16: Menggabungkan 3 pemilih fitur

Bab ini membahas secara mendalam algoritma pengurangan dimensi yang paling sering digunakan, Principal Component Analysis (PCA). Anda akan membangun intuisi tentang bagaimana dan mengapa algoritma ini begitu kuat dan akan menerapkannya baik untuk penjelajahan data maupun pra-pemrosesan data dalam sebuah pipeline pemodelan. Anda akan menutupnya dengan studi kasus kompresi gambar yang menarik.

Exercise 1: Ekstraksi fitur Exercise 2: Ekstraksi fitur manual I Exercise 3: Ekstraksi fitur manual II Exercise 4: Intuisi komponen utama Exercise 5: Analisis komponen utama Exercise 6: Menghitung Komponen Utama Exercise 7: PCA pada himpunan data yang lebih besar Exercise 8: Varians yang dijelaskan PCA Exercise 9: Aplikasi PCA Exercise 10: Memahami komponen Exercise 11: PCA untuk eksplorasi fitur Exercise 12: PCA dalam pipeline model

Latihan Saat Ini

Exercise 13: Pemilihan Principal Component Exercise 14: Memilih proporsi varians yang dipertahankan Exercise 15: Memilih jumlah komponen Exercise 16: PCA untuk kompresi gambar Exercise 17: Selamat!