Membangun model random forest

Anda kembali akan bekerja dengan himpunan data Pima Indians untuk memprediksi apakah seseorang mengidap diabetes, kali ini menggunakan classifier random forest. Anda akan memasang model pada data pelatihan setelah melakukan train-test split dan meninjau nilai pentingnya fitur.

Himpunan data fitur dan target telah dimuat sebagai X dan y. Hal yang sama berlaku untuk paket dan fungsi yang diperlukan.

Latihan ini merupakan bagian dari kursus

Pengurangan Dimensi dengan Python

Instruksi latihan

Tetapkan ukuran uji 25% untuk melakukan train-test split 75%-25%.
Pasang classifier random forest pada data pelatihan.
Hitung akurasi pada himpunan uji.
Cetak tingkat kepentingan fitur untuk setiap fitur.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)

# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)

# Calculate the accuracy
acc = accuracy_score(____, ____)

# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))

# Print accuracy
print(f"{acc:.1%} accuracy on test set.")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengurangan Dimensi dengan Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Anda akan diperkenalkan pada konsep pengurangan dimensi dan mempelajari kapan serta mengapa hal ini penting. Anda akan mempelajari perbedaan antara seleksi fitur dan ekstraksi fitur serta menerapkan kedua teknik tersebut untuk penjelajahan data. Bab ini diakhiri dengan pelajaran tentang t-SNE, sebuah teknik ekstraksi fitur yang kuat yang memungkinkan Anda memvisualisasikan himpunan data berdimensi tinggi.

Exercise 1: Pendahuluan Exercise 2: Menemukan jumlah dimensi dalam sebuah himpunan data Exercise 3: Menghapus fitur tanpa varians Exercise 4: Seleksi fitur vs. ekstraksi fitur Exercise 5: Mendeteksi fitur redundan secara visual Exercise 6: Keunggulan feature selection Exercise 7: Visualisasi t-SNE untuk data berdimensi tinggi Exercise 8: Intuisi t-SNE Exercise 9: Menerapkan t-SNE pada data ANSUR Exercise 10: Visualisasi t-SNE atas dimensi

Dalam bab pertama dari dua bab tentang seleksi fitur ini, Anda akan mempelajari tentang kutukan dimensi dan bagaimana pengurangan dimensi dapat membantu Anda mengatasinya. Anda akan diperkenalkan pada sejumlah teknik untuk mendeteksi dan menghapus fitur yang memberi nilai tambah kecil pada himpunan data. Baik karena variansnya kecil, terlalu banyak nilai hilang, atau karena sangat berkorelasi dengan fitur lain.

Exercise 1: Kutukan Dimensionalitas Exercise 2: Train - test split Exercise 3: Melatih dan menguji model Exercise 4: Akurasi setelah reduksi dimensi Exercise 5: Fitur dengan nilai hilang atau varians kecil Exercise 6: Menentukan ambang varians yang tepat Exercise 7: Fitur dengan varians rendah Exercise 8: Menghapus fitur dengan banyak nilai hilang Exercise 9: Korelasi berpasangan Exercise 10: Intuisi korelasi Exercise 11: Memeriksa matriks korelasi Exercise 12: Memvisualisasikan matriks korelasi Exercise 13: Menghapus fitur yang sangat berkorelasi Exercise 14: Menyaring fitur yang sangat berkorelasi Exercise 15: Energi nuklir dan tenggelam di kolam renang

Dalam bab kedua tentang seleksi fitur, Anda akan mempelajari bagaimana memanfaatkan model untuk membantu menemukan fitur paling penting dalam sebuah himpunan data untuk memprediksi fitur target tertentu. Pada pelajaran terakhir bab ini, Anda akan menggabungkan saran dari beberapa model yang berbeda untuk memutuskan fitur mana yang layak dipertahankan.

Exercise 1: Memilih fitur untuk kinerja model Exercise 2: Membangun pengklasifikasi diabetes Exercise 3: Eliminasi Fitur Rekursif Secara Manual Exercise 4: Eliminasi Fitur Rekursif Otomatis Exercise 5: Seleksi fitur berbasis pohon Exercise 6: Membangun model random forest

Latihan Saat Ini

Exercise 7: Random forest untuk seleksi fitur Exercise 8: Eliminasi Fitur Rekursif dengan random forests Exercise 9: Regresi linear teratur Exercise 10: Membuat regressor LASSO Exercise 11: Hasil model Lasso Exercise 12: Menyesuaikan kekuatan regularisasi Exercise 13: Mengombinasikan pemilih fitur Exercise 14: Membuat regressor LassoCV Exercise 15: Model ensemble untuk suara tambahan Exercise 16: Menggabungkan 3 pemilih fitur

Bab ini membahas secara mendalam algoritma pengurangan dimensi yang paling sering digunakan, Principal Component Analysis (PCA). Anda akan membangun intuisi tentang bagaimana dan mengapa algoritma ini begitu kuat dan akan menerapkannya baik untuk penjelajahan data maupun pra-pemrosesan data dalam sebuah pipeline pemodelan. Anda akan menutupnya dengan studi kasus kompresi gambar yang menarik.

Exercise 1: Ekstraksi fitur Exercise 2: Ekstraksi fitur manual I Exercise 3: Ekstraksi fitur manual II Exercise 4: Intuisi komponen utama Exercise 5: Analisis komponen utama Exercise 6: Menghitung Komponen Utama Exercise 7: PCA pada himpunan data yang lebih besar Exercise 8: Varians yang dijelaskan PCA Exercise 9: Aplikasi PCA Exercise 10: Memahami komponen Exercise 11: PCA untuk eksplorasi fitur Exercise 12: PCA dalam pipeline model Exercise 13: Pemilihan Principal Component Exercise 14: Memilih proporsi varians yang dipertahankan Exercise 15: Memilih jumlah komponen Exercise 16: PCA untuk kompresi gambar Exercise 17: Selamat!