Membangun model random forest
Anda kembali akan bekerja dengan himpunan data Pima Indians untuk memprediksi apakah seseorang mengidap diabetes, kali ini menggunakan classifier random forest. Anda akan memasang model pada data pelatihan setelah melakukan train-test split dan meninjau nilai pentingnya fitur.
Himpunan data fitur dan target telah dimuat sebagai X dan y. Hal yang sama berlaku untuk paket dan fungsi yang diperlukan.
Latihan ini adalah bagian dari kursus
Pengurangan Dimensi dengan Python
Petunjuk latihan
- Tetapkan ukuran uji 25% untuk melakukan train-test split 75%-25%.
- Pasang classifier random forest pada data pelatihan.
- Hitung akurasi pada himpunan uji.
- Cetak tingkat kepentingan fitur untuk setiap fitur.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)
# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)
# Calculate the accuracy
acc = accuracy_score(____, ____)
# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))
# Print accuracy
print(f"{acc:.1%} accuracy on test set.")