Menafsirkan Hasil
Mengetahui fitur mana yang paling memengaruhi prediksi Anda hampir selalu penting. Mungkin hasilnya berlawanan intuisi dan itu justru menjadi wawasan? Mungkin segelintir fitur menyumbang sebagian besar akurasi model Anda sehingga Anda tidak perlu menghabiskan waktu untuk memperoleh atau membersihkan fitur lainnya.
Pada contoh ini, kita akan melihat sebuah model yang dilatih tanpa informasi LISTPRICE. Tanpa itu, apa yang paling memengaruhi harga?
- CATATAN: Array importance fitur,
importances, sudah dibuat untuk Anda darimodel.featureImportances.toArray()
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Buat dataframe
pandasmenggunakan nilai dariimportancesdan beri nama kolomimportancedengan mengatur parametercolumns. - Dengan daftar nama fitur yang telah diimpor,
feature_cols, buatpandas.Seriesbaru dengan membungkusnya dalam fungsipd.Series(). Tetapkan ke kolomfi_df['feature']. - Urutkan dataframe menggunakan
sort_values(), atur parameterbyke kolomimportancedan urutkan menurun dengan mengaturascendingkeFalse. Tinjau hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Convert feature importances to a pandas column
fi_df = pd.DataFrame(____, columns=[____])
# Convert list of feature names to pandas column
fi_df['feature'] = pd.____(____)
# Sort the data based on feature importance
fi_df.____(by=[____], ascending=____, inplace=True)
# Inspect Results
fi_df.head(10)