Menafsirkan Hasil
Mengetahui fitur mana yang paling memengaruhi prediksi Anda hampir selalu penting. Mungkin hasilnya berlawanan intuisi dan itu justru menjadi wawasan? Mungkin segelintir fitur menyumbang sebagian besar akurasi model Anda sehingga Anda tidak perlu menghabiskan waktu untuk memperoleh atau membersihkan fitur lainnya.
Pada contoh ini, kita akan melihat sebuah model yang dilatih tanpa informasi LISTPRICE. Tanpa itu, apa yang paling memengaruhi harga?
- CATATAN: Array importance fitur,
importances, sudah dibuat untuk Anda darimodel.featureImportances.toArray()
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur dengan PySpark
Instruksi latihan
- Buat dataframe
pandasmenggunakan nilai dariimportancesdan beri nama kolomimportancedengan mengatur parametercolumns. - Dengan daftar nama fitur yang telah diimpor,
feature_cols, buatpandas.Seriesbaru dengan membungkusnya dalam fungsipd.Series(). Tetapkan ke kolomfi_df['feature']. - Urutkan dataframe menggunakan
sort_values(), atur parameterbyke kolomimportancedan urutkan menurun dengan mengaturascendingkeFalse. Tinjau hasilnya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Convert feature importances to a pandas column
fi_df = pd.DataFrame(____, columns=[____])
# Convert list of feature names to pandas column
fi_df['feature'] = pd.____(____)
# Sort the data based on feature importance
fi_df.____(by=[____], ascending=____, inplace=True)
# Inspect Results
fi_df.head(10)