MulaiMulai sekarang secara gratis

Menafsirkan Hasil

Mengetahui fitur mana yang paling memengaruhi prediksi Anda hampir selalu penting. Mungkin hasilnya berlawanan intuisi dan itu justru menjadi wawasan? Mungkin segelintir fitur menyumbang sebagian besar akurasi model Anda sehingga Anda tidak perlu menghabiskan waktu untuk memperoleh atau membersihkan fitur lainnya.

Pada contoh ini, kita akan melihat sebuah model yang dilatih tanpa informasi LISTPRICE. Tanpa itu, apa yang paling memengaruhi harga?

  • CATATAN: Array importance fitur, importances, sudah dibuat untuk Anda dari model.featureImportances.toArray()

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat dataframe pandas menggunakan nilai dari importances dan beri nama kolom importance dengan mengatur parameter columns.
  • Dengan daftar nama fitur yang telah diimpor, feature_cols, buat pandas.Series baru dengan membungkusnya dalam fungsi pd.Series(). Tetapkan ke kolom fi_df['feature'].
  • Urutkan dataframe menggunakan sort_values(), atur parameter by ke kolom importance dan urutkan menurun dengan mengatur ascending ke False. Tinjau hasilnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Convert feature importances to a pandas column
fi_df = pd.DataFrame(____, columns=[____])

# Convert list of feature names to pandas column
fi_df['feature'] = pd.____(____)

# Sort the data based on feature importance
fi_df.____(by=[____], ascending=____, inplace=True)

# Inspect Results
fi_df.head(10)
Edit dan Jalankan Kode