Menemukan kata yang paling umum
Selalu disarankan setelah Anda membuat fitur untuk meninjaunya guna memastikan hasilnya sesuai harapan. Ini akan membantu Anda menemukan kesalahan sejak awal, dan mungkin memengaruhi rekayasa fitur lanjutan yang perlu Anda lakukan.
Vectorizer (cv) yang Anda latih pada latihan sebelumnya dan array jarang yang berisi jumlah kata (cv_trigram) tersedia di ruang kerja Anda.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Instruksi latihan
- Buat DataFrame dari fitur (jumlah kata).
- Tambahkan total kemunculan kata dan cetak 5 kata yang paling sering muncul.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())