Menemukan kata yang paling umum
Selalu disarankan setelah Anda membuat fitur untuk meninjaunya guna memastikan hasilnya sesuai harapan. Ini akan membantu Anda menemukan kesalahan sejak awal, dan mungkin memengaruhi rekayasa fitur lanjutan yang perlu Anda lakukan.
Vectorizer (cv) yang Anda latih pada latihan sebelumnya dan array jarang yang berisi jumlah kata (cv_trigram) tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Buat DataFrame dari fitur (jumlah kata).
- Tambahkan total kemunculan kata dan cetak 5 kata yang paling sering muncul.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())