Bag-of-words dengan Gensim
Sekarang, Anda akan menggunakan gensim corpus dan kamus (dictionary) baru Anda untuk melihat istilah yang paling umum per dokumen dan di seluruh dokumen. Anda dapat menggunakan kamus untuk melihat istilahnya. Cobalah menebak topiknya dan silakan jelajahi lebih banyak dokumen di IPython Shell!
Anda memiliki akses ke objek dictionary dan corpus yang Anda buat pada latihan sebelumnya, serta Python defaultdict dan itertools untuk membantu pembuatan struktur data perantara untuk analisis.
defaultdictmemungkinkan kita menginisialisasi dictionary yang akan memberikan nilai default untuk key yang tidak ada. Dengan memberikan argumenint, kita memastikan bahwa setiap key yang tidak ada otomatis diberi nilai default0. Ini ideal untuk menyimpan jumlah kemunculan kata pada latihan ini.itertools.chain.from_iterable()memungkinkan kita melakukan iterasi melalui sekumpulan urutan seolah-olah itu satu urutan berkelanjutan. Dengan fungsi ini, kita dapat dengan mudah melakukan iterasi melalui objekcorpus(yang merupakan daftar berisi daftar).
Dokumen kelima dari corpus disimpan dalam variabel doc, yang telah diurutkan secara menurun.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____