MulaiMulai sekarang secara gratis

Bag-of-words dengan Gensim

Sekarang, Anda akan menggunakan gensim corpus dan kamus (dictionary) baru Anda untuk melihat istilah yang paling umum per dokumen dan di seluruh dokumen. Anda dapat menggunakan kamus untuk melihat istilahnya. Cobalah menebak topiknya dan silakan jelajahi lebih banyak dokumen di IPython Shell!

Anda memiliki akses ke objek dictionary dan corpus yang Anda buat pada latihan sebelumnya, serta Python defaultdict dan itertools untuk membantu pembuatan struktur data perantara untuk analisis.

  • defaultdict memungkinkan kita menginisialisasi dictionary yang akan memberikan nilai default untuk key yang tidak ada. Dengan memberikan argumen int, kita memastikan bahwa setiap key yang tidak ada otomatis diberi nilai default 0. Ini ideal untuk menyimpan jumlah kemunculan kata pada latihan ini.

  • itertools.chain.from_iterable() memungkinkan kita melakukan iterasi melalui sekumpulan urutan seolah-olah itu satu urutan berkelanjutan. Dengan fungsi ini, kita dapat dengan mudah melakukan iterasi melalui objek corpus (yang merupakan daftar berisi daftar).

Dokumen kelima dari corpus disimpan dalam variabel doc, yang telah diurutkan secara menurun.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____
Edit dan Jalankan Kode