Membuat dan melakukan kueri korpus dengan gensim
Saatnya menerapkan metode yang Anda pelajari pada video sebelumnya untuk membuat kamus dan korpus gensim pertama Anda!
Anda akan menggunakan struktur data ini untuk menelusuri tren kata dan topik-topik menarik potensial dalam himpunan dokumen Anda. Untuk memulai, kami telah mengimpor beberapa artikel Wikipedia tambahan yang berantakan, yang telah dipraproses dengan mengubah semua kata menjadi huruf kecil, melakukan tokenisasi, serta menghapus stop word dan tanda baca. Semuanya kemudian disimpan dalam sebuah daftar token dokumen bernama articles. Anda perlu melakukan sedikit prapemrosesan lalu membuat kamus dan korpus gensim.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Impor
Dictionarydarigensim.corpora.dictionary. - Inisialisasi
Dictionarygensimdengan token dalamarticles. - Dapatkan id untuk
"computer"daridictionary. Untuk melakukannya, gunakan metodenya.token2idyang mengembalikan id dari teks, lalu rantai dengan.get()yang mengembalikan token dari id. Berikan"computer"sebagai argumen ke.get(). - Gunakan list comprehension di mana Anda melakukan iterasi atas
articlesuntuk membuatMmCorpusgensimdaridictionary.- Pada ekspresi keluaran, gunakan metode
.doc2bow()padadictionarydenganarticlesebagai argumen.
- Pada ekspresi keluaran, gunakan metode
- Cetak 10 id kata pertama beserta frekuensi kemunculannya dari dokumen kelima. Ini telah disiapkan untuk Anda, jadi tekan 'Kirim Jawaban' untuk melihat hasilnya!
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import Dictionary
____
# Create a Dictionary from the articles: dictionary
dictionary = ____(____)
# Select the id for "computer": computer_id
computer_id = ____.____.get("____")
# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))
# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]
# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])