Gensim bag-of-words
Şimdi, yeni gensim gövdeni (corpus) ve sözlüğünü (dictionary) kullanarak hem her belge için hem de tüm belgeler genelinde en yaygın terimleri göreceksin. Terimlere bakmak için sözlüğünü kullanabilirsin. Konuların ne olduğuna dair bir tahminde bulun ve IPython Shell’de daha fazla belgeyi keşfetmekten çekinme!
Önceki egzersizde oluşturduğun dictionary ve corpus nesnelerine erişimin var. Ayrıca analiz için ara veri yapıları oluşturmana yardımcı olacak Python defaultdict ve itertools da mevcut.
defaultdict, var olmayan anahtarlara varsayılan bir değer atayan bir sözlük başlatmamızı sağlar. Argüman olarakintverdiğimizde, var olmayan tüm anahtarların otomatik olarak varsayılan değer olarak0almasını sağlarız. Bu, bu egzersizdeki kelime sayılarını saklamak için idealdir.itertools.chain.from_iterable()bir dizi diziyi tek bir kesintisiz diziymiş gibi yinelememize olanak tanır. Bu fonksiyonu kullanarak,corpusnesnemizin (listelerin listesi) üzerinden kolayca yineleyebiliriz.
corpus içindeki beşinci belge doc değişkeninde saklanmıştır ve azalan düzende sıralanmıştır.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____