BaşlayınÜcretsiz Başlayın

Gensim bag-of-words

Şimdi, yeni gensim gövdeni (corpus) ve sözlüğünü (dictionary) kullanarak hem her belge için hem de tüm belgeler genelinde en yaygın terimleri göreceksin. Terimlere bakmak için sözlüğünü kullanabilirsin. Konuların ne olduğuna dair bir tahminde bulun ve IPython Shell’de daha fazla belgeyi keşfetmekten çekinme!

Önceki egzersizde oluşturduğun dictionary ve corpus nesnelerine erişimin var. Ayrıca analiz için ara veri yapıları oluşturmana yardımcı olacak Python defaultdict ve itertools da mevcut.

  • defaultdict, var olmayan anahtarlara varsayılan bir değer atayan bir sözlük başlatmamızı sağlar. Argüman olarak int verdiğimizde, var olmayan tüm anahtarların otomatik olarak varsayılan değer olarak 0 almasını sağlarız. Bu, bu egzersizdeki kelime sayılarını saklamak için idealdir.

  • itertools.chain.from_iterable() bir dizi diziyi tek bir kesintisiz diziymiş gibi yinelememize olanak tanır. Bu fonksiyonu kullanarak, corpus nesnemizin (listelerin listesi) üzerinden kolayca yineleyebiliriz.

corpus içindeki beşinci belge doc değişkeninde saklanmıştır ve azalan düzende sıralanmıştır.

Bu egzersiz

Python ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____
Kodu Düzenle ve Çalıştır