LoslegenKostenlos loslegen

Gensim Bag-of-Words

Jetzt nutzt du dein neues gensim-Korpus und -Dictionary, um die häufigsten Terme pro Dokument und über alle Dokumente hinweg zu ermitteln. Mit deinem Dictionary kannst du die Terme nachschlagen. Rate doch mal, welche Themen vorkommen, und erkunde gern weitere Dokumente in der IPython Shell!

Du hast Zugriff auf die Objekte dictionary und corpus, die du in der vorherigen Übung erstellt hast, sowie auf Pythons defaultdict und itertools, die dir beim Erstellen von Zwischendatenstrukturen für die Analyse helfen.

  • defaultdict erlaubt es, ein Dictionary zu initialisieren, das nicht vorhandenen Schlüsseln einen Standardwert zuweist. Wenn wir das Argument int angeben, stellen wir sicher, dass alle nicht vorhandenen Schlüssel automatisch den Standardwert 0 bekommen. Das ist ideal, um in dieser Übung Wortzählungen zu speichern.

  • itertools.chain.from_iterable() ermöglicht es, über eine Menge von Sequenzen zu iterieren, als wäre es eine durchgehende Sequenz. Damit können wir bequem durch unser corpus-Objekt iterieren (eine Liste von Listen).

Das fünfte Dokument aus dem corpus ist in der Variable doc gespeichert und wurde absteigend sortiert.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____
Code bearbeiten und ausführen