Gensim Bag-of-Words
Jetzt nutzt du dein neues gensim-Korpus und -Dictionary, um die häufigsten Terme pro Dokument und über alle Dokumente hinweg zu ermitteln. Mit deinem Dictionary kannst du die Terme nachschlagen. Rate doch mal, welche Themen vorkommen, und erkunde gern weitere Dokumente in der IPython Shell!
Du hast Zugriff auf die Objekte dictionary und corpus, die du in der vorherigen Übung erstellt hast, sowie auf Pythons defaultdict und itertools, die dir beim Erstellen von Zwischendatenstrukturen für die Analyse helfen.
defaultdicterlaubt es, ein Dictionary zu initialisieren, das nicht vorhandenen Schlüsseln einen Standardwert zuweist. Wenn wir das Argumentintangeben, stellen wir sicher, dass alle nicht vorhandenen Schlüssel automatisch den Standardwert0bekommen. Das ist ideal, um in dieser Übung Wortzählungen zu speichern.itertools.chain.from_iterable()ermöglicht es, über eine Menge von Sequenzen zu iterieren, als wäre es eine durchgehende Sequenz. Damit können wir bequem durch unsercorpus-Objekt iterieren (eine Liste von Listen).
Das fünfte Dokument aus dem corpus ist in der Variable doc gespeichert und wurde absteigend sortiert.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____