Gensim bag-of-words
Mit deinem neuen gensim
Korpus und Wörterbuch kannst du nun die häufigsten Begriffe pro Dokument und über alle Dokumente hinweg sehen. Du kannst dein Wörterbuch benutzen, um die Begriffe nachzuschlagen. Rate mal, was die Themen sind, und erkunde weitere Dokumente in der IPython Shell!
Du hast Zugriff auf die Objekte dictionary
und corpus
, die du in der vorherigen Übung erstellt hast, sowie auf die Python-Objekte defaultdict
und itertools
, die dir bei der Erstellung von Zwischendatenstrukturen für die Analyse helfen.
defaultdict
ermöglicht es uns, ein Wörterbuch zu initialisieren, das nicht existierenden Schlüsseln einen Standardwert zuweist. Durch die Angabe des Argumentsint
können wir sicherstellen, dass nicht existierende Schlüssel automatisch mit dem Standardwert0
belegt werden. Das macht sie ideal, um die Anzahl der Wörter in dieser Übung zu speichern.itertools.chain.from_iterable()
ermöglicht es uns, durch eine Reihe von Sequenzen zu iterieren, als wären sie eine einzige kontinuierliche Sequenz. Mit dieser Funktion können wir ganz einfach durch unsercorpus
Objekt (das eine Liste von Listen ist) iterieren.
Das fünfte Dokument von corpus
wird in der Variable doc
gespeichert, die in absteigender Reihenfolge sortiert wurde.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____