Erste SchritteKostenlos loslegen

Gensim bag-of-words

Mit deinem neuen gensim Korpus und Wörterbuch kannst du nun die häufigsten Begriffe pro Dokument und über alle Dokumente hinweg sehen. Du kannst dein Wörterbuch benutzen, um die Begriffe nachzuschlagen. Rate mal, was die Themen sind, und erkunde weitere Dokumente in der IPython Shell!

Du hast Zugriff auf die Objekte dictionary und corpus, die du in der vorherigen Übung erstellt hast, sowie auf die Python-Objekte defaultdict und itertools, die dir bei der Erstellung von Zwischendatenstrukturen für die Analyse helfen.

  • defaultdict ermöglicht es uns, ein Wörterbuch zu initialisieren, das nicht existierenden Schlüsseln einen Standardwert zuweist. Durch die Angabe des Arguments int können wir sicherstellen, dass nicht existierende Schlüssel automatisch mit dem Standardwert 0 belegt werden. Das macht sie ideal, um die Anzahl der Wörter in dieser Übung zu speichern.

  • itertools.chain.from_iterable() ermöglicht es uns, durch eine Reihe von Sequenzen zu iterieren, als wären sie eine einzige kontinuierliche Sequenz. Mit dieser Funktion können wir ganz einfach durch unser corpus Objekt (das eine Liste von Listen ist) iterieren.

Das fünfte Dokument von corpus wird in der Variable doc gespeichert, die in absteigender Reihenfolge sortiert wurde.

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____
Bearbeiten und Ausführen von Code