LDA-Modell
Jetzt ist es Zeit, das LDA-Modell zu bauen. Mit dem dictionary und dem corpus bist du bereit herauszufinden, welche Themen in den Enron-E-Mails vorkommen. Mit einem schnellen Ausdruck der den Themen zugeordneten Wörter kannst du zunächst prüfen, ob offensichtliche Themen ins Auge springen. Beachte, dass das Topic-Modeling rechenintensiv ist, daher dauert die Ausführung eine Weile. Probieren wir’s aus!
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Baue das LDA-Modell aus den gensim-Modellen, indem du
corpusunddictionaryübergibst. - Lass dir die 5 Topics ausgeben, indem du
printder Topics auf den Modellergebnissen ausführst, und wähle die Top-5-Wörter aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define the LDA model
ldamodel = gensim.models.____.____(____, num_topics=5, id2word=____, passes=5)
# Save the topics and top 5 words
topics = ____.____(num_words=____)
# Print the results
for topic in topics:
print(topic)