Modèle LDA
Il est temps de construire le modèle LDA. Avec le dictionary et le corpus, vous pouvez maintenant découvrir quels sujets sont présents dans les e-mails d’Enron. En affichant rapidement les mots associés aux sujets, vous pouvez effectuer une première exploration pour voir si certains thèmes évidents se dégagent. Gardez à l’esprit que le modèle de sujets est lourd à calculer et prendra un certain temps à s’exécuter. Essayons !
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Construisez le modèle LDA depuis les modèles gensim, en fournissant le
corpuset ledictionary. - Sauvegardez les 5 sujets en exécutant
printtopics sur les résultats du modèle et sélectionnez les 5 mots les plus fréquents.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define the LDA model
ldamodel = gensim.models.____.____(____, num_topics=5, id2word=____, passes=5)
# Save the topics and top 5 words
topics = ____.____(num_words=____)
# Print the results
for topic in topics:
print(topic)