Modèle LDA

Il est temps de construire le modèle LDA. Avec le dictionary et le corpus, vous pouvez maintenant découvrir quels sujets sont présents dans les e-mails d’Enron. En affichant rapidement les mots associés aux sujets, vous pouvez effectuer une première exploration pour voir si certains thèmes évidents se dégagent. Gardez à l’esprit que le modèle de sujets est lourd à calculer et prendra un certain temps à s’exécuter. Essayons !

Cet exercice fait partie du cours

<cours>Détection de fraude en Python</cours>

Voir le cours

Instructions de l’exercice

Construisez le modèle LDA depuis les modèles gensim, en fournissant le corpus et le dictionary.
Sauvegardez les 5 sujets en exécutant print topics sur les résultats du modèle et sélectionnez les 5 mots les plus fréquents.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Define the LDA model
ldamodel = gensim.models.____.____(____, num_topics=5, id2word=____, passes=5)

# Save the topics and top 5 words
topics = ____.____(num_words=____)

# Print the results
for topic in topics:
    print(topic)

Modifier et exécuter le code