LDA-model
Tijd om het LDA-model te bouwen. Met de dictionary en corpus ga je ontdekken welke topics in de Enron-e-mails voorkomen. Met een snelle print van de woorden die aan de topics zijn toegewezen, kun je alvast verkennen of er duidelijke onderwerpen uitspringen. Let op dat het topicmodel zwaar te berekenen is, dus het duurt even om te draaien. Laten we het proberen!
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Bouw het LDA-model uit de gensim-modellen door
corpusendictionaryin te voegen. - Sla de 5 topics op door
printtopics op de modelresultaten uit te voeren en selecteer de top 5 woorden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define the LDA model
ldamodel = gensim.models.____.____(____, num_topics=5, id2word=____, passes=5)
# Save the topics and top 5 words
topics = ____.____(num_words=____)
# Print the results
for topic in topics:
print(topic)