Woordenboek en corpus maken

Om een LDA-topicmodel te draaien, moet je eerst je woordenboek en corpus definiëren, omdat die in het model gaan. Je gaat verder werken met de opgeschoonde tekstdata die je in de vorige oefeningen hebt gemaakt. Dat betekent dat text_clean al beschikbaar is om mee verder te werken, en je gebruikt dit om je woordenboek en corpus te maken.

Deze oefening duurt iets langer om uit te voeren dan normaal.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Importeer het gensim-pakket en importeer corpora apart uit gensim.
Definieer je woordenboek door de juiste functie uit te voeren op je schone data text_clean.
Definieer de corpus door doc2bow uit te voeren op elk stuk tekst in text_clean.
Print je resultaten zodat je kunt zien hoe dictionary en corpus eruitzien.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the packages
import ____
from ____ import ____

# Define the dictionary
dictionary = ____.____(____)

# Define the corpus 
corpus = [dictionary.____(text) for ___ in ____]

# Print corpus and dictionary
print(____)
print(____)

Code bewerken en uitvoeren