Woordenboek en corpus maken
Om een LDA-topicmodel te draaien, moet je eerst je woordenboek en corpus definiëren, omdat die in het model gaan. Je gaat verder werken met de opgeschoonde tekstdata die je in de vorige oefeningen hebt gemaakt. Dat betekent dat text_clean al beschikbaar is om mee verder te werken, en je gebruikt dit om je woordenboek en corpus te maken.
Deze oefening duurt iets langer om uit te voeren dan normaal.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Importeer het gensim-pakket en importeer corpora apart uit gensim.
- Definieer je woordenboek door de juiste functie uit te voeren op je schone data
text_clean. - Definieer de corpus door
doc2bowuit te voeren op elk stuk tekst intext_clean. - Print je resultaten zodat je kunt zien hoe
dictionaryencorpuseruitzien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the packages
import ____
from ____ import ____
# Define the dictionary
dictionary = ____.____(____)
# Define the corpus
corpus = [dictionary.____(text) for ___ in ____]
# Print corpus and dictionary
print(____)
print(____)