Wörterbuch und Korpus erstellen
Um ein LDA-Topic-Modell auszuführen, musst du zunächst dein Wörterbuch und dein Korpus definieren, da diese in das Modell eingehen. Du arbeitest weiter mit den bereinigten Textdaten aus den vorherigen Aufgaben. Das bedeutet, dass text_clean bereits für dich verfügbar ist und du es verwendest, um dein Wörterbuch und dein Korpus zu erstellen.
Diese Übung wird etwas länger dauern als üblich.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Importiere das Paket gensim und zusätzlich corpora separat aus gensim.
- Definiere dein Wörterbuch, indem du die passende Funktion auf deine bereinigten Daten
text_cleananwendest. - Definiere das Korpus, indem du
doc2bowauf jedes Textelement intext_cleanausführst. - Gib deine Ergebnisse aus, damit du sehen kannst, wie
dictionaryundcorpusaussehen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the packages
import ____
from ____ import ____
# Define the dictionary
dictionary = ____.____(____)
# Define the corpus
corpus = [dictionary.____(text) for ___ in ____]
# Print corpus and dictionary
print(____)
print(____)