Wörterbuch und Korpus erstellen

Um ein LDA-Topic-Modell auszuführen, musst du zunächst dein Wörterbuch und dein Korpus definieren, da diese in das Modell eingehen. Du arbeitest weiter mit den bereinigten Textdaten aus den vorherigen Aufgaben. Das bedeutet, dass text_clean bereits für dich verfügbar ist und du es verwendest, um dein Wörterbuch und dein Korpus zu erstellen.

Diese Übung wird etwas länger dauern als üblich.

Diese Übung ist Teil des Kurses

Betrugserkennung mit Python

Kurs anzeigen

Anleitung zur Übung

Importiere das Paket gensim und zusätzlich corpora separat aus gensim.
Definiere dein Wörterbuch, indem du die passende Funktion auf deine bereinigten Daten text_clean anwendest.
Definiere das Korpus, indem du doc2bow auf jedes Textelement in text_clean ausführst.
Gib deine Ergebnisse aus, damit du sehen kannst, wie dictionary und corpus aussehen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the packages
import ____
from ____ import ____

# Define the dictionary
dictionary = ____.____(____)

# Define the corpus 
corpus = [dictionary.____(text) for ___ in ____]

# Print corpus and dictionary
print(____)
print(____)

Code bearbeiten und ausführen