Stoppwörter entfernen
In den folgenden Übungen wirst du die Enron-E-Mails bereinigen, damit du die Daten in einem Topic-Modell verwenden kannst. Textbereinigung kann knifflig sein, deshalb lernst du ein paar Schritte, um das gut zu machen. Der DataFrame mit den E-Mails df ist verfügbar. Im ersten Schritt musst du die Liste der Stoppwörter und Satzzeichen definieren, die in der nächsten Übung aus den Textdaten entfernt werden. Probier es aus.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Importiere die Stoppwörter aus
ntlk. - Definiere die 'english' words als Stoppwörter in der Variable
stop. - Hole dir die Menge der Satzzeichen aus dem Paket
stringund weise sieexcludezu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import nltk packages and string
from nltk.corpus import ____
import string
# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))
# Define punctuations to exclude and lemmatizer
exclude = set(____.____)