Stoppwörter entfernen

In den folgenden Übungen wirst du die Enron-E-Mails bereinigen, damit du die Daten in einem Topic-Modell verwenden kannst. Textbereinigung kann knifflig sein, deshalb lernst du ein paar Schritte, um das gut zu machen. Der DataFrame mit den E-Mails df ist verfügbar. Im ersten Schritt musst du die Liste der Stoppwörter und Satzzeichen definieren, die in der nächsten Übung aus den Textdaten entfernt werden. Probier es aus.

Diese Übung ist Teil des Kurses

Betrugserkennung mit Python

Kurs anzeigen

Anleitung zur Übung

Importiere die Stoppwörter aus ntlk.
Definiere die 'english' words als Stoppwörter in der Variable stop.
Hole dir die Menge der Satzzeichen aus dem Paket string und weise sie exclude zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)

Code bearbeiten und ausführen