Textdaten bereinigen
Nachdem du die Stopwörter und Satzzeichen festgelegt hast, lass uns diese nutzen, um unsere Enron-E-Mails im DataFrame df weiter zu bereinigen. Die Listen mit Stopwörtern und Satzzeichen sind unter stop und exclude verfügbar. Bevor die Daten wirklich sauber sind, sind noch ein paar Schritte nötig, etwa die „Lemmatisierung“ von Wörtern und das Stemming der Verben. Die Verben in den E-Mail-Daten sind bereits gestemmt, und die Lemmatisierung ist in dieser Übung schon für dich erledigt.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()
# Define word cleaning function
def clean(text, stop):
text = text.____()
# Remove stopwords
stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
# Remove punctuations
punc_free = ''.join(word for word in stop_free if ___ not in ____)
# Lemmatize all words
normalized = " ".join(____.____(word) for word in punc_free.split())
return normalized