Textdaten bereinigen
Nachdem du die Stopwörter und Satzzeichen festgelegt hast, lass uns diese nutzen, um unsere Enron-E-Mails im DataFrame df weiter zu bereinigen. Die Listen mit Stopwörtern und Satzzeichen sind unter stop und exclude verfügbar. Bevor die Daten wirklich sauber sind, sind noch ein paar Schritte nötig, etwa die „Lemmatisierung“ von Wörtern und das Stemming der Verben. Die Verben in den E-Mail-Daten sind bereits gestemmt, und die Lemmatisierung ist in dieser Übung schon für dich erledigt.
Diese Übung ist Teil des Kurses
<Kurs>Betrugserkennung mit Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()
# Define word cleaning function
def clean(text, stop):
text = text.____()
# Remove stopwords
stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
# Remove punctuations
punc_free = ''.join(word for word in stop_free if ___ not in ____)
# Lemmatize all words
normalized = " ".join(____.____(word) for word in punc_free.split())
return normalized