LoslegenKostenlos loslegen

Textdaten bereinigen

Nachdem du die Stopwörter und Satzzeichen festgelegt hast, lass uns diese nutzen, um unsere Enron-E-Mails im DataFrame df weiter zu bereinigen. Die Listen mit Stopwörtern und Satzzeichen sind unter stop und exclude verfügbar. Bevor die Daten wirklich sauber sind, sind noch ein paar Schritte nötig, etwa die „Lemmatisierung“ von Wörtern und das Stemming der Verben. Die Verben in den E-Mail-Daten sind bereits gestemmt, und die Lemmatisierung ist in dieser Übung schon für dich erledigt.

Diese Übung ist Teil des Kurses

Betrugserkennung mit Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()

# Define word cleaning function
def clean(text, stop):
    text = text.____()
	# Remove stopwords
    stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
	# Remove punctuations
    punc_free = ''.join(word for word in stop_free if ___ not in ____)
	# Lemmatize all words
    normalized = " ".join(____.____(word) for word in punc_free.split())      
    return normalized
Code bearbeiten und ausführen