Tekstgegevens opschonen

Nu je de stopwoorden en leestekens hebt gedefinieerd, gaan we deze gebruiken om onze Enron-e-mails in de dataframe df verder op te schonen. De lijsten met stopwoorden en leestekens zijn beschikbaar onder stop en exclude. Er zijn nog een paar stappen nodig voordat je echt schone data hebt, zoals "lemmatization" van woorden en stemming van werkwoorden. De werkwoorden in de e-maildata zijn al gestemd, en de lemmatization is in deze oefening al voor je gedaan.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()

# Define word cleaning function
def clean(text, stop):
    text = text.____()
	# Remove stopwords
    stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
	# Remove punctuations
    punc_free = ''.join(word for word in stop_free if ___ not in ____)
	# Lemmatize all words
    normalized = " ".join(____.____(word) for word in punc_free.split())      
    return normalized

Code bewerken en uitvoeren