Tekstgegevens opschonen
Nu je de stopwoorden en leestekens hebt gedefinieerd, gaan we deze gebruiken om onze Enron-e-mails in de dataframe df verder op te schonen. De lijsten met stopwoorden en leestekens zijn beschikbaar onder stop en exclude. Er zijn nog een paar stappen nodig voordat je echt schone data hebt, zoals "lemmatization" van woorden en stemming van werkwoorden. De werkwoorden in de e-maildata zijn al gestemd, en de lemmatization is in deze oefening al voor je gedaan.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()
# Define word cleaning function
def clean(text, stop):
text = text.____()
# Remove stopwords
stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
# Remove punctuations
punc_free = ''.join(word for word in stop_free if ___ not in ____)
# Lemmatize all words
normalized = " ".join(____.____(word) for word in punc_free.split())
return normalized