Pulizia dei dati testuali
Ora che hai definito stopwords e punteggiatura, usiamo queste liste per pulire ulteriormente le email Enron nel dataframe df. Le liste che contengono stopwords e punteggiatura sono disponibili come stop ed exclude. Ci sono ancora alcuni passaggi da fare prima di avere dati puliti, come la "lemmatizzazione" delle parole e lo stemming dei verbi. I verbi nelle email sono già stemmatizzati e la lemmatizzazione è già stata eseguita per te in questo esercizio.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()
# Define word cleaning function
def clean(text, stop):
text = text.____()
# Remove stopwords
stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
# Remove punctuations
punc_free = ''.join(word for word in stop_free if ___ not in ____)
# Lemmatize all words
normalized = " ".join(____.____(word) for word in punc_free.split())
return normalized