Pulizia dei dati testuali

Ora che hai definito stopwords e punteggiatura, usiamo queste liste per pulire ulteriormente le email Enron nel dataframe df. Le liste che contengono stopwords e punteggiatura sono disponibili come stop ed exclude. Ci sono ancora alcuni passaggi da fare prima di avere dati puliti, come la "lemmatizzazione" delle parole e lo stemming dei verbi. I verbi nelle email sono già stemmatizzati e la lemmatizzazione è già stata eseguita per te in questo esercizio.

Questo esercizio fa parte del corso

Rilevamento delle frodi in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()

# Define word cleaning function
def clean(text, stop):
    text = text.____()
	# Remove stopwords
    stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
	# Remove punctuations
    punc_free = ''.join(word for word in stop_free if ___ not in ____)
	# Lemmatize all words
    normalized = " ".join(____.____(word) for word in punc_free.split())      
    return normalized

Modifica ed esegui il codice