IniziaInizia gratis

Pulizia dei dati testuali

Ora che hai definito stopwords e punteggiatura, usiamo queste liste per pulire ulteriormente le email Enron nel dataframe df. Le liste che contengono stopwords e punteggiatura sono disponibili come stop ed exclude. Ci sono ancora alcuni passaggi da fare prima di avere dati puliti, come la "lemmatizzazione" delle parole e lo stemming dei verbi. I verbi nelle email sono già stemmatizzati e la lemmatizzazione è già stata eseguita per te in questo esercizio.

Questo esercizio fa parte del corso

Rilevamento delle frodi in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()

# Define word cleaning function
def clean(text, stop):
    text = text.____()
	# Remove stopwords
    stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
	# Remove punctuations
    punc_free = ''.join(word for word in stop_free if ___ not in ____)
	# Lemmatize all words
    normalized = " ".join(____.____(word) for word in punc_free.split())      
    return normalized
Modifica ed esegui il codice