Membersihkan data teks

Sekarang setelah Anda menetapkan stopwords dan tanda baca, mari gunakan itu untuk membersihkan email enron di dataframe df lebih lanjut. Daftar yang berisi stopwords dan tanda baca tersedia pada stop dan exclude. Masih ada beberapa langkah lagi sebelum data benar-benar bersih, seperti "lemmatization" kata, dan stemming pada verba. Verba pada data email sudah di-stem, dan lemmatization sudah dilakukan untuk Anda dalam latihan ini.

Latihan ini merupakan bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()

# Define word cleaning function
def clean(text, stop):
    text = text.____()
	# Remove stopwords
    stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
	# Remove punctuations
    punc_free = ''.join(word for word in stop_free if ___ not in ____)
	# Lemmatize all words
    normalized = " ".join(____.____(word) for word in punc_free.split())      
    return normalized

Edit dan Jalankan Kode