Membersihkan data teks
Sekarang setelah Anda menetapkan stopwords dan tanda baca, mari gunakan itu untuk membersihkan email enron di dataframe df lebih lanjut. Daftar yang berisi stopwords dan tanda baca tersedia pada stop dan exclude. Masih ada beberapa langkah lagi sebelum data benar-benar bersih, seperti "lemmatization" kata, dan stemming pada verba. Verba pada data email sudah di-stem, dan lemmatization sudah dilakukan untuk Anda dalam latihan ini.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()
# Define word cleaning function
def clean(text, stop):
text = text.____()
# Remove stopwords
stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
# Remove punctuations
punc_free = ''.join(word for word in stop_free if ___ not in ____)
# Lemmatize all words
normalized = " ".join(____.____(word) for word in punc_free.split())
return normalized