Menghapus stopword
Pada latihan berikut, Anda akan membersihkan email Enron agar data dapat digunakan dalam topic model. Pembersihan teks bisa menantang, jadi Anda akan mempelajari beberapa langkah untuk melakukannya dengan baik. Dataframe yang berisi email, df, tersedia. Pada langkah pertama, Anda perlu mendefinisikan daftar stopword dan tanda baca yang akan dihapus dari data teks pada latihan selanjutnya. Mari kita coba.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Petunjuk latihan
- Impor stopword dari
ntlk. - Tetapkan kata-kata 'english' untuk digunakan sebagai stopword pada variabel
stop. - Ambil himpunan tanda baca dari paket
stringdan tetapkan keexclude.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import nltk packages and string
from nltk.corpus import ____
import string
# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))
# Define punctuations to exclude and lemmatizer
exclude = set(____.____)