Menghapus stopword
Pada latihan berikut, Anda akan membersihkan email Enron agar data dapat digunakan dalam topic model. Pembersihan teks bisa menantang, jadi Anda akan mempelajari beberapa langkah untuk melakukannya dengan baik. Dataframe yang berisi email, df, tersedia. Pada langkah pertama, Anda perlu mendefinisikan daftar stopword dan tanda baca yang akan dihapus dari data teks pada latihan selanjutnya. Mari kita coba.
Latihan ini merupakan bagian dari kursus
Deteksi Kecurangan di Python
Instruksi latihan
- Impor stopword dari
ntlk. - Tetapkan kata-kata 'english' untuk digunakan sebagai stopword pada variabel
stop. - Ambil himpunan tanda baca dari paket
stringdan tetapkan keexclude.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import nltk packages and string
from nltk.corpus import ____
import string
# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))
# Define punctuations to exclude and lemmatizer
exclude = set(____.____)