MulaiMulai sekarang secara gratis

Menghapus stopword

Pada latihan berikut, Anda akan membersihkan email Enron agar data dapat digunakan dalam topic model. Pembersihan teks bisa menantang, jadi Anda akan mempelajari beberapa langkah untuk melakukannya dengan baik. Dataframe yang berisi email, df, tersedia. Pada langkah pertama, Anda perlu mendefinisikan daftar stopword dan tanda baca yang akan dihapus dari data teks pada latihan selanjutnya. Mari kita coba.

Latihan ini adalah bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Petunjuk latihan

  • Impor stopword dari ntlk.
  • Tetapkan kata-kata 'english' untuk digunakan sebagai stopword pada variabel stop.
  • Ambil himpunan tanda baca dari paket string dan tetapkan ke exclude.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)
Edit dan Jalankan Kode