Mulai sekarangMulai gratis

Menghapus stopword

Pada latihan berikut, Anda akan membersihkan email Enron agar data dapat digunakan dalam topic model. Pembersihan teks bisa menantang, jadi Anda akan mempelajari beberapa langkah untuk melakukannya dengan baik. Dataframe yang berisi email, df, tersedia. Pada langkah pertama, Anda perlu mendefinisikan daftar stopword dan tanda baca yang akan dihapus dari data teks pada latihan selanjutnya. Mari kita coba.

Latihan ini merupakan bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Instruksi latihan

  • Impor stopword dari ntlk.
  • Tetapkan kata-kata 'english' untuk digunakan sebagai stopword pada variabel stop.
  • Ambil himpunan tanda baca dari paket string dan tetapkan ke exclude.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)
Edit dan Jalankan Kode