Latihan prapemrosesan teks
Sekarang giliran Anda menerapkan teknik yang telah dipelajari untuk membersihkan teks agar hasil NLP lebih baik. Anda perlu menghapus stop words dan karakter non-alfabet, melakukan lemmatisasi, dan membuat bag-of-words baru pada teks yang sudah dibersihkan.
Anda mulai dengan token yang sama seperti pada latihan sebelumnya: lower_tokens. Kelas Counter juga sudah diimpor.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Impor kelas
WordNetLemmatizerdarinltk.stem. - Buat list
alpha_onlyyang berisi hanya karakter alfabet. Anda dapat menggunakan metode.isalpha()untuk memeriksanya. - Buat list lain bernama
no_stopsyang terdiri atas kata-kata darialpha_onlyyang tidak terdapat dalamenglish_stops. - Inisialisasi objek
WordNetLemmatizerbernamawordnet_lemmatizerdan gunakan metode.lemmatize()pada token dalamno_stopsuntuk membuat list baru bernamalemmatized. - Buat
Counterbaru bernamabowdengan kata-kata hasil lemmatisasi. - Terakhir, cetak 10 token yang paling umum.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import WordNetLemmatizer
____
# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]
# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]
# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____
# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]
# Create the bag-of-words: bow
bow = ____(____)
# Print the 10 most common tokens
print(____.____(__))