Mengubah ke huruf kecil
Anda sedang menganalisis ulasan pengguna untuk sebuah situs web perjalanan. Ulasan ini sering kali memiliki penulisan huruf besar yang tidak konsisten seperti "TRAVEL" dan "travel". Untuk menyiapkan teks bagi analisis sentimen dan ekstraksi topik, pertama-tama Anda akan mengonversi semua kata menjadi huruf kecil, lalu melakukan tokenisasi dan membersihkannya dari stop word dan tanda baca.
Fungsi word_tokenize(), daftar stop_words telah disediakan. Sumber daya NLTK sudah diunduh.
Latihan ini adalah bagian dari kursus
Natural Language Processing (NLP) in Python
Petunjuk latihan
- Ubah
reviewyang disediakan menjadi huruf kecil. - Tokenisasikan
lower_textmenjadi kata-kata. - Gunakan list comprehension untuk menghapus stop word dan tanda baca menggunakan daftar
stop_wordsdanstring.punctuation.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)