Membangun kosakata dari ulasan pelanggan
Anda adalah bagian dari tim analitik produk di TechZone, sebuah perusahaan elektronik konsumen. Anda menerima sejumlah kecil ulasan pelanggan untuk gimcia terbaru. Untuk menganalisis ulasan tersebut, Anda akan terlebih dahulu melakukan prapemrosesan teks dan membangun sebuah kosakata, yaitu daftar kata unik yang menentukan fitur yang digunakan untuk merepresentasikan setiap ulasan sebagai data numerik.
Fungsi preprocess() telah dimuat untuk Anda. Fungsi ini mengubah teks menjadi huruf kecil, melakukan tokenisasi, dan menghapus tanda baca.
Latihan ini adalah bagian dari kursus
Natural Language Processing (NLP) in Python
Petunjuk latihan
- Praproses setiap ulasan dalam himpunan data menggunakan fungsi
preprocess(). - Fit
vectorizerpada ulasan yang telah dipraproses. - Cetak kosakata yang dihasilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
reviews = [
"The product is fantastic! It works like a charm.",
"I hated the product. It broke after one use.",
"Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]
vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary
print(vectorizer.____)