Representasi TF-IDF dari umpan balik produk
Anda bekerja dengan tim dukungan pelanggan di sebuah perusahaan smart home. Mereka mengumpulkan umpan balik pengguna pada berbagai perangkat pintar dan ingin mengidentifikasi kata-kata yang paling menonjol di setiap ulasan. Anda menyarankan menggunakan teknik TF-IDF untuk menyoroti istilah yang paling relevan di seluruh entri umpan balik. Mari bantu mereka memulai!
Fungsi preprocess() yang menerima teks dan mengembalikan teks yang telah diproses sudah disiapkan untuk Anda. Fungsi ini menerapkan pengubahan huruf kecil, tokenisasi, dan penghapusan tanda baca. Pandas telah diimpor sebagai pd, dan kelas TfidfVectorizer siap digunakan.
Latihan ini adalah bagian dari kursus
Natural Language Processing (NLP) in Python
Petunjuk latihan
- Inisialisasi
vectorizerTF-IDF. - Ubah ulasan yang sudah dibersihkan menjadi
tfidf_matrix. - Buat DataFrame
dfuntuktfidf_matrix, dengan kata-kata kosakata sebagai kolom.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())