MulaiMulai sekarang secara gratis

Representasi TF-IDF dari umpan balik produk

Anda bekerja dengan tim dukungan pelanggan di sebuah perusahaan smart home. Mereka mengumpulkan umpan balik pengguna pada berbagai perangkat pintar dan ingin mengidentifikasi kata-kata yang paling menonjol di setiap ulasan. Anda menyarankan menggunakan teknik TF-IDF untuk menyoroti istilah yang paling relevan di seluruh entri umpan balik. Mari bantu mereka memulai!

Fungsi preprocess() yang menerima teks dan mengembalikan teks yang telah diproses sudah disiapkan untuk Anda. Fungsi ini menerapkan pengubahan huruf kecil, tokenisasi, dan penghapusan tanda baca. Pandas telah diimpor sebagai pd, dan kelas TfidfVectorizer siap digunakan.

Latihan ini adalah bagian dari kursus

Natural Language Processing (NLP) in Python

Lihat Kursus

Petunjuk latihan

  • Inisialisasi vectorizer TF-IDF.
  • Ubah ulasan yang sudah dibersihkan menjadi tfidf_matrix.
  • Buat DataFrame df untuk tfidf_matrix, dengan kata-kata kosakata sebagai kolom.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Edit dan Jalankan Kode