MulaiMulai sekarang secara gratis

BOW menggunakan ulasan produk

Anda telah mempraktikkan BOW pada himpunan data kecil. Sekarang Anda akan menerapkannya pada sampel ulasan produk Amazon. Data telah diimpor untuk Anda dengan nama reviews. Data ini memiliki dua kolom. Kolom pertama bernama score dan bernilai 0 jika ulasannya negatif, serta 1 jika positif. Kolom kedua bernama review dan berisi teks ulasan yang ditulis pelanggan. Silakan jelajahi data di IPython Shell.

Tugas Anda adalah membangun kosakata BOW dengan menggunakan kolom review.

Ingat bahwa kita dapat memanggil metode .get_feature_names() pada vectorizer untuk memperoleh daftar seluruh elemen kosakata.

Latihan ini adalah bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Petunjuk latihan

  • Buat objek CountVectorizer dengan menentukan jumlah fitur maksimum.
  • Fit vectorizer.
  • Transformasikan vectorizer yang sudah di-fit.
  • Buat DataFrame dengan mengubah matriks jarang menjadi array padat dan pastikan Anda menentukan nama kolom dengan benar.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())
Edit dan Jalankan Kode