BOW menggunakan ulasan produk
Anda telah mempraktikkan BOW pada himpunan data kecil. Sekarang Anda akan menerapkannya pada sampel ulasan produk Amazon. Data telah diimpor untuk Anda dengan nama reviews. Data ini memiliki dua kolom. Kolom pertama bernama score dan bernilai 0 jika ulasannya negatif, serta 1 jika positif. Kolom kedua bernama review dan berisi teks ulasan yang ditulis pelanggan. Silakan jelajahi data di IPython Shell.
Tugas Anda adalah membangun kosakata BOW dengan menggunakan kolom review.
Ingat bahwa kita dapat memanggil metode .get_feature_names() pada vectorizer untuk memperoleh daftar seluruh elemen kosakata.
Latihan ini merupakan bagian dari kursus
Analisis Sentimen dengan Python
Instruksi latihan
- Buat objek CountVectorizer dengan menentukan jumlah fitur maksimum.
- Fit vectorizer.
- Transformasikan vectorizer yang sudah di-fit.
- Buat DataFrame dengan mengubah matriks jarang menjadi array padat dan pastikan Anda menentukan nama kolom dengan benar.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify max features
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())