BOW dengan n-gram dan ukuran kosa kata

Dalam latihan ini, Anda akan berlatih membangun bag-of-words sekali lagi, menggunakan himpunan data reviews berisi ulasan produk Amazon. Tugas utama Anda adalah membatasi ukuran kosa kata dan menentukan panjang urutan token.

Latihan ini merupakan bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Instruksi latihan

Impor vectorizer dari sklearn.
Bangun vectorizer dan pastikan untuk menentukan parameter berikut: ukuran kosa kata dibatasi hingga 1000, hanya menyertakan bigram, dan abaikan istilah yang muncul di lebih dari 500 dokumen.
Fit vectorizer ke kolom review.
Buat DataFrame dari representasi BOW.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())

Edit dan Jalankan Kode