BOW dengan n-gram dan ukuran kosa kata
Dalam latihan ini, Anda akan berlatih membangun bag-of-words sekali lagi, menggunakan himpunan data reviews berisi ulasan produk Amazon. Tugas utama Anda adalah membatasi ukuran kosa kata dan menentukan panjang urutan token.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor vectorizer dari
sklearn. - Bangun vectorizer dan pastikan untuk menentukan parameter berikut: ukuran kosa kata dibatasi hingga 1000, hanya menyertakan bigram, dan abaikan istilah yang muncul di lebih dari 500 dokumen.
- Fit vectorizer ke kolom
review. - Buat DataFrame dari representasi BOW.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
#Import the vectorizer
from sklearn.____.____ import ____
# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)
# Transform the review
X_review = vect.transform(reviews.review)
# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())