MulaiMulai sekarang secara gratis

BOW dengan n-gram dan ukuran kosa kata

Dalam latihan ini, Anda akan berlatih membangun bag-of-words sekali lagi, menggunakan himpunan data reviews berisi ulasan produk Amazon. Tugas utama Anda adalah membatasi ukuran kosa kata dan menentukan panjang urutan token.

Latihan ini adalah bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Petunjuk latihan

  • Impor vectorizer dari sklearn.
  • Bangun vectorizer dan pastikan untuk menentukan parameter berikut: ukuran kosa kata dibatasi hingga 1000, hanya menyertakan bigram, dan abaikan istilah yang muncul di lebih dari 500 dokumen.
  • Fit vectorizer ke kolom review.
  • Buat DataFrame dari representasi BOW.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())
Edit dan Jalankan Kode