MulaiMulai sekarang secara gratis

Tentukan panjang urutan token dengan BOW

Kita melihat dalam video bahwa dengan menentukan panjang token yang berbeda—yang kita sebut n-gram—kita dapat menangkap konteks dengan lebih baik, yang bisa sangat penting.

Dalam latihan ini, Anda akan bekerja dengan sampel ulasan produk Amazon. Tugas Anda adalah membangun kosakata BOW menggunakan kolom review dan menentukan panjang urutan token.

Latihan ini adalah bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Petunjuk latihan

  • Bangun vectorizer dengan menentukan panjang urutan token sebagai uni- dan bigram.
  • Lakukan fit pada vectorizer.
  • Transformasikan vectorizer yang sudah di-fit.
  • Dalam DataFrame, pastikan Anda menentukan nama kolom dengan benar.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())
Edit dan Jalankan Kode