Tentukan panjang urutan token dengan BOW

Kita melihat dalam video bahwa dengan menentukan panjang token yang berbeda—yang kita sebut n-gram—kita dapat menangkap konteks dengan lebih baik, yang bisa sangat penting.

Dalam latihan ini, Anda akan bekerja dengan sampel ulasan produk Amazon. Tugas Anda adalah membangun kosakata BOW menggunakan kolom review dan menentukan panjang urutan token.

Latihan ini merupakan bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Instruksi latihan

Bangun vectorizer dengan menentukan panjang urutan token sebagai uni- dan bigram.
Lakukan fit pada vectorizer.
Transformasikan vectorizer yang sudah di-fit.
Dalam DataFrame, pastikan Anda menentukan nama kolom dengan benar.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())

Edit dan Jalankan Kode