Tentukan panjang urutan token dengan BOW
Kita melihat dalam video bahwa dengan menentukan panjang token yang berbeda—yang kita sebut n-gram—kita dapat menangkap konteks dengan lebih baik, yang bisa sangat penting.
Dalam latihan ini, Anda akan bekerja dengan sampel ulasan produk Amazon. Tugas Anda adalah membangun kosakata BOW menggunakan kolom review dan menentukan panjang urutan token.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Bangun vectorizer dengan menentukan panjang urutan token sebagai uni- dan bigram.
- Lakukan fit pada vectorizer.
- Transformasikan vectorizer yang sudah di-fit.
- Dalam DataFrame, pastikan Anda menentukan nama kolom dengan benar.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())