Tentukan panjang urutan token dengan BOW
Kita melihat dalam video bahwa dengan menentukan panjang token yang berbeda—yang kita sebut n-gram—kita dapat menangkap konteks dengan lebih baik, yang bisa sangat penting.
Dalam latihan ini, Anda akan bekerja dengan sampel ulasan produk Amazon. Tugas Anda adalah membangun kosakata BOW menggunakan kolom review dan menentukan panjang urutan token.
Latihan ini merupakan bagian dari kursus
Analisis Sentimen dengan Python
Instruksi latihan
- Bangun vectorizer dengan menentukan panjang urutan token sebagai uni- dan bigram.
- Lakukan fit pada vectorizer.
- Transformasikan vectorizer yang sudah di-fit.
- Dalam DataFrame, pastikan Anda menentukan nama kolom dengan benar.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())