Model BoW untuk tagline film
Dalam latihan ini, Anda disediakan sebuah corpus berisi lebih dari 7000 tagline film. Tugas Anda adalah menghasilkan representasi bag of words bow_matrix untuk tagline tersebut. Untuk latihan ini, kita akan mengabaikan langkah prapemrosesan teks dan langsung menghasilkan bow_matrix.
Kita juga akan meninjau bentuk (shape) dari bow_matrix yang dihasilkan. Lima tagline pertama dalam corpus telah dicetak ke konsol untuk Anda amati.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Impor kelas
CountVectorizerdarisklearn. - Instansiasikan objek
CountVectorizer. Namaivectorizer. - Gunakan
fit_transform()untuk menghasilkanbow_matrixdaricorpus.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)