Model BoW untuk tagline film
Dalam latihan ini, Anda disediakan sebuah corpus berisi lebih dari 7000 tagline film. Tugas Anda adalah menghasilkan representasi bag of words bow_matrix untuk tagline tersebut. Untuk latihan ini, kita akan mengabaikan langkah prapemrosesan teks dan langsung menghasilkan bow_matrix.
Kita juga akan meninjau bentuk (shape) dari bow_matrix yang dihasilkan. Lima tagline pertama dalam corpus telah dicetak ke konsol untuk Anda amati.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Instruksi latihan
- Impor kelas
CountVectorizerdarisklearn. - Instansiasikan objek
CountVectorizer. Namaivectorizer. - Gunakan
fit_transform()untuk menghasilkanbow_matrixdaricorpus.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)