MulaiMulai sekarang secara gratis

Model BoW untuk tagline film

Dalam latihan ini, Anda disediakan sebuah corpus berisi lebih dari 7000 tagline film. Tugas Anda adalah menghasilkan representasi bag of words bow_matrix untuk tagline tersebut. Untuk latihan ini, kita akan mengabaikan langkah prapemrosesan teks dan langsung menghasilkan bow_matrix.

Kita juga akan meninjau bentuk (shape) dari bow_matrix yang dihasilkan. Lima tagline pertama dalam corpus telah dicetak ke konsol untuk Anda amati.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Petunjuk latihan

  • Impor kelas CountVectorizer dari sklearn.
  • Instansiasikan objek CountVectorizer. Namai vectorizer.
  • Gunakan fit_transform() untuk menghasilkan bow_matrix dari corpus.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Print the shape of bow_matrix
print(bow_matrix.shape)
Edit dan Jalankan Kode