Menganalisis dimensi dan prapemrosesan

Dalam latihan ini, Anda disediakan lem_corpus yang berisi versi prapemrosesan dari slogan film pada latihan sebelumnya. Dengan kata lain, slogan tersebut telah diubah menjadi huruf kecil, dilemmatization telah dilakukan, dan stopwords telah dihapus.

Tugas Anda adalah menghasilkan representasi bag-of-words bow_lem_matrix untuk slogan yang sudah dilemmatization ini dan membandingkan bentuknya dengan bow_matrix yang diperoleh pada latihan sebelumnya. Lima slogan pertama yang telah dilemmatization dalam lem_corpus telah dicetak ke konsol untuk Anda amati.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Instruksi latihan

Impor kelas CountVectorizer dari sklearn.
Instansiasikan objek CountVectorizer. Beri nama vectorizer.
Dengan menggunakan fit_transform(), buat bow_lem_matrix untuk lem_corpus.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)

Edit dan Jalankan Kode