Menganalisis dimensi dan prapemrosesan
Dalam latihan ini, Anda disediakan lem_corpus yang berisi versi prapemrosesan dari slogan film pada latihan sebelumnya. Dengan kata lain, slogan tersebut telah diubah menjadi huruf kecil, dilemmatization telah dilakukan, dan stopwords telah dihapus.
Tugas Anda adalah menghasilkan representasi bag-of-words bow_lem_matrix untuk slogan yang sudah dilemmatization ini dan membandingkan bentuknya dengan bow_matrix yang diperoleh pada latihan sebelumnya. Lima slogan pertama yang telah dilemmatization dalam lem_corpus telah dicetak ke konsol untuk Anda amati.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Instruksi latihan
- Impor kelas
CountVectorizerdarisklearn. - Instansiasikan objek
CountVectorizer. Beri namavectorizer. - Dengan menggunakan
fit_transform(), buatbow_lem_matrixuntuklem_corpus.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)
# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)