Menganalisis dimensi dan prapemrosesan
Dalam latihan ini, Anda disediakan lem_corpus yang berisi versi prapemrosesan dari slogan film pada latihan sebelumnya. Dengan kata lain, slogan tersebut telah diubah menjadi huruf kecil, dilemmatization telah dilakukan, dan stopwords telah dihapus.
Tugas Anda adalah menghasilkan representasi bag-of-words bow_lem_matrix untuk slogan yang sudah dilemmatization ini dan membandingkan bentuknya dengan bow_matrix yang diperoleh pada latihan sebelumnya. Lima slogan pertama yang telah dilemmatization dalam lem_corpus telah dicetak ke konsol untuk Anda amati.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Impor kelas
CountVectorizerdarisklearn. - Instansiasikan objek
CountVectorizer. Beri namavectorizer. - Dengan menggunakan
fit_transform(), buatbow_lem_matrixuntuklem_corpus.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)
# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)