MulaiMulai sekarang secara gratis

Menganalisis dimensi dan prapemrosesan

Dalam latihan ini, Anda disediakan lem_corpus yang berisi versi prapemrosesan dari slogan film pada latihan sebelumnya. Dengan kata lain, slogan tersebut telah diubah menjadi huruf kecil, dilemmatization telah dilakukan, dan stopwords telah dihapus.

Tugas Anda adalah menghasilkan representasi bag-of-words bow_lem_matrix untuk slogan yang sudah dilemmatization ini dan membandingkan bentuknya dengan bow_matrix yang diperoleh pada latihan sebelumnya. Lima slogan pertama yang telah dilemmatization dalam lem_corpus telah dicetak ke konsol untuk Anda amati.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Petunjuk latihan

  • Impor kelas CountVectorizer dari sklearn.
  • Instansiasikan objek CountVectorizer. Beri nama vectorizer.
  • Dengan menggunakan fit_transform(), buat bow_lem_matrix untuk lem_corpus.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)
Edit dan Jalankan Kode