MulaiMulai sekarang secara gratis

Vektor BoW untuk ulasan film

Dalam latihan ini, Anda diberikan dua Series pandas, X_train dan X_test, yang berisi ulasan film. Keduanya mewakili data ulasan untuk pelatihan dan pengujian. Tugas Anda adalah melakukan prapemrosesan ulasan dan menghasilkan vektor BoW untuk kedua himpunan ini menggunakan CountVectorizer.

Setelah kita menghasilkan matriks vektor BoW X_train_bow dan X_test_bow, kita akan berada pada posisi yang sangat baik untuk menerapkan model Machine Learning dan melakukan analisis sentimen.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Petunjuk latihan

  • Impor CountVectorizer dari pustaka sklearn.
  • Buat instance objek CountVectorizer bernama vectorizer. Pastikan semua kata diubah menjadi huruf kecil dan stopword english dihapus.
  • Dengan menggunakan X_train, latih vectorizer lalu gunakan untuk mentransformasi X_train guna menghasilkan himpunan vektor BoW X_train_bow.
  • Transformasikan X_test menggunakan vectorizer untuk menghasilkan himpunan vektor BoW X_test_bow.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)
Edit dan Jalankan Kode