Vektor BoW untuk ulasan film
Dalam latihan ini, Anda diberikan dua Series pandas, X_train dan X_test, yang berisi ulasan film. Keduanya mewakili data ulasan untuk pelatihan dan pengujian. Tugas Anda adalah melakukan prapemrosesan ulasan dan menghasilkan vektor BoW untuk kedua himpunan ini menggunakan CountVectorizer.
Setelah kita menghasilkan matriks vektor BoW X_train_bow dan X_test_bow, kita akan berada pada posisi yang sangat baik untuk menerapkan model Machine Learning dan melakukan analisis sentimen.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Impor
CountVectorizerdari pustakasklearn. - Buat instance objek
CountVectorizerbernamavectorizer. Pastikan semua kata diubah menjadi huruf kecil dan stopwordenglishdihapus. - Dengan menggunakan
X_train, latihvectorizerlalu gunakan untuk mentransformasiX_trainguna menghasilkan himpunan vektor BoWX_train_bow. - Transformasikan
X_testmenggunakanvectorizeruntuk menghasilkan himpunan vektor BoWX_test_bow.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)
# Fit and transform X_train
X_train_bow = vectorizer.____(____)
# Transform X_test
X_test_bow = vectorizer.____(____)
# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)