Film yorumları için BoW vektörleri
Bu egzersizde sana iki pandas Series verildi: X_train ve X_test. Bunlar film yorumlarından oluşur ve sırasıyla eğitim ve test veri setlerini temsil eder. Görevin, yorumları ön işlemek ve CountVectorizer kullanarak bu iki set için BoW vektörleri oluşturmaktır.
BoW vektör matrisleri X_train_bow ve X_test_bow hazır olduğunda, bunları bir Machine Learning modeline uygulayıp duygu analizi yapmak için çok iyi bir konumda olacağız.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
sklearnkütüphanesindenCountVectorizer'ı içe aktar.- Tüm kelimelerin küçük harfe dönüştürüldüğünden ve
englishdurak kelimelerinin (stopwords) kaldırıldığından emin olarakvectorizeradlı birCountVectorizernesnesi oluştur. X_train'i kullanarakvectorizer'ı eğit ve ardındanX_train'i dönüştürerekX_train_bowadlı BoW vektör kümesini üret.vectorizer'ı kullanarakX_test'i dönüştür veX_test_bowadlı BoW vektör kümesini üret.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)
# Fit and transform X_train
X_train_bow = vectorizer.____(____)
# Transform X_test
X_test_bow = vectorizer.____(____)
# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)