BaşlayınÜcretsiz başlayın

Film yorumları için BoW vektörleri

Bu egzersizde sana iki pandas Series verildi: X_train ve X_test. Bunlar film yorumlarından oluşur ve sırasıyla eğitim ve test veri setlerini temsil eder. Görevin, yorumları ön işlemek ve CountVectorizer kullanarak bu iki set için BoW vektörleri oluşturmaktır.

BoW vektör matrisleri X_train_bow ve X_test_bow hazır olduğunda, bunları bir Machine Learning modeline uygulayıp duygu analizi yapmak için çok iyi bir konumda olacağız.

Bu egzersiz, kursun bir parçasıdır

Python ile NLP için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

  • sklearn kütüphanesinden CountVectorizer'ı içe aktar.
  • Tüm kelimelerin küçük harfe dönüştürüldüğünden ve english durak kelimelerinin (stopwords) kaldırıldığından emin olarak vectorizer adlı bir CountVectorizer nesnesi oluştur.
  • X_train'i kullanarak vectorizer'ı eğit ve ardından X_train'i dönüştürerek X_train_bow adlı BoW vektör kümesini üret.
  • vectorizer'ı kullanarak X_test'i dönüştür ve X_test_bow adlı BoW vektör kümesini üret.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)
Kodu Düzenle ve Çalıştır