BaşlayınÜcretsiz Başlayın

Film yorumları için BoW vektörleri

Bu egzersizde sana iki pandas Series verildi: X_train ve X_test. Bunlar film yorumlarından oluşur ve sırasıyla eğitim ve test veri setlerini temsil eder. Görevin, yorumları ön işlemek ve CountVectorizer kullanarak bu iki set için BoW vektörleri oluşturmaktır.

BoW vektör matrisleri X_train_bow ve X_test_bow hazır olduğunda, bunları bir Machine Learning modeline uygulayıp duygu analizi yapmak için çok iyi bir konumda olacağız.

Bu egzersiz

Python ile NLP için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • sklearn kütüphanesinden CountVectorizer'ı içe aktar.
  • Tüm kelimelerin küçük harfe dönüştürüldüğünden ve english durak kelimelerinin (stopwords) kaldırıldığından emin olarak vectorizer adlı bir CountVectorizer nesnesi oluştur.
  • X_train'i kullanarak vectorizer'ı eğit ve ardından X_train'i dönüştürerek X_train_bow adlı BoW vektör kümesini üret.
  • vectorizer'ı kullanarak X_test'i dönüştür ve X_test_bow adlı BoW vektör kümesini üret.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)
Kodu Düzenle ve Çalıştır