Film sloganları için BoW modeli
Bu egzersizde, sana 7000'den fazla film sloganından oluşan bir corpus verildi. Görevin, bu sloganlar için bag-of-words gösterimi olan bow_matrix'i üretmek. Bu egzersizde metin ön işleme adımını atlayıp bow_matrix'i doğrudan oluşturacağız.
Ayrıca ortaya çıkan bow_matrix'in şeklini de inceleyeceğiz. corpus içindeki ilk beş slogan senin incelemen için konsola yazdırıldı.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
sklearniçindenCountVectorizersınıfını içe aktar.- Bir
CountVectorizernesnesi oluştur ve adınıvectorizerkoy. fit_transform()kullanarakcorpusiçinbow_matrix'i üret.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)