Film sloganları için BoW modeli
Bu egzersizde, sana 7000'den fazla film sloganından oluşan bir corpus verildi. Görevin, bu sloganlar için bag-of-words gösterimi olan bow_matrix'i üretmek. Bu egzersizde metin ön işleme adımını atlayıp bow_matrix'i doğrudan oluşturacağız.
Ayrıca ortaya çıkan bow_matrix'in şeklini de inceleyeceğiz. corpus içindeki ilk beş slogan senin incelemen için konsola yazdırıldı.
Bu egzersiz, kursun bir parçasıdır
Python ile NLP için Özellik Mühendisliği
Egzersiz talimatları
sklearniçindenCountVectorizersınıfını içe aktar.- Bir
CountVectorizernesnesi oluştur ve adınıvectorizerkoy. fit_transform()kullanarakcorpusiçinbow_matrix'i üret.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)