Boyutluluk ve ön işlemeyi analiz etme
Bu egzersizde, önceki egzersizdeki film sloganlarının ön işlemden geçirilmiş hâllerini içeren bir lem_corpus verildi. Başka bir deyişle, sloganlar küçük harfe çevrildi, köklerine indirgenip (lemmatize edilip) durak sözcükler çıkarıldı.
Görevin, bu lemmatize edilmiş sloganlar için bag-of-words gösterimi olan bow_lem_matrix'i üretmek ve önceki egzersizde elde edilen bow_matrix'in şekliyle karşılaştırmak. lem_corpus içindeki ilk beş lemmatize slogan incelemen için konsola yazdırıldı.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
sklearniçindenCountVectorizersınıfını içe aktar.- Bir
CountVectorizernesnesi oluştur. Adıvectorizerolsun. fit_transform()kullanaraklem_corpusiçinbow_lem_matrix'i üret.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)
# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)