Görülmemiş veriyi dönüştürme
Metinden vektörler oluştururken, bir Machine Learning modelini eğitmeden önce yaptığın tüm dönüşümleri, yeni ve görülmemiş (test) veriye de uygulaman gerekir. Bunu yapmak için önceki bölümdeki aynı yaklaşımı izle: vektörleştiriciyi yalnızca eğitim verisi üzerinde fit et ve test verisine uygula.
Bu egzersiz için speech_df DataFrame'i ikiye bölündü:
train_speech_df: İlk 45 konuşmadan oluşan eğitim kümesi.test_speech_df: Kalan konuşmalardan oluşan test kümesi.
Bu egzersiz, kursun bir parçasıdır
Python ile Machine Learning için Özellik Mühendisliği
Egzersiz talimatları
TfidfVectorizer'ı başlat.- Vektörleştiriciyi fit et ve
text_cleansütununa uygula. - Aynı vektörleştiriciyi test verisinin
text_cleansütununa uygula. - Test kümesinden elde edilen bu yeni özelliklerin bir DataFrame'ini oluştur.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())