Görülmemiş veriyi dönüştürme
Metinden vektörler oluştururken, bir Machine Learning modelini eğitmeden önce yaptığın tüm dönüşümleri, yeni ve görülmemiş (test) veriye de uygulaman gerekir. Bunu yapmak için önceki bölümdeki aynı yaklaşımı izle: vektörleştiriciyi yalnızca eğitim verisi üzerinde fit et ve test verisine uygula.
Bu egzersiz için speech_df DataFrame'i ikiye bölündü:
train_speech_df: İlk 45 konuşmadan oluşan eğitim kümesi.test_speech_df: Kalan konuşmalardan oluşan test kümesi.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
TfidfVectorizer'ı başlat.- Vektörleştiriciyi fit et ve
text_cleansütununa uygula. - Aynı vektörleştiriciyi test verisinin
text_cleansütununa uygula. - Test kümesinden elde edilen bu yeni özelliklerin bir DataFrame'ini oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())