BaşlayınÜcretsiz başlayın

Görülmemiş veriyi dönüştürme

Metinden vektörler oluştururken, bir Machine Learning modelini eğitmeden önce yaptığın tüm dönüşümleri, yeni ve görülmemiş (test) veriye de uygulaman gerekir. Bunu yapmak için önceki bölümdeki aynı yaklaşımı izle: vektörleştiriciyi yalnızca eğitim verisi üzerinde fit et ve test verisine uygula.

Bu egzersiz için speech_df DataFrame'i ikiye bölündü:

  • train_speech_df: İlk 45 konuşmadan oluşan eğitim kümesi.
  • test_speech_df: Kalan konuşmalardan oluşan test kümesi.

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

  • TfidfVectorizer'ı başlat.
  • Vektörleştiriciyi fit et ve text_clean sütununa uygula.
  • Aynı vektörleştiriciyi test verisinin text_clean sütununa uygula.
  • Test kümesinden elde edilen bu yeni özelliklerin bir DataFrame'ini oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())
Kodu Düzenle ve Çalıştır