BaşlayınÜcretsiz Başlayın

Tf-idf

Kelimelerin geçiş sayıları modeller kurmak için faydalı olsa da, çok sık geçen kelimeler sonuçları istenmeyen şekilde bozabilir. Bu yaygın kelimelerin modeli baskılamasını sınırlamak için bir tür normalizasyon kullanılabilir. Bu derste videoda bahsedildiği gibi Term frequency-inverse document frequency (Tf-idf) kullanacaksın. Tf-idf, yaygın kelimelerin değerini azaltırken, çok fazla belgede geçmeyen kelimelerin ağırlığını artırma etkisine sahiptir.

Bu egzersiz

Python ile Machine Learning için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • sklearn.feature_extraction.text içinden TfidfVectorizer'ı içe aktar.
  • Özellik sayısını 100 ile sınırlandırıp İngilizce durak (stop) kelimeleri kaldırarak TfidfVectorizer'ı oluştur.
  • Vektörleştiriciyi text_clean sütununda tek adımda eğitip uygula.
  • Kelimelerin ağırlıklarını ve öznitelik adlarını sütun adı olarak içeren tv_df adlı bir DataFrame oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import TfidfVectorizer
____

# Instantiate TfidfVectorizer
tv = ____

# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])

# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____, 
                     columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())
Kodu Düzenle ve Çalıştır