Tf-idf
Kelimelerin geçiş sayıları modeller kurmak için faydalı olsa da, çok sık geçen kelimeler sonuçları istenmeyen şekilde bozabilir. Bu yaygın kelimelerin modeli baskılamasını sınırlamak için bir tür normalizasyon kullanılabilir. Bu derste videoda bahsedildiği gibi Term frequency-inverse document frequency (Tf-idf) kullanacaksın. Tf-idf, yaygın kelimelerin değerini azaltırken, çok fazla belgede geçmeyen kelimelerin ağırlığını artırma etkisine sahiptir.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
sklearn.feature_extraction.textiçindenTfidfVectorizer'ı içe aktar.- Özellik sayısını 100 ile sınırlandırıp İngilizce durak (stop) kelimeleri kaldırarak
TfidfVectorizer'ı oluştur. - Vektörleştiriciyi
text_cleansütununda tek adımda eğitip uygula. - Kelimelerin ağırlıklarını ve öznitelik adlarını sütun adı olarak içeren
tv_dfadlı bir DataFrame oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import TfidfVectorizer
____
# Instantiate TfidfVectorizer
tv = ____
# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])
# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())