Tf-idf
Kelimelerin geçiş sayıları modeller kurmak için faydalı olsa da, çok sık geçen kelimeler sonuçları istenmeyen şekilde bozabilir. Bu yaygın kelimelerin modeli baskılamasını sınırlamak için bir tür normalizasyon kullanılabilir. Bu derste videoda bahsedildiği gibi Term frequency-inverse document frequency (Tf-idf) kullanacaksın. Tf-idf, yaygın kelimelerin değerini azaltırken, çok fazla belgede geçmeyen kelimelerin ağırlığını artırma etkisine sahiptir.
Bu egzersiz, kursun bir parçasıdır
Python ile Machine Learning için Özellik Mühendisliği
Egzersiz talimatları
sklearn.feature_extraction.textiçindenTfidfVectorizer'ı içe aktar.- Özellik sayısını 100 ile sınırlandırıp İngilizce durak (stop) kelimeleri kaldırarak
TfidfVectorizer'ı oluştur. - Vektörleştiriciyi
text_cleansütununda tek adımda eğitip uygula. - Kelimelerin ağırlıklarını ve öznitelik adlarını sütun adı olarak içeren
tv_dfadlı bir DataFrame oluştur.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import TfidfVectorizer
____
# Instantiate TfidfVectorizer
tv = ____
# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])
# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())