Kelimeleri sayma (I)
Üst düzey bilgiler kaydedildikten sonra, her bir metnin gerçek içeriğine dayalı özellikler oluşturmaya başlayabilirsin. Bunu yapmanın bir yolu, önceki derslerde kategorik değişkenlerle çalışmana benzer bir yaklaşım izlemektir.
- Veri kümesindeki her benzersiz kelime için bir sütun oluşturulur.
- Her kayıt için, bu kelimenin kaç kez geçtiği sayılır ve bu sayı ilgili sütuna yazılır.
Bu "count" sütunları daha sonra Machine Learning modellerini eğitmek için kullanılabilir.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
sklearn.feature_extraction.textiçindenCountVectorizer'ı içe aktar.CountVectorizer'ı oluştur vecvdeğişkenine ata.- Vektörleştiriciyi
text_cleansütununa fit et. - Vektörleştiricinin ürettiği özellik adlarını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import CountVectorizer
____
# Instantiate CountVectorizer
cv = ____
# Fit the vectorizer
cv.____(speech_df['text_clean'])
# Print feature names
print(cv.____)