Kelimeleri sayma (I)
Üst düzey bilgiler kaydedildikten sonra, her bir metnin gerçek içeriğine dayalı özellikler oluşturmaya başlayabilirsin. Bunu yapmanın bir yolu, önceki derslerde kategorik değişkenlerle çalışmana benzer bir yaklaşım izlemektir.
- Veri kümesindeki her benzersiz kelime için bir sütun oluşturulur.
- Her kayıt için, bu kelimenin kaç kez geçtiği sayılır ve bu sayı ilgili sütuna yazılır.
Bu "count" sütunları daha sonra Machine Learning modellerini eğitmek için kullanılabilir.
Bu egzersiz, kursun bir parçasıdır
Python ile Machine Learning için Özellik Mühendisliği
Egzersiz talimatları
sklearn.feature_extraction.textiçindenCountVectorizer'ı içe aktar.CountVectorizer'ı oluştur vecvdeğişkenine ata.- Vektörleştiriciyi
text_cleansütununa fit et. - Vektörleştiricinin ürettiği özellik adlarını yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import CountVectorizer
____
# Instantiate CountVectorizer
cv = ____
# Fit the vectorizer
cv.____(speech_df['text_clean'])
# Print feature names
print(cv.____)