En yaygın sözcükleri bulma
Özelliklerini oluşturduktan sonra, beklediğin gibi olup olmadıklarını görmek için onları incelemen her zaman tavsiye edilir. Bu sayede hataları erkenden yakalayabilir ve belki de hangi ek özellik mühendisliğine ihtiyaç duyacağını belirleyebilirsin.
Son egzersizde eğittiğin vektörleştirici (cv) ve sözcük sayılarından oluşan seyrek dizi (cv_trigram) çalışma alanında hazır.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
- Özelliklerin (sözcük sayımları) bir DataFrame'ini oluştur.
- Sözcük geçiş sayımlarını ekle ve en sık görülen ilk 5 sözcüğü yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())