En yaygın sözcükleri bulma
Özelliklerini oluşturduktan sonra, beklediğin gibi olup olmadıklarını görmek için onları incelemen her zaman tavsiye edilir. Bu sayede hataları erkenden yakalayabilir ve belki de hangi ek özellik mühendisliğine ihtiyaç duyacağını belirleyebilirsin.
Son egzersizde eğittiğin vektörleştirici (cv) ve sözcük sayılarından oluşan seyrek dizi (cv_trigram) çalışma alanında hazır.
Bu egzersiz, kursun bir parçasıdır
Python ile Machine Learning için Özellik Mühendisliği
Egzersiz talimatları
- Özelliklerin (sözcük sayımları) bir DataFrame'ini oluştur.
- Sözcük geçiş sayımlarını ekle ve en sık görülen ilk 5 sözcüğü yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())