Nadir kategorilerle başa çıkma
Bazı özelliklerin birçok farklı kategorisi olabilir ancak bu kategorilerin görülme sıklıkları çok dengesiz dağılmış olabilir. Örneğin Veri Bilimi’nde en çok kullanılan programlama dilleri arasında Python, R ve Julia gibi yaygın seçenekler var; ama FORTRAN, C gibi daha kişisel tercihler de görülebilir. Bu gibi durumlarda, her bir değer için ayrı bir özellik oluşturmak yerine yalnızca daha yaygın olanları için özellik oluşturmak isteyebilirsin.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a series out of the Country column
countries = so_survey_df.____
# Get the counts of each category
country_counts = countries.____
# Print the count values for each category
print(country_counts)