Menangani kategori yang jarang muncul
Beberapa fitur dapat memiliki banyak kategori dengan sebaran kemunculan yang sangat tidak merata. Contohnya bahasa favorit untuk ngoding di bidang Data Science: pilihan umum adalah Python, R, dan Julia, namun ada juga individu dengan pilihan khusus seperti FORTRAN, C, dan lainnya. Dalam kasus seperti ini, Anda mungkin tidak ingin membuat fitur untuk setiap nilai, melainkan hanya untuk kemunculan yang lebih umum.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a series out of the Country column
countries = so_survey_df.____
# Get the counts of each category
country_counts = countries.____
# Print the count values for each category
print(country_counts)