MulaiMulai sekarang secara gratis

Menangani kategori yang jarang muncul

Beberapa fitur dapat memiliki banyak kategori dengan sebaran kemunculan yang sangat tidak merata. Contohnya bahasa favorit untuk ngoding di bidang Data Science: pilihan umum adalah Python, R, dan Julia, namun ada juga individu dengan pilihan khusus seperti FORTRAN, C, dan lainnya. Dalam kasus seperti ini, Anda mungkin tidak ingin membuat fitur untuk setiap nilai, melainkan hanya untuk kemunculan yang lebih umum.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a series out of the Country column
countries = so_survey_df.____

# Get the counts of each category
country_counts = countries.____

# Print the count values for each category
print(country_counts)
Edit dan Jalankan Kode