Lidando com categorias incomuns
Alguns recursos podem ter muitas categorias diferentes, mas com uma distribuição bem desigual de ocorrências. Por exemplo, as linguagens favoritas para programar em Data Science: escolhas comuns são Python, R e Julia, mas também há pessoas com preferências personalizadas, como FORTRAN, C etc. Nesses casos, talvez você não queira criar um recurso para cada valor, e sim apenas para as ocorrências mais comuns.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a series out of the Country column
countries = so_survey_df.____
# Get the counts of each category
country_counts = countries.____
# Print the count values for each category
print(country_counts)