Lidando com categorias incomuns

Alguns recursos podem ter muitas categorias diferentes, mas com uma distribuição bem desigual de ocorrências. Por exemplo, as linguagens favoritas para programar em Data Science: escolhas comuns são Python, R e Julia, mas também há pessoas com preferências personalizadas, como FORTRAN, C etc. Nesses casos, talvez você não queira criar um recurso para cada valor, e sim apenas para as ocorrências mais comuns.

Este exercicio faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a series out of the Country column
countries = so_survey_df.____

# Get the counts of each category
country_counts = countries.____

# Print the count values for each category
print(country_counts)

Editar e Executar Código