Cómo tratar categorías poco frecuentes

Algunas variables pueden tener muchas categorías con una distribución muy desigual de sus apariciones. Por ejemplo, los lenguajes favoritos para programar en Data Science: algunas opciones comunes son Python, R y Julia, pero también puede haber personas con elecciones particulares, como FORTRAN, C, etc. En estos casos, quizá no quieras crear una característica para cada valor, sino solo para las categorías más comunes.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create a series out of the Country column
countries = so_survey_df.____

# Get the counts of each category
country_counts = countries.____

# Print the count values for each category
print(country_counts)

Editar y ejecutar código