Agrupar valores en bins

Para muchos valores continuos, te importará menos el valor exacto de una columna numérica y más el intervalo (bucket) en el que cae. Esto puede ser útil al representar valores en gráficos o al simplificar tus modelos de Machine Learning. Suele usarse en variables continuas donde la precisión no es lo más importante, por ejemplo, edad, altura o salarios.

Los bins se crean con pd.cut(df['column_name'], bins), donde bins puede ser un entero que especifique el número de intervalos equiespaciados o una lista con los límites de los intervalos.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)

# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())

Editar y ejecutar código