Agrupar valores en bins
Para muchos valores continuos, te importará menos el valor exacto de una columna numérica y más el intervalo (bucket) en el que cae. Esto puede ser útil al representar valores en gráficos o al simplificar tus modelos de Machine Learning. Suele usarse en variables continuas donde la precisión no es lo más importante, por ejemplo, edad, altura o salarios.
Los bins se crean con pd.cut(df['column_name'], bins), donde bins puede ser un entero que especifique el número de intervalos equiespaciados o una lista con los límites de los intervalos.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)
# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())