Agrupar valores en bins
Para muchos valores continuos, te importará menos el valor exacto de una columna numérica y más el intervalo (bucket) en el que cae. Esto puede ser útil al representar valores en gráficos o al simplificar tus modelos de Machine Learning. Suele usarse en variables continuas donde la precisión no es lo más importante, por ejemplo, edad, altura o salarios.
Los bins se crean con pd.cut(df['column_name'], bins), donde bins puede ser un entero que especifique el número de intervalos equiespaciados o una lista con los límites de los intervalos.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
ejercicio interactivo práctico
Prueba este ejercicio completando este código de ejemplo.
# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)
# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())